CN107506347A

CN107506347A - 一种智能获取代跑聊天记录的方法及装置

Info

Publication number: CN107506347A
Application number: CN201710603201.4A
Authority: CN
Inventors: 聂江林
Original assignee: Changsha Rabbit Running Network Technology Co Ltd
Current assignee: Changsha Rabbit Running Network Technology Co Ltd
Priority date: 2017-07-22
Filing date: 2017-07-22
Publication date: 2017-12-22

Abstract

本发明公开的智能获取代跑聊天记录的方法及装置，通过以聊天用户组为采集单位，采集聊天服务器在预设时间阈值内的聊天内容，提取每一组聊天内容的关键词，获取与每一组聊天内容的关键词对应的词向量，获得关键词向量以及计算关键词向量与预设代跑特征词的词向量之间的相似度，并基于相似度获得代跑聊天记录，解决了现有技术不能准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录的技术问题，使得基于相似度获取的代跑聊天记录能准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录，实用价值高。

Description

一种智能获取代跑聊天记录的方法及装置

技术领域

本发明涉及通讯领域，特别地，涉及一种智能获取代跑聊天记录的方法及装置。

背景技术

代跑最初的含义是代替客户跑步。随着时代发展，代跑成为替人跑腿办事的代名词。且随着互联网的快速发展，代跑业务和代跑需求也如雨后春笋般涌现。

由于与代跑业务关联的聊天用户的聊天记录往往具有一定的特征，例如包含与代跑相关的特征词“跑”、“代跑”、“跑腿”、“没时间跑”、“帮我跑”、“请人帮忙跑”等等。因此利用聊天用户的聊天记录挖掘代跑客户，分析代跑具体需求成为可行之举，但如何准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录并非一件易事。针对该问题，本发明提出了一种智能获取代跑聊天记录的方法及装置。

发明内容

本发明提供了一种智能获取代跑聊天记录的方法及装置，以解决现有技术不能准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录的技术问题。

根据本发明的一方面，提供了一种智能获取代跑聊天记录的方法，包括：

以聊天用户组为采集单位，采集聊天服务器在预设时间阈值内的聊天内容；

提取每一组聊天内容的关键词；

获取与每一组聊天内容的关键词对应的词向量，获得关键词向量；

计算关键词向量与预设代跑特征词的词向量之间的相似度，并基于相似度获得代跑聊天记录。

进一步地，基于相似度获得代跑聊天记录之后包括：

保存代跑聊天记录。

进一步地，提取每一组聊天内容的关键词包括：

采用正向最大匹配法或逆向最大匹配法对聊天内容进行分词，获得分词文本；

统计分词文本的词频数，并选取词频数大于预设词频数的分词文本作为关键词。

进一步地，基于相似度获得代跑聊天记录包括：

判断相似度是否大于预设相似度阈值，若是，则判定聊天内容为代跑聊天记录，否则为非代跑聊天记录。

根据本发明的另一方面，提供了一种智能获取代跑聊天记录的装置，包括：

采集装置，用于以聊天用户组为采集单位，采集聊天服务器在预设时间阈值内的聊天内容；

提取装置，用于提取每一组聊天内容的关键词；

关键词向量获取装置，用于获取与每一组聊天内容的关键词对应的词向量，获得关键词向量；

相似度计算装置，用于计算关键词向量与预设代跑特征词的词向量之间的相似度，并基于相似度获得代跑聊天记录。

进一步地，智能获取代跑聊天记录的装置还包括：

保存装置，用于保存代跑聊天记录。

进一步地，提取装置包括：

分词装置，用于采用正向最大匹配法或逆向最大匹配法对聊天内容进行分词，获得分词文本；

统计装置，用于统计分词文本的词频数，并选取词频数大于预设词频数的分词文本作为关键词。

进一步地，相似度计算装置还包括：

判断装置，用于判断相似度是否大于预设相似度阈值，若是，则判定聊天内容为代跑聊天记录，否则为非代跑聊天记录。

本发明具有以下有益效果：

本发明公开了的智能获取代跑聊天记录的方法及装置，通过以聊天用户组为采集单位，采集聊天服务器在预设时间阈值内的聊天内容，提取每一组聊天内容的关键词，获取与每一组聊天内容的关键词对应的词向量，获得关键词向量以及计算关键词向量与预设代跑特征词的词向量之间的相似度，并基于相似度获得代跑聊天记录，解决了现有技术不能准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录的技术问题，使得基于相似度获取的代跑聊天记录能准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录，实用价值高。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的智能获取代跑聊天记录的方法的流程图；

图2是本发明优选实施例针对一个精简的实施例的智能获取代跑聊天记录的方法的流程图；

图3是本发明优选实施例的智能获取代跑聊天记录的装置的结构示意图。

附图标记说明：

10、采集装置；20、提取装置；30、关键词向量获取装置；40、相似度计算装置。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种智能获取代跑聊天记录的方法，包括：

步骤S101，以聊天用户组为采集单位，采集聊天服务器在预设时间阈值内的聊天内容；

步骤S102，提取每一组聊天内容的关键词；

步骤S103，获取与每一组聊天内容的关键词对应的词向量，获得关键词向量；

步骤S104，计算关键词向量与预设代跑特征词的词向量之间的相似度，并基于相似度获得代跑聊天记录。

本发明优选实施例的智能获取代跑聊天记录的方法，通过以聊天用户组为采集单位，采集聊天服务器在预设时间阈值内的聊天内容，提取每一组聊天内容的关键词，获取与每一组聊天内容的关键词对应的词向量，获得关键词向量以及计算关键词向量与预设代跑特征词的词向量之间的相似度，并基于相似度获得代跑聊天记录，解决了现有技术不能准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录的技术问题，使得基于相似度获取的代跑聊天记录能准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录，实用价值高。

具体地，本实施例中的词向量是指词语的向量表示，最简单的表示方法是稀疏描述法(One-hot Representation)，该方法将词表中的每个词表示成一个由0 和1 组成的向量，其中，只有一个维度值为1，其余维度值都为0，向量的维度为词表的大小，词表由所有需要进行向量化词语组成，词语的个数即为词表的大小，例如，一个词表包含10 个词语，则该词表的所有词语转换成10 维的向量，例如，“话筒”的词向量表示为[0,0,0,0,1,0,0,0,0,0]，“麦克”的词向量表示为[0,1,0,0,0,0,0,0,0,0]，向量中数值为1 的位置对应该词在词表的位置，即“话筒”位于词表中第6 个位置，“麦克”位于词表中第2 个位置。另一种表示方法为分布式描述方法(Distributed Representation)，该方法是一种低维词向量表示方法。例如，一个词表同样包含10 个词语时，“话筒”的词向量可以仅通过五维向量进行表示，例如[0.792,-0.177,-0.107,0.109,-0.542]，这种方式能够大大减少向量的维数。

由于稀疏描述法一方面存在“词汇鸿沟”的问题，即得到的词向量之间相互孤立，从两个词向量中不能得出两个词之间的相似关系，另一方面该方法容易出现“维数灾难”，即词向量维数过大，导致训练难度、内存占用量过大。分布式描述方法最大的优势在于能够让相关或者相似的词转换得到的词向量在距离上更接近，所谓的距离即余弦夹角的距离。此外，分布式描述方法表示的词向量具有较低的维度，适合于进行机器训练，训练的效率都较高，所占用的内存相对于稀疏描述法较少。因此，本实施例采用分布式描述方法将关键词转换为词向量。

本实施例中的相似度是指关键词与预设代跑特征词之间的相似程度，可以是语义的相似程度，也可以是词法的相似程度，通过与关键词和预设代跑特征词对应的词向量之间的距离来表示。两个词向量的距离越短，说明该两个词向量对应的词的相似度越大，进一步说明两个词在语义或是词法上更为接近。常用的描述向量距离的方式有欧氏距离、余弦夹角等。

需要说明的是，本发明的代跑聊天记录具体是指与代跑业务关联的，或能用于分析或指导代跑业务的聊天记录。

可选地，基于相似度获得代跑聊天记录之后包括：

保存代跑聊天记录。

由于本实施例中代跑聊天记录对于分析或指导代跑业务具有重要意义，因此，本实施例基于相似度获得代跑聊天记录之后，还包括保存代跑聊天记录的步骤，从而方便后续根据保存的代跑聊天记录分析和指导代跑业务，具有较强的实用价值。

可选地，提取每一组聊天内容的关键词包括：

本实施例采用正向最大匹配法或逆向最大匹配法对聊天内容进行分词，其中正向最大匹配法的具体过程为，首先预先设置对聊天内容分词用的词典，然后从待切分的聊天内容中按自左到右的顺序截取一个定长的文字串，通常为6至8个文字（或长度为词典中的最大词长），这个字符串的长度称为最大词长。将这个具有最大词长的字符串与词典中的词进行匹配，若匹配成功，则可确定这个字符串为词，计算机程序的指针向后移动与给定最大词长相应个数的文字，继续进行匹配，否则，把该字符串从右边逐次减去一个文字，再与词典中的词进行匹配，直到成功为止。逆向最大匹配法的基本原理与正向最大匹配法的基本原理相同，所不同的是分词时对待切分聊天内容的扫描方向。具体地，逆向最大匹配法从待切分聊天内容中截取字符串的方向是从右至左，且在与词典匹配不成功时，将所截取的字符串从左至右逐次减去一个文字，再与词典中的词进行匹配，直到匹配成功。

在获得分词文本后，本实施例通过统计分词文本的词频数，并选取词频数大于预设词频数的分词文本作为关键词。在实际的实施过程中，预设词频数由用户根据需要自定义。

本实施例通过采用正向最大匹配法或逆向最大匹配法对聊天内容进行分词，能获得精准度较高的分词文本，对后续基于分词文本提取聊天内容的关键词奠定了数据基础。

可选地，基于相似度获得代跑聊天记录包括：

判断相似度是否大于预设相似度阈值，若是，则判定聊天内容为代跑聊天记录，否则为非。

由于本实施例的相似度是聊天内容的关键词与预设代跑特征词之间的相似程度，故当相似度值越大时，聊天内容与预设代跑特征词越接近，也即聊天内容与代跑业务之间的关联度较大，此时可以将聊天内容作为代跑聊天记录进行获取并保存。

具体地，本实施基于相似度获得代跑聊天记录的具体过程为：首先判断相似度是否大于预设相似度阈值，若是，则判定聊天内容为代跑聊天记录，否则判定聊天内容为非代跑聊天记录。

本实施例通过计算聊天内容的关键词与预设代跑特征词之间的相似程度，能准确并针对性地获取代跑聊天记录，从而能准确分析或指导代跑业务，实用价值高。

下面以一个精简的实施例对本实施例的智能获取代跑聊天记录的方法进行更进一步的说明，参照图2，该方法主要包括以下步骤：

步骤S201，以聊天用户组为采集单位，采集聊天服务器在预设时间阈值内的聊天内容。

具体地，本实施例中的聊天服务器为即时通讯服务器，具体可以是微信、QQ等聊天服务器。假设本实施例以聊天用户组为采集单位，采集到聊天服务器上有三组聊天用户进行了聊天，分别为A与B、C与D以及E与F，则将采集的聊天内容分为三部分聊天内容进行存储。

在实际的实施过程中，本实施例也可以采取定时采集聊天服务器上的聊天内容，例如每半个小时，或每两个小时采集一次聊天服务器上的聊天内容，从而充分保障了采集的聊天内容的实时性和有效性。

步骤S202，采用正向最大匹配法或逆向最大匹配法对聊天内容进行分词，获得分词文本。

具体地，本实施例可以采用正向最大匹配法或逆向最大匹配法对所述聊天内容进行分词，获得与每一组聊天内容对应的分词文本。

步骤S203，统计分词文本的词频数，并选取词频数大于预设词频数的分词文本作为关键词。

具体地，针对每一组聊天内容，分别统计与每一组聊天内容对应的分词文本的词频数，并选取词频数大于预设词频数的分词文本作为关键词。在具体的实施过程中，本实施例中的预设词频数具体由用户根据需要自定义，且针对不同组的聊天内容，预设词频数可以相同，也可以不同。

步骤S204，获取与每一组聊天内容的关键词对应的词向量，获得关键词向量。

具体地，在获得每一组聊天内容的关键词后，本实施例采用分布式描述方法将每一组聊天内容的关键词转换为词向量，从而获得关键词向量。

步骤S205，计算关键词向量与预设代跑特征词的词向量之间的相似度。

具体地，由于与每一组聊天内容对应的预设词频数不同，故根据每一组聊天内容获得的关键词向量的维数不一样，也即在计算关键词向量与预设代跑特征词的词向量之间的相似度时，需要将关键词向量的维数填充至与预设代跑特征词的词向量的维数。且由于本实施例中的相似度为两个词向量之间的相似距离，故相似度取值为0-1之间。

步骤S206，判断相似度是否大于预设相似度阈值，若是，则判定聊天内容为代跑聊天记录，否则为非代跑聊天记录。

具体地，假设本实施例通过计算，获得三组聊天内容的关键词向量与预设代跑特征词的词向量的之间的相似度分别是第一组聊天内容（A与B）的关键词向量与预设代跑特征词的词向量的之间的相似度为a1=0.7；第二组聊天内容（C与D）的关键词向量与预设代跑特征词的词向量的之间的相似度为a2=0.65；第三组聊天内容（E与F）的关键词向量与预设代跑特征词的词向量的之间的相似度为a3=0.3，具体如表1所示。

表1

聊天内容	聊天用户	与代跑主题之间的相似度
			第一部分	A与B	0.7
第二部分	C与D	0.65
			第三部分	E与F	0.3

假设本实施例的预设相似度阈值为0.6，则通过判断不难获得第一部分和第二部分聊天内容为本实施例提取的代跑聊天记录，根据这些代跑聊天记录，可准确和有效地分析代跑业务，而由于第三部分聊天内容的关键词向量与预设代跑特征词的词向量的之间的相似度小于预设相似度阈值，故第三部分聊天内容不属于代跑聊天记录，也即本实施例最终只提取第一部分和第二部分聊天内容为代跑聊天记录。

参照图3，本实施例提供了一种智能获取代跑聊天记录的装置，包括：

采集装置10，用于以聊天用户组为采集单位，采集聊天服务器在预设时间阈值内的聊天内容；

提取装置20，用于提取每一组聊天内容的关键词；

关键词向量获取装置30，用于获取与每一组聊天内容的关键词对应的词向量，获得关键词向量；

相似度计算装置40，用于计算关键词向量与预设代跑特征词的词向量之间的相似度，并基于相似度获得代跑聊天记录。

可选地，智能获取代跑聊天记录的装置还包括：

保存装置，用于保存代跑聊天记录。

可选地，提取装置20包括：

可选地，相似度计算装置40还包括：

本发明优选实施例的智能获取代跑聊天记录的装置，通过以聊天用户组为采集单位，采集聊天服务器在预设时间阈值内的聊天内容，提取每一组聊天内容的关键词，获取与每一组聊天内容的关键词对应的词向量，获得关键词向量以及计算关键词向量与预设代跑特征词的词向量之间的相似度，并基于相似度获得代跑聊天记录，解决了现有技术不能准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录的技术问题，使得基于相似度获取的代跑聊天记录能准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录，实用价值高。

本实施例的智能获取代跑聊天记录的装置的具体工作过程和工作原理可参照本实施例中的智能获取代跑聊天记录的方法的工作过程和工作原理。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能获取代跑聊天记录的方法，其特征在于，包括：

提取每一组所述聊天内容的关键词；

获取与每一组所述聊天内容的关键词对应的词向量，获得关键词向量；

计算所述关键词向量与预设代跑特征词的词向量之间的相似度，并基于所述相似度获得代跑聊天记录。

2.根据权利要求1所述的智能获取代跑聊天记录的方法，其特征在于，基于所述相似度获得代跑聊天记录之后包括：

保存所述代跑聊天记录。

3.根据权利要求2所述的智能获取代跑聊天记录的方法，其特征在于，提取每一组所述聊天内容的关键词包括：

采用正向最大匹配法或逆向最大匹配法对所述聊天内容进行分词，获得分词文本；

统计所述分词文本的词频数，并选取词频数大于预设词频数的分词文本作为关键词。

4.根据权利要求3所述的智能获取代跑聊天记录的方法，其特征在于，基于所述相似度获得代跑聊天记录包括：

判断所述相似度是否大于预设相似度阈值，若是，则判定所述聊天内容为代跑聊天记录，否则为非代跑聊天记录。

5.一种智能获取代跑聊天记录的装置，其特征在于，包括：

提取装置，用于提取每一组所述聊天内容的关键词；

关键词向量获取装置，用于获取与每一组所述聊天内容的关键词对应的词向量，获得关键词向量；

相似度计算装置，用于计算所述关键词向量与预设代跑特征词的词向量之间的相似度，并基于所述相似度获得代跑聊天记录。

6.根据权利要求5所述的智能获取代跑聊天记录的装置，其特征在于，所述智能获取代跑聊天记录的装置还包括：

保存装置，用于保存所述代跑聊天记录。

7.根据权利要求6所述的智能获取代跑聊天记录的装置，其特征在于，所述提取装置包括：

分词装置，用于采用正向最大匹配法或逆向最大匹配法对所述聊天内容进行分词，获得分词文本；

统计装置，用于统计所述分词文本的词频数，并选取词频数大于预设词频数的分词文本作为关键词。

8.根据权利要求7所述的智能获取代跑聊天记录的装置，其特征在于，所述相似度计算装置还包括：

判断装置，用于判断所述相似度是否大于预设相似度阈值，若是，则判定所述聊天内容为代跑聊天记录，否则为非代跑聊天记录。