CN107506348A

CN107506348A - 一种基于聊天内容挖掘代跑客户的方法及装置

Info

Publication number: CN107506348A
Application number: CN201710603203.3A
Authority: CN
Inventors: 聂江林
Original assignee: Changsha Rabbit Running Network Technology Co Ltd
Current assignee: Changsha Rabbit Running Network Technology Co Ltd
Priority date: 2017-07-22
Filing date: 2017-07-22
Publication date: 2017-12-22

Abstract

本发明公开了的基于聊天内容挖掘代跑客户的方法及装置，通过采集服务器上历史代跑客户的聊天记录，获得聊天样本，提取聊天样本的聊天特征，聊天特征为聊天样本的聊天关键词，根据聊天样本的聊天特征建立代跑客户聊天样本空间以及将当前聊天内容与代跑客户聊天样本空间进行相似度匹配，并根据相似度匹配的结果判断与当前聊天内容对应的聊天用户是否为代跑客户，解决了现有技术不能主动挖掘代跑客户的技术问题，通过根据聊天样本的聊天特征智能分析出聊天用户是否为代跑客户，从而实现主动挖掘代跑客户，节省了大量的客户获取成本。

Description

一种基于聊天内容挖掘代跑客户的方法及装置

技术领域

本发明涉及通讯领域，特别地，涉及一种基于聊天内容挖掘代跑客户的方法及装置。

背景技术

代跑最初的含义是代替客户跑步。随着时代发展，代跑成为替人跑腿办事的代名词。且随着互联网的快速发展，代跑需求也如雨后春笋般涌现。现有代跑公司接受代跑业务，往往需要客户主动寻求或发布代跑业务需求，而不能主动挖掘代跑客户。针对该问题，本发明提供了一种基于聊天内容挖掘代跑客户的方法及装置。

发明内容

本发明提供了一种基于聊天内容挖掘代跑客户的方法及装置，以解决现有技术不能主动挖掘代跑客户的技术问题。

根据本发明的一方面，提供了一种基于聊天内容挖掘代跑客户的方法，包括：

采集服务器上历史代跑客户的聊天记录，获得聊天样本；

提取聊天样本的聊天特征，聊天特征为聊天样本的聊天关键词；

根据聊天样本的聊天特征建立代跑客户聊天样本空间；

将当前聊天内容与代跑客户聊天样本空间进行相似度匹配，并根据相似度匹配的结果判断与当前聊天内容对应的聊天用户是否为代跑客户。

进一步地，提取聊天样本的聊天特征包括：

采用正向最大匹配法或逆向最大匹配法对聊天样本进行分词，获得分词文本；

统计分词文本的词频数，并选取词频数大于预设词频数的分词文本作为聊天样本的聊天特征。

进一步地，采用正向最大匹配法或逆向最大匹配法对聊天样本进行分词之前包括：

对聊天样本进行预处理，预处理包括去除停用词，词性标注。

进一步地，根据相似度匹配的结果判断与当前聊天内容对应的聊天用户是否为代跑客户包括：

判断相似度是否大于预设相似度阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

根据本发明的另一方面，提供了一种基于聊天内容挖掘代跑客户的装置，包括：

聊天样本采集装置，用于采集服务器上历史代跑客户的聊天记录，获得聊天样本；

聊天特征提取装置，用于提取聊天样本的聊天特征，聊天特征为聊天样本的聊天关键词；

聊天样本空间建立装置，用于根据聊天样本的聊天特征建立代跑客户聊天样本空间；

匹配装置，用于将当前聊天内容与代跑客户聊天样本空间进行相似度匹配，并根据相似度匹配的结果判断与当前聊天内容对应的聊天用户是否为代跑客户。进一步地，聊天特征提取装置包括：

分词装置，用于采用正向最大匹配法或逆向最大匹配法对聊天样本进行分词，获得分词文本；

统计装置，用于统计分词文本的词频数，并选取词频数大于预设词频数的分词文本作为聊天样本的聊天特征。

进一步地，聊天特征提取装置还包括：

预处理装置，用于对聊天样本进行预处理，预处理包括去除停用词，词性标注。

进一步地，匹配装置包括：

判断装置，用于判断相似度是否大于预设相似度阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

本发明具有以下有益效果：

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的基于聊天内容挖掘代跑客户的方法的流程图；

图2是本发明优选实施例针对一个精简的实施例的基于聊天内容挖掘代跑客户的方法的流程图；

图3是本发明优选实施例的基于聊天内容挖掘代跑客户的装置的结构示意图。

附图标记说明：

10、聊天样本采集装置；20、聊天特征提取装置；30、聊天样本空间建立装置；40、匹配装置。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种基于聊天内容挖掘代跑客户的方法，包括：

步骤S101，采集服务器上历史代跑客户的聊天记录，获得聊天样本；

步骤S102，提取聊天样本的聊天特征，聊天特征为聊天样本的聊天关键词；

步骤S103，根据聊天样本的聊天特征建立代跑客户聊天样本空间；

步骤S104，将当前聊天内容与代跑客户聊天样本空间进行相似度匹配，并根据相似度匹配的结果判断与当前聊天内容对应的聊天用户是否为代跑客户。

本发明优选实施例的基于聊天内容挖掘代跑客户的方法，通过采集服务器上历史代跑客户的聊天记录，获得聊天样本，提取聊天样本的聊天特征，聊天特征为聊天样本的聊天关键词，根据聊天样本的聊天特征建立代跑客户聊天样本空间以及将当前聊天内容与代跑客户聊天样本空间进行相似度匹配，并根据相似度匹配的结果判断与当前聊天内容对应的聊天用户是否为代跑客户，解决了现有技术不能主动挖掘代跑客户的技术问题，通过根据聊天样本的聊天特征智能分析出聊天用户是否为代跑客户，从而实现主动挖掘代跑客户，节省了大量的客户获取成本。

具体地，本实施例中的服务器可以是用户自定义的一个服务器，也可以是一类服务器，例如聊天服务器。且本实施例采集服务器上历史代跑客户的聊天记录时，一般是针对历史代跑客户在一个时间阈值内的聊天记录。且不同的历史代跑客户可以选择不同的时间阈值内的聊天记录，也即在采集历史代跑客户的聊天记录时，尽量采取的聊天记录的采集单位相同。

此外，本实施例获得聊天样本的聊天关键词后，将聊天关键词转换为词向量，并根据聊天关键词的词向量建立代跑客户聊天样本空间。

具体地，本实施例中的词向量是指词语的向量表示，最简单的表示方法是稀疏描述法(One-hot Representation)，该方法将词表中的每个词表示成一个由0 和1 组成的向量，其中，只有一个维度值为1，其余维度值都为0，向量的维度为词表的大小，词表由所有需要进行向量化词语组成，词语的个数即为词表的大小，例如，一个词表包含10 个词语，则该词表的所有词语转换成10 维的向量，例如，“话筒”的词向量表示为[0,0,0,0,1,0,0,0,0,0]，“麦克”的词向量表示为[0,1,0,0,0,0,0,0,0,0]，向量中数值为1 的位置对应该词在词表的位置，即“话筒”位于词表中第6 个位置，“麦克”位于词表中第2 个位置。另一种表示方法为分布式描述方法(Distributed Representation)，该方法是一种低维词向量表示方法。例如，一个词表同样包含10 个词语时，“话筒”的词向量可以仅通过五维向量进行表示，例如[0.792,-0.177,-0.107,0.109,-0.542]，这种方式能够大大减少向量的维数。

由于稀疏描述法一方面存在“词汇鸿沟”的问题，即得到的词向量之间相互孤立，从两个词向量中不能得出两个词之间的相似关系，另一方面该方法容易出现“维数灾难”，即词向量维数过大，导致训练难度、内存占用量过大。分布式描述方法最大的优势在于能够让相关或者相似的词转换得到的词向量在距离上更接近，所谓的距离即余弦夹角的距离。此外，分布式描述方法表示的词向量具有较低的维度，适合于进行机器训练，训练的效率都较高，所占用的内存相对于稀疏描述法较少。因此，本实施例采用分布式描述方法将聊天关键词转换为词向量，然后根据该词向量建立代跑客户聊天样本空间。

可选地，提取聊天样本的聊天特征包括：

本实施例采用正向最大匹配法或逆向最大匹配法对聊天样本进行分词，其中正向最大匹配法的具体过程为，首先预先设置对聊天样本分词用的词典，然后从待切分的聊天样本中按自左到右的顺序截取一个定长的文字串，通常为6至8个文字（或长度为词典中的最大词长），这个字符串的长度称为最大词长。将这个具有最大词长的字符串与词典中的词进行匹配，若匹配成功，则可确定这个字符串为词，计算机程序的指针向后移动与给定最大词长相应个数的文字，继续进行匹配，否则，把该字符串从右边逐次减去一个文字，再与词典中的词进行匹配，直到成功为止。逆向最大匹配法的基本原理与正向最大匹配法的基本原理相同，所不同的是分词时对待切分聊天样本的扫描方向。具体地，逆向最大匹配法从待切分聊天样本中截取字符串的方向是从右至左，且在与词典匹配不成功时，将所截取的字符串从左至右逐次减去一个文字，再与词典中的词进行匹配，直到匹配成功。

在获得分词文本后，本实施例通过统计分词文本的词频数，并选取词频数大于预设词频数的分词文本作为聊天样本的聊天关键词。在实际的实施过程中，预设词频数由用户根据需要自定义。

本实施例通过采用正向最大匹配法或逆向最大匹配法对聊天内容进行分词，能获得精准度较高的分词文本，对后续基于分词文本提取聊天样本的聊天关键词奠定了数据基础。

可选地，采用正向最大匹配法或逆向最大匹配法对聊天样本进行分词之前包括：

具体地，本实施例采用正向最大匹配法或逆向最大匹配法对聊天样本进行分词之前，通过对聊天样本进行预处理，预处理包括去除停用词，词性标注，可以提高后续根据预处理后的聊天样本准确对聊天样本进行分词，从而提高对聊天样本进行分词的准确率。

可选地，根据相似度匹配的结果判断与当前聊天内容对应的聊天用户是否为代跑客户包括：

由于本实施例的相似度是当前聊天内容的关键词与聊天样本空间之间的相似程度，故当相似度值越大时，当前聊天内容与聊天样本空间越接近，也即当前聊天内容与历史代跑客户的聊天记录的相似度越大，此时可以将与当前聊天内容对应的聊天用户认为是代跑客户。

具体地，本实施根据相似度匹配的结果判断与当前聊天内容对应的聊天用户是否为代跑客户的具体过程为：首先判断相似度是否大于预设相似度阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

下面以一个精简的实施例对本实施例的基于聊天内容挖掘代跑客户的方法进行更进一步的说明，参照图2，该方法主要包括以下步骤：

步骤S201，采集服务器上历史代跑客户的聊天记录，获得聊天样本。

具体地，本实施例中的服务器可以是用户自定义的一个服务器，也可以是一类服务器，例如聊天服务器。且本实施例采集服务器上历史代跑客户的聊天记录时，一般是针对历史代跑客户在一个时间阈值内的聊天记录。且不同的历史代跑客户可以选择不同的时间阈值内的聊天记录，也即在采集历史代跑客户的聊天记录时，尽量采取的聊天记录的采集单位相同。例如本实施例通过第三方接入程序采集微信服务中的10个历史代跑客户在某一个星期内的聊天记录，作为聊天样本。

步骤S202，提取聊天样本的聊天特征，聊天特征为聊天样本的聊天关键词。

具体地，本实施例在获得十个历史代跑客户的聊天记录后，将这十个历史代跑客户的聊天记录整合在一起，获得聊天样本，然后通过提取聊天样本的聊天关键词，获得聊天样本的聊天特征。

本实施例提取聊天样本的聊天关键词具体过程为首先采用正向最大匹配法或逆向最大匹配法对聊天样本进行分词，获得分词文本，然后统计分词文本的词频数，并选取词频数大于预设词频数的分词文本作为聊天样本的聊天特征。在具体的实施过程中，由于聊天样本的数量可能比较大，内容比较多，故一般在提取聊天样本的聊天关键词时，对聊天样本进行预处理，例如停用词去除、词性标注等等。

需要说明的是，本实施例中的预设词频数由用户自定义，或者用户根据词频统计结果根据需要自定义预设词频数，例如本实施例通过分词和词频统计后，将聊天样本词频数按照由大至小的顺序排列，然后根据需要建立的聊天样本空间的维数来定义预设词频数。

步骤S203，根据聊天样本的聊天特征建立代跑客户聊天样本空间。

具体地，本实施例获得聊天样本的聊天关键词后，将聊天关键词转换为词向量，并根据聊天关键词的词向量建立代跑客户聊天样本空间。

步骤S204，将当前聊天内容与代跑客户聊天样本空间进行相似度匹配。

具体地，本实施例在建立代跑客户聊天样本空间后，将当前聊天内容与代跑客户聊天样本空间进行相似度匹配的具体过程为：首先对当前聊天内容进行分词，获得当前聊天内容的关键词，然后将当前聊天内容的关键词转换为词向量，并通过将当前聊天内容的关键词对应的词向量和代跑客户聊天样本空间进行相似度计算，实现当前聊天内容与代跑客户聊天样本空间两者之间的相似度匹配。

步骤S205，判断相似度是否大于预设相似度阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

具体地，假设本实施例预设相似度阈值为0.6，且通过步骤S204的相似度计算，获得当前聊天内容的词向量与代跑客户聊天样本空间的相似度为0.8，则通过判断不难获得与当前聊天内容对应的聊天用户为代跑客户。

参照图3，本实施例提供了一种基于聊天内容挖掘代跑客户的装置，包括：

聊天样本采集装置10，用于采集服务器上历史代跑客户的聊天记录，获得聊天样本；

聊天特征提取装置20，用于提取聊天样本的聊天特征，聊天特征为聊天样本的聊天关键词；

聊天样本空间建立装置30，用于根据聊天样本的聊天特征建立代跑客户聊天样本空间；

匹配装置40，用于将当前聊天内容与代跑客户聊天样本空间进行相似度匹配，并根据相似度匹配的结果判断与当前聊天内容对应的聊天用户是否为代跑客户。

可选地，聊天特征提取装置包括：

可选地，聊天特征提取装置还包括：

可选地，匹配装置包括：

本发明公开了的基于聊天内容挖掘代跑客户的装置，通过采集服务器上历史代跑客户的聊天记录，获得聊天样本，提取聊天样本的聊天特征，聊天特征为聊天样本的聊天关键词，根据聊天样本的聊天特征建立代跑客户聊天样本空间以及将当前聊天内容与代跑客户聊天样本空间进行相似度匹配，并根据相似度匹配的结果判断与当前聊天内容对应的聊天用户是否为代跑客户，解决了现有技术不能主动挖掘代跑客户的技术问题，通过根据聊天样本的聊天特征智能分析出聊天用户是否为代跑客户，从而实现主动挖掘代跑客户，节省了大量的客户获取成本。

本实施例的基于聊天内容挖掘代跑客户的装置的具体工作过程和工作原理可参照本实施例中的基于聊天内容挖掘代跑客户的方法的工作过程和工作原理。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于聊天内容挖掘代跑客户的方法，其特征在于，包括：

采集服务器上历史代跑客户的聊天记录，获得聊天样本；

提取所述聊天样本的聊天特征，所述聊天特征为所述聊天样本的聊天关键词；

根据所述聊天样本的聊天特征建立代跑客户聊天样本空间；

将当前聊天内容与所述代跑客户聊天样本空间进行相似度匹配，并根据相似度匹配的结果判断与所述当前聊天内容对应的聊天用户是否为代跑客户。

2.根据权利要求1所述的基于聊天内容挖掘代跑客户的方法，其特征在于，提取所述聊天样本的聊天特征包括：

采用正向最大匹配法或逆向最大匹配法对所述聊天样本进行分词，获得分词文本；

统计所述分词文本的词频数，并选取词频数大于预设词频数的分词文本作为所述聊天样本的聊天特征。

3.根据权利要求2所述的基于聊天内容挖掘代跑客户的方法，其特征在于，采用正向最大匹配法或逆向最大匹配法对所述聊天样本进行分词之前包括：

对所述聊天样本进行预处理，所述预处理包括去除停用词，词性标注。

4.根据权利要求3所述的智能获取代跑聊天记录的方法，其特征在于，根据相似度匹配的结果判断与所述当前聊天内容对应的聊天用户是否为代跑客户包括：

判断所述相似度是否大于预设相似度阈值，若是，则判定与所述当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

5.一种基于聊天内容挖掘代跑客户的装置，其特征在于，所述装置包括：

聊天特征提取装置，用于提取所述聊天样本的聊天特征，所述聊天特征为所述聊天样本的聊天关键词；

聊天样本空间建立装置，用于根据所述聊天样本的聊天特征建立代跑客户聊天样本空间；

匹配装置，用于将当前聊天内容与所述代跑客户聊天样本空间进行相似度匹配，并根据相似度匹配的结果判断与所述当前聊天内容对应的聊天用户是否为代跑客户。

6.根据权利要求5所述的基于聊天内容挖掘代跑客户的装置，其特征在于，所述聊天特征提取装置包括：

分词装置，用于采用正向最大匹配法或逆向最大匹配法对所述聊天样本进行分词，获得分词文本；

统计装置，用于统计所述分词文本的词频数，并选取词频数大于预设词频数的分词文本作为所述聊天样本的聊天特征。

7.根据权利要求6所述的基于聊天内容挖掘代跑客户的方法，其特征在于，所述聊天特征提取装置还包括：

预处理装置，用于对所述聊天样本进行预处理，所述预处理包括去除停用词，词性标注。

8.根据权利要求7所述的智能获取代跑聊天记录的装置，其特征在于，所述匹配装置包括：

判断装置，用于判断所述相似度是否大于预设相似度阈值，若是，则判定与所述当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。