CN107526779A

CN107526779A - 一种挖掘代跑客户的方法及装置

Info

Publication number: CN107526779A
Application number: CN201710603202.9A
Authority: CN
Inventors: 聂江林
Original assignee: Changsha Rabbit Running Network Technology Co Ltd
Current assignee: Changsha Rabbit Running Network Technology Co Ltd
Priority date: 2017-07-22
Filing date: 2017-07-22
Publication date: 2017-12-29

Abstract

本发明公开的挖掘代跑客户的方法及装置，通过以聊天用户组为采集单位，采集聊天用户组的历史聊天内容，获得聊天样本；采集每一组聊天样本与预设的场景标签对应的场景信息；根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器；根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录，若是，则对代跑聊天记录进行分词，获得分词文本；获取代跑需求特征词；判断分词文本包含的代跑需求特征词的数量是否超出预设阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户，解决了现有技术不能主动挖掘代跑客户的技术问题，能实现主动挖掘代跑客户，节省了大量的客户获取成本。

Description

一种挖掘代跑客户的方法及装置

技术领域

本发明涉及通讯领域，特别地，涉及一种挖掘代跑客户的方法及装置。

背景技术

代跑最初的含义是代替客户跑步。随着时代发展，代跑成为替人跑腿办事的代名词。且随着互联网的快速发展，代跑需求也如雨后春笋般涌现。现有代跑公司接受代跑业务，往往需要客户主动寻求或发布代跑业务需求，而不能主动挖掘代跑客户。针对该问题，本发明提供了一种挖掘代跑客户的方法及装置。

发明内容

本发明提供了一种挖掘代跑客户的方法及装置，以解决现有技术不能主动挖掘代跑客户的技术问题。

根据本发明的一方面，提供了一种挖掘代跑客户的方法，包括：

以聊天用户组为采集单位，采集聊天用户组的历史聊天内容，获得聊天样本；

采集每一组聊天样本与预设的场景标签对应的场景信息；

根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器；

根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录，若是，则对代跑聊天记录进行分词，获得分词文本；

获取代跑需求特征词；

判断分词文本包含的代跑需求特征词的数量是否超出预设阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

进一步地，聊天服务器为：

即时通讯服务器。

进一步地，对代跑聊天记录进行分词包括：

采用正向最大匹配法或逆向最大匹配法对代跑聊天记录进行分词。

进一步地，获取代跑需求特征词包括：

采集历史代跑客户的聊天记录，获得历史聊天样本；

提取历史聊天样本中的关键词，获得代跑需求特征词。

进一步地，判定当前聊天内容为代跑聊天记录后还包括：

对代跑聊天记录进行保存。

根据本发明的另一方面，提供了一种挖掘代跑客户的装置，包括：

聊天样本获取装置，用于以聊天用户组为采集单位，采集聊天用户组的历史聊天内容，获得聊天样本；

场景信息采集装置，用于采集每一组聊天样本与预设的场景标签对应的场景信息；

训练装置，用于根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器；

识别装置，用于根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录，若是，则对代跑聊天记录进行分词，获得分词文本；

代跑需求特征词获取装置，用于获取代跑需求特征词；

代跑客户判断装置，用于判断分词文本包含的代跑需求特征词的数量是否超出预设阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

进一步地，识别装置还包括：

匹配分词装置，用于采用正向最大匹配法或逆向最大匹配法对代跑聊天记录进行分词。

进一步地，代跑需求特征词获取装置包括：

历史聊天样本采集装置，用于采集历史代跑客户的聊天记录，获得历史聊天样本；

提取装置，用于提取历史聊天样本中的关键词，获得代跑需求特征词。

本发明具有以下有益效果：

本发明公开了的挖掘代跑客户的方法及装置，通过以聊天用户组为采集单位，采集聊天用户组的历史聊天内容，获得聊天样本；采集每一组聊天样本与预设的场景标签对应的场景信息；根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器；根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录，若是，则对代跑聊天记录进行分词，获得分词文本；获取代跑需求特征词；判断分词文本包含的代跑需求特征词的数量是否超出预设阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户，解决了现有技术不能主动挖掘代跑客户的技术问题，通过采用分类器自动识别代跑聊天记录以及根据识别出的代跑聊天记录能智能分析出聊天用户是否为代跑客户，从而实现主动挖掘代跑客户，节省了大量的客户获取成本。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的挖掘代跑客户的方法的流程图；

图2是本发明优选实施例针对一个精简的实施例的挖掘代跑客户的方法的流程图；

图3是本发明优选实施例的挖掘代跑客户的装置的结构示意图。

附图标记说明：

10、聊天样本获取装置；20、场景信息采集装置；30、训练装置；40、识别装置；50、代跑需求特征词获取装置；60、代跑客户判断装置。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种挖掘代跑客户的方法，包括：

步骤S101，以聊天用户组为采集单位，采集聊天用户组的历史聊天内容，获得聊天样本；

步骤S102，采集每一组聊天样本与预设的场景标签对应的场景信息；

步骤S103，根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器；

步骤S104，根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录，若是，则对代跑聊天记录进行分词，获得分词文本；

步骤S105，获取代跑需求特征词；

步骤S106，判断分词文本包含的代跑需求特征词的数量是否超出预设阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

本发明公开的挖掘代跑客户的方法，通过以聊天用户组为采集单位，采集聊天用户组的历史聊天内容，获得聊天样本；采集每一组聊天样本与预设的场景标签对应的场景信息；根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器；根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录，若是，则对代跑聊天记录进行分词，获得分词文本；获取代跑需求特征词；判断分词文本包含的代跑需求特征词的数量是否超出预设阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户，解决了现有技术不能主动挖掘代跑客户的技术问题，通过采用分类器自动识别代跑聊天记录以及根据识别出的代跑聊天记录能智能分析出聊天用户是否为代跑客户，从而实现主动挖掘代跑客户，节省了大量的客户获取成本。

此外，本实施例通过以聊天用户组为采集单位，采集聊天用户组的历史聊天内容，获得聊天样本，采集每一组聊天样本与预设的场景标签对应的场景信息，根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器，根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录，解决了现有技术不能准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录的技术问题，使得基于分类器获取的代跑聊天记录能准确并针对性地获取用于分析或指导代跑业务的代跑聊天记录，实用价值高。

可选地，聊天服务器为：

即时通讯服务器。

具体地，本实施例的聊天服务器可以是即时通讯服务器，例如微信、QQ、微博等服务器。

可选地，对代跑聊天记录进行分词包括：

本实施例采用正向最大匹配法或逆向最大匹配法对代跑聊天记录进行分词，其中正向最大匹配法的具体过程为，首先预先设置对代跑聊天记录分词用的词典，然后从待切分的代跑聊天记录中按自左到右的顺序截取一个定长的文字串，通常为6至8个文字（或长度为词典中的最大词长），这个字符串的长度称为最大词长。将这个具有最大词长的字符串与词典中的词进行匹配，若匹配成功，则可确定这个字符串为词，计算机程序的指针向后移动与给定最大词长相应个数的文字，继续进行匹配，否则，把该字符串从右边逐次减去一个文字，再与词典中的词进行匹配，直到成功为止。逆向最大匹配法的基本原理与正向最大匹配法的基本原理相同，所不同的是分词时对待切分代跑聊天记录的扫描方向。具体地，逆向最大匹配法从待切分代跑聊天记录中截取字符串的方向是从右至左，且在与词典匹配不成功时，将所截取的字符串从左至右逐次减去一个文字，再与词典中的词进行匹配，直到匹配成功。

可选地，获取代跑需求特征词包括：

采集历史代跑客户的聊天记录，获得历史聊天样本；

提取历史聊天样本中的关键词，获得代跑需求特征词。

由于历史代跑客户的聊天记录往往具有一定的特征，例如包含相同的特征词“跑”、“代跑”、“跑腿”、“没时间跑”、“帮我跑”、“请人帮忙跑”等等。基于此，本实施例在获取代跑需求特征词时，首先采集历史代跑客户的聊天记录，获得历史聊天样本，然后通过提取历史聊天样本中的关键词，获得代跑需求特征词。

本实施例通过对历史代跑客户的聊天记录中的关键词进行统计分析，能提取表征代跑需求的特征词，准确性和实用性高，为后续基于获取的代跑需求特征词准确挖掘代跑客户奠定了良好的数据基础。

需要说明的是，本实施例提取历史聊天样本中的关键词，获得代跑需求特征词时，可根据需要选择词频数大于预设词频数的关键词作为代跑需求特征值，也即本实施例根据历史代跑客户的聊天记录，获得代跑需求特征词的数量由用户自定义。

在实际的实施过程中，本实施例还可以通过自定义的方式获得代跑需求特征词，例如预设特征词“跑”、“代跑”、“跑腿”、“没时间跑”、“帮我跑”、“请人帮忙跑”等等作为代跑需求特征值。

下面以一个精简的实施例对本实施例的挖掘代跑客户的方法进行更进一步的说明，参照图2，该方法主要包括以下步骤：

步骤S201，以聊天用户组为采集单位，采集历史聊天内容，获得聊天样本。

具体地，假设本实施例以聊天用户组为采集历史聊天内容时，系统设置的聊天用户组为100组，也即采集这100组聊天用户的历史聊天内容，从而获得100组聊天样本。

步骤S202，采集每一组聊天样本与预设的场景标签对应的场景信息。

具体地，针对这100组聊天样本，本实施例分别采集与每一组聊天样本与预设的场景标签对应的场景信息。假设本实施例预设的场景标签一共为四个，分别是聊天时间、聊天地点、聊天双方关系、聊天主题。则分别按照这四个预设的场景标签，分别采集与100组聊天样本对应点场景信息。

步骤S203，根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器。

具体地，本实施例根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器的具体过程包括：首先提取聊天样本的关键词，获得关键词向量，然后根据聊天样本的场景信息，提取与场景信息对应的场景信息向量，最后根据关键词向量和场景信息向量，训练用于识别代跑聊天记录的分类器。

步骤S204，根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录，若是，则对代跑聊天记录进行分词，获得分词文本。

具体地，本实施例根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录的具体过程包括：

步骤S2041，提取当前聊天内容的关键词，获得当前关键词向量。

具体地，本实施例通过统计当前聊天内容的词频数，可以提取当前聊天内容的关键词，然后将关键词转换为词向量，从而获得当前关键词向量。

步骤S2042，采集当前聊天内容与预设的场景标签对应的当前场景信息，并提取与当前场景信息对应的当前场景信息向量。

具体地，由于本实施例预设的场景标签分别为聊天时间、聊天地点、聊天双方关系和聊天主题，则分别采集当前聊天内容与预设的场景标签对应的当前场景信息。假设本实施例针对当前聊天内容，采集到与预设的场景标签对应的场景信息为：聊天时间=白天、聊天地点=长沙、聊天双方关系=朋友、聊天主题=跑腿。

步骤S2043，将当前关键词向量和当前场景信息向量输入已训练好的分类器，从而基于已训练好的分类器识别当前聊天内容是否为代跑聊天记录。

具体地，通过将当前关键词向量和当前场景信息向量输入已训练好的分类器，从而可以基于已训练好的分类器识别当前聊天内容是否为代跑聊天记录。

假设本实施例通过分类器，识别出当前聊天内容为代跑聊天记录，则对代跑聊天记录进行分词，获得分词文本。具体地，本实施例采用最大正向匹配法或最大逆向匹配法对代跑聊天记录进行分词，获得分词文本。

步骤S205，采集历史代跑客户的聊天记录，获得历史聊天样本。

具体地，假设本实施例的历史代跑客户为100个，则采集这100个历史代跑客户的聊天记录，从而获得历史聊天样本。

步骤S206，提取历史聊天样本中的关键词，获得代跑需求特征词。

具体地，本实施例对历史聊天样本进行统计分析时，首先对历史聊天样本进行分词，获得分词文本，然后统计分词文本的词频数，并选取词频数靠前的分词文本作为代跑需求特征值。具体地，本实施例在选取词频数靠前的分词文本时，可通过预设特征词阈值进行选取。假设本实施例预设特征词阈值为20个，则选取词频数前20的分词文本作为代跑需求特征词。

步骤S207，判断分词文本包含的代跑需求特征词的数量是否超出预设阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

具体地，本实施例根据步骤S204获得的分词文本，判断与该分词文本对应的聊天用户是否为代跑客户。具体的判断过程为判断分词文本包含的代跑需求特征词的数量是否超出预设阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。假设此处的预设阈值为5，也即当分词文本中包含的代跑需求特征词的数量超过5个时，则判定与该分词文本对应的聊天用户为代跑客户，否则为非代跑客户。

假设本实施例中与A与B对应的当前聊天内容的分词文本中包含的代跑需求特征词的数量为7个，与C与D对应的当前聊天内容的分词文本中包含的代跑需求特征词的数量为4个，具体见表1所述，则最终可以判定A与B为代跑客户，C与D为非代跑客户。

表1

聊天用户	包含的代跑需求特征词数目	是否为代跑客户
			A与B	7	是
C与D	4	否

本发明公开了的挖掘代跑客户的方法，通过以聊天用户组为采集单位，采集聊天用户组的历史聊天内容，获得聊天样本；采集每一组聊天样本与预设的场景标签对应的场景信息；根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器；根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录，若是，则对代跑聊天记录进行分词，获得分词文本；获取代跑需求特征词；判断分词文本包含的代跑需求特征词的数量是否超出预设阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户，解决了现有技术不能主动挖掘代跑客户的技术问题，通过采用分类器自动识别代跑聊天记录以及根据识别出的代跑聊天记录能智能分析出聊天用户是否为代跑客户，从而实现主动挖掘代跑客户，节省了大量的客户获取成本。

参照图3，本实施例提供了一种挖掘代跑客户的装置，包括：

聊天样本获取装置10，用于以聊天用户组为采集单位，采集聊天用户组的历史聊天内容，获得聊天样本；

场景信息采集装置20，用于采集每一组聊天样本与预设的场景标签对应的场景信息；

训练装置30，用于根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器；

识别装置40，用于根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录，若是，则对代跑聊天记录进行分词，获得分词文本；

代跑需求特征词获取装置50，用于获取代跑需求特征词；

代跑客户判断装置60，用于判断分词文本包含的代跑需求特征词的数量是否超出预设阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

进一步地，识别装置40还包括：

进一步地，代跑需求特征词获取装置50包括：

本发明优选实施例的挖掘代跑客户的装置，通过以聊天用户组为采集单位，采集聊天用户组的历史聊天内容，获得聊天样本；采集每一组聊天样本与预设的场景标签对应的场景信息；根据聊天样本以及聊天样本的场景信息，训练用于识别代跑聊天记录的分类器；根据已训练好的分类器识别当前聊天内容是否为代跑聊天记录，若是，则对代跑聊天记录进行分词，获得分词文本；获取代跑需求特征词；判断分词文本包含的代跑需求特征词的数量是否超出预设阈值，若是，则判定与当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户，解决了现有技术不能主动挖掘代跑客户的技术问题，通过采用分类器自动识别代跑聊天记录以及根据识别出的代跑聊天记录能智能分析出聊天用户是否为代跑客户，从而实现主动挖掘代跑客户，节省了大量的客户获取成本。

本实施例的挖掘代跑客户的装置的具体工作过程和工作原理可参照本实施例中的挖掘代跑客户的方法的工作过程和工作原理。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种挖掘代跑客户的方法，其特征在于，包括：

采集每一组所述聊天样本与预设的场景标签对应的场景信息；

根据所述聊天样本以及所述聊天样本的场景信息，训练用于识别代跑聊天记录的分类器；

根据已训练好的所述分类器识别当前聊天内容是否为代跑聊天记录，若是，则对所述代跑聊天记录进行分词，获得分词文本；

获取代跑需求特征词；

判断所述分词文本包含的所述代跑需求特征词的数量是否超出预设阈值，若是，则判定与所述当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

2.根据权利要求1所述的挖掘代跑客户的方法，其特征在于，所述聊天服务器为：

即时通讯服务器。

3.根据权利要求2所述的挖掘代跑客户的方法，其特征在于，对所述代跑聊天记录进行分词包括：

采用正向最大匹配法或逆向最大匹配法对所述代跑聊天记录进行分词。

4.根据权利要求1-3任一所述的挖掘代跑客户的方法，其特征在于，获取代跑需求特征词包括：

采集历史代跑客户的聊天记录，获得历史聊天样本；

提取所述历史聊天样本中的关键词，获得代跑需求特征词。

5.根据权利要求4所述的挖掘代跑客户的方法，其特征在于，判定当前聊天内容为代跑聊天记录后还包括：

对所述代跑聊天记录进行保存。

6.一种挖掘代跑客户的装置，其特征在于，包括：

场景信息采集装置，用于采集每一组所述聊天样本与预设的场景标签对应的场景信息；

训练装置，用于根据所述聊天样本以及所述聊天样本的场景信息，训练用于识别代跑聊天记录的分类器；

识别装置，用于根据已训练好的所述分类器识别当前聊天内容是否为代跑聊天记录，若是，则对所述代跑聊天记录进行分词，获得分词文本；

代跑需求特征词获取装置，用于获取代跑需求特征词；

代跑客户判断装置，用于判断所述分词文本包含的所述代跑需求特征词的数量是否超出预设阈值，若是，则判定与所述当前聊天内容对应的聊天用户为代跑客户，否则为非代跑客户。

7.根据权利要求6所述的挖掘代跑客户的装置，其特征在于，所述识别装置还包括：

匹配分词装置，用于采用正向最大匹配法或逆向最大匹配法对所述代跑聊天记录进行分词。

8.根据权利要求6-7任一所述的挖掘代跑客户的装置，其特征在于，所述代跑需求特征词获取装置包括：

提取装置，用于提取所述历史聊天样本中的关键词，获得代跑需求特征词。