CN108921431A

CN108921431A - 政企客户聚类方法及装置

Info

Publication number: CN108921431A
Application number: CN201810716913.1A
Authority: CN
Inventors: 胡博; 张宇; 张鲲; 乔瑞; 于斌; 于庆淼; 付喆; 丁微
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2018-11-30

Abstract

本发明提供一种政企客户聚类方法及装置。本发明提供的政企客户聚类方法，包括：获取政企客户数据以及名单制客户数据，分别对第一政企客户名称以及第一名单制客户名称进行分词处理，得到第一分词集合和第二分词集合，在计算第一分词集合与第二分词集合的偏离度分值，若偏离度分值小于预设的偏离度分值，则第一政企客户名称与第一名单制客户名称匹配成功。本发明提供的政企客户聚类方法，实现政企客户智能聚类的自动构建，大大提高了处理效率以及聚类结果的准确性。

Description

政企客户聚类方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种政企客户聚类方法及装置。

背景技术

随着政企客户营销管理工作的深入，基于客户维度、行业维度的管理要求越来越迫切，对名单制大客户的收入、业务量数据统计、分析展现已经成为政企客户事业部日常管理考核的需要。

其中，政企客户指的是集团客户，例如腾讯集团、阿里集团或者上汽集团等。而名单制客户指的是为满足营销管理需要而人为规定的具有强相关性的客户集合，客户集合包括下一级名单制客户与实体客户的组合，名单制客户是真实客户的归集，用于界定销售人员的营销目标和负责范围、统计其管理客户的相关营收情况，例如深圳市腾讯计算机系统有限公司就属于名单制客户。

目前，名单制以及行业聚类的规则通常都是分散在各个客户经理以及行业经理手中，集客部为了获取对政企客户进行聚类，需要先要求各个客户经理对手头的数据进行人工筛选和处理，例如集客部需要对腾讯集团下属所有的子公司进行聚类，则需要依靠人工进行筛选出腾讯集团下属所有公司的名称，效率低下，且准确率也不高。

发明内容

本发明提供一种政企客户聚类方法及装置，以建立政企客户智能聚类能力，并通过自动构建的方式提升处理效率，以及聚类结果的准确性。

第一方面，本发明提供一种政企客户聚类方法，包括：

获取政企客户数据以及名单制客户数据，其中，所述政企客户数据至少包括第一政企客户名称，所述名单制客户数据至少包括第一名单制客户名称；

分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理，其中，所述第一政企客户名称和所述第一名单制客户名称分词处理后的分词结果分别为第一分词集合和第二分词集合；

计算所述第一分词集合与所述第二分词集合的偏离度分值；

若所述偏离度分值小于预设的偏离度分值，则所述第一政企客户名称与所述第一名单制客户名称匹配成功。

在一种可能的设计中，在分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理之后，还包括：

根据词频-逆文本频率指数算法生成二维词频矩阵，其中，所述二维词频矩阵的横向为第三分词集合中的分词，所述第三分词集合为所述第一分词集合和所述第二分词集合的合集，所述二维词频矩阵的纵向为所述第一政企客户名称以及所述第一名单制客户名称，并且，所述二维词频矩阵中每个矩阵元素为所述矩阵元素对应的横向分词和纵向客户名称的词频-逆文本频率指数分值；

为所述二维词频矩阵横向上的每个分词分配分词索引号。

在一种可能的设计中，在为所述二维词频矩阵的横向上的分配分词索引号之后，还包括：

判断所述第一分词集合是否包括预设的至少包含词集合中至少一个元素，其中，所述名单制客户数据中包括所述至少包含词集合；

若判断结果为是，则判断所述第一分词集合与不能包含词集合是否有交集，其中，所述名单制客户数据中包括所述不能包含词集合，判断结果为否。

在一种可能的设计中，在计算所述第一分词集合与所述第二分词集合的偏离度分值之前，还包括：

根据欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值；

判断所述相似度分值是否小于预设的相似度分值，判断结果为是。

在一种可能的设计中，所述根据欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值，包括：

根据所述二维词频矩阵以及所述分词索引号生成第一名单制客户索引数组、第一名单制客户分值数组、第一政企客户索引数组以及第一政企客户分值数组；

合并所述第一名单制客户索引数组以及所述第一政企客户索引数组生成索引数组，并对所述索引数组中的所有所述分词索引号进行升序排序；

合并所述第一名单制客户分值数组以及第一政企客户分值数组生成分值数组，并根据所述索引数组中的所述分词索引号的排列顺序对所述分值数组中所有所述分值进行排序；

根据所述索引数组、所述分值数组以及欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值。

在一种可能的设计中，所述计算所述第一分词集合与所述第二分词集合的偏离度分值，包括：

判断所述第一分词集合中的第一分词是否属于第二分词集合；

若判断结果为是，则所述第一分词在偏离分值数组中对应的元素值为1；

若判断结果为否，则所述第一分词在所述偏离分值数组中对应的元素值为0；

计算所述偏离度分值，所述偏离度分值为所述偏离分值数组的每个元素值与预设权重值的乘积之和。

在一种可能的设计中，所述计算所述偏离度分值，包括：

计算所述偏离分值数组中序号为0的元素值与所述预设权重值的乘积，结果为第0偏离度分值；

计算所述偏离分值数组中序号为n的元素值与衰减预设权重值的乘积，结果为第n偏离度分值；

叠加所述第0偏离度分值至所述第n偏离度分值，得到所述偏离度分值。

在一种可能的设计中，在所述叠加所述第0偏离度分值至所述第n偏离度分值，得到所述偏离度分值之后，还包括：

判断预设的降低偏离度词集合中的第一元素是否属于所述第一分词集合；

若判断结果为是，则将所述偏离度分值更新为所述偏离度分值与第一降低距离系数相乘后的计算结果，其中，所述第一降低距离系数与所述第一元素对应。

从所述第一分词集合删除第一政企客户省份名称以及第一政企客户地市名称，其中，所述政企客户数据还包括：第一政企客户代号、所述第一政企客户省份名称以及所述第一政企客户地市名称。

在一种可能的设计中，在计算所述第一分词集合与所述第二分词集合的偏离度分值之后，还包括：

输出政企客户聚类结果文件，所述政企客户聚类结果文件中至少包括：所述第一名单制客户名称、所述第一政企客户代号、所述第一政企客户名称、所述第一政企客户省份名称、所述第一政企客户地市名称、所述相似度分值以及所述偏离度分值，并且，所述政企客户聚类结果文件中任意相邻的两个参数之间均设置有分隔符。

第二方面，本发明还提供一种政企客户聚类装置，包括：

获取模块，用于获取政企客户数据以及名单制客户数据，其中，所述政企客户数据至少包括第一政企客户名称，所述名单制客户数据至少包括第一名单制客户名称；

分词模块，用于分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理，其中，所述第一政企客户名称和所述第一名单制客户名称分词处理后的分词结果分别为第一分词集合和第二分词集合；

计算模块，用于计算所述第一分词集合与所述第二分词集合的偏离度分值；

匹配模块，用于若所述偏离度分值小于预设的偏离度分值，则所述第一政企客户名称与所述第一名单制客户名称匹配成功。

在一种可能的设计中，所述计算模块，还用于根据词频-逆文本频率指数算法生成二维词频矩阵，其中，所述二维词频矩阵的横向为第三分词集合中的分词，所述第三分词集合为所述第一分词集合和所述第二分词集合的合集，所述二维词频矩阵的纵向为所述第一政企客户名称以及所述第一名单制客户名称，并且，所述二维词频矩阵中每个矩阵元素为所述矩阵元素对应的横向分词和纵向客户名称的词频-逆文本频率指数分值；

所述匹配模块，还用于为所述二维词频矩阵横向上的每个分词分配分词索引号。

在一种可能的设计中，所述政企客户聚类装置，还包括：

判断模块，用于判断所述第一分词集合是否包括预设的至少包含词集合中至少一个元素，其中，所述名单制客户数据中包括所述至少包含词集合；

所述判断模块，还用于判断所述第一分词集合与不能包含词集合是否有交集，其中，所述名单制客户数据中包括所述不能包含词集合。

在一种可能的设计中，所述计算模块，还用于根据欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值；

所述判断模块，还用于判断所述相似度分值是否小于预设的相似度分值。

在一种可能的设计中，所述计算模块，具体用于：

在一种可能的设计中，所述分词模块，还用于从所述第一分词集合删除第一政企客户省份名称以及第一政企客户地市名称，其中，所述政企客户数据还包括：第一政企客户代号、所述第一政企客户省份名称以及所述第一政企客户地市名称。

第三方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中所提供的任意一种所述的政企客户聚类方法。

第四方面，本发明还提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中所提供的任意一种所述的政企客户聚类方法。

本发明提供的一种政企客户聚类方法及装置，通过先获取政企客户数据以及名单制客户数据，然后再分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理得到第一分词集合和第二分词集合，最后通过计算所述第一分词集合与所述第二分词集合的偏离度分值，并通过计算获得的偏离度分值与预设的偏离度分值进行比较以确定第一政企客户名称与第一名单制客户名称是否匹配成功，从而实现政企客户智能聚类的自动构建，大大提高了处理效率以及聚类结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的政企客户聚类方法的流程示意图；

图2是根据另一示例性实施例示出的政企客户聚类方法的流程示意图；

图3是根据一示例性实施例示出的政企客户聚类装置的结构示意图；

图4是根据另一示例性实施例示出的政企客户聚类装置的结构示意图；

图5是根据一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据一示例性实施例示出的政企客户聚类方法的流程示意图。如图1所示，本实施例所提供的政企客户聚类方法，包括：

步骤101、获取政企客户数据以及名单制客户数据。

具体地，获取数据库中政企客户数据以及名单制客户数据，其中，政企客户数据至少包括第一政企客户名称，而名单制客户数据至少包括第一名单制客户名称，例如，第一政企客户名称可以为“深圳市腾讯计算机系统有限公司”，而第一名单制客户名称可以为“腾讯集团”。

其中，获取数据库中政企客户数据以及名单制客户数据的过程可以通过利用第三方平台在固定的周期内从集客数据库中抽取获得，所拉取的可以是全国集团客户数据，并且在获取数据之后，还可以实现对数据进行清洗。具体地，可以通过相应数据清洗规则，去除小微企业的名称、去除小于3个字的名称、去除特殊字符以及去除阿拉伯数字等。值得说明地，在本实施例中并不对政企客户数据以及名单制客户数据具体的获取方法以及数据清洗的方法进行限定。

此外，通过获取数据库中政企客户数据时，还可以同时获取到第一政企客户代号、第一政企客户省份名称以及第一政企客户地市名称等信息。

步骤102、分别对第一政企客户名称以及第一名单制客户名称进行分词处理。

具体地，分别对第一政企客户名称以及第一名单制客户名称进行分词处理，其中，第一政企客户名称和第一名单制客户名称分词处理后的分词结果分别为第一分词集合和第二分词集合。

对于上述的分词方法可以通过采用jieba分词方法进行分词，但是值得说明地，在本实施例中并不对上述具体分词的方法进行限定，只需保证能够对第一政企客户名称和第一名单制客户名称进行有效的分词处理即可。此外，由于首地名通常只是代表的是客户公司名称在各个区域的位置，因此，可以通过在分词之后从第一分词集合删除第一政企客户省份名称以及第一政企客户地市名称，从而提高后续政企客户聚类的准确性。

例如，当第一政企客户名称可以为“深圳市腾讯计算机系统有限公司”，而第一名单制客户名称可以为“腾讯集团”时。针对第一政企客户名称分词后的第一分词集合包括：“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”以及“腾讯计算机系统有限公司”。而对于第一名单制客户名称分词后的第二分词集合包括：“腾讯”以及“集团”。

步骤103、计算第一分词集合与第二分词集合的偏离度分值。

具体地，可以判断第一分词集合中的第一分词是否属于第二分词集合，若判断结果为是，则第一分词在偏离分值数组中对应的元素值为1，若判断结果为否，则第一分词在偏离分值数组中对应的元素值为0。例如，判断第一分词集合中的“腾讯”是否属于第二分词集合，由于第二分词集合包括“腾讯”，所以“腾讯”在偏离分值数组中对应的元素值为1；还可以继续判断第一分词集合中的“计算”是否属于第二分词集合，由于第二分词集合不包括“计算”，所以“计算”在偏离分值数组中对应的元素值为0。

在依次对比并生成偏离分值数组之后，依次将偏离分值数组中的每个元素数值与预设权重值进行乘积，并求和得到最终的偏离度分值。其中，预设权重值可以更加实际分析的对象进行确定，可以取任意小于1的正数值，例如可以取0.4，但是，值得说明地，在本实施例中并不对预设权重值具体的取值进行限定。

步骤104、判断偏离度分值是否小于预设的偏离度分值，判断结果为是，则执行步骤105。

在计算得到偏离度分值之后，可以进一步判断偏离度分值是否小于预设的偏离度分值，其中，预设的偏离度分值可以根据实际分析的对象进行确定，可以取正数值，例如可以取1200，而偏离度分值取值越小则代表对第一分词集合与第二分词集合的偏离度分值要求越严苛，即要求第一分词集合与第二分词集合要求相似度越高，但是，值得说明地，在本实施例中并不对预设权重值具体的取值进行限定。

步骤105、第一政企客户名称与第一名单制客户名称匹配成功。

具体地，若上述计算第一分词集合与第二分词集合的偏离度分值小于预设的偏离度分值时，则第一政企客户名称与第一名单制客户名称匹配成功。例如，上述第一政企客户名称“深圳市腾讯计算机系统有限公司”，与第一名单制客户名称“腾讯集团”的偏离度分值为0.668571428571，小于预设的偏离度分值1200，则说明第一政企客户名称“深圳市腾讯计算机系统有限公司”与第一名单制客户名称“腾讯集团”匹配成功。

在本实施例中，通过先获取政企客户数据以及名单制客户数据，然后再分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理得到第一分词集合和第二分词集合，最后通过计算所述第一分词集合与所述第二分词集合的偏离度分值，并通过计算获得的偏离度分值与预设的偏离度分值进行比较以确定第一政企客户名称与第一名单制客户名称是否匹配成功，从而实现政企客户智能聚类的自动构建，大大提高了处理效率以及聚类结果的准确性。

图2是根据另一示例性实施例示出的政企客户聚类方法的流程示意图，如图2所示，本实施例提供的政企客户聚类方法，包括：

步骤201、获取政企客户数据以及名单制客户数据。

并且，名单制客户数据中还可以包括匹配规则数据，其中，匹配规则数据中可以包括预设的至少包含词集合以及不能包含词集合。例如，针对第一政企客户名称为“深圳市腾讯计算机系统有限公司”，第一名单制客户名称为“腾讯集团”，其至少包含词集合可以包括“腾讯”、“腾讯搜搜网”、“腾讯易迅网”、“微视视频”、“财付通支付科技”、“腾讯理财通”、“搜搜”、“易迅”、“微信”、“微视”、“财付通”以及“理财通”等词，值得说明地，至少包含词集合可以根据具体客户集团下的业务名称进行确定，也可以通过互联网爬取或者购买第三方平台数据，补全客户资料。此外，不能包含词集合可以包括“店”、“客栈”、“物流”、“数码”、“安腾讯”、“金腾讯”、“世纪腾讯”等词，值得说明地，不能包含词集合可以根据具体市面上容易对客户集团下相关名称进行混用的词汇确定，也可以通过互联网爬取或者购买第三方平台数据，补全客户资料

步骤202、分别对第一政企客户名称以及第一名单制客户名称进行分词处理。

而对于拆词的算法，可以是通过将政企客户名称按照词库、关键字等规则进行拆词，将名称拆分成多个词语分词，拆词计算是信息检索技术的通用方法。拆词步骤如下：加载字典(可维护)，生成词语树，给定待分词的企业名称,使用正则获取连续的中文字符和英文字符，切分成短语列表,对每个短语使用DAG(查字典)和动态规划，得到最大概率路径，对DAG中那些没有在字典中查到的字，组合成一个新的片段短语，使用HMM模型识别新词并进行分词。

步骤203、根据词频-逆文本频率指数算法生成二维词频矩阵。

根据TF-IDF算法，即词频-逆文本频率指数算法生成二维词频矩阵，其中，二维词频矩阵的横向为第三分词集合中的分词，第三分词集合为第一分词集合和第二分词集合的合集，二维词频矩阵的纵向为第一政企客户名称以及第一名单制客户名称，并且，二维词频矩阵中每个矩阵元素为矩阵元素对应的横向分词和纵向客户名称的TF-IDF分值。

值得说明地，TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆向文件频率(Inverse Document Frequency)。TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。而针对政企客户聚类的场景中，由于客户名称长度有限，从单客户名称中很难分析出具体哪个分词是对客户名称具有代表意义的词。所以单纯使用用来分析两个客户名称的相似度不适合，也无法达到预期的结果。

而针对第一政企客户名称分词后的第一分词集合包括：“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”以及“腾讯计算机系统有限公司”，以及第一名单制客户名称分词后的第二分词集合包括：“腾讯”以及“集团”。第一分词集合和第二分词集合的合集第三分词集合包括：“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”以及“腾讯计算机系统有限公司”、“腾讯”以及“集团”

因此，所构建的二维词频矩阵的横向为“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”、“腾讯计算机系统有限公司”以及“集团”，纵向为“腾讯集团”与“深圳市腾讯计算机系统有限公司”，并计算出该二维词频矩阵每个节点对应的TF-IDF分值。

步骤204、为二维词频矩阵横向上的每个分词分配分词索引号。

例如，“腾讯”对应的分词索引号为7，“计算”对应的分词索引号为4，而“算机”对应的分词索引号为8，“系统”对应的分词索引号为5，“计算机”对应的分词索引号为6，“计算机”对应的分词索引号为9，“计算机系统”对应的分词索引号为3，“有限”对应的分词索引号为10，“公司”对应的分词索引号为1，“有限公司”对应的分词索引号为0，“腾讯计算机系统有限公司”对应的分词索引号为2，“集团”对应的分词索引号11。

步骤205、判断第一分词集合是否包括预设的至少包含词集合中至少一个元素，若判断结果为是，则执行步骤206。

具体地，判断第一分词集合是否包括预设的至少包含词集合中至少一个元素。例如，判断第一分词集合：“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”以及“腾讯计算机系统有限公司”是否包括至少包含词集合：“腾讯”、“腾讯搜搜网”、“腾讯易迅网”、“微视视频”、“财付通支付科技”、“腾讯理财通”、“搜搜”、“易迅”、“微信”、“微视”、“财付通”以及“理财通”中的一个，可见，上述第一分词集合至少包括了预设的至少包含词集合中的“腾讯”。

步骤206、判断第一分词集合与不能包含词集合是否有交集，若判断结果为否，则执行步骤207。

具体地，判断第一分词集合与不能包含词集合是否有交集。例如，判断第一分词集合：“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”以及“腾讯计算机系统有限公司”与不能包含词集合：“店”、“客栈”、“物流”、“数码”、“安腾讯”、“金腾讯”、“世纪腾讯”无交集。

步骤207、根据欧式距离算法计算第一政企客户名称与第一名单制客户名称的相似度分值。

具体地，根据上述二维词频矩阵以及分词索引号生成第一名单制客户索引数组、第一名单制客户分值数组、第一政企客户索引数组以及第一政企客户分值数组，然后，合并第一名单制客户索引数组以及第一政企客户索引数组生成索引数组，并对索引数组中的所有分词索引号进行升序排序，合并第一名单制客户分值数组以及第一政企客户分值数组生成分值数组，并根据索引数组中的分词索引号的排列顺序对分值数组中所有分值进行排序，最后，根据索引数组、分值数组以及欧式距离算法计算第一政企客户名称与第一名单制客户名称的相似度分值。

步骤208、判断相似度分值是否小于预设的相似度分值，若判断结果为是，则执行步骤209。

具体地，在根据欧式距离算法计算第一政企客户名称与第一名单制客户名称的相似度分值之后，判断相似度分值是否小于预设的相似度分值。

其中，欧式距离算法经过数据代入计算，在政企客户聚类的场景中对比众多的其他聚类算法中结果相对准确率较高，但是还远远达不到业务部门对智能自动聚类操作的准确率要求。

步骤209、计算第一分词集合与第二分词集合的偏离度分值。

在一种可能的设计中，在依次对比并生成偏离分值数组之后，依次将偏离分值数组中的每个元素数值与预设权重值进行乘积，并求和得到最终的偏离度分值。其中，预设权重值可以更加实际分析的对象进行确定，可以取任意小于1的正数值，例如可以取0.4，但是，值得说明地，在本实施例中并不对预设权重值具体的取值进行限定。

为了进一步的提高后续判断的准确度，对于计算偏离度分值，还可以引入衰减权重值算法，具体包括：计算偏离分值数组中序号为0的元素值与预设权重值的乘积，结果为第0偏离度分值，计算偏离分值数组中序号为n的元素值与衰减预设权重值的乘积，结果为第n偏离度分值，叠加第0偏离度分值至第n偏离度分值，得到偏离度分值。

此外，还可以在叠加第0偏离度分值至第n偏离度分值，得到偏离度分值之后，判断预设的降低偏离度词集合中的第一元素是否属于第一分词集合，若判断结果为是，则将偏离度分值更新为偏离度分值与第一降低距离系数相乘后的计算结果，其中，第一降低距离系数与第一元素对应。例如，此处的降低偏离度词集合可以包括“腾讯”，而对于腾讯集团，若在相关客户名称中存在“腾讯”，则可以说明该客户名称与腾讯集团具有较高的联系，即若“腾讯”属于第一分词集合，则将偏离度分值更新为偏离度分值与第一降低距离系数相乘后的计算结果，其中，第一元素为“腾讯”，其所对应的第一降低距离系数为小于1的正数。

步骤210、判断偏离度分值是否小于预设的偏离度分值，判断结果为是，则执行步骤211。

步骤211、第一政企客户名称与第一名单制客户名称匹配成功。

此外，在确定第一政企客户名称与第一名单制客户名称匹配成功之后，还可以输出政企客户聚类结果文件，其中，政企客户聚类结果文件中至少包括：第一名单制客户名称、第一政企客户代号、第一政企客户名称、第一政企客户省份名称、第一政企客户地市名称、相似度分值以及偏离度分值，并且，政企客户聚类结果文件中任意相邻的两个参数之间均设置有分隔符。

图3是根据一示例性实施例示出的政企客户聚类装置的结构示意图。如图3所示，本实施例提供的政企客户聚类装置，包括：

获取模块301，用于获取政企客户数据以及名单制客户数据，其中，所述政企客户数据至少包括第一政企客户名称，所述名单制客户数据至少包括第一名单制客户名称；

分词模块302，用于分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理，其中，所述第一政企客户名称和所述第一名单制客户名称分词处理后的分词结果分别为第一分词集合和第二分词集合；

计算模块303，用于计算所述第一分词集合与所述第二分词集合的偏离度分值；

匹配模块304，用于若所述偏离度分值小于预设的偏离度分值，则所述第一政企客户名称与所述第一名单制客户名称匹配成功。

在图3所示实施例的基础上，图4是根据另一示例性实施例示出的政企客户聚类装置的结构示意图。如图4所示，在本实施例提供的政企客户聚类装置中，所述计算模块303，还用于根据词频-逆文本频率指数算法生成二维词频矩阵，其中，所述二维词频矩阵的横向为第三分词集合中的分词，所述第三分词集合为所述第一分词集合和所述第二分词集合的合集，所述二维词频矩阵的纵向为所述第一政企客户名称以及所述第一名单制客户名称，并且，所述二维词频矩阵中每个矩阵元素为所述矩阵元素对应的横向分词和纵向客户名称的词频-逆文本频率指数分值；

所述匹配模块304，还用于为所述二维词频矩阵横向上的每个分词分配分词索引号。

在一种可能的设计中，所述政企客户聚类装置，还包括：

判断模块305，用于判断所述第一分词集合是否包括预设的至少包含词集合中至少一个元素，其中，所述名单制客户数据中包括所述至少包含词集合；

所述判断模块305，还用于判断所述第一分词集合与不能包含词集合是否有交集，其中，所述名单制客户数据中包括所述不能包含词集合。

在一种可能的设计中，所述计算模块303，还用于根据欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值；

所述判断模块305，还用于判断所述相似度分值是否小于预设的相似度分值。

在一种可能的设计中，所述计算模块303，具体用于：

在一种可能的设计中，所述分词模块302，还用于从所述第一分词集合删除第一政企客户省份名称以及第一政企客户地市名称，其中，所述政企客户数据还包括：第一政企客户代号、所述第一政企客户省份名称以及所述第一政企客户地市名称。

图3-图4所示的实施例提供的政企客户聚类装置，可用于执行上述图1-图2提供的方法，具体实现方式和技术效果类似，这里不再赘述。

此外，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项方法实施例所述的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5是根据一实施例提供的电子设备的结构示意图。如图5所示，本实施例提供的电子设备，包括：

处理器401；以及

存储器402，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行前述任一项方法实施例所述的技术方案，其实现原理和技术效果类似，此处不再赘述。

并且，上述设备中的各模块的功能可以通过处理器401实现。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种政企客户聚类方法，其特征在于，包括：

计算所述第一分词集合与所述第二分词集合的偏离度分值；

2.根据权利要求1所述的政企客户聚类方法，其特征在于，在分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理之后，还包括：

为所述二维词频矩阵横向上的每个分词分配分词索引号。

3.根据权利要求2所述的政企客户聚类方法，其特征在于，在为所述二维词频矩阵的横向上的分配分词索引号之后，还包括：

4.根据权利要求3所述的政企客户聚类方法，其特征在于，在计算所述第一分词集合与所述第二分词集合的偏离度分值之前，还包括：

5.根据权利要求4所述的政企客户聚类方法，其特征在于，所述根据欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值，包括：

6.根据权利要求1-5中任意一项所述的政企客户聚类方法，其特征在于，所述计算所述第一分词集合与所述第二分词集合的偏离度分值，包括：

7.根据权利要求6所述的政企客户聚类方法，其特征在于，所述计算所述偏离度分值，包括：

8.根据权利要求7所述的政企客户聚类方法，其特征在于，在所述叠加所述第0偏离度分值至所述第n偏离度分值，得到所述偏离度分值之后，还包括：

9.根据权利要求8所述的政企客户聚类方法，其特征在于，在分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理之后，还包括：

10.一种政企客户聚类装置，其特征在于，包括：