CN103885937B

CN103885937B - 基于核心词相似度判断企业中文名称重复的方法

Info

Publication number: CN103885937B
Application number: CN201410149132.0A
Authority: CN
Inventors: 刘少武; 王婷
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2014-04-14
Filing date: 2014-04-14
Publication date: 2015-02-25
Anticipated expiration: 2034-04-14
Also published as: CN103885937A

Abstract

本发明公开了一种基于核心词相似度判断企业中文名称重复的方法，通过ETL,把B2B电子商务平台数据库中的企业中文名称，加载到企业名称数据集市中；对数据集市中保存的企业中文名称进行预处理；通过企业中文名称核心词提取方法来提取这些新增企业中文名称的核心词；根据核心词所对应的企业中文名称集，从而找到对应的未去除名称地域关键词的企业中文名称，通过考虑权重的文本相似度计算处理方法，计算新增企业中文名称与对应的去除名称地域关键词的企业中文名称的相似度。本发明减少了匹配工作的处理量，提高了整个方法的处理效率。

Description

基于核心词相似度判断企业中文名称重复的方法

技术领域

本发明属于B2B电子商务信息审核领域，特别是基于核心词相似度判断企业中文名称重复的方法。

背景技术

在国内，由于B2B电子商务在企业中的应用越来越普及，每天有大量的访问者在B2B电子商务平台上产生大量的注册行为，由于企业访问者使用不熟练、或者是企业本身具有扩大宣传的意图等，都会出现反复注册的情况，从而在B2B电子商务平台上出现大量重复企业的现象，这导致大量的冗余信息保存在B2B电子商务平台中，使平台的信息质量降低。另外，如果有些企业出于扩大宣传的意图，不仅会由于反复注册产生大量的重复身份信息，而且会出现大量相同的产品信息，降低了实际浏览者的体验效果，从而直接影响了B2B电子商务平台的访问品质，因此防止这种行为对保证B2B电子商务平台的质量是非常重要的。

在这些大量的反复注册信息中包含有大量的重复的企业中文名称信息，因此企业中文名称成为B2B电子商务运营商审核的重要标志。

而目前采取的方法大体是，B2B电子商务运营商的工作人员在管理系统内，按一定规则，通过全文检索，或使用搜索引擎来人工判断，这种方法在准确性和审核效率上存在很大的不足。

专利“一种检测文本重复的方法”（专利申请号201110029493.8），根据一文本中每一个词语的TF值及其是否在标题中出现得到该词语的权值，顺序从文本中取出权值最高的若干词语作为关键词集框架；对于得到关键词集框架的任意两篇文本，依次判断一篇文本关键词集框架中的每一个词语是否在另一篇文本的关键词集框架中，当该词语属于两篇文本的关键词集框架、且在两篇文本中的权值匹配时，将表征匹配程度的匹配值加1，直至一篇文本关键词集框架中最后一个词语，根据得到的匹配值得到两篇文本的相似度；根据相似度及一相似度阈值判断出两篇文本是否为重复的文本。

此发明方法在判断时先要得到关键词框架，框架与文本标题有关，没有考虑单个词在整个句子中的重要程度，例如在企业中文名称中，包含有多个词，每个词的重要程度都是不一样的，例如“焦点科技股份有限公司”，其中“焦点科技”就比“有限”、“公司”这两个词的重要性要高得多，如果不考虑不同词的重要程度，就无法准确判断他们的重复程度。

专利“一种检测文本重复的方法及装置”（专利申请号201310144339.4），所述方法包括：获得待测文本和现有文本中的特征词和特征词序列；将待测文本中的每个特征词分别与现有文本中的每个特征词进行匹配；在特征词匹配成功时，获取匹配一致的特征词在待测文本特征词序列中的绝对位置与在现有文本特征词序列中的绝对位置；判断是否存在一组匹配一致的特征词，所述一组的所有特征词在待测文本与现有文本的特征词序列中的绝对位置有线性关系；若存在一组匹配一致的特征词，根据所述一组匹配一致的特征词在待测文本和现有文本的特征词序列中的绝对位置，确定待测文本与现有文本的重复区域。该方法也没有考虑单个词语的重要程度，而且计算相似度时效率低。

因此如何考虑文本中各个词的重要程度，并提高检测重复的效率是亟需解决的问题。

发明内容

为了解决上述问题，本发明的目的在于提供基于核心词相似度判断企业中文名称重复的方法及系统。该方法智能精准。本发明还在系统中实现了该方法。

基于核心词相似度判断企业中文名称重复的方法及系统。技术方案如下：

基于核心词相似度判断企业中文名称重复的方法包括以下步骤：

步骤一：通过ETL,把B2B电子商务平台数据库中的企业中文名称，加载到企业名称数据集市中。其中，ETL是数据抽取（Extract）、清洗（Cleaning）、转换（Transform）、装载（Load）的过程。

步骤二：对数据集市中保存的企业中文名称进行预处理。

（1）对每个企业中文名称，指针从首字开始，以2个字一组取1个词，然后指针每次向右移动一个字，继续以2个字一组取1个词，该企业中文名称取词结束后，对下一个企业中文名称进行取词。如此循环处理，直到所有企业中文名称取词结束，从而得到一系列2个字组成的词。

（2）对每个企业中文名称，指针从首字开始，以3个字一组取词，然后指针每次向右移动一个字，继续以3个字一组取词，该企业中文名称取词结束后，对下一个企业中文名称进行取词。如此循环处理，直到所有企业中文名称取词结束，从而得到一系列3个字组成的词。

（3）通过统计方法，计算所有的分词出现频率的大小，把频率高的分词挑选出来，保存在常见词库中。

步骤三：在企业名称数据集市中，对于每个企业中文名称，与中国地域名称库进行比对，去掉名称中包含的地域特征的关键词。然后在该数据集市中增加1列，用于保存去掉地域特征关键词的企业中文名称。其中，中国地域名称库保存了国内所有地域的名称。

步骤四：对于B2B电子商务平台中不断新增的企业中文名称，通过ETL加载到数据集市中，通过一种提取企业中文名称中核心词的方法来提取这些新增企业中文名称的核心词。

步骤五：取出每一个新增的企业中文名称的核心词，与企业名称数据集市中保存的去掉地域特征关键词的企业中文名称，两者进行匹配，在数据集市中，得到所有包含核心词的企业中文名称集。

步骤六：对于每一个新增的中文公司名称，根据其包含的核心词所对应的企业中文名称集，从而找到对应的未去除名称地域关键词的企业中文名称，通过一种增加词语重要程度因素的文本相似度计算处理方法，计算新增企业中文名称与对应的去除名称地域关键词的企业中文名称的相似度。

步骤七：根据业务需求提取相似度高的名称，帮助审核人员快速、准确判断企业中文名称的重复情况，对于相似度低的企业中文名称，加入到企业名称数据集市。

一种提取企业中文名称中核心词的方法：

步骤一：对于B2B电子商务平台新增的每个企业中文名称，从常见词库中依次取出常见词，从企业中文名称的左边开始，与常见词进相匹配，如果匹配成功，从企业中文名称中去掉包含的常见词，然后重新进行步骤一。如果匹配不成功，进行步骤二。

步骤二：从这个企业中文名称中，从右边减少一个字，然后继续与常见词库中的常见词进行匹配，匹配不成功，继续重复步骤二，直到企业中文名称中最后一个字为止。

步骤三：将步骤二的最后一个字保存起来，然后从企业中文名称去掉这个字，重新开始匹配，如果匹配不成功，进行步骤二，直到剩下最后一个字为止，把这个字与先前保存的字按先后顺序连接起来，保存，然后从企业中文名称去掉这个字，如果匹配成功，进行步骤四。

步骤四：通过以上步骤处理后，保存下来的词作为企业中文名称的核心词。

步骤五：通过上述步骤，对某个企业中文名称处理结束后，将得到步骤四保存的所有核心词。

步骤六：对核心词分四种情况构成最终核心词：

●核心词是由两个字组成，就加上企业中文名称右边最近的一个匹配词，共同组成这个企业中文名称的最终核心词。

●核心词是三个或者四个字组成，就保持不变，直接作为最终核心词。

●核心词大于四个字，就截取前四个字作为最终核心词。

●所获取的核心词为空值，就取整个企业中文名称作为最终核心词。

一种增加词语重要程度因素的文本相似度计算处理方法，包括：

步骤(1)：定义字符串文本A=‘a₁a₂a₃......a_n-1a_n’，B='b₁b₂b₃...b_m-1b_m'，(n＜=m)，如果B长度大于A将其互换位置；

步骤(2)：对于企业中文名称，具有一定的规律，其组成为：

地域+核心词+行业+公司

首先考虑A和B最前端是地域匹配，如果匹配成功，加上权值0.7，否则加0，然后去掉A和B的地域成为新的文本A和B。

定义|A∩B|代表字符串文本A和B相同的字符个数，score(A,B)是字符文本A和B相似度累计值，int(A,B)是字符文本A和B间隔个数，然后从A的第一个字符从左到右分别与B的字符进行匹配，并分别迭代计算|A∩B|，score(A,B)，int(A,B)的值；

步骤(3)：定义sim(A,B)是字符文本A和B的相似度计算值，当该值大于一定阈值T时认为两个字符串文本相似，否则不相似，公式如下：

sim (A, B) = = \frac{score (A, B)}{MIN (A, B)}

其中：

score (A, B) = 0.7 + 1 + Σ_{n = 1}^{I (A, B)} f (int (A, B), n - 1) \times f (int (A, B), n)

阈值定义如下:

T=1-0.1×(|A∩B|)/n×(F(I(A,B))+1)

其中，I(A,B)为int(A,B)的总和。

间隔函数定义如下：

F (int (A, B)) = \{\begin{matrix} int (A, B), & 0 < = int (A, B) < = 3; \\ 4, & int (A, B) > = 4; \end{matrix} .

相似度计算公式中的f函数定义如下：

f (int (A, B), n) = \{\begin{matrix} (1 - 0.1 \times int (A, B) & int (A, B) < = 3, & 2 \leq n \leq I (A, B); \\ 0.7, & int (A, B) > = 4, & 2 \leq n \leq I (A, B); \end{matrix}

从相似度累计值score(A,B)来看，文本自左向右，其的值逐步减小，符合企业中文名称的规律。

根据定义的相似度和阈值分别计算，然后进行比较，最终确定字符A和B的

重复性。

本发明与现有技术相比，其显著优点：

（1）本发明方法对数据集市的大量企业中文名称做了去除地域特征关键词的处理，这样大量减小了待处理企业中文名称的长度，减少了匹配工作的处理量，提高了整个方法的处理效率。

（2）本发明方法提取新增企业中文名称的核心词，通过核心词与大量企业中文名称数据集市中的信息进行匹配，减少了匹配工作的处理量，快速得到匹配集，进一步提高处理效率。

（3）本发明根据实际企业中文名称，充分考虑到名称中不同词的重要程度，即从左到右依次降低，在实际运用中效果较好。

附图说明

图1本发明实施例的基于核心词相似度判断企业中文名称重复的方法流程图。

图2本发明实施例提一种提取企业中文名称中核心词的方法流程示意图。

具体实施方式

为使本发明的实施例的目的、技术方案和优点更加清楚，下面对本发明的判断中文公司名称重复的方法和系统中涉及的一些术语做简单解释。

企业中文名称重复：是在企业中文名称文本的重复性，并不是完全相等。

相似度：衡量两个文本相似度量值。

地域：是指中国的省、市、县和镇。

核心词：最能区别公司名称的关键词，常常是去掉地域和名称后面的“股份”，“有限”，“公司”。

数据集市：是数据仓库子集，主要面向部门级业务，并且只面向某个特定的主题。

结合图1，本发明实施例的基于核心词相似度判断企业中文名称重复的方法流程图，具体包括以下步骤：

步骤101：通过ETL,把B2B电子商务平台数据库中的企业中文名称，加载到企业名称数据集市中。

步骤102：对数据集市中保存的企业中文名称进行预处理。

（1）对每个企业中文名称，从左到右，按照2个字一组进行分词，每次向右移动一个字，该企业中文名称分词结束后，对下一个企业中文名称进行分词。如此循环处理，直到所有企业中文名称分词结束，从而得到一系列2个字组成的词。

例如，对于企业中文名称“上海美亚进出口有限公司”，按照2个字一组进行分词，结果为：“上海”、“海美”、“美亚”、“亚进”、“进出”、“出口”、“口有”、“有限”、“限公”、“公司”。

（2）对每个企业中文名称，从左到右，再按照3个字一组进行分词，每次向右移动一个字，该企业中文名称分词结束后，对下一个企业中文名称进行分词。如此循环处理，直到所有企业中文名称分词结束，从而得到一系列3个字组成的词。

例如，对于企业中文名称“上海美亚进出口有限公司”，按照3个字一组进行分词，结果为：“上海美”、“海美亚”、“美亚进”、“亚进出”、“进出口”、“出口有”、“口有限”、“有限公”、“限公司”。

那么，对于企业中文名称“上海美亚进出口有限公司”，出现频率高的常见词为：“上海”、“出口”、“有限”、“公司”、“进出口”。

步骤103：在企业名称数据集市中，对于每个企业中文名称，与中国地域名称库进行比对，去掉名称中包含的地域特征的关键词。然后在该数据集市中增加1列，用于保存去掉地域特征关键词的企业中文名称。其中，中国地域名称库保存了国内所有地域的名称。

对于企业中文名称“上海美亚进出口有限公司”，去掉名称中包含的地域特征的关键词后，就变为“美亚进出口有限公司”。

步骤104：对于B2B电子商务平台中不断新增的企业中文名称，通过ETL加载到数据集市中，通过一种改进的企业中文名称核心词提取方法来提取这些新增企业中文名称的核心词。如“焦点科技股份有限公司”，提取核心词为“焦点科技”。

步骤105：取出每一个新增的中文公司名称的核心词，与企业名称数据集市中保存的去掉地域特征关键词的企业中文名称，两者进行匹配，在数据集市中，得到所有包含核心词的企业中文名称集。

步骤106：对于每一个新增的中文公司名称，根据其包含的核心词所对应的企业中文名称集，从而找到对应的未去除名称地域关键词的企业中文名称，通过改进的相似度算法，计算新增企业中文名称与对应的去除名称地域关键词的企业中文名称的相似度。

步骤107：根据业务需求提取相似度高的名称，帮助审核人员快速、准确判断企业中文名称的重复情况，对于相似度低的企业中文名称，加入到企业名称数据集市。

如图2所示，为本发明实施例的一种提取企业中文名称中核心词的方法流程示意图：

在本实施例中，如果需要提取核心词公司名称：“南京焦点科技股份有限公司”。

常见词库有:南京，科技，股份，公司，江苏，有限，厂……。

步骤201：对于B2B电子商务平台新增的每个企业中文名称，输入到系统中。

步骤202：判断其长度是否为1，如果是，进行步骤203，否则进行步骤204。

步骤203：把这个字直接作为核心词。

步骤204：从常见词库中依次取出常见词，从企业中文名称的左边开始，与常见词进相匹配，

步骤205：判断在企业中文名称中是否包含常见词，如果包含，进行步骤207，否则，进行步骤206。

步骤206：从这个企业中文名称中，从右边减少一个字，然后继续与常见词库中的常见词进行匹配，匹配不成功，继续重复步骤202，直到企业中文名称中最后一个字为止。

从“焦点科技股份有限公司”的右边减去一个字，变成“焦点科技股份有限公”，继续匹配，发现匹配不成功，再从右边减去一个字，变成“焦点科技股份有限”，还是匹配不成功，再从右边减字，直到只剩下最后一个“焦”，把“焦”字保存下来。

步骤207，从企业中文名称中去掉包含的常见词，然后重新进行步骤一。如果匹配不成功，进行步骤202。

在上例中，从常见词库中取出“南京”，与“南京焦点科技股份有限公司”进行匹配，得到“焦点科技股份有限公司”。

上述步骤的“焦点科技股份有限公司”变成了“点科技股份有限公司”，利用同样的方法对“点科技股份有限公司”进行匹配，最后剩下一个“点”，把“焦”“点”这2个字连接，作为核心词保存；同时在企业中文名称中去掉“点”，变成“科技股份有限公司”，“科技”、“股份”、“有限”、“公司”都匹配成功。

通过以上步骤处理后，保存下来的词作为企业中文名称的核心词。最后得到核心词“焦点”。

对核心词分四种情况构成最终核心词：

●核心词是由两个字组成，就加上企业中文名称右边最近的一个匹配词，共同组成这个企业中文名称的最终核心词。那么“焦点”右边的一个匹配词是“科技”，最终核心词就为“焦点科技”。

●核心词大于四个字，就截取前四个字作为最终核心词。

本发明一种一种增加词语重要程度因素的文本相似度计算处理方法流程为：

步骤(2)：对于企业中文名称，具有一定的规律，其组成为：

地域+核心词+行业+公司

sim (A, B) = = \frac{score (A, B)}{MIN (A, B)}

其中：

score (A, B) = 0.7 + 1 + Σ_{n = 1}^{I (A, B)} f (int (A, B), n - 1) \times f (int (A, B), n)

阈值定义如下:

T=1-0.1×(|A∩B|)/n×(F(I(A,B))+1)

其中，I(A,B)为int(A,B)的总和。

间隔函数定义如下：

F (int (A, B)) = \{\begin{matrix} int (A, B), & 0 < = int (A, B) < = 3; \\ 4, & int (A, B) > = 4; \end{matrix}

相似度计算公式中的f函数定义如下：

f (int (A, B), n) = \{\begin{matrix} (1 - 0.1 \times int (A, B) & int (A, B) < = 3, & 2 \leq n \leq I (A, B); \\ 0.7, & int (A, B) > = 4, & 2 \leq n \leq I (A, B); \end{matrix}

相似度计算例子：

假设字符串A,B如下：

A=南京焦苏点科技

B=南京焦百啊腾点科新技有限公司

去掉地域词“南京”后，A和B相同的字符为“焦”、“点”，“科”、“技”，所以(|A∩B|)=4

A的有7个字符，所以n=7；

在A中，“焦”与“点”之间隔1个字符，在B中，之间隔3个字符，int(A,B)=1+3=4

在A中，“点”与“科”之间隔0个字符，在B中，之间隔0个字符，int(A,B)=0

在A中，“科”与“技”之间隔0个字符，在B中，之间隔1个字符，int(A,B)=1

所以：I(A,B)=(1+3)+(0+0)+(0+1)=5；

得到动态阈值为

T＝1-0.1×(|A∩B|)/n×(F(I(A,B))+1)

=1-0.1×（4/7）×5

=0.714

score(A,B)=0.7+1+0.7+0.7+0.7*(1-0.1)=3.73

综上相似度为：

sim(A,B)=3.73/7=0.532

因为sim(A,B)<T,所以字符串A和B不相似

本领域技术人员可以对本发明的实施例进行各种改动和变型而不会脱离本发明的精神和范围。倘若本发明实施例中的这些修改和变型属于本发明权利要求及其等同的范围之内，则本发明中的实施例也包含这些改动和变型在内。

Claims

1.一种基于核心词相似度判断企业中文名称重复的方法，包括以下步骤：

步骤一：通过ETL,把B2B电子商务平台数据库中的企业中文名称，加载到企业名称数据集市中；

步骤二：对数据集市中保存的企业中文名称进行预处理；

步骤三：在企业名称数据集市中，对于每个企业中文名称，与中国地域名称库进行比对，去掉名称中包含的地域特征的关键词；然后在该数据集市中增加1列，用于保存去掉地域特征关键词的企业中文名称；其中，中国地域名称库保存了国内所有地域的名称；

步骤四：对于B2B电子商务平台中不断新增的企业中文名称，通过ETL加载到数据集市中，通过企业中文名称核心词提取方法来提取这些新增企业中文名称的核心词；

步骤五：取出每一个新增的企业中文名称的核心词，与企业名称数据集市中保存的去掉地域特征关键词的企业中文名称，两者进行匹配，在数据集市中，得到所有包含核心词的企业中文名称集；

步骤六：对于每一个新增的中文公司名称，根据其包含的核心词所对应的企业中文名称集，从而找到对应的未去除名称地域关键词的企业中文名称，通过增加词语重要程度因素的文本相似度计算处理方法，计算新增企业中文名称与对应的去除名称地域关键词的企业中文名称的相似度；

所述增加词语重要程度因素的文本相似度计算处理方法，具体为：

步骤(1)：定义字符串文本A＝‘a₁a₂a₃......a_n-1a_n’，B＝'b₁b₂b₃...b_m-1b_m'，(n＜＝m)，如果B长度大于A将其互换位置；

步骤(2)：对于企业中文名称，具有一定的规律，其组成为：地域+核心词+行业+公司，

首先考虑A和B最前端是地域匹配，如果匹配成功，加上权值0.7，否则加0，然后去掉A和B的地域成为新的文本A和B；

sim (A, B) = = \frac{score (A, B)}{MIN (A, B)}

其中：

score (A, B) = 0.7 + 1 + Σ_{n = 1}^{I (A, B)} f (int (A, B), n - 1) \times f (int (A, B), n)

阈值定义如下:

T＝1-0.1×(|A∩B|)/n×(F(I(A,B))+1)

其中，I(A,B)为int(A,B)的总和；

间隔函数定义如下：

F (int (A, B)) = \{\begin{matrix} int (A, B), & 0 < = int (A, B) < = 3; \\ 4, & int (A, B) > = 4; \end{matrix}

相似度计算公式中的f函数定义如下：

f (int (A, B), n) = \{\begin{matrix} (1 - 0.1 \times int (A, B) & int (A, B) < = 3, & 2 \leq n \leq I (A, B); \\ 0.7, & int (A, B) > = 4, & 2 \leq n \leq I (A, B); \end{matrix}

从相似度累计值score(A,B)来看，文本自左向右，其

Σ_{n = 1}^{I (A, B)} f (int (A, B), n - 1) \times f (int (A, B), n)

的值逐步减小，符合企业中文名称的规律；

根据定义的相似度和阈值分别计算，然后进行比较，最终确定字符A和B的重复性；

2.根据权利要求1所述的方法，其特征在于，步骤二中，所述对数据集市中保存的企业中文名称进行预处理，具体为：

(1)对每个企业中文名称，指针从首字开始，以2个字一组取1个词，然后指针每次向右移动一个字，继续以2个字一组取1个词，该企业中文名称取词结束后，对下一个企业中文名称进行取词；如此循环处理，直到所有企业中文名称取词结束，从而得到一系列2个字组成的词；

(2)对每个企业中文名称，指针从首字开始，以3个字一组取词，然后指针每次向右移动一个字，继续以3个字一组取词，该企业中文名称取词结束后，对下一个企业中文名称进行取词；如此循环处理，直到所有企业中文名称取词结束，从而得到一系列3个字组成的词；

(3)通过统计方法，计算所有的分词出现频率的大小，把频率高的分词挑选出来，保存在常见词库中。

3.根据权利要求1所述的方法，其特征在于，步骤四中，所述企业中文名称核心词提取方法，具体为：

步骤1：对于B2B电子商务平台新增的每个企业中文名称，从常见词库中依次取出常见词，从企业中文名称的左边开始，与常见词进相匹配，如果匹配成功，从企业中文名称中去掉包含的常见词，然后重新进行步骤1；如果匹配不成功，进行步骤2；

步骤2：从这个企业中文名称中，从右边减少一个字，然后继续与常见词库中的常见词进行匹配，匹配不成功，继续重复步骤2，直到企业中文名称中最后一个字为止；

步骤3：将步骤2的最后一个字保存起来，然后从企业中文名称去掉这个字，重新开始匹配，如果匹配不成功，进行步骤2，直到剩下最后一个字为止，把这个字与先前保存的字按先后顺序连接起来，保存，然后从企业中文名称去掉这个字，如果匹配成功，进行步骤4；

步骤4：通过以上步骤处理后，保存下来的词作为企业中文名称的核心词；

步骤5：通过上述步骤，对某个企业中文名称处理结束后，将得到步骤4保存的所有核心词；

对核心词分四种情况构成最终核心词：

●核心词是由两个字组成，就加上企业中文名称右边最近的一个匹配词，共同组成这个企业中文名称的最终核心词；

●核心词是三个或者四个字组成，就保持不变，直接作为最终核心词；

●核心词大于四个字，就截取前四个字作为最终核心词；