CN110532569A

CN110532569A - 一种基于中文分词的数据碰撞方法及系统

Info

Publication number: CN110532569A
Application number: CN201910835288.7A
Authority: CN
Inventors: 张华�; 闫中玉; 王澎湃
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2019-12-03
Anticipated expiration: 2039-09-05
Also published as: CN110532569B

Abstract

本发明公开了一种基于中文分词的数据碰撞方法及系统，属于机器学习领域，本发明要解决的技术问题为如何能够简单高效的处理自然语言文本相似性，满足大数据场景下的时效性需求，采用的技术方案为：①该方法步骤如下：S1、数据预处理，将待碰撞的数据存入内存或HDFS；S2、待碰撞的数据使用Lucene存在内存或者直接用ES存储在分布式计算引擎Spark上遍历待碰撞数据；S3、针对每一条数据，从Lucene或ES预搜索近似数据，针对每一条数据，从Lucene或ES；S4、对待碰撞的数据和搜索得到的结果进行中文分词；S5、计算相似性评分；S6、输出碰撞结果。②该系统包括，存储模块、计算模块、近似数据预搜索模块、中文分词模块、相似性评分模块及碰撞结果输出模块。

Description

一种基于中文分词的数据碰撞方法及系统

技术领域

本发明涉及机器学习领域，具体地说是一种基于中文分词的数据碰撞方法及系统。

背景技术

中文分词是指将一个语句中的汉字序列拆分成多个单独的词语，而分词就是将连续的字序列按照特定的规则重新组合成词序列的过程。

不同部门的数据对同一实体对象的描述往往不同，给部门间的数据流通(交流)造成很大困难。数据量较小的时候可以通过人工标注来解决，但在当今动辄数百万，上千万数据量的情况下，人工标注的方式显然是不可能的。因此建立一种方法，准确、高效地对比实体相似度是非常必要地。

现有的文本相似性依赖自然语言处理的文本相似性计算，对于较长的、有上下文关系的文本相似性比较效果较好，但是对于一二十字以内、拥有较少语义信息的实体名称相似性比较往往不尽如人意。

自然语言处理的文本相似性比较计算复杂度高，效率低，在大数据的场景下难以满足时效性要求。

专利号为CN106970902A的专利文献公开了一种中文分词方法及装置，获取待分词的语句；提取所述语句中与预置数据库中词语匹配的词语；根据自然语句对所述提取词语后的语句进行分词。但是该技术方案不能简单高效的处理自然语言文本相似性，满足大数据场景下的时效性

发明内容

本发明的技术任务是提供一种基于中文分词的数据碰撞方法及系统，来解决如何能够简单高效的处理自然语言文本相似性，满足大数据场景下的时效性需求的问题。

本发明的技术任务是按以下方式实现的，一种基于中文分词的数据碰撞方法，该方法是利用中文分词算法，把要对比的两个实体名称进行中文分词，对比两个实体名称相同的分词个数，根据分词个数计算相似度；具体步骤如下：

S1、数据预处理，将待碰撞的数据存入内存或HDFS；

S2、待碰撞的数据使用Lucene存在内存或者直接用ES存储在分布式计算引擎Spark上遍历待碰撞数据；

S3、针对每一条数据，从Lucene或ES预搜索近似数据，针对每一条数据，从Lucene或ES；

S4、对待碰撞的数据和搜索得到的结果进行中文分词；

S5、计算相似性评分：根据配置的选项，将相似性比较算法和外部规则应用于待碰撞的数据和搜索得到的结果，排除文本中的干扰信息，计算两者的相似性，得到相似性评分；

S6、输出碰撞结果：根据相似性评分及设置的阈值，得出最终的相似性，输出碰撞结果。

作为优选，所述步骤S1中数据预处理具体包括：

去除噪音字符，噪音字符包括空格和括号；

去除预先定义的无需比对的字和词。

作为优选，所述步骤S4中中文分词利用Ansj开源中文分词器，将完整的一句话切割成一个一个的词语的形式。

作为优选，所述步骤S5中配置的选项包括：

无需比对的字和词；

采用的相似性比较算法。

更优地，所述步骤S5中相似性比较算法包括TF-IDF和编辑距离，具体如下：

TF-IDF相似性＝词频*逆文档频率；

其中，词频＝任一词在所有的数据中出现的次数/所有数据的总次数；

逆文档频率＝log(数据总条数/(包含该词的数据条数+1))；

编辑距离相似性＝(两条数据长度的最大值-两个记录的编辑距离)/两条数据长度的最大值。

作为优选，所述步骤S6中阀值的范围是0-1；根据实际情况，如需要求判别结果尽可能准确，但可能会将同一实体误判为非同一实体，阈值设置尽可能接近1；相反地，阈值设置尽量远离1。

作为优选，所述步骤S6中根据相似性评分及设置的阈值，得出最终的相似性的具体如下：

相似性评分越接近1，最终的相似性越大；

任两条数据相似性评分超过阈值，判定该两条数据为同一实体(即完全相似)，判定失误的概率等于1减去相似性评分。

一种基于中文分词的数据碰撞系统，该系统包括，

存储模块，用于针对原始数据的预处理，选择将原始数据存于内存、HDFS或者ES；

计算模块，用于将待碰撞的数据使用Lucene存在内存或者直接用ES存储在分布式计算引擎Spark上遍历待碰撞数据；

近似数据预搜索模块，用于针对每一条数据，从Lucene或ES预搜索近似数据，针对每一条数据，从Lucene或ES；

中文分词模块，用于对待碰撞的数据和搜索得到的结果进行中文分词；

相似性评分模块，用于根据配置的选项，将相似性比较算法和外部规则应用于待碰撞的数据和搜索得到的结果，排除文本中的干扰信息，计算两者的相似性，得到相似性评分；

碰撞结果输出模块，用于根据相似性评分及设置的阈值，得出最终的相似性，输出碰撞结果。

作为优选，所述存储模块包括数据预处理模块，数据预处理模块用于去除数据中的噪音字符以及预先定义的无需比对的字和词；噪音字符包括空格和括号。

更优地，所述相似性比较算法包括TF-IDF和编辑距离，具体如下：

TF-IDF相似性＝词频*逆文档频率；

逆文档频率＝log(数据总条数/(包含该词的数据条数+1))；

本发明的基于中文分词的数据碰撞方法及系统具有以下优点：

(1)、本发明提出的基于中文分词的数据碰撞方法，思路清晰，可操作性强，特别适合海量数据的数据集之间找相似实体的情况；先把数据读入内存，根据规则先通过搜索算法缩小数据范围，把相似度为0的先排除在外，再根据中文分词算法把剩余的数据进行相似度的比对，最终按相似度从大到小进行排序，显示比对的结果，提高了文本相似度的计算效率；

(2)、本发明利用搜索算法，根据一定规则缩小数据比对的范围；

(3)、本发明利用中文分词算法对要比对的文本进行分词，根据分词出现的频率比对两个文本的相似度；

(4)、本发明引入外部自定义规则，排除文本中的没有信息量的干扰信息

(5)、本发明利用分布式计算提高碰撞效率；

(6)、本发明的相似性比较算法可以选择字符级别相似性或语义级别相似性，也能综合不同结果进行加权处理，提高了文本相似度的准确性。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于中文分词的数据碰撞方法流程框图；

附图2为基于中文分词的数据碰撞系统的结构框图；

附图3为实施例3碰撞结果示意图。

具体实施方式

参照说明书附图和具体实施例对本发明的一种基于中文分词的数据碰撞方法及系统作以下详细地说明。

实施例：

如附图1所示，本发明的基于中文分词的数据碰撞方法,该方法是利用中文分词算法，把要对比的两个实体名称进行中文分词，对比两个实体名称相同的分词个数，根据分词个数计算相似度；具体步骤如下：

S1、数据预处理，将待碰撞的数据存入内存或HDFS；

S4、对待碰撞的数据和搜索得到的结果进行中文分词；

其中，步骤S1中数据预处理具体包括：

去除噪音字符，噪音字符包括空格和括号；

去除预先定义的无需比对的字和词。

步骤S4中中文分词利用Ansj开源中文分词器，将完整的一句话切割成一个一个的词语的形式。

步骤S5中配置的选项包括：

无需比对的字和词；

采用的相似性比较算法。

步骤S5中相似性比较算法包括TF-IDF和编辑距离，具体如下：

TF-IDF相似性＝词频*逆文档频率；

逆文档频率＝log(数据总条数/(包含该词的数据条数+1))；

步骤S6中阀值的范围是0-1；根据实际情况，如需要求判别结果尽可能准确，但可能会将同一实体误判为非同一实体，阈值设置尽可能接近1；相反地，阈值设置尽量远离1。步骤S6中根据相似性评分及设置的阈值，得出最终的相似性的具体如下：

相似性评分越接近1，最终的相似性越大；

实施例2：

如附图2所示，本发明的基于中文分词的数据碰撞系统，该系统包括，

其中，存储模块包括数据预处理模块，数据预处理模块用于去除数据中的噪音字符以及预先定义的无需比对的字和词；噪音字符包括空格和括号。

TF-IDF相似性＝词频*逆文档频率；

逆文档频率＝log(数据总条数/(包含该词的数据条数+1))；

实施例3：

如附图3所示，相同企业标记，在搜索“LG化学(广州)工程塑料有限公司”时，碰撞结果有五个名字相似的公司，相似度评分最高的公司作为第一位输出，后面四个依次为相似度评分越来越低的公司。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于中文分词的数据碰撞方法，其特征在于，该方法是利用中文分词算法，把要对比的两个实体名称进行中文分词，对比两个实体名称相同的分词个数，根据分词个数计算相似度；具体步骤如下：

S1、数据预处理，将待碰撞的数据存入内存或HDFS；

S4、对待碰撞的数据和搜索得到的结果进行中文分词；

2.根据权利要求1所述的基于中文分词的数据碰撞方法，其特征在于，所述步骤S1中数据预处理具体包括：

去除噪音字符，噪音字符包括空格和括号；

去除预先定义的无需比对的字和词。

3.根据权利要求1所述的基于中文分词的数据碰撞方法，其特征在于，所述步骤S4中中文分词利用Ansj开源中文分词器，将完整的一句话切割成一个一个的词语的形式。

4.根据权利要求1所述的基于中文分词的数据碰撞方法，其特征在于，所述步骤S5中配置的选项包括：

无需比对的字和词；

采用的相似性比较算法。

5.根据权利要求1或4所述的基于中文分词的数据碰撞方法，其特征在于，所述步骤S5中相似性比较算法包括TF-IDF和编辑距离，具体如下：

TF-IDF相似性＝词频*逆文档频率；

逆文档频率＝log(数据总条数/(包含该词的数据条数+1))；

6.根据权利要求1所述的基于中文分词的数据碰撞方法，其特征在于，所述步骤S6中阀值的范围是0-1。

7.根据权利要求1所述的基于中文分词的数据碰撞方法，其特征在于，所述步骤S6中根据相似性评分及设置的阈值，得出最终的相似性的具体如下：

相似性评分越接近1，最终的相似性越大；

任两条数据相似性评分超过阈值，判定该两条数据为同一实体，判定失误的概率等于1减去相似性评分。

8.一种基于中文分词的数据碰撞系统，其特征在于，该系统包括，

9.根据权利要求8所述的基于中文分词的数据碰撞系统，其特征在于，所述存储模块包括数据预处理模块，数据预处理模块用于去除数据中的噪音字符以及预先定义的无需比对的字和词；噪音字符包括空格和括号。

10.根据权利要求8或9所述的基于中文分词的数据碰撞系统，其特征在于，所述相似性比较算法包括TF-IDF和编辑距离，具体如下：

TF-IDF相似性＝词频*逆文档频率；

逆文档频率＝log(数据总条数/(包含该词的数据条数+1))；