CN108345586B

CN108345586B - 一种文本去重方法及系统

Info

Publication number: CN108345586B
Application number: CN201810134643.3A
Authority: CN
Inventors: 孙世通; 刘德彬; 万杰; 严开; 陈玮
Original assignee: Chongqing Socialcredits Big Data Technology Co ltd; Chongqing Telecommunication System Integration Co ltd
Current assignee: China Telecom Yijin Technology Co.,Ltd.; Chongqing Yucun Technology Co ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2021-04-02
Anticipated expiration: 2038-02-09
Also published as: CN108345586A

Abstract

本发明提供一种文本去重方法，包括以下步骤，目标文本数据预处理步骤；生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值步骤；去重步骤。本发明针对网络文本独有的特性，在应用SimHash算法的策略上做出调整，在以新闻文本背后事件为主体进行去重时，获得更优效果与更高鲁棒性。

Description

一种文本去重方法及系统

技术领域

本发明涉及信息处理领域，具体涉及一种文本去重方法及系统。

背景技术

文本去重技术在海量数据采集阶段被广泛地应用，任何一家大数据公司都无法绕开这个问题。当前主流的文本去重方案大致可分为以下两种：

1基于文本特征向量的相似度匹配

2利用基于分词结果的SimHash实现距离度量

但在识别文本背后的相同事件时，局部少量篇章的引用等现象将会影响最终结果，造成误判、漏判等现象。

现有技术基于文本特征向量的相似度匹配，运用LSI、LDA算法或one-hot的方式将文本表征为特定维度的文本向量，两两之间计算相似度，运算开销非常大，效率低下。

现有技术运用SimHash对整篇文本生成hashcode，simhash是locality sensitivehash(局部敏感哈希)的一种，最早由Moses Charikar在《similarity estimationtechniques from rounding algorithms》一文中提出。Google就是基于此算法实现网页文件查重的。hashcode的相似程度能直接反映输入内容的相似程度。目前主流的SimHash特征是基于中文分词的。现有技术在处理以事件为主体的去重任务时，较低相似度的两篇文章也有可能指代同一事件，这会导致漏判。这一现象主要体现在网络文本标题、摘要、正文骨干语句的个别引用现象。

发明内容

为了解决上述问题，本发明提供一种文本去重方法，包括以下步骤，

目标文本数据预处理；

生成目标文本正文局部敏感哈希值和生成目标文本标题局部敏感哈希值；

去重步骤。

进一步的，目标文本数据预处理包括，

去除目标文本中的停用词，获取目标文本标题分词信息，获取目标文本正文断句信息；

生成目标文本标题局部敏感哈希值，分词权重按以下公式获取，

其中N为正文特征数量，M为标题特征数量，β为预先设定的参数；

生成目标文本正文局部敏感哈希值，句子权重按以下公式获取，

Wsententce-i＝(N-pos)^α,α∈(0,1]，

其中N为正文特征数量，M为标题特征数量，α为预先设定的参数，pos为语句在正文中的顺序下标。

进一步的，去重步骤包括，依据下述公式判断目标文本与样本是否表述相同事件，

Rule＝Rule₁U(Rule₂∩Rul₃)

其中，C1，C2为预先设置的常量参数，t为预先设置的海明距离阈值，titlehash为目标文本标题局部敏感哈希值，contenthash为目标文本正文局部敏感哈希值，title_i为样本数据库中样本文本标题局部敏感哈希值，content_i为样本数据库中样本文本正文局部敏感哈希值，Rule表示目标文本和样本是否为表述相同事件的判断条件；

进一步的，还包括步骤，

若目标文本与样本表述不相同事件，则将目标文本信息加入样本数据库中；

目标文本信息包括目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值。

进一步的，还包括获取样本数据库，获取样本数据库包括，

去除样本文本中的停用词；

获取样本文本标题分词信息，获取样本文本正文断句信息；

依据样本文本正文断句信息生成样本文本正文局部敏感哈希值，正文中的位置越靠前的句子权值越大；

依据样本文本标题分词信息生成样本文本标题局部敏感哈希值，分词权重参考样本标题特征与样本正文特征的数量比例；

将样本信息加入样本数据库中，样本信息包括样本文本标题局部敏感哈希值和样本文本正文局部敏感哈希值。

为了保证上述方法的实施，本发明还提供一种文本去重系统，包括以下单元，预处理单元，用于目标文本数据预处理；

目标文本处理单元，用于生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值；

去重单元，用于去重。

进一步的，预处理单元去除目标文本中的停用词；

预处理单元获取目标文本标题分词信息，获取目标文本正文断句信息；

目标文本处理单元生成目标文本标题局部敏感哈希值，分词权重按以下公式获取，

目标文本处理单元生成目标文本正文局部敏感哈希值，句子权重按以下公式获取，

Wsententce-i＝(N-pos)^α,α∈(0,1]，

进一步的，去重单元依据下述公式判断目标文本与样本是否表述相同事件，

Rule＝Rule₁∪(Rule₂∩Rule₃)

进一步的，去重单元执行如下，

进一步的，还包括获取样本数据库，获取样本数据库包括，

去除样本文本中的停用词；

获取样本文本标题分词信息，获取样本文本正文断句信息；

本发明的有益效果是：

1本发明针对网络文本独有的特性，在应用SimHash算法的策略上做出调整，在以新闻文本背后事件为主体进行去重时，获得更优效果与更高鲁棒性。

2能解决网络文章摘抄和引用所造成的相似性匹配问题。

3能对新闻背后的事件进行去重。

4能识别相似度较高的文本，能识别相似度较低但部分语句引用自目标库的文本。

5准确率和召回率可统计。

6在文章尤其是新闻中，正文和标题同时会对文章表达起到作用，本发明在去重时同时参考正文敏感哈希值和标题敏感哈希值，相对于现有技术单纯采用正文敏感哈希值去重具有更好的去重效果。

附图说明

图1为一种文本去重方法流程图。

图2为一种文本去重方法系统结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。另外还需要说明的是，为了便于说明，以下实施例中示出了与本发明相关的示例，这些示例仅作为说明本发明实施例的原理所用，并不作为对本发明实施例的限定，同时，这些示例的具体数值会根据不同的应用环境和装置或者组件的参数不同而不同。

本发明实施例的用于短文本去重的方法及装置可以运行于安装Windows(微软公司开发的操作系统平台)、Android(谷歌公司开发的用于便携式可移动智能设备的操作系统平台)、iOS(苹果公司开发的用于便携式可移动智能设备的操作系统平台)、WindowsPhone(微软公司开发的用于便携式可移动智能设备的操作系统平台)等操作系统的终端中，该终端可以是台式机、笔记本电脑、移动电话、掌上电脑、平板电脑、数码相机、数码摄像机等等中的任意一种。

实施例1

本发明针对网络文本独有的特性，在应用SimHash算法的策略上做出调整，在以新闻文本背后事件为主体进行去重时，获得更优效果与更高鲁棒性。

目标文本可以是网络爬虫从互联网上抓取的新闻文本，本发明要解决的问题之一是，在抓取到的新闻文本库中判断那些新闻文本在报道同一事件，并对报道同一事件的新闻文本进行归类和去重。

如图1所示，本发明提供一种文本去重方法，包括以下步骤，

目标文本数据预处理步骤；

生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值步骤；

去重步骤。

进一步的，目标文本数据预处理步骤包括，去除目标文本中的停用词，获取目标文本标题分词信息，获取目标文本正文断句信息；

对标题实现中文分词，可以采用现有的中文分词工具，例如中科院分词系统、hanlp、jieba等。

生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值步骤包括，依据目标文本标题分词信息生成目标文本标题局部敏感哈希值，分词权重参考标题特征与正文特征的数量比例；

标题以词为特征单位生成titlehash，可以是64位的二进制串；标题部分的权重参考标题特征与正文特征的数量比例，

标题特征数量是标题以词作为特征单位的数量。

Wsententce-i＝(N-pos)^α,α∈(0,1]，

正文特征数量是正文以句子作为特征单位的数量。

正文以句子为特征单位生成contenthash(正文局部敏感哈希值)，可以是64位的二进制串；在contenthash生成过程中的句子单位权重判定阶段，正文中的位置越靠前的句子权值越大，即：

sentence_weight(pos)<sentence_weight(pos-1)，pos为语句在正文中的顺序下标。

在文章尤其是新闻中，会在正文的第一句对新闻要表达的事件进行概括，正文中句子越靠前表明句子在文章整体表达中起到的作用越大。正文中越靠前的句子权重越大可以更加准确的反应文章所表达的事件，实现更好的去重效果。

在文章尤其是新闻中，正文内容越少，既正文特征数量越少，标题在整篇文章表达中所起到的作用越大，参考正文特征数量和标题特征数量来确定标题特征的权重，可以更加准确的反应正文所表达的事件，实现更好的去重效果。

Rule＝Rule₁∪(Rule₂∩Rule₃)

在文章尤其是新闻中，正文和标题同时会对文章表达起到作用，通过上述公式在去重时同时参考正文敏感哈希值和标题敏感哈希值，相对于现有技术单纯采用正文敏感哈希值去重具有更好的去重效果

Hamming Distance，又称海明距离，在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。也就是说，它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如：1011101与1001001之间的海明距离是2。

在具体实施过程中，一般取C1<1.0，C2>1.0。参数t在本发明一实施例取值17，越小对重复的定义越严格(即越不容易重复)

进一步的，若目标文本与样本表述不相同事件，则将目标文本信息加入样本数据库中；

进一步的，还包括获取样本数据库步骤，获取样本数据库步骤包括，

去除样本文本中的停用词；

获取样本文本标题分词信息，获取样本文本正文断句信息；

对表示相同事件的样本进行哈希值融合，随着新闻的增多，其查重的效果会逐步优化。

显然，本领域技术人员应该明白，上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能单元和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种文本去重方法，其特征在于，包括以下步骤，

目标文本数据预处理；其中，目标文本数据预处理包括，

Wsententce-i＝(N-pos)^α,α∈(0 ,1]，

其中N为正文特征数量，M为标题特征数量，α为预先设定的参数，pos为语句在正文中的顺序下标

去重步骤。

2.如权利要求1所述的一种文本去重方法，其特征在于，去重步骤包括，依据下述公式判断目标文本与样本是否表述相同事件，

Rule＝Rule1∪(Rule2∩Rule3)

其中，C1，C2为预先设置的常量参数，t为预先设置的海明距离阈值，titlehash为目标文本标题局部敏感哈希值，contenthash为目标文本正文局部敏感哈希值，titlei为样本数据库中样本文本标题局部敏感哈希值，contenti为样本数据库中样本文本正文局部敏感哈希值，Rule表示目标文本和样本是否为表述相同事件的判断条件。

3.如权利要求2所述的一种文本去重方法，其特征在于，还包括步骤，

4.如权利要求1所述的一种文本去重方法，其特征在于，还包括获取样本数据库，获取样本数据库包括，

去除样本文本中的停用词；

获取样本文本标题分词信息，获取样本文本正文断句信息；

5.一种文本去重系统，其特征在于，包括以下单元，

预处理单元，用于目标文本数据预处理；预处理单元去除目标文本中的停用词；

Wsententce-i＝(N-pos)^α,α∈(0 ,1]，

去重单元，用于去重。

6.如权利要求5所述的一种文本去重系统，其特征在于，去重单元依据下述公式判断目标文本与样本是否表述相同事件，

Rule＝Rule1∪(Rule2∩Rule3)

7.如权利要求6所述的一种文本去重系统，其特征在于，去重单元执行以下，

8.如权利要求5所述的一种文本去重系统，其特征在于，还包括获取样本数据库，获取样本数据库包括，

去除样本文本中的停用词；

获取样本文本标题分词信息，获取样本文本正文断句信息；