CN106649222A

CN106649222A - 基于语义分析与多重Simhash的文本近似重复检测方法

Info

Publication number: CN106649222A
Application number: CN201611145824.3A
Authority: CN
Inventors: 付晗; 彭志宇; 庄郭冕; 章劲
Original assignee: Insigma Hengtian Software Ltd
Current assignee: Insigma Hengtian Software Ltd
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2017-05-10
Anticipated expiration: 2036-12-13
Also published as: CN106649222B

Abstract

本发明公开了一种基于语义分析与多重Simhash的文本近似重复检测方法，本发明引入语法、句法、语义等信息，首先根据多因素综合考虑词的重要性而获得文章的关键词，然后创新地提出以关键词前后一定数目的词为文章特征，并以此计算SimHash，在处理语义的问题上，通过同义词替换的方法来消除同义词，然而这种方法比较激进，因此一定程度上降低了准确率，因此采用二重SimHash的方法，即只有在一定范围内才会使用这种激进的计算方式，结果表明改进的检测方法要比传统的SimHash、Shingling等方法效果更优。

Description

基于语义分析与多重Simhash的文本近似重复检测方法

技术领域

本发明涉及一种文本重复检测方法，尤其涉及一种基于语义分析与多重Simhash的文本近似重复检测方法。

背景技术

在数据挖掘和知识信息发现领域，随着大规模数据喷涌而出而来的一大挑战就是过多的重复信息。国外有关研究表明，有1.7％～7％的重复网页充斥在互联网环境中。这种问题在中国互联网环境中更为突出，中国互联网环境尚未成熟，版权保护机制与网民素养尚未完善，很多信息都被大量的剽窃和转载，据有关统计，中国互联网络中有超过30％的重复页面。而重复信息太多也是互联网信息检索中遇到的主要问题之一。

与网页重复检测相比，文本重复检测更加困难，这是由于语法、句式以及词语含义的多变性，而中文的复杂语言结构更是给重复检测增加了困难。近似重复的相关研究，已经有十余年的历史，其大多数是针对英文网页重复设计的。根据其相似匹配位于的阶段不同，可以简单分为两类，一类是单纯两两根据文本信息直接进行相似匹配，另一种是将每个文档的信息生成一个指定长度的编码(一般是64位)，只通过这个编码来进行相似匹配，这种方式称为指纹算法。

然而目前绝大多数算法均是针对几乎完全相同的文章，而对于词的替换、句式的变换、或者保证原文含义不变的情况下重写等近似重复问题效果一般。因此在实际应用上具有一定的局限性。

发明内容

本发明的目的在于针对现有技术的局限和不足，提供一种基于语义分析与多重Simhash的文本近似重复检测方法。

本发明的目的是通过以下技术方案来实现的：一种基于语义分析与多重Simhash的文本近似重复检测方法，利用词语的词性和统计特征选择文本的关键词，在关键词周围选取词作为文本特征，对同义词进行编码，消除同义词，利用文本特征和全文分别计算Simhash，利用多重Simhash检测文档重复；具体包括以下步骤：

(1)对中文文章进行预处理：将原始文本进行分词、去除停用词处理，余下的词称为文章的实义词；

(2)选取关键词：以tfidf、词性、词长、词首次出现的位置计算每个实义词的权重，选取权重最高的N₁个词作为关键词。N₁的取值范围为[5，15]。

词的权重计算方式为：

其中w_i表示文档中第i个词，tfidf_i表示这个词的tfidf，len(x)表示x(文档或词)的长度，pos_i表示词首次出现的位置，pro_i表示词性的权重指标，pro_i的取值范围为[0，1]。λ₁～λ₄为不同指标的权重，且满足λ₁＞λ₂＜λ₄＞λ₃。

表示词性的权重指标。为不同指标的权重的取值范围为(3)选取关键词每次出现位置前后各N₂个词作为文本特征，若关键词出现位置前或后不足N₂个词，则取到文首或文尾为止。N₂的取值范围为[6，14]。

(4)预先统计好常用的同义词，并对词进行编码，同一个含义的词编码相同，不同含义的词编码不同，但编码长度相同。找到特征中所有有同义词的词，并将其替换为对应的编码。

(5)根据文章的全部实义词计算Simhash记为simhash_1，根据文本特征计算Simhash记为simhash_2。

(6)计算两篇文章的simhash_1的海明距离，记为D1，计算两篇文章的simhash_2的海明距离记为D2。若D1≤k₁，或k₁＜D1≤k₂且D2≤k₁，则认为两篇文章近似重复。其中k₁的取值范围为[1，3]，k₂的取值范围为[5，7]。

进一步地，所述步骤2中，对于不同词性的词对应的pro_i满足：

a.若w_i为名词，则pro_i＞0.5

b.若w_i为名词，w_j为形容词，则pro_i＞＝1.5pro_j

c.若w_i为名词，w_j为动词，则pro_i＞＝2pro_j

d.若w_i为形容词，w_j为动词，则pro_i＞pro_j

e.若w_i为动词，w_j为其它词性的词，则pro_i＞2pro_j。

本发明的有益效果是：本发明引入了语法、句法、语义等信息，首先根据多因素综合考虑词的重要性而获得文章的关键词，然后创新地提出以关键词前后一定数目的词为文章特征，并以此计算SimHash，在处理语义的问题上，我们通过同义词替换的方法来消除同义词，然而这种方法比较激进，因此一定程度上降低了准确率，因此我们采用二重SimHash的方法，即只有在一定范围内才会使用这种激进的计算方式，结果表明改进的检测方法要比传统的SimHash、Shingling等方法效果更优。

附图说明

图1是原始文章预处理的示意图；

图2是选取文章关键词的示意图；

图3是文章特征选取以及计算Simhash的示意图；

图4是判断两篇文章是否近似重复的示意图；

图5是本发明方法与传统的SimHash、Shingling方法的比较结果示意图。

具体实施方式

下面结合附图详细描述本发明，本发明的目的和效果将变得更加明显。

本发明提供的一种基于语义分析与多重Simhash的文本近似重复检测方法，包括以下步骤：

词的权重计算方式为：

其中w_i表示文档中第i个词，tfidf_i表示这个词的tfidf，len(x)表示x(文档或词)的长度，pos_i表示词首次出现的位置，pro_i表示词性的权重指标。λ₁～λ₄为不同指标的权重。

pro_i的取值范围为[0，1]，对于不同词性的词对应的pro_i满足：

a.若w_i为名词，则pro_i＞0.5

b.若w_i为名词，w_j为形容词，则pro_i＞＝1.5pro_j

c.若w_i为名词，w_j为动词，则pro_i＞＝2pro_j

d.若w_i为形容词，w_j为动词，则pro_i＞pro_j

e.若w_i为动词，w_j为其它词性的词，则pro_i＞2pro_j。

不同指标的权重满足λ₁＞λ₂＞λ₄＞λ₃。

(3)选取关键词每次出现位置前后各N₂个词作为文本特征，若关键词出现位置前或后不足N₂个词，则取到文首或文尾为止。N₂的取值范围为[6，14]。

实施例

本实施例以2162篇IT新闻文章作为原始文本，具体实施方式如下：

(1)对中文文章进行预处理：如图1所示，将原始文本进行分词、去除停用词处理，余下的词为实义词。

(2)选取关键词：如图2所示，以tfidf、词性、词长、词首次出现的位置计算每个实义词的权重，选取权重最高的10个词作为关键词。词的权重通过如下公式计算：

参数选取如下：

若w_i为名词，则pro_i取0.6，若w_i为形容词，则pro_i取0.4，若w_i为动词，则pro_i取0.3，若w_i为其他词性的词，则pro_i取0.1；

tfidf权重λ₁取0.8；

词性权重λ₂取0.5；

词长权重λ₃取0.05；

首次出现位置权重λ₄取0.1；

(3)如图3所示，选取关键词每次出现位置前后各10个词作为文本特征。预先统计好常用的同义词，并对词进行编码，同一个含义的词编码相同，不同含义的词编码不同，但长度相同。之后根据文章的全部实义词计算Simhash记为simhash_1，根据文本特征计算Simhash记为simhash_2。

(4)判断两篇文章是否重复的方法如图4所示，计算两篇文章的simhash_1的海明距离，记为D1，计算两篇文章的simhash_2的海明距离记为D2。若0≤D1≤2，或2＜D1≤6且0≤D2≤2，则认为两篇文章近似重复。

本实施例中按照上述参数设定实施，称为Simhash_New，其重复检测结果与Simhash、Shingling两种方法的检测结果对比如图5所示，结果表明，本发明方法在准确率、召回率、f值三个指标上均显著高于Simhash、Shingling方法。证明了本发明方法在中文文本近似重复检测问题上具有更好的效果。

Claims

1.一种基于语义分析与多重Simhash的文本近似重复检测方法，其特征在于，该方法包括以下步骤：

(2)选取关键词：以tfidf、词性、词长、词首次出现的位置计算每个实义词的权重，选取权重最高的N₁个词作为关键词。N₁的取值范围为[5,15]。

词的权重计算方式为：

W (w_{i}) = λ_{1} {tfidf}_{i} + λ_{2} {pro}_{i} + λ_{3} l e n (w_{i}) + λ_{4} \frac{l e n (d) - {pos}_{i}}{l e n (d)}

其中w_i表示文档中第i个词，tfidf_i表示这个词的tfidf，len(x)表示x(文档或词)的长度，pos_i表示词首次出现的位置，pro_i表示词性的权重指标，pro_i的取值范围为[0,1]。λ₁～λ₄为不同指标的权重，且满足λ₁＞λ₂＞λ₄＞λ₃。

(3)选取关键词每次出现位置前后各N₂个词作为文本特征，若关键词出现位置前或后不足N₂个词，则取到文首或文尾为止。N₂的取值范围为[6,14]。

(6)计算两篇文章的simhash_1的海明距离，记为D1，计算两篇文章的simhash_2的海明距离记为D2。若D1≤k₁，或k₁<D1≤k₂且D2≤k₁，则认为两篇文章近似重复。其中k₁的取值范围为[1,3]，k₂的取值范围为[5,7]。

2.根据权利要求1所述的一种基于语义分析与多重Simhash的文本近似重复检测方法，其特征在于，所述步骤2中，对于不同词性的词对应的pro_i满足：

a.若w_i为名词，则pro_i>0.5

b.若w_i为名词，w_j为形容词，则pro_i>＝1.5pro_j

c.若w_i为名词，w_j为动词，则pro_i>＝2pro_j

d.若w_i为形容词，w_j为动词，则pro_i>pro_j

e.若w_i为动词，w_j为其它词性的词，则pro_i>2pro_j。