CN108776654A

CN108776654A - 一种基于改进的simhash文本对比方法

Info

Publication number: CN108776654A
Application number: CN201810535318.8A
Authority: CN
Inventors: 杜庆治; 陈鸣; 邵玉斌; 龙华
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-09

Abstract

本发明涉及一种基于改进的simhash文本对比方法，属于查重领域。本发明对文章标题出现次数较高的词的权重进行设置，进而提高查重的准确率；对文章的正文分词后，对词的词性进行标注，而且词性的权重进行设置，设置规则为名词>动词，进而提高查重的准确率；对于词分布不均，通过改造IDF计算公式，考虑到词在类中及类间情况，从而大大提高查重的准确率。

Description

一种基于改进的simhash文本对比方法

技术领域

本发明涉及一种基于改进的simhash文本对比方法，属于查重领域。

背景技术

在数据挖掘及知识信息发现领域，大量数据的喷涌带来的一大挑战就是信息的大量重复，在国内，据统计有30％重复网页，而重复信息太多是造成了检索困难的主要问题之一。simhash算法专门解决亿万级网页去重问题，当然在文本去重方面应用也非常广泛，不过相比网页去重更加复杂，因为中文句式结构特殊且一词多义。

发明内容

本发明提供了一种基于改进的simhash文本对比方法，以用于实现文本的相似性判断。

本发明的技术方案是：一种基于改进的simhash文本对比方法，所述方法步骤如下：

S1、对文章进行预处理；其中预处理包括：分词、去停用词，分别使用分词包、停用词库进行分词和去停用词；

S2、Hash：用md5的方法计算每一个分词的哈希值，计算出的值转换成二进制的数值；

S3、权重：对分词的每个词的结果利用TF_IDF算法计算其权重，计算每个词的权重的步骤：

①计算被查文章分词后每个词的词频：

TF＝n₁/n₂

其中，TF表示某词的词频，n₁表示对应词在此文章中出现的次数，n₂表示此文章的总词数；

②计算逆向文档频率IDF：

其中，p(m_k)表示词m_k在当前类别中的频率，p(m_k)'表示词m_k在除了当前类别的其他类别中的频率；

③词的权重：

TF_IDF＝TF*IDF

其中，TF_IDF表示词权重，词频与逆向文档频率对应同一个词；

S4、权重调整：找出被查文章标题出现的词，对于每一个出现的词权重都在步骤S3计算出的权重基础上加1，对文章的正文分词后，对词的词性进行标注，而且词性的权重进行设置，设置规则为在步骤S3计算出的权重基础上名词加5，动词加4；

S5、加权：对步骤S2中每一个所分的词转化成二进制的哈希值，每一位进行判断，如果该位为1，则用该位的正权重；如果为0，则用该位的负权重值，直到每一位二进制哈希值判断完成时为止，最后每一个词形成一串数字序列；

S6、累加：将被查文章分词后的每一词，计算的加权结果的每一位对应累加起来，最终形成此该文章的累加结果；

S7、降维：将该文章累加的结果形成的数字序列的每一位进行降维，如果被判断位大于0，则该位置成1；否则，则该位置成0；直到每一位判断完为止，最后则形成此文章的局部敏感哈希值；

S8、查重：将对比的文章按照以上步骤计算其局部敏感哈希值，再计算与被查文章两者之间的汉明距离来判定两者的相似性。

所述步骤S6中，进行累加时，累加结果不进位。

所述步骤S8中，汉明距离小于33，则判定两者相似。

本发明的有益效果是：1、对文章标题出现次数较高的词的权重进行设置，进而提高查重的准确率；2、对文章的正文分词后，对词的词性进行标注，而且词性的权重进行设置，设置规则为名词>动词，进而提高查重的准确率；3、对于词分布不均，通过改造IDF计算公式，考虑到词在类中及类间情况，从而大大提高查重的准确率。

附图说明

图1为simhash值的形成图。

具体实施方式

实施例1：如图1所示，一种基于改进的simhash文本对比方法，所述方法步骤如下：

S2、Hash：用md5的方法计算每一个分词的哈希值，计算出的值转换成二进制的数值，以便后面对权重进行加权；

①计算被查文章分词后每个词的词频：

TF＝n₁/n₂

②计算逆向文档频率IDF：

对IDF计算改进如下：

在中，当p(m_k)很大，IDF的绝对值反而小，则对它取反，根据对数函数的特性，自变量大于0，IDF要为正值，最后修正IDF得：

如表1：文档有C1和C2两类，词m₁在当前类C1中有9篇文章出现过，而C1类文章总共有14篇，所以p(m₁)＝9/14；词m1在其他类，即词m₁在C2类中一篇文章出现过，而C2类中总共有6篇文章p(m₁)'＝1/6，则m1的逆向频率：

如果语料库中的文档分成三类，而m₁属于第一类，关于p(m₁)'计算为：词m₁在除第一类之外的第二类和第三类出现的文章篇数/除第一类之外的第二类和第三类文章总篇数。

表1词m₁、m₂的分布

类别	m₁	m₂
			C1	9	5
C2	1	5

③词的权重：

TF_IDF＝TF*IDF

如：假设m₁为简明这个词，在被查文章出现过10次，而文章中有100词，则TF＝0.1，则：

S5、加权：对步骤S2中每一个所分的词转化成56位二进制的哈希值，每一位进行判断，如果该位为1，则用该位的正权重；如果为0，则用该位的负权重值，直到每一位二进制哈希值判断完成时为止，最后每一个词形成一串数字序列；

进一步地，可以设置所述步骤S6中，进行累加时，累加结果不进位。

进一步地，可以设置所述步骤S8中，汉明距离小于33，则判定两者相似。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于改进的simhash文本对比方法，其特征在于：所述方法步骤如下：

①计算被查文章分词后每个词的词频：

TF＝n₁/n₂

②计算逆向文档频率IDF：

③词的权重：

TF_IDF＝TF*IDF

2.根据权利要求1所述的基于改进的simhash文本对比方法，其特征在于：所述步骤S6中，进行累加时，累加结果不进位。

3.根据权利要求1所述的基于改进的simhash文本对比方法，其特征在于：所述步骤S8中，汉明距离小于33，则判定两者相似。