CN108776654A - 一种基于改进的simhash文本对比方法 - Google Patents

一种基于改进的simhash文本对比方法 Download PDF

Info

Publication number
CN108776654A
CN108776654A CN201810535318.8A CN201810535318A CN108776654A CN 108776654 A CN108776654 A CN 108776654A CN 201810535318 A CN201810535318 A CN 201810535318A CN 108776654 A CN108776654 A CN 108776654A
Authority
CN
China
Prior art keywords
word
article
weight
calculated
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810535318.8A
Other languages
English (en)
Inventor
杜庆治
陈鸣
邵玉斌
龙华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810535318.8A priority Critical patent/CN108776654A/zh
Publication of CN108776654A publication Critical patent/CN108776654A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于改进的simhash文本对比方法,属于查重领域。本发明对文章标题出现次数较高的词的权重进行设置,进而提高查重的准确率;对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为名词>动词,进而提高查重的准确率;对于词分布不均,通过改造IDF计算公式,考虑到词在类中及类间情况,从而大大提高查重的准确率。

Description

一种基于改进的simhash文本对比方法
技术领域
本发明涉及一种基于改进的simhash文本对比方法,属于查重领域。
背景技术
在数据挖掘及知识信息发现领域,大量数据的喷涌带来的一大挑战就是信息的大量重复,在国内,据统计有30%重复网页,而重复信息太多是造成了检索困难的主要问题之一。simhash算法专门解决亿万级网页去重问题,当然在文本去重方面应用也非常广泛,不过相比网页去重更加复杂,因为中文句式结构特殊且一词多义。
发明内容
本发明提供了一种基于改进的simhash文本对比方法,以用于实现文本的相似性判断。
本发明的技术方案是:一种基于改进的simhash文本对比方法,所述方法步骤如下:
S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;
S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值;
S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:
①计算被查文章分词后每个词的词频:
TF=n1/n2
其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;
②计算逆向文档频率IDF:
其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;
③词的权重:
TF_IDF=TF*IDF
其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;
S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为在步骤S3计算出的权重基础上名词加5,动词加4;
S5、加权:对步骤S2中每一个所分的词转化成二进制的哈希值,每一位进行判断,如果该位为1,则用该位的正权重;如果为0,则用该位的负权重值,直到每一位二进制哈希值判断完成时为止,最后每一个词形成一串数字序列;
S6、累加:将被查文章分词后的每一词,计算的加权结果的每一位对应累加起来,最终形成此该文章的累加结果;
S7、降维:将该文章累加的结果形成的数字序列的每一位进行降维,如果被判断位大于0,则该位置成1;否则,则该位置成0;直到每一位判断完为止,最后则形成此文章的局部敏感哈希值;
S8、查重:将对比的文章按照以上步骤计算其局部敏感哈希值,再计算与被查文章两者之间的汉明距离来判定两者的相似性。
所述步骤S6中,进行累加时,累加结果不进位。
所述步骤S8中,汉明距离小于33,则判定两者相似。
本发明的有益效果是:1、对文章标题出现次数较高的词的权重进行设置,进而提高查重的准确率;2、对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为名词>动词,进而提高查重的准确率;3、对于词分布不均,通过改造IDF计算公式,考虑到词在类中及类间情况,从而大大提高查重的准确率。
附图说明
图1为simhash值的形成图。
具体实施方式
实施例1:如图1所示,一种基于改进的simhash文本对比方法,所述方法步骤如下:
S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;
S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值,以便后面对权重进行加权;
S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:
①计算被查文章分词后每个词的词频:
TF=n1/n2
其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;
②计算逆向文档频率IDF:
对IDF计算改进如下:
中,当p(mk)很大,IDF的绝对值反而小,则对它取反,根据对数函数的特性,自变量大于0,IDF要为正值,最后修正IDF得:
其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;
如表1:文档有C1和C2两类,词m1在当前类C1中有9篇文章出现过,而C1类文章总共有14篇,所以p(m1)=9/14;词m1在其他类,即词m1在C2类中一篇文章出现过,而C2类中总共有6篇文章p(m1)'=1/6,则m1的逆向频率:
如果语料库中的文档分成三类,而m1属于第一类,关于p(m1)'计算为:词m1在除第一类之外的第二类和第三类出现的文章篇数/除第一类之外的第二类和第三类文章总篇数。
表1词m1、m2的分布
类别 m1 m2
C1 9 5
C2 1 5
③词的权重:
TF_IDF=TF*IDF
其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;
如:假设m1为简明这个词,在被查文章出现过10次,而文章中有100词,则TF=0.1,则:
S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为在步骤S3计算出的权重基础上名词加5,动词加4;
S5、加权:对步骤S2中每一个所分的词转化成56位二进制的哈希值,每一位进行判断,如果该位为1,则用该位的正权重;如果为0,则用该位的负权重值,直到每一位二进制哈希值判断完成时为止,最后每一个词形成一串数字序列;
S6、累加:将被查文章分词后的每一词,计算的加权结果的每一位对应累加起来,最终形成此该文章的累加结果;
S7、降维:将该文章累加的结果形成的数字序列的每一位进行降维,如果被判断位大于0,则该位置成1;否则,则该位置成0;直到每一位判断完为止,最后则形成此文章的局部敏感哈希值;
S8、查重:将对比的文章按照以上步骤计算其局部敏感哈希值,再计算与被查文章两者之间的汉明距离来判定两者的相似性。
进一步地,可以设置所述步骤S6中,进行累加时,累加结果不进位。
进一步地,可以设置所述步骤S8中,汉明距离小于33,则判定两者相似。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种基于改进的simhash文本对比方法,其特征在于:所述方法步骤如下:
S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;
S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值;
S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:
①计算被查文章分词后每个词的词频:
TF=n1/n2
其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;
②计算逆向文档频率IDF:
其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;
③词的权重:
TF_IDF=TF*IDF
其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;
S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为在步骤S3计算出的权重基础上名词加5,动词加4;
S5、加权:对步骤S2中每一个所分的词转化成二进制的哈希值,每一位进行判断,如果该位为1,则用该位的正权重;如果为0,则用该位的负权重值,直到每一位二进制哈希值判断完成时为止,最后每一个词形成一串数字序列;
S6、累加:将被查文章分词后的每一词,计算的加权结果的每一位对应累加起来,最终形成此该文章的累加结果;
S7、降维:将该文章累加的结果形成的数字序列的每一位进行降维,如果被判断位大于0,则该位置成1;否则,则该位置成0;直到每一位判断完为止,最后则形成此文章的局部敏感哈希值;
S8、查重:将对比的文章按照以上步骤计算其局部敏感哈希值,再计算与被查文章两者之间的汉明距离来判定两者的相似性。
2.根据权利要求1所述的基于改进的simhash文本对比方法,其特征在于:所述步骤S6中,进行累加时,累加结果不进位。
3.根据权利要求1所述的基于改进的simhash文本对比方法,其特征在于:所述步骤S8中,汉明距离小于33,则判定两者相似。
CN201810535318.8A 2018-05-30 2018-05-30 一种基于改进的simhash文本对比方法 Pending CN108776654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810535318.8A CN108776654A (zh) 2018-05-30 2018-05-30 一种基于改进的simhash文本对比方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810535318.8A CN108776654A (zh) 2018-05-30 2018-05-30 一种基于改进的simhash文本对比方法

Publications (1)

Publication Number Publication Date
CN108776654A true CN108776654A (zh) 2018-11-09

Family

ID=64028032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810535318.8A Pending CN108776654A (zh) 2018-05-30 2018-05-30 一种基于改进的simhash文本对比方法

Country Status (1)

Country Link
CN (1) CN108776654A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635084A (zh) * 2018-11-30 2019-04-16 宁波深擎信息科技有限公司 一种多源数据文档实时快速去重方法及系统
CN109710729A (zh) * 2018-12-14 2019-05-03 麒麟合盛网络技术股份有限公司 一种文本数据的采集方法及装置
CN111240942A (zh) * 2019-12-02 2020-06-05 华为技术有限公司 日志异常检测方法及装置
CN113094465A (zh) * 2021-04-27 2021-07-09 中国美术学院 一种设计产品查重方法和系统
WO2022105497A1 (zh) * 2020-11-19 2022-05-27 深圳壹账通智能科技有限公司 文本筛选方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106275A (zh) * 2013-02-08 2013-05-15 西北工业大学 基于特征分布信息的文本分类特征筛选方法
US20170220677A1 (en) * 2016-02-03 2017-08-03 Facebook, Inc. Quotations-Modules on Online Social Networks
CN107908622A (zh) * 2017-11-22 2018-04-13 昆明理工大学 一种基于同义关联词的文本对比方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106275A (zh) * 2013-02-08 2013-05-15 西北工业大学 基于特征分布信息的文本分类特征筛选方法
US20170220677A1 (en) * 2016-02-03 2017-08-03 Facebook, Inc. Quotations-Modules on Online Social Networks
CN107908622A (zh) * 2017-11-22 2018-04-13 昆明理工大学 一种基于同义关联词的文本对比方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
覃世安等: "文本分类中TF-IDF方法的改进研究", 《现代图书情报技术》 *
许鑫著: "《基于文本特征计算的信息分析方法》", 30 November 2015, 上海科学技术文献出版社 *
陈琳: "基于存储系统的重复数据删除技术的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635084A (zh) * 2018-11-30 2019-04-16 宁波深擎信息科技有限公司 一种多源数据文档实时快速去重方法及系统
CN109710729A (zh) * 2018-12-14 2019-05-03 麒麟合盛网络技术股份有限公司 一种文本数据的采集方法及装置
CN111240942A (zh) * 2019-12-02 2020-06-05 华为技术有限公司 日志异常检测方法及装置
WO2022105497A1 (zh) * 2020-11-19 2022-05-27 深圳壹账通智能科技有限公司 文本筛选方法、装置、设备及存储介质
CN113094465A (zh) * 2021-04-27 2021-07-09 中国美术学院 一种设计产品查重方法和系统

Similar Documents

Publication Publication Date Title
CN108776654A (zh) 一种基于改进的simhash文本对比方法
Khreisat Arabic text classification using N-gram frequency statistics a comparative study
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
Khreisat A machine learning approach for Arabic text classification using N-gram frequency statistics
CN101315622B (zh) 检测文件相似度的系统及方法
KR20190058935A (ko) 문서 내 핵심 키워드 추출 시스템 및 방법
CN109522547B (zh) 基于模式学习的中文同义词迭代抽取方法
Kim et al. A rule-based named entity recognition system for speech input
CN104615593A (zh) 微博热点话题自动检测方法及装置
CN108009253A (zh) 一种改进的字符串相似对比方法
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN108363694B (zh) 关键词提取方法及装置
CN111241824B (zh) 一种用于中文隐喻信息识别的方法
CN108052630B (zh) 一种基于中文教育视频提取拓展词的方法
CN107885717B (zh) 一种关键词提取方法及装置
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN112100365A (zh) 双阶段文本摘要方法
CN105488098A (zh) 一种基于领域差异性的新词提取方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN109214445A (zh) 一种基于人工智能的多标签分类方法
Gupta Hybrid algorithm for multilingual summarization of Hindi and Punjabi documents
Rahmatulloh et al. Comparison between the stemmer porter effect and nazief-adriani on the performance of winnowing algorithms for measuring plagiarism
Saptono et al. Combination of cosine similarity method and conditional probability for plagiarism detection in the thesis documents vector space model
WO2014189400A1 (en) A method for diacritisation of texts written in latin- or cyrillic-derived alphabets
Pak et al. The impact of text representation and preprocessing on author identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181109