CN108776654A - 一种基于改进的simhash文本对比方法 - Google Patents
一种基于改进的simhash文本对比方法 Download PDFInfo
- Publication number
- CN108776654A CN108776654A CN201810535318.8A CN201810535318A CN108776654A CN 108776654 A CN108776654 A CN 108776654A CN 201810535318 A CN201810535318 A CN 201810535318A CN 108776654 A CN108776654 A CN 108776654A
- Authority
- CN
- China
- Prior art keywords
- word
- article
- weight
- calculated
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000001976 improved effect Effects 0.000 title claims abstract description 11
- 238000013518 transcription Methods 0.000 title claims abstract description 10
- 230000035897 transcription Effects 0.000 title claims abstract description 10
- 238000009825 accumulation Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 229910002056 binary alloy Inorganic materials 0.000 description 2
- 239000010749 BS 2869 Class C1 Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于改进的simhash文本对比方法,属于查重领域。本发明对文章标题出现次数较高的词的权重进行设置,进而提高查重的准确率;对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为名词>动词,进而提高查重的准确率;对于词分布不均,通过改造IDF计算公式,考虑到词在类中及类间情况,从而大大提高查重的准确率。
Description
技术领域
本发明涉及一种基于改进的simhash文本对比方法,属于查重领域。
背景技术
在数据挖掘及知识信息发现领域,大量数据的喷涌带来的一大挑战就是信息的大量重复,在国内,据统计有30%重复网页,而重复信息太多是造成了检索困难的主要问题之一。simhash算法专门解决亿万级网页去重问题,当然在文本去重方面应用也非常广泛,不过相比网页去重更加复杂,因为中文句式结构特殊且一词多义。
发明内容
本发明提供了一种基于改进的simhash文本对比方法,以用于实现文本的相似性判断。
本发明的技术方案是:一种基于改进的simhash文本对比方法,所述方法步骤如下:
S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;
S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值;
S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:
①计算被查文章分词后每个词的词频:
TF=n1/n2
其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;
②计算逆向文档频率IDF:
其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;
③词的权重:
TF_IDF=TF*IDF
其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;
S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为在步骤S3计算出的权重基础上名词加5,动词加4;
S5、加权:对步骤S2中每一个所分的词转化成二进制的哈希值,每一位进行判断,如果该位为1,则用该位的正权重;如果为0,则用该位的负权重值,直到每一位二进制哈希值判断完成时为止,最后每一个词形成一串数字序列;
S6、累加:将被查文章分词后的每一词,计算的加权结果的每一位对应累加起来,最终形成此该文章的累加结果;
S7、降维:将该文章累加的结果形成的数字序列的每一位进行降维,如果被判断位大于0,则该位置成1;否则,则该位置成0;直到每一位判断完为止,最后则形成此文章的局部敏感哈希值;
S8、查重:将对比的文章按照以上步骤计算其局部敏感哈希值,再计算与被查文章两者之间的汉明距离来判定两者的相似性。
所述步骤S6中,进行累加时,累加结果不进位。
所述步骤S8中,汉明距离小于33,则判定两者相似。
本发明的有益效果是:1、对文章标题出现次数较高的词的权重进行设置,进而提高查重的准确率;2、对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为名词>动词,进而提高查重的准确率;3、对于词分布不均,通过改造IDF计算公式,考虑到词在类中及类间情况,从而大大提高查重的准确率。
附图说明
图1为simhash值的形成图。
具体实施方式
实施例1:如图1所示,一种基于改进的simhash文本对比方法,所述方法步骤如下:
S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;
S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值,以便后面对权重进行加权;
S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:
①计算被查文章分词后每个词的词频:
TF=n1/n2
其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;
②计算逆向文档频率IDF:
对IDF计算改进如下:
在中,当p(mk)很大,IDF的绝对值反而小,则对它取反,根据对数函数的特性,自变量大于0,IDF要为正值,最后修正IDF得:
其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;
如表1:文档有C1和C2两类,词m1在当前类C1中有9篇文章出现过,而C1类文章总共有14篇,所以p(m1)=9/14;词m1在其他类,即词m1在C2类中一篇文章出现过,而C2类中总共有6篇文章p(m1)'=1/6,则m1的逆向频率:
如果语料库中的文档分成三类,而m1属于第一类,关于p(m1)'计算为:词m1在除第一类之外的第二类和第三类出现的文章篇数/除第一类之外的第二类和第三类文章总篇数。
表1词m1、m2的分布
类别 | m1 | m2 |
C1 | 9 | 5 |
C2 | 1 | 5 |
③词的权重:
TF_IDF=TF*IDF
其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;
如:假设m1为简明这个词,在被查文章出现过10次,而文章中有100词,则TF=0.1,则:
S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为在步骤S3计算出的权重基础上名词加5,动词加4;
S5、加权:对步骤S2中每一个所分的词转化成56位二进制的哈希值,每一位进行判断,如果该位为1,则用该位的正权重;如果为0,则用该位的负权重值,直到每一位二进制哈希值判断完成时为止,最后每一个词形成一串数字序列;
S6、累加:将被查文章分词后的每一词,计算的加权结果的每一位对应累加起来,最终形成此该文章的累加结果;
S7、降维:将该文章累加的结果形成的数字序列的每一位进行降维,如果被判断位大于0,则该位置成1;否则,则该位置成0;直到每一位判断完为止,最后则形成此文章的局部敏感哈希值;
S8、查重:将对比的文章按照以上步骤计算其局部敏感哈希值,再计算与被查文章两者之间的汉明距离来判定两者的相似性。
进一步地,可以设置所述步骤S6中,进行累加时,累加结果不进位。
进一步地,可以设置所述步骤S8中,汉明距离小于33,则判定两者相似。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种基于改进的simhash文本对比方法,其特征在于:所述方法步骤如下:
S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;
S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值;
S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:
①计算被查文章分词后每个词的词频:
TF=n1/n2
其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;
②计算逆向文档频率IDF:
其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;
③词的权重:
TF_IDF=TF*IDF
其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;
S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为在步骤S3计算出的权重基础上名词加5,动词加4;
S5、加权:对步骤S2中每一个所分的词转化成二进制的哈希值,每一位进行判断,如果该位为1,则用该位的正权重;如果为0,则用该位的负权重值,直到每一位二进制哈希值判断完成时为止,最后每一个词形成一串数字序列;
S6、累加:将被查文章分词后的每一词,计算的加权结果的每一位对应累加起来,最终形成此该文章的累加结果;
S7、降维:将该文章累加的结果形成的数字序列的每一位进行降维,如果被判断位大于0,则该位置成1;否则,则该位置成0;直到每一位判断完为止,最后则形成此文章的局部敏感哈希值;
S8、查重:将对比的文章按照以上步骤计算其局部敏感哈希值,再计算与被查文章两者之间的汉明距离来判定两者的相似性。
2.根据权利要求1所述的基于改进的simhash文本对比方法,其特征在于:所述步骤S6中,进行累加时,累加结果不进位。
3.根据权利要求1所述的基于改进的simhash文本对比方法,其特征在于:所述步骤S8中,汉明距离小于33,则判定两者相似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810535318.8A CN108776654A (zh) | 2018-05-30 | 2018-05-30 | 一种基于改进的simhash文本对比方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810535318.8A CN108776654A (zh) | 2018-05-30 | 2018-05-30 | 一种基于改进的simhash文本对比方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108776654A true CN108776654A (zh) | 2018-11-09 |
Family
ID=64028032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810535318.8A Pending CN108776654A (zh) | 2018-05-30 | 2018-05-30 | 一种基于改进的simhash文本对比方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108776654A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635084A (zh) * | 2018-11-30 | 2019-04-16 | 宁波深擎信息科技有限公司 | 一种多源数据文档实时快速去重方法及系统 |
CN109710729A (zh) * | 2018-12-14 | 2019-05-03 | 麒麟合盛网络技术股份有限公司 | 一种文本数据的采集方法及装置 |
CN111240942A (zh) * | 2019-12-02 | 2020-06-05 | 华为技术有限公司 | 日志异常检测方法及装置 |
CN113094465A (zh) * | 2021-04-27 | 2021-07-09 | 中国美术学院 | 一种设计产品查重方法和系统 |
WO2022105497A1 (zh) * | 2020-11-19 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 文本筛选方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106275A (zh) * | 2013-02-08 | 2013-05-15 | 西北工业大学 | 基于特征分布信息的文本分类特征筛选方法 |
US20170220677A1 (en) * | 2016-02-03 | 2017-08-03 | Facebook, Inc. | Quotations-Modules on Online Social Networks |
CN107908622A (zh) * | 2017-11-22 | 2018-04-13 | 昆明理工大学 | 一种基于同义关联词的文本对比方法 |
-
2018
- 2018-05-30 CN CN201810535318.8A patent/CN108776654A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106275A (zh) * | 2013-02-08 | 2013-05-15 | 西北工业大学 | 基于特征分布信息的文本分类特征筛选方法 |
US20170220677A1 (en) * | 2016-02-03 | 2017-08-03 | Facebook, Inc. | Quotations-Modules on Online Social Networks |
CN107908622A (zh) * | 2017-11-22 | 2018-04-13 | 昆明理工大学 | 一种基于同义关联词的文本对比方法 |
Non-Patent Citations (3)
Title |
---|
覃世安等: "文本分类中TF-IDF方法的改进研究", 《现代图书情报技术》 * |
许鑫著: "《基于文本特征计算的信息分析方法》", 30 November 2015, 上海科学技术文献出版社 * |
陈琳: "基于存储系统的重复数据删除技术的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635084A (zh) * | 2018-11-30 | 2019-04-16 | 宁波深擎信息科技有限公司 | 一种多源数据文档实时快速去重方法及系统 |
CN109710729A (zh) * | 2018-12-14 | 2019-05-03 | 麒麟合盛网络技术股份有限公司 | 一种文本数据的采集方法及装置 |
CN111240942A (zh) * | 2019-12-02 | 2020-06-05 | 华为技术有限公司 | 日志异常检测方法及装置 |
WO2022105497A1 (zh) * | 2020-11-19 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 文本筛选方法、装置、设备及存储介质 |
CN113094465A (zh) * | 2021-04-27 | 2021-07-09 | 中国美术学院 | 一种设计产品查重方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108776654A (zh) | 一种基于改进的simhash文本对比方法 | |
Khreisat | Arabic text classification using N-gram frequency statistics a comparative study | |
CN102576358B (zh) | 单词对取得装置、单词对取得方法及其程序 | |
Khreisat | A machine learning approach for Arabic text classification using N-gram frequency statistics | |
CN101315622B (zh) | 检测文件相似度的系统及方法 | |
KR20190058935A (ko) | 문서 내 핵심 키워드 추출 시스템 및 방법 | |
CN109522547B (zh) | 基于模式学习的中文同义词迭代抽取方法 | |
Kim et al. | A rule-based named entity recognition system for speech input | |
CN104615593A (zh) | 微博热点话题自动检测方法及装置 | |
CN108009253A (zh) | 一种改进的字符串相似对比方法 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN108363694B (zh) | 关键词提取方法及装置 | |
CN111241824B (zh) | 一种用于中文隐喻信息识别的方法 | |
CN108052630B (zh) | 一种基于中文教育视频提取拓展词的方法 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN108920482A (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN112100365A (zh) | 双阶段文本摘要方法 | |
CN105488098A (zh) | 一种基于领域差异性的新词提取方法 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN109214445A (zh) | 一种基于人工智能的多标签分类方法 | |
Gupta | Hybrid algorithm for multilingual summarization of Hindi and Punjabi documents | |
Rahmatulloh et al. | Comparison between the stemmer porter effect and nazief-adriani on the performance of winnowing algorithms for measuring plagiarism | |
Saptono et al. | Combination of cosine similarity method and conditional probability for plagiarism detection in the thesis documents vector space model | |
WO2014189400A1 (en) | A method for diacritisation of texts written in latin- or cyrillic-derived alphabets | |
Pak et al. | The impact of text representation and preprocessing on author identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181109 |