CN106649222A - 基于语义分析与多重Simhash的文本近似重复检测方法 - Google Patents

基于语义分析与多重Simhash的文本近似重复检测方法 Download PDF

Info

Publication number
CN106649222A
CN106649222A CN201611145824.3A CN201611145824A CN106649222A CN 106649222 A CN106649222 A CN 106649222A CN 201611145824 A CN201611145824 A CN 201611145824A CN 106649222 A CN106649222 A CN 106649222A
Authority
CN
China
Prior art keywords
word
simhash
pro
text
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611145824.3A
Other languages
English (en)
Other versions
CN106649222B (zh
Inventor
付晗
彭志宇
庄郭冕
章劲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Insigma Hengtian Software Ltd
Original Assignee
Insigma Hengtian Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Insigma Hengtian Software Ltd filed Critical Insigma Hengtian Software Ltd
Priority to CN201611145824.3A priority Critical patent/CN106649222B/zh
Publication of CN106649222A publication Critical patent/CN106649222A/zh
Application granted granted Critical
Publication of CN106649222B publication Critical patent/CN106649222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语义分析与多重Simhash的文本近似重复检测方法,本发明引入语法、句法、语义等信息,首先根据多因素综合考虑词的重要性而获得文章的关键词,然后创新地提出以关键词前后一定数目的词为文章特征,并以此计算SimHash,在处理语义的问题上,通过同义词替换的方法来消除同义词,然而这种方法比较激进,因此一定程度上降低了准确率,因此采用二重SimHash的方法,即只有在一定范围内才会使用这种激进的计算方式,结果表明改进的检测方法要比传统的SimHash、Shingling等方法效果更优。

Description

基于语义分析与多重Simhash的文本近似重复检测方法
技术领域
本发明涉及一种文本重复检测方法,尤其涉及一种基于语义分析与多重Simhash的文本近似重复检测方法。
背景技术
在数据挖掘和知识信息发现领域,随着大规模数据喷涌而出而来的一大挑战就是过多的重复信息。国外有关研究表明,有1.7%~7%的重复网页充斥在互联网环境中。这种问题在中国互联网环境中更为突出,中国互联网环境尚未成熟,版权保护机制与网民素养尚未完善,很多信息都被大量的剽窃和转载,据有关统计,中国互联网络中有超过30%的重复页面。而重复信息太多也是互联网信息检索中遇到的主要问题之一。
与网页重复检测相比,文本重复检测更加困难,这是由于语法、句式以及词语含义的多变性,而中文的复杂语言结构更是给重复检测增加了困难。近似重复的相关研究,已经有十余年的历史,其大多数是针对英文网页重复设计的。根据其相似匹配位于的阶段不同,可以简单分为两类,一类是单纯两两根据文本信息直接进行相似匹配,另一种是将每个文档的信息生成一个指定长度的编码(一般是64位),只通过这个编码来进行相似匹配,这种方式称为指纹算法。
然而目前绝大多数算法均是针对几乎完全相同的文章,而对于词的替换、句式的变换、或者保证原文含义不变的情况下重写等近似重复问题效果一般。因此在实际应用上具有一定的局限性。
发明内容
本发明的目的在于针对现有技术的局限和不足,提供一种基于语义分析与多重Simhash的文本近似重复检测方法。
本发明的目的是通过以下技术方案来实现的:一种基于语义分析与多重Simhash的文本近似重复检测方法,利用词语的词性和统计特征选择文本的关键词,在关键词周围选取词作为文本特征,对同义词进行编码,消除同义词,利用文本特征和全文分别计算Simhash,利用多重Simhash检测文档重复;具体包括以下步骤:
(1)对中文文章进行预处理:将原始文本进行分词、去除停用词处理,余下的词称为文章的实义词;
(2)选取关键词:以tfidf、词性、词长、词首次出现的位置计算每个实义词的权重,选取权重最高的N1个词作为关键词。N1的取值范围为[5,15]。
词的权重计算方式为:
其中wi表示文档中第i个词,tfidfi表示这个词的tfidf,len(x)表示x(文档或词)的长度,posi表示词首次出现的位置,proi表示词性的权重指标,proi的取值范围为[0,1]。λ1~λ4为不同指标的权重,且满足λ1>λ2<λ4>λ3
表示词性的权重指标。为不同指标的权重的取值范围为(3)选取关键词每次出现位置前后各N2个词作为文本特征,若关键词出现位置前或后不足N2个词,则取到文首或文尾为止。N2的取值范围为[6,14]。
(4)预先统计好常用的同义词,并对词进行编码,同一个含义的词编码相同,不同含义的词编码不同,但编码长度相同。找到特征中所有有同义词的词,并将其替换为对应的编码。
(5)根据文章的全部实义词计算Simhash记为simhash_1,根据文本特征计算Simhash记为simhash_2。
(6)计算两篇文章的simhash_1的海明距离,记为D1,计算两篇文章的simhash_2的海明距离记为D2。若D1≤k1,或k1<D1≤k2且D2≤k1,则认为两篇文章近似重复。其中k1的取值范围为[1,3],k2的取值范围为[5,7]。
进一步地,所述步骤2中,对于不同词性的词对应的proi满足:
a.若wi为名词,则proi>0.5
b.若wi为名词,wj为形容词,则proi>=1.5proj
c.若wi为名词,wj为动词,则proi>=2proj
d.若wi为形容词,wj为动词,则proi>proj
e.若wi为动词,wj为其它词性的词,则proi>2proj
本发明的有益效果是:本发明引入了语法、句法、语义等信息,首先根据多因素综合考虑词的重要性而获得文章的关键词,然后创新地提出以关键词前后一定数目的词为文章特征,并以此计算SimHash,在处理语义的问题上,我们通过同义词替换的方法来消除同义词,然而这种方法比较激进,因此一定程度上降低了准确率,因此我们采用二重SimHash的方法,即只有在一定范围内才会使用这种激进的计算方式,结果表明改进的检测方法要比传统的SimHash、Shingling等方法效果更优。
附图说明
图1是原始文章预处理的示意图;
图2是选取文章关键词的示意图;
图3是文章特征选取以及计算Simhash的示意图;
图4是判断两篇文章是否近似重复的示意图;
图5是本发明方法与传统的SimHash、Shingling方法的比较结果示意图。
具体实施方式
下面结合附图详细描述本发明,本发明的目的和效果将变得更加明显。
本发明提供的一种基于语义分析与多重Simhash的文本近似重复检测方法,包括以下步骤:
(1)对中文文章进行预处理:将原始文本进行分词、去除停用词处理,余下的词称为文章的实义词;
(2)选取关键词:以tfidf、词性、词长、词首次出现的位置计算每个实义词的权重,选取权重最高的N1个词作为关键词。N1的取值范围为[5,15]。
词的权重计算方式为:
其中wi表示文档中第i个词,tfidfi表示这个词的tfidf,len(x)表示x(文档或词)的长度,posi表示词首次出现的位置,proi表示词性的权重指标。λ1~λ4为不同指标的权重。
proi的取值范围为[0,1],对于不同词性的词对应的proi满足:
a.若wi为名词,则proi>0.5
b.若wi为名词,wj为形容词,则proi>=1.5proj
c.若wi为名词,wj为动词,则proi>=2proj
d.若wi为形容词,wj为动词,则proi>proj
e.若wi为动词,wj为其它词性的词,则proi>2proj
不同指标的权重满足λ1>λ2>λ4>λ3
(3)选取关键词每次出现位置前后各N2个词作为文本特征,若关键词出现位置前或后不足N2个词,则取到文首或文尾为止。N2的取值范围为[6,14]。
(4)预先统计好常用的同义词,并对词进行编码,同一个含义的词编码相同,不同含义的词编码不同,但编码长度相同。找到特征中所有有同义词的词,并将其替换为对应的编码。
(5)根据文章的全部实义词计算Simhash记为simhash_1,根据文本特征计算Simhash记为simhash_2。
(6)计算两篇文章的simhash_1的海明距离,记为D1,计算两篇文章的simhash_2的海明距离记为D2。若D1≤k1,或k1<D1≤k2且D2≤k1,则认为两篇文章近似重复。其中k1的取值范围为[1,3],k2的取值范围为[5,7]。
实施例
本实施例以2162篇IT新闻文章作为原始文本,具体实施方式如下:
(1)对中文文章进行预处理:如图1所示,将原始文本进行分词、去除停用词处理,余下的词为实义词。
(2)选取关键词:如图2所示,以tfidf、词性、词长、词首次出现的位置计算每个实义词的权重,选取权重最高的10个词作为关键词。词的权重通过如下公式计算:
参数选取如下:
若wi为名词,则proi取0.6,若wi为形容词,则proi取0.4,若wi为动词,则proi取0.3,若wi为其他词性的词,则proi取0.1;
tfidf权重λ1取0.8;
词性权重λ2取0.5;
词长权重λ3取0.05;
首次出现位置权重λ4取0.1;
(3)如图3所示,选取关键词每次出现位置前后各10个词作为文本特征。预先统计好常用的同义词,并对词进行编码,同一个含义的词编码相同,不同含义的词编码不同,但长度相同。之后根据文章的全部实义词计算Simhash记为simhash_1,根据文本特征计算Simhash记为simhash_2。
(4)判断两篇文章是否重复的方法如图4所示,计算两篇文章的simhash_1的海明距离,记为D1,计算两篇文章的simhash_2的海明距离记为D2。若0≤D1≤2,或2<D1≤6且0≤D2≤2,则认为两篇文章近似重复。
本实施例中按照上述参数设定实施,称为Simhash_New,其重复检测结果与Simhash、Shingling两种方法的检测结果对比如图5所示,结果表明,本发明方法在准确率、召回率、f值三个指标上均显著高于Simhash、Shingling方法。证明了本发明方法在中文文本近似重复检测问题上具有更好的效果。

Claims (2)

1.一种基于语义分析与多重Simhash的文本近似重复检测方法,其特征在于,该方法包括以下步骤:
(1)对中文文章进行预处理:将原始文本进行分词、去除停用词处理,余下的词称为文章的实义词;
(2)选取关键词:以tfidf、词性、词长、词首次出现的位置计算每个实义词的权重,选取权重最高的N1个词作为关键词。N1的取值范围为[5,15]。
词的权重计算方式为:
W ( w i ) = λ 1 tfidf i + λ 2 pro i + λ 3 l e n ( w i ) + λ 4 l e n ( d ) - pos i l e n ( d )
其中wi表示文档中第i个词,tfidfi表示这个词的tfidf,len(x)表示x(文档或词)的长度,posi表示词首次出现的位置,proi表示词性的权重指标,proi的取值范围为[0,1]。λ1~λ4为不同指标的权重,且满足λ1>λ2>λ4>λ3
(3)选取关键词每次出现位置前后各N2个词作为文本特征,若关键词出现位置前或后不足N2个词,则取到文首或文尾为止。N2的取值范围为[6,14]。
(4)预先统计好常用的同义词,并对词进行编码,同一个含义的词编码相同,不同含义的词编码不同,但编码长度相同。找到特征中所有有同义词的词,并将其替换为对应的编码。
(5)根据文章的全部实义词计算Simhash记为simhash_1,根据文本特征计算Simhash记为simhash_2。
(6)计算两篇文章的simhash_1的海明距离,记为D1,计算两篇文章的simhash_2的海明距离记为D2。若D1≤k1,或k1<D1≤k2且D2≤k1,则认为两篇文章近似重复。其中k1的取值范围为[1,3],k2的取值范围为[5,7]。
2.根据权利要求1所述的一种基于语义分析与多重Simhash的文本近似重复检测方法,其特征在于,所述步骤2中,对于不同词性的词对应的proi满足:
a.若wi为名词,则proi>0.5
b.若wi为名词,wj为形容词,则proi>=1.5proj
c.若wi为名词,wj为动词,则proi>=2proj
d.若wi为形容词,wj为动词,则proi>proj
e.若wi为动词,wj为其它词性的词,则proi>2proj
CN201611145824.3A 2016-12-13 2016-12-13 基于语义分析与多重Simhash的文本近似重复检测方法 Active CN106649222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611145824.3A CN106649222B (zh) 2016-12-13 2016-12-13 基于语义分析与多重Simhash的文本近似重复检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611145824.3A CN106649222B (zh) 2016-12-13 2016-12-13 基于语义分析与多重Simhash的文本近似重复检测方法

Publications (2)

Publication Number Publication Date
CN106649222A true CN106649222A (zh) 2017-05-10
CN106649222B CN106649222B (zh) 2019-07-16

Family

ID=58825214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611145824.3A Active CN106649222B (zh) 2016-12-13 2016-12-13 基于语义分析与多重Simhash的文本近似重复检测方法

Country Status (1)

Country Link
CN (1) CN106649222B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315809A (zh) * 2017-06-27 2017-11-03 山东浪潮通软信息科技有限公司 一种基于Spark平台的集团新闻数据预处理方法
CN107562824A (zh) * 2017-08-21 2018-01-09 昆明理工大学 一种文本相似度检测方法
CN107908622A (zh) * 2017-11-22 2018-04-13 昆明理工大学 一种基于同义关联词的文本对比方法
CN108319648A (zh) * 2017-12-27 2018-07-24 深圳市三宝创新智能有限公司 一种基于改进simhash算法的问答数据清洗系统及方法
CN108595517A (zh) * 2018-03-26 2018-09-28 南京邮电大学 一种大规模文档相似性检测方法
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
WO2019028631A1 (zh) * 2017-08-07 2019-02-14 深圳益强信息科技有限公司 一种技术秘密的相对秘密性判断方法
CN110956038A (zh) * 2019-10-16 2020-04-03 厦门美柚股份有限公司 图文内容重复判断方法及装置
CN113312319A (zh) * 2021-06-28 2021-08-27 深圳市知酷信息技术有限公司 一种移动互联网共享文档查重预警系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000079426A1 (en) * 1999-06-18 2000-12-28 The Trustees Of Columbia University In The City Of New York System and method for detecting text similarity over short passages
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN103294671A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 文档的检测方法及系统
CN104615714A (zh) * 2015-02-05 2015-05-13 北京中搜网络技术股份有限公司 基于文本相似度和微博频道特征的博文排重方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000079426A1 (en) * 1999-06-18 2000-12-28 The Trustees Of Columbia University In The City Of New York System and method for detecting text similarity over short passages
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN103294671A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 文档的检测方法及系统
CN104615714A (zh) * 2015-02-05 2015-05-13 北京中搜网络技术股份有限公司 基于文本相似度和微博频道特征的博文排重方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鲁松 等: "自然语言处理中词语上下文有效范围的定量描述", 《计算机学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315809A (zh) * 2017-06-27 2017-11-03 山东浪潮通软信息科技有限公司 一种基于Spark平台的集团新闻数据预处理方法
WO2019028631A1 (zh) * 2017-08-07 2019-02-14 深圳益强信息科技有限公司 一种技术秘密的相对秘密性判断方法
CN107562824A (zh) * 2017-08-21 2018-01-09 昆明理工大学 一种文本相似度检测方法
CN107562824B (zh) * 2017-08-21 2020-10-27 昆明理工大学 一种文本相似度检测方法
CN107908622A (zh) * 2017-11-22 2018-04-13 昆明理工大学 一种基于同义关联词的文本对比方法
CN108319648A (zh) * 2017-12-27 2018-07-24 深圳市三宝创新智能有限公司 一种基于改进simhash算法的问答数据清洗系统及方法
CN108595517A (zh) * 2018-03-26 2018-09-28 南京邮电大学 一种大规模文档相似性检测方法
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN108804418B (zh) * 2018-05-21 2022-03-08 浪潮软件股份有限公司 一种基于语义分析的文档查重方法和装置
CN110956038A (zh) * 2019-10-16 2020-04-03 厦门美柚股份有限公司 图文内容重复判断方法及装置
CN110956038B (zh) * 2019-10-16 2022-07-05 厦门美柚股份有限公司 图文内容重复判断方法及装置
CN113312319A (zh) * 2021-06-28 2021-08-27 深圳市知酷信息技术有限公司 一种移动互联网共享文档查重预警系统及方法

Also Published As

Publication number Publication date
CN106649222B (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN106649222A (zh) 基于语义分析与多重Simhash的文本近似重复检测方法
Alzahrani et al. Fuzzy semantic-based string similarity for extrinsic plagiarism detection
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
Yang Research and realization of internet public opinion analysis based on improved TF-IDF algorithm
CN103631858B (zh) 一种科技项目相似度计算方法
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN104615593A (zh) 微博热点话题自动检测方法及装置
CN102662952A (zh) 一种基于层次的中文文本并行数据挖掘方法
CN104881402A (zh) 中文网络话题评论文本语义倾向分析的方法及装置
CN105095204A (zh) 同义词的获取方法及装置
CN103617157A (zh) 基于语义的文本相似度计算方法
CN106844348B (zh) 一种汉语句子功能成分分析方法
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN106528524A (zh) 一种基于MMseg算法与逐点互信息算法的分词方法
CN104915443A (zh) 一种中文微博评价对象的抽取方法
Noaman et al. Automatic Arabic spelling errors detection and correction based on confusion matrix-noisy channel hybrid system
CN111984782A (zh) 藏文文本摘要生成方法和系统
Schröder et al. Neural end-to-end coreference resolution for German in different domains
Hosseinikhah et al. A new Persian text summarization approach based on natural language processing and graph similarity
Singh et al. Sentiment analysis using lexicon based approach
Al-Azzawy et al. Arabic words clustering by using K-means algorithm
CN104063382B (zh) 面向油气管道领域的多策略融合的标准术语处理方法
CN107291730A (zh) 对查询词提供校正建议的方法、装置、及概率词典构建方法
Saha et al. ArgU: A controllable factual argument generator
Sarmah et al. Word sense disambiguation for Assamese

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant