CN106649222A - 基于语义分析与多重Simhash的文本近似重复检测方法 - Google Patents
基于语义分析与多重Simhash的文本近似重复检测方法 Download PDFInfo
- Publication number
- CN106649222A CN106649222A CN201611145824.3A CN201611145824A CN106649222A CN 106649222 A CN106649222 A CN 106649222A CN 201611145824 A CN201611145824 A CN 201611145824A CN 106649222 A CN106649222 A CN 106649222A
- Authority
- CN
- China
- Prior art keywords
- word
- simhash
- pro
- text
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语义分析与多重Simhash的文本近似重复检测方法,本发明引入语法、句法、语义等信息,首先根据多因素综合考虑词的重要性而获得文章的关键词,然后创新地提出以关键词前后一定数目的词为文章特征,并以此计算SimHash,在处理语义的问题上,通过同义词替换的方法来消除同义词,然而这种方法比较激进,因此一定程度上降低了准确率,因此采用二重SimHash的方法,即只有在一定范围内才会使用这种激进的计算方式,结果表明改进的检测方法要比传统的SimHash、Shingling等方法效果更优。
Description
技术领域
本发明涉及一种文本重复检测方法,尤其涉及一种基于语义分析与多重Simhash的文本近似重复检测方法。
背景技术
在数据挖掘和知识信息发现领域,随着大规模数据喷涌而出而来的一大挑战就是过多的重复信息。国外有关研究表明,有1.7%~7%的重复网页充斥在互联网环境中。这种问题在中国互联网环境中更为突出,中国互联网环境尚未成熟,版权保护机制与网民素养尚未完善,很多信息都被大量的剽窃和转载,据有关统计,中国互联网络中有超过30%的重复页面。而重复信息太多也是互联网信息检索中遇到的主要问题之一。
与网页重复检测相比,文本重复检测更加困难,这是由于语法、句式以及词语含义的多变性,而中文的复杂语言结构更是给重复检测增加了困难。近似重复的相关研究,已经有十余年的历史,其大多数是针对英文网页重复设计的。根据其相似匹配位于的阶段不同,可以简单分为两类,一类是单纯两两根据文本信息直接进行相似匹配,另一种是将每个文档的信息生成一个指定长度的编码(一般是64位),只通过这个编码来进行相似匹配,这种方式称为指纹算法。
然而目前绝大多数算法均是针对几乎完全相同的文章,而对于词的替换、句式的变换、或者保证原文含义不变的情况下重写等近似重复问题效果一般。因此在实际应用上具有一定的局限性。
发明内容
本发明的目的在于针对现有技术的局限和不足,提供一种基于语义分析与多重Simhash的文本近似重复检测方法。
本发明的目的是通过以下技术方案来实现的:一种基于语义分析与多重Simhash的文本近似重复检测方法,利用词语的词性和统计特征选择文本的关键词,在关键词周围选取词作为文本特征,对同义词进行编码,消除同义词,利用文本特征和全文分别计算Simhash,利用多重Simhash检测文档重复;具体包括以下步骤:
(1)对中文文章进行预处理:将原始文本进行分词、去除停用词处理,余下的词称为文章的实义词;
(2)选取关键词:以tfidf、词性、词长、词首次出现的位置计算每个实义词的权重,选取权重最高的N1个词作为关键词。N1的取值范围为[5,15]。
词的权重计算方式为:
其中wi表示文档中第i个词,tfidfi表示这个词的tfidf,len(x)表示x(文档或词)的长度,posi表示词首次出现的位置,proi表示词性的权重指标,proi的取值范围为[0,1]。λ1~λ4为不同指标的权重,且满足λ1>λ2<λ4>λ3。
表示词性的权重指标。为不同指标的权重的取值范围为(3)选取关键词每次出现位置前后各N2个词作为文本特征,若关键词出现位置前或后不足N2个词,则取到文首或文尾为止。N2的取值范围为[6,14]。
(4)预先统计好常用的同义词,并对词进行编码,同一个含义的词编码相同,不同含义的词编码不同,但编码长度相同。找到特征中所有有同义词的词,并将其替换为对应的编码。
(5)根据文章的全部实义词计算Simhash记为simhash_1,根据文本特征计算Simhash记为simhash_2。
(6)计算两篇文章的simhash_1的海明距离,记为D1,计算两篇文章的simhash_2的海明距离记为D2。若D1≤k1,或k1<D1≤k2且D2≤k1,则认为两篇文章近似重复。其中k1的取值范围为[1,3],k2的取值范围为[5,7]。
进一步地,所述步骤2中,对于不同词性的词对应的proi满足:
a.若wi为名词,则proi>0.5
b.若wi为名词,wj为形容词,则proi>=1.5proj
c.若wi为名词,wj为动词,则proi>=2proj
d.若wi为形容词,wj为动词,则proi>proj
e.若wi为动词,wj为其它词性的词,则proi>2proj。
本发明的有益效果是:本发明引入了语法、句法、语义等信息,首先根据多因素综合考虑词的重要性而获得文章的关键词,然后创新地提出以关键词前后一定数目的词为文章特征,并以此计算SimHash,在处理语义的问题上,我们通过同义词替换的方法来消除同义词,然而这种方法比较激进,因此一定程度上降低了准确率,因此我们采用二重SimHash的方法,即只有在一定范围内才会使用这种激进的计算方式,结果表明改进的检测方法要比传统的SimHash、Shingling等方法效果更优。
附图说明
图1是原始文章预处理的示意图;
图2是选取文章关键词的示意图;
图3是文章特征选取以及计算Simhash的示意图;
图4是判断两篇文章是否近似重复的示意图;
图5是本发明方法与传统的SimHash、Shingling方法的比较结果示意图。
具体实施方式
下面结合附图详细描述本发明,本发明的目的和效果将变得更加明显。
本发明提供的一种基于语义分析与多重Simhash的文本近似重复检测方法,包括以下步骤:
(1)对中文文章进行预处理:将原始文本进行分词、去除停用词处理,余下的词称为文章的实义词;
(2)选取关键词:以tfidf、词性、词长、词首次出现的位置计算每个实义词的权重,选取权重最高的N1个词作为关键词。N1的取值范围为[5,15]。
词的权重计算方式为:
其中wi表示文档中第i个词,tfidfi表示这个词的tfidf,len(x)表示x(文档或词)的长度,posi表示词首次出现的位置,proi表示词性的权重指标。λ1~λ4为不同指标的权重。
proi的取值范围为[0,1],对于不同词性的词对应的proi满足:
a.若wi为名词,则proi>0.5
b.若wi为名词,wj为形容词,则proi>=1.5proj
c.若wi为名词,wj为动词,则proi>=2proj
d.若wi为形容词,wj为动词,则proi>proj
e.若wi为动词,wj为其它词性的词,则proi>2proj。
不同指标的权重满足λ1>λ2>λ4>λ3。
(3)选取关键词每次出现位置前后各N2个词作为文本特征,若关键词出现位置前或后不足N2个词,则取到文首或文尾为止。N2的取值范围为[6,14]。
(4)预先统计好常用的同义词,并对词进行编码,同一个含义的词编码相同,不同含义的词编码不同,但编码长度相同。找到特征中所有有同义词的词,并将其替换为对应的编码。
(5)根据文章的全部实义词计算Simhash记为simhash_1,根据文本特征计算Simhash记为simhash_2。
(6)计算两篇文章的simhash_1的海明距离,记为D1,计算两篇文章的simhash_2的海明距离记为D2。若D1≤k1,或k1<D1≤k2且D2≤k1,则认为两篇文章近似重复。其中k1的取值范围为[1,3],k2的取值范围为[5,7]。
实施例
本实施例以2162篇IT新闻文章作为原始文本,具体实施方式如下:
(1)对中文文章进行预处理:如图1所示,将原始文本进行分词、去除停用词处理,余下的词为实义词。
(2)选取关键词:如图2所示,以tfidf、词性、词长、词首次出现的位置计算每个实义词的权重,选取权重最高的10个词作为关键词。词的权重通过如下公式计算:
参数选取如下:
若wi为名词,则proi取0.6,若wi为形容词,则proi取0.4,若wi为动词,则proi取0.3,若wi为其他词性的词,则proi取0.1;
tfidf权重λ1取0.8;
词性权重λ2取0.5;
词长权重λ3取0.05;
首次出现位置权重λ4取0.1;
(3)如图3所示,选取关键词每次出现位置前后各10个词作为文本特征。预先统计好常用的同义词,并对词进行编码,同一个含义的词编码相同,不同含义的词编码不同,但长度相同。之后根据文章的全部实义词计算Simhash记为simhash_1,根据文本特征计算Simhash记为simhash_2。
(4)判断两篇文章是否重复的方法如图4所示,计算两篇文章的simhash_1的海明距离,记为D1,计算两篇文章的simhash_2的海明距离记为D2。若0≤D1≤2,或2<D1≤6且0≤D2≤2,则认为两篇文章近似重复。
本实施例中按照上述参数设定实施,称为Simhash_New,其重复检测结果与Simhash、Shingling两种方法的检测结果对比如图5所示,结果表明,本发明方法在准确率、召回率、f值三个指标上均显著高于Simhash、Shingling方法。证明了本发明方法在中文文本近似重复检测问题上具有更好的效果。
Claims (2)
1.一种基于语义分析与多重Simhash的文本近似重复检测方法,其特征在于,该方法包括以下步骤:
(1)对中文文章进行预处理:将原始文本进行分词、去除停用词处理,余下的词称为文章的实义词;
(2)选取关键词:以tfidf、词性、词长、词首次出现的位置计算每个实义词的权重,选取权重最高的N1个词作为关键词。N1的取值范围为[5,15]。
词的权重计算方式为:
其中wi表示文档中第i个词,tfidfi表示这个词的tfidf,len(x)表示x(文档或词)的长度,posi表示词首次出现的位置,proi表示词性的权重指标,proi的取值范围为[0,1]。λ1~λ4为不同指标的权重,且满足λ1>λ2>λ4>λ3。
(3)选取关键词每次出现位置前后各N2个词作为文本特征,若关键词出现位置前或后不足N2个词,则取到文首或文尾为止。N2的取值范围为[6,14]。
(4)预先统计好常用的同义词,并对词进行编码,同一个含义的词编码相同,不同含义的词编码不同,但编码长度相同。找到特征中所有有同义词的词,并将其替换为对应的编码。
(5)根据文章的全部实义词计算Simhash记为simhash_1,根据文本特征计算Simhash记为simhash_2。
(6)计算两篇文章的simhash_1的海明距离,记为D1,计算两篇文章的simhash_2的海明距离记为D2。若D1≤k1,或k1<D1≤k2且D2≤k1,则认为两篇文章近似重复。其中k1的取值范围为[1,3],k2的取值范围为[5,7]。
2.根据权利要求1所述的一种基于语义分析与多重Simhash的文本近似重复检测方法,其特征在于,所述步骤2中,对于不同词性的词对应的proi满足:
a.若wi为名词,则proi>0.5
b.若wi为名词,wj为形容词,则proi>=1.5proj
c.若wi为名词,wj为动词,则proi>=2proj
d.若wi为形容词,wj为动词,则proi>proj
e.若wi为动词,wj为其它词性的词,则proi>2proj。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611145824.3A CN106649222B (zh) | 2016-12-13 | 2016-12-13 | 基于语义分析与多重Simhash的文本近似重复检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611145824.3A CN106649222B (zh) | 2016-12-13 | 2016-12-13 | 基于语义分析与多重Simhash的文本近似重复检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106649222A true CN106649222A (zh) | 2017-05-10 |
CN106649222B CN106649222B (zh) | 2019-07-16 |
Family
ID=58825214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611145824.3A Active CN106649222B (zh) | 2016-12-13 | 2016-12-13 | 基于语义分析与多重Simhash的文本近似重复检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649222B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107315809A (zh) * | 2017-06-27 | 2017-11-03 | 山东浪潮通软信息科技有限公司 | 一种基于Spark平台的集团新闻数据预处理方法 |
CN107562824A (zh) * | 2017-08-21 | 2018-01-09 | 昆明理工大学 | 一种文本相似度检测方法 |
CN107908622A (zh) * | 2017-11-22 | 2018-04-13 | 昆明理工大学 | 一种基于同义关联词的文本对比方法 |
CN108319648A (zh) * | 2017-12-27 | 2018-07-24 | 深圳市三宝创新智能有限公司 | 一种基于改进simhash算法的问答数据清洗系统及方法 |
CN108595517A (zh) * | 2018-03-26 | 2018-09-28 | 南京邮电大学 | 一种大规模文档相似性检测方法 |
CN108804418A (zh) * | 2018-05-21 | 2018-11-13 | 浪潮软件集团有限公司 | 一种基于语义分析的文档查重方法和装置 |
WO2019028631A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 一种技术秘密的相对秘密性判断方法 |
CN110956038A (zh) * | 2019-10-16 | 2020-04-03 | 厦门美柚股份有限公司 | 图文内容重复判断方法及装置 |
CN113312319A (zh) * | 2021-06-28 | 2021-08-27 | 深圳市知酷信息技术有限公司 | 一种移动互联网共享文档查重预警系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000079426A1 (en) * | 1999-06-18 | 2000-12-28 | The Trustees Of Columbia University In The City Of New York | System and method for detecting text similarity over short passages |
CN103207864A (zh) * | 2012-01-13 | 2013-07-17 | 北京中文在线数字出版股份有限公司 | 一种网络小说内容近似度比对方法 |
CN103294671A (zh) * | 2012-02-22 | 2013-09-11 | 腾讯科技(深圳)有限公司 | 文档的检测方法及系统 |
CN104615714A (zh) * | 2015-02-05 | 2015-05-13 | 北京中搜网络技术股份有限公司 | 基于文本相似度和微博频道特征的博文排重方法 |
-
2016
- 2016-12-13 CN CN201611145824.3A patent/CN106649222B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000079426A1 (en) * | 1999-06-18 | 2000-12-28 | The Trustees Of Columbia University In The City Of New York | System and method for detecting text similarity over short passages |
CN103207864A (zh) * | 2012-01-13 | 2013-07-17 | 北京中文在线数字出版股份有限公司 | 一种网络小说内容近似度比对方法 |
CN103294671A (zh) * | 2012-02-22 | 2013-09-11 | 腾讯科技(深圳)有限公司 | 文档的检测方法及系统 |
CN104615714A (zh) * | 2015-02-05 | 2015-05-13 | 北京中搜网络技术股份有限公司 | 基于文本相似度和微博频道特征的博文排重方法 |
Non-Patent Citations (1)
Title |
---|
鲁松 等: "自然语言处理中词语上下文有效范围的定量描述", 《计算机学报》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107315809A (zh) * | 2017-06-27 | 2017-11-03 | 山东浪潮通软信息科技有限公司 | 一种基于Spark平台的集团新闻数据预处理方法 |
WO2019028631A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 一种技术秘密的相对秘密性判断方法 |
CN107562824A (zh) * | 2017-08-21 | 2018-01-09 | 昆明理工大学 | 一种文本相似度检测方法 |
CN107562824B (zh) * | 2017-08-21 | 2020-10-27 | 昆明理工大学 | 一种文本相似度检测方法 |
CN107908622A (zh) * | 2017-11-22 | 2018-04-13 | 昆明理工大学 | 一种基于同义关联词的文本对比方法 |
CN108319648A (zh) * | 2017-12-27 | 2018-07-24 | 深圳市三宝创新智能有限公司 | 一种基于改进simhash算法的问答数据清洗系统及方法 |
CN108595517A (zh) * | 2018-03-26 | 2018-09-28 | 南京邮电大学 | 一种大规模文档相似性检测方法 |
CN108804418A (zh) * | 2018-05-21 | 2018-11-13 | 浪潮软件集团有限公司 | 一种基于语义分析的文档查重方法和装置 |
CN108804418B (zh) * | 2018-05-21 | 2022-03-08 | 浪潮软件股份有限公司 | 一种基于语义分析的文档查重方法和装置 |
CN110956038A (zh) * | 2019-10-16 | 2020-04-03 | 厦门美柚股份有限公司 | 图文内容重复判断方法及装置 |
CN110956038B (zh) * | 2019-10-16 | 2022-07-05 | 厦门美柚股份有限公司 | 图文内容重复判断方法及装置 |
CN113312319A (zh) * | 2021-06-28 | 2021-08-27 | 深圳市知酷信息技术有限公司 | 一种移动互联网共享文档查重预警系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106649222B (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649222A (zh) | 基于语义分析与多重Simhash的文本近似重复检测方法 | |
Alzahrani et al. | Fuzzy semantic-based string similarity for extrinsic plagiarism detection | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
Yang | Research and realization of internet public opinion analysis based on improved TF-IDF algorithm | |
CN103631858B (zh) | 一种科技项目相似度计算方法 | |
CN102622338A (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
CN104615593A (zh) | 微博热点话题自动检测方法及装置 | |
CN102662952A (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN105095204A (zh) | 同义词的获取方法及装置 | |
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
CN106844348B (zh) | 一种汉语句子功能成分分析方法 | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN106528524A (zh) | 一种基于MMseg算法与逐点互信息算法的分词方法 | |
CN104915443A (zh) | 一种中文微博评价对象的抽取方法 | |
Noaman et al. | Automatic Arabic spelling errors detection and correction based on confusion matrix-noisy channel hybrid system | |
CN111984782A (zh) | 藏文文本摘要生成方法和系统 | |
Schröder et al. | Neural end-to-end coreference resolution for German in different domains | |
Hosseinikhah et al. | A new Persian text summarization approach based on natural language processing and graph similarity | |
Singh et al. | Sentiment analysis using lexicon based approach | |
Al-Azzawy et al. | Arabic words clustering by using K-means algorithm | |
CN104063382B (zh) | 面向油气管道领域的多策略融合的标准术语处理方法 | |
CN107291730A (zh) | 对查询词提供校正建议的方法、装置、及概率词典构建方法 | |
Saha et al. | ArgU: A controllable factual argument generator | |
Sarmah et al. | Word sense disambiguation for Assamese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |