CN108170716A - 一种基于人体视觉的文本查重方法 - Google Patents
一种基于人体视觉的文本查重方法 Download PDFInfo
- Publication number
- CN108170716A CN108170716A CN201711257214.7A CN201711257214A CN108170716A CN 108170716 A CN108170716 A CN 108170716A CN 201711257214 A CN201711257214 A CN 201711257214A CN 108170716 A CN108170716 A CN 108170716A
- Authority
- CN
- China
- Prior art keywords
- text
- sim
- detected
- similarity
- duplicate checking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000000007 visual effect Effects 0.000 title claims abstract description 19
- 238000002156 mixing Methods 0.000 claims abstract description 5
- 239000012634 fragment Substances 0.000 claims description 9
- 108010069898 fibrinogen fragment X Proteins 0.000 claims description 6
- 230000010365 information processing Effects 0.000 abstract description 3
- 230000003319 supportive effect Effects 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 241000287181 Sturnus vulgaris Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于人体视觉的文本查重方法,信息处理技术领域。本发明通过对预设文本进行预处理,建立预设文本数据库,之后获取任意待检测文本,先对待检测文本进行诸如Simhash算法或Shingling算法的传统文本查重,得到基于传统算法的文本相似度,再对待检测文本进行预处理,利用Jaro‑Winler Distance算法遍历预设文本数据库,得到基于J‑W距离的文本相似度,两个相似度分别从不同方面反映了待检测文本的文本相似程度,最后再将所计算的两个相似度通过相似度融合算法,得到基于人体视觉的文本相似度。本发明与现有技术相比,主要解决了现有技术对某些特殊文本,特别是对正常语句进行词素位置颠倒的句子而言,支持性差、准确性不足等问题。
Description
技术领域
本发明涉及一种基于人体视觉的文本查重方法,信息处理技术领域。
背景技术
文本查重是信息处理技术中一项非常重要的常用技术,通常是根据一定的相似度模型从数据流中发现重复文本的过程,它在搜索引擎构建、抄袭检测、新闻分类等多领域有着广泛的应用。
目前,传统的文本查重一般使用Simhash算法或Shingling算法,通常是对文本进行诸如分词、求权重、构建特征向量或哈希映射等步骤,最终求得该文本的相似度。但是这种方法对某些特殊文本无法正确求得其相似度。论文《词素位置颠倒对汉语句子阅读影响的眼动研究》中指出,汉字的顺序并不一定影响阅读,这是因为普通人精读一段文本的时候,一次凝视大阅读取2~3个汉字,再加上自身已有的经验和上下文信息,很容易推出正确的信息。但是,有些人就会利用这个特征,对正常的句子进行词素位置颠倒,进而骗过传统的文本查重。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于人体视觉的文本查重方法,用以解决上述问题。
本发明的技术方案是:一种基于人体视觉的文本查重方法,通过建立预设文本数据库,先对待检测文本进行传统的文本查重,得到基于传统算法的文本相似度,再利用Jaro-Winler Distance算法遍历预设文本数据库,得到基于J-W距离的文本相似度,两个相似度分别从不同方面反映了待检测文本的文本相似程度,最后再将所计算的两个相似度通过相似度融合算法,得到基于人体视觉的文本相似度。
具体包括以下步骤:
Step0:建立预设文本数据库。对各预设文本{P1,P2,…,Pq}以段落划分为集合形式,即将预设文本Pi,i∈[1,q]拆分为Pi:{Pi1,Pi2,…,Pim},然后将预设文本Pi,i∈[1,q]的每一段落Pij,j∈[1,m]中所有标点符号、英文字母和数字去除,只保留中文汉字并存入数据库,组建预设文本数据库。
Step1:获取待检测文本X。
Step2:对待检测文本X进行传统的文本查重,得到待检测文本X基于传统算法的文本相似度Sim1。
Step3:对待检测文本X以段落划分为集合形式,即将待检测文本X拆分为X:{X1,X2,…,Xn},然后将待检测文本X的每一段落Xz,z∈[1,n]中所有标点符号、英文字母和数字去除,只保留中文汉字,并覆盖原数据。
Step4:对待检测文本X的每一段落Xz,z∈[1,n],遍历预设文本数据库中的数据Pij,i∈[1,q],j∈[1,m],由Jaro-Winkler Distance算法求得待检测文本段落Xz与数据库中的数据Pij之间的文本相似度Sim(Xz,Pij),根据公式(1),取Sim(Xz,Pij)的最大值作为待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n]。
Sim(Xz,P)=Max(Sim(Xz,P11),Sim(Xz,P12),…,Sim(Xz,Pqm)) (1)
Step5:遍历待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n],根据公式(2)合并相似度,得到待检测文本X基于J-W距离的文本相似度Sim2。
Step6:设Step2、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由相似度Sim1及权值α、相似度Sim2及权值β,由相似度融合算法,即公式(3)计算出待检测文本X基于人体视觉的文本相似度Sim。
Sim=Sim1·α+Sim2·β (3)
进一步地,所述步骤Step1中,待检测文本X尽可能为中文文本。
进一步地,所述步骤Step2中,传统的文本查重方法可采用Simhash算法或Shingling算法。
进一步地,所述步骤Step0中预设文本{P1,P2,…,Pq}的数量q及每个预设文本的段落数m、步骤Step3中待检测文本X的段落数n需满足公式(5)的要求。
q,m,n∈N+ (5)
进一步地,所述步骤Step4、Step5中,简言之,先求出待检测文本X每一段落Xz,z∈[1,n]的段落相似度Sim(Xz,P),z∈[1,n],再将所有段落的段落相似度Sim(Xz,P),z∈[1,n]进行平均值的计算,即得到待检测文本X基于J-W距离的文本相似度Sim2。
进一步地,所述步骤Step6中,相似度对应权值α、β需满足公式(6)的要求,但可根据实际情况进行调整。
α≥β (6)
进一步地,所述步骤Step2、Step4、Step5、Step6中所计算的文本相似度Sim1、Sim(Xz,P),z∈[1,n]、Sim2、Sim应是一个介于[0,1]之间的数值,或以百分比的形式存在,且值越接近1或100%则说明待检测文本X和现有预设文本的相似度越高。
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术对某些特殊文本,特别是对正常语句进行词素位置颠倒的句子而言,支持性差、准确性不足等现象,致力于增加目前依靠计算机进行文本查重的准确性。
附图说明
图1是本发明总流程示意图。
图2是本发明建立数据库流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于人体视觉的文本查重方法,具体包括以下步骤:
Step0:建立预设文本数据库。对各预设文本{P1,P2,…,Pq}以段落划分为集合形式,即将预设文本Pi,i∈[1,q]拆分为Pi:{Pi1,Pi2,…,Pim},然后将预设文本Pi,i∈[1,q]的每一段落Pij,j∈[1,m]中所有标点符号、英文字母和数字去除,只保留中文汉字并存入数据库,组建预设文本数据库;具体的:
假设预设文本数据库中现有文本段落P11:“研究表明汉字的顺序并不一定能影响阅读比如当你看完这句话后才发现这里的字全都是乱的”。
Step1:获取待检测文本X。具体的:
假设待检测文本X为“研表究明,汉字的序顺并不定一能影阅响读,比如当你看完这句话后,才发这现里的字全是都乱的。”。
Step2:对待检测文本X进行传统的文本查重,得到待检测文本X基于传统算法的文本相似度Sim1;具体的:
使用Simhash算法对待检测文本X进行文本相似度的计算,得其基于传统算法的文本相似度Sim1=0.6875。
Step3:对待检测文本X以段落划分为集合形式,即将待检测文本X拆分为X:{X1,X2,…,Xn},然后将待检测文本X的每一段落Xz,z∈[1,n]中所有标点符号、英文字母和数字去除,只保留中文汉字,并覆盖原数据;具体的:
待检测文本X只有一个段落X1,内容为“研表究明汉字的序顺并不定一能影阅响读比如当你看完这句话后才发这现里的字全是都乱的”。
Step4:对待检测文本X的每一段落Xz,z∈[1,n],遍历预设文本数据库中的数据Pij,i∈[1,q],j∈[1,m],由Jaro-Winkler Distance算法求得待检测文本段落Xz与数据库中的数据Pij之间的文本相似度Sim(Xz,Pij),根据公式(1),取Sim(Xz,Pij)的最大值作为待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n]。
Sim(Xz,P)=Max(Sim(Xz,P11),Sim(Xz,P12),…,Sim(Xz,Pqm)) (1)
具体的:
因为待检测文本X只有一个段落X1,所以只需计算X1与预设文本数据库中的数据P11之间的相似度,即Sim(X1,P)=0.9707。
Step5:遍历待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n],根据公式(2)合并相似度,得到待检测文本X基于J-W距离的文本相似度Sim2。
具体的:
因为待检测文本X只有一个段落X1,所以待检测文本X基于J-W距离的文本相似度Sim2=Sim(X1,P)=0.9707。
Step6:设Step2、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由相似度Sim1及权值α、相似度Sim2及权值β,由相似度融合算法,即公式(3)计算出待检测文本X基于人体视觉的文本相似度Sim。
Sim=Sim1·α+Sim2·β (3)
具体的:
取权值α=0.5、β=0.5,经融合后最终相似度为:
Sim=Sim1·α+Sim2·β
=0.6875×0.5+0.9707×0.5
=0.8291
由以上结果可以表明,最终计算所得相似度为0.8291,相对于使用传统的Simhash算法计算所得0.6875来讲,有较大幅度的提升,特别是针对对正常语句进行词素位置颠倒的句子而言。
若传统算法采用余弦定理进行计算,则Sim1=0.6066、Sim2=0.9707,融合后相似度Sim1=0.7887,同样有较大幅度的提升。
另外,关于文本相似度Sim1、Sim2对应权值的取值α、β,应以实际情况进行多次检测、适当调整后合理取值。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.一种基于人体视觉的文本查重方法,其特征在于,具体包括以下步骤:
Step0:建立预设文本数据库,对各预设文本{P1,P2,…,Pq}以段落划分为集合形式,即将预设文本Pi,i∈[1,q]拆分为Pi:{Pi1,Pi2,…,Pim},然后将预设文本Pi,i∈[1,q]的每一段落Pij,j∈[1,m]中所有标点符号、英文字母和数字去除,只保留中文汉字并存入数据库,组建预设文本数据库;
Step1:获取待检测文本X;
Step2:对待检测文本X进行传统的文本查重,得到待检测文本X基于传统算法的文本相似度Sim1;
Step3:对待检测文本X以段落划分为集合形式,即将待检测文本X拆分为X:{X1,X2,…,Xn},然后将待检测文本X的每一段落Xz,z∈[1,n]中所有标点符号、英文字母和数字去除,只保留中文汉字,并覆盖原数据;
Step4:对待检测文本X的每一段落Xz,z∈[1,n],遍历预设文本数据库中的数据Pij,i∈[1,q],j∈[1,m],由Jaro-Winkler Distance算法求得待检测文本段落Xz与数据库中的数据Pij之间的文本相似度Sim(Xz,Pij),根据公式(1),取Sim(Xz,Pij)的最大值作为待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n];
Sim(Xz,P)=Max(Sim(Xz,P11),Sim(Xz,P12),…,Sim(Xz,Pqm)) (1)
Step5:遍历待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n],根据公式(2)合并相似度,得到待检测文本X基于J-W距离的文本相似度Sim2;
Step6:设Step2、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由相似度Sim1及权值α、相似度Sim2及权值β,由相似度融合算法,即公式:Sim=Sim1·α+Sim2·β计算出待检测文本X基于人体视觉的文本相似度Sim。
2.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step1中,待检测文本X为中文文本。
3.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step2中,传统的文本查重方法可采用Simhash算法或Shingling算法。
4.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step0中预设文本{P1,P2,…,Pq}的数量q及每个预设文本的段落数m、步骤Step3中待检测文本X的段落数n需满足q,m,n∈N+的要求。
5.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step4、Step5中,先求出待检测文本X每一段落Xz,z∈[1,n]的段落相似度Sim(Xz,P),z∈[1,n],再将所有段落的段落相似度Sim(Xz,P),z∈[1,n]进行平均值的计算,即得到待检测文本X基于J-W距离的文本相似度Sim2。
6.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step6中,相似度对应权值α、β需满足α≥β。
7.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step2、Step4、Step5、Step6中所计算的文本相似度Sim1、Sim(Xz,P),z∈[1,n]、Sim2和Sim介于[0,1]之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711257214.7A CN108170716B (zh) | 2017-12-04 | 2017-12-04 | 一种基于人体视觉的文本查重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711257214.7A CN108170716B (zh) | 2017-12-04 | 2017-12-04 | 一种基于人体视觉的文本查重方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108170716A true CN108170716A (zh) | 2018-06-15 |
CN108170716B CN108170716B (zh) | 2021-12-17 |
Family
ID=62524267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711257214.7A Active CN108170716B (zh) | 2017-12-04 | 2017-12-04 | 一种基于人体视觉的文本查重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108170716B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532352A (zh) * | 2019-08-20 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 文本查重方法及装置、计算机可读存储介质、电子设备 |
CN111831869A (zh) * | 2020-06-30 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种字符串的查重方法、装置、终端设备及存储介质 |
CN109359183B (zh) * | 2018-10-11 | 2021-04-23 | 南京中孚信息技术有限公司 | 文本信息的查重方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030101177A1 (en) * | 2001-11-29 | 2003-05-29 | Tadataka Matsubayashi | Similar document retrieving method and system |
US20140222928A1 (en) * | 2013-02-06 | 2014-08-07 | Msc Intellectual Properties B.V. | System and method for authorship disambiguation and alias resolution in electronic data |
CN105302793A (zh) * | 2015-10-21 | 2016-02-03 | 南方电网科学研究院有限责任公司 | 一种利用计算机自动评价科技文献新颖性的方法 |
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN106845265A (zh) * | 2016-12-01 | 2017-06-13 | 北京计算机技术及应用研究所 | 一种文档密级自动识别方法 |
-
2017
- 2017-12-04 CN CN201711257214.7A patent/CN108170716B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030101177A1 (en) * | 2001-11-29 | 2003-05-29 | Tadataka Matsubayashi | Similar document retrieving method and system |
US20140222928A1 (en) * | 2013-02-06 | 2014-08-07 | Msc Intellectual Properties B.V. | System and method for authorship disambiguation and alias resolution in electronic data |
CN105302793A (zh) * | 2015-10-21 | 2016-02-03 | 南方电网科学研究院有限责任公司 | 一种利用计算机自动评价科技文献新颖性的方法 |
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN106845265A (zh) * | 2016-12-01 | 2017-06-13 | 北京计算机技术及应用研究所 | 一种文档密级自动识别方法 |
Non-Patent Citations (2)
Title |
---|
MOHAMED SALAH KETTOUCH: "An interlinking approach based on domain recognition for Linked Data", 《 2015 IEEE 13TH INTERNATIONAL CONFERENCE ON INDUSTRIAL INFORMATICS (INDIN)》 * |
王海涛: "基于大规模文本数据集的相似检测关键技术研究", 《中国博士学位论文全文数据库》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359183B (zh) * | 2018-10-11 | 2021-04-23 | 南京中孚信息技术有限公司 | 文本信息的查重方法、装置及电子设备 |
CN110532352A (zh) * | 2019-08-20 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 文本查重方法及装置、计算机可读存储介质、电子设备 |
CN110532352B (zh) * | 2019-08-20 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 文本查重方法及装置、计算机可读存储介质、电子设备 |
CN111831869A (zh) * | 2020-06-30 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种字符串的查重方法、装置、终端设备及存储介质 |
CN111831869B (zh) * | 2020-06-30 | 2023-11-03 | 深圳价值在线信息科技股份有限公司 | 一种字符串的查重方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108170716B (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717406B (zh) | 文本情绪分析方法、装置及存储介质 | |
AU2017204297B2 (en) | Visual similarity based font replacement for desktop and web applications | |
US10521464B2 (en) | Method and system for extracting, verifying and cataloging technical information from unstructured documents | |
CN104142915B (zh) | 一种添加标点的方法和系统 | |
CN107562824B (zh) | 一种文本相似度检测方法 | |
US20200193217A1 (en) | Method for determining sentence similarity | |
CN104750687B (zh) | 改进双语语料库的方法及装置、机器翻译方法及装置 | |
CN103324609B (zh) | 文本校对装置和文本校对方法 | |
KR102361118B1 (ko) | 딥러닝 기반 지능형 엔지니어링 도면 생성방법 및 장치 | |
WO2019179022A1 (zh) | 文本数据质检方法、装置、设备及计算机可读存储介质 | |
CN106202153A (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
CN106294350A (zh) | 一种文本聚合方法及装置 | |
CN106649749B (zh) | 一种基于汉语音位特征的文本查重方法 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN104011712A (zh) | 对跨语言查询建议的查询翻译进行评价 | |
CN103927532B (zh) | 基于笔画特征的笔迹配准方法 | |
CN108170716A (zh) | 一种基于人体视觉的文本查重方法 | |
CN108170650B (zh) | 文本比较方法以及文本比较装置 | |
WO2018076495A1 (zh) | 检索人脸图像的方法和系统 | |
CN110750977B (zh) | 一种文本相似度计算方法及系统 | |
CN105740448B (zh) | 面向话题的多微博时序文摘方法 | |
CN109165382A (zh) | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 | |
JP2018509664A (ja) | モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体 | |
CN104714950A (zh) | 用于对数据库中的信息进行修正及补充的方法及系统 | |
CN112131341A (zh) | 文本相似度计算方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |