CN108170716A - 一种基于人体视觉的文本查重方法 - Google Patents

一种基于人体视觉的文本查重方法 Download PDF

Info

Publication number
CN108170716A
CN108170716A CN201711257214.7A CN201711257214A CN108170716A CN 108170716 A CN108170716 A CN 108170716A CN 201711257214 A CN201711257214 A CN 201711257214A CN 108170716 A CN108170716 A CN 108170716A
Authority
CN
China
Prior art keywords
text
sim
detected
similarity
duplicate checking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711257214.7A
Other languages
English (en)
Other versions
CN108170716B (zh
Inventor
龙华
祁俊辉
宋耀莲
彭艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201711257214.7A priority Critical patent/CN108170716B/zh
Publication of CN108170716A publication Critical patent/CN108170716A/zh
Application granted granted Critical
Publication of CN108170716B publication Critical patent/CN108170716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于人体视觉的文本查重方法,信息处理技术领域。本发明通过对预设文本进行预处理,建立预设文本数据库,之后获取任意待检测文本,先对待检测文本进行诸如Simhash算法或Shingling算法的传统文本查重,得到基于传统算法的文本相似度,再对待检测文本进行预处理,利用Jaro‑Winler Distance算法遍历预设文本数据库,得到基于J‑W距离的文本相似度,两个相似度分别从不同方面反映了待检测文本的文本相似程度,最后再将所计算的两个相似度通过相似度融合算法,得到基于人体视觉的文本相似度。本发明与现有技术相比,主要解决了现有技术对某些特殊文本,特别是对正常语句进行词素位置颠倒的句子而言,支持性差、准确性不足等问题。

Description

一种基于人体视觉的文本查重方法
技术领域
本发明涉及一种基于人体视觉的文本查重方法,信息处理技术领域。
背景技术
文本查重是信息处理技术中一项非常重要的常用技术,通常是根据一定的相似度模型从数据流中发现重复文本的过程,它在搜索引擎构建、抄袭检测、新闻分类等多领域有着广泛的应用。
目前,传统的文本查重一般使用Simhash算法或Shingling算法,通常是对文本进行诸如分词、求权重、构建特征向量或哈希映射等步骤,最终求得该文本的相似度。但是这种方法对某些特殊文本无法正确求得其相似度。论文《词素位置颠倒对汉语句子阅读影响的眼动研究》中指出,汉字的顺序并不一定影响阅读,这是因为普通人精读一段文本的时候,一次凝视大阅读取2~3个汉字,再加上自身已有的经验和上下文信息,很容易推出正确的信息。但是,有些人就会利用这个特征,对正常的句子进行词素位置颠倒,进而骗过传统的文本查重。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于人体视觉的文本查重方法,用以解决上述问题。
本发明的技术方案是:一种基于人体视觉的文本查重方法,通过建立预设文本数据库,先对待检测文本进行传统的文本查重,得到基于传统算法的文本相似度,再利用Jaro-Winler Distance算法遍历预设文本数据库,得到基于J-W距离的文本相似度,两个相似度分别从不同方面反映了待检测文本的文本相似程度,最后再将所计算的两个相似度通过相似度融合算法,得到基于人体视觉的文本相似度。
具体包括以下步骤:
Step0:建立预设文本数据库。对各预设文本{P1,P2,…,Pq}以段落划分为集合形式,即将预设文本Pi,i∈[1,q]拆分为Pi:{Pi1,Pi2,…,Pim},然后将预设文本Pi,i∈[1,q]的每一段落Pij,j∈[1,m]中所有标点符号、英文字母和数字去除,只保留中文汉字并存入数据库,组建预设文本数据库。
Step1:获取待检测文本X。
Step2:对待检测文本X进行传统的文本查重,得到待检测文本X基于传统算法的文本相似度Sim1
Step3:对待检测文本X以段落划分为集合形式,即将待检测文本X拆分为X:{X1,X2,…,Xn},然后将待检测文本X的每一段落Xz,z∈[1,n]中所有标点符号、英文字母和数字去除,只保留中文汉字,并覆盖原数据。
Step4:对待检测文本X的每一段落Xz,z∈[1,n],遍历预设文本数据库中的数据Pij,i∈[1,q],j∈[1,m],由Jaro-Winkler Distance算法求得待检测文本段落Xz与数据库中的数据Pij之间的文本相似度Sim(Xz,Pij),根据公式(1),取Sim(Xz,Pij)的最大值作为待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n]。
Sim(Xz,P)=Max(Sim(Xz,P11),Sim(Xz,P12),…,Sim(Xz,Pqm)) (1)
Step5:遍历待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n],根据公式(2)合并相似度,得到待检测文本X基于J-W距离的文本相似度Sim2
Step6:设Step2、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由相似度Sim1及权值α、相似度Sim2及权值β,由相似度融合算法,即公式(3)计算出待检测文本X基于人体视觉的文本相似度Sim。
Sim=Sim1·α+Sim2·β (3)
进一步地,所述步骤Step1中,待检测文本X尽可能为中文文本。
进一步地,所述步骤Step2中,传统的文本查重方法可采用Simhash算法或Shingling算法。
进一步地,所述步骤Step0中预设文本{P1,P2,…,Pq}的数量q及每个预设文本的段落数m、步骤Step3中待检测文本X的段落数n需满足公式(5)的要求。
q,m,n∈N+ (5)
进一步地,所述步骤Step4、Step5中,简言之,先求出待检测文本X每一段落Xz,z∈[1,n]的段落相似度Sim(Xz,P),z∈[1,n],再将所有段落的段落相似度Sim(Xz,P),z∈[1,n]进行平均值的计算,即得到待检测文本X基于J-W距离的文本相似度Sim2
进一步地,所述步骤Step6中,相似度对应权值α、β需满足公式(6)的要求,但可根据实际情况进行调整。
α≥β (6)
进一步地,所述步骤Step2、Step4、Step5、Step6中所计算的文本相似度Sim1、Sim(Xz,P),z∈[1,n]、Sim2、Sim应是一个介于[0,1]之间的数值,或以百分比的形式存在,且值越接近1或100%则说明待检测文本X和现有预设文本的相似度越高。
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术对某些特殊文本,特别是对正常语句进行词素位置颠倒的句子而言,支持性差、准确性不足等现象,致力于增加目前依靠计算机进行文本查重的准确性。
附图说明
图1是本发明总流程示意图。
图2是本发明建立数据库流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于人体视觉的文本查重方法,具体包括以下步骤:
Step0:建立预设文本数据库。对各预设文本{P1,P2,…,Pq}以段落划分为集合形式,即将预设文本Pi,i∈[1,q]拆分为Pi:{Pi1,Pi2,…,Pim},然后将预设文本Pi,i∈[1,q]的每一段落Pij,j∈[1,m]中所有标点符号、英文字母和数字去除,只保留中文汉字并存入数据库,组建预设文本数据库;具体的:
假设预设文本数据库中现有文本段落P11:“研究表明汉字的顺序并不一定能影响阅读比如当你看完这句话后才发现这里的字全都是乱的”。
Step1:获取待检测文本X。具体的:
假设待检测文本X为“研表究明,汉字的序顺并不定一能影阅响读,比如当你看完这句话后,才发这现里的字全是都乱的。”。
Step2:对待检测文本X进行传统的文本查重,得到待检测文本X基于传统算法的文本相似度Sim1;具体的:
使用Simhash算法对待检测文本X进行文本相似度的计算,得其基于传统算法的文本相似度Sim1=0.6875。
Step3:对待检测文本X以段落划分为集合形式,即将待检测文本X拆分为X:{X1,X2,…,Xn},然后将待检测文本X的每一段落Xz,z∈[1,n]中所有标点符号、英文字母和数字去除,只保留中文汉字,并覆盖原数据;具体的:
待检测文本X只有一个段落X1,内容为“研表究明汉字的序顺并不定一能影阅响读比如当你看完这句话后才发这现里的字全是都乱的”。
Step4:对待检测文本X的每一段落Xz,z∈[1,n],遍历预设文本数据库中的数据Pij,i∈[1,q],j∈[1,m],由Jaro-Winkler Distance算法求得待检测文本段落Xz与数据库中的数据Pij之间的文本相似度Sim(Xz,Pij),根据公式(1),取Sim(Xz,Pij)的最大值作为待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n]。
Sim(Xz,P)=Max(Sim(Xz,P11),Sim(Xz,P12),…,Sim(Xz,Pqm)) (1)
具体的:
因为待检测文本X只有一个段落X1,所以只需计算X1与预设文本数据库中的数据P11之间的相似度,即Sim(X1,P)=0.9707。
Step5:遍历待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n],根据公式(2)合并相似度,得到待检测文本X基于J-W距离的文本相似度Sim2
具体的:
因为待检测文本X只有一个段落X1,所以待检测文本X基于J-W距离的文本相似度Sim2=Sim(X1,P)=0.9707。
Step6:设Step2、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由相似度Sim1及权值α、相似度Sim2及权值β,由相似度融合算法,即公式(3)计算出待检测文本X基于人体视觉的文本相似度Sim。
Sim=Sim1·α+Sim2·β (3)
具体的:
取权值α=0.5、β=0.5,经融合后最终相似度为:
Sim=Sim1·α+Sim2·β
=0.6875×0.5+0.9707×0.5
=0.8291
由以上结果可以表明,最终计算所得相似度为0.8291,相对于使用传统的Simhash算法计算所得0.6875来讲,有较大幅度的提升,特别是针对对正常语句进行词素位置颠倒的句子而言。
若传统算法采用余弦定理进行计算,则Sim1=0.6066、Sim2=0.9707,融合后相似度Sim1=0.7887,同样有较大幅度的提升。
另外,关于文本相似度Sim1、Sim2对应权值的取值α、β,应以实际情况进行多次检测、适当调整后合理取值。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.一种基于人体视觉的文本查重方法,其特征在于,具体包括以下步骤:
Step0:建立预设文本数据库,对各预设文本{P1,P2,…,Pq}以段落划分为集合形式,即将预设文本Pi,i∈[1,q]拆分为Pi:{Pi1,Pi2,…,Pim},然后将预设文本Pi,i∈[1,q]的每一段落Pij,j∈[1,m]中所有标点符号、英文字母和数字去除,只保留中文汉字并存入数据库,组建预设文本数据库;
Step1:获取待检测文本X;
Step2:对待检测文本X进行传统的文本查重,得到待检测文本X基于传统算法的文本相似度Sim1
Step3:对待检测文本X以段落划分为集合形式,即将待检测文本X拆分为X:{X1,X2,…,Xn},然后将待检测文本X的每一段落Xz,z∈[1,n]中所有标点符号、英文字母和数字去除,只保留中文汉字,并覆盖原数据;
Step4:对待检测文本X的每一段落Xz,z∈[1,n],遍历预设文本数据库中的数据Pij,i∈[1,q],j∈[1,m],由Jaro-Winkler Distance算法求得待检测文本段落Xz与数据库中的数据Pij之间的文本相似度Sim(Xz,Pij),根据公式(1),取Sim(Xz,Pij)的最大值作为待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n];
Sim(Xz,P)=Max(Sim(Xz,P11),Sim(Xz,P12),…,Sim(Xz,Pqm)) (1)
Step5:遍历待检测文本段落Xz,z∈[1,n]的文本段落相似度Sim(Xz,P),z∈[1,n],根据公式(2)合并相似度,得到待检测文本X基于J-W距离的文本相似度Sim2
Step6:设Step2、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由相似度Sim1及权值α、相似度Sim2及权值β,由相似度融合算法,即公式:Sim=Sim1·α+Sim2·β计算出待检测文本X基于人体视觉的文本相似度Sim。
2.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step1中,待检测文本X为中文文本。
3.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step2中,传统的文本查重方法可采用Simhash算法或Shingling算法。
4.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step0中预设文本{P1,P2,…,Pq}的数量q及每个预设文本的段落数m、步骤Step3中待检测文本X的段落数n需满足q,m,n∈N+的要求。
5.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step4、Step5中,先求出待检测文本X每一段落Xz,z∈[1,n]的段落相似度Sim(Xz,P),z∈[1,n],再将所有段落的段落相似度Sim(Xz,P),z∈[1,n]进行平均值的计算,即得到待检测文本X基于J-W距离的文本相似度Sim2
6.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step6中,相似度对应权值α、β需满足α≥β。
7.根据权利要求1所述的基于人体视觉的文本查重方法,其特征在于:所述步骤Step2、Step4、Step5、Step6中所计算的文本相似度Sim1、Sim(Xz,P),z∈[1,n]、Sim2和Sim介于[0,1]之间。
CN201711257214.7A 2017-12-04 2017-12-04 一种基于人体视觉的文本查重方法 Active CN108170716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711257214.7A CN108170716B (zh) 2017-12-04 2017-12-04 一种基于人体视觉的文本查重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711257214.7A CN108170716B (zh) 2017-12-04 2017-12-04 一种基于人体视觉的文本查重方法

Publications (2)

Publication Number Publication Date
CN108170716A true CN108170716A (zh) 2018-06-15
CN108170716B CN108170716B (zh) 2021-12-17

Family

ID=62524267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711257214.7A Active CN108170716B (zh) 2017-12-04 2017-12-04 一种基于人体视觉的文本查重方法

Country Status (1)

Country Link
CN (1) CN108170716B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532352A (zh) * 2019-08-20 2019-12-03 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN111831869A (zh) * 2020-06-30 2020-10-27 深圳价值在线信息科技股份有限公司 一种字符串的查重方法、装置、终端设备及存储介质
CN109359183B (zh) * 2018-10-11 2021-04-23 南京中孚信息技术有限公司 文本信息的查重方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101177A1 (en) * 2001-11-29 2003-05-29 Tadataka Matsubayashi Similar document retrieving method and system
US20140222928A1 (en) * 2013-02-06 2014-08-07 Msc Intellectual Properties B.V. System and method for authorship disambiguation and alias resolution in electronic data
CN105302793A (zh) * 2015-10-21 2016-02-03 南方电网科学研究院有限责任公司 一种利用计算机自动评价科技文献新颖性的方法
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106845265A (zh) * 2016-12-01 2017-06-13 北京计算机技术及应用研究所 一种文档密级自动识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101177A1 (en) * 2001-11-29 2003-05-29 Tadataka Matsubayashi Similar document retrieving method and system
US20140222928A1 (en) * 2013-02-06 2014-08-07 Msc Intellectual Properties B.V. System and method for authorship disambiguation and alias resolution in electronic data
CN105302793A (zh) * 2015-10-21 2016-02-03 南方电网科学研究院有限责任公司 一种利用计算机自动评价科技文献新颖性的方法
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106845265A (zh) * 2016-12-01 2017-06-13 北京计算机技术及应用研究所 一种文档密级自动识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MOHAMED SALAH KETTOUCH: "An interlinking approach based on domain recognition for Linked Data", 《 2015 IEEE 13TH INTERNATIONAL CONFERENCE ON INDUSTRIAL INFORMATICS (INDIN)》 *
王海涛: "基于大规模文本数据集的相似检测关键技术研究", 《中国博士学位论文全文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359183B (zh) * 2018-10-11 2021-04-23 南京中孚信息技术有限公司 文本信息的查重方法、装置及电子设备
CN110532352A (zh) * 2019-08-20 2019-12-03 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN110532352B (zh) * 2019-08-20 2023-10-27 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN111831869A (zh) * 2020-06-30 2020-10-27 深圳价值在线信息科技股份有限公司 一种字符串的查重方法、装置、终端设备及存储介质
CN111831869B (zh) * 2020-06-30 2023-11-03 深圳价值在线信息科技股份有限公司 一种字符串的查重方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN108170716B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN109783655B (zh) 一种跨模态检索方法、装置、计算机设备和存储介质
AU2017204297B2 (en) Visual similarity based font replacement for desktop and web applications
US10521464B2 (en) Method and system for extracting, verifying and cataloging technical information from unstructured documents
CN104142915B (zh) 一种添加标点的方法和系统
CN107562824B (zh) 一种文本相似度检测方法
CN104750687B (zh) 改进双语语料库的方法及装置、机器翻译方法及装置
KR102361118B1 (ko) 딥러닝 기반 지능형 엔지니어링 도면 생성방법 및 장치
CN107526798B (zh) 一种基于神经网络的实体识别和规范化联合方法及模型
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
CN105068997B (zh) 平行语料的构建方法及装置
JP6428795B2 (ja) モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体
CN106649749B (zh) 一种基于汉语音位特征的文本查重方法
CN103927532B (zh) 基于笔画特征的笔迹配准方法
CN108170716A (zh) 一种基于人体视觉的文本查重方法
CN108170650B (zh) 文本比较方法以及文本比较装置
WO2018076495A1 (zh) 检索人脸图像的方法和系统
CN110750977B (zh) 一种文本相似度计算方法及系统
CN104199842A (zh) 一种基于局部特征邻域信息的相似图片检索方法
CN105740448B (zh) 面向话题的多微博时序文摘方法
CN104008119B (zh) 一种一对多的混合字符串融合比对方法
CN109165382A (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN108920633A (zh) 一种论文相似度的检测方法
CN108038495A (zh) 一种残缺汉字识别方法
CN111340022A (zh) 身份证信息识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant