CN108170716A

CN108170716A - 一种基于人体视觉的文本查重方法

Info

Publication number: CN108170716A
Application number: CN201711257214.7A
Authority: CN
Inventors: 龙华; 祁俊辉; 宋耀莲; 彭艺
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-06-15
Anticipated expiration: 2037-12-04
Also published as: CN108170716B

Abstract

本发明涉及一种基于人体视觉的文本查重方法，信息处理技术领域。本发明通过对预设文本进行预处理，建立预设文本数据库，之后获取任意待检测文本，先对待检测文本进行诸如Simhash算法或Shingling算法的传统文本查重，得到基于传统算法的文本相似度，再对待检测文本进行预处理，利用Jaro‑Winler Distance算法遍历预设文本数据库，得到基于J‑W距离的文本相似度，两个相似度分别从不同方面反映了待检测文本的文本相似程度，最后再将所计算的两个相似度通过相似度融合算法，得到基于人体视觉的文本相似度。本发明与现有技术相比，主要解决了现有技术对某些特殊文本，特别是对正常语句进行词素位置颠倒的句子而言，支持性差、准确性不足等问题。

Description

一种基于人体视觉的文本查重方法

技术领域

本发明涉及一种基于人体视觉的文本查重方法，信息处理技术领域。

背景技术

文本查重是信息处理技术中一项非常重要的常用技术，通常是根据一定的相似度模型从数据流中发现重复文本的过程，它在搜索引擎构建、抄袭检测、新闻分类等多领域有着广泛的应用。

目前，传统的文本查重一般使用Simhash算法或Shingling算法，通常是对文本进行诸如分词、求权重、构建特征向量或哈希映射等步骤，最终求得该文本的相似度。但是这种方法对某些特殊文本无法正确求得其相似度。论文《词素位置颠倒对汉语句子阅读影响的眼动研究》中指出，汉字的顺序并不一定影响阅读，这是因为普通人精读一段文本的时候，一次凝视大阅读取2～3个汉字，再加上自身已有的经验和上下文信息，很容易推出正确的信息。但是，有些人就会利用这个特征，对正常的句子进行词素位置颠倒，进而骗过传统的文本查重。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种基于人体视觉的文本查重方法，用以解决上述问题。

本发明的技术方案是：一种基于人体视觉的文本查重方法，通过建立预设文本数据库，先对待检测文本进行传统的文本查重，得到基于传统算法的文本相似度，再利用Jaro-Winler Distance算法遍历预设文本数据库，得到基于J-W距离的文本相似度，两个相似度分别从不同方面反映了待检测文本的文本相似程度，最后再将所计算的两个相似度通过相似度融合算法，得到基于人体视觉的文本相似度。

具体包括以下步骤：

Step0：建立预设文本数据库。对各预设文本{P₁,P₂,…,P_q}以段落划分为集合形式，即将预设文本P_i,i∈[1,q]拆分为P_i:{P_i1,P_i2,…,P_im}，然后将预设文本P_i,i∈[1,q]的每一段落P_ij,j∈[1,m]中所有标点符号、英文字母和数字去除，只保留中文汉字并存入数据库，组建预设文本数据库。

Step1：获取待检测文本X。

Step2：对待检测文本X进行传统的文本查重，得到待检测文本X基于传统算法的文本相似度Sim₁。

Step3：对待检测文本X以段落划分为集合形式，即将待检测文本X拆分为X:{X₁,X₂,…,X_n}，然后将待检测文本X的每一段落X_z,z∈[1,n]中所有标点符号、英文字母和数字去除，只保留中文汉字，并覆盖原数据。

Step4：对待检测文本X的每一段落X_z,z∈[1,n]，遍历预设文本数据库中的数据P_ij,i∈[1,q],j∈[1,m]，由Jaro-Winkler Distance算法求得待检测文本段落X_z与数据库中的数据P_ij之间的文本相似度Sim(X_z,P_ij)，根据公式(1)，取Sim(X_z,P_ij)的最大值作为待检测文本段落X_z,z∈[1,n]的文本段落相似度Sim(X_z,P),z∈[1,n]。

Sim(X_z,P)＝Max(Sim(X_z,P₁₁),Sim(X_z,P₁₂),…,Sim(X_z,P_qm)) (1)

Step5：遍历待检测文本段落X_z,z∈[1,n]的文本段落相似度Sim(X_z,P),z∈[1,n]，根据公式(2)合并相似度，得到待检测文本X基于J-W距离的文本相似度Sim₂。

Step6：设Step2、Step5步骤所计算出的相似度对应权值分别为α、β，权值α、β满足α+β＝1的要求，由相似度Sim₁及权值α、相似度Sim₂及权值β，由相似度融合算法，即公式(3)计算出待检测文本X基于人体视觉的文本相似度Sim。

Sim＝Sim₁·α+Sim₂·β (3)

进一步地，所述步骤Step1中，待检测文本X尽可能为中文文本。

进一步地，所述步骤Step2中，传统的文本查重方法可采用Simhash算法或Shingling算法。

进一步地，所述步骤Step0中预设文本{P₁,P₂,…,P_q}的数量q及每个预设文本的段落数m、步骤Step3中待检测文本X的段落数n需满足公式(5)的要求。

q,m,n∈N⁺ (5)

进一步地，所述步骤Step4、Step5中，简言之，先求出待检测文本X每一段落X_z,z∈[1,n]的段落相似度Sim(X_z,P),z∈[1,n]，再将所有段落的段落相似度Sim(X_z,P),z∈[1,n]进行平均值的计算，即得到待检测文本X基于J-W距离的文本相似度Sim₂。

进一步地，所述步骤Step6中，相似度对应权值α、β需满足公式(6)的要求，但可根据实际情况进行调整。

α≥β (6)

进一步地，所述步骤Step2、Step4、Step5、Step6中所计算的文本相似度Sim₁、Sim(X_z,P),z∈[1,n]、Sim₂、Sim应是一个介于[0,1]之间的数值，或以百分比的形式存在，且值越接近1或100％则说明待检测文本X和现有预设文本的相似度越高。

本发明的有益效果是：本发明与现有技术相比，主要解决了现有技术对某些特殊文本，特别是对正常语句进行词素位置颠倒的句子而言，支持性差、准确性不足等现象，致力于增加目前依靠计算机进行文本查重的准确性。

附图说明

图1是本发明总流程示意图。

图2是本发明建立数据库流程示意图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种基于人体视觉的文本查重方法，具体包括以下步骤：

Step0：建立预设文本数据库。对各预设文本{P₁,P₂,…,P_q}以段落划分为集合形式，即将预设文本P_i,i∈[1,q]拆分为P_i:{P_i1,P_i2,…,P_im}，然后将预设文本P_i,i∈[1,q]的每一段落P_ij,j∈[1,m]中所有标点符号、英文字母和数字去除，只保留中文汉字并存入数据库，组建预设文本数据库；具体的：

假设预设文本数据库中现有文本段落P₁₁：“研究表明汉字的顺序并不一定能影响阅读比如当你看完这句话后才发现这里的字全都是乱的”。

Step1：获取待检测文本X。具体的：

假设待检测文本X为“研表究明，汉字的序顺并不定一能影阅响读，比如当你看完这句话后，才发这现里的字全是都乱的。”。

Step2：对待检测文本X进行传统的文本查重，得到待检测文本X基于传统算法的文本相似度Sim₁；具体的：

使用Simhash算法对待检测文本X进行文本相似度的计算，得其基于传统算法的文本相似度Sim₁＝0.6875。

Step3：对待检测文本X以段落划分为集合形式，即将待检测文本X拆分为X:{X₁,X₂,…,X_n}，然后将待检测文本X的每一段落X_z,z∈[1,n]中所有标点符号、英文字母和数字去除，只保留中文汉字，并覆盖原数据；具体的：

待检测文本X只有一个段落X₁，内容为“研表究明汉字的序顺并不定一能影阅响读比如当你看完这句话后才发这现里的字全是都乱的”。

Sim(X_z,P)＝Max(Sim(X_z,P₁₁),Sim(X_z,P₁₂),…,Sim(X_z,P_qm)) (1)

具体的：

因为待检测文本X只有一个段落X₁，所以只需计算X₁与预设文本数据库中的数据P₁₁之间的相似度，即Sim(X₁,P)＝0.9707。

具体的：

因为待检测文本X只有一个段落X₁，所以待检测文本X基于J-W距离的文本相似度Sim₂＝Sim(X₁,P)＝0.9707。

Sim＝Sim₁·α+Sim₂·β (3)

具体的：

取权值α＝0.5、β＝0.5，经融合后最终相似度为：

Sim＝Sim₁·α+Sim₂·β

＝0.6875×0.5+0.9707×0.5

＝0.8291

由以上结果可以表明，最终计算所得相似度为0.8291，相对于使用传统的Simhash算法计算所得0.6875来讲，有较大幅度的提升，特别是针对对正常语句进行词素位置颠倒的句子而言。

若传统算法采用余弦定理进行计算，则Sim₁＝0.6066、Sim₂＝0.9707，融合后相似度Sim₁＝0.7887，同样有较大幅度的提升。

另外，关于文本相似度Sim₁、Sim₂对应权值的取值α、β，应以实际情况进行多次检测、适当调整后合理取值。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于人体视觉的文本查重方法，其特征在于，具体包括以下步骤：

Step0：建立预设文本数据库，对各预设文本{P₁,P₂,…,P_q}以段落划分为集合形式，即将预设文本P_i,i∈[1,q]拆分为P_i:{P_i1,P_i2,…,P_im}，然后将预设文本P_i,i∈[1,q]的每一段落P_ij,j∈[1,m]中所有标点符号、英文字母和数字去除，只保留中文汉字并存入数据库，组建预设文本数据库；

Step1：获取待检测文本X；

Step2：对待检测文本X进行传统的文本查重，得到待检测文本X基于传统算法的文本相似度Sim₁；

Step3：对待检测文本X以段落划分为集合形式，即将待检测文本X拆分为X:{X₁,X₂,…,X_n}，然后将待检测文本X的每一段落X_z,z∈[1,n]中所有标点符号、英文字母和数字去除，只保留中文汉字，并覆盖原数据；

Step4：对待检测文本X的每一段落X_z,z∈[1,n]，遍历预设文本数据库中的数据P_ij,i∈[1,q],j∈[1,m]，由Jaro-Winkler Distance算法求得待检测文本段落X_z与数据库中的数据P_ij之间的文本相似度Sim(X_z,P_ij)，根据公式(1)，取Sim(X_z,P_ij)的最大值作为待检测文本段落X_z,z∈[1,n]的文本段落相似度Sim(X_z,P),z∈[1,n]；

Sim(X_z,P)＝Max(Sim(X_z,P₁₁),Sim(X_z,P₁₂),…,Sim(X_z,P_qm)) (1)

Step5：遍历待检测文本段落X_z,z∈[1,n]的文本段落相似度Sim(X_z,P),z∈[1,n]，根据公式(2)合并相似度，得到待检测文本X基于J-W距离的文本相似度Sim₂；

Step6：设Step2、Step5步骤所计算出的相似度对应权值分别为α、β，权值α、β满足α+β＝1的要求，由相似度Sim₁及权值α、相似度Sim₂及权值β，由相似度融合算法，即公式：Sim＝Sim₁·α+Sim₂·β计算出待检测文本X基于人体视觉的文本相似度Sim。

2.根据权利要求1所述的基于人体视觉的文本查重方法，其特征在于：所述步骤Step1中，待检测文本X为中文文本。

3.根据权利要求1所述的基于人体视觉的文本查重方法，其特征在于：所述步骤Step2中，传统的文本查重方法可采用Simhash算法或Shingling算法。

4.根据权利要求1所述的基于人体视觉的文本查重方法，其特征在于：所述步骤Step0中预设文本{P₁,P₂,…,P_q}的数量q及每个预设文本的段落数m、步骤Step3中待检测文本X的段落数n需满足q,m,n∈N⁺的要求。

5.根据权利要求1所述的基于人体视觉的文本查重方法，其特征在于：所述步骤Step4、Step5中，先求出待检测文本X每一段落X_z,z∈[1,n]的段落相似度Sim(X_z,P),z∈[1,n]，再将所有段落的段落相似度Sim(X_z,P),z∈[1,n]进行平均值的计算，即得到待检测文本X基于J-W距离的文本相似度Sim₂。

6.根据权利要求1所述的基于人体视觉的文本查重方法，其特征在于：所述步骤Step6中，相似度对应权值α、β需满足α≥β。

7.根据权利要求1所述的基于人体视觉的文本查重方法，其特征在于：所述步骤Step2、Step4、Step5、Step6中所计算的文本相似度Sim₁、Sim(X_z,P),z∈[1,n]、Sim₂和Sim介于[0,1]之间。