CN111859901A

CN111859901A - 一种英文重复文本检测方法、系统、终端及存储介质

Info

Publication number: CN111859901A
Application number: CN202010681512.4A
Authority: CN
Inventors: 刘斌; 刘姝君
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-10-30

Abstract

本发明公开了一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质，其中方法包括以下步骤：S1:选取待对比的两段英文文本，将文本按字符顺序转化为两组ASCII码值；S2:对每个字符利用周围字符的ASCII码值表示其特征；S3:利用自编码器对每个字符点的特征进行降维；S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性，根据相似度判定文本是否重复；其中本方法用于检测两段文本是否重复，以字符为单位进行相似度对比，提高了检测准确率，同时对文本进行去重处理，对预防抄袭等相关工作具有重要意义。

Description

一种英文重复文本检测方法、系统、终端及存储介质

技术领域

本发明涉及文本相似度技术领域，尤其涉及一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质。

背景技术

随着网络技术的飞速发展,信息共享度不断升级,一方面为人们获取资料提供了方便,另一方面也为抄袭、剽窃、非法扩散等不道德行为提供了可乘之机。文本重复检测技术逐渐成为自然语言处理领域中一项重要的研究课题。它对遏制抄袭现象，保护数字产品具有重要意义。现有的英文重复文本检测技术主要分为以下两种：1、采用基于字符串匹配方法检测重复主要从文档中提取字符串，并将其作为文档检测的基本单位，然后将提取出来的字符串映射到散列表中，每个字符串都与一个数字相对应，最后统计两篇文档中相同的字符串占文本篇章的比率，通过相似度计算公式来计算出两篇文档之间的相似度，进而判别两篇文档间是否存在文本重复现象。这类算法没有很好地解决文本数据中存在的细微差异时的影响，这样对于搜索的精度产生很大的影响。2、如果采用基于词频统计的方法检测重复，根据各个词在文档中出现的次数，采用点积法、余弦法等计算两个文档向量之间的相似度，从而判断两篇文档间是否存在拷贝现象。优点是简单快速，结果比较符合实际情况。缺点是单纯以“词频”做衡量标准，不够全面，词性和词的出现位置等因素没有考虑到，而且有时重要的词可能出现的次数并不多，也无法体现词的位置信息。

发明内容

根据现有技术存在的问题，本发明公开了一种基于自编码器的英文重复文本检测方法，具体包括以下步骤：

S1:选取待对比的两段英文文本，将文本按字符顺序转化为两组ASCII码值；

S2:对每个字符利用周围字符的ASCII码值表示其特征；

S3:利用自编码器对每个字符点的特征进行降维；

S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性，根据相似度判定文本是否重复。

进一步的，所述选取待对比的两段英文文本，将文本按字符顺序转化为两组ASCII码值具体采用如下方式：将两段待对比的英文文本依照顺序，将所有字符，包括字母、标点、空格都逐个转化为其对应的ASCII码值，并分别储存在两个向量中。

进一步的，所述的对每个字符利用周围字符的ASCII码值表示其特征具体采用如下方式：按照输入顺序，将每个字符都看作一个特征点，每个点的特征存储在一个(N×2-1)×N矩阵中。从矩阵的第一行至最后一行，依次以N-1，N-2，……，1为半径，选取其前后半径大小范围内字母的ASCII码值，按照位置顺序从矩阵的第N列以此向第一列和最后一列存放，其余位置以0补齐，其中N为当前字符的局部特征控制参数。

进一步的，所述的利用自编码器对每个字符点的特征进行降维具体采用如下方式：利用自编码器对每个特征点大小为(N×2-1)×N的特征进行降维，得到

大小的特征；其中N和K代表大于1正整数、并且N大于K。

进一步的，所述的对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性，根据相似度判定文本是否重复具体采用如下方式：将每段文本中所有特征点的集合作为文本的特征，按照Jaccard相似度系数公式计算其相似度，公式如下：

其中，A和B分别代表两段文本的特征集合。

然后设定一个合理的相似度阈值，将计算出的相似度与相似度阈值进行比较，大于设定阈值的文本判定为重复，小于设定阈值的文本判定为不重复。

一种英文重复文本检测系统，包括：

采集单元，用于获取待对比的至少两段英文文本信息、并将文本按字符顺序转化为两组ASCII码值；

提取单元，用于对每个字符利用周围字符的ASCII码值进行其特征表示；

编码单元，用于对每个字符点的特征进行降维处理；

分析单元，用于对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性、根据相似度判定文本是否重复。

一种终端，包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序；

所述计算机程序由处理器执行如上所述的英文重复文本检测方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序；所述计算机程序用于执行如上所述的英文重复文本检测方法。

由于采用了上述技术方案，本发明提供的一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质，其中本方法用于检测两段文本是否重复，以字符为单位进行相似度对比，提高了检测准确率，同时对文本进行去重处理，对预防抄袭等相关工作具有重要意义。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图；

图2为本发明中文本转化与ASCII码转换示意图；

图3为本发明中字符特征表征示意图；

图4为本发明中特征降维示意图；

图5为本发明中相似度计算示意图；

图6为本发明系统的结构示意图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种基于自编码器的英文重复文本检测方法，具体包括以下步骤：

S1:选取待对比的两段英文文本，将文本按字符顺序转化为两组ASCII码值，如图2所示，将两段待对比的英文文本依照顺序，将所有字符，包括字母、标点、空格都逐个转化为其对应的ASCII码值，并分别储存在两个向量中。

S2:对每个字符利用周围字符的ASCII码值表示其特征，如图3所示(N以14为例)，按照输入顺序，将每个字符都看作一个特征点，每个点的特征存储在一个(N×2-1)×N矩阵中。从矩阵的第一行至最后一行，依次以N-1，N-2，……，1为半径，选取其前后半径大小范围内字母的ASCII码值，按照位置顺序从矩阵的第N列以此向第一列和最后一列存放，其余位置以0补齐，其中N为当前字符的局部特征控制参数。

S3:利用自编码器对每个字符点的特征进行降维，如图4所示，利用自编码器对每个特征点大小为(N×2-1)×N的特征进行降维，得到

大小的特征，其中N和K代表大于1的正整数、并且N大于K。

S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性，根据相似度判定文本是否重复，如图5所示，将每段文本中所有特征点的集合作为文本的特征，按照Jaccard相似度系数公式计算其相似度，公式如下：

其中，A和B分别代表两段文本的特征集合。

然后设定一个合理阈值，将计算出的相似度与之作比较，大于设定阈值的文本判定为重复，小于设定阈值的文本判定为不重复。

对于本发明提供的基于自编码器的英文重复文本检测方法，本发明还提供了一种英文重复文本检测系统，如图6所示，该系统包括采集单元、提取单元、编码单元和分析单元，其中，

采集单元，最为系统输入端、用于获取待对比的至少两段英文文本信息、并将文本按字符顺序转化为两组ASCII码值；

编码单元，用于对每个字符点的特征进行降维处理；

进一步的，提取单元对每个字符利用周围字符的ASCII码值表示其特征具体采用如下方式：按照输入顺序，将每个字符都看作一个特征点，将每个点的特征存储在一个(N×2-1)×N矩阵中，从矩阵的第一行至最后一行依次以N-1，N-2，……，1为半径、选取其前后半径大小范围内字母的ASCII码值，按照位置顺序从矩阵的第N列依次向第一列和最后一列存放，其余位置以0补齐。

本发明的实施例还公开了一种终端，包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序；

所述计算机程序由处理器执行如以上所述的英文重复文本检测方法。

本发明的实施例还公开了一种计算机存储介质，所述计算机可读存储介质中存储有计算机程序；所述计算机程序用于执行如上所述的英文重复文本检测方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于自编码器的英文重复文本检测方法，其特征在于包括以下步骤：

选取待对比的至少两段英文文本，将文本按字符顺序转化为两组ASCII码值；

对每个字符利用周围字符的ASCII码值表示其特征；

利用自编码器对每个字符点的特征进行降维处理；

对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性，根据相似度判定文本是否重复。

2.根据权利要求1所述的一种基于自编码器的英文重复文本检测方法，其特征还在于：将文本按字符顺序转化为两组ASCII码值具体采用如下方式：

对于每一段英文文本将所有字符、包括字母、标点、空格都逐个转化为其对应的ASCII码值并分别储存在两个向量中。

3.根据权利要求1所述的一种基于自编码器的英文重复文本检测方法，其特征还在于：对每个字符利用周围字符的ASCII码值表示其特征具体采用如下方式：

按照输入顺序，将每个字符都看作一个特征点，将每个点的特征存储在一个(N×2-1)×N矩阵中，从矩阵的第一行至最后一行依次以N-1，N-2，……，1为半径、选取其前后半径大小范围内字母的ASCII码值，按照位置顺序从矩阵的第N列依次向第一列和最后一列存放，其余位置以0补齐，其中N为当前字符的局部特征控制参数。

4.根据权利要求3所述的一种基于自编码器的文本相似度方法，其特征还在于：利用自编码器对每个特征点大小为(N×2-1)×N的特征进行降维得到

大小的特征，其中N和K为大于1的正整数、并且N大于K。

5.根据权利要求1所述的一种基于自编码器的文本相似度方法，其特征还在于：根据相似度判定文本是否重复时：将每段文本中所有特征点的集合作为文本的特征，按照Jaccard相似度系数公式计算两段文本间的相似度，公式如下：

其中，A和B分别代表两段文本的特征集合；

设定相似度阈值，将计算出的相似度与相似度阈值进行比较，将大于设定阈值的文本判定为重复、小于设定阈值的文本判定为不重复。

6.一种英文重复文本检测系统，其特征在于包括：

编码单元，用于对每个字符点的特征进行降维处理；

7.一种终端，其特征在于：包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序；

所述计算机程序由处理器执行如权利要求1-5任一项所述的英文重复文本检测方法。

8.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有计算机程序；所述计算机程序用于执行如权利要求1-5任一项所述的英文重复文本检测方法。