CN111859901A - 一种英文重复文本检测方法、系统、终端及存储介质 - Google Patents

一种英文重复文本检测方法、系统、终端及存储介质 Download PDF

Info

Publication number
CN111859901A
CN111859901A CN202010681512.4A CN202010681512A CN111859901A CN 111859901 A CN111859901 A CN 111859901A CN 202010681512 A CN202010681512 A CN 202010681512A CN 111859901 A CN111859901 A CN 111859901A
Authority
CN
China
Prior art keywords
texts
similarity
character
text
repeated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010681512.4A
Other languages
English (en)
Inventor
刘斌
刘姝君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010681512.4A priority Critical patent/CN111859901A/zh
Publication of CN111859901A publication Critical patent/CN111859901A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质,其中方法包括以下步骤:S1:选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值;S2:对每个字符利用周围字符的ASCII码值表示其特征;S3:利用自编码器对每个字符点的特征进行降维;S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复;其中本方法用于检测两段文本是否重复,以字符为单位进行相似度对比,提高了检测准确率,同时对文本进行去重处理,对预防抄袭等相关工作具有重要意义。

Description

一种英文重复文本检测方法、系统、终端及存储介质
技术领域
本发明涉及文本相似度技术领域,尤其涉及一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质。
背景技术
随着网络技术的飞速发展,信息共享度不断升级,一方面为人们获取资料提供了方便,另一方面也为抄袭、剽窃、非法扩散等不道德行为提供了可乘之机。文本重复检测技术逐渐成为自然语言处理领域中一项重要的研究课题。它对遏制抄袭现象,保护数字产品具有重要意义。现有的英文重复文本检测技术主要分为以下两种:1、采用基于字符串匹配方法检测重复主要从文档中提取字符串,并将其作为文档检测的基本单位,然后将提取出来的字符串映射到散列表中,每个字符串都与一个数字相对应,最后统计两篇文档中相同的字符串占文本篇章的比率,通过相似度计算公式来计算出两篇文档之间的相似度,进而判别两篇文档间是否存在文本重复现象。这类算法没有很好地解决文本数据中存在的细微差异时的影响,这样对于搜索的精度产生很大的影响。2、如果采用基于词频统计的方法检测重复,根据各个词在文档中出现的次数,采用点积法、余弦法等计算两个文档向量之间的相似度,从而判断两篇文档间是否存在拷贝现象。优点是简单快速,结果比较符合实际情况。缺点是单纯以“词频”做衡量标准,不够全面,词性和词的出现位置等因素没有考虑到,而且有时重要的词可能出现的次数并不多,也无法体现词的位置信息。
发明内容
根据现有技术存在的问题,本发明公开了一种基于自编码器的英文重复文本检测方法,具体包括以下步骤:
S1:选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值;
S2:对每个字符利用周围字符的ASCII码值表示其特征;
S3:利用自编码器对每个字符点的特征进行降维;
S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复。
进一步的,所述选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值具体采用如下方式:将两段待对比的英文文本依照顺序,将所有字符,包括字母、标点、空格都逐个转化为其对应的ASCII码值,并分别储存在两个向量中。
进一步的,所述的对每个字符利用周围字符的ASCII码值表示其特征具体采用如下方式:按照输入顺序,将每个字符都看作一个特征点,每个点的特征存储在一个(N×2-1)×N矩阵中。从矩阵的第一行至最后一行,依次以N-1,N-2,……,1为半径,选取其前后半径大小范围内字母的ASCII码值,按照位置顺序从矩阵的第N列以此向第一列和最后一列存放,其余位置以0补齐,其中N为当前字符的局部特征控制参数。
进一步的,所述的利用自编码器对每个字符点的特征进行降维具体采用如下方式:利用自编码器对每个特征点大小为(N×2-1)×N的特征进行降维,得到
Figure BDA0002586017150000022
大小的特征;其中N和K代表大于1正整数、并且N大于K。
进一步的,所述的对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复具体采用如下方式:将每段文本中所有特征点的集合作为文本的特征,按照Jaccard相似度系数公式计算其相似度,公式如下:
Figure BDA0002586017150000021
其中,A和B分别代表两段文本的特征集合。
然后设定一个合理的相似度阈值,将计算出的相似度与相似度阈值进行比较,大于设定阈值的文本判定为重复,小于设定阈值的文本判定为不重复。
一种英文重复文本检测系统,包括:
采集单元,用于获取待对比的至少两段英文文本信息、并将文本按字符顺序转化为两组ASCII码值;
提取单元,用于对每个字符利用周围字符的ASCII码值进行其特征表示;
编码单元,用于对每个字符点的特征进行降维处理;
分析单元,用于对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性、根据相似度判定文本是否重复。
一种终端,包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器中存储的计算机程序;
所述计算机程序由处理器执行如上所述的英文重复文本检测方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序;所述计算机程序用于执行如上所述的英文重复文本检测方法。
由于采用了上述技术方案,本发明提供的一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质,其中本方法用于检测两段文本是否重复,以字符为单位进行相似度对比,提高了检测准确率,同时对文本进行去重处理,对预防抄袭等相关工作具有重要意义。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图;
图2为本发明中文本转化与ASCII码转换示意图;
图3为本发明中字符特征表征示意图;
图4为本发明中特征降维示意图;
图5为本发明中相似度计算示意图;
图6为本发明系统的结构示意图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的一种基于自编码器的英文重复文本检测方法,具体包括以下步骤:
S1:选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值,如图2所示,将两段待对比的英文文本依照顺序,将所有字符,包括字母、标点、空格都逐个转化为其对应的ASCII码值,并分别储存在两个向量中。
S2:对每个字符利用周围字符的ASCII码值表示其特征,如图3所示(N以14为例),按照输入顺序,将每个字符都看作一个特征点,每个点的特征存储在一个(N×2-1)×N矩阵中。从矩阵的第一行至最后一行,依次以N-1,N-2,……,1为半径,选取其前后半径大小范围内字母的ASCII码值,按照位置顺序从矩阵的第N列以此向第一列和最后一列存放,其余位置以0补齐,其中N为当前字符的局部特征控制参数。
S3:利用自编码器对每个字符点的特征进行降维,如图4所示,利用自编码器对每个特征点大小为(N×2-1)×N的特征进行降维,得到
Figure BDA0002586017150000042
大小的特征,其中N和K代表大于1的正整数、并且N大于K。
S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复,如图5所示,将每段文本中所有特征点的集合作为文本的特征,按照Jaccard相似度系数公式计算其相似度,公式如下:
Figure BDA0002586017150000041
其中,A和B分别代表两段文本的特征集合。
然后设定一个合理阈值,将计算出的相似度与之作比较,大于设定阈值的文本判定为重复,小于设定阈值的文本判定为不重复。
对于本发明提供的基于自编码器的英文重复文本检测方法,本发明还提供了一种英文重复文本检测系统,如图6所示,该系统包括采集单元、提取单元、编码单元和分析单元,其中,
采集单元,最为系统输入端、用于获取待对比的至少两段英文文本信息、并将文本按字符顺序转化为两组ASCII码值;
提取单元,用于对每个字符利用周围字符的ASCII码值进行其特征表示;
编码单元,用于对每个字符点的特征进行降维处理;
分析单元,用于对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性、根据相似度判定文本是否重复。
进一步的,提取单元对每个字符利用周围字符的ASCII码值表示其特征具体采用如下方式:按照输入顺序,将每个字符都看作一个特征点,将每个点的特征存储在一个(N×2-1)×N矩阵中,从矩阵的第一行至最后一行依次以N-1,N-2,……,1为半径、选取其前后半径大小范围内字母的ASCII码值,按照位置顺序从矩阵的第N列依次向第一列和最后一列存放,其余位置以0补齐。
本发明的实施例还公开了一种终端,包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器中存储的计算机程序;
所述计算机程序由处理器执行如以上所述的英文重复文本检测方法。
本发明的实施例还公开了一种计算机存储介质,所述计算机可读存储介质中存储有计算机程序;所述计算机程序用于执行如上所述的英文重复文本检测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于自编码器的英文重复文本检测方法,其特征在于包括以下步骤:
选取待对比的至少两段英文文本,将文本按字符顺序转化为两组ASCII码值;
对每个字符利用周围字符的ASCII码值表示其特征;
利用自编码器对每个字符点的特征进行降维处理;
对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复。
2.根据权利要求1所述的一种基于自编码器的英文重复文本检测方法,其特征还在于:将文本按字符顺序转化为两组ASCII码值具体采用如下方式:
对于每一段英文文本将所有字符、包括字母、标点、空格都逐个转化为其对应的ASCII码值并分别储存在两个向量中。
3.根据权利要求1所述的一种基于自编码器的英文重复文本检测方法,其特征还在于:对每个字符利用周围字符的ASCII码值表示其特征具体采用如下方式:
按照输入顺序,将每个字符都看作一个特征点,将每个点的特征存储在一个(N×2-1)×N矩阵中,从矩阵的第一行至最后一行依次以N-1,N-2,……,1为半径、选取其前后半径大小范围内字母的ASCII码值,按照位置顺序从矩阵的第N列依次向第一列和最后一列存放,其余位置以0补齐,其中N为当前字符的局部特征控制参数。
4.根据权利要求3所述的一种基于自编码器的文本相似度方法,其特征还在于:利用自编码器对每个特征点大小为(N×2-1)×N的特征进行降维得到
Figure FDA0002586017140000011
大小的特征,其中N和K为大于1的正整数、并且N大于K。
5.根据权利要求1所述的一种基于自编码器的文本相似度方法,其特征还在于:根据相似度判定文本是否重复时:将每段文本中所有特征点的集合作为文本的特征,按照Jaccard相似度系数公式计算两段文本间的相似度,公式如下:
Figure FDA0002586017140000021
其中,A和B分别代表两段文本的特征集合;
设定相似度阈值,将计算出的相似度与相似度阈值进行比较,将大于设定阈值的文本判定为重复、小于设定阈值的文本判定为不重复。
6.一种英文重复文本检测系统,其特征在于包括:
采集单元,用于获取待对比的至少两段英文文本信息、并将文本按字符顺序转化为两组ASCII码值;
提取单元,用于对每个字符利用周围字符的ASCII码值进行其特征表示;
编码单元,用于对每个字符点的特征进行降维处理;
分析单元,用于对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性、根据相似度判定文本是否重复。
7.一种终端,其特征在于:包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器中存储的计算机程序;
所述计算机程序由处理器执行如权利要求1-5任一项所述的英文重复文本检测方法。
8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序;所述计算机程序用于执行如权利要求1-5任一项所述的英文重复文本检测方法。
CN202010681512.4A 2020-07-15 2020-07-15 一种英文重复文本检测方法、系统、终端及存储介质 Pending CN111859901A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010681512.4A CN111859901A (zh) 2020-07-15 2020-07-15 一种英文重复文本检测方法、系统、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010681512.4A CN111859901A (zh) 2020-07-15 2020-07-15 一种英文重复文本检测方法、系统、终端及存储介质

Publications (1)

Publication Number Publication Date
CN111859901A true CN111859901A (zh) 2020-10-30

Family

ID=72983057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010681512.4A Pending CN111859901A (zh) 2020-07-15 2020-07-15 一种英文重复文本检测方法、系统、终端及存储介质

Country Status (1)

Country Link
CN (1) CN111859901A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484830A (zh) * 2023-06-26 2023-07-25 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676034B1 (en) * 2003-03-07 2010-03-09 Wai Wu Method and system for matching entities in an auction
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN104063502A (zh) * 2014-07-08 2014-09-24 中南大学 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN107357895A (zh) * 2017-01-05 2017-11-17 大连理工大学 一种基于词袋模型的文本表示的处理方法
WO2019223103A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 文本相似度的获取方法、装置、终端设备及介质
CN110705248A (zh) * 2019-10-09 2020-01-17 厦门今立方科技有限公司 一种文本相似度计算方法、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676034B1 (en) * 2003-03-07 2010-03-09 Wai Wu Method and system for matching entities in an auction
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN104063502A (zh) * 2014-07-08 2014-09-24 中南大学 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN107357895A (zh) * 2017-01-05 2017-11-17 大连理工大学 一种基于词袋模型的文本表示的处理方法
WO2019223103A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 文本相似度的获取方法、装置、终端设备及介质
CN110705248A (zh) * 2019-10-09 2020-01-17 厦门今立方科技有限公司 一种文本相似度计算方法、终端设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李冬艳;方若晨;许凯;唐菱;吴国玺;: "基于相似度匹配的反抄袭算法的研究", 华北科技学院学报, no. 05, 15 October 2016 (2016-10-15) *
王晓笛;王效岳;白如江;: "学术文献抄袭检测研究进展", 图书情报工作, no. 08, 20 April 2013 (2013-04-20) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484830A (zh) * 2023-06-26 2023-07-25 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统
CN116484830B (zh) * 2023-06-26 2023-12-26 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统

Similar Documents

Publication Publication Date Title
CN108629046B (zh) 一种字段匹配方法及终端设备
CN110765458B (zh) 一种基于深度学习的恶意软件图像格式检测方法及其装置
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
KR101656418B1 (ko) 쓰기 체계 및 언어 검출
CN110532381B (zh) 一种文本向量获取方法、装置、计算机设备及存储介质
CN105912514B (zh) 基于指纹特征的文本复制检测系统及方法
CN110741376B (zh) 用于不同自然语言的自动文档分析
CN107357824B (zh) 信息处理方法、服务平台及计算机存储介质
Lepage Analogies between binary images: Application to chinese characters
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN113255331B (zh) 文本纠错方法、装置及存储介质
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN110457707B (zh) 实词关键词的提取方法、装置、电子设备及可读存储介质
CN115186647A (zh) 文本相似度的检测方法、装置、电子设备及存储介质
CN112182337B (zh) 从海量短新闻中识别相似新闻的方法及相关设备
CN111859901A (zh) 一种英文重复文本检测方法、系统、终端及存储介质
CN113688629A (zh) 文本去重的方法、装置以及存储介质
CN112134858A (zh) 敏感信息检测方法、装置、设备及存储介质
CN112182448A (zh) 页面信息处理方法、装置及设备
CN111428180B (zh) 一种网页去重方法、装置和设备
CN115130455A (zh) 文章处理方法、装置、电子设备以及存储介质
CN107967314A (zh) 文本特征值的提取方法、装置及电子设备
CN113239245A (zh) 用于信息查询的方法及装置、电子设备、可读存储介质
CN112257408A (zh) 一种文本对比的方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination