CN111859901A - 一种英文重复文本检测方法、系统、终端及存储介质 - Google Patents
一种英文重复文本检测方法、系统、终端及存储介质 Download PDFInfo
- Publication number
- CN111859901A CN111859901A CN202010681512.4A CN202010681512A CN111859901A CN 111859901 A CN111859901 A CN 111859901A CN 202010681512 A CN202010681512 A CN 202010681512A CN 111859901 A CN111859901 A CN 111859901A
- Authority
- CN
- China
- Prior art keywords
- texts
- similarity
- character
- text
- repeated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 239000000758 substrate Substances 0.000 claims 1
- 230000002265 prevention Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质,其中方法包括以下步骤:S1:选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值;S2:对每个字符利用周围字符的ASCII码值表示其特征;S3:利用自编码器对每个字符点的特征进行降维;S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复;其中本方法用于检测两段文本是否重复,以字符为单位进行相似度对比,提高了检测准确率,同时对文本进行去重处理,对预防抄袭等相关工作具有重要意义。
Description
技术领域
本发明涉及文本相似度技术领域,尤其涉及一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质。
背景技术
随着网络技术的飞速发展,信息共享度不断升级,一方面为人们获取资料提供了方便,另一方面也为抄袭、剽窃、非法扩散等不道德行为提供了可乘之机。文本重复检测技术逐渐成为自然语言处理领域中一项重要的研究课题。它对遏制抄袭现象,保护数字产品具有重要意义。现有的英文重复文本检测技术主要分为以下两种:1、采用基于字符串匹配方法检测重复主要从文档中提取字符串,并将其作为文档检测的基本单位,然后将提取出来的字符串映射到散列表中,每个字符串都与一个数字相对应,最后统计两篇文档中相同的字符串占文本篇章的比率,通过相似度计算公式来计算出两篇文档之间的相似度,进而判别两篇文档间是否存在文本重复现象。这类算法没有很好地解决文本数据中存在的细微差异时的影响,这样对于搜索的精度产生很大的影响。2、如果采用基于词频统计的方法检测重复,根据各个词在文档中出现的次数,采用点积法、余弦法等计算两个文档向量之间的相似度,从而判断两篇文档间是否存在拷贝现象。优点是简单快速,结果比较符合实际情况。缺点是单纯以“词频”做衡量标准,不够全面,词性和词的出现位置等因素没有考虑到,而且有时重要的词可能出现的次数并不多,也无法体现词的位置信息。
发明内容
根据现有技术存在的问题,本发明公开了一种基于自编码器的英文重复文本检测方法,具体包括以下步骤:
S1:选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值;
S2:对每个字符利用周围字符的ASCII码值表示其特征;
S3:利用自编码器对每个字符点的特征进行降维;
S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复。
进一步的,所述选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值具体采用如下方式:将两段待对比的英文文本依照顺序,将所有字符,包括字母、标点、空格都逐个转化为其对应的ASCII码值,并分别储存在两个向量中。
进一步的,所述的对每个字符利用周围字符的ASCII码值表示其特征具体采用如下方式:按照输入顺序,将每个字符都看作一个特征点,每个点的特征存储在一个(N×2-1)×N矩阵中。从矩阵的第一行至最后一行,依次以N-1,N-2,……,1为半径,选取其前后半径大小范围内字母的ASCII码值,按照位置顺序从矩阵的第N列以此向第一列和最后一列存放,其余位置以0补齐,其中N为当前字符的局部特征控制参数。
进一步的,所述的对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复具体采用如下方式:将每段文本中所有特征点的集合作为文本的特征,按照Jaccard相似度系数公式计算其相似度,公式如下:
其中,A和B分别代表两段文本的特征集合。
然后设定一个合理的相似度阈值,将计算出的相似度与相似度阈值进行比较,大于设定阈值的文本判定为重复,小于设定阈值的文本判定为不重复。
一种英文重复文本检测系统,包括:
采集单元,用于获取待对比的至少两段英文文本信息、并将文本按字符顺序转化为两组ASCII码值;
提取单元,用于对每个字符利用周围字符的ASCII码值进行其特征表示;
编码单元,用于对每个字符点的特征进行降维处理;
分析单元,用于对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性、根据相似度判定文本是否重复。
一种终端,包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器中存储的计算机程序;
所述计算机程序由处理器执行如上所述的英文重复文本检测方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序;所述计算机程序用于执行如上所述的英文重复文本检测方法。
由于采用了上述技术方案,本发明提供的一种基于自编码器的英文重复文本检测方法、系统、终端及存储介质,其中本方法用于检测两段文本是否重复,以字符为单位进行相似度对比,提高了检测准确率,同时对文本进行去重处理,对预防抄袭等相关工作具有重要意义。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图;
图2为本发明中文本转化与ASCII码转换示意图;
图3为本发明中字符特征表征示意图;
图4为本发明中特征降维示意图;
图5为本发明中相似度计算示意图;
图6为本发明系统的结构示意图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的一种基于自编码器的英文重复文本检测方法,具体包括以下步骤:
S1:选取待对比的两段英文文本,将文本按字符顺序转化为两组ASCII码值,如图2所示,将两段待对比的英文文本依照顺序,将所有字符,包括字母、标点、空格都逐个转化为其对应的ASCII码值,并分别储存在两个向量中。
S2:对每个字符利用周围字符的ASCII码值表示其特征,如图3所示(N以14为例),按照输入顺序,将每个字符都看作一个特征点,每个点的特征存储在一个(N×2-1)×N矩阵中。从矩阵的第一行至最后一行,依次以N-1,N-2,……,1为半径,选取其前后半径大小范围内字母的ASCII码值,按照位置顺序从矩阵的第N列以此向第一列和最后一列存放,其余位置以0补齐,其中N为当前字符的局部特征控制参数。
S4:对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复,如图5所示,将每段文本中所有特征点的集合作为文本的特征,按照Jaccard相似度系数公式计算其相似度,公式如下:
其中,A和B分别代表两段文本的特征集合。
然后设定一个合理阈值,将计算出的相似度与之作比较,大于设定阈值的文本判定为重复,小于设定阈值的文本判定为不重复。
对于本发明提供的基于自编码器的英文重复文本检测方法,本发明还提供了一种英文重复文本检测系统,如图6所示,该系统包括采集单元、提取单元、编码单元和分析单元,其中,
采集单元,最为系统输入端、用于获取待对比的至少两段英文文本信息、并将文本按字符顺序转化为两组ASCII码值;
提取单元,用于对每个字符利用周围字符的ASCII码值进行其特征表示;
编码单元,用于对每个字符点的特征进行降维处理;
分析单元,用于对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性、根据相似度判定文本是否重复。
进一步的,提取单元对每个字符利用周围字符的ASCII码值表示其特征具体采用如下方式:按照输入顺序,将每个字符都看作一个特征点,将每个点的特征存储在一个(N×2-1)×N矩阵中,从矩阵的第一行至最后一行依次以N-1,N-2,……,1为半径、选取其前后半径大小范围内字母的ASCII码值,按照位置顺序从矩阵的第N列依次向第一列和最后一列存放,其余位置以0补齐。
本发明的实施例还公开了一种终端,包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器中存储的计算机程序;
所述计算机程序由处理器执行如以上所述的英文重复文本检测方法。
本发明的实施例还公开了一种计算机存储介质,所述计算机可读存储介质中存储有计算机程序;所述计算机程序用于执行如上所述的英文重复文本检测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于自编码器的英文重复文本检测方法,其特征在于包括以下步骤:
选取待对比的至少两段英文文本,将文本按字符顺序转化为两组ASCII码值;
对每个字符利用周围字符的ASCII码值表示其特征;
利用自编码器对每个字符点的特征进行降维处理;
对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性,根据相似度判定文本是否重复。
2.根据权利要求1所述的一种基于自编码器的英文重复文本检测方法,其特征还在于:将文本按字符顺序转化为两组ASCII码值具体采用如下方式:
对于每一段英文文本将所有字符、包括字母、标点、空格都逐个转化为其对应的ASCII码值并分别储存在两个向量中。
3.根据权利要求1所述的一种基于自编码器的英文重复文本检测方法,其特征还在于:对每个字符利用周围字符的ASCII码值表示其特征具体采用如下方式:
按照输入顺序,将每个字符都看作一个特征点,将每个点的特征存储在一个(N×2-1)×N矩阵中,从矩阵的第一行至最后一行依次以N-1,N-2,……,1为半径、选取其前后半径大小范围内字母的ASCII码值,按照位置顺序从矩阵的第N列依次向第一列和最后一列存放,其余位置以0补齐,其中N为当前字符的局部特征控制参数。
6.一种英文重复文本检测系统,其特征在于包括:
采集单元,用于获取待对比的至少两段英文文本信息、并将文本按字符顺序转化为两组ASCII码值;
提取单元,用于对每个字符利用周围字符的ASCII码值进行其特征表示;
编码单元,用于对每个字符点的特征进行降维处理;
分析单元,用于对降维后的特征利用Jaccard相似度系数计算两段文本间的相似性、根据相似度判定文本是否重复。
7.一种终端,其特征在于:包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器中存储的计算机程序;
所述计算机程序由处理器执行如权利要求1-5任一项所述的英文重复文本检测方法。
8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序;所述计算机程序用于执行如权利要求1-5任一项所述的英文重复文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010681512.4A CN111859901A (zh) | 2020-07-15 | 2020-07-15 | 一种英文重复文本检测方法、系统、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010681512.4A CN111859901A (zh) | 2020-07-15 | 2020-07-15 | 一种英文重复文本检测方法、系统、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111859901A true CN111859901A (zh) | 2020-10-30 |
Family
ID=72983057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010681512.4A Pending CN111859901A (zh) | 2020-07-15 | 2020-07-15 | 一种英文重复文本检测方法、系统、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859901A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484830A (zh) * | 2023-06-26 | 2023-07-25 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于大数据的互联网广告智能监测系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7676034B1 (en) * | 2003-03-07 | 2010-03-09 | Wai Wu | Method and system for matching entities in an auction |
CN103207905A (zh) * | 2013-03-28 | 2013-07-17 | 大连理工大学 | 一种基于目标文本的计算文本相似度的方法 |
CN104063502A (zh) * | 2014-07-08 | 2014-09-24 | 中南大学 | 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法 |
CN107357895A (zh) * | 2017-01-05 | 2017-11-17 | 大连理工大学 | 一种基于词袋模型的文本表示的处理方法 |
WO2019223103A1 (zh) * | 2018-05-22 | 2019-11-28 | 平安科技(深圳)有限公司 | 文本相似度的获取方法、装置、终端设备及介质 |
CN110705248A (zh) * | 2019-10-09 | 2020-01-17 | 厦门今立方科技有限公司 | 一种文本相似度计算方法、终端设备及存储介质 |
-
2020
- 2020-07-15 CN CN202010681512.4A patent/CN111859901A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7676034B1 (en) * | 2003-03-07 | 2010-03-09 | Wai Wu | Method and system for matching entities in an auction |
CN103207905A (zh) * | 2013-03-28 | 2013-07-17 | 大连理工大学 | 一种基于目标文本的计算文本相似度的方法 |
CN104063502A (zh) * | 2014-07-08 | 2014-09-24 | 中南大学 | 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法 |
CN107357895A (zh) * | 2017-01-05 | 2017-11-17 | 大连理工大学 | 一种基于词袋模型的文本表示的处理方法 |
WO2019223103A1 (zh) * | 2018-05-22 | 2019-11-28 | 平安科技(深圳)有限公司 | 文本相似度的获取方法、装置、终端设备及介质 |
CN110705248A (zh) * | 2019-10-09 | 2020-01-17 | 厦门今立方科技有限公司 | 一种文本相似度计算方法、终端设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
李冬艳;方若晨;许凯;唐菱;吴国玺;: "基于相似度匹配的反抄袭算法的研究", 华北科技学院学报, no. 05, 15 October 2016 (2016-10-15) * |
王晓笛;王效岳;白如江;: "学术文献抄袭检测研究进展", 图书情报工作, no. 08, 20 April 2013 (2013-04-20) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484830A (zh) * | 2023-06-26 | 2023-07-25 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于大数据的互联网广告智能监测系统 |
CN116484830B (zh) * | 2023-06-26 | 2023-12-26 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于大数据的互联网广告智能监测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108629046B (zh) | 一种字段匹配方法及终端设备 | |
CN110765458B (zh) | 一种基于深度学习的恶意软件图像格式检测方法及其装置 | |
WO2020224219A1 (zh) | 中文分词方法、装置、电子设备及可读存储介质 | |
KR101656418B1 (ko) | 쓰기 체계 및 언어 검출 | |
CN110532381B (zh) | 一种文本向量获取方法、装置、计算机设备及存储介质 | |
CN105912514B (zh) | 基于指纹特征的文本复制检测系统及方法 | |
CN110741376B (zh) | 用于不同自然语言的自动文档分析 | |
CN107357824B (zh) | 信息处理方法、服务平台及计算机存储介质 | |
Lepage | Analogies between binary images: Application to chinese characters | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
JP7493937B2 (ja) | 文書における見出しのシーケンスの識別方法、プログラム及びシステム | |
CN114861635B (zh) | 一种中文拼写纠错方法、装置、设备及存储介质 | |
CN110457707B (zh) | 实词关键词的提取方法、装置、电子设备及可读存储介质 | |
CN115186647A (zh) | 文本相似度的检测方法、装置、电子设备及存储介质 | |
CN112182337B (zh) | 从海量短新闻中识别相似新闻的方法及相关设备 | |
CN111859901A (zh) | 一种英文重复文本检测方法、系统、终端及存储介质 | |
CN113688629A (zh) | 文本去重的方法、装置以及存储介质 | |
CN112134858A (zh) | 敏感信息检测方法、装置、设备及存储介质 | |
CN112182448A (zh) | 页面信息处理方法、装置及设备 | |
CN111428180B (zh) | 一种网页去重方法、装置和设备 | |
CN115130455A (zh) | 文章处理方法、装置、电子设备以及存储介质 | |
CN107967314A (zh) | 文本特征值的提取方法、装置及电子设备 | |
CN113239245A (zh) | 用于信息查询的方法及装置、电子设备、可读存储介质 | |
CN112257408A (zh) | 一种文本对比的方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |