CN110990539A - 稿件内部查重方法、装置、存储介质及电子设备 - Google Patents

稿件内部查重方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110990539A
CN110990539A CN201911346256.7A CN201911346256A CN110990539A CN 110990539 A CN110990539 A CN 110990539A CN 201911346256 A CN201911346256 A CN 201911346256A CN 110990539 A CN110990539 A CN 110990539A
Authority
CN
China
Prior art keywords
sentence
text
similar
detected
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911346256.7A
Other languages
English (en)
Other versions
CN110990539B (zh
Inventor
王九硕
张丹
于琳琳
贾丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201911346256.7A priority Critical patent/CN110990539B/zh
Publication of CN110990539A publication Critical patent/CN110990539A/zh
Application granted granted Critical
Publication of CN110990539B publication Critical patent/CN110990539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种稿件内部查重方法、装置、存储介质及电子设备。该方法包括:对待检测文本进行分句,以获得文本句子集合,然后,根据预设句子相似度比较规则确定文本句子集合中每个基准句子所对应的相似句子集合,再根据相似句子集合确定基准文句在待检测文本全文中的目标文句。本发明的方法,通过将待检测文本以句子为单位进行拆分,以句子为单位,有效地保证了查重的速度,并通过对比的句子间相似度的方式,以确定基准文句在待检测文本全文中的目标文句,以实现准确、快速地对待检测文本内部的查重操作。

Description

稿件内部查重方法、装置、存储介质及电子设备
技术领域
本发明涉及无线通信技术,尤其涉及一种稿件内部查重方法、装置、存储介质及电子设备。
背景技术
目前图书出版领域中的出版稿件普遍存在着严重的重稿现象,虽然关于文本查重的方法也很普遍,但是对于稿件内的查重方面仍存在不足。
现有技术中,对于文稿查重的实现方法,在不同领域通常采用不同的实现方法,例如通过比较这两个指纹签名集的海明距离来判定文本的相似度,或者通过对比待查文章与文本库中重复分句在原文中的间隔度来判断是否重复。
但是,上述查重方式只是实现文稿与外部文件的查重,并不能实现文稿内部的查重,因此,如何准确、快速地对稿件内部进行查重操作是当前亟需解决的问题。
发明内容
本发明提供一种稿件内部查重方法、装置、存储介质及电子设备,用以解决如何准确、快速地对稿件内部进行查重操作的技术问题。
第一方面,本发明提供一种稿件内部查重方法,包括:
对待检测文本进行分句,以获得文本句子集合;
根据预设句子相似度比较规则确定所述文本句子集合中每个基准句子所对应的相似句子集合;
根据所述相似句子集合确定基准文句在所述待检测文本全文中的目标文句,所述基准文句与所述目标文句的相似度大于预设阈值,所述基准文句为所述基准句子或由多个基准句子所构成的基准段落。
在一种可能的设计中,所述对待检测文本进行分句,包括:
获取所述待检测文本中的预设符号;
根据所述预设符号所处的位置对所述待检测文本进行分句,以获得所述文本句子集合,其中,所述文本句子集合包括多个有序排列的句子。
在一种可能的设计中,所述根据预设句子相似度比较规则确定所述文本句子集合中每个基准句子所对应的相似句子集合,包括:
确定第一基准句子与排列在所述基准句子之后的各个句子的相似度,其中,所述第一基准句子为所述文本句子集合中的任意句子;
根据所述第一基准句子与各个句子的相似度确定所述第一基准句子对应的第一相似句子集合。
在一种可能的设计中,所述的稿件内部查重方法,还包括:
分配多个线程,其中,一个线程仅用于运行为一个基准句子确定对应相似句子集合的任务。
在一种可能的设计中,在所述根据所述第一基准句子与各个句子的相似度确定所述第一基准句子对应的第一相似句子集合之后,还包括:
若根据所述第一基准句子与第二基准句子的相似度确定所述第一基准句子与所述第二基准句子的文本相同,则合并所述第一相似句子集合与第二相似句子集合,以生成合并相似句子集合,所述第二相似句子集合为所述第二基准句子对应的相似句子集合;
确定所述第一基准句子与所述第二基准句子所对应的相似句子集合均为所述合并相似句子集合。
在一种可能的设计中,若多个相似句子集合中存在文本相同的连续句子,则从每个集合中提取最长公共子句,其中,所述最长公共子句包括首尾相连的多个句子;
根据所述最长公共子句生成所述基准段落,以确定所述基准段落在所述待检测文本全文中的目标段落。
在一种可能的设计中,在所述对待检测文本进行分句之前,还包括:
对待检测稿件进行预处理,以获得所述待检测文本,所述待检测文本仅包括文本信息。
在一种可能的设计中,所述对待检测稿件进行预处理,包括:
对所述待检测稿件中的非文本信息进行删除,其中,所述非文本信息图片、公式、域代码、文本框以及文档目录中一种或任意多种的组合。
第二方面,本发明提供一种稿件内部查重装置,包括:
文本分句模块,用于对待检测文本进行分句,以获得文本句子集合;
句子比较模块,用于根据预设句子相似度比较规则确定所述文本句子集合中每个基准句子所对应的相似句子集合;
句子定位模块,用于根据所述相似句子集合确定基准文句在所述待检测文本全文中的目标文句,所述基准文句与所述目标文句的相似度大于预设阈值,所述基准文句为所述基准句子或由多个基准句子所构成的基准段落。
在一种可能的设计中,所述文本分句模块,具体用于:
获取所述待检测文本中的预设符号;
根据所述预设符号所处的位置对所述待检测文本进行分句,以获得所述文本句子集合,其中,所述文本句子集合包括多个有序排列的句子。
在一种可能的设计中,所述句子比较模块,具体用于:
确定第一基准句子与排列在所述基准句子之后的各个句子的相似度,其中,所述第一基准句子为所述文本句子集合中的任意句子;
根据所述第一基准句子与各个句子的相似度确定所述第一基准句子对应的第一相似句子集合。
在一种可能的设计中,所述稿件内部查重装置,还包括:
线程分配模块,用于分配多个线程,其中,一个线程仅用于运行为一个基准句子确定对应相似句子集合的任务。
在一种可能的设计中,所述稿件内部查重装置,还包括:集合合并模块,具体用于:
若根据所述第一基准句子与第二基准句子的相似度确定所述第一基准句子与所述第二基准句子的文本相同,则合并所述第一相似句子集合与第二相似句子集合,以生成合并相似句子集合,所述第二相似句子集合为所述第二基准句子对应的相似句子集合;
确定所述第一基准句子与所述第二基准句子所对应的相似句子集合均为所述合并相似句子集合。
在一种可能的设计中,所述稿件内部查重装置,还包括:长句提取模块,具体用于:
若多个相似句子集合中存在文本相同的连续句子,则从每个集合中提取最长公共子句,其中,所述最长公共子句包括首尾相连的多个句子;
根据所述最长公共子句生成所述基准段落,以确定所述基准段落在所述待检测文本全文中的目标段落。
在一种可能的设计中,所述稿件内部查重装置,还包括:预处理模块,用于对待检测稿件进行预处理,以获得所述待检测文本,所述待检测文本仅包括文本信息。
在一种可能的设计中,所述预处理模块,具体用于:对所述待检测稿件中的非文本信息进行删除,其中,所述非文本信息图片、公式、域代码、文本框以及文档目录中一种或任意多种的组合。
第三方面,本发明还提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的计算机程序;
其中,所述处理器被配置为通过执行所述计算机程序来实现第一方面中任意一种所述的稿件内部查重方法。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任意一种所述的稿件内部查重方法。
本发明提供的稿件内部查重方法、装置、存储介质及电子设备,通过对待检测文本进行分句,以获得文本句子集合,然后,根据预设句子相似度比较规则确定文本句子集合中每个基准句子所对应的相似句子集合,再根据相似句子集合确定基准文句在待检测文本全文中的目标文句,从而通过将待检测文本以句子为单位进行拆分,以句子为单位,有效地保证了查重的速度,并通过对比的句子间相似度的方式,以确定基准文句在待检测文本全文中的目标文句,以实现准确、快速地对待检测文本内部的查重操作。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明根据一示例性实施例示出的稿件内部查重方法的应用场景图;
图2为本发明根据一示例性实施例示出的稿件内部查重方法的流程示意图;
图3为本发明根据另一示例性实施例示出的稿件内部查重方法的流程示意图;
图4为本发明根据一示例性实施例示出的稿件内部查重装置的结构示意图;
图5为本发明根据另一示例性实施例示出的稿件内部查重装置的流程示意图;
图6为本发明根据一示例性实施例示出的电子设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
目前图书出版领域中的出版稿件普遍存在着严重的重稿现象,虽然关于文本查重的方法也很普遍,但是对于稿件内的查重方面仍存在不足。现有技术中,对于文稿查重的实现方法,在不同领域通常采用不同的实现方法。具体的,可以通过列举科技项目查重、论文查重、网络环境下的中文查重这三个方面,来概述现有的方法:
第一、一种科技项目查重对比的方法:将待比对的项目和已知的项目输入数据格式化模块,并依次通过分词处理模块、查重比对模块、查重判定模块、报告模块,最终获得项目相似度评价表。
第二、一种论文查重的方法:该方法通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置,然后判断重复分句在原文中的间隔是否小于M,假如重复分句在原文中的间隔小于M,则待查文章在文本库中内容有重复。
第三、网络环境下的中文查重系统的研究与实现:首先通过分词得到文本特征项,然后将把文本表示成空间向量的形式,通过计算向量夹角余弦的方式计算文本相似度。
虽然关于文本查重的方法较多,但是,上述查重方式只是实现文稿与外部文件的查重,并不能实现文稿内部的查重。因此,如何准确、快速地对稿件内部进行查重操作是当前亟需解决的问题。
并且,对于稿件查重在准确率和速度方面仍存在需要改进的地方,尤其是处理几十万字的书稿,如何准确、快速地找出重稿,尤为重要。然而,对于现有的通常是方法,通过比较这两个指纹签名集的海明距离来判定文本的相似度,或者通过对比待查文章与文本库中重复分句在原文中的间隔度来判断是否重复,在速度和准确率方面也还具有一定的提升空间。
针对上述存在的各个技术问题,本发明实施例提供一种稿件内部查重方法,通过对待检测文本进行分句,以获得文本句子集合,然后,根据预设句子相似度比较规则确定文本句子集合中每个基准句子所对应的相似句子集合,再根据相似句子集合确定基准文句在待检测文本全文中的目标文句,从而通过将待检测文本以句子为单位进行拆分,以句子为单位,有效地保证了查重的速度,并通过对比的句子间相似度的方式,以确定基准文句在待检测文本全文中的目标文句,以实现准确、快速地对待检测文本内部的查重操作。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图1为本发明根据一示例性实施例示出的稿件内部查重方法的应用场景图。如图1所示,本发明提供的稿件内部查重方法具体的应用场景可以是用于对稿件内部的句子、段落进行查重,例如,对于几十万字的书稿,进行准确、快速地找出重稿。用户可以通过终端设备100对稿件触发内部查重操作,服务器200可以通过本实施例提供的稿件内部查重方法对待检测稿件进行内部查重,并将查重结果反馈至终端设备100中进行显示。其中,对于稿件内部查重结果,可以是标注基准句子、或者基准段落,然后对应显示与基准句子、或者基准段落向类似的句子或段落,进一步的,还可以显示类似的句子或段落的位置编号。
图2为本发明根据一示例性实施例示出的稿件内部查重方法的流程示意图。如图2所示,本实施例提供的稿件内部查重方法,包括:
步骤101、对待检测文本进行分句,以获得文本句子集合。
具体的,可以通过获取待检测文本中的预设符号(例如:句号、感叹号、问号等句末标点符号),然后,根据预设符号所处的位置对待检测文本进行分句,以获得文本句子集合,其中,上述的文本句子集合包括多个有序排列的句子。
例如:针对有6句句子组成的待检测文本,在对其进行分局之后,所获得的文本句子集合为:{S1、S2、S3、S4、S5、S6}。其中,S1、S2、S3、S4、S5、S6为分句处理后所提取的独立句子。
步骤102、根据预设句子相似度比较规则确定文本句子集合中每个基准句子所对应的相似句子集合。
在对待检测文本进行分句获得文本句子集合之后,可以根据预设句子相似度比较规则确定文本句子集合中每个基准句子所对应的相似句子集合。值得理解的,可以选择文本句子集合中的任以句子作为基准句子,例如,可以是选取文本句子集合{S1、S2、S3、S4、S5、S6}中的S1、S2、S3、S4、S5、S6作为基准句子。
在确定基准句之后,通过确定基准句子与文本句子集合中其他句子之间的相似度,选取相似度大于预设值的相似句子构成基准句子所对应的相似句子集合。
具体的,可以是确定第一基准句子与排列在基准句子之后的各个句子的相似度,其中,第一基准句子为文本句子集合中的任意句子,然后,根据第一基准句子与各个句子的相似度确定第一基准句子对应的第一相似句子集合。
继续以文本句子集合包括6个句子,且句子集合为{S1、S2、S3、S4、S5、S6}为例。当选取S1为基准句子时,确定S1与排列在基准句子之后的各个句子的{S2、S3、S4、S5、S6}中的每一个句子的相似度,得到S1对应的5个相似度,分别为{0.85、1、0.9、0、0}。可见,S1分别与句子集合{S2、S3、S4、S5、S6}中的S2、S3以及S4的相似度均大于零,则将S2、S3以及S4进行顺序合并,得到S1对应的相似句子集合,该相似句子集合为{S2、S3、S4}。
当选取S2为基准句子时,确定S2与排列在基准句子之后的各个句子的{S3、S4、S5、S6}中的每一个句子的相似度,得到S2对应的4个相似度,分别为{0.9、0.9、0、0.95}。可见,S2分别与句子集合{S3、S4、S5、S6}中的S3、S4以及S6的相似度均大于零,则将S3、S4以及S6进行顺序合并,得到S2对应的相似句子集合,该相似句子集合为{S3、S4、S6}。
当选取S3为基准句子时,确定S3与排列在基准句子之后的各个句子的{S4、S5、S6}中的每一个句子的相似度,得到S3对应的3个相似度,分别为{0.9、0、0.95}。可见,S3分别与句子集合{S4、S5、S6}中的S4以及S6的相似度均大于零,则将S4以及S6进行顺序合并,得到S3对应的相似句子集合,该相似句子集合为{S4、S6}。
当选取S4为基准句子时,确定S4与排列在基准句子之后的各个句子的{S5、S6}中的每一个句子的相似度,得到S4对应的2个相似度,分别为{0、0.85}。可见,S4分别与句子集合{S5、S6}中的S6的相似度均大于零,则得到S4对应的相似句子集合,该相似句子集合为{S6}。
当选取S5为基准句子时,确定S5与排列在基准句子之后的各个句子的{S6}中的句子的相似度,得到S5对应的1个相似度,为{0.95}。可见,S5与句子集合{S6}中的S6的相似度均大于零,则得到S5对应的相似句子集合,该相似句子集合为{S6}。
此外,为了提高查重的速度,在本实施例提供的稿件内部查重方法中,可以先将待检测文本拆分成以句子为单位,然后通过多线程比较句子之间的相似度。具体的,可以是分配多个线程,其中,一个线程仅用于运行为一个基准句子确定对应相似句子集合的任务。例如:
分配第一线程,用于选取S1为基准句子时,确定S1与排列在基准句子之后的各个句子的{S2、S3、S4、S5、S6}中的每一个句子的相似度,得到S1对应的5个相似度,分别为{0.85、1、0.9、0、0}。可见,S1分别与句子集合{S2、S3、S4、S5、S6}中的S2、S3以及S4的相似度均大于零,则将S2、S3以及S4进行顺序合并,得到S1对应的相似句子集合,该相似句子集合为{S2、S3、S4}。
分配第二线程,用于选取S2为基准句子时,确定S2与排列在基准句子之后的各个句子的{S3、S4、S5、S6}中的每一个句子的相似度,得到S2对应的4个相似度,分别为{0.9、0.9、0、0.95}。可见,S2分别与句子集合{S3、S4、S5、S6}中的S3、S4以及S6的相似度均大于零,则将S3、S4以及S6进行顺序合并,得到S2对应的相似句子集合,该相似句子集合为{S3、S4、S6}。
分配第三线程,用于选取S3为基准句子时,确定S3与排列在基准句子之后的各个句子的{S4、S5、S6}中的每一个句子的相似度,得到S3对应的3个相似度,分别为{0.9、0、0.95}。可见,S3分别与句子集合{S4、S5、S6}中的S4以及S6的相似度均大于零,则将S4以及S6进行顺序合并,得到S3对应的相似句子集合,该相似句子集合为{S4、S6}。
分配第四线程,用于选取S4为基准句子时,确定S4与排列在基准句子之后的各个句子的{S5、S6}中的每一个句子的相似度,得到S4对应的2个相似度,分别为{0、0.85}。可见,S4分别与句子集合{S5、S6}中的S6的相似度均大于零,则得到S4对应的相似句子集合,该相似句子集合为{S6}。
分配第五线程,用于选取S5为基准句子时,确定S5与排列在基准句子之后的各个句子的{S6}中的句子的相似度,得到S5对应的1个相似度,为{0.95}。可见,S5与句子集合{S6}中的S6的相似度均大于零,则得到S5对应的相似句子集合,该相似句子集合为{S6}。
步骤103、根据相似句子集合确定基准文句在待检测文本全文中的目标文句。
在本步骤中,在根据预设句子相似度比较规则确定文本句子集合中每个基准句子所对应的相似句子集合之后,可以根据相似句子集合确定基准文句在待检测文本全文中的目标文句,基准文句与目标文句的相似度大于预设阈值,基准文句为基准句子或由多个基准句子所构成的基准段落。其中,对于稿件内部查重结果,在根据相似句子集合确定基准文句在待检测文本全文中的目标文句之后,可以根据确定的目标文句信息,显示与基准句子、或者基准段落向类似的句子或段落,进一步的,还可以显示类似的句子或段落的位置编号。
在本实施例中,通过对待检测文本进行分句,以获得文本句子集合,然后,根据预设句子相似度比较规则确定文本句子集合中每个基准句子所对应的相似句子集合,再根据相似句子集合确定基准文句在待检测文本全文中的目标文句,从而通过将待检测文本以句子为单位进行拆分,以句子为单位,有效地保证了查重的速度,并通过对比的句子间相似度的方式,以确定基准文句在待检测文本全文中的目标文句,以实现准确、快速地对待检测文本内部的查重操作。
图3为本发明根据另一示例性实施例示出的稿件内部查重方法的流程示意图。如图3所示,本市实施例提供的稿件内部查重方法,包括:
步骤201、对待检测稿件进行预处理,以获得待检测文本。
为了提高对于待检测稿件的查重效果,在对其进行查重操作前,可以先对待检测稿件进行预处理,以获得待检测文本,其中,待检测文本仅包括文本信息。例如,可以对待检测稿件中的非文本信息进行删除,其中,非文本信息图片、公式、域代码、文本框以及文档目录中一种或任意多种的组合。
而对于待检测稿件预处理方式,在一种可能的实现方式中,具体可以如下:
1、标记待检测稿件中的句子以及段落信息,以便后续输出相似句子或相似段落的位置信息;
2、只保留文档中的纯文本信息,包括正文、表格、注释、附录中的文本;
3、排除掉文档中的图、Math Type编辑的公式、Word域代码、文本框中的内容;
4、排除掉文档中的目录;
5、排除掉文档中的文本公式,例如:A+B=C。
6、排除选择题答案:
在计算相似度时将选择题答案段落忽略。具体的,可以是将使用空格、Tab符号将一段文本分组,对空格和Tab符号做去重处理,多个空格或Tab符号可以认为是一个。如果每个组的内容的格式都为:序号+符号+字母的格式(例如:1:A,2:B,3:C等),则认为该段落为选择题答案段落,在预处理中对其进行排除。
步骤202、对待检测文本进行分句,以获得文本句子集合。
具体的,可以通过获取待检测文本中的预设符号(例如:中英文的句号、中英文的感叹号、中英文的问号等句末标点符号),然后,根据预设符号所处的位置对待检测文本进行分句,以获得文本句子集合,其中,上述的文本句子集合包括多个有序排列的句子。
例如:针对有6句句子组成的待检测文本,在对其进行分局之后,所获得的文本句子集合为:{S1、S2、S3、S4、S5、S6}。其中,S1、S2、S3、S4、S5、S6为分句处理后所提取的独立句子。
步骤203、根据预设句子相似度比较规则确定文本句子集合中每个基准句子所对应的相似句子集合。
在对待检测文本进行分句获得文本句子集合之后,可以根据预设句子相似度比较规则确定文本句子集合中每个基准句子所对应的相似句子集合。值得理解的,可以选择文本句子集合中的任以句子作为基准句子,例如,可以是选取文本句子集合{S1、S2、S3、S4、S5、S6}中的S1、S2、S3、S4、S5、S6作为基准句子。
在确定基准句之后,通过确定基准句子与文本句子集合中其他句子之间的相似度,选取相似度大于预设值的相似句子构成基准句子所对应的相似句子集合。
具体的,可以是确定第一基准句子与排列在基准句子之后的各个句子的相似度,其中,第一基准句子为文本句子集合中的任意句子,然后,根据第一基准句子与各个句子的相似度确定第一基准句子对应的第一相似句子集合。
分配第一线程,用于选取S1为基准句子时,确定S1与排列在基准句子之后的各个句子的{S2、S3、S4、S5、S6}中的每一个句子的相似度,得到S1对应的5个相似度,分别为{0.85、1、0.9、0、0}。可见,S1分别与句子集合{S2、S3、S4、S5、S6}中的S2、S3以及S4的相似度均大于零,则将S2、S3以及S4进行顺序合并,得到S1对应的相似句子集合,该相似句子集合为{S2、S3、S4}。
分配第二线程,用于选取S2为基准句子时,确定S2与排列在基准句子之后的各个句子的{S3、S4、S5、S6}中的每一个句子的相似度,得到S2对应的4个相似度,分别为{0.9、0.9、0、0.95}。可见,S2分别与句子集合{S3、S4、S5、S6}中的S3、S4以及S6的相似度均大于零,则将S3、S4以及S6进行顺序合并,得到S2对应的相似句子集合,该相似句子集合为{S3、S4、S6}。
分配第三线程,用于选取S3为基准句子时,确定S3与排列在基准句子之后的各个句子的{S4、S5、S6}中的每一个句子的相似度,得到S3对应的3个相似度,分别为{0.9、0、0.95}。可见,S3分别与句子集合{S4、S5、S6}中的S4以及S6的相似度均大于零,则将S4以及S6进行顺序合并,得到S3对应的相似句子集合,该相似句子集合为{S4、S6}。
分配第四线程,用于选取S4为基准句子时,确定S4与排列在基准句子之后的各个句子的{S5、S6}中的每一个句子的相似度,得到S4对应的2个相似度,分别为{0、0.85}。可见,S4分别与句子集合{S5、S6}中的S6的相似度均大于零,则得到S4对应的相似句子集合,该相似句子集合为{S6}。
分配第五线程,用于选取S5为基准句子时,确定S5与排列在基准句子之后的各个句子的{S6}中的句子的相似度,得到S5对应的1个相似度,为{0.95}。可见,S5与句子集合{S6}中的S6的相似度均大于零,则得到S5对应的相似句子集合,该相似句子集合为{S6}。
此外,可选的,由于某些书稿中可能存在大量的网址,然而网址的查重也是查重的重要因素之一,因此,本实施例提供的稿件内部查重方法还需要对网址进行单独处理。其中,具体步骤可以是先检查稿件中的所有网址,完全相同的网址记为重复网址,然后将相同的网址片段输出,将第一个网址作为基准句子,相同网址同基准句的相似度值为1。值得说明的,不允许被查询的网址中含有空格。
步骤204、根据相似句子集合确定基准文句在待检测文本全文中的目标文句。
在根据第一基准句子与各个句子的相似度确定第一基准句子对应的第一相似句子集合之后,若根据第一基准句子与第二基准句子的相似度确定第一基准句子与第二基准句子的文本相同,则合并第一相似句子集合与第二相似句子集合,以生成合并相似句子集合,第二相似句子集合为第二基准句子对应的相似句子集合,则确定第一基准句子与第二基准句子所对应的相似句子集合均为合并相似句子集合。
具体的,如果出现有两个或两个以上的句子的相似度值为1,则认为相似度值为1的句子为同一个基准句子,合并以上述句子为基准句子比较出来的相似度值大于零的相似句子组成的相似句子集合。
例如:S1和第S3的相似度值为1,则将以S1为基准句子的相似句子集合S2、S3、S4与以S3为基准句子的相似句子集合S4、S6合并为以S或者S3为基准句的相似句子组:S1、S2、S3、S4、S6。
同理,其他任意两个句子为基准句的时候,没有完全相同,则不对其各自的句子组进行合并,合并完成之后,只剩下S1或者S3为基准句的相似句子集合:S1、S2、S3、S4、S6;S2的相似句子集合:S2、S3、S4以及S6;S5的相似句子集合:S5和S6。
并且,假设相似具有传递性,将相似句子和以相似句子为基准句子的相似组进行合并,保证查重结果中,每个句子只出现一次。可选的,对于句子的相似度可以是取较高的相似度值。例如,S1和S2的相似度为0.9、S1和S3的相似度为0.95,S2和S3的相似度为0.85、S2和S4的相似度为0.95,则合并为S1分别和S2、S3、S4相似,对应的相似度分别为0.9、0.95、0.95。
再判断每一个句子S1、S2、S3、S4、S5、S6的长度是否大于或者等于30,假设S5的长度小于30,则忽略S5,只对句子组S1、S2、S3、S4、S6;S2为S2、S3、S4以及S6进行后续处理。
而若多个相似句子集合中存在文本相同的连续句子,则从每个集合中提取最长公共子句,其中,最长公共子句包括首尾相连的多个句子,再根据最长公共子句生成基准段落,以确定基准段落在待检测文本全文中的目标段落。
即提取每一个相似句子集合的最长公共子句,例如句子组S1S2S3S4S6是一段收尾相连的句子组,句子组S6S7S8S9S10是一组收尾相连的句子组,句子组S11S12S13S14是一组收尾相连的句子组,并且S1、S6、S11完全相同,而S2、S7与S12完全相同,并且,S3、S8、S13完全相同,同时,S4、S9、S14完全相同。则把S1S2S3S4合起来、S6S7S8S9合起来与S11S12S13S14合起来看做一组重复,S6与S10是一组重复,这里需要说明的是:最长公共字句是指首尾相连的句子并起来组成的段落最长,就相当于找到了相似段落。
在本实施例中,通过对待检测稿件的不同格式进行预处理,包括图表、公式、选择题答案等类型,以获得待检测文本,从而提高稿件的查重效果。以及通过多线程比较句子之间的相似度,并从最长公共子句、组间相似句子合并方面对结果进行处理,以提高待检测稿件查重的速度。可见,本市实施例提供的稿件内部查重方法,提高了对于待检测稿件的查重效果以及查重速度,解决了待检测稿件中普遍存在的重稿问题,方便用户根据句子间的相似程度(例如:低、中、高、相同)对发生重稿的地方进行修改,从而提高稿件的质量。
图4为本发明根据一示例性实施例示出的稿件内部查重装置的结构示意图。如图4所示,本实施例提供的稿件内部查重装置300,包括:
文本分句模块301,用于对待检测文本进行分句,以获得文本句子集合;
句子比较模块302,用于根据预设句子相似度比较规则确定所述文本句子集合中每个基准句子所对应的相似句子集合;
句子定位模块303,用于根据所述相似句子集合确定基准文句在所述待检测文本全文中的目标文句,所述基准文句与所述目标文句的相似度大于预设阈值,所述基准文句为所述基准句子或由多个基准句子所构成的基准段落。
在一种可能的设计中,所述文本分句模块301,具体用于:
获取所述待检测文本中的预设符号;
根据所述预设符号所处的位置对所述待检测文本进行分句,以获得所述文本句子集合,其中,所述文本句子集合包括多个有序排列的句子。
在一种可能的设计中,所述句子比较模块302,具体用于:
确定第一基准句子与排列在所述基准句子之后的各个句子的相似度,其中,所述第一基准句子为所述文本句子集合中的任意句子;
根据所述第一基准句子与各个句子的相似度确定所述第一基准句子对应的第一相似句子集合。
在图4所示实施例的基础上,图5为本发明根据另一示例性实施例示出的稿件内部查重装置的流程示意图。如图5所示,本实施例提供的稿件内部查重装置300,还包括:
线程分配模块304,用于分配多个线程,其中,一个线程仅用于运行为一个基准句子确定对应相似句子集合的任务。
在一种可能的设计中,所述稿件内部查重装置,还包括:集合合并模块305,具体用于:
若根据所述第一基准句子与第二基准句子的相似度确定所述第一基准句子与所述第二基准句子的文本相同,则合并所述第一相似句子集合与第二相似句子集合,以生成合并相似句子集合,所述第二相似句子集合为所述第二基准句子对应的相似句子集合;
确定所述第一基准句子与所述第二基准句子所对应的相似句子集合均为所述合并相似句子集合。
在一种可能的设计中,所述稿件内部查重装置,还包括:长句提取模块306,具体用于:
若多个相似句子集合中存在文本相同的连续句子,则从每个集合中提取最长公共子句,其中,所述最长公共子句包括首尾相连的多个句子;
根据所述最长公共子句生成所述基准段落,以确定所述基准段落在所述待检测文本全文中的目标段落。
在一种可能的设计中,所述稿件内部查重装置,还包括:预处理模块307,用于对待检测稿件进行预处理,以获得所述待检测文本,所述待检测文本仅包括文本信息。
在一种可能的设计中,所述预处理模块307,具体用于:对所述待检测稿件中的非文本信息进行删除,其中,所述非文本信息图片、公式、域代码、文本框以及文档目录中一种或任意多种的组合。
值得说明的,图4-图5所示实施例提供的稿件内部查重装置,可用于执行上述任一实施例提供的稿件内部查重方法中的步骤,具体实现方式和技术效果类似,这里不再赘述。
图6为本发明根据一示例性实施例示出的电子设备的结构示意图。如图6所示,本实施例提供的电子设备400,包括:
处理器401;以及,
存储器402,用于存储所述处理器的可执行指令,该存储器还可以是flash(闪存);
其中,所述处理器401配置为经由执行所述可执行指令来执行上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器402既可以是独立的,也可以跟处理器401集成在一起。
当所述存储器402是独立于处理器401之外的器件时,所述电子设备400,还可以包括:
总线403,用于连接所述处理器401以及所述存储器402。
本实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当电子设备的至少一个处理器执行该计算机程序时,电子设备执行上述的各种实施方式提供的方法。
本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种稿件内部查重方法,其特征在于,包括:
对待检测文本进行分句,以获得文本句子集合;
根据预设句子相似度比较规则确定所述文本句子集合中每个基准句子所对应的相似句子集合;
根据所述相似句子集合确定基准文句在所述待检测文本全文中的目标文句,所述基准文句与所述目标文句的相似度大于预设阈值,所述基准文句为所述基准句子或由多个基准句子所构成的基准段落。
2.根据权利要求1所述的稿件内部查重方法,其特征在于,所述对待检测文本进行分句,包括:
获取所述待检测文本中的预设符号;
根据所述预设符号所处的位置对所述待检测文本进行分句,以获得所述文本句子集合,其中,所述文本句子集合包括多个有序排列的句子。
3.根据权利要求2所述的稿件内部查重方法,其特征在于,所述根据预设句子相似度比较规则确定所述文本句子集合中每个基准句子所对应的相似句子集合,包括:
确定第一基准句子与排列在所述基准句子之后的各个句子的相似度,其中,所述第一基准句子为所述文本句子集合中的任意句子;
根据所述第一基准句子与各个句子的相似度确定所述第一基准句子对应的第一相似句子集合。
4.根据权利要求3所述的稿件内部查重方法,其特征在于,还包括:
分配多个线程,其中,一个线程仅用于运行为一个基准句子确定对应相似句子集合的任务。
5.根据权利要求4所述的稿件内部查重方法,其特征在于,在所述根据所述第一基准句子与各个句子的相似度确定所述第一基准句子对应的第一相似句子集合之后,还包括:
若根据所述第一基准句子与第二基准句子的相似度确定所述第一基准句子与所述第二基准句子的文本相同,则合并所述第一相似句子集合与第二相似句子集合,以生成合并相似句子集合,所述第二相似句子集合为所述第二基准句子对应的相似句子集合;
确定所述第一基准句子与所述第二基准句子所对应的相似句子集合均为所述合并相似句子集合。
6.根据权利要求4所述的稿件内部查重方法,其特征在于,若多个相似句子集合中存在文本相同的连续句子,则从每个集合中提取最长公共子句,其中,所述最长公共子句包括首尾相连的多个句子;
根据所述最长公共子句生成所述基准段落,以确定所述基准段落在所述待检测文本全文中的目标段落。
7.根据权利要求1-6中任意一项所述的稿件内部查重方法,其特征在于,在所述对待检测文本进行分句之前,还包括:
对待检测稿件进行预处理,以获得所述待检测文本,所述待检测文本仅包括文本信息。
8.根据权利要求7所述的稿件内部查重方法,其特征在于,所述对待检测稿件进行预处理,包括:
对所述待检测稿件中的非文本信息进行删除,其中,所述非文本信息图片、公式、域代码、文本框以及文档目录中一种或任意多种的组合。
9.一种稿件内部查重装置,其特征在于,包括:
文本分句模块,用于对待检测文本进行分句,以获得文本句子集合;
句子比较模块,用于根据预设句子相似度比较规则确定所述文本句子集合中每个基准句子所对应的相似句子集合;
句子定位模块,用于根据所述相似句子集合确定基准文句在所述待检测文本全文中的目标文句,所述基准文句与所述目标文句的相似度大于预设阈值,所述基准文句为所述基准句子或由多个基准句子所构成的基准段落。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的计算机程序;
其中,所述处理器被配置为通过执行所述计算机程序来实现权利要求1-8中任意一项所述的稿件内部查重方法。
CN201911346256.7A 2019-12-24 2019-12-24 稿件内部查重方法、装置及电子设备 Active CN110990539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911346256.7A CN110990539B (zh) 2019-12-24 2019-12-24 稿件内部查重方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911346256.7A CN110990539B (zh) 2019-12-24 2019-12-24 稿件内部查重方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110990539A true CN110990539A (zh) 2020-04-10
CN110990539B CN110990539B (zh) 2023-07-25

Family

ID=70074857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911346256.7A Active CN110990539B (zh) 2019-12-24 2019-12-24 稿件内部查重方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110990539B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668301A (zh) * 2020-10-30 2021-04-16 生态环境部环境工程评估中心 一种环评文件重复度检测方法及系统
CN113536759A (zh) * 2021-06-29 2021-10-22 北京清格科技有限公司 文本查重方法和装置及设备
WO2022110428A1 (zh) * 2020-11-27 2022-06-02 江苏省舜禹信息技术有限公司 一种用于专利文本机器翻译的译前编辑方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190185A (ja) * 2003-12-25 2005-07-14 Nippon Telegr & Teleph Corp <Ntt> 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体
US20100063966A1 (en) * 2006-04-07 2010-03-11 Thales Method for fast de-duplication of a set of documents or a set of data contained in a file
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及系统
US20180137090A1 (en) * 2016-11-14 2018-05-17 International Business Machines Corporation Identification of textual similarity
CN108829780A (zh) * 2018-05-31 2018-11-16 北京万方数据股份有限公司 文本检测方法、装置、计算设备及计算机可读存储介质
CN110472203A (zh) * 2019-08-14 2019-11-19 上海智臻智能网络科技股份有限公司 一种文章的查重检测方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190185A (ja) * 2003-12-25 2005-07-14 Nippon Telegr & Teleph Corp <Ntt> 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体
US20100063966A1 (en) * 2006-04-07 2010-03-11 Thales Method for fast de-duplication of a set of documents or a set of data contained in a file
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及系统
US20180137090A1 (en) * 2016-11-14 2018-05-17 International Business Machines Corporation Identification of textual similarity
CN108829780A (zh) * 2018-05-31 2018-11-16 北京万方数据股份有限公司 文本检测方法、装置、计算设备及计算机可读存储介质
CN110472203A (zh) * 2019-08-14 2019-11-19 上海智臻智能网络科技股份有限公司 一种文章的查重检测方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668301A (zh) * 2020-10-30 2021-04-16 生态环境部环境工程评估中心 一种环评文件重复度检测方法及系统
CN112668301B (zh) * 2020-10-30 2024-06-04 生态环境部环境工程评估中心 一种环评文件重复度检测方法及系统
WO2022110428A1 (zh) * 2020-11-27 2022-06-02 江苏省舜禹信息技术有限公司 一种用于专利文本机器翻译的译前编辑方法和系统
CN113536759A (zh) * 2021-06-29 2021-10-22 北京清格科技有限公司 文本查重方法和装置及设备
CN113536759B (zh) * 2021-06-29 2024-05-07 北京清格科技有限公司 文本查重方法和装置及设备

Also Published As

Publication number Publication date
CN110990539B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
US9384389B1 (en) Detecting errors in recognized text
US7310773B2 (en) Removal of extraneous text from electronic documents
US9098581B2 (en) Method for finding text reading order in a document
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN111062259A (zh) 表格识别方法和装置
CN110990539A (zh) 稿件内部查重方法、装置、存储介质及电子设备
US20220012231A1 (en) Automatic content-based append detection
CN110705503B (zh) 生成目录结构化信息的方法和装置
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN110209759B (zh) 自动识别书页的方法及装置
CN110738050A (zh) 基于分词和命名实体识别的文本重组方法及装置、介质
EP2771813A1 (en) Aligning annotation of fields of documents
CN112800771B (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
US10140289B2 (en) Identifying propaganda in global social media
CN113255369A (zh) 文本相似度分析的方法、装置及存储介质
CN117216239A (zh) 文本去重方法、装置、计算机设备及存储介质
CN106776724B (zh) 一种题目分类方法及系统
US20090327210A1 (en) Advanced book page classification engine and index page extraction
CN110717029A (zh) 一种信息处理方法和系统
US12086551B2 (en) Semantic difference characterization for documents
CN114581934A (zh) 试卷图像的处理方法、装置及设备
CN111708891B (zh) 一种多源食材数据之间的食材实体链接方法和装置
US20150095314A1 (en) Document search apparatus and method
CN114220113A (zh) 一种论文质量检测方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230628

Address after: 3007, Hengqin International Financial Center Building, No. 58 Huajin Street, Hengqin New District, Zhuhai City, Guangdong Province, 519030

Applicant after: New founder holdings development Co.,Ltd.

Applicant after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

GR01 Patent grant
GR01 Patent grant