CN113536759B

CN113536759B - 文本查重方法和装置及设备

Info

Publication number: CN113536759B
Application number: CN202110730412.0A
Authority: CN
Inventors: 张洵; 刘青松; 邵文燕; 商玉磊; 卢存华; 朱咸玲江; 杨华; 彭辉
Original assignee: Beijing Qingge Technology Co ltd
Current assignee: Beijing Qingge Technology Co ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2024-05-07
Anticipated expiration: 2041-06-29
Also published as: CN113536759A

Abstract

本申请涉及一种文本查重方法和装置及设备，其中方法包括：将当前要查重的上传文件和对比文件进行切分，分别得到上传文件中的各待检测句子和对比文件中的各对比句子；对各待检测句子与各对比句子进行相似度计算，由各对比句子中提取出与待检测句子相似的句子作为独立相似句子；对存在有独立相似句子的待检测句子进行合并，对独立相似句子进行合并并再次进行相似度计算；根据再次进行相似度计算的结果，对待检测合并句子及对应的相似合并句子进行过滤去重；对过滤去重后得到的句子进行最长公共子序列计算，并根据最长公共子序列的计算结果得出相应的查重结果。其实现了文本查重的全自动过程，从而也就有效提高了文本查重的效率。

Description

文本查重方法和装置及设备

技术领域

本申请涉及文件查重技术领域，尤其涉及一种文本查重方法和装置及设备。

背景技术

在进行文件的下发时通常会对文件的内容进行查重处理，避免下发的文件出现重复阐述形势、背景、重要意义、基本原则和组织领导等内容。在相关技术中，对文件的内容进行查重一般都是由人工进行审查，但是人工审查耗时较长，这就使得文本的查重效率偏低。

发明内容

有鉴于此，本申请提出了一种文本查重方法，实现了文本自动查重功能，有效提高了文本查重效率。

根据本申请的一方面，提供了一种文本查重方法，包括：

将当前要查重的上传文件和对比文件进行切分，分别得到所述上传文件中的各待检测句子和所述对比文件中的各对比句子；

对各所述待检测句子与各所述对比句子进行相似度计算，由各所述对比句子中提取出与所述待检测句子相似的句子作为独立相似句子；

对存在有所述独立相似句子的待检测句子进行合并得到待检测合并句子，对所述独立相似句子进行合并得到相似合并句子，并基于各所述待检测合并句子及对应的所述相似合并句子再次进行相似度计算；

根据再次进行相似度计算的结果，对所述待检测合并句子及对应的相似合并句子进行过滤去重；

对过滤去重后得到的各所述待检测句子及对应的相似合并句子进行最长公共子序列计算，并根据最长公共子序列的计算结果得出相应的查重结果。

在一种可能的实现方式中，将所述上传文件和对比文件进行切分时，所述对比文件由预先构建的对比文件数据库中提取；

其中，由所述对比文件数据库中提取所述对比文件时，通过对所述对比文件数据库中的各对比文件进行排序，根据排序结果提取相应的对比文件作为当前对所述上传文件进行查重的对比文件。

在一种可能的实现方式中，对所述对比文件数据库中的各对比文件进行排序，包括：

将所述上传文件进行切分，得到所述上传文件中的各待检测句子，并由各所述待检测句子中提取出句子长度大于或等于过滤阈值的待检测句子；

将各所述对比文件进行切分，得到各所述对比文件中的各对比句子，并由各所述对比句子中提取出句子长度大于或等于所述过滤阈值的对比句子；

对提取出的待检测句子和提取出的对比句子分别生成simhash值，并利用提取出的待检测句子的simhash值和各所述对比文件中提取出的对比句子的 simhash值，对各所述对比文件进行排序。

在一种可能的实现方式中，利用提取出的待检测句子的simhash值和各所述对比文件中提取出的对比句子的simhash值，对各所述对比文件进行排序时，包括：

利用提取出的待检测句子的simhash值和各所述对比文件中提取出的对比句子的simhash值计算汉明距离；

根据计算得到的各所述汉明距离，计算得到各所述对比文件与所述上传文件的相似度得分；

按照所述相似度得分对各所述对比文件进行排序。

在一种可能的实现方式中，对各所述待检测句子与各所述对比句子进行相似度计算，由各所述对比句子中提取出与所述待检测句子相似的句子作为独立相似句子，包括：

基于所述上传文件和所述对比文件的词频-逆文档频率，计算各所述待检测句子与各所述对比句子的余弦相似度；

根据各所述待检测句子与各所述对比句子的余弦相似度，由各所述对比句子中提取出与所述待检测句子相似的句子记为所述独立相似句子。

在一种可能的实现方式中，对所述独立相似句子进行合并得到相似合并句子时，基于两个所述相似句子之间间隔的句子数进行合并；

对存在有所述独立相似句子的待检测句子进行合并得到待检测合并句子时，基于两个所述待检测句子之间间隔的句子数进行合并。

在一种可能的实现方式中，根据再次进行相似度计算的结果，对所述待检测合并句子及对应的相似合并句子进行过滤去重时，通过各所述待检测合并句子与对应的相似合并句子的相似度、以及各所述待检测合并句子与对应的相似合并句子的句子长度进行对比过滤。

在一种可能的实现方式中，将当前需要查重的上传文件和对比文件进行切分，分别得到所述上传文件中的各待检测句子和所述对比文件中的各对比句子之前，还包括：

判断所述上传文件是否为独立段落；

在所述上传文件为独立段落时，检测所述上传文件的文字长度是否处于预设的长度阈值区间内；

在所述上传文件的文字长度处于所述长度阈值区间内时，由预先构建的对比文件数据库中提取出对比段落，并对所述上传文件与所述对比段落进行比较，得到相应的查重结果；

在所述上传文件的文字长度处于所述长度阈值区间之外时，再基于所述上传文件的文字长度与所述长度阈值区间的关系进行相应的查重处理。

根据本申请的另一方面，还提供了一种文本查重装置，包括：文件切分模块、第一相似度计算模块、第二相似度计算模块、比较过滤模块和查重处理模块；

所述文件切分模块，被配置为将当前需要查重的上传文件和对比文件进行切分，分别得到所述上传文件中的各待检测句子和所述对比文件中的各对比句子；

所述第一相似度计算模块，被配置为对各所述待检测句子与各所述对比句子进行相似度计算，由各所述对比句子中提取出与所述待检测句子相似的句子作为独立相似句子；

所述第二相似度计算模块，被配置为对存在有所述独立相似句子的待检测句子进行合并得到待检测合并句子，对所述独立相似句子进行合并得到相似合并句子，并基于各所述待检测合并句子及对应的所述相似合并句子再次进行相似度计算；

所述比较过滤模块，被配置为根据所述第二相似度计算模块再次进行相似度计算的结果，对所述待检测合并句子及对应的相似合并句子进行过滤去重；

所述查重处理模块，被配置为对过滤去重后得到的各所述待检测句子及对应的相似合并句子进行最长公共子序列计算，并根据最长公共子序列的计算结果得出相应的查重结果。

根据本申请的另一方面，还提供了一种文本查重设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现前面任一所述的方法。

通过将当前要查重的上传文件和对比文件进行切分，得到上传文件中的各待检测文件和对比文件中的各对比句子，然后对切分得到的各待检测句子，分别与对比文件中的各对比句子进行相似度计算，从而由各对比句子中提取出与待检测句子相似的句子作为独立相似句子，进而再对存在有独立相似句子的待检测句子以及提取出的独立相似句子分别进行合并后再进行二次相似度计算，然后再基于二次相似度计算的结果对合并后的相似句子和待检测句子进行过滤去重，最后再对过滤去重后得到的各待检测句子及对应的相似合并句子进行最长公共子序列计算，从而根据最长公共子序列的计算结果得到上传文件的查重结果。整个过程中不需要任何人工审查，这也就实现了文本查重的全自动过程，从而也就有效提高了文本查重的效率。

根据下面参考附图对示例性实施例的详细说明，本申请的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出本申请实施例的文本查重方法的流程图；

图2示出本申请实施例的文本查重方法中进行相似度计算以及过滤去重的流程图；

图3示出采用本申请实施例的文本查重方法对某一篇上传文件进行查重后的结果展示界面图；

图4示出本申请实施例的文本查重方法的功能结构图；

图5示出本申请实施例的文本查重装置的结构框图；

图6示出本申请实施例的文本查重设备的结构框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

图1示出根据本申请一实施例的文本查重方法的流程图。如图1所示，该方法包括：步骤S100，将当前要查重的上传文件和对比文件进行切分，分别得到上传文件中的各待检测句子和对比文件中的各对比句子。然后，通过步骤S200，对各待检测句子与各对比句子进行相似度计算，由各对比句子中提取出与待检测句子相似的句子作为独立相似句子。进而，再通过步骤S300，对存在有独立相似句子的待检测句子进行合并得到待检测合并句子，对独立相似句子进行合并得到相似合并句子，并基于各待检测合并句子及对应的相似合并句子再次进行相似度计算。

接着，再执行步骤S400，根据再次进行相似度计算的结果，对所述待检测合并句子及对应的相似合并句子进行过滤去重。此处，需要说明的是，通过该步骤对待检测句子进行合并后可能存在重复的句子进行剔除处理，从而使得过滤去重后保留下来的待检测句子均是唯一的，不存在重复的情况的。这也就有效减少了后续数据计算的计算量，避免了冗余计算的情况。

最后，再通过步骤S50 0，对过滤去重后得到的各待检测句子及对应的相似合并句子进行最长公共子序列计算，并根据最长公共子序列的计算结果得出相应的查重结果。

由此，本申请实施例的文本查重方法，通过将当前要查重的上传文件和对比文件进行切分，得到上传文件中的各待检测文件和对比文件中的各对比句子，然后对切分得到的各待检测句子，分别与对比文件中的各对比句子进行相似度计算，从而由各对比句子中提取出与待检测句子相似的句子作为独立相似句子，进而再对存在有独立相似句子的待检测句子以及提取出的独立相似句子分别进行合并后再进行二次相似度计算，然后再基于二次相似度计算的结果对合并后的相似句子和待检测句子进行过滤去重，最后再对过滤去重后得到的各待检测句子及对应的相似合并句子进行最长公共子序列计算，从而根据最长公共子序列的计算结果得到上传文件的查重结果。整个过程中不需要任何人工审查，这也就实现了文本查重的全自动过程，从而也就有效提高了文本查重的效率。

并且，在本申请实施例的文本查重方法中，在由对比文件中查找与上传文件中各待检测句子相似的句子时，依次通过独立的待检测句子与独立的对比句子之间的相似度计算、合并后的待检测句子与合并后的相似句子之间的相似度计算、以及合并后的相似句子和待检测句子的过滤去重等操作，使得最终在通过最长公共子序列计算来得到上传文件的查重结果时，有效保证了所得到的查重结果的准确性。

其中，需要指出的是，在进行文本查重时，通常是需要将要查重的上传文件与多篇对比文件进行比较查重的。因此，在本申请实施例的方法中，在对上传文件切分之后，还需要预先构建相应的对比文件数据库，然后再将要查重的上传文件与对比文件数据库中的多篇对比文件依次进行查重处理。此处，本领域技术人员可以理解的是，对比文件数据库的构建可以采用本领域的常规数据库构建方式来实现，此处不再进行赘述。

同时，在构建对比文件数据库时，还可以将对比文件数据库中的各对比文件利用特定的切分方式进行切分，将切分后的各对比句子分别记录文本、文本simhash值、文本长度等信息后，将记录的信息以结构化数据的方式存储于数据库中。

此处，需要说明的是，对各对比文件进行切分时所采用的切分方式可以为本领域中各种文本切分方式，此处不进行具体限定。同时，在记录各对比句子的上述信息时可以通过添加标识的方式对各对比句子进行不同的对比文件的标注，以记录各对比句子与对比文件的对应关系。

进一步的，根据前面所述，由于在进行文本查重过程中需要与对比文件数据库中的多篇对比文件均进行查重比较，因此，将上传文件和对比文件进行切分时，需要先由对比文件数据库中提取出当前用于进行查重的对比文件。

在一种可能的实现方式中，由对比文件数据库中提取出当前用于进行查重的对比文件时，可以通过对各对比文件进行排序，然后根据排序结果依次提取相应的对比文件作为当前对上传文件进行查重的对比文件。此处，还需要指出的是，在根据排序结果依次提取相应的对比文件对上传文件进行查重处理时，还可以限定所提取的对比文件的个数，从而基于所限定的对比文件的个数，按照排序结果依次提取。

举例来说，在所构建的对比文件数据库中包含有1000篇对比文件，限定所提取的对比文件的个数为300件时，通过上述方式对1000篇对比文件进行排序后，依次提取前300篇对比文件分别对上传文件进行查重处理。即，本领域技术人员可以理解的是，所限定的提取的对比文件的个数表征了对上传文件进行查重的次数。其中，每次查重选取不同的对比文件。

更进一步的，在对对比文件数据库中各对比文件进行排序时，可以通过以下方式来实现。

首先，将上传文件进行切分，得到上传文件中的各待检测句子并由各待检测句子中提取出句子长度大于或等于过滤阈值的待检测句子。同时，将各对比文件进行切分，得到各对比文件中的各对比句子，并由各对比句子中提取出句子长度大于或等于过滤阈值的对比句子。

此处，本领域技术人员可以理解的是，如果在构建对比文件数据库的过程中已经对数据库中的各对比文件进行了切分，此时可直接由对比文件数据库中读取各对比文件中切分得到的各对比句子的句子长度，然后再根据各对比句子的句子长度与过滤阈值进行比较，提取出各对比文件中句子长度大于或等于过滤阈值的对比句子。

其中，在一种可能的实现方式中，过滤阈值的取值可以根据实际情况灵活设置。优选的，过滤阈值的取值范围可以设置为[10，30]，单位为字符串。如：过滤阈值的取值可以设置为20字符串。由此，在进行对比句子和待检测句子的提取时，直接提取出句子长度大于或等于20字符串的句子即可。

在提取出句子长度大于或等于过滤阈值的待检测句子和各对比文件中的对比句子之后，对提取出的待检测句子和提取出的对比句子分别生成 simhash值，并利用提取出的待检测句子的simhash值和各对比文件中提取出的对比句子的simhash值，对各对比文件进行排序。

更加具体的，利用提取出的待检测句子的simhash值和各对比文件中提取出的对比句子的simhash值，对各对比文件进行排序时，可以通过以下方式来实现。

首先，利用提取出的待检测句子的simhash值和各对比文件中提取出的对比句子的simhash值计算汉明距离。然后，根据计算得到的各汉明距离，计算得到各对比文件与上传文件的相似度得分。最后再按照相似度得分对各对比文件进行排序。其中，根据计算得到的各汉明距离计算各对比文件与上传文件的相似度得分时，可以采用本领域各种数学运算的方式计算得到，此处不进行具体限定。

也就是说，在本申请实施例的文本查重方法中，通过将用户上传的需要进行查重的上传文件和预先所构建的对比文件数据库中的各对比文件均进行切分，然后根据预设的过滤阈值以及各切分后的句子的句子长度，提取出句子长度大于或等于过滤阈值的句子进入汉明距离计算中。对于句子长度小于过滤阈值的句子则不进入汉明距离计算中。进而再根据计算出的汉明距离进行各对比文件的相似度得分的确定，最后再根据相似度得分对各对比文件进行排序，这就使得在按照排序结果由对比文件数据库中依次提取对比文件，与上传文件进行查重处理，从而在存在与上传文件相重复的对比文件时，能够更加快速地查找到，这也就实现了上传文件与对比文件数据库中的对比文件的全量查重处理。

另外，在上述实施例中，在提取出句子长度大于或等于过滤阈值的句子之后，还可以对各句子进行去除停用词(即，特定字词库)的处理，然后再生成各句子的simhash值并进行相应的汉明距离的计算，以此来减少停用词对计算结果的干扰，这也就进一步地保证了最终查重结果的准确度。

此处，本领域技术人员可以理解的是，停用词指的是一些特定字词，如：吗、吧、呗、吧哒、哎呀、『、﹃、﹠等部分无意义词及标点符号。

在通过上述方式对上传文件和对比文件数据库中的对比文件进行全量查重的预处理之后，即可对上传文件与各对比文件进行1v1的精细查重。

其中，在对上传文件与各对比文件进行1V1精细查重时，则按照前面所提到的步骤S100至步骤S500依次执行。此处，应当指出的是，由于在进行全量查重过程中已经对上传文件和对比文件进行了切分，因此此处可直接执行步骤S200。

具体的，在执行步骤S200，对各待检测句子与各对比句子进行相似度计算，由各对比句子中提取出与待检测句子相似的句子作为独立相似句子时，可以基于上传文件和对比文件的词频-逆文档频率，计算各待检测句子与各对比句子的余弦相似度，然后根据各待检测句子与各对比句子的余弦相似度进行相似度计算。

即，分别计算上传文件和当前所提取的用于进行查重的对比文件的词频 -逆文档频率，然后利用计算得到的上传文件的词频-逆文档频率和对比文件的词频-逆文档频率计算上传文件中各待检测句子与对比文件中各对比句子的余弦相似度。进而，再根据计算得到的各待检测句子与各对比句子的余弦相似度，由各对比句子中提取出与各待检测句子相似的句子记为独立相似句子。

其中，在根据计算得到的各待检测句子与各对比句子的余弦相似度进行独立相似句子的提取时，可以通过计算得到的各余弦相似度与预先设置的第一相似度阈值进行比较，对于小于第一相似度阈值的则直接判定为不相似，对于大于或等于第一相似度阈值的则可以判定为相似。

举例来说，参阅图2，对于上传文件A和对比文件B，通过步骤S100，对上传文件A和对比文件B均进行切分得到的各待检测句子分别为：A1、A2、 A3、……、An，以及各对比句子分别为：B1、B2、B3、……、Bm。其中， n和m的取值均为正整数，且均大于1。

通过上述方式计算A1分别与B1、B2、B3、……Bm的余弦相似度，A2 分别与B1、B2、B3、……Bm的余弦相似度，A3分别与B1、B2、B3、…… Bm的余弦相似度，……，An分别与B1、B2、B3、……Bm的余弦相似度。

然后再通过步骤S210，对上述计算得到的各相似度分别进行与第一相似度阈值的比较。在比较出A1与B1的余弦相似度大于第一相似度阈值时，则可以判定为A1与B1相似。在比较出A1与B2的余弦相似度大于第一相似度阈值时，则可以判定A1与B2相似。对于A2，同样根据与第一相似度阈值的比较，可以由B1、B2、B3、……、Bm中提取出与A2相似的独立相似句子。

依次类推，通过步骤S220，最终根据初次相似度计算的结果与第一相似度阈值的比较得到：A1与B2相似(即，A1：B2)；A2与B3相似(即，A2： B3)；A3与B4相似(即，A3：B4)；A4与B5相似(即，A4：B5)；A1与B1 相似(即，A1：B1)；A1与B100相似(即，A1：B100)；A10与B30相似(即， A10：B30)；A11与B32相似(即，A11：B32)；A25与B50相似(即，A25： B50)。

其中，还需要说明的是，对于A1、A2、A3、……、An，可以存在多个独立相似句子(如：上述实施例中的A1)，也可以存在一个独立相似句子，还可以不存在独立相似句子。

在通过上述方式由各对比句子中提取出与各待检测句子相似的独立相似句子之后，即可执行步骤S300，对存在有独立相似句子的待检测句子进行合并得到待检测合并句子，对独立相似句子进行合并得到相似合并句子，并基于各待检测合并句子及对应的相似合并句子再次进行相似度计算。即，将独立相似句子进行合并，以及将存在有独立相似句子的待检测句子进行合并，然后再次重新计算余弦相似度。

其中，在一种可能的实现方式中，对独立相似句子进行合并得到相似合并句子时，基于两个相似句子之间间隔的句子数进行合并。对应的，对存在有独立相似句子的待检测句子进行合并得到待检测合并句子时，同样也是基于两个待检测句子之间间隔的句子数进行合并。

也就是说，在分别进行独立相似句子和存在有独立相似句子的待检测句子的合并时，可以根据要合并的两个句子之间间隔的句子数进行合并。同时，在进行合并时，可以按照句子的先后顺序逐个进行合并。

具体的，对于独立相似句子的合并，可以通过判断两个独立相似句子之间间隔的句子数是否小于或等于间隔阈值，如果两个独立相似句子之间间隔的句子数小于或等于间隔阈值，则可以认为这两个独立相似句子可以跨纬度合并计算，因此直接将这两个独立相似句子进行合并。如果两个独立相似句子之间间隔的句子数大于间隔阈值，则这两个独立相似句子不能进行合并。

其中，对于存在独立相似句子的待检测句子的合并过程，与独立相似句子的合并过程相同或相似，此处不再进行赘述。

其中，间隔阈值的取值可以根据实际情况灵活设置。在本申请实施例的方法中，间隔阈值的取值可以设置为：[3，6]，优选为4。

举例来说，参阅图2，存在独立相似句子的待检测句子包括：A1、A2、 A3、A4、A10、A11、A25。对应的，由各对比句子：B1、B2、B3、……Bm 中提取出的独立相似句子包括：B1、B2、B3、B4、B5、B30、B32、B50、 B100。

对于存在独立相似句子的待检测句子进行合并时，预先所设置的间隔阈值为4，由此，通过步骤S310和步骤S320，分别对待检测句子A1、A2、A3、 A4、A10、A11、A25逐个进行合并后，得到的合并结果为：{A1、A2、A3、 A4}，{A10、A11}，{A25}。对于独立相似句子：B1、B2、B3、B4、B5、 B30、B32、B50、B100的合并，逐个合并后的合并结果为：{B1、B2、B3、 B4、B5}，{B30、B32}，{B50}，{B100}。

此处，需要说明的是，由于待检测句子与相似的独立相似句子是成对的，因此在通过上述方式进行句子合并后，还需要对待检测句子的合并结果与独立相似句子的合并结果进行对应，最终得到的合并结果为：

{A1、A2、A3、A4}：{B1、B2、B3、B4、B5}；

{A10、A11}：{B30、B32}；

{A25}：{B50}；

{A1}：{B100}。

其中，该合并结果中包含有待检测合并句子：{A1、A2、A3、A4}、{A10、 A11}、{A25}和{A1}，以及相似合并句子：{B1、B2、B3、B4、B5}、{B30、 B32}、{B50}和{B100}。

通过上述方式分别对存在有独立相似句子的待检测句子和独立相似句子进行合并之后，即可基于合并后的各待检测合并句子及对应的相似合并句子再次进行相似度计算。此处，本领域技术人员可以理解的是，再次进行相似度计算时同样可以采用余弦相似度计算的方式，此处不再进行赘述。

接着，再根据再次进行相似度计算的结果，对待检测合并句子及对应的相似合并句子进行过滤去重。其中，在对待检测合并句子及对应的相似合并句子进行过滤去重时，可以先通过步骤S330，根据各待检测句子及对应的相似合并句子的相似度，与第二相似度阈值的关系进行初级过滤，由待检测句子合并句子及对应的相似合并句子中选取出满足第二相似度阈值(即，大于或等于第二相似度阈值)的待检测合并句子及对应的相似合并句子。

然后，再对经过初级过滤后的待检测合并句子及对应的相似合并句子进行再次过滤去重。此处，应当指出的是，对待检测合并句子及对应的相似合并句子进行过滤去重时，可以通过各待检测合并句子与对应的相似合并句子的相似度、以及各待检测合并句子与对应的相似合并句子的句子长度进行过滤。

具体的，首先对合并后的待检测句子(即，待检测合并句子)进行是否存在交集的检测。即，对每一个待检测合并句子与其他待检测合并句子进行是否存在交集的检测。此处，本领域技术人员可以理解的是，存在交集指的是两个待检测合并句子中包含有相同的待检测句子。

在检测出其中一个待检测合并句子与另一个待检测合并句子存在交集时，则对存在交集的待检测合并句子的相似度进行比较，保留相似度最高的待检测合并句子。如果存在相似度相同的待检测合并句子，则保留句子长度最长的待检测合并句子。

同时，对于经过待检测合并句子及对应的相似合并句子，句子长度小于长度阈值时则直接过滤掉，不进行后面的最长公共子序列的计算。

举例来说，参阅图2，对于待检测合并句子及对应的相似合并句子：

{A1、A2、A3、A4}：{B1、B2、B3、B4、B5}；

{A10、A11}：{B30、B32}；

{A25}：{B50}；

{A1}：{B100}；

首先根据{A1、A2、A3、A4}与{B1、B2、B3、B4、B5}的相似度a、{A10、 A11}与{B30、B32}的相似度b、{A25}与{B50}的相似度c、以及{A1}与{B100} 的相似度d，对上述待检测合并句子及对应的相似合并句子进行初级过滤。通过判断相似度a、b、c和d均大于第二相似度阈值，此时则全部保留。

然后，再依次通过步骤S410和步骤S4220，检测各待检测合并句子{A1、 A2、A3、A4}、{A10、A11}、{A25}和{A1}是否存在交集。检测时，可以逐个句子两两进行检测。即，对{A1、A2、A3、A4}与其他另外三个待检测句子之间是否存在交集。在检测出{A1、A2、A3、A4}与{A1}存在交集{A1} 时，则比较{A1、A2、A3、A4}的相似度a与{A1}的相似度d的大小。在比较出a大于b时，则选择保留{A1、A2、A3、A4}，过滤掉{A1}。在比较出a等于b时，则根据{A1、A2、A3、A4}和{A1}的句子长度，选取句子长度较长的{A1、A2、A3、A4}保留，过滤掉句子长度较短的{A1}。

其中，由于相似合并句子与待检测合并句子为成对对应关系，因此在本申请实施例的方法中，在过滤掉其中一个待检测合并句子时，可对应过滤掉与其对应的相似合并句子。

同时，还需要说明的是，在上述实施例中还包括步骤S430，对于各待检测合并句子{A1、A2、A3、A4}、{A10、A11}、{A25}和{A1}中，句子长度小于长度阈值时则直接过滤掉，不进行后面的最长公共子序列的计算。

通过上述方式最终经过过滤去除后的结果为：

{A1、A2、A3、A4}：{B1、B2、B3、B4、B5}；

{A10、A11}：{B30、B32}；

{A25}：{B50}。

其中，需要指出的是，第二相似度阈值与第一相似度阈值的取值可以相同，也可以不同，具体可根据实际情况进行灵活设置，此处不进行具体限定。优选的，第二相似度阈值与第一相似度阈值的取值可以采用相同的数值。同时，在一种可能的实现方式中，第二相似度阈值和第一相似度阈值的取值范围均可以设置为[30，60]。

在通过上述方式对待检测合并句子及对应的相似合并句子进行过滤去重之后，即可执行步骤S500，对过滤去重后得到的各待检测句子及对应的相似合并句子进行最长公共子序列计算，并根据最长公共子序列的计算结果得出相应的查重结果。

其中，进行最长公共子序列计算的具体方式可以采用动态规划的算法来实现。采用动态规划算法进行最长公共子序列计算，实现了以空间换时间的目的，极大地缩减了数据计算的时间，更进一步地提高了文本查重效率。此处，本领域技术人员可以理解的是，动态规划算法为本领域的常规算法，此处不再进行赘述。

同时，根据最长公共子序列的计算结果得出上传文件的查重结果，可以通过以下方式来实现。

即，通过对各待检测合并句子及对应的相似合并句子进行最长公共子序列计算得到完全相同的字符串，然后再通过公式：(完全相同的字符串的字符数/待检测合并句子的字符数)计算得到相应的相同字符比例值。再通过比较相同字符比例值与预设的比例阈值得到是否重复的结果。

更加具体的，如果比较出相同字符比例值大于或那等于比例阈值，则可以判定该待检测句子与对比文件中的对比句子重复。如果比较出相同字符比例值小于比例阈值，则可以判定对应的句子不重复。

举例来说，参阅图2，对于过滤去重后得到的待检测合并句子及对应的相似合并句子：

{A1、A2、A3、A4}：{B1、B2、B3、B4、B5}；

{A10、A11}：{B30、B32}；

{A25}：{B50}；

通过分别对{A1、A2、A3、A4}：{B1、B2、B3、B4、B5}、{A10、 A11}：{B30、B32}、以及{A25}：{B50}进行最长公共子序列计算，并根据最长公共子序列计算结果，得到对应的相同字符比例值。

然后，再对{A1、A2、A3、A4}：{B1、B2、B3、B4、B5}的相同字符比例值、{A10、A11}：{B30、B32}的相同字符比例值、和{A25}：{B50} 的相同字符比例值分别与比例阈值进行比较，即可得出{A1、A2、A3、A4} 与{B1、B2、B3、B4、B5}是否重复、{A10、A11}与{B30、B32}是否重复、和{A25}与{B50}是否重复的结果。

其中，还需要指出的是，在上述实施方式中，比例阈值的取值同样可以根据实际情况灵活设置。在一种可能的实现方式中，比例阈值的取值范围可以为[0.7，0.9]。

参阅图3，为采用本申请实施例的方法对某一篇上传文件进行查重后的结果展示。由此可以看出，通过本申请实施例的文本查重方法，能够实现文本的精细查看，使得查看结果能够具体到以字为单位，这就使得在进行重复率的统计时更加准确。

更进一步的，在本申请实施例的文本查重方法中，在将当前需要查重的上传文件和对比文件进行切分，分别得到上传文件中的各待检测句子和对比文件中的各对比句子之前，还可以包括对上传文件是否为独立段落的判断。

也就是说，在对当前要查重的上传文件进行切分之前，首先先判断上传文件是否为独立段落。如果判断出上传文件为独立段落时，则检测上传文件的文字长度是否处于预设的长度阈值区间内。此处，需要指出的是，预设的长度阈值区间同样也可以根据实际情况进行灵活设置。在一种可能的实现方式中，长度阈值区间可以设置为[5，30]。

如果判断出上传文件的文字长度处于长度阈值区间内时，由预先构建的对比文件数据库中提取出对比段落，并对上传文件与对比段落进行比较，得到相应的查重结果。即，如果上传文件独立段落与对比文件中的独立段落完全一样则可以判定为重复。

如果判断出上传文件的文字长度处于长度阈值区间之外时，再执行前面的步骤S100至步骤S500，基于上传文件的文字长度与长度阈值区间的关系进行相应的查重处理。

举例来说，若上传文件段落长度小于5个字符，则该段落直接判定不重复。若上传文件段落长度5-20字符，则上传文件段落与对比文件段落“完全相同”才判定为重复，否则不重复。若上传文件段落长度大于20字符，则需要比较相同字符所占对比句子的比例是否满足阈值，若满足则判为重复，反之不重复。其中，比较相同字符所占对比句子的比例是否满足阈值则可以通过前面所述的步骤S100至步骤S500的方式进行。

参阅图4，图4示出了在实现本申请实施例的文本查重方法时所构建的系统的功能结构图。在执行本申请实施例的文本查重方法时，主要是通过后台运行模块进行文本的查重处理过程。

具体的，可以先通过后台运行模块将当前要查重的上传文件进行格式转换，将上传文件转换为纯文本文件，然后再通过后台运行模块对转换后的纯文本文件进行文件适配，以及由构建的对比文件数据库中读取出相应的对比文件后，再进行相似度计算等操作，从而基于得到的相似度计算结果进行相应的重复判定。

其中，在进行上传文件的上传时，可以通过文件导入模块来实现，可以支持doc、docx、wps、文字型pdf等格式文件的导入，从而满足各种格式的文件的查重处理。

此外，还包括有文件预览模块。通过设置文件预览操作，在触发到文件预览后，即可实现对导入文件(即，上传文件)的预览功能。

并且，优选的，还包括有重复句段展示模块。即，在通过前面所述的方式完成对上传文件的查重判定之后，通过触发重复句段展示指令，即可将查重判定出来的重复句段通过高亮的方式展示出来。此处，还需要指出的是，在通过高亮的方式将重复句段展示出来的同时，还可以同步展示出对比文件中相重复的句段，从而形成上传文件与对比文件的比较。

进一步的，还包括有重复率统计模块。即，通过触发重复率统计指令，进而在基于触发的重复率统计指令，进行总重复率、各分句段重复率的统计计算并显示。其中，总重复率以及各分句段重复率的统计计算方式可以采用本领域的常规方式来实现，此处不再进行具体说明。

需要说明的是，总重复率指的是：所有重复句段的重复总字数/上传文件的总字数。各分句段重复率指的是：各句段的重复字数/上传文件的总字数。

另外，还包括有重复报告生成模块。该重复报告生成模块可以支持查重报告的生成和导出。其中，本领域技术人员可以理解的是，查重报告的生成和导出可以以通过调用相应的查重报告模板来实现，采用一键生成的方式生成和导出查重报告，此处也不再进行赘述。

相应的，基于前面任一所述的文本查重方法，本申请还提供了一种文本查重装置。由于本申请提供的文本查重装置的工作原理与本申请的文本查重方法的原理相同或相似，因此重复之处不再赘述。

参阅图5，本申请提供的文本查重装置100包括：文件切分模块110、第一相似度计算模块120、第二相似度计算模块130、比较过滤模块140和查重处理模块150。其中，文件切分模块110，被配置为将当前需要查重的上传文件和对比文件进行切分，分别得到上传文件中的各待检测句子和对比文件中的各对比句子。第一相似度计算模块120，被配置为对各待检测句子与各对比句子进行相似度计算，由各对比句子中提取出与待检测句子相似的句子作为独立相似句子。第二相似度计算模块130，被配置为对存在有所述独立相似句子的待检测句子进行合并得到待检测合并句子，对所述独立相似句子进行合并得到相似合并句子，并基于各所述待检测合并句子及对应的所述相似合并句子再次进行相似度计算。

比较过滤模块140，被配置为根据所述第二相似度计算模块再次进行相似度计算的结果，对所述待检测合并句子及对应的相似合并句子进行过滤去重。查重处理模块150，被配置为对过滤去重后得到的各所述待检测句子及对应的相似合并句子进行最长公共子序列计算，并根据最长公共子序列的计算结果得出相应的查重结果。

更进一步地，根据本申请的另一方面，还提供了一种文本查重设备200。参阅图6，本申请实施例的文本查重设备200包括处理器210以及用于存储处理器210可执行指令的存储器220。其中，处理器210被配置为执行可执行指令时实现前面任一所述的文本查重方法。

此处，应当指出的是，处理器210的个数可以为一个或多个。同时，在本申请实施例的文本查重设备200中，还可以包括输入装置230和输出装置 240。其中，处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器220作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本申请实施例的文本查重方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块，从而执行文本查重设备200的各种功能应用及数据处理。

输入装置230可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种文本查重方法，其特征在于，包括：

对过滤去重后得到的各所述待检测句子及对应的相似合并句子进行最长公共子序列计算，并根据最长公共子序列的计算结果得出相应的查重结果；

其中，将所述上传文件和对比文件进行切分时，所述对比文件由预先构建的对比文件数据库中提取；

其中，由所述对比文件数据库中提取所述对比文件时，通过对所述对比文件数据库中的各对比文件进行排序，根据排序结果提取相应的对比文件作为当前对所述上传文件进行查重的对比文件；

对所述对比文件数据库中的各对比文件进行排序，包括：

对提取出的待检测句子和提取出的对比句子分别生成simhash值，并利用提取出的待检测句子的simhash值和各所述对比文件中提取出的对比句子的simhash值，对各所述对比文件进行排序；

利用提取出的待检测句子的simhash值和各所述对比文件中提取出的对比句子的simhash值，对各所述对比文件进行排序时，包括：

按照所述相似度得分对各所述对比文件进行排序。

2.根据权利要求1所述的方法，其特征在于，对各所述待检测句子与各所述对比句子进行相似度计算，由各所述对比句子中提取出与所述待检测句子相似的句子作为独立相似句子，包括：

3.根据权利要求1所述的方法，其特征在于，对所述独立相似句子进行合并得到相似合并句子时，基于两个所述相似句子之间间隔的句子数进行合并；

4.根据权利要求1所述的方法，其特征在于，根据再次进行相似度计算的结果，对所述待检测合并句子及对应的相似合并句子进行过滤去重时，通过各所述待检测合并句子与对应的相似合并句子的相似度、以及各所述待检测合并句子与对应的相似合并句子的句子长度进行对比过滤。

5.根据权利要求1所述的方法，其特征在于，将当前需要查重的上传文件和对比文件进行切分，分别得到所述上传文件中的各待检测句子和所述对比文件中的各对比句子之前，还包括：

判断所述上传文件是否为独立段落；

6.一种文本查重装置，其特征在于，包括：文件切分模块、第一相似度计算模块、第二相似度计算模块、比较过滤模块和查重处理模块；

所述查重处理模块，被配置为对过滤去重后得到的各所述待检测句子及对应的相似合并句子进行最长公共子序列计算，并根据最长公共子序列的计算结果得出相应的查重结果；

对所述对比文件数据库中的各对比文件进行排序，包括：

按照所述相似度得分对各所述对比文件进行排序。

7.一种文本查重设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1至5中任意一项所述的方法。