CN111753516A

CN111753516A - 文本查重处理方法、装置、计算机设备及计算机存储介质

Info

Publication number: CN111753516A
Application number: CN202010605505.6A
Authority: CN
Inventors: 肖丹; 陈翔
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-09
Anticipated expiration: 2040-06-29
Also published as: CN111753516B

Abstract

本申请适用于人工智能技术领域，提供一种文本查重处理方法、装置、计算机设备及计算机存储介质，通过获取待查重文本对应的词语分数表，结合词语分数表中目标词语对应的词语分数值，按照词语级别对待查重文本和保存于历史文本数据库中的历史文本进行比对计算，获得待查重文本与历史文本之间的相似度。将相似度与相似度阈值进行比较，根据比较结果评定出待查重文本是否为重复文本。方法基于词语对应的词语分数值来比对计算文本与文本之间相似度，令含有专有信息的词语对文本相似度评定产生较大影响，而一般性的词语对文本相似度评定产生较小的影响，使得两个文本内容是否重复的判断与该两个文本中的词语强相关，提高文本查重的准确性和可靠性。

Description

文本查重处理方法、装置、计算机设备及计算机存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本查重处理方法、装置、计算机设备及计算机存储介质。

背景技术

如今，项目申报政府机构针对于企业或其他研究单位作出的系列优惠政策。一些企业为了能够多获得项目申报的奖励资金，存在同一个项目向不同的政府部门进行申报或者以不同企业的名义申报同一个项目的情况。而且，同一个项目在两次申报时往往会对文本文件的描述进行调整和区分，使得两个文本文件不完全相同，达到换词不换意的效果。对于这些企业的行为，无疑是增加了查重的难度。

目前现有的查重方法只是针对两篇文章的相似性，主要通过简单地比对文本中的关键词与数据库文本中的关键词是否一致来确认两个文本之间的相似性。对于一些申报项目或论文而言，可能会存在因主题、研究方向等的相同或相似使得两个文本之间具有较多相同的关键字，但是两个文本本质上却并不属于重复文本的情况，此时，若按此种方法重查准确率低、且可靠性差。

发明内容

有鉴于此，本申请实施例提供了一种文本查重处理方法、装置、终端及计算机存储介质，以解决现有技术中查重方法存在效率低、准确率低、可靠性差的问题。

本申请实施例的第一方面提供了一种文本查重处理方法，包括：

获取待查重文本对应的词语分数表，所述词语分数表中含有所述待查重文本的所有目标词语以及与目标词语对应的词语分数值，其中，所述目标词语表征所述待查重文本的内容信息，所述词语分数值表征目标词语对文本相似度评定的影响程度；

结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度；

将所述相似度与预设的相似度阈值进行比较，根据比较结果评定所述待查重文本是否为重复文本。

结合第一方面，在第一方面的第一种可能实现方式中，所述获取待查重文本对应的词语分数表的步骤之前，还包括：

对保存于历史文本数据库中的历史文本进行分词处理，以获得表征历史文本内容的第一词语，其中，所述第一词语表征历史文本的内容信息；

识别所述第一词语在所述历史文本数据库中的出现次数以及所述第一词语对应的字节长度；

结合所述第一词语的出现次数和字节长度，按照预设的算法规则计算出所述第一词语对应的词语分数值；

将所述第一词语对应的词语分数值与所述第一词语进行关联，以构建出与所述历史文本数据库对应的第一词语-词语分数值对应关系表。

结合第一方面的第一种可能实现方式，在第一方面的第二种可能实现方式中，所述结合所述第一词语的出现次数和字节长度，按照预设的算法规则计算出所述第一词语对应的词语分数值的步骤中，计算所述词语分数值时所采用的公式为：

其中，F_(x)为按照第一词语在历史文本中的出现次数由高至低进行排序后，排序序号为x的第一词语所对应的词语分数值；A为最高基础分值，即按照第一词语在历史文本中的出现次数由高至低进行排序后，排序在最后一位的第一词语所对应的基础分值；x为按第一照词语在历史文本中的出现次数对词语由高至低排序后，第一词语所对应的排序序号；N为历史文本数据库中的第一词语的个数；L_(x)为排序序号为x的第一词语所对应的字节长度。

结合第一方面的第二种可能实现方式，在第一方面的第三种可能实现方式中，所述对保存于历史文本数据库中的历史文本进行分词处理，以获得表征历史文本内容的第一词语，其中，所述第一词语表征历史文本的内容信息的步骤之前，还包括：

对所述保存于历史文本数据库中的历史文本进行分类处理，以按照所述历史文本的类别分别构建对应的第一词语-词语分数表。

结合第一方面，在第一方面的第四种可能实现方式中，所述结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度的步骤，包括：

按照词语级别比对所述待查重文本和保存于历史文本数据库中的历史文本，提取出同时存在于所述待查重文本和所述历史文本中的第一目标词语；

分别统计所述第一目标词语在所述待查重文本中的出现次数和在所述历史文本中的出现次数；

根据所述第一目标词语在所述待查重文本中的出现次数和在所述历史文本中的出现次数生成与所述第一目标词语对应的用于计算所述待查重文本与所述历史文本之间相似度的第一影响因子；

根据所述第一影响因子和从词语分数表中获得的所述第一目标词语对应的词语分数值计算出所述第一目标词语对应的贡献分数值，其中，所述贡献分数值为所述第一目标词语在评定所述待查重文本与所述历史文本之间的相似度时所贡献的分数值；

结合所有同时存在于所述待查重文本和所述历史文本中的第一目标词语对应的贡献分数值进行求和计算，以获得所述待查重文本与所述历史文本之间的相似度。

结合第一方面的第四种可能实现方式，在第一方面的第五种可能实现方式中，所述结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度的步骤，还包括：

按照词语级别比对所述待查重文本和保存于历史文本数据库中的历史文本，提取出所有单独存在于所述待查重文本中的第二目标词语和所有单独存在于所述历史文本中的第三目标词语；

统计所述待查重文本中第二目标词语的数量以及所述历史文本中第三目标词语的数量；

根据所述第二目标词语的数量以及所述第三目标词语的数量生成用于计算所述待查重文本与所述历史文本之间相似度的第二影响因子；

根据所述第二影响因子和从词语分数表中获得的所述第二目标词语所对应的词语分数值计算出所述第二目标词语对应的贡献分数值；

结合所有第一目标词语对应的贡献分数值以及所述第二目标词语对应的贡献分数值进行求和计算，以获得所述待查重文本与所述历史文本之间的相似度。

结合第一方面的上述任意一种可能实现方式，在第一方面的第六种可能实现方式中，所述结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度的步骤之后，还包括：

获取待查重文本的字节长度和历史文本的字节长度；

根据待查重文本的字节长度和历史文本的字节长度对所述待查重文本与历史文本之间的相似度进行修正处理。

本申请实施例的第二方面提供了一种文本查重处理装置，包括：

获取模块，用于获取待查重文本对应的词语分数表，所述词语分数表中含有所述待查重文本的所有目标词语以及与目标词语对应的词语分数值，其中，所述目标词语表征所述待查重文本的内容信息，所述词语分数值表征目标词语对文本相似度评定的影响程度；

计算模块，用于结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度；

评定模块，用于将所述相似度与预设的相似度阈值进行比较，根据比较结果评定所述待查重文本是否为重复文本。

结合第二方面，在第二方面的第一种可能实现方式中，文本查重处理装置还包括：

第一获取子模块，用于对保存于历史文本数据库中的历史文本进行分词处理，以获得表征历史文本内容的第一词语，其中，所述第一词语表征历史文本的内容信息；

第一识别子模块，用于识别所述第一词语在所述历史文本数据库中的出现次数以及所述第一词语对应的字节长度；

第一计算子模块，用于结合所述第一词语的出现次数和字节长度，按照预设的算法规则计算出所述第一词语对应的词语分数值；

第一关联子模块，用于将所述第一词语对应的词语分数值与所述第一词语进行关联，以构建出与所述历史文本数据库对应的第一词语-词语分数值对应关系表。

结合第二方面，在第二方面的第二种可能实现方式中，文本查重处理装置还包括：

分类子模块，用于对所述保存于历史文本数据库中的历史文本进行分类处理，以按照所述历史文本的类别分别构建对应的第一词语-词语分数表。

结合第二方面，在第二方面的第三种可能实现方式中，文本查重处理装置还包括：

第一比对子模块，用于按照词语级别比对所述待查重文本和保存于历史文本数据库中的历史文本，提取出同时存在于所述待查重文本和所述历史文本中的第一目标词语；

第一统计子模块，用于分别统计所述第一目标词语在所述待查重文本中的出现次数和在所述历史文本中的出现次数；

第一生成子模块，用于根据所述第一目标词语在所述待查重文本中的出现次数和在所述历史文本中的出现次数生成与所述第一目标词语对应的用于计算所述待查重文本与所述历史文本之间相似度的第一影响因子；

第二计算子模块，用于根据所述第一影响因子和从词语分数表中获得的所述第一目标词语对应的词语分数值计算出所述第一目标词语对应的贡献分数值，其中，所述贡献分数值为所述第一目标词语在评定所述待查重文本与所述历史文本之间的相似度时所贡献的分数值；

第一求和子模块，用于结合所有同时存在于所述待查重文本和所述历史文本中的第一目标词语对应的贡献分数值进行求和计算，以获得所述待查重文本与所述历史文本之间的相似度。

结合第二方面，在第二方面的第四种可能实现方式中，文本查重处理装置还包括：

第二比对子模块，用于按照词语级别比对所述待查重文本和保存于历史文本数据库中的历史文本，提取出所有单独存在于所述待查重文本中的第二目标词语和所有单独存在于所述历史文本中的第三目标词语；

第二统计子模块，用于统计所述待查重文本中第二目标词语的数量以及所述历史文本中第三目标词语的数量；

第二生成子模块，用于根据所述第二目标词语的数量以及所述第三目标词语的数量生成用于计算所述待查重文本与所述历史文本之间相似度的第二影响因子；

第三计算子模块，用于根据所述第二影响因子和从词语分数表中获得的所述第二目标词语所对应的词语分数值计算出所述第二目标词语对应的贡献分数值；

第二求和子模块，用于结合所有第一目标词语对应的贡献分数值以及所述第二目标词语对应的贡献分数值进行求和计算，以获得所述待查重文本与所述历史文本之间的相似度。

结合第二方面，在第二方面的第五种可能实现方式中，文本查重处理装置还包括：

第二获取子模块，用于获取待查重文本的字节长度和历史文本的字节长度；

第一修正子模块，用于根据待查重文本的字节长度和历史文本的字节长度对所述待查重文本与历史文本之间的相似度进行修正处理。

本申请实施例的第三方面提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在计算机设备上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方案提供的文本查重处理方法的各步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方案提供的文本查重处理方法的各步骤。

本申请实施例提供的一种文本查重处理方法、装置、计算机设备及计算机存储介质具有以下有益效果：

本申请实施例提供的一种文本查重处理方法，通过获取待查重文本对应的词语分数表，结合词语分数表中目标词语对应的词语分数值，按照词语级别对待查重文本和保存于历史文本数据库中的历史文本进行比对计算，获得待查重文本与历史文本之间的相似度。将相似度与相似度阈值进行比较，根据比较结果评定出待查重文本是否为重复文本。方法基于词语对应的词语分数值来比对计算文本与文本之间相似度，令含有专有信息的词语对文本相似度评定产生较大影响，而一般性的词语对文本相似度评定产生较小的影响，使得两个文本内容是否重复的判断与该两个文本中的词语强相关，提高文本查重的准确性和可靠性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请第一实施例提供的一种文本查重处理方法的实现流程图；

图2为本申请第二实施例提供的一种文本查重处理方法的实现流程图；

图3为本申请第三实施例提供的一种文本查重处理方法的实现流程图；

图4为本申请第四实施例提供的一种文本查重处理方法的实现流程图；

图5为本申请第五实施例提供的一种文本查重处理方法的实现流程图；

图6为本申请实施例提供的一种文本查重处理装置的结构框图；

图7为本申请实施例提供的一种计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

请参阅图1，图1为本申请第一实施例提供的一种文本查重处理方法的实现流程图。详述如下：

步骤S11：获取待查重文本对应的词语分数表，所述词语分数表中含有所述待查重文本的所有目标词语以及与目标词语对应的词语分数值，其中，所述目标词语表征所述待查重文本的内容信息，所述词语分数值表征目标词语对文本相似度评定的影响程度。

本实施例中，词语分数表中所述待查重文本的所有目标词语以及与目标词语对应的词语分数值。目标词语表征所述待查重文本的内容信息。词语分数值表征词语对文本相似度评定的影响程度，即词语在判断文本相似性时所做出的贡献的大小。在本实施例中，目标词语是通过对待查重文本进行按照词语级别的文本细粒度进行分词处理获得。该目标词语所对应的词语分数值则从保存于历史文本数据库中的第一词语-词语分数值对应关系表中获得。在一些具体实现中，当待查重文本按照词语级别的文本细粒度进行分词处理划分得到用于表征该待查重文本内容信息的多个目标词语后，通过遍历保存于历史文本数据库中的第一词语-词语分数值对应关系表，从该第一词语-词语分数值对应关系表中获取得到与目标词语对应的词语分数值。将该目标词语和依据该目标词语从第一词语-词语分数值对应关系表中获取的词语分数值进行关联并保存至一个空表格中，当待查重文本中的所有目标词语都获得对应的词语分数值并集中保存至同一个空表格后，即可获取待查重文本对应的词语分数表。

需要说明的是，在本实施例中，对于未能从第一词语-词语分数值对应关系表中获得词语分数值的目标词语，说明这些目标词语未在历史文本数据库中出现过，此时，可以采用一个预设的折合计算公式对这些目标词语进行整合，以计算出一个词语分数值用于表征这些目标词语对文本相似度评定的影响程度。具体地，该预设的折合计算公式可以配置为：

其中，F_other为待查重文本中未在历史文本数据库出现过的所有目标词语所对应的词语分数值；A为最高基础分数值；L_other为待查重文本中未在历史文本数据库出现过的所有目标词语所对应的字节长度总和。

步骤S12：结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度。

本实施例的历史文本数据库中收集有很多历史文本，这些历史文本用于作为文本查重的依据。在该历史文本数据库中，还通过对收集到的历史文本统一进行分词处理，以按照词语级别的文本细粒度将所有历史文本划分成词语的形式进行保存。即历史文本数据库表现为一个由很多词语组成的词语集合。这些划分得到的词语均表征历史文本数据库收集的历史文本的内容。在本实施例中，根据待查重文本中的每个目标词语，逐一遍历历史文本数据库，判定该目标词语是否在历史文本数据库中出现过，并且基于目标词语分别在待查重文本和历史文本数据库中出现的频率，结合词语分数表中该目标词语对应的词语分数值来进行比对计算，从而生成该目标词语对待查重文本和历史文本之间文本相似度评定所作出的贡献分数值。进而，计算出词语分数表中所有目标词语的贡献分数值后，对所有目标词语的贡献分数值进行相加，由此获得待查重文本与历史文本之间的相似度。

步骤S13：将所述相似度与预设的相似度阈值进行比较，根据比较结果评定所述待查重文本是否为重复文本。

本实施例中，可以预先配置用于判断文本内容是否重复的相似度衡量标准值，即相似度阈值。通过将由待查重文本和历史文本进行比对计算得出的相似度与该预先配置的相似度衡量标准值进行比较，从而根据比较结果来评定待查重文本是否为重复文本。

举例说明，例如预先设定阈值s1和s2，对于进行比对计算得出的待查重文本和历史文本之间的相似度s，若比较结果为s≥s1，表征待查重文本和历史文本之间的内容高度相似，此时将待查重文本标记为高重合度文本。若比较结果为s1＞s＞s2时，表征待查重文本和历史文本之间的内容具有一定的相似性，此时将待查重文本标记为较高重合度文本。可以理解的是，s1和s2的大小可以根据用户或者项目实际需要进行调整。在本实施例中，对于待查重文本，若待查重文本被标记为高重合度文本，则评定该待查重文本为重复文本。若待查重文本仅被标记为较高重合度文本，则引导系统进入人工复查环节，以对该待查重文本进行人工复查，进一步评定该待查重文本是否为重复文本。若待查重文本均未被标记为高重合度文本或较高重合度文本，则表征待查重文本和历史文本之间的内容明显不相似，此时可以评定该待查重文本为非重复文本。

以上可以看出，本实施例提供的一种文本查重处理方法，通过获取待查重文本对应的词语分数表，所述词语分数表中含有所述待查重文本的所有目标词语以及与目标词语对应的词语分数值，其中，所述目标词语表征所述待查重文本的内容信息，所述词语分数值表征目标词语对文本相似度评定的影响程度；结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度；将所述相似度与预设的相似度阈值进行比较，根据比较结果评定所述待查重文本是否为重复文本。该方法基于词语对应的词语分数值来比对计算文本与文本之间内容相似性，令含有专有信息的词语对文本相似度评定产生较大影响，而一般性的词语对文本相似度评定产生较小的影响，使得两个文本内容是否重复的判断与该两个文本中的词语强相关，提高文本查重的准确性和可靠性。

请参阅图2，图2为本申请第二实施例提供的一种文本查重处理方法的实现流程图。相对于图1对应的实施例，本实施例提供的文本查重处理方法在步骤S11之前包括步骤S21～S24。详述如下：

S21：对保存于历史文本数据库中的历史文本进行分词处理，以获得表征历史文本内容的第一词语，其中，所述第一词语表征历史文本的内容信息；

S22：识别所述第一词语在所述历史文本数据库中的出现次数以及所述第一词语对应的字节长度；

S23：结合所述第一词语的出现次数和字节长度，按照预设的算法规则进行计算，生成所述第一词语对应的词语分数值；

S24：将所述第一词语对应的词语分数值与所述第一词语进行关联，以构建出与所述历史文本数据库对应的第一词语-词语分数值对应关系表。

本实施例中，当收集到历史文本并将历史文本保存至历史文本数据库之后，通过对保存于历史文本数据库中的历史文本进行分词处理，以获得多个表征历史文本内容的第一词语，进而将这些第一词语以几何的形式保存于该历史数据库中。在一些具体实现中，首先将保存于历史文本数据库中的所有历史文本转化为GBK编码，然后按词语级别的文本细粒度将历史文本数据库中的历史文本拆分成多个第一词语。历史文本中有部分词语会存在重复出现，而对于文本查重，计算词语分数值的算法规则中包括但不限于：第一，词语在文本中出现的频率越高，则该词语在判断文本相似性时所作出的贡献越小，即词语分数值越小。第二，词语的字节长度越长，则该词语在判断文本相似性时所作出的贡献越大，即词语分数值越大。因而在对历史文本进行分词处理后，进一步地识别每个第一词语在历史文本中的出现次数以及该第一词语对应的字节长度，进而按照预设的算法规则，将该第一词语在历史文本中的出现次数以及该词语的字节长度代入到算法规则进行计算，生成与该词语对应的词语分数值。最后，获得保存于历史文本数据库中的每个第一词语对应的词语分数值后，通过将这些第一词语及其对应的词语分数值进行关联，以构建出与该历史文本数据库对应的第一词语-词语分数值对应关系表。

在一些具体的实施方式中，计算词语分数值时，可以由以下关系式计算得出：

举例说明，例如对历史文本数据库中的所有历史文本进行分词处理后获得N个第一词语，通过统计得出该N个第一词语在历史文本中的出现次数由高至低排序为P1、P2、P3、P4......Pn，其中n至少大于等于1。而且按照该排序记录该N个第一词语对应的字节长度分别为L1、L2、L3、L4......Ln。根据上述获得的第一词语在历史文本中的出现次数和第一词语的字节长度，按照上述计算词语分数值的关系式，即可分别获得每一个第一词语对应的词语分数值。通过将第一词语与其对应的分数值映射关联并记录于表中，由此生成第一词语-词语分数值对应关系表。

本申请的一些实施例中，文本的相似性取决于文本强相关的专用词语、设备名称等。因而，在历史文本数据库中，还可以对其收集的历史文本进行分类处理，例如按照文本的属性进行分类，对于相同的词语，按照其所在文本的属性区分配置词语分数值，例如科学类文本、人文类文本等，进而按照分类分别构建对应的第一词语-词语分数值对应关系表，由此实现基于文本的属性来提升文本查重判断的准确性。

请参阅图3，图3为本申请第三实施例提供的一种文本查重处理方法的实现流程图。相对于图1及图2对应的实施例，本实施例提供的文本查重处理方法在步骤S12包括步骤S31～S35。详述如下：

S31：按照词语级别比对所述待查重文本和保存于历史文本数据库中的历史文本，提取出同时存在于所述待查重文本和所述历史文本中的第一目标词语；

S32：分别统计所述第一目标词语在所述待查重文本中的出现次数和在所述历史文本中的出现次数；

S33：根据所述第一目标词语在所述待查重文本中的出现次数和在所述历史文本中的出现次数生成与所述第一目标词语对应的用于计算所述待查重文本与所述历史文本之间相似度的第一影响因子；

S34：根据所述第一影响因子和从词语分数表中获得的所述第一目标词语对应的词语分数值计算出所述第一目标词语对应的贡献分数值，其中，所述贡献分数值为所述第一目标词语在评定所述待查重文本与所述历史文本之间的相似度时所贡献的分数值；

S35：结合所有同时存在于所述待查重文本和所述历史文本中的第一目标词语对应的贡献分数值进行求和计算，以获得所述待查重文本与所述历史文本之间的相似度。

本实施例中，基于对待查重文本和历史文本进行分词处理，可以按照词语级别对待查重文本进行查重。在本实施例中，查重过程包括针对同时存在于待查重文本和历史文本中的词语进行查重。在一些具体实现中，当待查重文本和保存于历史文本数据库中的历史文本经过分词处理后，通过按照词语级别比对所述待查重文本和保存于历史文本数据库中的历史文本，提取出同时存在于待查重文本和历史文本中的第一目标词语，即该第一目标词语既存在于待查重文本的词语分数表中，也存在于与所述历史文本数据库对应的第一词语-词语分数值对应关系表中。获得第一目标词语后，分别统计该第一目标词语在待查重文本中的出现次数和在历史文本中的出现次数，进而根据该第一目标词语在待查重文本中的出现次数和在历史文本中的出现次数生成与该第一目标词语对应的用于计算待查重文本与历史文本之间相似度的第一影响因子。从而，根据第一影响因子和从词语分数表中获得的该第一目标词语对应的词语分数值计算出该第一目标词语对应的贡献分数值，其中，贡献分数值为第一目标词语在评定待查重文本与历史文本之间的相似度时所贡献的分数值。举例说明，例如一同时存在于待查重文本与历史文本中的第一目标词语，其出现在待查重文本中的次数y以及其出现在历史文本中的次数z，则基于该第一目标词语出现在两个文本中的次数y和z生成对应的第一影响因子为

在本实施例中，通过将该第一影响因子与该第一目标词语对应的词语分数值进行相乘计算，即可计算出该第一目标词语在评定待查重文本与历史文本之间的相似度时所贡献的分数值。具体地，贡献分数值可以由以下关系式计算得出：

其中，M为第一目标词语对待查重文本与历史文本之间相似度计算的贡献分数值；F为第一目标词语对应的词语分数值；y为第一目标词语在待查重文本中的出现次数；z为第一目标词语在历史文本中的出现次数。

最后，结合所有同时存在于待查重文本和历史文本中的第一目标词语所对应的贡献分数值进行求和计算，将每一个同时存在于待查重文本和历史文本中的第一目标词语对应的贡献分数值进行相加得到总分值，该总分值即为待查重文本与历史文本之间的相似度。

请参阅图4，图4为本申请第四实施例提供的一种文本查重处理方法的实现流程图。相对于图1、图2及图3对应的实施例，本实施例提供的文本查重处理方法在步骤S12还包括步骤S41～S45。详述如下：

S41:按照词语级别比对所述待查重文本和所述历史文本，提取出所有单独存在于所述待查重文本中的第二目标词语和所有单独存在于所述历史文本中的第三目标词语；

S42:统计所述待查重文本中第二目标词语的数量以及所述历史文本中第三目标词语的数量；

S43:根据所述第二目标词语的数量以及所述第三目标词语的数量生成用于计算所述待查重文本与所述历史文本之间相似度的第二影响因子；

S44:根据所述第二影响因子和从词语分数表中获得的所述第二目标词语所对应的词语分数值计算出所述第二目标词语对应的贡献分数值；

S45：结合所有第一目标词语对应的贡献分数值以及所述第二目标词语对应的贡献分数值进行求和计算，以获得所述待查重文本与所述历史文本之间的相似度。

本实施例中，按照词语级别对待查重文本进行查重时，查重过程还可以包括针对只存在于待查重文本中的词语进行查重。在一些具体实现中，当待查重文本和保存于历史文本数据库中的历史文本经过分词处理后，通过按照词语级别比对所述待查重文本和所述历史文本，提取出所有单独存在于所述待查重文本中的第二目标词语和所有单独存在于所述历史文本中的第三目标词语。其中，第二目标词语为单独存在于待查重文本对应的词语分数表中的词语；第三目标词语为单独存在于与历史文本数据库对应的第一词语-词语分数值对应关系表中的词语。获得第二目标词语和第三目标词语后，统计所述待查重文本中第二目标词语的数量以及所述历史文本中第三目标词语的数量，进而根据第二目标词语的数量以及第三目标词语的数量生成用于计算所述待查重文本与所述历史文本之间相似度的第二影响因子。举例说明，例如单独存在于待查重文本中的第二目标词语的数量为a，单独存在于历史文本中的第三目标词语的数量为b，那么，基于该第二目标词语的数量a和该第三目标词语的数量b，生成对应的第二影响因子为

获得第二影响因子之后，通过根据所述第二影响因子和从词语分数表中获得的所述第二目标词语所对应的词语分数值计算出所述第二目标词语对应的贡献分数值。其中，第二目标词语对应的词语分数值可以采用一个预设的折合计算公式进行整合得出，具体地，该预设的折合计算公式可以配置为：

其中，F_other为第二目标词语所对应的词语分数值；A为最高基础分数值；L_other为第二目标词语所对应的字节长度总和。

由此，通过将该第二影响因子与该第二目标词语对应的词语分数值进行相乘计算，即可计算出第二目标词语在评定待查重文本与历史文本之间的相似度时所贡献的分数值。具体地，贡献分数值可以由以下关系式计算得出：

其中，M_other为第一目标词语对待查重文本与历史文本之间相似度计算的贡献分数值；F_other为第一目标词语对应的词语分数值；a为第二目标词语的数量；b为第三目标词语的数量。

最后，结合所有第一目标词语对应的贡献分数值以及所述第二目标词语对应的贡献分数值进行求和计算，将每一个第一目标词语对应的贡献分数值以及第二目标词语对应的贡献分数值进行相加得到总分值，该总分值即为待查重文本与历史文本之间的相似度。

请参阅图5，图5为本申请第五实施例提供的一种文本查重处理方法的实现流程图。相对于图1、图2、图3及图4对应的实施例，本实施例提供的文本查重处理方法在步骤S12之后还包括步骤S51～S52。详述如下：

S51:获取待查重文本的字节长度和历史文本的字节长度；

S52：根据待查重文本的字节长度和历史文本的字节长度对所述待查重文本与历史文本之间的相似度进行修正处理。

本实施例中，考虑待查重文本和历史文本的字节长度差异对该两个文本之间的相似度的影响，还可以基于两个文本的字节长度对待查重文本与历史文本之间的相似度进行修正处理。在本实施例中，具体的修正关系式如下：

其中，s′为待查重文本与历史文本之间的相似度的修正值；M′为待查重文本中各词语对应的贡献分数值的总和；R_y为待查重文本的字节长度；R_z为保存于历史文本数据库中的历史文本的字节长度。

请参阅图6，图6为本申请实施例提供的一种文本查重处理装置的结构框图。本实施例中该移动终端包括的各单元用于执行图1至图5对应的实施例中的各步骤。具体请参阅图1至图5以及图1至图5所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图6，文本查重处理装置60包括：获取模块61、计算模块62以及评定模块63。其中：所述获取模块61用于获取待查重文本对应的词语分数表，所述词语分数表中含有所述待查重文本的所有目标词语以及与目标词语对应的词语分数值，其中，所述目标词语表征所述待查重文本的内容信息，所述词语分数值表征目标词语对文本相似度评定的影响程度；所述计算模块62用于结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度；所述评定模块63用于将所述相似度与预设的相似度阈值进行比较，根据比较结果评定所述待查重文本是否为重复文本。

应当理解的是，上述文本查重处理装置与上述的文本查重处理装置方法一一对应，此处不再赘述。

图7为本申请实施例提供的一种计算机设备的结构框图。如图7所示，该实施例的计算机设备70包括：处理器71、存储器72以及存储在所述存储器72中并可在所述处理器71上运行的计算机程序73，例如文本查重处理方法的程序。处理器71执行所述计算机程序73时实现上述各个文本查重处理方法各实施例中的步骤，例如图1所示的S11至S13，或者图2所示的S21至S24、图3所示的S31至S35、图4所示的S41至45以及图5所示的S51至S52。或者，所述处理器71执行所述计算机程序73时实现上述文本查重处理装置对应的实施例中各模块的功能，例如，图6所示的模块61至63的功能。具体请参阅实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序73可以被分割成一个或多个模块(单元)，所述一个或者多个模块被存储在所述存储器72中，并由所述处理器71执行，以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序73在所述计算机设备70中的执行过程。例如，所述计算机程序73可以被分割成获取模块、计算模块和评定模块，各模块具体功能如上所述。

所述转台设备可包括，但不仅限于，处理器71、存储器72。本领域技术人员可以理解，图7仅仅是计算机设备70的示例，并不构成对计算机设备70的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器71可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器72可以是所述计算机设备70的内部存储单元，例如计算机设备70的硬盘或内存。所述存储器72也可以是所述计算机设备70的外部存储设备，例如所述计算机设备70上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器72还可以既包括所述计算机设备70的内部存储单元也包括外部存储设备。所述存储器72用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器72还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文本查重处理方法，其特征在于，包括：

2.根据权利要求1所述的文本查重处理方法，其特征在于，所述获取待查重文本对应的词语分数表的步骤之前，还包括：

识别所述第一词语在所述历史文本中的出现次数以及所述第一词语对应的字节长度；

3.根据权利要求2所述的文本查重处理方法，其特征在于，所述结合所述第一词语的出现次数和字节长度，按照预设的算法规则计算出所述第一词语对应的词语分数值的步骤中，计算所述词语分数值时所采用的公式为：

4.根据权利要求3所述的文本查重处理方法，其特征在于，所述对保存于历史文本数据库中的历史文本进行分词处理，以获得表征历史文本内容的第一词语，其中，所述第一词语表征历史文本的内容信息的步骤之前，还包括：

5.根据权利要求1所述的文本查重处理方法，其特征在于，所述结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度的步骤，包括：

6.根据权利要求5所述的文本查重处理方法，其特征在于，所述结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度的步骤，还包括：

7.根据权利要求1-6任意一项所述的文本查重处理方法，其特征在于，所述结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度的步骤之后，还包括：

获取待查重文本的字节长度和历史文本的字节长度；

8.一种文本查重处理装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。