CN106909535A

CN106909535A - 相似文本判定方法和装置

Info

Publication number: CN106909535A
Application number: CN201510981925.3A
Authority: CN
Inventors: 王清华
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2017-06-30

Abstract

本申请公开了一种相似文本判定方法和装置。其中，该方法包括：分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合；分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合；以及当判断出第三内容块集合和第四内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本。本申请解决了相关技术中进行相似文本判定时准确性较低的问题。

Description

相似文本判定方法和装置

技术领域

本申请涉及数据处理领域，具体而言，涉及一种相似文本判定方法和装置。

背景技术

在处理来自各种资源的文本时，经常需要对这些文本进行去重或统计相似文本的相关信息。实际情况中，同一文本经过不同网站或是投放地址进行发布时，往往会对该文本进行一些细微的修改，导致相似文本无法通过简单的字符串匹配进行判定，例如，SimHash、TF-IDF等相似文本聚类算法，虽然这些算法计算速度快，聚类效果也不错，但由于文本的修改，这些算法的准确率却并不高。而基于分词的相似文本判定算法计算繁琐，参与计算的关键词数量庞大，导致计算速度较慢，此外，对主题相同的文本容易误判。

针对相关技术中进行相似文本判定时准确性较低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种相似文本判定方法和装置，以解决相关技术中进行相似文本判定时准确性较低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种相似文本判定方法。该方法包括：分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合，其中，第一内容块集合为第一文本分块后得到的内容块集合，第二内容块集合为第二文本分块后得到的内容块集合；分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合，其中，第三内容块集合为从第一内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合，第四内容块集合为从第二内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合；判断第三内容块集合和第四内容块集合中相同内容块的数量是否大于预设值，其中，在判断出第三内容块集合和第四内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本，在判断出第三内容块集合和第四内容块集合中相同的内容块的数量不大于预设值时，则判定第一文本和第二文本为不相似文本。

进一步地，判断第三内容块集合和第四内容块集合中相同内容块的数量是否大于预设值包括：分别从第三内容块集合和第四内容块集合中获取第二预设数量的内容块，得到第五内容块集合和第六内容块集合，其中，第五内容块集合为从第三内容块集合中获取的第二预设数量的内容块组成的内容块集合，第六内容块集合为从第四内容块集合中获取的第二预设数量的内容块组成的内容块集合；统计第五内容块集合和第六内容块集合中相同内容块的数量；以及判断第五内容块集合和第六内容块集合中相同内容块的数量是否大于预设值，其中，在判断出第五内容块集合和第六内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本，在判断出第五内容块集合和第六内容块集合中相同的内容块的数量不大于预设值时，则判定第一文本和第二文本为不相似文本。

进一步地，统计第五内容块集合和第六内容块集合中相同内容块的数量包括：分别计算第五内容块集合中各个内容块和第六内容块集合中各个内容块的哈希值，得到第一哈希值集合和第二哈希值集合，其中，第一哈希值集合为第五内容块集合中各个内容块的哈希值组成的集合，第二哈希值集合为第六内容块集合中各个内容块的哈希值组成的集合；以及根据第一哈希值集合和第二哈希值集合统计第五内容块集合和第六内容块集合中相同的内容块的数量。

进一步地，分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合包括：分别统计第一内容块集合中各个内容块和第二内容块集合中各个内容块的字符数；分别判断第一内容块集合和第二内容块集合中是否存在字符数小于第一预设数量的内容块；如果判断出第一内容块集合中存在字符数小于第一预设数量的内容块，则获取字符数小于第一预设数量的内容块的全部字符和字符数不小于第一预设数量的内容块的第一预设数量的字符，得到第三内容块集合，如果判断出第一内容块集合中不存在字符数小于第一预设数量的内容块，则获取第一内容块集合中各个内容块的第一预设数量的字符，得到第三内容块集合；以及如果判断出第二内容块集合中存在字符数小于第一预设数量的内容块，则获取字符数小于第一预设数量的内容块的全部字符和字符数不小于第一预设数量的内容块的第一预设数量的字符，得到第四内容块集合，如果判断出第二内容块集合中不存在字符数小于第一预设数量的内容块，则获取第二内容块集合中各个内容块的第一预设数量的字符，得到第四内容块集合。

进一步地，在分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合之后，该方法还包括：分别判断第三内容块集合中各个内容块和第四内容块集合中各个内容块的字符数是否处于预设范围内；以及如果判断出第三内容块集合中存在内容块的字符数未处于预设范围内，则从第三内容块集合中剔除字符数未处于预设范围内的内容块，如果判断出第四内容块集合中存在内容块的字符数未处于预设范围内，则从第四内容块集合中剔除字符数未处于预设范围内的内容块。

进一步地，在分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合之前，该方法还包括：分别对第一文本和第二文本进行预处理，其中，基于预处理后第一文本和第二文本进行分块。

为了实现上述目的，根据本申请的另一方面，提供了一种相似文本判定装置。该装置包括：分块单元，用于分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合，其中，第一内容块集合为第一文本分块后得到的内容块集合，第二内容块集合为第二文本分块后得到的内容块集合；获取单元，用于分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合，其中，第三内容块集合为从第一内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合，第四内容块集合为从第二内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合；以及判断单元，用于判断第三内容块集合和第四内容块集合中相同内容块的数量是否大于预设值，其中，在判断出第三内容块集合和第四内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本，在判断出第三内容块集合和第四内容块集合中相同的内容块的数量不大于预设值时，则判定第一文本和第二文本为不相似文本。

进一步地，判断单元包括：第一获取模块，用于分别从第三内容块集合和第四内容块集合中获取第二预设数量的内容块，得到第五内容块集合和第六内容块集合，其中，第五内容块集合为从第三内容块集合中获取的第二预设数量的内容块组成的内容块集合，第六内容块集合为从第四内容块集合中获取的第二预设数量的内容块组成的内容块集合；第一统计模块，用于统计第五内容块集合和第六内容块集合中相同内容块的数量；以及第一判断模块，用于判断第五内容块集合和第六内容块集合中相同内容块的数量是否大于预设值，其中，在判断出第五内容块集合和第六内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本，在判断出第五内容块集合和第六内容块集合中相同的内容块的数量不大于预设值时，则判定第一文本和第二文本为不相似文本。

进一步地，第一统计模块包括：计算子模块，用于分别计算第五内容块集合中各个内容块和第六内容块集合中各个内容块的哈希值，得到第一哈希值集合和第二哈希值集合，其中，第一哈希值集合为第五内容块集合中各个内容块的哈希值组成的集合，第二哈希值集合为第六内容块集合中各个内容块的哈希值组成的集合；以及统计子模块，用于根据第一哈希值集合和第二哈希值集合统计第五内容块集合和第六内容块集合中相同的内容块的数量。

进一步地，获取单元包括：第二统计模块，用于分别统计第一内容块集合中各个内容块和第二内容块集合中各个内容块的字符数；第二判断模块，用于分别判断第一内容块集合和第二内容块集合中是否存在字符数小于第一预设数量的内容块；第二获取模块，用于在判断出第一内容块集合中存在字符数小于第一预设数量的内容块时，获取字符数小于第一预设数量的内容块的全部字符和字符数不小于第一预设数量的内容块的第一预设数量的字符，得到第三内容块集合，在判断出第一内容块集合中不存在字符数小于第一预设数量的内容块时，获取第一内容块集合中各个内容块的第一预设数量的字符，得到第三内容块集合；以及第三获取模块，用于在判断出第二内容块集合中存在字符数小于第一预设数量的内容块时，获取字符数小于第一预设数量的内容块的全部字符和字符数不小于第一预设数量的内容块的第一预设数量的字符，得到第四内容块集合，在判断出第二内容块集合中不存在字符数小于第一预设数量的内容块时，获取第二内容块集合中各个内容块的第一预设数量的字符，得到第四内容块集合。

本申请通过分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合，其中，第一内容块集合为第一文本分块后得到的内容块集合，第二内容块集合为第二文本分块后得到的内容块集合；分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合，其中，第三内容块集合为从第一内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合，第四内容块集合为从第二内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合；判断第三内容块集合和第四内容块集合中相同内容块的数量是否大于预设值，其中，在判断出第三内容块集合和第四内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本，在判断出第三内容块集合和第四内容块集合中相同的内容块的数量不大于预设值时，则判定第一文本和第二文本为不相似文本。本申请通过对文本中的句子进行取样，可以减少文本的细微修改对相似文本判定的影响，解决了相关技术中进行相似文本判定时准确性较低的问题，进而达到了提高相似文本判定的准确性的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的相似文本判定方法的流程图；

图2是根据本申请实施例的文本取样的流程图；以及

图3是根据本申请实施例的相似文本判定装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请涉及的一些术语或概念进行说明：

哈希算法：是指将任意长度的输入映射为固定长度的输出，该输出即称为哈希值。

SimHash算法：一种相似文本聚类算法，对每个文本计算SimHash值，SimHash值差异小的两个文本判定为相似文本。需要说明的是，SimHash算法速度很快。

TF-IDF：一种相似文本判定算法，通过计算文本关键词与词频来计算两个文本相似度的方法。

编辑距离：是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数，其中，允许的编辑操作包括将一个字符替换成另一个字符、插入一个字符和删除一个字符。

根据本申请实施例，提供了一种相似文本判定方法。图1是根据本申请实施例的相似文本判定方法的流程图，如图1所示，该方法包括如下的步骤S102至步骤S106：

步骤S102，分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合，其中，第一内容块集合为第一文本分块后得到的内容块集合，第二内容块集合为第二文本分块后得到的内容块集合。

本申请实施例的第一文本和第二文本可以是众多文本中任意两个文本，具体地，按照断句符(例如，逗号、句号、分号等)对第一文本和第二文本进行分块，将第一文本和第二文本划分成多个句子。优选地，在对第一文本和第二文本划分成多个内容块后，可以去除每个内容块内的无效字符(例如，引号、空格等)，并基于去除了无效字符的内容块得到第一内容块集合和第二内容块集合。

优选地，为了提高相似文本判定结果的准确性，在分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合之前，该方法还包括：分别对第一文本和第二文本进行预处理，其中，基于预处理后第一文本和第二文本进行分块。

本申请的预处理可以包括将全角字符转为半角字符、将繁体字字转换为简体字等，通过分别对第一文本和第二文本进行全角字符转为半角字符、将繁体字字转换为简体字等预处理，从而可以避免相同文本内容因为格式不同而被判定为不相同文本内容。

步骤S104，分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合，其中，第三内容块集合为从第一内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合，第四内容块集合为从第二内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合。

本申请实施例的第一预设数量可以根据文本句子特点进行设置，例如，如果多数文本的句子均较长，则可以将第一预设数量设置的大一些，例如，设置第一预设数量为20，如果多数文本的句子均较短，则可以将第一预设数量设置的小一些，例如，设置第一预设数量为10。具体地，本申请实施例通过分别从第一内容块集合中各个内容块中取第一预设数量的字符，得到第三内容块集合，通过分别从第二内容块集合中各个内容块中取第一预设数量的字符，得到第四内容块集合。可选地，可以取各个内容块中前第一预设数量的字符组成各个新的内容块，并将同一文本对应的所有新的内容块组成一个新的内容块集合(即上述第三内容块集合和第四内容块集合)，例如，取内容块1中前10个字符组成新的内容块1，取内容块2中前10个字符组成新的内容块2，以此类推。本申请实施例通过对步骤S102得到内容块进行采样，从而可以减少那些细微修改对相似文本判定的影响。

步骤S106，判断第三内容块集合和第四内容块集合中相同内容块的数量是否大于预设值，其中，在判断出第三内容块集合和第四内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本，在判断出第三内容块集合和第四内容块集合中相同的内容块的数量不大于预设值时，则判定第一文本和第二文本为不相似文本。

可选地，可以通过计算第三内容块集合和第四内容块集合中各个内容块的哈希值、SimHash值、编辑距离等来判断第三内容块集合中的内容块是否与第四内容块集合中的内容块相同。以下以第一内容块和第二内容块为例对本申请实施例进行说明，其中，第一内容块为第三内容块集合中任意一个内容块，第二内容块为第四内容块集合中任意一个内容块，包括如下步骤：

步骤S1，分别计算第一内容块和第二内容块的哈希值，得到第一哈希值和第二哈希值。

步骤S2，判断第一哈希值和第二哈希值是否相同。

步骤S3，如果第一哈希值和第二哈希值相同，则说明第一内容块和第二内容块相同，如果第一哈希值和第二哈希值不相同，则说明第一内容块和第二内容块不相同。

通过上述步骤S1至步骤S3可以快速判断第三内容块集合中各个内容块是否与第四内容块集合中各个内容块相同，并可以统计第三内容块集合和第四内容块集合中相同内容块的数量。

在得到第三内容块集合和第四内容块集合中相同内容块的数量之后，即可以判断第三内容块集合和第四内容块集合中相同内容块的数量是否大于预设值。具体地，本申请实施例的预设值可以根据文本长度自适应进行调整，例如，如果文本长度较长(即文本字符数)(例如，文本长度大于2000)，则预设值可以取大一些，如果文本长度较短(例如，文本长度小于500)，则预设值可以取小一些。

需要说明的是，本申请实施例也可以是通过将第三内容块集合和第四内容块集合中相同内容块的数量占总内容块数的比率与预设值进行比较以判断第一文本和第二文本是否相似。

本申请实施例通过分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合，其中，第一内容块集合为第一文本分块后得到的内容块集合，第二内容块集合为第二文本分块后得到的内容块集合；分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合，其中，第三内容块集合为从第一内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合，第四内容块集合为从第二内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合；判断第三内容块集合和第四内容块集合中相同内容块的数量是否大于预设值，其中，在判断出第三内容块集合和第四内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本，在判断出第三内容块集合和第四内容块集合中相同的内容块的数量不大于预设值时，则判定第一文本和第二文本为不相似文本。本申请通过对文本中的句子进行取样，可以减少文本的细微修改对相似文本判定的影响，解决了相关技术中进行相似文本判定时准确性较低的问题，进而达到了提高相似文本判定的准确性的效果。

优选地，为了避免取样数对相似文本的判定结果的影响，判断第三内容块集合和第四内容块集合中相同内容块的数量是否大于预设值包括：分别从第三内容块集合和第四内容块集合中获取第二预设数量的内容块，得到第五内容块集合和第六内容块集合，其中，第五内容块集合为从第三内容块集合中获取的第二预设数量的内容块组成的内容块集合，第六内容块集合为从第四内容块集合中获取的第二预设数量的内容块组成的内容块集合；统计第五内容块集合和第六内容块集合中相同内容块的数量；以及判断第五内容块集合和第六内容块集合中相同内容块的数量是否大于预设值，其中，在判断出第五内容块集合和第六内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本，在判断出第五内容块集合和第六内容块集合中相同的内容块的数量不大于预设值时，则判定第一文本和第二文本为不相似文本。

由于取样数多的文本更容易与取样数少的文本匹配，为了防止取样数对结果造成影响，本申请实施例对每个文本的取样数进行限制。具体地，本申请实施例分别从第三内容块集合和第四内容块集合中获取第二预设数量的内容块，需要说明的是，第三内容块集合和第四内容块集合中各个内容块按照在文本的位置顺序进行存储，本申请实施例可以取各个文本前第二预设数量的内容块，例如，取第三内容块集合中前20个内容块组成第五内容块集合，取第四内容块集合中前20个内容块组成第六内容块集合，并基于取样后得到的第五内容块集合和第六内容块集合统计相同内容块的数量。

优选地，为了提高统计第五内容块集合和第六内容块集合中相同内容块的数量的速度，并减少内存空间的占用，统计第五内容块集合和第六内容块集合中相同内容块的数量包括：分别计算第五内容块集合中各个内容块和第六内容块集合中各个内容块的哈希值，得到第一哈希值集合和第二哈希值集合，其中，第一哈希值集合为第五内容块集合中各个内容块的哈希值组成的集合，第二哈希值集合为第六内容块集合中各个内容块的哈希值组成的集合；以及根据第一哈希值集合和第二哈希值集合统计第五内容块集合和第六内容块集合中相同的内容块的数量。

本申请实施例通过分别计算第五内容块集合中各个内容块和第六内容块集合中各个内容块的哈希值，并基于两个内容块对应的哈希值判断这两个内容块是否相同，具体地，如果两个内容块对应的哈希值相同，则这两个内容块相同，如果这两个内容块的哈希值不相同，则说明这两个内容块不相同。

优选地，分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合包括：分别统计第一内容块集合中各个内容块和第二内容块集合中各个内容块的字符数；分别判断第一内容块集合和第二内容块集合中是否存在字符数小于第一预设数量的内容块；如果判断出第一内容块集合中存在字符数小于第一预设数量的内容块，则获取字符数小于第一预设数量的内容块的全部字符和字符数不小于第一预设数量的内容块的第一预设数量的字符，得到第三内容块集合，如果判断出第一内容块集合中不存在字符数小于第一预设数量的内容块，则获取第一内容块集合中各个内容块的第一预设数量的字符，得到第三内容块集合；以及如果判断出第二内容块集合中存在字符数小于第一预设数量的内容块，则获取字符数小于第一预设数量的内容块的全部字符和字符数不小于第一预设数量的内容块的第一预设数量的字符，得到第四内容块集合，如果判断出第二内容块集合中不存在字符数小于第一预设数量的内容块，则获取第二内容块集合中各个内容块的第一预设数量的字符，得到第四内容块集合。

实际情况中，文本中会存在一些句子(内容块)的长度小于第一预设数量，因此，本申请实施例对于那些长度小于第一预设数量的内容块，直接获取其全部字符，而对于那些长度不小于第一预设数量的内容块，则获取其前第一预设数量的字符。

优选地，在分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合之后，该方法还包括：分别判断第三内容块集合中各个内容块和第四内容块集合中各个内容块的字符数是否处于预设范围内；以及如果判断出第三内容块集合中存在内容块的字符数未处于预设范围内，则从第三内容块集合中剔除字符数未处于预设范围内的内容块，如果判断出第四内容块集合中存在内容块的字符数未处于预设范围内，则从第四内容块集合中剔除字符数未处于预设范围内的内容块。

实际情况中，文本中存在一些句子过短，例如，但是、因此等衔接词，为了避免这些过短的句子对相似文本判定结果的影响，本申请实施例设置了一个预设范围，如果某个内容块的长度未处于该预设范围内，则直接剔除掉该内容块。

由上述描述可知，本申请实施例通过对文本的句子进行取样，大大减少了这些细微修改对相似文章判定结果的影响；此外，本申请实施例的计算速度快，样本数据少，便于存储，且准确度高。

图2是根据本申请实施例的文本取样的流程图，如图2所示，包括如下步骤：

步骤S202，文章整理，进行半角/全角字符转换与繁体/简体转换。

上述文章即文本，本申请实施例通过对文本进行半角/全角字符转换与繁体/简体转换等预处理，从而可以避免相同文本内容因为格式不同而被判定为不相同文本内容。

步骤S204，将文章按标点符号拆分成句子。

即将文本按照断句符进行分块，得到多个内容块。

步骤S206，样本数Cnt＝0。

样本数即从文本中获取的样本数量，本申请实施例将最大取样数(即上述第二预设数量)设置为20，即从各个文本中取前20个内容块作为样本，初始时将样本数设置为0。

步骤S208，样本数Cnt<20？

由于取样数多的文本更容易与取样数少的文本匹配，为了防止取样数对判定结果造成影响，需要对每个文本的取样数进行限定。一般情况下，如果两个文本前面部分相似，则可以认为这两个文本相似。

具体地，判断当前样本数Cnt是否小于20(即上述第二预设数量)，如果当前样本数Cnt小于20，则执行步骤S210，如果当前样本数Cnt不小于20，则结束流程。

步骤S210，判断是否存在下一个句子。

即判断文本中是否存在下一个句子(即内容块)，如果文本中存在下一个句子，则继续取样，执行步骤S212，如果文本中不存在下一个句子，则当前计算失败，结束流程。

步骤S212，取下一个句子。

步骤S214，截取句子前10个字符作为样本。

本申请实施例获取该句子前10个字符作为样本，其中，10即上述第一预设数量。

实际情况中，由于太长的样本会大大提高细微修改的影响，而太短的样本则无法作为句子的特征，因此，本申请实施例对样本长度进行了限定，可选地，可以将样本长度设置为6到10之间，即区间[6，10]之间，其中，区间[6，10]即上述预设范围。

步骤S216，判断样本长度是否大于或等于6。

如果样本长度大于或等于6，则执行步骤S218，否则剔除掉该样本，并执行步骤S208。

步骤S218，样本数Cnt加1。

步骤S220，计算样本的哈希值作为一个特征值。

需要说明的是，本申请实施例可以在取样本的同时计算样本的哈希值，也可以在样本取完后，计算每个样本的哈希值，作为文本的特征值。由于本申请实施例中的样本数作了限定，因此可以对样本的特征值进行存储，便于后续重复使用。

具体地，本申请实施例在判定两个文本是否相似时，只需要统计两个文本相等的特征值的个数，两个文本相等的特征值的个数达到一定阈值则认为这两个文本相似，其中，该阈值可以根据不同情况变换，优选将该阈值设为样本数的50％。

需要说明的是，本申请实施例是基于句子取样进行相似文本判定，因此只适用于对比较长的文本进行取样。由于不同来源对文本的修改，使用整句对相似文本匹配的效果并不会特别好，尤其是某些文章特意在每个句子中添加或修改一些语气词的情况下。而本申请实施例通过对文本的句子进行取样，大大减少了这些细微修改对相似文章判定结果的影响；此外，本申请实施例的计算速度快，样本数据少，便于存储，且准确度高。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例的另一方面，提供了一种相似文本判定装置，该相似文本判定装置可以用于执行本申请实施例的相似文本判定方法，本申请实施例的相似文本判定方法也可以通过本申请实施例的相似文本判定装置来执行。

图3是根据本申请实施例的相似文本判定装置的示意图，如图3所示，该装置包括：分块单元10、获取单元20和判定单元30。

分块单元10，用于分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合，其中，第一内容块集合为第一文本分块后得到的内容块集合，第二内容块集合为第二文本分块后得到的内容块集合。

获取单元20，用于分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合，其中，第三内容块集合为从第一内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合，第四内容块集合为从第二内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合。

判定单元30，用于判断第三内容块集合和第四内容块集合中相同内容块的数量是否大于预设值，其中，在判断出第三内容块集合和第四内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本，在判断出第三内容块集合和第四内容块集合中相同的内容块的数量不大于预设值时，则判定第一文本和第二文本为不相似文本。

本申请通过分块单元10分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合，其中，第一内容块集合为第一文本分块后得到的内容块集合，第二内容块集合为第二文本分块后得到的内容块集合；获取单元20分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合，其中，第三内容块集合为从第一内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合，第四内容块集合为从第二内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合；以及判定单元30判断第三内容块集合和第四内容块集合中相同内容块的数量是否大于预设值，其中，在判断出第三内容块集合和第四内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本，在判断出第三内容块集合和第四内容块集合中相同的内容块的数量不大于预设值时，则判定第一文本和第二文本为不相似文本。本申请通过对文本中的句子进行取样，可以减少文本的细微修改对相似文本判定的影响，解决了相关技术中进行相似文本判定时准确性较低的问题，进而达到了提高相似文本判定的准确性的效果。

优选地，判定单元30包括：第一获取模块，用于分别从第三内容块集合和第四内容块集合中获取第二预设数量的内容块，得到第五内容块集合和第六内容块集合，其中，第五内容块集合为从第三内容块集合中获取的第二预设数量的内容块组成的内容块集合，第六内容块集合为从第四内容块集合中获取的第二预设数量的内容块组成的内容块集合；第一统计模块，用于统计第五内容块集合和第六内容块集合中相同内容块的数量；以及第一判断模块，用于判断第五内容块集合和第六内容块集合中相同内容块的数量是否大于预设值。

可选地，第一统计模块包括：计算子模块，用于分别计算第五内容块集合中各个内容块和第六内容块集合中各个内容块的哈希值，得到第一哈希值集合和第二哈希值集合，其中，第一哈希值集合为第五内容块集合中各个内容块的哈希值组成的集合，第二哈希值集合为第六内容块集合中各个内容块的哈希值组成的集合；以及统计子模块，用于根据第一哈希值集合和第二哈希值集合统计第五内容块集合和第六内容块集合中相同的内容块的数量。

可选地，获取单元20包括：第二统计模块，用于分别统计第一内容块集合中各个内容块和第二内容块集合中各个内容块的字符数；第二判断模块，用于分别判断第一内容块集合和第二内容块集合中是否存在字符数小于第一预设数量的内容块；第二获取模块，用于在判断出第一内容块集合中存在字符数小于第一预设数量的内容块时，获取字符数小于第一预设数量的内容块的全部字符和字符数不小于第一预设数量的内容块的第一预设数量的字符，得到第三内容块集合，在判断出第一内容块集合中不存在字符数小于第一预设数量的内容块时，获取第一内容块集合中各个内容块的第一预设数量的字符，得到第三内容块集合；以及第三获取模块，用于在判断出第二内容块集合中存在字符数小于第一预设数量的内容块时，获取字符数小于第一预设数量的内容块的全部字符和字符数不小于第一预设数量的内容块的第一预设数量的字符，得到第四内容块集合，在判断出第二内容块集合中不存在字符数小于第一预设数量的内容块时，获取第二内容块集合中各个内容块的第一预设数量的字符，得到第四内容块集合。

所述相似文本判定装置包括处理器和存储器，上述分块单元、获取单元和判定单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来进行相似文本判定。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合，其中，第一内容块集合为第一文本分块后得到的内容块集合，第二内容块集合为第二文本分块后得到的内容块集合；分别从第一内容块集合中各个内容块和第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合，其中，第三内容块集合为从第一内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合，第四内容块集合为从第二内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合；判断第三内容块集合和第四内容块集合中相同内容块的数量是否大于预设值，其中，在判断出第三内容块集合和第四内容块集合中相同内容块的数量大于预设值时，则判定第一文本和第二文本为相似文本，在判断出第三内容块集合和第四内容块集合中相同的内容块的数量不大于预设值时，则判定第一文本和第二文本为不相似文本。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种相似文本判定方法，其特征在于，包括：

分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合，其中，所述第一内容块集合为所述第一文本分块后得到的内容块集合，所述第二内容块集合为所述第二文本分块后得到的内容块集合；

分别从所述第一内容块集合中各个内容块和所述第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合，其中，所述第三内容块集合为从所述第一内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合，所述第四内容块集合为从所述第二内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合；以及

判断所述第三内容块集合和所述第四内容块集合中相同内容块的数量是否大于预设值，其中，在判断出所述第三内容块集合和所述第四内容块集合中相同内容块的数量大于所述预设值时，则判定所述第一文本和所述第二文本为相似文本，在判断出所述第三内容块集合和所述第四内容块集合中相同的内容块的数量不大于所述预设值时，则判定所述第一文本和所述第二文本为不相似文本。

2.根据权利要求1所述的方法，其特征在于，判断所述第三内容块集合和所述第四内容块集合中相同内容块的数量是否大于预设值包括：

分别从所述第三内容块集合和所述第四内容块集合中获取第二预设数量的内容块，得到第五内容块集合和第六内容块集合，其中，所述第五内容块集合为从所述第三内容块集合中获取的第二预设数量的内容块组成的内容块集合，所述第六内容块集合为从所述第四内容块集合中获取的第二预设数量的内容块组成的内容块集合；

统计所述第五内容块集合和所述第六内容块集合中相同内容块的数量；以及

判断所述第五内容块集合和所述第六内容块集合中相同内容块的数量是否大于所述预设值，其中，在判断出所述第五内容块集合和所述第六内容块集合中相同内容块的数量大于所述预设值时，则判定所述第一文本和所述第二文本为相似文本，在判断出所述第五内容块集合和所述第六内容块集合中相同的内容块的数量不大于所述预设值时，则判定所述第一文本和所述第二文本为不相似文本。

3.根据权利要求2所述的方法，其特征在于，统计所述第五内容块集合和所述第六内容块集合中相同内容块的数量包括：

分别计算所述第五内容块集合中各个内容块和所述第六内容块集合中各个内容块的哈希值，得到第一哈希值集合和第二哈希值集合，其中，所述第一哈希值集合为所述第五内容块集合中各个内容块的哈希值组成的集合，所述第二哈希值集合为所述第六内容块集合中各个内容块的哈希值组成的集合；以及

根据所述第一哈希值集合和所述第二哈希值集合统计所述第五内容块集合和所述第六内容块集合中相同的内容块的数量。

4.根据权利要求1所述的方法，其特征在于，分别从所述第一内容块集合中各个内容块和所述第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合包括：

分别统计所述第一内容块集合中各个内容块和所述第二内容块集合中各个内容块的字符数；

分别判断所述第一内容块集合和所述第二内容块集合中是否存在字符数小于所述第一预设数量的内容块；

如果判断出所述第一内容块集合中存在字符数小于所述第一预设数量的内容块，则获取所述字符数小于所述第一预设数量的内容块的全部字符和所述字符数不小于所述第一预设数量的内容块的第一预设数量的字符，得到所述第三内容块集合，如果判断出所述第一内容块集合中不存在字符数小于所述第一预设数量的内容块，则获取所述第一内容块集合中各个内容块的第一预设数量的字符，得到所述第三内容块集合；以及

如果判断出所述第二内容块集合中存在字符数小于所述第一预设数量的内容块，则获取所述字符数小于所述第一预设数量的内容块的全部字符和所述字符数不小于所述第一预设数量的内容块的第一预设数量的字符，得到所述第四内容块集合，如果判断出所述第二内容块集合中不存在字符数小于所述第一预设数量的内容块，则获取所述第二内容块集合中各个内容块的第一预设数量的字符，得到所述第四内容块集合。

5.根据权利要求4所述的方法，其特征在于，在分别从所述第一内容块集合中各个内容块和所述第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合之后，所述方法还包括：

分别判断所述第三内容块集合中各个内容块和所述第四内容块集合中各个内容块的字符数是否处于预设范围内；以及

如果判断出所述第三内容块集合中存在内容块的字符数未处于所述预设范围内，则从所述第三内容块集合中剔除所述字符数未处于所述预设范围内的内容块，如果判断出所述第四内容块集合中存在内容块的字符数未处于所述预设范围内，则从所述第四内容块集合中剔除所述字符数未处于所述预设范围内的内容块。

6.根据权利要求1所述的方法，其特征在于，在分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合之前，所述方法还包括：分别对所述第一文本和所述第二文本进行预处理，其中，基于预处理后第一文本和第二文本进行分块。

7.一种相似文本判定装置，其特征在于，包括：

分块单元，用于分别按照断句符对第一文本和第二文本进行分块，得到第一内容块集合和第二内容块集合，其中，所述第一内容块集合为所述第一文本分块后得到的内容块集合，所述第二内容块集合为所述第二文本分块后得到的内容块集合；

获取单元，用于分别从所述第一内容块集合中各个内容块和所述第二内容块集合中各个内容块中获取第一预设数量的字符，得到第三内容块集合和第四内容块集合，其中，所述第三内容块集合为从所述第一内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合，所述第四内容块集合为从所述第二内容块集合的各个内容块中获取的第一预设数量的字符组成的内容块集合；以及

判断单元，用于判断所述第三内容块集合和所述第四内容块集合中相同内容块的数量是否大于预设值，其中，在判断出所述第三内容块集合和所述第四内容块集合中相同内容块的数量大于所述预设值时，则判定所述第一文本和所述第二文本为相似文本，在判断出所述第三内容块集合和所述第四内容块集合中相同的内容块的数量不大于所述预设值时，则判定所述第一文本和所述第二文本为不相似文本。

8.根据权利要求7所述的装置，其特征在于，所述判断单元包括：

第一获取模块，用于分别从所述第三内容块集合和所述第四内容块集合中获取第二预设数量的内容块，得到第五内容块集合和第六内容块集合，其中，所述第五内容块集合为从所述第三内容块集合中获取的第二预设数量的内容块组成的内容块集合，所述第六内容块集合为从所述第四内容块集合中获取的第二预设数量的内容块组成的内容块集合；

第一统计模块，用于统计所述第五内容块集合和所述第六内容块集合中相同内容块的数量；以及

第一判断模块，用于判断所述第五内容块集合和所述第六内容块集合中相同内容块的数量是否大于所述预设值，其中，在判断出所述第五内容块集合和所述第六内容块集合中相同内容块的数量大于所述预设值时，则判定所述第一文本和所述第二文本为相似文本，在判断出所述第五内容块集合和所述第六内容块集合中相同的内容块的数量不大于所述预设值时，则判定所述第一文本和所述第二文本为不相似文本。

9.根据权利要求8所述的装置，其特征在于，所述第一统计模块包括：

计算子模块，用于分别计算所述第五内容块集合中各个内容块和所述第六内容块集合中各个内容块的哈希值，得到第一哈希值集合和第二哈希值集合，其中，所述第一哈希值集合为所述第五内容块集合中各个内容块的哈希值组成的集合，所述第二哈希值集合为所述第六内容块集合中各个内容块的哈希值组成的集合；以及

统计子模块，用于根据所述第一哈希值集合和所述第二哈希值集合统计所述第五内容块集合和所述第六内容块集合中相同的内容块的数量。

10.根据权利要求7所述的装置，其特征在于，所述获取单元包括：

第二统计模块，用于分别统计所述第一内容块集合中各个内容块和所述第二内容块集合中各个内容块的字符数；

第二判断模块，用于分别判断所述第一内容块集合和所述第二内容块集合中是否存在字符数小于所述第一预设数量的内容块；

第二获取模块，用于在判断出所述第一内容块集合中存在字符数小于所述第一预设数量的内容块时，获取所述字符数小于所述第一预设数量的内容块的全部字符和所述字符数不小于所述第一预设数量的内容块的第一预设数量的字符，得到所述第三内容块集合，在判断出所述第一内容块集合中不存在字符数小于所述第一预设数量的内容块时，获取所述第一内容块集合中各个内容块的第一预设数量的字符，得到所述第三内容块集合；以及

第三获取模块，用于在判断出所述第二内容块集合中存在字符数小于所述第一预设数量的内容块时，获取所述字符数小于所述第一预设数量的内容块的全部字符和所述字符数不小于所述第一预设数量的内容块的第一预设数量的字符，得到所述第四内容块集合，在判断出所述第二内容块集合中不存在字符数小于所述第一预设数量的内容块时，获取所述第二内容块集合中各个内容块的第一预设数量的字符，得到所述第四内容块集合。