CN110737748A

CN110737748A - 一种文本去重方法及系统

Info

Publication number: CN110737748A
Application number: CN201910925138.5A
Authority: CN
Inventors: 唐远洋; 罗镇权; 刘世林; 张发展; 李焕; 杨李伟; 尹康; 曾途
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-31
Anticipated expiration: 2039-09-27
Also published as: CN110737748B

Abstract

本发明涉及一种文本去重方法及系统，该方法包括步骤：计算出整个文本的哈希值，并将哈希值转换为二进制数，以及将所述二进制数转换为n维向量，n为大于1的整数；将该n维向量与已有的m×n的矩阵进行矩阵异或计算，并将每行的异或结果求和得到m×1的矩阵，m的矩阵中的一个元素即为一个海明距离；若m不等于0，则判断m个海明距离中最小的海明距离值是否小于设定的阈值，若小于则判断为重复文本，否则判断为非重复文本，并将该n维向量添加到矩阵中得到(m+1)×n维矩阵。本发明方法及系统通过将哈希值转换为矩阵的形式存储于数据库，只需要计算一次海明距离即可判别出是否为重复文本，大大提高了去重效率。

Description

一种文本去重方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种文本去重方法及系统。

背景技术

随着社会的发展和科技的进步，互联网中每时每刻都在产生海量的公开自然语言信息，而这些信息发布在网页中，并且存在着大量的重复信息，这些重复信息并不是完全一模一样，可能会有少量的信息差异，但是在去重过程中认为这些信息极度相似，属于重复信息。重复信息可能来自于文本、博客、公告的转载，可能是同一信息在不同平台的发布，甚至可能是信息的抄袭等。

针对海量网页信息如何去重，谷歌公司发明了一种simhash算法，一个网页可以计算得到一条simhash值。在系统实际使用中，用一个数据库存放simhash值，当一条文本信息计算出simhash值后，与数据库中存放的每一条simhash值进行比较，如果找到某条simhash值与该simhash值之间的海明距离小于设定的阈值，则认为该文本信息属于重复信息，如果找不到任何一条simhash值与该simhash值之间的海明距离小于设定的阈值，则认为该文本信息属于新信息，这样就达到了对海量文本信息去重的目的。谷歌的simhash算法在通用文本去重中取得了非常不错的效果，但是也存在缺陷，就是在去重判断时需要与数据库中的每一条simhash值进行比较，运算量大，效率低，且对硬件设备的要求也比较高。

发明内容

本发明的目的在于提供一种文本去重方法及系统，以提高去重判断的速度，提高效率。

为了实现本发明目的，本发明实施例提供了以下技术方案：

一种文本去重方法，包括以下步骤：

计算出整个文本的哈希值，并将哈希值转换为二进制数，以及将所述二进制数转换为n维向量，n为大于1的整数；

将该n维向量与已有的m×n的矩阵进行矩阵异或计算，并将每行的异或结果求和得到m×1的矩阵，矩阵中的一个元素即为一个海明距离；m为大于等于0的整数；

若m等于0，则判断为非重复文本，并直接将该n维向量添加到矩阵中得到1×n维矩阵；若m不等于0，则判断m个海明距离中最小的海明距离值是否小于设定的阈值，若小于则判断为重复文本，否则判断为非重复文本，并将该n维向量添加到矩阵中得到(m+1)×n维矩阵。

上述方案中，通过将计算出的文本的哈希值转换为矩阵的形式存储，计算海明距离时只需要计算一次即可判别出是否为重复文本，无需像传统方法那样循环执行m次运算，因此大大降低了运算量，提高了去重效率。

作为一种实施方式，所述计算出整个文本的哈希值，并将哈希值转换为二进制数，以及将所述二进制数转换为n维向量的步骤，包括：

提取文本的特征词，并计算出每一个特征词的哈希值；

将计算得到的十进制哈希值转换为二进制数，并根据二进制0转换为-1、二进制1不变的原则，将每一个特征词对应的二进制数转换得到由-1和1组成的一个序列串；

将文本所有特征词的序列串的对应位进行累加，得到该文本的一个序列串，并按照大于0转换为1、小于等于0转换为0的原则，将序列串中的各位数值转换为由0和1组成的序列串，并将该序列串转换为n维向量。

在进一步优化的方案中，所述提取文本的特征词的步骤，包括：提取文本的前面部分内容中的特征词。对于文本而言，实际上如果前面部分内容相似那么整个文本就相似，如果前面部分内容不相似那么整个文本基本上就不相似，因此通过只对文本前面部分的内容提取特征词并进行去重判断，可以进一步减少数据处理量，提高去重效率。

另一方面，本实施例中同时提供了一种文本去重系统，包括以下组成模块：

哈希值转换模块，用于计算出整个文本的哈希值，并将哈希值转换为二进制数，以及将所述二进制数转换为n维向量，n为大于1的整数；

距离计算模块，用于将该n维向量与已有的m×n的矩阵进行矩阵异或计算，并将每行的异或结果求和得到m×1的矩阵，矩阵中的一个元素即为一个海明距离；m为大于等于0的整数；

去重模块，用于在m等于0时，判断为非重复文本，并直接将该n维向量添加到矩阵中得到1×n维矩阵，以及在m不等于0时，判断m个海明距离中最小的海明距离值是否小于设定的阈值，若小于则判断为重复文本，否则判断为非重复文本，并将该n维向量添加到矩阵中得到(m+1)×n维矩阵。

进一步地，所述哈希值转换模块包括：

特征词提取模块，用于提取文本的特征词；哈希值计算模块，用于计算出每一个特征词的哈希值；转换模块，用于将计算得到的十进制哈希值转换为二进制数，并根据二进制0转换为-1、二进制1不变的原则，将每一个特征词对应的二进制数转换得到由-1和1组成的一个序列串；累加模块，用于将文本所有特征词的序列串的对应位进行累加，得到该文本的一个序列串，并按照大于0转换为1、小于等于0转换为0的原则，将序列串中的各位数值转换为由0和1组成的序列串，并将该序列串转换为n维向量。

再一方面，本发明实施例同时提供了一种电子设备，包括：存储器，存储程序指令；处理器，与所述存储器相连接，执行存储器中的程序指令，实现本发明实施例中所述方法中的步骤。

与现有技术相比，本发明系统及方法具有以下优势：

通过将哈希值转换为n维向量，且多条文本的哈希值以矩阵的形式存储，计算海明距离时只需要计算一次，无需再循环执行m次，极大地提高了去重效率，降低了运算量。

通过只提取文本正文的部分内容进行哈希值计算，进一步降低了运算量，提高了运算速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为实施例1中所述的文本去重方法的流程图。

图2为实施例2中所述的文本去重方法的流程图。

图3为针对文本中一句话计算哈希值的流程示例图。

图4为计算海明距离的流程示意图。

图5为实施例2中所述的文本去重的系统的示意框图。

图6为实施例中哈希值转换模块的组成示意框图。

图7为实施例中所述的电子设备的组成框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例中示意性地提供了一种文本去重方法。如图1所示，该方法包括以下步骤：

S1，计算出整个文本的哈希值，并将哈希值转换为二进制数，以及将所述二进制数转换为n维向量，n为大于1的整数。

S2，将该n维向量与已有的m×n的矩阵进行矩阵异或计算，并将每行的异或结果求和得到m×1的矩阵，矩阵中的一个元素即为一个海明距离；m为大于等于0的整数。

S3，若m等于0，则判断为非重复文本，并直接将该n维向量添加到矩阵中得到1×n维矩阵；若m不等于0，则判断m个海明距离中最小的海明距离值是否小于设定的阈值，若小于则判断为重复文本，否则判断为非重复文本，并将该n维向量添加到矩阵中得到(m+1)×n维矩阵。

本实施例方案中，在计算出文本的哈希值后，通过将哈希值转换为向量，然后再将若干个非重复文本的向量以矩阵的形式存储，当有新的文本向量需要去重判断时，只需要计算一次海明距离即可判别出是否为重复文本，无需循环m次计算，大大提高了去重效率。

实施例2

请参阅图2，本实施例中提供的文本去重方法，包括以下步骤：

S10，提取文本的特征词，得到的特征词的格式为词-权重对。本实施例中选用tf-idf算法提取特征词。对某一词A计算TF-IDF结果的简要步骤如下：1、分词：调用分词算法对文本进行分词，其中包含词A；2、计算词频TF：TF(A)＝词A在文本中出现的次数/文本的总词数；3、计算逆文档频率IDF：算法有一个IDF语料库(可替换)，IDF(A)＝log(语料库的文本总数/(包含词A的文本数+1))；4、计算TF-IDF，即词A的权重：TF-IDF(A)＝TF*IDF。词A权重意义为：词A在文章中出现次数越多，权重越高；语料库包含词A的文本数量越少，权重越高。

本步骤中，提取特征词的方法可以采用现有技术中的多种方法，例如词频计算法、tf-idf算法、TextRank算法等，但在实际应用中，发现tf-idf算法提取特征后计算的simhash去重效果最好，因此优选采用tf-idf算法提取文本中的特征词。这些算法都是现有技术，本领域技术人员知晓其具体的执行过程，因此此处对特征词的具体提取过程不做细致描述。

虽然文本在转载过程中正文内容可能会出现差异，但是实际中发现，仅通过文本的前面部分内容也可以准确地判断出两篇文本是否重复，因此，为了降低运算量，提升处理效率，作为更加优选的实施方式，在提取文本的特征词时，可以仅对文本的部分内容提取特征词，而不是对整个文本的内容都提取，例如仅提取文本的前面部分内容的特征词，如前面二分之一的文本内容，以减少运算量，提高速率。

图3展示了一篇文本的处理过程，图3中只选取了文本中的一句话“中方坚决反对贸易战升级”仅作为示意展示。如图3所示，对文本中的该语句提取特征词后得到结果为：中方-1，坚决-4，反对-2，贸易战-3，升级-2。

S20，对提取的所有特征词分别进行哈希计算，每个特征词对应一个哈希值。本实施例中使用的是最常见的md5哈希算法得到64位结果(即64bit，8字节大小，使用十进制表示结果)，当然也可以用其他的哈希算法。因为本实施例中未对哈希算法进行改进，直接使用的是常见的哈希算法，因此为简化描述，此处不对哈希计算的具体步骤做详细描述。

仍然请参阅图3，对文本的“中方坚决反对贸易战升级”中提取的特征词进行哈希计算，并转换为二进制数后的结果为(为方便描述，假设哈希结果为6位)：中方-2的哈希值二进制表示为100101，坚决-8的哈希值二进制表示为101011，反对-4的哈希值二进制表示为101010，贸易战-6的哈希值二进制表示为001011，升级-4的哈希值二进制表示为101111。实际上，通过md5哈希算法计算出的哈希值二进制表示为64位，图3中为了便于展示，以6位表示。

S30，将每一个特征词对应的二进制数按照设定的规则进行转换，得到转换后的序列串。本实施例中，采用的规则为：二进制0转换为-1，二进制1不变。当然，也可以是其他规则，例如二进制0转换为1，二进制1转换为-1。

仍然以文本中的“中方坚决反对贸易战升级”为例，100101转换后为1-1-11-11，101011转换后为1-11-111，101010转换后1-11-11-1，001011转换后为-1-11-111，101111转换后为1-11111。

S40，将序列串中的每一位与对应的权重相乘。

仍然以文本中的“中方坚决反对贸易战升级”为例，与对应的权重相乘后为：1-1-11-11，4-44-444，2-22-22-2，-3-33-333，2-22222。

S50，将得到的所有特征词的对应位进行累加，得到该文本的一个序列串。

请继续参阅图3，仍然以文本中的“中方坚决反对贸易战升级”为例，1+4+2-3+2＝6，-1-4-2-3-2＝-12，-1+4+2+3+2＝10，1-4-2-3+2＝-6，-1+4+2+3+2＝10，1+4-2+3+2＝8，因此得到的一个序列串为6-1210-6108。

S60，将步骤S50中计算得到的序列串转换为0、1的n维向量。本实施例中，采用的是大于0转换为1、小于等于0转换为0的原则，将序列串转换为只包含0和1的n维向量。例如，上述序列串6-1210-6108转换后为101011。当然也可以采用其他原则，例如大于等于0转换为0、小于0转换为1。

S70，将该n维向量与数据库中既有的m×n的矩阵进行矩阵异或计算，然后将每行的异或结果求和得到m×1的矩阵，m个元素即是m个海明距离，m为大于等于0的整数。若m等于0，则判断为非重复文本，并直接将该n维向量添加到矩阵中得到1×n维矩阵；若m不等于0，则判断m个海明距离中最小的海明距离值是否小于设定的阈值，如果是则说明数据库中已存有相似文本的n维向量，因此判断为重复文本，不存储该n维向量，同时可以告知文本重复(例如返回重复标签)；如果最小海明距离值大于设定阈值，则说明数据库中没有相似文本的n维向量，可以告知文本不重复(例如返回非重复标签)，并将该n维向量添加到矩阵中得到(m+1)×n维，并且存入数据库中。

对于阈值的设定，如果阈值设得太大，容易将不重复的两个文本认为是相似的；如果阈值设得太小，稍微有点差异的两个文本就会被认为不相似，因此阈值不能设置得过大或过小。根据实际需要以及大量的试验验证，选择3～6的阈值比较合适。

一个文本对应一个n维向量，一个n维向量即为一行，故m个文本即为m行；将文本的simhash值转为元素为0、1的n维向量，即矩阵的列数为n；最终得到m×n的矩阵，矩阵元素为0或者1。

如图4所示，6个文本分别对应的一个n维向量分别作为矩阵的一行，一个n维向量的6个元素(0和1组成的6维向量)作为矩阵的6列，构成了6×6的矩阵，待去重识别的n维向量110101与该矩阵做异或计算，得到

然后将每行的异或结果求和得到6×1的矩阵

该矩阵中6个元素即6个海明距离，最小的海明矩阵为1。

本步骤中，通过将文本的simhash值转换为矩阵形式进行存储，待识别文本的simhash值转换为n维向量，然后与矩阵进行计算，只需要进行一次矩阵计算即可得到是否重复的结果，相比于传统方法需要m次计算的循环计算方式，大大地提高了运算速度，提高了去重识别的效率。

基于相同的发明构思，本实施例中同时提供了一种文本去重系统。请参阅图5，文本去重系统包括哈希值转换模块、距离计算模块和去重模块。其中，

哈希值转换模块，用于计算出整个文本的哈希值，并将哈希值转换为二进制数，以及将所述二进制数转换为n维向量，n为大于1的整数。

距离计算模块，用于将该n维向量与已有的m×n的矩阵进行矩阵异或计算，并将每行的异或结果求和得到m×1的矩阵，矩阵中的一个元素即为一个海明距离；m为大于等于0的整数。

基于前述方法的实现方式，请参阅图6，此处所述哈希值转换模块包括：

特征词提取模块，用于提取文本的特征词；

哈希值计算模块，用于计算出每一个特征词的哈希值；

转换模块，用于将计算得到的十进制哈希值转换为二进制数，并根据二进制0转换为-1、二进制1不变的原则，将每一个特征词对应的二进制数转换得到由-1和1组成的一个序列串；

累加模块，用于将文本所有特征词的序列串的对应位进行累加，得到该文本的一个序列串，并按照大于0转换为1、小于等于0转换为0的原则，将序列串中的各位数值转换为由0和1组成的序列串，并将该序列串转换为n维向量。

上述文本去重系统是与前述方法具有相同的发明构思，因此此处未细述之处请参见前述方法描述中的内容。

如图7所示，本实施例同时提供了一种电子设备，该电子设备可以包括处理器51和存储器52，其中存储器52耦合至处理器51。值得注意的是，该图是示例性的，还可以使用其他类型的结构来补充或替代该结构，实现数据提取、哈希值计算、通信或其他功能。

如图7所示，该电子设备还可以包括：输入单元53、显示单元54和电源55。值得注意的是，该电子设备也并不是必须要包括图7中显示的所有部件。此外，电子设备还可以包括图7中没有示出的部件，可以参考现有技术。

处理器51有时也称控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该处理器51接收输入并控制电子设备的各个部件的操作。

其中，存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种，可存储上述处理器51的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序，以实现信息存储或处理等。在一个实施例中，存储器52中还包括缓冲存储器，即缓冲器，以存储中间信息。

输入单元53例如用于向处理器51提供待标注的文本数据。显示单元54用于显示处理过程中的各种结果，例如输入的文本数据、转换后的多维向量、计算出的距离值等，该显示单元例如可以为LCD显示器，但本发明并不限于此。电源55用于为电子设备提供电力。

本发明实施例还提供一种计算机可读指令，其中当在电子设备中执行所述指令时，所述程序使得电子设备执行本发明方法所包含的操作步骤。

本发明实施例还提供一种存储有计算机可读指令的存储介质，其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本去重方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述计算出整个文本的哈希值，并将哈希值转换为二进制数，以及将所述二进制数转换为n维向量的步骤，包括：

提取文本的特征词，并计算出每一个特征词的哈希值；

3.根据权利要求2所述的方法，其特征在于，所述提取文本的特征词的步骤，包括：提取文本的前面部分内容中的特征词。

4.根据权利要求2所述的方法，其特征在于，所述二进制0转换为-1、二进制1不变的原则也可以由以下原则代替：二进制0转换为1、二进制1转换为-1；和/或，

所述大于0转换为1、小于等于0转换为0的原则也可以由以下原则代替：大于等于0转换为0、小于0转换为1。

5.一种文本去重系统，其特征在于，包括以下组成模块：

6.根据权利要求5所述的系统，其特征在于，所述哈希值转换模块包括：

特征词提取模块，用于提取文本的特征词；

哈希值计算模块，用于计算出每一个特征词的哈希值；

7.根据权利要求6所述的系统，其特征在于，所述特征词提取模块具体用于：提取文本的前面部分内容中的特征词。

8.一种包括计算机可读指令的计算机可读存储介质，其特征在于，所述计算机可读指令在被执行时使处理器执行权利要求1-4任一所述方法中的操作。

9.一种电子设备，其特征在于，所述的设备包括：

存储器，存储程序指令；

处理器，与所述存储器相连接，执行存储器中的程序指令，实现权利要求1-4任一所述方法中的步骤。