CN104636319A

CN104636319A - 一种文本去重方法和装置

Info

Publication number: CN104636319A
Application number: CN201310556688.7A
Authority: CN
Inventors: 贾铸斌; 袁昌文
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2013-11-11
Filing date: 2013-11-11
Publication date: 2015-05-20
Anticipated expiration: 2033-11-11
Also published as: CN104636319B

Abstract

本发明提供了一种文本去重方法和装置，技术方案为：对案例文本的特征词串进行切片并计算各切片的签名值，以此建立签名值和案例文本的关联关系，形成案例库。当有待处理文本需要进行去重处理时，对待处理文本的特征词串进行切片并计算各切片的签名值，根据各切片的签名值确定该切片对应的案例文本，从而通过统计对应同一案例文本的签名值个数，并利用最大签名值个数计算待处理文本与相应案例文本的相似度，进而进行相似判断。本发明需要的计算量较小，而且可以保证较小的误判率。

Description

一种文本去重方法和装置

技术领域

本申请涉及文本处理技术领域，特别涉及一种文本去重方法和装置。

背景技术

目前的文本去重方法主要有以下几种：文本哈希、余弦相似文本计算、simhash，下面分别进行介绍。

1）文本哈希方法：计算文本内容的哈希值（例如）Murmur哈希值，比较两个文本的哈希值是否相同确定是否是相同文本，哈希值一致即认为文本相同。

文本哈希方法能够快速的判断两个文本是否相似，但是判断条件过于严苛，文本内容必须完全相同，否则就可能会计算出不同的哈希值而导致。例如：“任其发展。”和“任其发展！”本是相同文本，然而却因为最后的标点符号不相同，就被误判为不同。

2）余弦相似文本计算方法：计算两个文本对应向量的夹角余弦值，根据余弦值确定夹角，夹角越小越相似。计算向量间的夹角余弦值的公式如下：

\cos θ = \frac{Σ_{i = 1}^{n} (Ai \times Bi)}{\sqrt{Σ_{i = 1}^{n} {Ai}^{2}} \times \sqrt{Σ_{i = 1}^{n} {Bi}^{2}}}

余弦相似文本计算方法的优点是计算方式比较简单，但是这种方法需要进行文本两两之间计算余弦值，计算量比较大，无法适应海量数据的使用场景。例如，现存在文本A，样本库B，其中存在样本数为10万，为了计算A是否与B中的文本存在相似的文本，A需要与B中的每个文本进行计算，共10万次计算，计算量非常大。

3）simhash算法：计算文本的simhash值，比较两个文本的simhash值之间的海明距离，海明距离小于3即认为相似。

simhash算法的优点是可以大大减少海量文本情况下的计算工作量，缺点是实现比较复杂，而且要计算海明距离，计算量也比较大。

可以看出，以上三种方法中，第一种方法的误判率较高，而后两种方法的计算量由过大，都不能兼顾误判率和计算量。

发明内容

有鉴于此，本发明的目的在于提供一种文本去重方法和装置，能够保证误判率较小，而且不需要过多的计算量。

为实现上述目的，本发明提供的技术方案为：

一种文本去重方法，包括：

针对每一案例文本，提取该案例文本中的特征词，按照预设规则对提取的特征词串进行切片并计算每个切片的签名值，建立该案例文本对应的各切片的签名值与该案例文本的关联关系；

提取待处理文本中的特征词，按照预设规则对提取的特征词串进行切片并计算每个切片的签名值，查找每个所述关联关系，确定待处理文本对应的各切片的签名值关联的案例文本，并对关联该案例文本的签名值个数进行累加；

确定签名值个数累加结果最大的案例文本，根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度，如果相似度大于第一预设值，则确定待处理文本和该案例文本相似，对待处理文本进行去重处理。

一种文本去重装置，包括：文本处理单元、关系建立单元、关系查找单元、去重单元；

所述文本处理单元，用于针对每一案例文本，提取该案例文本中的特征词，按照预设规则对提取的特征词串进行切片并计算每个切片的签名值；用于提取待处理文本中的特征词，按照预设规则对提取的特征词串进行切片并计算每个切片的签名值；

所述关系建立单元，用于建立每一案例文本对应的各切片的签名值与该案例文本的关联关系；

所述关系查找单元，用于查找关系建立单元建立的每个所述关联关系，确定待处理文本对应的各切片的签名值关联的案例文本，并对关联该案例文本的签名值个数进行累加；

所述去重单元，用于确定签名值个数累加结果最大的案例文本，根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度，如果相似度大于第一预设值，则确定待处理文本和该案例文本相似，对待处理文本进行去重处理。

综上所述，本发明中，先通过对案例文本的特征词串进行切片并计算各切片的签名值，以此建立签名值和案例文本的关联关系，形成案例库。此后，当有待处理文本需要进行去重处理时，对待处理文本的特征词串进行切片并计算各切片的签名值，根据各切片的签名值确定该切片对应的案例文本，从而通过统计对应同一案例文本的签名值个数，并利用最大签名值个数计算待处理文本与相应案例文本的相似度，进而进行相似判断。案例库建立之后，可以用于所有待处理文本的去重处理过程，去重方法简单，计算量较小，而且可以保证较小的误判率。

附图说明

图1是本发明实施例文本去重方法流程图；

图2是本发明实施例文本去重装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明所述方案作进一步地详细说明。

本发明实施例中，通过以下三个步骤完成文本去重：

步骤一、建立案例库：

为了进行文本去重，首先需要指定多条文本作为案例文本，并对其中的每条案例文本进行处理，以建立案例库。

对每条案例文本的处理过程包括如下步骤：

A1、提取该案例文本的特征词得到一特征词串。

可以采用现有切词方法提取文本特征词。

例如，对于案例文本：你的车到底发生了什么：

提取特征词得到以下特征词串：你的车到底发生了什么。

A2、按照预设规则对该特征词串进行切片处理得到多个切片。

具体切片方法可以为：以特征词为单位，将从每个特征词开始的连续N个特征词划为一个切片，其中N为一预设值。

例如，对特征词串：你的车到底发生了什么

假设N为4，则可得到如下切片：

切片11：你的车到底

切片12：的车到底发生

切片13：车到底发生了

切片14：到底发生了什么

A3、计算每个切片的签名值，建立该签名值与该案例文本的关联关系。

可以将每个切片的哈希值作为该切片的签名值。例如，

上述切片11的murmur哈希值为a1，因此将切片11的签名值设为a1；

上述切片12的murmur哈希值为a2，因此将切片12的签名值设为a2；

上述切片13的murmur哈希值为a3，因此将切片13的签名值设为a3；

上述切片14的murmur哈希值为a4，因此将切片14的签名值设为a4。

将该案例文本使用案例ID表示，假设案例ID为100，则可得到如表一所示的4条签名值与案例文本的关联关系：

切片签名值	案例文本（使用案例ID表示）
		a1	100
a2	100
		a3	100
a4	100

表一

所有案例文本处理完毕后，所建立的切片签名值和案例文本的关联关系就构成了一个案例库，后续可以利用该案例库进行文本的去重分析。

步骤二、对待处理文本进行文本处理：

建立了案例库后，当有某个文本需要进行去重分析时，可以将该文本作为待处理文本，执行以下处理过程：

B1、提取该案例文本的特征词得到一特征词串。

步骤B1与上述步骤A1完全相同。

B2、按照预设规则对该特征词串进行切片处理得到多个切片。

步骤B2与上述步骤A2完全相同。

B3、计算每个切片的签名值，查找上述案例库中的关联关系，确定该签名值对应的案例文本，并对关联该案例文本的签名值个数进行累加。

例如有以下待处理文本：你的车到底发生了什么啊。

执行上述步骤（1）得到以下特征词串：你的车到底发生了什么啊。

执行上述步骤（2）得到以下切片：

切片21：你的车到底

切片22：的车到底发生

切片23：车到底发生了

切片24：到底发生了什么

切片25，发生了什么啊

通过计算hash值可以确定上述切片21的签名值为a1，进而查找案例库可确定a1关联案例ID为100的案例文本，因此，对关联案例ID为100的案例文本的签名值个数进行累加。至此，关联案例ID为100的案例文本的签名值个数的累加结果为1。

通过计算hash值可以确定切片22的签名值为a2，进而查找案例库可确定a2关联案例ID为100的案例文本，因此，对关联案例ID为100的案例文本的签名值个数进行累加。至此，关联案例ID为100的案例文本的签名值个数的累加结果为2。

通过计算hash值可以确定切片23的签名值为a3，进而查找案例库可确定a3关联案例ID为100的案例文本，因此，对关联案例ID为100的案例文本的签名值个数进行累加。至此，关联案例ID为100的案例文本的签名值个数的累加结果为3。

通过计算hash值可以确定切片24的签名值为a4，进而查找案例库可确定a4关联案例ID为100的案例文本，因此，对关联案例ID为100的案例文本的签名值个数进行累加。至此，关联案例ID为100的案例文本的签名值个数的累加结果为1。

通过计算hash值可以确定切片21的签名值为a5，进而查找案例库可确定a5未关联任何案例文本，因此，不执行累加计算。

最终，得到如下结果：关联案例ID为100的案例文本的签名值个数为4，无关联其它案例文本的签名值。

步骤三、对待处理文本进行去重分析：

分析待处理文本对应的各切片的签名值关联的案例文本，找出一个案例文本，待处理文本对应的各切片的签名值中关联该案例文本的签名值个数最多。如果待处理文本对应的各切片的签名值中关联某一案例文本的签名值个数最多，则说明待处理文本与该案例文本最相似。此时，可以根据关联该案例文本的签名值个数以及待处理文本对应的切片总个数计算待处理文本与该案例文本的相似度，如果相似度超过一定阈值（例如50%），则可以确定待处理文本与该案例文本相似。

所述根据关联该案例文本的签名值个数以及待处理文本对应的切片总个数计算待处理文本与该案例文本的相似度的方法具体可以为：计算关联该案例文本的签名值个数与待处理文本对应的切片总个数的商，将该商值作为待处理文本与该案例文本的相似度。

当确定待处理文本与某一案例文本相似时，就可以对该待处理文本进行去重处理，例如丢弃待处理文本。如果待处理文本与任何案例文本都不相似，则可以执行其他处理，例如将待处理文本作为一个案例文本进行分析，建立相应的关联关系加入案例库。

例如，对于上述待处理文本：你的车到底发生了什么啊

其对应的各切片的签名值中，有4个切片（切片21、切片22、切片23、切片24）的签名值均关联案例ID为100的案例文本，因此，可以计算出待处理文本与案例ID为100的案例文本的相似度为4/5=0.8（80%），大于50%，因此可以确定待处理文本和案例ID为100的案例文本相似。

以上对本发明实施例文本去重方法进行了原理性说明，基于以上原理，本发明提供了一种文本去重方法和一种文本去重装置，下面分别结合图1和图2进行说明。

图1是本发明实施例文本去重方法的流程示意图，如图1所示，该方法主要包括以下步骤：

步骤101、针对每一案例文本，提取该案例文本中的特征词，按照预设规则对提取的特征词串进行切片并计算每个切片的签名值，建立该案例文本对应的各切片的签名值与该案例文本的关联关系。

本步骤只需执行一次。

步骤102、提取待处理文本中的特征词，按照预设规则对提取的特征词串进行切片并计算每个切片的签名值，查找每个所述关联关系，确定待处理文本对应的各切片的签名值关联的案例文本，并对关联该案例文本的签名值个数进行累加；

步骤103、确定签名值个数累加结果最大的案例文本，根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度，如果相似度大于预设值，则确定待处理文本和该案例文本相似，对待处理文本进行去重处理。

图1所示本发明实施例中，

按照预设规则对提取的特征词串进行切片的方法为：

对于特征词串中的每个特征词，判断是否具有从该特征词开始的连续N个特征词，如果是，则将从该特征词开始的连续N个特征词划为一个切片。

图1所示本发明实施例中，

所述计算每个切片的签名值的方法为：

对该切片进行哈希hash运算，将hash运算结果作为该切片的签名值。

图1所示本发明实施例中，

查找每个所述关联关系，确定待处理文本对应的各切片的签名值关联的案例文本的方法为：

针对待处理文本对应的每个切片，查找签名值与该切片的签名值相同的关联关系，将该关联关系中的案例文本确定该切片的签名值关联的案例文本。

图1所示本发明实施例中，

根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度的方法为：

计算该签名值个数与所述切片总个数的商，将计算结果作为待处理文本与该案例文本的相似度。

图2是本发明实施例文本去重装置的结构示意图，如图2所示，该装置包括：文本处理单元201、关系建立单元202、关系查找单元203、去重单元204；其中，

文本处理单元201，用于针对每一案例文本，提取该案例文本中的特征词，按照预设规则对提取的特征词串进行切片并计算每个切片的签名值；用于提取待处理文本中的特征词，按照预设规则对提取的特征词串进行切片并计算每个切片的签名值；

关系建立单元202，用于建立每一案例文本对应的各切片的签名值与该案例文本的关联关系；

关系查找单元203，用于查找关系建立单元202建立的每个所述关联关系，确定待处理文本对应的各切片的签名值关联的案例文本，并对关联该案例文本的签名值个数进行累加；

去重单元204，用于确定签名值个数累加结果最大的案例文本，根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度，如果相似度大于预设值，则确定待处理文本和该案例文本相似，对待处理文本进行去重处理。

图2所示装置中，所述文本处理单元201在按照预设规则对提取的特征词串进行切片时，用于：

图2所示装置中，所述文本处理单元201在计算每个切片的签名值时，用于：

图2所示装置中，所述关系查找单元203在查找每个所述关联关系，确定待处理文本对应的各切片的签名值关联的案例文本时，用于：

图2所示装置中，所述去重单元204在根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度时，用于：

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本去重方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，

按照预设规则对提取的特征词串进行切片的方法为：

对于特征词串中的每个特征词，判断是否具有从该特征词开始的连续N个特征词，如果是，则将从该特征词开始的连续N个特征词划为一个切片；其中，N为第二预设值。

3.根据权利要求1所述的方法，其特征在于，

所述计算每个切片的签名值的方法为：

4.根据权利要求1所述的方法，其特征在于，

5.根据权利要求1所述的方法，其特征在于，

6.一种文本去重装置，其特征在于，该装置包括：文本处理单元、关系建立单元、关系查找单元、去重单元；

7.根据权利要求6所述的装置，其特征在于，

所述文本处理单元在按照预设规则对提取的特征词串进行切片时，用于：

8.根据权利要求6所述的装置，其特征在于，

所述文本处理单元在计算每个切片的签名值时，用于：

9.根据权利要求6所述的装置，其特征在于，

所述关系查找单元在查找每个所述关联关系，确定待处理文本对应的各切片的签名值关联的案例文本时，用于：

10.根据权利要求6所述的装置，其特征在于，

所述去重单元在根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度时，用于：