CN103123618B

CN103123618B - 文本相似度获取方法和装置

Info

Publication number: CN103123618B
Application number: CN201110372083.3A
Authority: CN
Inventors: 张雁飞
Original assignee: Beijing Feinno Communication Technology Co Ltd
Current assignee: Beijing Feinno Communication Technology Co Ltd
Priority date: 2011-11-21
Filing date: 2011-11-21
Publication date: 2016-09-14
Anticipated expiration: 2031-11-21
Also published as: CN103123618A

Abstract

本发明公开一种文本相似度获取方法和装置，能够准确快速地计算出文本的相似度，操作简单，数据计算量较小。本发明实施例提供的文本相似度获取方法包括：根据预定的停用词规则剔除各文本中的停用词，提取出所述文本的可用词；计算文本中每一可用词的哈希值；根据文本中所有可用词的哈希值得到所述文本的相似哈希值；利用文本的相似哈希值获取不同文本之间的相似度。

Description

文本相似度获取方法和装置

技术领域

本发明涉及文本信息处理技术领域，特别涉及一种文本相似度获取方法和装置，能够广泛应用于信息检索、机器翻译、自动问答系统、网页去重、文本聚类、文本挖掘等领域。

背景技术

随着计算机的广泛应用和互联网的普及，各类信息都在急速地膨胀，给人们带来便利的同时也带来了信息过量的问题。

文本是最重要的信息载体，对文本文档的处理和分析成为当今数据挖掘和信息检索技术的热点之一。文本处理技术中一个基础而关键的问题就是文本相似度的计算。文本相似度计算可以计算一个文本中不同词条的相似度，也可以计算两个文本间的相似度，其广泛应用于文本聚类、信息检索、机器翻译、自动问答系统、文本挖掘、网页去重等领域，长期以来一直是研究的热点和难点。

然而，现有的文本相似度计算方案通常需要关联于文本中词语的顺序性，且计算方法比较复杂，数据计算量较大，性能低下。

发明内容

本发明提供了一种文本相似度获取方法和装置，以解决的现有的文本相似度计算方案与词语顺序相关，计算方法比较复杂，数据计算量较大，性能低下问题。

为达到上述目的，本发明实施例采用了如下技术方案：

本发明实施例提供了一种文本相似度获取方法，该方法包括：

根据预定的停用词规则剔除各文本中的停用词，提取出所述文本的可用词；

计算文本中每一可用词的哈希值；

根据文本中所有可用词的哈希值得到所述文本的相似哈希值；

利用文本的相似哈希值获取不同文本之间的相似度。

本发明实施例还提供了一种文本相似度获取装置，该装置包括：

提取单元，用于根据预定的停用词规则剔除各文本中的停用词，提取出所述文本的可用词；

哈希值计算单元，用于计算文本中每一可用词的哈希值；

相似哈希值获取单元，用于根据文本中所有可用词的哈希值得到所述文本的相似哈希值；

相似度获取单元，用于利用文本的相似哈希值获取不同文本之间的相似度。

本发明实施例的有益效果是：

本发明实施例的技术方案提供了一种新型的文本相似度获取方案，剔除文本中的停用词得到仅包含可用词的文本信息，基于可用词和哈希运算设计了文本的相似哈希值，由该相似哈希值获取不同文本之间的相似度。

本发明实施例的文本相似度计算不依赖于文本中字符的顺序，具有顺序无关性，且计算方法比较简单，显著降低了文本相似度获取过程中的复杂度和数据计算量，实践证明，本方案能够准确快速地计算出文本的相似度。

附图说明

图1为本发明实施例一提供的一种文本相似度获取方法流程示意图；

图2为本发明实施例一提供的更新标记数组中元素的方法流程示意图；

图3为本发明实施例二提供的一种文本相似度获取装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

参见图1，为本发明实施例一提供的一种文本相似度获取方法，该方法包括：

11：根预定的停用词规则，剔除各文本中的停用词，提取出所述文本的可用词；

本实施例中，首先使用基于统计的分词系统对所需处理的文本进行分词，即根据预定的停用词规则剔除停用词，得到仅包含可用词(即文本中除去停用词之外的词语)的文本。计算机对于中文分词的处理难度要高于对西文的分词处理难度，分词是中文文本相似度计算的基础和前提，本方案通过采用高效的分词算法能够极大地提高文本相似度计算结果的准确性。

上述停用词规则所确定的停用词可以预先通过样本统计得到，例如，对样本中各字符的出现频率进行统计，在出现频率大于词频阈值的字符中确定停用词。例如，对出现频率大于词频阈值的词语(即词频较高)，若该词语本身又无意义，则将该词语确定为停用词，如文本中的副词、虚词、语气词等通常都被归类为停用词。

比如：一个文本s的示例为“你好啊上帝的朋友”，则剔除掉“啊，的”等停用词得到由可用词{W1，W2，W3...Wn}组成的文本，这些可用词可以作为哈希结构中的键(keys)，文本s的keys为{″你好″，″上帝″，″朋友″}。

12：计算文本中每一可用词的哈希值；

使用哈希函数，如表示为bjd_hash()，对文本中每个可用词进行哈希计算，即将可用词作为哈希结构中的key，每次计算出来的值(Value)作为该可用词的哈希值。文本中的可用词可以由一个字符组成，如字符“我”，也可以由两个或多个字符组成，如包含两个字符“鸭梨”的可用词，可用词也可以由数字或运算符号等字符构成。

本实施例中，对每个可用词计算出来的哈希值均占8个字节(byte)，也就是8*8个比特(bit)位，所得到的每个可用词的哈希值共有64bit，表达式可以表示如下：

64bit＝bjd_hash(w1)(1)

上式表示了采用哈希函数bjd_hash()对可用词w1进行哈希计算后，得到64bit的哈希值。

13：根据文本中所有可用词的哈希值得到所述文本的相似哈希值，具体包括如下处理：

131：设置具有预定数目元素的标记数组，所述预定数目与所述可用词的哈希值的比特位数相同。

相应与所设置的64bit的可用词的哈希值，本实施例中标记数组可以为一个长度为64的整型数组，该数组中包括了64个元素，分别与可用词的哈希值的64个比特位相对应。

132：遍历文本中的所有可用词，利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值。

可以按照可用词在文本中的顺序依次提取可用词，也可以按照预定次序在文本中提取可用词。标记数组中的元素的初始值可以为0，也可以选取不为0的其他数值作为元素的初始值，优选的，本方案中采用0作为元素的初始值，参见图2，利用如下方式更新标记数组中的元素：

T1：提取可用词的哈希值中的当前比特位，即提取可用词的哈希值中当前比特位上的具体数值(比特值)；

T2：判断当前比特位的具体数值，若是1，执行T3；若是0，执行T4。

T3：当可用词的哈希值的比特位为1时，将相似哈希值中相应元素的数值增加预定数值后作为更新后的该元素的数值；

本实施例中，优选的，上述预定数值选取为1，即具有如下更新公式：

bitset[i]＝bitset[i]+1(2)

上述等式左边的bitset[i]为更新后的元素的数值，上述等式右边的bitset[i]为更新后的元素的数值，i为序号，上式表示了利用可用词的哈希值的第i个比特位的比特位更新标记数组中第i个元素的场景。

T4：当可用词的哈希值的比特位为0时，将相似哈希值中相应元素的数值减少预定数值后作为更新后的该元素的数值。

bitset[i]＝bitset[i]-1(3)

上述等式左边的bitset[i]为更新后的元素的数值，上述等式右边的bitset[i]为更新后的元素的数值，i为序号，上式表示了利用可用词的哈希值的第i个比特位的比特值更新标记数组中第i个元素的场景。

对文本中的所有可用词重复进行上述步骤T1至T4的操作，最后得到的标记数组将是对文本中所有可用词哈希值的每个比特位0或1出现次数的统计表。

133：利用更新后得到的标记数组中元素的数值得到文本的相似哈希值。

在本步骤中，对标记数组里的元素的数值进行计算，归一成一个整数。

本实施例中设置相似哈希值的初始值，优选的，本实施例中该初始值设置为0，遍历更新后标记数组中的所有元素，利用每一元素的数值逐次更新所述相似哈希值的初始值，得到文本的相似哈希值，具体包括如下处理：

若当前元素的数值大于0时，利用如下公式更新所述相似哈希值的初始值：simhash(n)＝simhash(n-1)＊a+b

若当前元素的数值不大于0时，利用如下公式更新所述相似哈希值的初始值：

simhash(n)＝simhash(n-1)＊a

其中，上述公式中simhash(n)表示当前利用第n个元素更新后的初始值，simhash(n-1)表示上一次利用第n-1个元素更新后的初始值，a和b为线性参数。n的取值可以为1至64，simhash(0)的数值为0。

优选的，本实施例中上述a的取值为2，上述b的取值为1，

则当前元素的数值大于0时，有如下公式：

simhash(n)＝simhash(n-1)＊2+1(4)

当前元素的数值不大于0时，有如下公式：

simhash(n)＝simhash(n-1)＊2(5)

14：利用文本的相似哈希值获取不同文本之间的相似度。

本实施例将两个文本的相似哈希值的比值作为所述两个文本的相似度，可以表示如下：

sim(％)＝simhash1/simhash2(6)

上式中sim(％)表示两个文本的相似度，其数值采用百分比的方式表示，simhash1表示一个文本的相似哈希值，simhash2表示另一个文本的相似哈希值，当simhash1的数值小于simhash2时将simhash2作为上式中的分母，即通常将相比较的两个相似哈希值中数值较大的一个作为上式中的分母。

本发明实施例二还提供了一种文本相似度获取装置，参见图3，所述装置包括：

提取单元31，用于根据预定的停用词规则剔除各文本中的停用词，提取出所述文本的可用词；

哈希值计算单元32，用于计算文本中每一可用词的哈希值；

相似哈希值获取单元33，用于根据文本中所有可用词的哈希值得到所述文本的相似哈希值；

相似度获取单元34，用于利用文本的相似哈希值获取不同文本之间的相似度。

进一步的，所述相似哈希值获取单元33包括：

标记数组设置模块，用于设置具有预定数目元素的标记数组，所述预定数目与所述可用词的哈希值的比特位数相同；例如，当可用词的哈希值采用64bit时，标记数组中的元素可以为64个。

数组元素更新模块，用于遍历文本中的所有可用词，利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值。例如，当可用词的哈希值的比特位为1时，将相似哈希值中相应元素的数值增加预定数值后作为更新后的该元素的数值，当可用词的哈希值的比特位为0时，将相似哈希值中相应元素的数值减少预定数值后作为更新后的该元素的数值。

获取模块，用于利用更新后得到的标记数组中元素的数值得到文本的相似哈希值。具体的，该获取模块设置相似哈希值的初始值，遍历更新后标记数组中的所有元素，利用每一元素的数值逐次更新所述相似哈希值的初始值，得到文本的相似哈希值，具体包括如下处理：

simhash(n)＝simhash(n-1)＊a

优选的，本实施例中上述a的取值为2，上述b的取值为1，

上述相似度获取单元34，具体用于将两个文本的相似哈希值的比值作为所述两个文本的相似度。例如，将两个文本的相似哈希值的比值作为所述两个文本的相似度。

为了进一步说明本发明实施例的有益效果，下面给出几组文本示例以及实验数据：

实验一

文本S1的可用词(四个)包括：{″我″，″爱″，″吃″，″鸭梨″}；

文本S2的可用词(四个)包括：{″我″，″爱″，″吃″，″梨″}

实验采用长度为64的初始为0的标记数组，以及上述公式(1)至(6)，则得到：

文本S1的相似哈希值为：simhash1＝159789056

文本S2的相似哈希值为：simhash2＝193344532

文本S1和文本S2的相似度为：sim(％)＝159789056/193344532＝82.6％

实验二

文本S1的可用词(四个)包括：{″尊敬″，″非常6+1″，″抽奖″，″领奖″}；

文本S2的可用词(四个)包括：{″恭喜你″，″非常6+1″，″抽奖″，″领奖″}；

文本S1的相似哈希值为：simhash1＝3262926994

文本S2的相似哈希值为：simhash2＝3229440400

文本S1和文本S2的相似度为：sim(％)＝98％

实验三

文本S2的可用词(四个)包括：{″用户″，″你好″，″恭喜″，″领奖″}；

文本S1的相似哈希值为：simhash1＝3262926994

文本S2的相似哈希值为：simhash2＝424180509

文本S1和文本S2的相似度为：sim(％)＝13％

实验四

文本S1的可用词(四个)包括：{″我″，″可能″，″知道″，″这事″}；

文本S2的可用词(四个)包括：{″这事″，″我″，″可能″，″知道″}；

文本S1的相似哈希值为：simhash1＝3263299844

文本S2的相似哈希值为：simhash2＝3263299844

文本S1和文本S2的相似度为：sim(％)＝100％

由上述实验数据可以看出，当两个文本之间的较相似时，如实验一和实验二所示的情况，利用本方案获取到的相似度也较大，相似度在80％以上，而当两个文本之间的差异较大时，如实验三所示的情况，利用本方案获取到的相似度较小，仅为13％，从而利用本方案能够准确识别出相似度较高的文本。

并且，本方案的相似度不依赖于文本中可用词的顺序，相似度与可用词的顺序无关，如实验四所示的场景，即使文本中可用词的顺序不同，只要文本中可用词在内容上是实质相同的，本方案就能够准确识别相似的文本。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本相似度获取方法，其特征在于，所述方法包括：

基于统计的分词系统对所需处理的文本进行分词，根据预定的停用词规则剔除各文本中的停用词，提取出所述文本的可用词；

计算文本中每一可用词的哈希值；

根据文本中所有可用词的哈希值得到所述文本的相似哈希值，所述根据文本中所有可用词的哈希值得到所述文本的相似哈希值包括：设置具有预定数目元素的标记数组，所述预定数目与所述可用词的哈希值的比特位数相同；遍历文本中的所有可用词，利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值；利用更新后得到的标记数组中元素的数值得到文本的相似哈希值；所述文本的相似哈希值归一成一个整数；

利用文本的相似哈希值获取不同文本之间的相似度；所述利用文本的相似哈希值获取不同文本之间的相似度包括：将相比较的两个相似哈希值中数值较大的一个作为分母，将两个文本的相似哈希值的比值作为所述两个文本的相似度；

所述利用更新后得到的标记数组中元素的数值得到文本的相似哈希值包括：

设置相似哈希值的初始值，遍历更新后标记数组中的所有元素，

若当前元素的数值大于0时，利用如下公式更新所述相似哈希值的初始值：simhash(n)＝simhash(n-1)*a+b

若当前元素的数值不大于0时，利用如下公式更新所述相似哈希值的初始值：simhash(n)＝simhash(n-1)*a

其中，上述公式中simhash(n)表示当前利用第n个元素更新后的初始值，simhash(n-1)表示上一次利用第n-1个元素更新后的初始值，a和b为线性参数。

2.根据权利要求1所述的方法，其特征在于，所述预定的停用词规则通过如下方式确定停用词：

对样本中各词语的出现频率进行统计，在出现频率大于词频阈值的词语中确定停用词。

3.根据权利要求1所述的方法，其特征在于，所述利用每一可用词的哈希值的每一比特位逐次更新相似哈希值中相应元素的数值包括：

当可用词的哈希值的比特位为1时，将相似哈希值中相应元素的数值增加预定数值后作为更新后的该元素的数值；

当可用词的哈希值的比特位为0时，将相似哈希值中相应元素的数值减少预定数值后作为更新后的该元素的数值。

4.一种文本相似度获取装置，其特征在于，所述装置包括：

提取单元，用于基于统计的分词系统对所需处理的文本进行分词，根据预定的停用词规则剔除各文本中的停用词，提取出所述文本的可用词；

哈希值计算单元，用于计算文本中每一可用词的哈希值；

相似哈希值获取单元，用于根据文本中所有可用词的哈希值得到所述文本的相似哈希值，所述文本的相似哈希值归一成一个整数；

相似度获取单元，用于利用文本的相似哈希值获取不同文本之间的相似度；所述相似度获取单元，具体用于将相比较的两个相似哈希值中数值较大的一个作为分母，将两个文本的相似哈希值的比值作为所述两个文本的相似度；

所述相似哈希值获取单元包括：

标记数组设置模块，用于设置具有预定数目元素的标记数组，所述预定数目与所述可用词的哈希值的比特位数相同；

数组元素更新模块，用于遍历文本中的所有可用词，利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值；

获取模块，用于利用更新后得到的标记数组中元素的数值得到文本的相似哈希值，具体包括如下处理：设置相似哈希值的初始值，遍历更新后标记数组中的所有元素，若当前元素的数值大于0时，利用如下公式更新所述相似哈希值的初始值：simhash(n)＝simhash(n-1)*a+b