CN105488023A

CN105488023A - 一种文本相似度评估方法及装置

Info

Publication number: CN105488023A
Application number: CN201510125905.6A
Authority: CN
Inventors: 梁捷; 尹兵
Original assignee: Guangzhou I9Game Information Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2016-04-13
Anticipated expiration: 2035-03-20
Also published as: CN105488023B

Abstract

本发明公开了一种文本相似度评估方法及装置，所述方法包括：将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；统计所述有效分词集合包含的词分别在两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据向量余弦值确定所述目标文本的相似度。所述方法在对语句单元进行分词的基础上进一步对语句单元对应的多个分词结果进行最优化筛选，从而筛选出该语句单元对应的一个有效分词集合，从而提高了分词结果的准确性；此外通过计算目标文本的向量余弦值，并根据所述向量余弦值确定目标文本的相似度的评估算法，与逐词比较的评估方法相比，运算速度得到了显著提高。

Description

一种文本相似度评估方法及装置

技术领域

本发明涉及移动通信技术领域，特别是涉及一种文本相似度评估方法及装置。

背景技术

随着通信及网络技术的飞速发展，互联网成为用户发布信息及获取信息的重要平台。在海量的互联网文本信息中，有些文本信息在主题或内容上彼此具有很高的相似性或相关性，导致信息的冗余性很高。因此需要通过相似度评估的方法对这些文本信息进行相似程度评估，进而对其进行去重、归类，以便更准确、高效的管理这些信息资源。

现有的文本相似度的评估方法一般是基于逐词比较的方法，即将待比较的两个文本信息分别切分成词(或称为字符串)，再对这两个文本包含的词逐个进行比较，以共同包含的词在总词中所占的比例作为衡量这两个文本的相似程度的标准。

然而，这种方法一方面在对文本分词时准确性较差，另一方面采用逐词比较方法的计算效率也较低。

发明内容

本发明实施例提供了一种文本相似度评估方法及装置，以解决现有的文本相似度评估方法的准确性差和计算效率较低的问题。

为了解决上述技术问题，本发明实施例公开了如下技术方案：

一方面，提供了一种文本相似度评估方法，所述方法包括：

将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；

统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据所述向量余弦值确定所述目标文本的相似度。

可选的，所述将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合包括：

分别获得待评估的两个目标文本包含的语句单元，对所述语句单元进行分词处理，获得所述语句单元对应的至少一个分词集合；

确定所述语句单元对应的分词集合包含的词的类型，其中所述词的类型包括单一词和非单一词，分别统计各类型的词在所述语句单元对应的分词集合中的数量；

根据所述词的类型及数量确定各语句单元对应的有效分词集合。

可选的，所述根据所述词的类型及数量确定各语句单元对应的有效分词集合包括：

如果所述语句单元对应一个分词集合，则所述一个分词集合即为所述语句单元对应的有效分词集合；

如果所述语句单元对应至少两个分词集合，则分别统计所述至少两个分词集合对应的总词数量，所述总词数量为单一词和非单一词的数量之和；

当所述至少两个分词集合对应的总词数量不相等时，从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合；当所述总词数量相等时，从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。

可选的，所述对所述语句单元进行分词处理包括：根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。

可选的，所述根据所述次数计算所述两个目标文本的向量余弦值采用如下公式：

Cos_AB = \frac{Σ_{i = 1}^{n} (count_A_{i} \times count_B_{i})}{\sqrt{Σ_{i = 1}^{n} {(count_A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(count_B_{i})}^{2}}};

其中，Cos_AB为目标文本A和目标文本B的向量余弦值，count_A_i为所述有效分词集合包含的词i在目标文本A中出现的次数，count_B_i为所述有效分词集合包含的词i在目标文本B中出现的次数。

可选的，根据所述向量余弦值确定所述目标文本的相似度包括：

从预设的阈值中确定小于等于所述向量余弦值的最小阈值，将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。

另一方面，提供了一种文本相似度评估装置，所述装置包括：

筛选单元，用于将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；

确定单元，用于统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据所述向量余弦值确定所述目标文本的相似度。

可选的，所述筛选单元包括：

分词子单元，用于分别获得待评估的两个目标文本包含的语句单元，并对所述语句单元进行分词处理，获得所述语句单元对应的至少一个分词集合；

统计子单元，用于确定所述语句单元对应的分词集合包含的词的类型，所述词的类型包括单一词和非单一词，并分别统计各类型的词在所述语句单元对应的分词集合中的数量；

确定子单元，用于根据所述词的类型及数量确定各语句单元对应的有效分词集合；

可选的，所述确定子单元包括：

判断子单元，用于判断所述语句单元是否对应至少两个集合；

第一确定子单元，用于如果所述语句单元对应一个分词集合，则确定所述一个分词集合即为所述语句单元对应的有效分词集合；

统计子单元，用于如果所述语句单元对应至少两个分词集合，则分别统计所述至少两个分词集合对应的总词数量，所述总词数量为单一词和非单一词的数量之和；

第二确定子单元，用于当所述至少两个分词集合对应的总词数量不相等时，从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合；当所述总词数量相等时，从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。

可选的，所述分词子单元具体用于根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。

可选的，所述确定单元具体用于根据如下公式计算所述两个目标文本的向量余弦值：

Cos_AB = \frac{Σ_{i = 1}^{n} (count_A_{i} \times count_B_{i})}{\sqrt{Σ_{i = 1}^{n} {(count_A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(count_B_{i})}^{2}}};

可选的，所述确定单元具体用于从预设的阈值中确定小于等于所述向量余弦值的最小阈值，将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。

上述技术方案提供的文本相似度评估方法及装置的实施例，首先将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；再统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，并根据所述次数计算所述目标文本的向量余弦值，以及根据所述向量余弦值确定所述目标文本的相似度。

所述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个分词结果进行最优化筛选，从而筛选出该语句单元对应的一个有效分词集合，进而提高了分词结果的准确性；此外通过计算目标文本的向量余弦值，并根据所述向量余弦值确定目标文本的相似度的评估算法，与逐词比较的评估方法相比，运算速度得到了显著提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明文本相似度评估方法提供的一个实施例的流程示意图；

图2为本发明文本相似度评估方法的另一个实施例的步骤101的流程示意图；

图3为本发明文本相似度评估方法的另一个实施例的步骤102的流程示意图；

图4为本发明文本相似度评估装置提供的一个实施例的结构示意图；

图5为本发明文本相似度评估装置提供的另一个实施例的筛选单元的结构示意图；

图6为本发明文本相似度评估装置提供的另一个实施例的确定子单元的结构示意图。

具体实施方式

首先对本发明文本相似度评估方法提供的实施例进行说明，参见图1，为本发明文本相似度评估方法提供的一个实施例的流程示意图，本实施例包括如下步骤：

步骤101：将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合。

语句单元即一般意义上理解的“句子”，具体可通过文本包含的某些标点符号对文本正文进行断句划分而获得。这些标点符号一般是用于表示停顿或语意转换的标点符号，例如逗号“，”、句号“。”、分号“；”、叹号“！”、省略号“……”等。

现有技术中有很多分词方法，例如正向最大匹配分词法、逆向最大匹配分词法、双向最大匹配分词法、条件随机场CRF分词法(ConditionalRandomField)等，各分词方法各有利弊，具体的原理及特点可参见公开的现有资料。本发明优选CRF分词法或正向最大匹配法分词法。

需要注意的是，在很多情况下，现有的分词方法对语句单元进行分词后，一个语句单元往往对应不止一个分词集合，在这些分词集合中，往往只有一个分词集合才是最符合人们对于该句子的常规认知的，这个分词集合即为有效分词集合，需要将该有效分词集合筛选出来。

步骤102：统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据所述向量余弦值确定所述目标文本的相似度。

所述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个分词结果进行最优化筛选，以筛选出该语句单元对应的一个有效分词集合，从而提高了分词结果的准确性；此外通过计算目标文本的向量余弦值，并根据所述向量余弦值确定目标文本的相似度的评估算法，与逐词比较的评估方法相比，运算速度得到了显著提高。

参见图2所示，为本发明文本相似度评估方法的另一个实施例的步骤101的具体流程图，在该实施例中，上述步骤101可具体包含如下子步骤1011至1013：

步骤1011：分别获得待评估的两个目标文本包含的语句单元，对所述语句单元进行分词处理，获得所述语句单元对应的至少一个分词集合。

例如“我爱北京天安门”这个语句单元对应如下两个分词集合：

{“我爱”、“北京”、“天安门”}；

{“我”、“爱”、“北京”、“天安门”}。

步骤1012：确定所述语句单元对应的分词集合包含的词的类型，所述词的类型包括单一词和非单一词；分别统计各类型的词在所述语句单元对应的分词集合中的数量。

单一词指的是只包含一个字的词，例如“我”、“爱”等词，非单一词指的是包含两个或两个以上字的词，例如“北京”、“天安门”等词。

步骤1013：根据所述词的类型及数量确定各语句单元对应的有效分词集合。

可选的，在步骤1013中，具体可分别为单一词或非单一词设置对应的优先级，根据两种类型的词对应的优先级及数量进行加权，根据两个分词集合的加权值确定出所述语句单元对应的有效分词集合。

优选的，在步骤1013中也可以根据如下方法确定出所述语句单元对应的有效分词集合：

如果所述至少两个分词集合对应的总词数量不相等时，从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合；当所述总词数量相等时，从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。

仍以上述语句单元“我爱北京天安门”为例介绍上述确定有效分词集合的方法，由于该语句单元对应两个分词集合，因此需统计这两个分词集合对应的总词数量。其中，{“我爱”、“北京”、“天安门”}这个分词集合包含3个非单一词和0个单一词，总词数量为3；{“我”、“爱”、“北京”、“天安门”}这个分词集合包含2个单一词“我”、“爱”，以及2个非单一词“北京”、“天安门”，总词数量为4。

由于这两个分词集合对应的总词数量不相等，则选择总词数量最少的{“我爱”、“北京”、“天安门”}这个分词集合作为有效分词集合。

从主观理解上来分析，总词数量少，即平均每个词包含的字更多，说明构成词的字之间的逻辑关系较紧密，因此分词更准确。在上述实施例中，很显然，“我爱”这种分词结果就比“我”、“爱”这种分词结果更符合人们主观理解的“词”的概念，因此准确性更高。

再以“我们最近的确有点累”这个语句单元为例，其对应如下两个分词集合：

{“我们”、“最近的”、“确”、“有点”、“累”}，对应的总词数量为5，其中单一词数量为2，非单一词数量为3；

{“我们”、“最近”、“的确”、“有点”、“累”}，对应的总词数量为5，其中单一词数量为1，非单一词数量为4。

这两个分词集合对应的总词数量都是5，则选择单一词最少的分词集合，即{“我们”、“最近”、“的确”、“有点”、“累”}这个分词集合作为有效分词集合。

从主观理解及实际统计中分析可知，单一词有很多为无实际意义的助词，或虽有实际意义，但其多作为联系上下文所必要的连接词。而非单一词多为表达某一特征的名词或形容词，对于文本内容的特征贡献量很显然比单一词的特征贡献量要大，因此，选择单一词较少，即非单一词较多的分词集合作为有效分词集合准确性更高。

在本发明文本相似度评估方法的另一个实施例中，上述步骤102在计算目标文本的余弦相似值时，可首先将两个目标文本中各语句单元对应的有效分词集合进行汇总去重，然后统计出其中的每一个词分别在两个目标文本中出现的次数，之后，具体可根据如下公式计算所述目标文本A和B的向量余弦值：

Cos_AB = \frac{Σ_{i = 1}^{n} (count_A_{i} \times count_B_{i})}{\sqrt{Σ_{i = 1}^{n} {(count_A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(count_B_{i})}^{2}}};

假设待评估的两个目标文本A、B分别为“我们最近的确有点累”和“我们最近没有有点累”(实际中待评估的目标文本的语句单元数量通常都较大，这里仅为介绍方法本身来举例说明，因此每个目标文本只包含一个语句单元)。

其中目标文本A的有效分词集合为{“我们”、“最近”、“的确”、“有点”、“累”}；

目标文本B的有效分词集合为{“我们”、“最近”、“没有”、“有点”、“累”}。

对上述两个有效分词集合汇总去重后为{“我们”、“最近”、“的确”、“有点”、“累”、“没有”}，分别统计其中的每一个词在目标文本A和目标文本B中出现的次数：

目标文本A中各词出现的次数为：

“我们”：1次，“最近”：1次，“的确”：1次，“有点”：1次，“累”：1次，“没有”：0次。

目标文本B中各词出现的次数为：

“我们”：1次，“最近”：1次，“的确”：0次，“有点”：1次，“累”：1次，“没有”：1次。

将上述各词在目标文本A、B中出现的“次数”的值带入上述向量余弦值的计算公式中，可计算出出Cos_AB的值为0.8。

如图3所示为本发明文本相似度评估方法的另一个实施例的步骤102的具体流程图，在该实施例中，上述步骤102可具体包括如下子步骤1021至1023：

步骤1021：预设至少一个阈值，所述阈值大于等于0小于等于1；

步骤1022：为每一个所述阈值设置对应的相似度等级，所述阈值越大，则对应的所述相似度等级越高；

步骤1023：确定小于等于所述向量余弦值的最小阈值，则所述最小阈值对应的相似度等级即为所述目标文本的相似度等级。

例如，设置0、0.5、0.9三个阈值，分别对应不相似、中等相似、非常相似三个相似度等级。

由于上述目标文本A和B的向量余弦值为0.8，小于等于该值的最小阈值为0.5，而最小阈值0.5对应的相似等级为“中等相似”，则可认为该目标文本A和B的相似程度为“中等相似”。

本发明文本相似度评估方法提供的上述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个分词结果进行最优化筛选，根据分词结果中包含的词的类型和数量筛选出该语句单元对应的有效分词集合，从而提高了分词结果的准确性；此外通过计算目标文本的向量余弦值，并根据所述向量余弦值确定目标文本的相似度的评估算法，与逐词比较的评估方法相比，运算速度得到了显著提高。

与文本相似度评估方法提供的实施例相对应，本发明还提供了文本相似度评估装置的实施例。

如图4所示为本发明文本相似度评估装置提供的一个实施例的结构示意图，所述装置包括：

筛选单元401，用于将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；

确定单元402，用于统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据所述向量余弦值确定所述目标文本的相似度。

图5为本发明文本相似度评估装置提供的另一个实施例的筛选单元的结构示意图，可选的，所述筛选单元401包括：

分词子单元4011，用于分别获得待评估的两个目标文本包含的语句单元，并对所述语句单元进行分词处理，获得所述语句单元对应的至少一个分词集合；

统计子单元4012，用于确定所述语句单元对应的分词集合包含的词的类型，所述词的类型包括单一词和非单一词，并分别统计各类型的词在所述语句单元对应的分词集合中的数量；

确定子单元4013，用于根据所述词的类型及数量确定各语句单元对应的有效分词集合。

图6为本发明文本相似度评估装置提供的另一个实施例的确定子单元4013的结构示意图，可选的，所述确定子单元4013包括：

判断子单元40131，用于判断所述语句单元是否对应至少两个集合；

第一确定子单元40132，用于如果所述语句单元对应一个分词集合，则确定所述一个分词集合即为所述语句单元对应的有效分词集合；

统计子单元40133，用于如果所述语句单元对应至少两个分词集合，则分别统计所述至少两个分词集合对应的总词数量，所述总词数量为单一词和非单一词的数量之和；

第二确定子单元40134，用于如果所述至少两个分词集合对应的总词数量不相等时，从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合；当所述总词数量相等时，从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。

可选的，所述分词子单元4011具体用于根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。

可选的，所述确定单元402具体用于根据如下公式计算所述两个目标文本的向量余弦值：

Cos_AB = \frac{Σ_{i = 1}^{n} (count_A_{i} \times count_B_{i})}{\sqrt{Σ_{i = 1}^{n} {(count_A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(count_B_{i})}^{2}}};

可选的，所述确定单元402还用于从预设的阈值中确定小于等于所述向量余弦值的最小阈值，将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。

本发明提供的文本相似度评估装置的实施例，技术方案本质与上述文本相似度评估方法的实施例相同，因此未做具体解释描述，相关之处可参见上述文本相似度评估方法的实施例的对应部分。

本发明文本相似度评估装置提供的上述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个分词结果进行最优化筛选，以筛选出该语句单元对应的一个有效分词集合，从而提高了分词结果的准确性；此外通过计算目标文本的向量余弦值，并根据所述向量余弦值确定目标文本的相似度的评估算法，与逐词比较的评估方法相比，运算速度得到了显著提高。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件的方式来实现，通用硬件包括通用集成电路、通用CPU、通用存储器、通用元器件等，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本相似度评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述词的类型及数量确定各语句单元对应的有效分词集合包括：

4.根据权利要求2或3所述的方法，其特征在于，所述对所述语句单元进行分词处理包括：根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。

5.根据权利要求4所述的方法，其特征在于，所述根据所述次数计算所述两个目标文本的向量余弦值采用如下公式：

Cos_AB = \frac{Σ_{i = 1}^{n} (count_A_{i} \times count_B_{i})}{\sqrt{Σ_{i = 1}^{n} {(count_A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(count_B_{i})}^{2}}};

6.根据权利要求4所述的方法，其特征在于，根据所述向量余弦值确定所述目标文本的相似度包括：

7.一种文本相似度评估装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述筛选单元包括：

确定子单元，用于根据所述词的类型及数量确定各语句单元对应的有效分词集合。

9.根据权利要求8所述的装置，其特征在于，所述确定子单元包括：

判断子单元，用于判断所述语句单元是否对应至少两个分词集合；

10.根据权利要求8或9所述的装置，其特征在于，所述分词子单元具体用于根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。

11.根据权利要求10所述的装置，其特征在于，所述确定单元具体用于根据如下公式计算所述两个目标文本的向量余弦值：

Cos_AB = \frac{Σ_{i = 1}^{n} (count_A_{i} \times count_B_{i})}{\sqrt{Σ_{i = 1}^{n} {(count_A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(count_B_{i})}^{2}}};

12.根据权利要求10所述的装置，其特征在于，所述确定单元具体用于从预设的阈值中确定小于等于所述向量余弦值的最小阈值，将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。