CN109344245A

CN109344245A - 文本相似度计算方法及装置

Info

Publication number: CN109344245A
Application number: CN201811497301.4A
Authority: CN
Inventors: 杨凯程; 李健铨; 蒋宏飞
Original assignee: Anhui Taiyue Xiangsheng Software Co ltd
Current assignee: Anhui Taiyue Xiangsheng Software Co ltd
Priority date: 2018-06-05
Filing date: 2018-12-07
Publication date: 2019-02-15
Anticipated expiration: 2038-12-07
Also published as: CN108763569A; CN109344245B

Abstract

本发明实施例提供了一种文本相似度计算方法及装置，本发明实施例首先获取两个文本的最长公共子序列，之后对两个文本对应的词汇集合计算交集和并集，之后根据得到的交集和并集计算得到第一相似度，利用上述最长公共子序列对应的词汇集合以及之前得到的并集计算第二相似度，最后根据第一相似度和第二相似度计算得到两个文本的目标相似度。上述技术方案结合最长公共子序列以及文本中各个词汇，计算两个文本的相似度，有效提高了文本相似度的计算精度。进一步地，利用准确的文本相似度，能够为用户提供更加准确的答复，提高了智能交互的服务质量和用户的体验度。

Description

文本相似度计算方法及装置

本申请要求在2018年6月5日提交中国专利局、申请号为201810569749.6、发明名称为“文本相似度计算方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及文本处理技术领域，并且更具体地，涉及一种文本相似度计算方法及装置。

背景技术

聊天机器人是在大数据及人工智能技术驱动下产生的一个热门应用，在使用过程中，用户输入聊天内容，即用户输入其提出的问题，聊天机器人根据用户输入的问题，自动生成相应的回复，并反馈给用户。这种人工智能的处理方式能够在很大程度上提高服务效率和用户的体验度。目前存在多种类型的聊天机器人，比如苹果公司的Siri、微软公司的微软小娜(Cortana)与小冰、百度公司的度秘以及京东公司JIMI(JD，Instant MessagingIntelligence)，此外还有很多其他类型的聊天机器人，比如儿童教育机器人、车载控制机器人等。

在利用聊天机器人进行智能问答的实际应用场景中，用户向聊天机器人提出问题，聊天机器人从用户提出的问题中提取到关键信息，并根据关键信息从知识库中选取相似的一个或多个预制问题，之后计算用户提出的问题与每个预制问题的相似度，并选取相似度最大的预制问题，最后将选取得到的与用户提出的问题相似度最大的预制问题，对应的答复反馈给客户，完成一次智能机器人的智能问答。

以上不管是用户提出的问题，还是知识库中存储的预制问题都是以文本的形式存在，计算用户提出的问题与每个预制问题的相似度，实质上是计算两个文本的相似度。现有技术中计算两个文本的相似度主要通过对文本进行分词，并利用得到各个词汇计算对应文本的相似度。其中存在的问题是各个单独的词汇并不能准确的表达对应文本的原始意义，这就造成了利用各个词汇计算得到的文本之间的相似度不准确，例如有两个文本：我喜欢你和你喜欢我，这两个文本的意义完全不同，但是两个文本分词后的词汇完全相同，那么利用现有技术计算得到的这两个文本的相似度是1，显然这是不准确的。进一步地，由于现有技术中计算文本的相似度不够准确，那么聊天机器人根据文本相似度为用户推送的答复也必定不够都准确，严重影响了聊天机器人的服务质量和用户的体验度。

发明内容

本发明实施例提供了一种文本相似度计算方法及装置、智能机器人，其能够结合最长公共子序列以及文本中各个词汇，计算两个文本的相似度，有效提高了文本相似度的计算精度，聊天机器人或智能机器人利用准确的文本相似度，能够为用户提供更加准确的答复，从而进一步提高了聊天机器人或智能机器人的服务质量和用户的体验度。

第一方面，提供了一种文本相似度计算方法，所述方法包括：

获取第一文本和第二文本的最长公共子序列；

分别对所述第一文本、第二文本和最长公共子序列进行分词处理，得到第一词汇集合、第二词汇集合和第三词汇集合；

计算所述第一词汇集合与所述第二词汇集合的交集，得到第一目标集合；计算所述第一词汇集合与所述第二词汇集合的并集，得到第二目标集合；

利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度；利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度；

根据所述第一相似度和第二相似度，计算所述第一文本和第二文本的目标相似度。

结合第一方面，在第一种可能的实现方式中，所述根据所述第一相似度和第二相似度，计算所述第一文本和第二文本的目标相似度，包括：

获取所述第一相似度对应的第一相似权重；

获取所述第二相似度对应的第二相似权重；

利用所述第一相似度、第一相似权重、第二相似度和第二相似权重，计算所述第一文本和第二文本的目标相似度。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述方法利用如下公式计算所述第一文本和第二文本的目标相似度：

Score＝t1×Score1+t2×Score2

式中，Score表示所述目标相似度，Score1表示所述第一相似度，Score2表示所述第二相似度，t1表示所述第一相似权重，t2表示所述第二相似权重。

结合第一方面，在第三种可能的实现方式中，所述利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度，包括：

计算所述第三词汇集合中所有词汇的预定权重的和，得到第一权重和；

计算所述第二目标集合中所有词汇的预定权重的和，得到第二权重和；

计算所述第一权重和与所述第二权重和的商，得到所述第二相似度。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度，包括：

计算所述第一目标集合中所有词汇的预定权重的和，得到第三权重和；

计算所述第三权重和与所述第二权重和的商，得到所述第一相似度。

第二方面，提供了一种文本相似度计算装置，所述装置包括：

子序列获取模块，用于获取第一文本和第二文本的最长公共子序列；

分词模块，用于分别对所述第一文本、第二文本和最长公共子序列进行分词处理，得到第一词汇集合、第二词汇集合和第三词汇集合；

集合处理模块，用于计算所述第一词汇集合与所述第二词汇集合的交集，得到第一目标集合；计算所述第一词汇集合与所述第二词汇集合的并集，得到第二目标集合；

子相似度确定模块，用于利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度，以及利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度；

目标相似度确定模块，用于根据所述第一相似度和第二相似度，计算所述第一文本和第二文本的目标相似度。

结合第二方面，在第一种可能的实现方式中，所述目标相似度确定模块包括：

相似权重获取子模块，用于获取所述第一相似度对应的第一相似权重，以及获取所述第二相似度对应的第二相似权重；

目标相似度计算子模块，用于利用所述第一相似度、第一相似权重、第二相似度和第二相似权重，计算所述第一文本和第二文本的目标相似度。

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述目标相似度计算子模块利用如下公式计算所述第一文本和第二文本的目标相似度：

Score＝t1×Score1+t2×Score2

结合第二方面，在第三种可能的实现方式中，所述子相似度确定模块包括：

第一权重计算子模块，用于计算所述第三词汇集合中所有词汇的预定权重的和，得到第一权重和；

第二权重计算子模块，用于计算所述第二目标集合中所有词汇的预定权重的和，得到第二权重和；

第二相似度计算子模块，用于计算所述第一权重和与所述第二权重和的商，得到所述第二相似度。

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述子相似度确定模块还包括：

第三权重计算子模块，用于计算所述第一目标集合中所有词汇的预定权重的和，得到第三权重和；

第一相似度计算子模块，用于计算所述第三权重和与所述第二权重和的商，得到所述第一相似度。

在本发明实施例的上述技术方案中，首先获取需要计算相似度的两个文本的最长公共子序列，之后对两个文本对应的词汇集合计算交集和并集，之后根据得到的交集和并集计算得到第一相似度，利用上述最长公共子序列对应的词汇集合以及之前得到的并集计算第二相似度，最后根据第一相似度和第二相似度计算得到两个文本的目标相似度。上述技术方案结合最长公共子序列以及文本中各个词汇，计算两个文本的相似度，有效提高了文本相似度的计算精度，克服了现有技术中只利用文本中的词汇计算文本相似度造成的语义理解精度不高的缺陷。进一步地，智能交互利用准确的文本相似度，能够为用户提供更加准确的答复，提高了聊天机器人或智能机器人的服务质量和用户的体验度。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性的示出了根据本发明一实施例的文本相似度计算方法的流程图。

图2示意性的示出了根据本发明一实施例的文本相似度计算装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一个实施例中提供了一种文本相似度计算方法，如图1所示，该方法包括以下步骤：

110、获取第一文本和第二文本的最长公共子序列；

此步骤中，第一文本和第二文本是需要计算相似度的两个文本；

最长公共子序列(LCS Longest Common Subsequence)是指是两个或多个已知序列的公共子序列中最长的子序列，其不需要在原文本中占用连续的位置，例如有两个文本q1和q2，q1为“abcdef”，q2为“axbxcdex”，那么q1和q2的最长公共子序列为“abcde”；可选地利用动态规划的方法获取多个文本的最长公共子序列；

120、分别对第一文本、第二文本和最长公共子序列进行分词处理，得到第一词汇集合、第二词汇集合和第三词汇集合；

此步骤中，对文本进行分词处理即是将文本分成各个词汇，例如文本为“我喜欢你”，分词处理后得到的词汇的集合为{我，喜欢，你}；

此步骤中，第一词汇集合中包括第一文本中的所有词汇，第二词汇集合中包括第二本文中的所有词汇；

130、计算第一词汇集合与第二词汇集合的交集，得到第一目标集合；计算第一词汇集合与第二词汇集合的并集，得到第二目标集合；

此步骤中，第一目标集合包括第一词汇集合和第二词汇集合中共有的词汇；

140、利用第一目标集合中每个词汇的预定权重和第二目标集合中每个词汇的预定权重计算第一相似度；利用第三词汇集合中每个词汇的预定权重和第二目标集合中每个词汇的预定权重计算第二相似度；

此步骤中，每个词汇的预定权重是根据实际应用场景的具体需求预先设定的，同一个词汇在不同的应用场景下可能不同；

此步骤中，可以利用如下子步骤具体计算第二相似度：

子步骤一、计算第三词汇集合中所有词汇的预定权重的和，得到第一权重和；

子步骤二、计算第二目标集合中所有词汇的预定权重的和，得到第二权重和；

子步骤三、计算第一权重和与第二权重和的商，得到第二相似度；优选地，将第一权重和除以第二权重和得到的商作为第二相似度；

此步骤中，可以利用如下子步骤具体计算第一相似度：

子步骤一、计算第一目标集合中所有词汇的预定权重的和，得到第三权重和；

子步骤二、计算第三权重和与第二权重和的商，得到第一相似度；优选地，将第三权重和除以第二权重和得到的商作为第一相似度；

150、根据第一相似度和第二相似度，计算第一文本和第二文本的目标相似度；

此步骤中，可以利用如下子步骤具体计算目标相似度：

子步骤一、获取第一相似度对应的第一相似权重；

这里的第一相似权重可以根据实际的应用场景灵活设定，例如可以将第一相似权重设置为0.5；

子步骤二、获取第二相似度对应的第二相似权重；

这里的第二相似权重可以根据实际的应用场景灵活设定，例如可以将第二相似权重设置为0.5；

以上第一相似权重和第二相似权重分别用来表示第一相似度和第二相似度的重要程度；

子步骤三、利用第一相似度、第一相似权重、第二相似度和第二相似权重，计算第一文本和第二文本的目标相似度，优选地可以利用如下公式计算目标相似度：

Score＝t1×Score1+t2×Score2

式中，Score表示目标相似度，Score1表示第一相似度，Score2表示第二相似度，t1表示第一相似权重，t2表示第二相似权重。

本实施例中，首先获取需要计算相似度的两个文本的最长公共子序列，之后对两个文本对应的词汇集合计算交集和并集，之后根据得到的交集和并集计算得到第一相似度，利用上述最长公共子序列对应的词汇集合以及之前得到的并集计算第二相似度，最后根据第一相似度和第二相似度计算得到两个文本的目标相似度。本实施例结合最长公共子序列以及文本中各个词汇，计算两个文本的相似度，有效提高了文本相似度的计算精度，克服了现有技术中只利用文本中的词汇计算文本相似度造成的精度不高的缺陷。进一步地，聊天机器人利用准确的文本相似度，能够为用户提供更加准确的答复，提高了聊天机器人的服务质量和用户的体验度。

下面通过另一个具体的实施例对本发明的文本相似度计算方法进行详细的说明。

本实施例中第一文本为用户输入的文本，例如为“我喜欢你呀”，第二文本为知识库中存储的文本，例如为“我喜欢你”，本实施例计算用户输入的文本q:“我喜欢你呀”与知识库中存储的文本k1:“我喜欢你”的相似度。具体包括以下步骤：

步骤一、将用户输入的文本q进行分词，得到集合{我，喜欢，你，呀}，将知识库中存储的文本k1分别进行分词，得到集合{我，喜欢，你}；

步骤二、计算文本q与文本k1的最长公共子序列，为“我喜欢你”，分词处理得到集合{我，喜欢，你}；

步骤三、计算文本q的词汇集合与文本k1的词汇集合的交集，得到{我，喜欢，你}；计算文本q的词汇集合与文本k1的词汇集合的并集，得到{我，喜欢，你，呀}；

步骤四、预设每个词汇的权重均相等，那么利用上述交集和并集得到第一相似度为0.75，利用上述并集以及最长公共子序列的词汇集合，得到第二相似度为0.75，那么文本q与文本k1的目标相似度为1.5。

本实施例还通过下面步骤计算文本q:“我喜欢你呀”与知识库中存储文本k2:“你喜欢我”的相似度，具体包括以下步骤：

步骤一、将用户输入的文本q进行分词，得到集合{我，喜欢，你，呀}，将知识库中存储的文本k2分别进行分词，得到集合{我，喜欢，你}；

步骤二、计算文本q与文本k2的最长公共子序列，为“喜欢”，分词处理得到集合{喜欢}；

步骤三、计算文本q的词汇集合与文本k2的词汇集合的交集，得到{我，喜欢，你}；计算文本q的词汇集合与文本k1的词汇集合的并集，得到{我，喜欢，你，呀}；

步骤四、预设每个词汇的权重均相等，那么利用上述交集和并集得到第一相似度为0.75，利用上述并集以及最长公共子序列的词汇集合，得到第二相似度为0.25，那么文本q与文本k1的目标相似度为1。

通过计算文本q与文本k1、k2的相似度可以看出，文本q与文本k1的相似度较高，根据三个文本的语意比较可以看出上述方法计算的文本相似度符合实际情况，是准确的，但是如果只是利用文本分词得到的集合计算相似度，那么会得出文本q与文本k1的相似度等于文本q与文本k2的相似度，显然这种结果是不准确的。本实施例的文本相似度计算方法在计算过程中加入了词序的信息，相对于现有技术进一步提高了计算精度。

对应于上述文本相似度计算方法，本发明实施例还公开了一种文本相似度计算装置，如图2所示，该装置包括：

分词模块，用于分别对第一文本、第二文本和最长公共子序列进行分词处理，得到第一词汇集合、第二词汇集合和第三词汇集合；

集合处理模块，用于计算第一词汇集合与第二词汇集合的交集，得到第一目标集合；计算第一词汇集合与第二词汇集合的并集，得到第二目标集合；

子相似度确定模块，用于利用第一目标集合中每个词汇的预定权重和第二目标集合中每个词汇的预定权重计算第一相似度，以及利用第三词汇集合中每个词汇的预定权重和第二目标集合中每个词汇的预定权重计算第二相似度；

目标相似度确定模块，用于根据第一相似度和第二相似度，计算第一文本和第二文本的目标相似度。

在一个实施例中，目标相似度确定模块包括：

相似权重获取子模块，用于获取第一相似度对应的第一相似权重，以及获取第二相似度对应的第二相似权重；

目标相似度计算子模块，用于利用第一相似度、第一相似权重、第二相似度和第二相似权重，计算第一文本和第二文本的目标相似度。

本实施例中，目标相似度计算子模块利用如下公式计算第一文本和第二文本的目标相似度：

Score＝t1×Score1+t2×Score2

在一个实施例中，子相似度确定模块包括：

第一权重计算子模块，用于计算第三词汇集合中所有词汇的预定权重的和，得到第一权重和；

第二权重计算子模块，用于计算第二目标集合中所有词汇的预定权重的和，得到第二权重和；

第二相似度计算子模块，用于计算第一权重和与第二权重和的商，得到第二相似度。

本实施例中，子相似度确定模块还包括：

第三权重计算子模块，用于计算第一目标集合中所有词汇的预定权重的和，得到第三权重和；

第一相似度计算子模块，用于计算第三权重和与第二权重和的商，得到第一相似度

本发明上述实施例中的装置是与本发明上述实施例中的方法对应的产品，本发明上述实施例中的方法的每一个步骤均由本发明上述实施例中的装置的部件或模块完成，因此对于相同的部分不再进行赘述。

对应于上述实施例的文本相似度计算方法和文本相似度计算装置，本实施例还提供了一种智能机器人，所述智能机器人包括：

文本接收部件，用于接收第一文本，所述第一文本为用户提问文本；

文本获取部件，用于从预定问答库中获取至少一个第二文本，所述第二文本为标准问题文本；所述预定问答库包括至少一个标准问题文本和每个标准问题文本对应的标准答案文本；

相似度计算部件，用于利用权利要求1至5任一项所述的文本相似度计算方法，计算所述第一文本与每个所述第二文本的目标相似度；

问答匹配部件，用于选取最大的所述目标相似度对应的标准问题文本作为与所述用户提问文本相匹配的目标文本；

答案获取部件，用于从所述预定问答库中获取所述目标文本对应的所述标准答案文本，得到所述用户提问文本的答案。

智能机器人利用上述实施例得到的准确的文本相似度，能够为用户提供更加准确的答复，提高了只能机器人的服务质量和用户的体验度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本相似度计算方法，其特征在于，所述方法包括：

获取第一文本和第二文本的最长公共子序列；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一相似度和第二相似度，计算所述第一文本和第二文本的目标相似度，包括：

获取所述第一相似度对应的第一相似权重；

获取所述第二相似度对应的第二相似权重；

3.根据权利要求2所述的方法，其特征在于，所述方法利用如下公式计算所述第一文本和第二文本的目标相似度：

Score＝t1×Score1+t2×Score2

4.根据权利要求1所述的方法，其特征在于，所述利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度，包括：

6.一种文本相似度计算装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述目标相似度确定模块包括：

8.根据权利要求7所述的装置，其特征在于，所述目标相似度计算子模块利用如下公式计算所述第一文本和第二文本的目标相似度：

Score＝t1×Score1+t2×Score2

9.根据权利要求6所述的装置，其特征在于，所述子相似度确定模块包括：

10.根据权利要求9所述的装置，其特征在于，所述子相似度确定模块还包括：