CN106970912A

CN106970912A - 中文语句相似度计算方法、计算装置以及计算机存储介质

Info

Publication number: CN106970912A
Application number: CN201710265407.0A
Authority: CN
Inventors: 杨鹏
Original assignee: Beijing Wisdom Technology Development Co Ltd
Current assignee: Beijing Wisdom Technology Development Co Ltd
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2017-07-21

Abstract

提供一种基于语义的中文语句相似度计算方法、计算装置以及计算机存储介质，该计算方法包括：接受用户输入的问题A；对用户输入的问题A进行预处理；对经过预处理的用户输入的问题A进行分词；将用户输入的问题A与问题模板中的每个问题B进行匹配计算，获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1和语义相似度score2；根据语句形态相似度score1和语义相似度score2计算获得用户输入的问题A与问题模板中的每个问题B之间的语句相似度score；从问题模板中选择与用户输入的问题A具有最高语句相似度的问题的答案推送给用户,其中语句相似度score和语句形态相似度score1和语义相似度score2满足公式：score＝a*score1+b*score2，a+b＝1。

Description

中文语句相似度计算方法、计算装置以及计算机存储介质

技术领域

本发明的实施例涉及一种基于语义的中文语句相似度计算方法、计算装置以及计算机存储介质。

背景技术

随着网络技术的发展和Internet上信息量的迅速增加，信息检索系统已成为网络信息平台中的一个重要组成部分。但是，传统的信息检索仅仅是基于语法层面上的简单匹配，缺乏信息资源统一的语义描述，存在着信息的误检、漏检等问题。为了使用户搜索到更加准确、全面的网络信息，信息检索中概念间的语义相似度计算具有重要的作用。

近几年来，很多学者都在不断地研究语义相似度的计算方法。在基于语义距离的概念相似性匹配基础上，全面考虑了概念之间的继承关系和语义距离关系，通过语义相似度来衡量概念间的匹配程度，但它没有考虑到概念自身所含有的信息量。

发明内容

本发明的实施例提供一种基于语义的中文语句相似度计算方法、基于语义的计算装置以及计算机存储介质，能够获得准确率高的语句相似度计算结果，当用于智能问答系统时，能够很好地匹配用户的问题。

一方面，本发明的实施例提供一种基于语义的中文语句相似度计算方法，包括：接受用户输入的问题A；对用户输入的问题A进行预处理；对经过预处理的用户输入的问题A进行分词；将用户输入的问题A与问题模板中的每个问题B进行匹配计算，获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1和语义相似度score2；根据语句形态相似度score1和语义相似度score2计算获得用户输入的问题A与问题模板中的每个问题B之间的语句相似度score；从问题模板中选择与用户输入的问题A具有最高语句相似度的问题的答案推送给用户,其中语句相似度score和语句形态相似度score1和语义相似度score2满足公式：score＝a*score1+b*score2，a+b＝1。

示例性地，问题模板是通过对问题文件进行预处理、分词后生成的。

示例性地，预处理包括去除空格、去除标点符号以及过滤停留词。

示例性地，将用户输入的问题A与问题模板中的每个问题B进行匹配计算，获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1包括：获得用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)；根据编辑距离Dis(A,B)计算得到语句形态相似度score1，其中Max(A，B)为问题A和问题B的句子的最大长度，编辑距离指从一个以字符为单位的字符串转换为另一个字符串所需要的最小编辑操作的代价数。

示例性地，编辑操作包括插入、删除和替换，插入、删除和替换的代价数均为1。

示例性地，获得用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)包括：获取分词后的问题A的词语个数n和问题B的词语个数m；创建m*n维的二维数组d(n,m)；初始化该二维数组d(n,m),其中d[0,0]＝0，d[0，i]＝i,1≦i≦m，d[j，0]＝j，1≦j≦n；计算并获得j≠0且i≠0时的任意d[i，j]得到赋值后的二维数组d(n,m)；将d[n,m]作为用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)。

示例性地，计算并获得j≠0且i≠0时的任意d[i，j]得到赋值后的二维数组d(n,m)包括：利用删除操作由d[i][j-1]+删除操作的代价数计算得到d1[i，j]；利用插入操作由d[i-1][j]+插入操作的代价数计算得到d2[i，j]；利用替换操作由d[i-1][j-1]+替换操作的代价数计算得到d3[i，j]；将d1[i，j]、d2[i，j]和d3[i，j]取最小值而使得d[i，j]等于该最小值。

示例性地，获得用户输入的问题A与问题模板中的每个问题B之间的语义相似度score2包括：根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度；对于问题A中的每个词语，选择问题B中的与该词语相似度最高的词语使得二者对应起来成为词语对；问题A或问题B中的没有建立对应关系的词语与空词语对应，该词语对的相似度为零；将所有词语对的相似度值相加后除以词语对的总对数而得到语义相似度score2。

示例性地，根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度包括:利用知网来提取其丰富的语义信息；采用义原相似度计算公式计算义原相似度；利用义原相似度计算得到义项相似度；利用义项相似度得到词语相似度，所述义原相似度计算公式为：

其中p₁和p₂表示两个义原，d是p₁和p₂在义原层次体系中的路径长度，是一个正整数。α取值为1.6；

利用义项相似度得到词语相似度的计算公式为：

其中W₁和W₂为两个汉语词语，W₁有n个义项：S₁₁、S₁₂……S_1n，W₂有m个义项：S₂₁、S₂₂……S_2m。

示例性地，两个概念S1和S2的义项相似度Sim(S1,S2)由以下四部分构成：

第一基本义原，这一部分的相似度记为Sim1(S1,S2)；

其它基本义原描述，将两个概念的这一部分的相似度记为Sim2(S1,S2)；

关系义原描述，将两个概念的这一部分的相似度记为Sim3(S1,S2)；

关系符号描述，将两个概念的这一部分的相似度记为Sim4(S1,S2)。

Sim(S1,S2)＝beta1*Sim1(S1,S2)+beta2*Sim2(S1,S2)+beta3*Sim3(S1,S2)+beta4*Sim4(S1,S2)

其中beta1＝0.5,beta2＝0.2,beta3＝0.17,beta4＝0.13。

另一方面，本发明的实施例提供一种基于语义的中文语句相似度计算装置，包括处理器和存储器，存储器存储有指令，当处理器执行指令时，执行如以上所描述的计算方法。

再一方面，本发明的实施例提供一种计算机存储介质，其上存储有计算机可执行指令，当指令被计算装置执行时，执行如以上所描述的计算方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本发明的一些实施例，而非对本发明的限制。

图1示出了根据本发明第一实施例的基于语义的中文语句相似度计算方法的流程图；以及

图2示出了根据本发明第一实施例的语义相似度score2计算方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

第一实施例

本发明的第一实施例提供一种基于语义的中文语句相似度计算方法，图1示出了基于语义的中文语句相似度计算方法1000的流程图，如图1所示，该计算方法包括：在步骤S1100中，接受用户输入的问题A；在步骤S1200中，对用户输入的问题A进行预处理；在步骤S1300中，对经过预处理的用户输入的问题A进行分词；在步骤S1400中，将用户输入的问题A与问题模板中的每个问题B进行匹配计算，获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1和语义相似度score2；在步骤S1500中，根据语句形态相似度score1和语义相似度score2计算获得用户输入的问题A与问题模板中的每个问题B之间的语句相似度score；在步骤S1600中，从问题模板中选择与用户输入的问题A具有最高语句相似度的问题的答案推送给用户,其中语句相似度score和语句形态相似度score1和语义相似度score2满足公式：score＝a*score1+b*score2，a+b＝1。

示例性地，以上公式中，a和b是加权值，二者是通过实验确定的，确定a和b时，先对a进行取值，a的值从0变到1，相应地，b＝a-1，然后记录实验结果最好的a和b的值作为公式中的取值。

示例性地，在根据本发明实施例的基于语义的中文语句相似度计算方法中，对于问题模板中的每个问题B是通过对预先确定的问题文件进行预处理、中文分词后生成的。

示例性地，预处理可以包括去除空格、去除标点符号以及过滤停留词等，经过预处理之后的语句去除了与语句匹配度无关的因素，从而使得后续对语句的处理更准确。

示例性地，在根据本发明实施例的基于语义的中文语句相似度计算方法中，将用户输入的问题A与问题模板中的每个问题B进行匹配计算，获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1包括：获得用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)；根据编辑距离Dis(A,B)计算得到语句形态相似度score1，其中Max(A，B)为问题A和问题B的句子的最大长度，编辑距离指从一个以字符为单位的字符串转换为另一个字符串所需要的最小编辑操作的代价数。

示例性地，在根据本发明实施例的基于语义的中文语句相似度计算方法中，获得用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)包括：获取分词后的问题A的词语个数n和问题B的词语个数m；创建m*n维的二维数组d(n,m)；初始化该二维数组d(n,m)，其中d[0，0]＝0，d[0，i]＝i,1≦i≦m，d[j，0]＝j，1≦j≦n；计算并获得j≠0且i≠0时的任意d[i，j]得到赋值后的二维数组d(n,m)；将d[n,m]作为用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)。

示例性地，在根据本发明实施例的基于语义的中文语句相似度计算方法中，编辑操作可以包括插入、删除和替换，相应地，插入、删除和替换的代价数均为1。

下面结合具体的示例对用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)。

以“我爱吃苹果”和“他爱吃梨”两个句子进行说明编辑距离计算流程，对这两个句子分词后的结果分别为：我/爱吃/苹果，他/爱吃/梨。结合表1和表2对编辑距离计算流程进行详细说明。

表格中的第i行、第j列表示将原序列B＝(b1,b2,…bj)通过插入、删除、替换三种操作，变换为目标序列A＝(a1,a2,…ai)所需要的最小距离，标记为d[i][j]。对于任意i,d[i][0]＝i(对于序列B全部使用插入操作),对于任意j,d[0][j]＝j(对于序列B全部使用删除操作)，由此我们可以得到初始化矩阵如表1。

表1编辑距离计算初始化矩阵

在初始化矩阵的基础上，对于j≠0且i≠0时的任意d[i，j]，我们可以依据动态转移方程而计算得到，d[i][j]可以由序列B先删除b[j]，然后通过d[i][j-1]得到，还可以通过序列B先插入a[i]，然后通过d[i-1][j]得到，还可以由序列B将b[j]替换为a[i]，然后通过d[i-1][j-1]得到，然后对通过三种编辑操作得到的结果取最小值，从而得到d[i][j]，最终结果如表2所示。由表2可以得出，“我爱吃苹果”和“他爱吃梨”这两个句子的最小编辑距离为d[3][3]，即2。

表2编辑距离计算结果矩阵

图2示出了根据本发明第一实施例的语义相似度score2计算方法2000的流程图。如图2所示，在步骤S2100中，在步骤S根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度；在步骤S2200中，对于问题A中的每个词语，选择问题B中的与该词语相似度最高的词语使得二者对应起来成为词语对；在步骤S2300中，问题A或问题B中的没有建立对应关系的词语与空词语对应，该词语对的相似度为零；在步骤S2400中，将所有词语对的相似度值相加后除以词语对的总对数而得到语义相似度score2，如图2所示。

示例性地，根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度包括：利用知网来提取其丰富的语义信息；采用义原相似度计算公式计算义原相似度；利用义原相似度计算得到义项相似度；利用义项相似度得到词语相似度，其中义原相似度计算公式为：

其中p₁和p₂表示两个义原，d是p₁和p₂在义原层次体系中的路径长度，是一个正整数，α取值为1.6；

利用义项相似度得到词语相似度的计算公式为：

示例性，两个概念S1和S2的义项相似度Sim(S1,S2)由以下四部分构成：

第一基本义原，这一部分的相似度记为Sim1(S1,S2)；

关系符号描述，将两个概念的这一部分的相似度记为Sim4(S1,S2)；

其中beta1＝0.5,beta2＝0.2,beta3＝0.17,beta4＝0.13。

根据本发明第一实施例的基于语义的中文语句相似度计算方法，基于知网的相似度计算，利用了知网中词语的上下位关系，并且综合考虑了句子语序的因素，在计算语句相似度时，综合考虑了句子之间的语句形态相似度score1和语义相似度score2而得到语句相似度，从而将基于知网的相似度计算和编辑距离的相似度计算结合起来，相对于以前的方法在语句相似度的准确性方面有了很大提升。在应用于智能问答系统时，可以很好的匹配用户的问题，匹配准确率高。

第二实施例

本发明的第二实施例提供一种基于语义的中文语句相似度计算装置，包括处理器和存储器，该存储器存储有指令，当该处理器执行指令时，执行如本发明第一实施例所描述的计算方法。为了简洁，对于根据本发明第一实施例的计算方法这里将不再进行赘述。

本发明的第二实施例还提供一种计算机存储介质，其上存储有计算机可执行指令，当该指令被计算装置执行时，执行如如本发明第一实施例所描述的计算方法。为了简洁，对于根据本发明第一实施例的计算方法这里将不再进行赘述。

根据本发明实施例的基于语义的中文语句相似度计算方法，包括：接受用户输入的问题A；对所述用户输入的问题A进行预处理；对经过所述预处理的所述用户输入的问题A进行分词；将所述用户输入的问题A与所述问题模板中的每个问题B进行匹配计算，获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语句形态相似度score1和语义相似度score2；根据所述语句形态相似度score1和所述语义相似度score2计算获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语句相似度score；从所述问题模板中选择与所述用户输入的问题A具有最高语句相似度的问题的答案推送给所述用户,其中语句相似度score和语句形态相似度score1和语义相似度score2满足公式：score＝a*score1+b*score2，a+b＝1。在语句相似度计算方法中，在计算语句相似度时，综合考虑了句子之间的语句形态相似度score1和语义相似度score2而得到语句相似度，从而将基于知网的相似度计算和编辑距离的相似度计算结合起来，相对于以前的方法在语句相似度的准确性方面有了很大提升。在应用于智能问答系统时，可以很好的匹配用户的问题，匹配准确率高。

以上所述，仅为本发明的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。

Claims

1.一种基于语义的中文语句相似度计算方法，包括：

接受用户输入的问题A；

对所述用户输入的问题A进行预处理；

对经过所述预处理的所述用户输入的问题A进行分词；

将所述用户输入的问题A与所述问题模板中的每个问题B进行匹配计算，获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语句形态相似度score1和语义相似度score2；

根据所述语句形态相似度score1和所述语义相似度score2计算获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语句相似度score；

从所述问题模板中选择与所述用户输入的问题A具有最高语句相似度的问题的答案推送给所述用户,

其中语句相似度score和语句形态相似度score1和语义相似度score2满足公式：score＝a*score1+b*score2，a+b＝1。

2.根据权利要求1所述的基于语义的中文语句相似度计算方法，其中所述问题模板是通过对问题文件进行预处理、分词后生成的。

3.根据权利要求1或2所述的基于语义的中文语句相似度计算方法，其中所述预处理包括去除空格、去除标点符号以及过滤停留词。

4.根据权利要求2所述的基于语义的中文语句相似度计算方法，其中将所述用户输入的问题A与所述问题模板中的每个问题B进行匹配计算，获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语句形态相似度score1包括：

获得所述用户输入的问题A与所述问题模板中的每个问题B之间的编辑距离Dis(A,B)；

根据所述编辑距离Dis(A,B)计算得到语句形态相似度score1，

其中Max(A，B)为问题A和问题B的句子的最大长度，所述编辑距离指从一个以字符为单位的字符串转换为另一个字符串所需要的最小编辑操作的代价数。

5.根据权利要求4所述的基于语义的中文语句相似度计算方法，其中所述编辑操作包括插入、删除和替换，所述插入、所述删除和所述替换的代价数均为1。

6.根据权利要求5所述的基于语义的中文语句相似度计算方法，其中获得所述用户输入的问题A与所述问题模板中的每个问题B之间的编辑距离Dis(A,B)包括：

获取分词后的所述问题A的词语个数n和所述问题B的词语个数m；

创建m*n维的二维数组d(n,m)；

初始化该二维数组d(n,m),其中d[0,0]＝0，d[0，i]＝i,1≦i≦m，d[j，0]＝j，1≦j≦n；

计算并获得j≠0且i≠0时的任意d[i，j]得到赋值后的二维数组d(n,m)；

将d[n,m]作为所述用户输入的问题A与所述问题模板中的每个问题B之间的编辑距离Dis(A,B)。

7.根据权利要求6所述的基于语义的中文语句相似度计算方法，其中计算并获得j≠0且i≠0时的任意d[i，j]得到赋值后的二维数组d(n,m)包括：

利用删除操作由d[i][j-1]+删除操作的代价数计算得到d1[i，j]；

利用插入操作由d[i-1][j]+插入操作的代价数计算得到d2[i，j]；

利用替换操作由d[i-1][j-1]+替换操作的代价数计算得到d3[i，j]；

将d1[i，j]、d2[i，j]和d3[i，j]取最小值而使得d[i，j]等于该最小值。

8.根据权利要求2所述的基于语义的中文语句相似度计算方法，其中获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语义相似度score2包括：

根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度；

对于问题A中的每个词语，选择问题B中的与该词语相似度最高的词语使得二者对应起来成为词语对；

问题A或问题B中的没有建立对应关系的词语与空词语对应，该词语对的相似度为零；

将所有词语对的相似度值相加后除以词语对的总对数而得到所述语义相似度score2。

9.根据权利要求8所述的基于语义的中文语句相似度计算方法，其中

根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度包括:

利用知网来提取其丰富的语义信息；

计算义原相似度；

利用义原相似度计算得到义项相似度；

利用义项相似度得到词语相似度，

所述义原相似度计算公式为：

S i m (p_{1}, p_{2}) = \frac{α}{d + α}

利用义项相似度得到词语相似度的计算公式为：

S i m (W_{1}, W_{2}) = \underset{i = 1.. n, j = 1 ... m}{m a x} S i m (S_{1 i}, S_{2 j})

其中W1和W2为两个汉语词语，W1有n个义项：S11、S12……S1n，W2有m个义项：S21、S22……S2m。

10.根据权利要求9所述的基于语义的中文语句相似度计算方法，其中两个概念S1和S2的义项相似度Sim(S1,S2)由以下四部分构成：

第一基本义原，这一部分的相似度记为Sim1(S1,S2)；

其中beta1＝0.5,beta2＝0.2,beta3＝0.17,beta4＝0.13。

11.一种基于语义的中文语句相似度计算装置，包括处理器和存储器，所述存储器存储有指令，当所述处理器执行所述指令时，执行如权利要求1-10中任一项所述的计算方法。

12.一种计算机存储介质，其上存储有计算机可执行指令，当所述指令被计算装置执行时，执行如权利要求1-10中任一项所述的计算方法。