CN110990537B

CN110990537B - 一种基于边缘信息和语义信息的句子相似度计算方法

Info

Publication number: CN110990537B
Application number: CN201911268215.0A
Authority: CN
Inventors: 张琳; 叶家豪
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-06-27
Anticipated expiration: 2039-12-11
Also published as: CN110990537A

Abstract

本发明提供的一种基于边缘信息和语义信息的句子相似度计算方法，包括：输入待处理的比较语句，计算句子长度差值；对待处理的比较语句进行文本预处理，动态生成单词对向量；基于边缘信息和语义信息计算单词对向量相似度，得到混合相似度；利用相似度整体变量修正相似度向量；通过依赖模型，根据单词对向量计算句子依赖变量；利用句子依赖变量、句子长度差值对修正后的向量继续进一步修正，输出最终的相似度得分。本发明提供的相似度计算方法，综合提高单词相似度计算精度，利用句子整体相似度变量降低句子长度对句子相似度计算精度的影响，利用依赖变量和句子长度差值综合修正句子整体相似度，提高句子相似度计算精度。

Description

一种基于边缘信息和语义信息的句子相似度计算方法

技术领域

本发明涉及自然语言处理技术领域，更具体的，涉及一种基于边缘信息和语义信息的句子相似度计算方法。

背景技术

现有的计算单词或者语句的相似度方法可以分为四类[1]：1)基于单词共现计算相似度[2]；2)基于语料库数据计算相似度[3]；3)基于网络引擎计算相似度[4]；4)基于词嵌入，使用神经网络计算相似度。

首先，基于单词共现计算相似度的方法是将单词放于树状知识库中，利用单词子概念之间的最短路径长度、公共节点深度、概念密度等特征量化单词的相似度，这种方法存在明显的缺陷，其缺陷在于该方法忽略了单词在句子中的位置信息，忽略了单词在特定语句中的适当含义；基于语料库的计算相似度的方法性能与语料库的大小和类型相关，相同的单词在不同领域的语料库中呈现的意思是截然不同的。

基于网络引擎的计算相似度的方法主要分为基于单词搜索共现页面和机遇单词搜索共现窗口两种，不同的搜索引擎会导致不同的单词相似度结果，而且即使单词对出现在一个页面中共同出现，也无法确定两个单词之间的相干关系，所有这种方法难以确保单词计算相似度的精确性。

基于神经网络计算相似度的方法模型复杂，而且对不符合通用语法的句子的相似度计算性能难以满足用户需求。

发明内容

本发明为克服现有的句子相似度计算方法存在精确性低、计算复杂程度高的技术缺陷，提供一种基于边缘信息和语义信息的句子相似度计算方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于边缘信息和语义信息的句子相似度计算方法，包括以下步骤：

S1：输入待处理的比较语句，计算句子长度差值；

S2：对待处理的比较语句进行文本预处理，动态生成第一单词对向量和第二单词对向量；

S3：基于边缘信息和语义信息计算第一单词对向量、第二单词对向量相似度，得到混合相似度；

S4：利用相似度整体变量修正相似度向量，得到修正后的向量；

S5：通过依赖模型，根据第一单词对向量、第二单词对向量计算句子依赖变量；

S6：利用句子依赖变量、句子长度差值对修正后的向量继续进一步修正，输出最终的相似度得分。

其中，所述步骤S1具体为：将两个比较语句分别进行分词处理，将两个语句的分词数相减后取绝对值，从而得到句子长度差值lenth。

其中，在所述步骤S2中，对待处理的比较语句进行删除停用词和词性标注的文本预处理；所述的删除停用词为将两个比较语句进行分词，将分词后的结果与停用词表中的数据一一比对，若分词后得到的词语出现在停用词表中，则删除语句，而对比删除后剩下的词语作为元素动态生成词向量，标注为第一单词对向量、第二单词对向量。

其中，所述步骤S3具体包括以下步骤：

S31：根据单词对在WordNet中的边缘信息，将第一单词对向量与第二单词对向量进行对比，计算WordNet相似度；

S32：根据Spacy模型中基于语义信息，计算第一单词对向量与第二单词对向量的Spacy相似度；

S33：将WordNet相似度和Spacy相似度进行加权结合，得到混合相似度向量。

其中，所述步骤S31包括以下步骤：

S311：将第一单词对向量与第二单词对向量进行一一对比；

S312：将第一单词对向量与第二单词对向量的对比的单词分别输入到WordNet中，利用单词对在WordNet中的边缘信息，即子概念最短路径长度和父节点最浅深度两个特征量化单词相似度，其中：子概念相似度计算公式具体为：

f(l)＝e^-al

其中，f(l)表示子概念相似度，l为子概念间最短路径长度，a为路径修正系数，为0.2；父节点深度计算公式具体为：

其中，g(h)表示父节点深度，h为子概念间父节点最浅深度，β为父节点修正系数，为0.45；至此得到多组子概念相似程度、父节点深度；

S313：取最大相似度作为该项单词在WordNet相似度得分，最终得到第一单词对向量与第二单词对向量的WordNet相似度，其中，子概念之间的最大相似度得分具体计算公式为：

其中，Sim(word1,word2)为word1在WordNet的相似度。

上述方案中，子概念最短路径长度特征衡量了单词子概念之间的相似程度，子概念路径长度越小，子概念之间的概念相似程度越高，父节点最浅深度特征衡量了单词子概念对之间共信息量的大小，父节点处于树状知识库的深度越深，共信息量越大，子概念相似程度越高。

其中，所述步骤S311具体为：将第一单词对向量的首项与第二单词对向量的所有项进行一一比对；再取第一单词对向量的第二项与第二单词对向量的所有项进行一一比对；以此类推，完成第一单词对向量和第二单词对向量的一一比对。

其中，所述步骤S33具体包括以下步骤：

S331：将WordNet相似度与Spacy相似度的差值的绝对值作为差值d，设参数α为混合因子，同时设置相差阈值、高相似度阈值和中相似度阈值；

S332：判断WordNet相似度、Spacy相似度的大小关系，分别作为较大值和较小值；

S333：当较大值大于高相似度阈值时，判断差值d是否大于相差阈值，同时较小值大于0；若是，则混合相似度表示为：α*较大值+(1-α)*较小值；否则，将较大值作为混合相似度；

S334：当较大值小于高相似度阈值但大于中相似度阈值，同时，较小值大于中相似度阈值时，混合相似度表示为：α*较大值+(1-α)*较小值；

S335：当较大值大于中相似度阈值，同时中相似度阈值大于较小值时，判断较小值是否为0，若是，则将较大值作为混合相似度；否则，混合相似度表示为α*较大值+(1-α)*较小值；

S336：当较大值和较小值均小于中相似度阈值时，判断差值d是否大于相差阈值，若是，混合相似度表示为：α*Spacy相似度+(1-α)*WordNet相似度；否则，混合相似度表示为：0.5*Spacy相似度+0.5*WordNet相似度。

上述方案中，当其中一个相似度值大于高相似度阈值、另一个相似度值相差值大于相差阈值但不为0时，将高相似度值取高权值，低相似度值取低权值，加权求和计算混合相似度。当相似度相差大于相差阈值时，两种相似度都可能存在误值，将两种相似度加权合并的方式以降低相似度偏正程度；当一个相似度大于高相似阈值，与另一个相似度值相差小于相差阈值或者另一个相似度值为0时，以高相似度值作为混合相似度。在前面一种情况下，相似度相差小于相差阈值，而且两种计算方式将单词相似度置于同一区间，高相似度值较为精确[1]；在后面一种情况下，当一个相似度为0时，0相似度值的算法很可能出现单词信息遗漏的情况，以另一个相似度值作为混合值进行补充。

上述方案中，当两个相似度的值都大于高相似度阈值，通过高相似度值取高权值，低相似度值取低权值加权合并计算混合相似度，在这种情况下，两个单词的相似度取值较大，将高相似度值以加权的方式轻微修正；当两个相似度位于中相似度阈值的左右区间，一个相似度值高，而另一相似度值低时，高相似度值高权重，低相似度值取低权重加权合并计算混合相似度。这种情况下，两个单词之间更有可能是意思相似的，所以高相似度值取高权重[1]。

上述方案中，当两个相似度值都小于中等阈值时，当两个相似度相差值不超过相差阈值，取平均值作为混合相似度，其他情况下取Spacy相似度以高权值加权合并计算混合相似度，这是由于在相似度较低时，语义信息能更好地反映单词间的相关性，结果较为准确[1]。

其中，所述步骤S4具体为：

S41：根据R&G的定义，当单词相似度值大于0.8025，单词对可对定义为近义词，因此统计两个混合相似度向量中超出0.8025值的数据数量，计算相似度整体变量，具体为：

ω＝sum(C1,C2)/γ

其中，C₁、C₂分别表示第一单词对向量V₁与第二单词对向量V₂中混合相似度大于0.8025的数据个数，γ为相似度整体变量修正系数；

S42：根据相似度整体变量对句子相似度进行修正，具体计算公式为：

Sim(text1,text2)_second＝||V1||*||V2||/ω

其中，Sim(text1,text2)_second表示修正后的向量。

其中，所述步骤S5具体为：

S51：计算句子在Spacy语言模型中的依赖变量dep_gobal[7]；

S52：将第一单词对向量、第二单词对向量输入到Spacy模型中，依赖变量初始化为0，将第一单词对向量、第二单词对向量中的单词根据词性分成三类：词根、动词、名词；

S53：对属性为词根的单词对进行比对，如果两个单词对中的子概念有交集，则依赖变量不变，否则依赖变量加一；动词和名词部分分别进行同样的处理计算依赖变量，完成句子依赖变量的计算。

其中，所述步骤S6具体为：

S61：根据依赖变量结合句子长度差值求出依赖索引dep_index，具体计算公式为：

dep_index＝0.1/tan(dep_gobal)+0.1*log(lenth+1)；

S62：利用依赖索引修正句子相似度，得到最终的句子相似度得分，具体计算公式为：

Sim_final(text1,text2)＝Sim(text1,text2)_second-dep_index。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供的一种基于边缘信息和语义信息的句子相似度计算方法，利用单词在词林WordNet中的子概念最短路径长度和父节点最浅深度两个特征，利用边缘信息计算单词在知识库中的相似度，结合单词在语言模型Spacy中的语义信息，综合提高单词相似度计算精度，利用句子整体相似度变量降低句子长度对句子相似度计算精度的影响，利用依赖变量和句子长度差值综合修正句子整体相似度，提高句子相似度计算精度。

附图说明

图1为本发明所述方法流程图；

图2为R&G(Rubenstein and Goodenough)单词对皮尔森(Pearson)系数性能示意图；

图3为算法性能对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于边缘信息和语义信息的句子相似度计算方法，包括以下步骤：

S1：输入待处理的比较语句，计算句子长度差值；

更具体的，所述步骤S1具体为：将两个比较语句分别进行分词处理，将两个语句的分词数相减后取绝对值，从而得到句子长度差值lenth。

更具体的，在所述步骤S2中，对待处理的比较语句进行删除停用词和词性标注的文本预处理；所述的删除停用词为将两个比较语句进行分词，将分词后的结果与停用词表中的数据一一比对，若分词后得到的词语出现在停用词表中，则删除语句，而对比删除后剩下的词语作为元素动态生成词向量，标注为第一单词对向量、第二单词对向量。

更具体的，所述步骤S3具体包括以下步骤：

更具体的，所述步骤S31包括以下步骤：

S311：将第一单词对向量与第二单词对向量进行一一对比；

f(l)＝e^-al

其中，Sim(word1,word2)为word1在WordNet的相似度。

在具体实施过程中，子概念最短路径长度特征衡量了单词子概念之间的相似程度，子概念路径长度越小，子概念之间的概念相似程度越高，父节点最浅深度特征衡量了单词子概念对之间共信息量的大小，父节点处于树状知识库的深度越深，共信息量越大，子概念相似程度越高。

更具体的，所述步骤S311具体为：将第一单词对向量的首项与第二单词对向量的所有项进行一一比对；再取第一单词对向量的第二项与第二单词对向量的所有项进行一一比对；以此类推，完成第一单词对向量和第二单词对向量的一一比对。

更具体的，所述步骤S33具体包括以下步骤：

在具体实施过程中，当其中一个相似度值大于高相似度阈值、另一个相似度值相差值大于相差阈值但不为0时，将高相似度值取高权值，低相似度值取低权值，加权求和计算混合相似度。当相似度相差大于相差阈值时，两种相似度都可能存在误值，将两种相似度加权合并的方式以降低相似度偏正程度；当一个相似度大于高相似阈值，与另一个相似度值相差小于相差阈值或者另一个相似度值为0时，以高相似度值作为混合相似度。在前面一种情况下，相似度相差小于相差阈值，而且两种计算方式将单词相似度置于同一区间，高相似度值较为精确[1]；在后面一种情况下，当一个相似度为0时，0相似度值的算法很可能出现单词信息遗漏的情况，以另一个相似度值作为混合值进行补充。

在具体实施过程中，当两个相似度的值都大于高相似度阈值，通过高相似度值取高权值，低相似度值取低权值加权合并计算混合相似度，在这种情况下，两个单词的相似度取值较大，将高相似度值以加权的方式轻微修正；当两个相似度位于中相似度阈值的左右区间，一个相似度值高，而另一相似度值低时，高相似度值高权重，低相似度值取低权重加权合并计算混合相似度。这种情况下，两个单词之间更有可能是意思相似的，所以高相似度值取高权重[1]。

在具体实施过程中，当两个相似度值都小于中等阈值时，当两个相似度相差值不超过相差阈值，取平均值作为混合相似度，其他情况下取Spacy相似度以高权值加权合并计算混合相似度，这是由于在相似度较低时，语义信息能更好地反映单词间的相关性，结果较为准确[1]。

在具体实施过程中，如图2所示，计算的参数取值如下：高相似阈值取值0.8，中相似阈值取值0.6，相差阈值取值0.3，当混合因子为0.65时，皮尔森系数取得最高值0.9115。

实施例2

更具体的，在实施例1的基础上，如图3所示，本发明提出的算法皮尔森系数高于现有的传统算法的皮尔森系数，性能优于现有的传统算法。表1为R&G单词对相似度数据表，具体为：

表1 R&G单词对相似度数据表

以上表格为利用本算法计算R&G单词对相似度的具体数值。

更具体的，所述步骤S4具体为：

S41：根据R&G的定义，当单词相似度值大于0.8025，单词对可对定义为近义词[6]，因此统计两个混合相似度向量中超出0.8025值的数据数量，计算相似度整体变量，具体为：

ω＝sum(C1,C2)/γ

其中，C₁、C₂分别表示第一单词对向量V₁与第二单词对向量V₂中混合相似度大于0.8025的数据个数，γ为相似度整体变量修正系数，取值为1.8；

Sim(text1,text2)_second＝||V1||*||V2||/ω

其中，Sim(text1,text2)_second表示修正后的向量。

更具体的，所述步骤S5具体为：

S51：计算句子在Spacy语言模型中的依赖变量dep_gobal[7]；

更具体的，所述步骤S6具体为：

dep_index＝0.1/tan(dep_gobal)+0.1*log(lenth+1)；

Sim_final(text1,text2)＝Sim(text1,text2)_second-dep_index。

表2 R&G句子对相似度数据列表

/>

/>

/>

/>

/>

/>

/>

/>

以上表格为本算法计算的R&G句子对相似度的具体数据；根据表2的数据，该算法计算的相似度结果接近人类标准相似度，证明算法的有效性。

在具体实施过程中，本发明提供的一种基于边缘信息和语义信息的句子相似度计算方法，利用单词在词林WordNet中的子概念最短路径长度和父节点最浅深度两个特征，利用边缘信息计算单词在知识库中的相似度，结合单词在语言模型Spacy中的语义信息，综合提高单词相似度计算精度，利用句子整体相似度变量降低句子长度对句子相似度计算精度的影响，利用依赖变量和句子长度差值综合修正句子整体相似度，提高句子相似度计算精度。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

[1].Y.Li,D.McLean,Z.A.Bandar,J.D.O'Shea and K.Crockett,"Sentencesimilarity based on semantic nets and corpus statistics,"in IEEE Transactionson Knowledge and Data Engineering,vol.18,no.8,pp.1138-1150,Aug.2006.doi:10.1109/TKDE.2006.130

[2].C.T.Meadow,B.R.Boyce,and D.H.Kraft,Text Information RetrievalSystems,second ed.Academic Press,2000.

[3].P.W.Foltz,W.Kintsch,and T.K.Landauer,“The Measurement of TextualCoherence with Latent Semantic Analysis,”Discourse Processes,vol.25,nos.2-3,pp.285-307,1998.

[4].Cilibrasi R L,Vitanyi P M B.The Google Similarity Distance[J].IEEE Transactions on Knowledge and Data Engineering

[5].H.Pu,G.Fei,H.Zhao,G.Hu,C.Jiao and Z.Xu,"Short Text SimilarityCalculation Using Semantic Information,"2017 3rd International Conference onBig Data Computing and Communications(BIGCOM),Chengdu,2017,pp.144-150.doi:10.1109/BIGCOM.2017.53

[6].H.Rubenstein and J.B.Goodenough,“Contextual correlates of synonymy,”Commun.ACM,vol.8,no.10,pp.627–633,1965.

[7].A.Pawar and V.Mago,"Challenging the Boundaries of UnsupervisedLearning for Semantic Similarity,"in IEEE Access,vol.7,pp.16291-16308,2019.

Claims

1.一种基于边缘信息和语义信息的句子相似度计算方法，其特征在于：包括以下步骤：

S1：输入待处理的比较语句，计算句子长度差值；

S3：基于边缘信息和语义信息计算第一单词对向量、第二单词对向量相似度，得到混合相似度；具体包括以下步骤：

S31：根据单词对在WordNet中的边缘信息，将第一单词对向量与第二单词对向量进行对比，计算WordNet相似度；包括以下步骤：

S311：将第一单词对向量与第二单词对向量进行一一对比；

f(l)＝e^-al

其中，f(l)表示子概念相似度，l为子概念间最短路径长度，a为路径修正系数；父节点深度计算公式具体为：

其中，g(h)表示父节点深度，h为子概念间父节点最浅深度，β为父节点修正系数，至此得到多组子概念相似程度、父节点深度；

其中，Sim(word1,word2)为word1在WordNet的相似度；

S33：将WordNet相似度和Spacy相似度进行加权结合，得到混合相似度向量；

S4：利用相似度整体变量修正相似度向量，得到修正后的向量；具体为：

ω＝sum(C1,C2)/γ

Sim(text1,text2)_second＝||V1||*||V2||/ω

其中，Sim(text1,text2)_second表示修正后的向量；

2.根据权利要求1所述的一种基于边缘信息和语义信息的句子相似度计算方法，其特征在于：所述步骤S1具体为：将两个比较语句分别进行分词处理，将两个语句的分词数相减后取绝对值，从而得到句子长度差值lenth。

3.根据权利要求2所述的一种基于边缘信息和语义信息的句子相似度计算方法，其特征在于：在所述步骤S2中，对待处理的比较语句进行删除停用词和词性标注的文本预处理；所述的删除停用词为将两个比较语句进行分词，将分词后的结果与停用词表中的数据一一比对，若分词后得到的词语出现在停用词表中，则删除语句，而对比删除后剩下的词语作为元素动态生成词向量，标注为第一单词对向量、第二单词对向量。

4.根据权利要求3所述的一种基于边缘信息和语义信息的句子相似度计算方法，其特征在于：所述步骤S311具体为：将第一单词对向量的首项与第二单词对向量的所有项进行一一比对；再取第一单词对向量的第二项与第二单词对向量的所有项进行一一比对；以此类推，完成第一单词对向量和第二单词对向量的一一比对。

5.根据权利要求4所述的一种基于边缘信息和语义信息的句子相似度计算方法，其特征在于：所述步骤S33具体包括以下步骤：

6.根据权利要求5所述的一种基于边缘信息和语义信息的句子相似度计算方法，其特征在于：所述步骤S5具体为：

S51：计算句子在Spacy语言模型中的依赖变量dep_gobal；

7.根据权利要求6所述的一种基于边缘信息和语义信息的句子相似度计算方法，其特征在于：所述步骤S6具体为：

dep_index＝0.1/tan(dep_gobal)+0.1*log(lenth+1)；

Sim_final(text1,text2)＝Sim(text1,text2)_second-dep_index。