CN110705612A

CN110705612A - 一种混合多特征的句子相似度计算方法、存储介质及系统

Info

Publication number: CN110705612A
Application number: CN201910882386.6A
Authority: CN
Inventors: 刘继明; 谭云丹; 袁野; 万晓榆; 于敏敏
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2020-01-17

Abstract

本发明请求保护一种混合多特征的句子相似度计算方法、存储介质及系统，包括以下步骤：获取句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的词向量；计算机基于平滑逆频率算法，由词向量利用加权和去除非信息噪音，来计算句子词向量相似度；基于“词语依存三元组”结构，分别计算上述测试句子和由筛选出的相似度前10的句子依存句法的相似度；基于得到的两种句子向量计算的句子混合相似度，并采用P@N和MRR(平均排序倒数)参数确定方法来调节优化系数β，得出与训练集中句子相似度最大的句子。由于本发明考虑了句子中关键词、词向量和句法结构等多方面的特点，更为精确地表达句子的深层含义，以正确判断句子内容的相似性。

Description

一种混合多特征的句子相似度计算方法、存储介质及系统

技术领域

本发明属于自然语言处理技术领域，尤其涉及句子相似度计算方法。

背景技术

句子相似度计算是在计算机被赋予丰富涵义词汇的基础上，通过句子间的特征构建句子相似度计算模型，使计算机能够快速匹配系统中最为相似的句子。句子相似度计算在自然语言处理方面的各个领域都有着广泛的应用。例如在自动问答系统中常问问题库的检索，如何根据用户的提问在知识库中查找到对应的答案，通过计算提问的句子和知识库中对应的句子之间相似度来解决的。在信息过滤技术中，通过句子相似度计算，可自动过滤用户可能并不想看到的信息。同样，在机器翻译中、自动文摘中均用到该技术，以获取需要的信息。

在现有技术中，判断句子相似度的方法主要分为五大类。第一类：基于句子浅层特征的相似度计算，该方法通过比较句子间词序、句长和编辑距离等相似性来衡量句子浅层信息相似度，但仅使用该方法来判断句子间相似性的效果不佳，因此常和其他类别的句子相似度计算方法结合使用；第二类：基于关键词的相似度计算，该方法通过关键词对句子含义的反映程度来区别句子间的相似度。例如TF-IDF方法，通过其中的IDF算法提取关键词，但该算法的简单结构较难反映词语的重要程度；还有部分文献通过提取公共关键词来衡量句子的相似度，但该方法遗漏了除关键词外的其他词语对句子含义的贡献。因此通过关键词来比较句子的相似性的效果并不是很理想；第三类：基于语义的相似度计算，该方法需要借助大型完备的语义词典，该词典由词语概念间的层次关系构建而成，具有代表性的主要有基于HowNet、WordNet或同义词词林的句子相似度计算方法。由于这些方法的语义词典没考虑未登录词语或未及时更新词语语义信息，进而导致句子相似度计算精度不高；第四类：基于词向量的相似度计算，该方法的思想为将词语映射为空间中的一个特定的向量，由词向量构成句向量来计算相似度，例如Google提出的词向量训练工具Word2Vec，在给定的语料库上对CBOW和Skip-Gram两种模型进行训练，然后输出语料库中每个词语对应的词向量，但该训练工具需要依赖庞大的语料库才能保证训练的词向量的准确性；第五类：基于句法结构的相似度计算，该方法主要是借助句子词语间的依存关系来计算相似度，例如利用句子中的“主谓宾介”中各对应成分之间进行相似度计算，消除了主语、谓语、宾语和介词短语之间混杂计算存在的弊端，对句子成分结构理解更为充分，理论上是一种较为理想的计算方法。

在充分分析上述方面的不足后，本发明综合考虑关键词、词向量及句法结构多方面的特点，在平滑逆频率(Smooth Inverse Frequency:平滑逆频率)算法的基础上，结合依存句法对句子相似度进行研究，更为精确地表达句子的深层含义，以正确判断句子内容的相似性。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种提高句子相似度计算的精准度的混合多特征的句子相似度计算方法、存储介质及系统。本发明的技术方案如下：

一种混合多特征的句子相似度计算方法、存储介质及系统，其包括以下步骤：

步骤1、计算机构建句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的词向量；

步骤2、计算机基于平滑逆频率算法，由步骤1的词向量利用加权和去除非信息噪音，来计算句子词向量相似度；

步骤3、计算机基于“词语依存三元组”结构，分别计算上述测试句子和由步骤2的结果筛选出的相似度前10的句子依存句法的相似度；

步骤4、计算机基于步骤2和步骤3得到的两种句子向量计算的句子混合相似度，并采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β，得出与训练集中句子相似度最大的句子。

进一步的，所述步骤1计算机获取句子相似度计算的测试集和训练集，并通过词向量模型获取测试集和训练集中的各词语对应的词向量，具体包括：

首先计算机利用词向量工具对自然语言语料进行训练，以获取各词语对应的向量训练得到词向量模型，所述词向量模型包含词向量，每个词语用一个向量来表示；其次将选取的测试句子和训练集中的句子进行分词，随机选取测试集中第i句子X_i，句子X_i经过分词后得到关于X_i的词语集合为x_i＝{x₁,x₂,…,x_n}，n为构成句子X_i的词语个数，将每个词语与对应的词向量一一匹配，得到句子X_i中每个词语形成的词向量集合为V_x＝{v_x1,v_x2,…v_xn}，其中v_xn表示词语x_n对应的词向量。

进一步的，所述步骤2计算机基于平滑逆频率算法，由步骤1的词向量利用加权和去除非信息噪音，来计算句子词向量相似度，具体包括：

(11)计算句子X_i中每个词语的权重，根据词语在语料库中出现的频率赋予相应的权重，计算句子X_i每个词语的权重ω_n，计算公式如下：

其中，p(x_n)为每个词在语料库中出现的概率，a为常数，取a＝0.0001；

(12)计算句子X_i的句向量V_sxi，计算公式如下：

M＝U·∑·V^T

V_sxi＝(1-VV^T)V’_sxi

其中，V’_sxi为去主成分前的句向量，M为所有句向量组成的矩阵，U是一个正交阵，Σ是对称阵，V是一个正交阵,V^T为V’_sxi的最大主成分向量；

(13)计算词向量的句子相似度，根据句子X_i的句向量V_sxi，计算句子X_i和测试集中每一个句子的余弦相似度，其中，句子X_i和Y_j的基于平滑逆频率的句向量的余弦相似度SIF_Sim(X_i,Y_j)计算公式如下：

其中，Y_j为训练集中的第j个句子，V_syj为句子Y_j的句向量V_syj；

(14)将步骤(13)计算的句子相似度值由大到小排序，选取训练集中相似度前10的句子，进入下一步依存句法的句子相似度计算。

进一步的，所述的步骤3基于“词语依存三元组”结构，分别计算上述测试句子和由步骤2的结果筛选出的相似度前10的句子依存句法的相似度，具体包括：

设上述句子Y_j在这10个句子中，具体公式为：

(21)计算机对句子X_i和Y_j进行句法分析，将句子X_i和Y_j进行分词后，根据句子中各词语所做的成分，得出词语间的依存关系；

(22)计算机构造“词语依存三元组”结构，句子中的依存关系提取出来，构成多个“词语依存三元组”结构，设词语间的依存关系表示为一个三元组T＝(A,B,R),其中A表示被依存词，B表示依存词，R表示词语A、B间的依存关系，A和B共同称为一对“依存对”，设句子X_i和Y_j中的有效词语依存对数量分别为k、g；

(23)计算机计算句子X_i和Y_j中每个依存对的相似度值，根据上述方法形成的句子中的“词语依存三元组”结构，针对三元组之间的相似性来判断句子间的依存句法相似度Depen_Sim(X_i,Y_j)。

进一步的，所述步骤4根据步骤2和步骤3得到的两种句子向量计算的句子相似度，并采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β，得出与训练集中句子相似度最大的句子，具体包括：

(31)所述采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β，具体包括：

通过P@N和MRR(mean reciprocal rank：平均排序倒数)参数确定方法来调节优化系数：

P@N：表示正确结果出现在前N个结果中的比例；

MRR：表示返回结果中第一个相关结果所在位置的平均倒数，把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度，再对所有的问题取平均；

β的取值依据：根据β的不同取值来计算P@N和MRR的大小，当P@N和MRR的值为最大时，所对应的β值衡量基于混合多特征的句子相似度的值最为理想；

(32)计算句子X_i与选取的训练集中相似度值前10的句子的词向量和依存句法的混合相似度值，其中，句子X_i和Y_j的混合相似度计算公式如下：

Final_Sim(X_i，Y_j)＝max(βXSIF_Sim(X_i，Y_j)+(1-β)XDepgn_Sim(X_i，Y_j))

其中，β为常数，β∈[0,1]。

一种存储介质，该存储介质内部存储计算机程序，其特征在于，所述计算机程序被处理器读取时，执行上述任一项的方法。

一种混合多特征的句子相似度计算系统，其包括：

词向量获取模块：用于计算机构建句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的词向量；

词向量相似度计算模块：用于计算机基于平滑逆频率算法，由步骤1的词向量利用加权和去除非信息噪音，来计算句子词向量相似度；

依存句法相似度计算模块：用于计算机基于“词语依存三元组”结构，分别计算上述测试句子和由词向量相似度计算模块的结果筛选出的相似度前10的句子依存句法的相似度；

相似度句子获取模块：用于根据词向量相似度、依存句法相似度计算模块得到的两种句子向量计算的句子相似度，并采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β，得出与训练集中句子相似度最大的句子。

本发明的优点及有益效果如下：

由于本发明的一种混合多特征的句子相似度计算方法、存储介质及系统，综合考虑关键词、词向量以及句法结构对句子含义的影响，其中平滑逆频率的计算方法的思想为将句子中的每个词语，赋予相应的权重，计算句子中词向量的加权平均值，然后并减去与该平均值的首位奇异向量(最大公共成分)，最终得到待比较句子的句向量。依存句法的句子相似度方法，其核心在考虑了句子间的成分信息，并通过设计“词语三元组”结构，针对每个三元组结构单元计算相似度。词语间的依存关系既可以体现词语的成分特征，又可以反映词语的重要性，一句话中参与构成“主谓关系”和“动宾关系”的词语相比如“定中关系”、“状中关系”更重要。此外，词语间的依存关系还可以在一定程度上体现词序，如构成“主谓关系”的词语，主语在谓语的前面，构成“动宾关系”的词语，宾语在谓语的后面。最后将两种向量计算出来的相似度值混合加权得出最终的句子相似度值，避免只考虑单一特征带来的偏差，能更全面、更准确地评估句子间的相似度。本发明首先通过基于平滑逆频率的句子相似度算法，筛选出相似度前10的训练集句子；然后将这10个句子与测试句子计算依存句法相似度,在计算依存句法相似度时，将句子中的依存关系提取出来，构成多个“词语依存三元组”结构，针对三元组之间的相似性来判断句子间的依存句法相似度；最后将这两种句子相似度计算方法的值进行混合加权，利用P@N和MRR(mean reciprocal rank:平均排序倒数)参数确定方法来调节优化系数，使句子相似度计算的结果更加准确。

附图说明

图1是本发明提供优选实施例提出的一种混合多特征的句子相似度计算方法、存储介质及系统的主要步骤；

图2为本发明提出的一种混合多特征的句子相似度计算方法、存储介质及系统的具体逻辑流程图；

图3为例句的句法依存树结构示意图；

图4为句子中词语的依存关系R的取值图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1、图2所示，本发明是一种混合多特征的句子相似度计算方法、存储介质及系统，包括以下步骤：

步骤(1)，获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中各词语对应的词向量，进一步包括：

本实施方式中，可对自然语言语料通过词向量工具(例如：Word2Vec等工具)进行训练，以获取测试集和训练集中各词语对应的向量。

将选取的测试句子和训练集中的句子进行分词后，训练得到词向量模型，所述词向量模型包含词向量，每个词语可以用一个向量来表示(通常为300维)。随机选取测试集中第i句子X_i，句子X_i经过分词后得到关于X_i的词语集合为x_i＝{x₁,x₂,…,x_n}，n为构成句子X_i的词语个数，将每个词语与对应的词向量一一匹配，得到句子X_i中每个词语形成的词向量集合为V_x＝{v_x1,v_x2,…v_xn}，其中v_xn表示词语x_n对应的词向量。

步骤(2)，计算机基于平滑逆频率算法，由步骤1的词向量利用加权和去除非信息噪音，来计算句子词向量相似度，进一步包括：

(1)计算句子X_i中每个词语的权重(提取关键词)。一般而言，在语料库中，一个词或字出现的频次越大，那么这个词或字对句子含义的影响就越小，比如“在”、“的”、“了”、“我想”等词或字在一句话中的意义作用很小，因此赋予这类词或字较小的权重，同时在一定程度上也省去了去停用词的步骤。根据词语在语料库中出现的频率赋予相应的权重，计算上述句子X_i每个词语的权重ω_n，计算公式如下：

其中，p(x_n)为每个词在语料库中出现的概率，a为常数，取a＝0.0001

(2)计算上述句子X_i的句向量V_sxi，计算公式如下：

M＝U·∑·V^T

V_sxi＝(1-VV^T)V’_sxi

(3)计算基于词向量的句子相似度。根据句向量计算上述句子X_i和测试集中每一个句子的余弦相似度SIF_Sim(X_i,Y_j)，其中，句子X_i和Y_j的词语权重的句向量的余弦相似度计算公式如下：

其中，Y_j为训练集中的第j个句子，V_syj为句子Y_j的词语权重的句向量V_syj

(4)将上述计算的句子相似度值由大到小排序，选取训练集中相似度前10的句子，进入下一步基于依存句法的句子相似度计算。

步骤(3)，基于“词语依存三元组”结构，分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的句子依存句法的相似度，进一步包括：

设上述句子Y_j在这10个句子中

(1)对句子X_i和Y_j进行句法分析。本发明借助哈尔滨工业大学的LTP平台“句法分析”工具，分别得出句子X_i和Y_j中词语间的依存关系，并去除对句法分析没有实际意义的含有停用词和标点符号的依存关系；

(2)构造“词语依存三元组”结构。句子中的依存关系提取出来，构成多个“词语依存三元组”结构，设词语间的依存关系表示为一个三元组T＝(A,B,R),其中A表示被依存词，B表示被依存词，R表示词语A、B间的依存关系，R的取值由依存词与被依存词间的关系决定，参考图3所示。A和B共同称为一对“依存对”，设句子X_i和Y_j中的有效词语依存对数量分别为k、g，如例句“重庆市出台了哪些优惠政策吸引高层次人才”，其中“重庆市”与“出台”之间的依存关系为主谓关系，“出台”为被依存词，“重庆市”为依存词，该句子的句法依存树结构图参考图4所示；

(3)计算句子X_i和Y_j中每个依存对的相似度值。根据上述方法形成的句子中的“词语依存三元组”结构，针对三元组之间的相似性来判断句子间的依存句法相似度Depen_Sim(X_i,Y_j)，设X_i的第p个依存对的三元组表示为T_xip＝(A_xip,B_xip,R(A_xip,B_xip))，其中1<p<k,A_xip表示句子X_i中的第p个依存对中的被依存词，B_xip,表示句子X_i中的第p个依存对中的依存词，R(A_xip,B_xip)表示词语A_xip、B_xip间的依存关系函数，设句子X_i第p个依存对与Y_j中的每一个词语依存对的相似度值的最大值为S(T_xip)，计算公式如下所示：

当依存关系为“核心关系”时，其被依存词默认为“root”，此时设X_i的第p个依存对的三元组表示为的词语三元组为T_xip＝(root,B_xip,R(root,B_xip))，则计算S(T_xip)的计算公式为：

其中，表示句子X_i中的第p个依存词与Y_j中的每一个依存词的最大相似度值，根据两个词的词向量的余弦值确定；

当依存关系为“非核心关系”时，则计算S(T_xip)的计算公式为：

其中，

表示句子X_i中的第p个被依存词与Y_j中的每一个被依存词的最大相似度值，根据两个词的词向量的余弦值确定；max_1<q<g(Sim(B_xip,B_yjq)︱Sim(A_xip,A_yjq))表示在满足句子X_i的第p个被依存词Y_j中的某一个被依存词最相似的情况下，句子X_i中的第p个依存词与Y_j中的该依存词的最大相似度值，根据两个词的词向量的余弦值确定；R_Sim(T_xip,T_yjq)表示句子X_i中的第p个词语依存对与Y_j中的第q词语依存对关系的判断函数，若这两对的依存关系相同，则R_Sim(T_xip,T_yjq)的值为1，反之为0；

计算句子X_i和Y_j的依存句法的句子相似度Depen_Sim，计算公式如下：

其中，

和

分别表示句子X_i中的第p个词语和Y_j中的第q词语根据词性的调节参数。

步骤(4)，基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度，并采用P@N和MRR(平均排序倒数)参数确定方法来调节优化系数β，得出与训练集中句子相似度最大的句子。进一步包括：

(1)通过P@N和MRR(mean reciprocal rank：平均排序倒数)参数确定方法来调节优化系数：

P@N：表示正确结果出现在前N个结果中的比例；

(2)计算句子X_i与选取的训练集中相似度值前10的句子的词向量和依存句法的混合相似度值，其中，句子X_i和Y_j的混合相似度计算公式如下：

Final_Sim(X_i，Y_j)＝max(β×SIF_Sim(X_i，Y_j)+(1-β)×Depen_Sim(X_i，Y_j))

其中，β为常数，β∈[0，1]。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种混合多特征的句子相似度计算方法，其特征在于，包括以下步骤：

步骤3、计算机基于“词语依存三元组”结构，分别计算上述测试句子和由步骤2的结果筛选出的相似度前10的句子依存句法相似度，句子依存句法即将句子分析成一棵依存句法树，描述出各个词语之间的依存关系；

2.根据权利要求1所述的一种混合多特征的句子相似度计算方法，其特征在于，所述步骤1计算机获取句子相似度计算的测试集和训练集，并通过词向量模型获取测试集和训练集中的各词语对应的词向量，具体包括：

3.根据权利要求2所述的一种混合多特征的句子相似度计算方法，其特征在于，所述步骤2计算机基于平滑逆频率算法，由步骤1的词向量利用加权和去除非信息噪音，来计算句子词向量相似度，具体包括：

(12)计算句子X_i的句向量V_sxi，计算公式如下：

M＝U·∑·V^T

V_sxi＝(1-VV^T)V’_sxi

(13)计算基于词向量的句子相似度，根据句子X_i的句向量V_sxi，计算句子X_i和测试集中每一个句子的余弦相似度，其中，句子X_i和Y_j的基于平滑逆频率的句向量的余弦相似度SIF_Sim(X_i,Y_j)计算公式如下：

4.根据权利要求3所述的一种混合多特征的句子相似度计算方法，其特征在于，所述的步骤3基于“词语依存三元组”结构，分别计算上述测试句子和由步骤2的结果筛选出的相似度前10的句子依存句法的相似度，具体包括：

设上述句子Y_j在这10个句子中，具体公式为：

5.根据权利要求4所述的一种混合多特征的句子相似度计算方法，其特征在于，计算机基于步骤2和步骤3得到的两种句子向量计算的句子混合相似度，并采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β，得出与训练集中句子相似度最大的句子，具体包括：

(31)通过P@N和MRR(mean reciprocal rank：平均排序倒数)参数确定方法来调节优化系数：

P@N：表示正确结果出现在前N个结果中的比例；

Final_Sim(X_i，Y_j)＝max(β×SIF_Sim(X_i，Y_j)+(1-β)×Depen_Sim(X_i，Y_j))

其中，β为常数，β∈[0,1]。

6.一种存储介质，该存储介质内部存储计算机程序，其特征在于，所述计算机程序被处理器读取时，执行上述权利要求1～5任一项的方法。

7.一种混合多特征的句子相似度计算系统，其特征在于，包括：