CN109766547B

CN109766547B - 一种句子相似度计算方法

Info

Publication number: CN109766547B
Application number: CN201811601236.5A
Authority: CN
Inventors: 刘继明; 谭云丹; 袁野; 万晓榆; 王正强
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2022-10-18
Anticipated expiration: 2038-12-26
Also published as: CN109766547A

Abstract

本发明请求保护一种句子相似度计算方法，包括以下步骤：步骤(1)，获取句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的语义向量；步骤(2)，基于词语权重的句向量，分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度；步骤(3)，基于词序的句向量，分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的句子的相似度；步骤(4)，基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度，并采用MRR(平均排序倒数)参数确定方法来调节优化系数β，得出与训练集中句子相似度最大的句子。由于本发明考虑了影响句子相似度的词语权重和词序因素来计算，大大提高了句子相似度计算的精准度。

Description

一种句子相似度计算方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及句子相似度计算方法。

背景技术

句子相似度计算是在计算机被赋予丰富涵义词汇的基础上，通过句子间的特征构建句子相似度计算模型，使计算机能够快速匹配系统中最为相似的句子。句子相似度计算在自然语言处理方面的各个领域都有着广泛的应用。例如在自动问答系统中常问问题库的检索，如何根据用户的提问在知识库中查找到对应的答案，通过计算提问的句子和知识库中对应的句子之间相似度来解决的。在信息过滤技术中，通过句子相似度计算，可自动过滤掉用户可能并不想看到的信息。同样，在机器翻译中、自动文摘中均用到该技术，以获取需要的信息。

在现有技术中，句子之间的匹配是没有考虑到除去与句子语义相似度关系不大的最大主成分特征向量，造成在计算句子相似度时包含了一些冗余的成分；此外，一些算法少有考虑到组成句子间的词序问题，这导致对句子的语义的把握不准确，比如“老师叫小明去教室”和“小明叫老师去教室“，如果只按照句子语义计算相似度，那么这两个句子的意思就为一样的了，但显然他们的意思有区别。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种提高句子相似度计算的精准度的句子相似度计算方法。本发明的技术方案如下：

一种句子相似度计算方法，其包括以下步骤：

步骤(1)、获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中各词语对应的语义向量；

步骤(2)、基于词语权重的句向量，分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度；

步骤(3)、基于词序的句向量，分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的训练句子的相似度；

步骤(4)、基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度，并采用MRR(平均排序倒数)参数确定方法来调节优化系数β，得出与训练集中句子相似度最大的句子。

进一步的，所述步骤(1)获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中各词语对应的语义向量，具体包括：

对自然语言语料通过词向量工具进行训练，以获取各词语对应的向量；

将选取的测试句子和训练集中的句子进行分词后，训练得到词向量模型，所述词向量模型包含词向量，每个词语用一个向量来表示，随机选取测试集中第i句子X_i，句子X_i经过分词后得到关于X_i的词语集合为x_i＝{x₁,x₂,…,x_n}，n为构成句子X_i的词语个数，将每个词语与对应的语义向量一一匹配，得到句子X_i中每个词语形成的语义向量集合为V_x＝{v_x1,v_x2,…v_xn}，其中v_xn表示词语x_n对应的语义向量。

进一步的，所述步骤(2)基于词语权重的句向量，分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度，具体包括：

(11)根据词语在语料库中出现的频率赋予相应的权重，计算句子X_i每个词语的权重ω_n，计算公式如下：

其中f(x_n)为每个词在语料库中的词频，a为常数，取a＝0.0001；

(12)计算句子X_i的词语权重的句向量V_sxi，计算公式如下：

V_sxi＝(1-uu^T)V’_sxi

其中，V’_sxi为去主成分前的句子向量，u为V’_sxi的最大主成分向量；

(13)基于词语权重的句向量，计算句子X_i和测试集中每一个句子的余弦相似度，其中，句子X_i和Y_j的词语权重的句向量的余弦相似度计算公式如下：

其中，Y_j为训练集中的第j个句子，V_syj为句子Y_j的词语权重的句向量V_syj

(14)将上述计算的句子相似度值由大到小排序，选取训练集中相似度前10 的句子，进入下一步基于词序的句子相似度计算。

进一步的，所述的步骤(3)基于词序的句向量，分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的训练句子的相似度，具体包括：

设上述句子Y_j在这10个句子中，具体公式为：

(21)将句子X_i和Y_j进行分词、去停用词和同义词替换后，根据测试句子X_i和 Y_j中词语在句子中的词序，形成基于词序的句向量，分别得到按照词语顺序的词序集合为x_i、y_j；

(22)当词语集合x_i与词语集合y_j的词语个数相同时,以句子X_i或Y_j为基准，若x_i和y_j中没有相匹配的词语则为0，计算这两个句子的词序向量相似度 Order_Sim(X_i,Y_j)；

当词语集合x_i与词语集合y_j的词语个数不相同时，以词语数量多的句子为基准,x_i和y_j中没有相匹配的词语则为0，计算这两个句子的词序向量相似度 Order_Sim(X_i,Y_j)；

若以词语集合x_i为基准，则Order_Sim(X_i,Y_j)的计算公式如下：

其中，M_xi表示句子X_i的词序向量，M′_xi表示句子Y_j按照句子X_i为基准的词序向量，D(M_xi,M′_xi)为向量M_xi,M′_xi对应每个维度上距离的和，maxD为D(M_xi，M′_xi) 的最大值，即M′_xi相对于M_xi为完全逆序时D(M_xi,M′_xi)取得最大值。

进一步的，所述步骤(4)基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度，并采用MRR平均排序倒数参数确定方法来调节优化系数β，得出与训练集中句子相似度最大的句子，具体包括：

计算句子X_i与选取的训练集中相似度值前10的句子的权重和词序的融合相似度值，其中，句子X_i和Y_j的融合相似度计算公式如下：

Final_Sim(X_i，Y_j)＝max(β×Weight_Sim(X_i，Y_j)+(1-β)×

Order_Sim(X_i，Y_j))

其中，β为常数，β∈[0,1]。

进一步的，所述β接近0.85时，基于权重和词序向量的融合句子相似度的值最为理想。

本发明的优点及有益效果如下：

本发明采用上述方案后，由于本发明基于一个词在语料库中出现的频次与其重要性成反比的思想，赋予词语相应的权重、通过词向量工具(例如：word2vec 等工具)进行训练，以获取各词语对应的向量、将词语权重和词语的语义向量结合，形成一个句子的词语权重向量、根据词语在句子中的词序，形成一个句子的词序向量、将两种向量分别计算的句子间相似度进行融合加权，通过MRR (mean reciprocal rank:平均排序倒数)参数确定方法来调节优化系数，使句子相似度计算的结果更加准确。

由于本发明借鉴TF-IDF算法中IDF(逆向文件频率)的思想：如果包含词语t的文档越少，也就是n越小，IDF越大，则说明词语t具有很好的类别区分能力。依据此原理，本技术将以词语在语料库中出现的频次赋予相应的权重，将词语权重和词语语义结合并除去语义无关的冗余成分后，得出句子的词语权重向量；根据词语在句子中的词序，得出句子的词序向量，最后将两种向量计算出来的相似度值融合加权得出最终的句子相似度值，以有效的评估两个句子间的相似度。

附图说明

图1是本发明提供优选实施例提出的一种句子相似度计算方法的主要步骤；

图2为本发明提出的一种句子相似度计算方法的具体逻辑流程图

图3为句子词语数量相同时的句子词序结构示意图；

图4为句子词语数量不相同时的句子词序结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1、图2所示，本发明是一种句子相似度计算方法，包括以下步骤：

步骤(1)，获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中各词语对应的语义向量，进一步包括：

本实施方式中，可对自然语言语料通过词向量工具(例如：word2vec等工具)进行训练，以获取测试集和训练集中各词语对应的向量。

将选取的测试句子和训练集中的句子进行分词后，训练得到词向量模型，所述词向量模型包含词向量，每个词语可以用一个向量来表示(通常为300维)。随机选取测试集中第i句子X_i，句子X_i经过分词后得到关于X_i的词语集合为 x_i＝{x₁,x₂,…,x_n}，n为构成句子X_i的词语个数，将每个词语与对应的语义向量一一匹配，得到句子X_i中每个词语形成的语义向量集合为V_x＝{v_x1,v_x2,…v_xn}，其中v_xn表示词语x_n对应的语义向量。

步骤(2)，基于词语权重的句向量，分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度，进一步包括：

(1)根据词语在语料库中出现的频率赋予相应的权重。一般而言，在语料库中，一个词或字出现的频次越大，那么这个词或字对句子含义的影响就越小，比如“在”、“的”、“了”、“我想”等词或字在一句话中的意义作用很小，因此赋予这类词或字较小的权重，同时在一定程度上也省去了去停用词的步骤。根据词语在语料库中出现的频率赋予相应的权重，计算上述句子X_i每个词语的权重 ω_n，计算公式如下：

其中f(x_n)为每个词在语料库中的词频，a为常数，取a＝0.0001

(2)计算上述句子X_i的词语权重的句向量V_sxi，计算公式如下：

V_sxi＝(1-uu^T)V’_sxi

其中，V’_sxi为去主成分前的句子向量，u为V’_sxi的最大主成分向量

(3)基于词语权重的句向量，计算上述句子X_i和测试集中每一个句子的余弦相似度，其中，句子X_i和Y_j的词语权重的句向量的余弦相似度计算公式如下：

(4)将上述计算的句子相似度值由大到小排序，选取训练集中相似度前10 的句子，进入下一步基于词序的句子相似度计算。

步骤(3)，基于词序的句向量，分别计算上述测试句子和由步骤2的结果筛选出的相似度前10的训练句子的相似度，进一步包括：

设上述句子Y_j在这10个句子中

(1)将句子X_i和Y_j进行分词、去停用词和同义词替换后，根据测试句子X_i和 Y_j中词语在句子中的词序，形成基于词序的句向量，分别得到按照词语顺序的词序集合为x_i、y_j。

(2)当词语集合x_i与词语集合y_j的词语个数相同时,以句子X_i或Y_j为基准，若 x_i和y_j中没有相匹配的词语则为0，计算这两个句子的词序向量相似度 Order_Sim(X_i,Y_j)；

当词语集合x_i与词语集合y_j的词语个数不相同时，以词语数量多的句子为基准,x_i和y_j中没有相匹配的词语则为0,计算这两个句子的词序向量相似度 Order_Sim(X_i,Y_j)；

若以词语集合x_i为基准，则Order_Sim(X_i,Y_j)的计算公式如下：

其中，M_xi表示句子X_i的词序向量，M′_xi表示句子Y_j按照句子X_i为基准的词序向量，D(M_xi,M′_xi)为向量M_xi,M′_xi对应每个维度上距离的和，max D为D(M_xi,M′_xi) 的最大值，即M′_xi相对于M_xi为完全逆序时D(M_xi,M′_xi)取得最大值

当两个比较的句子的词语数量相同时，参考图3所示，设句子X_i和Y_j的词语集合分别为x_i＝{老师,叫,小明,去,教室}、y_j＝{小明,叫,老师,去,教室}，以句子X_i或Y_j为基准时，x_i的词序向量M_x＝(1,2,3,4,5)，y_j所对应的词序向量M′_x＝ (3,2,1,4,5)，计算这两个句子的词序为基准的词序向量相似度，计算公式如下：

当两个比较的句子的词语数量不相同时，参考图4所示，设句子X_i和Y_j的词语集合分别为x_i＝{老师,叫,小明,去,教室，学习}、y_j＝{小明,叫,老师,去,教室}，以词语数量多的句子X_i为基准时，x_i的词序向量M_x＝(1,2,3,4,5,6)，y_j所对应的词序向量M′_x＝(3,2,1,4,5,0)，计算这两个句子的词序为基准的词序向量相似度，计算公式如下：

步骤(4)，基于权重和词序的句子相似度值赋予权重，得出与训练集中句子相似度最大的句子。进一步包括：

计算句子X_i与选取的训练集中相似度值前10的句子的权重和词序的融合相似度值，其中，其中句子X_i和Y_j的融合相似度计算公式如下：

Final_Sim(X_i，Y_j)＝max(β×Weight_Sim(X_i，Y_j)+(1-β)×Order_Sim(X_i，Y_j))

其中，β为常数，β∈[0,1]

通过MRR(mean reciprocal rank：平均排序倒数)参数确定方法来调节优化系数，当β＝0时，即只考虑词序向量相似度的结果，MRR的值为0.30；当 β＝0.25时，MRR的值为0.35；当β＝0.5时，MRR的值为0.43；当β＝0.85时 MRR的值为0.49，当β＝1时，即只考虑词语权向量相似度的结果，MRR的值为0.46。因此，当β接近0.85时，基于权重和词序向量的融合句子相似度的值最为理想。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种句子相似度计算方法，其特征在于，包括以下步骤：

步骤(1)、获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中的各词语对应的语义向量；

步骤(4)、基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度，并采用MRR平均排序倒数参数确定方法来调节优化系数β，得出与训练集中句子相似度最大的句子；

所述步骤(2)基于词语权重的句向量，分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度，具体包括：

(12)计算句子X_i的词语权重的句向量V_sxi，计算公式如下：

V_sxi＝(1-uu^T)V’_sxi

(14)将上述计算的句子相似度值由大到小排序，选取训练集中相似度前10的句子，进入下一步基于词序的句子相似度计算；

所述的步骤(3)基于词序的句向量，分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的训练句子的相似度，具体包括：

设上述句子Y_j在这10个句子中，具体公式为：

(21)将句子X_i和Y_j进行分词、去停用词和同义词替换后，根据测试句子X_i和Y_j中词语在句子中的词序，形成基于词序的句向量，分别得到按照词语顺序的词序集合为x_i、y_j；

(22)当词语集合x_i与词语集合y_j的词语个数相同时，以句子X_i或Y_j为基准，若x_i和y_j中没有相匹配的词语则为0，计算这两个句子的词序向量相似度Order_Sim(X_i，Y_j)；

当词语集合x_i与词语集合y_j的词语个数不相同时，以词语数量多的句子为基准，x_i和y_j中没有相匹配的词语则为0，计算这两个句子的词序向量相似度Order_Sim(X_i，Y_j)；

若以词语集合x_i为基准，则Order_Sim(X_i，Y_j)的计算公式如下：

其中，M_xi表示句子X_i的词序向量，M′_xi表示句子Y_j按照句子X_i为基准的词序向量，D(M_xi，M′_xi)为向量M_xi，M′_xi对应每个维度上距离的和，maxD为D(M_xi，M′_xi)的最大值，即M′_xi相对于M_xi为完全逆序时D(M_xi，M′_xi)取得最大值。

2.根据权利要求1所述的一种句子相似度计算方法，其特征在于，所述步骤(1)获取句子相似度计算的测试集和训练集，并通过词向量模型获取测试集和训练集中的各词语对应的语义向量，具体包括：

将选取的测试句子和训练集中的句子进行分词后，训练得到词向量模型，所述词向量模型包含词向量，每个词语用一个向量来表示，随机选取测试集中第i句子X_i，句子X_i经过分词后得到关于X_i的词语集合为x_i＝{x₁，x₂，...，x_n}，n为构成句子X_i的词语个数，将每个词语与对应的语义向量一一匹配，得到句子X_i中每个词语形成的语义向量集合为V_x＝{v_x1，v_x2，...v_xn}，其中v_xn表示词语x_n对应的语义向量。

3.根据权利要求1所述的一种句子相似度计算方法，其特征在于，所述步骤(4)基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度，并采用MRR平均排序倒数参数确定方法来调节优化系数β，对这两种相似度赋予权重，得出与训练集中句子相似度最大的句子，具体包括：

其中，β为常数，β∈[0，1]。

4.根据权利要求3所述的一种句子相似度计算方法，其特征在于，所述β接近0.85时，基于权重和词序向量的融合句子相似度的值最为理想。