CN109614485B

CN109614485B - 一种基于语法结构的分层Attention的句子匹配方法及装置

Info

Publication number: CN109614485B
Application number: CN201811378130.3A
Authority: CN
Inventors: 郑子彬; 高勇
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2023-03-14
Anticipated expiration: 2038-11-19
Also published as: CN109614485A

Abstract

本发明公开了一种基于语法结构的分层Attention的句子匹配方法，包括以下步骤：S1：将两句子按语言语法结构拆分，分别拆分为两个不同的分解层次深度的句子结构；S2：对两句子拆分后的句子结构进行词向量映射，并计算attention相似度矩阵；S3：分别对两句子的两个不同分解层次深度的句子结构进行门限注意力对齐，并对结果进行拼接；S4：分别计算两句子的两个不同分解层次深度下的句子结构拼接后结果的均值，经前馈神经网络分别映射为一个固定长度的向量，再分别经过MLP映射为固定维度的向量，并将该固定维度的向量一起经MLP层映射为预测值，所述预测值即为两句子的匹配程度。本发明结合实际句子语法结构的信息和注意力机制构造模型，提高模型适应性及性能。

Description

一种基于语法结构的分层Attention的句子匹配方法及装置

技术领域

本发明涉及相似问题文本匹配领域，更具体地，涉及一种一种基于语法结构的分层Attention的句子匹配方法及装置。

背景技术

基于互联网时代，信息量爆炸式的增长，接入互联网的用户突飞猛进。这对互联网企业应对消费者用户反馈投诉等文本信息处理，带来了巨大的工作量。由于消费者用户提交的反馈投诉文本都有特定的描述目的，问题。如果能够通过将消费者投诉反馈的文本描述信息，通过一定的算法对其进行归类匹配，通过解决一个问题，从而解决一系列问题；就能大大减少互联网企业的后续维护成本，从而提高效率，减少不必要的成本。为了解决上述描述的这个问题，可以定义问题为相似问题单匹配。即建立一个判断一组问题对是否为相同描述问题的模型，利用这个模型对未处理的问题，从已处理的问题单中，给出最相似的top推荐，减少维护成本，提高开发效率。

解决上述问题的核心模型就是，问题单匹配模型，Sentence Matching。

现有的Sentence Match模型，大多是以句子词向量序列，经过各种方案计算attention，attention机制：是一种注意力机制，显而易见，是将模型注意力偏向于更重要部分特征的方式，得到一个soft algin形式的向量，然后直接过MLP层进行预测，MLP(Multi-Layer Perceptron)，即多层感知器；并没有很好的结合实际句子的语法结构去衡量，解释性不够好，且对于稍复杂的语法结构的句子匹配问题，仍存在较较大缺陷。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种基于语法结构的分层Attention的句子匹配方法及装置。

本发明旨在至少在一定程度上解决上述技术问题。

本发明的首要目的是为了解决现有模型对于句子匹配问题的单一化，未结合实际句子语法结构的信息和注意力机制构造模型，提高模型适应性及性能。

为解决上述技术问题，本发明的技术方案如下：

一种基于语法结构的分层Attention的句子匹配方法，包括以下步骤：

S1：将两句子按语言语法结构拆分，分别拆分为两个不同的分解层次深度的句子结构；

S2：对两句子拆分后的句子结构进行词向量映射，并计算attention相似度矩阵；

S3：分别对两句子的两个不同分解层次深度的句子结构进行门限注意力对齐，并对结果进行拼接；

S4：分别计算两句子的两个不同分解层次深度下的句子结构拼接后结果的均值，经前馈神经网络分别映射为一个固定长度的向量，再分别经过MLP映射为固定维度的向量，并将该固定维度的向量一起经MLP层映射为预测值，所述预测值即为两句子的匹配程度。

优选地，步骤S1中将两句子按语言语法结构拆分，利用JParser语义解析器进行拆分，JParser，分别拆分为两个不同的分解层次深度的句子结构，是一种抽象意义表示的语义解析器，多种数据集上acc，recall，precision，f1等衡量指标都较高。

优选地，步骤S2中进行词向量映射具体为：

将拆分后的句子结构序列，经一层或两层Bi-LSTM层映射为包含上下文信息的词向量。

优选地，步骤S2中计算attention相似度矩阵，利用词向量计算点积来计算attention相似度矩阵，计算点积结果小于阈值gate的矩阵以0表示，本步骤使用的是softattention的改进版本，称之为gate attention，即门限注意力。

优选地，步骤S3中对不同分解层次深度的句子结构进行门限注意力对齐具体为：

对齐的计算方式如下:

式中，α_j、β_i为对齐后的对齐向量，l_a、l_b为分解层次深度中分解单词个数，e_ij为对应的两个词向量的相似度权重，

分别对应两句子中第j个分解单词的词向量，该公式为对权重进行归一化。

优选地，一种基于语法结构的分层Attention装置，包括：

分解模块，用于将两句子按语言语法结构拆分，分别拆分为两个不同的分解层次深度；

计算相似度模块，用于进行词向量映射，并利用拆分后的句子结构计算attention相似度矩阵；

对齐拼接模块，用于对两个不同分解层次深度的句子结构进行门限注意力对齐，并对结果进行拼接；

预测模块，用于计算两个不同分解层次深度下拼接后结果的均值，分别经过MLP映射为固定维度的向量，并将该固定维度的向量一起经MLP层映射为预测值，预测值即为两句子的匹配程度。

与现有技术相比，本发明技术方案的有益效果是：

结合描述文本句子的的语法结构信息，及词向量词序列Attention信息等综合考虑构建神经网络模型，判断问题单对是否为相似文本，结合实际句子语法结构的信息和注意力机制构造模型，提高模型适应性及性能。

附图说明

图1为本发明的一种基于语法结构的分层Attention的句子匹配方法流程图。

图2为本发明提供的一种soft attention的改进版本gate attention示意图。

图3为实施例中两句子分解层次深度示意图。

图4为实施例中两句子的相似度矩阵示意图。

图5为实施例中以level-1权重矩阵为例对齐的计算示意图。

图6为实施例中拼接并且预测步骤示意图。

图7为实施例中提供的一种基于语法结构的分层Attention的句子匹配系统示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供的一种基于语法结构的分层Attention的句子匹配方法，如图1，包括以下步骤：

S4：分别计算两句子的两个不同分解层次深度下的句子结构拼接后结果的均值，经前馈神经网络分别映射为一个固定长度的向量，再分别经过MLP映射为固定维度的向量，并将该固定维度的向量一起经MLP层映射为预测值，所述预测值即为两句子的匹配程度；

其中，步骤S1中将两句子按语言语法结构拆分，利用JParser语义解析器进行拆分，分别拆分为两个不同的分解层次深度的句子结构；

步骤S2中进行词向量映射具体为：

将拆分后的句子结构序列，经一层或两层Bi-LSTM层映射为包含上下文信息的词向量；

步骤S2中计算attention相似度矩阵，利用词向量计算点积来计算attention相似度矩阵，计算点积结果小于阈值gate的矩阵以0表示，本步骤使用的是soft attention的改进版本，称之为gate attention，即门限注意力，如图2所示；

步骤S3中对不同分解层次深度的句子结构进行门限注意力对齐具体为：

对齐的计算方式如下:

在具体实施过程中，如图3所示，两句子的分解层次深度，按照分解树的层次深度，分为level-1和level-2两层，映射词向量，计算相似度矩阵，如图4所示，图4的两个相似度矩阵，计算值相同，但是在不同分解层次上，不同的单词分块不一样，如The blue cat iscatching the brown mouse in the forecourt.在level-1下，被分解为了catching,catblue,mouse brown,forecourt四部分；在level-2下，被分解为了catching,cat,blue,mouse,brown,forecourt六部分。计算每个单词的align(对齐)结果。其中

表示原单词，与对齐后的单词拼接的结果。计算方式如下：

α_j、β_i为某一个对齐后的结果，将不同unit颜色块的对齐结果拼接起来，得到最终单词单元对齐的结果；然后再经过函数G映射为一个固定长度的向量。函数G表示一个前馈神经网络，用一个全连接层代替。横纵方框分别表示，AB两句话分解后的词语单元；然后，矩阵中的数值表示对应两个单词的相似度；由于两句话经过了语法树分解，分解成了几个单元，在矩阵中，就表示为各个块对应的单元块；如图5中方框1和方框2分别表示两个文本经过语法树分解后的对应单词之间的权重子矩阵；方框1中表示A句中的cat,blue与B句中的Jerry,little之间的权重矩阵；方框2中表示A句中mouse,brown与B句中chased的权重矩阵。对于上述公式，在对方框1进行注意力机制对齐计算时，对方框1中A句的cat或者blue分别计算B句中(0.17，Jerry词向量)和(0.09，little词向量)的加权和向量，称之为cat对应的对齐向量β_i；其中，l_b表示，方框1块中B句中单词个数，e_ij为对应的两个词向量的相似度权重，

表示方框1中对应第j个单词的词向量；

对于分解后的矩阵中各个子单元部分都进行上述计算处理；由于上述原理解释用到的是较为简单的句子，成分单一；故会有单独一个词对应一个词的情形，对于孤值矩阵就直接词向量对齐。另补充，由于上述计算演示，并未包含gate attention处理，对于经过gate attention处理后的权重矩阵，小于阈值gate的矩阵将以0表示。

对应分解层次的权重子单元进行上述对齐计算后，将每块得到的词向量拼接。促成一个高维的拼接词向量，然后进行后续处理。

如图6所示，Aggregate中，通过计算不同level下对齐后结果的均值，经过MLP映射为一个固定维度的向量，最后将两者凭借过一个MLP层映射为预测值，该预测值即为两句子匹配程度。

实施例2

本实施例公开了一种基于语法结构的分层Attention的句子匹配方法，如图7所示，包括分解模块，用于将两句子按语言语法结构拆分，分别拆分为两个不同的分解层次深度；

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于语法结构的分层Attention的句子匹配方法，其特征在于，包括以下步骤：

所述步骤S1中将两句子按语言语法结构拆分，利用JParser语义解析器进行拆分，分别拆分为两个不同的分解层次深度的句子结构；

所述步骤S3中对不同分解层次深度的句子结构进行门限注意力对齐具体为：

对齐的计算方式如下:

2.根据权利要求1所述的基于语法结构的分层Attention的句子匹配方法，其特征在于，所述步骤S2中进行词向量映射具体为：

3.根据权利要求1所述的基于语法结构的分层Attention的句子匹配方法，其特征在于，所述步骤S2中计算attention相似度矩阵，利用词向量计算点积来计算attention相似度矩阵，计算点积结果小于阈值gate的矩阵以0表示。

4.一种基于语法结构的分层Attention装置，其特征在于，包括：

预测模块，用于计算两个不同分解层次深度下拼接后结果的均值，分别经过MLP映射为固定维度的向量，并将该固定维度的向量一起经MLP层映射为预测值，所述预测值即为两句子的匹配程度；

所述分解模块中将两句子按语言语法结构拆分，利用JParser语义解析器进行拆分，分别拆分为两个不同的分解层次深度的句子结构；

所述对齐拼接模块中对不同分解层次深度的句子结构进行门限注意力对齐具体为：

对齐的计算方式如下: