CN110134964B

CN110134964B - 一种基于层次化卷积神经网络和注意力机制的文本匹配方法

Info

Publication number: CN110134964B
Application number: CN201910419010.1A
Authority: CN
Inventors: 李俊; 杜洋; 李宏广; 李鹏; 田文凤
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2022-10-28
Anticipated expiration: 2039-05-20
Also published as: CN110134964A

Abstract

本发明公开了一种基于层次化卷积神经网络和注意力机制的文本匹配方法，针对传统文本匹配算法中问题‑答案语义匹配问题，提出注意力机制下的层次化卷积神经网络模型。首先问题‑答案词向量化之后，通过交互运算得到问题‑答案交互矩阵，接着使用层次化卷积神经网络进行高维语义信息的特征提取和池化操作，最后通过注意力网络进行处理，使用注意力机制进行原始问题语义单元的重要性排序和选择学习，得到最终的问题‑答案匹配得分。本发明可以处理自然语言处理领域中语义匹配问题，实现高维语义特征提取和文本语义重要性学习，提高文本匹配计算的准确度。

Description

一种基于层次化卷积神经网络和注意力机制的文本匹配方法

技术领域

本发明涉及人工智能的自然语言处理技术领域，特别涉及一种基于层次化卷积神经网络和注意力机制的文本匹配方法。

背景技术

为了满足自然语言中语义匹配需求，需要在信息检索，自动问答等领域进行相关语义匹配。由于深度学习和文本词向量表征技术的迅猛发展，在对于不同文本的语义匹配问题上，学者们提出了很多效果较好的深度学习模型来解决文本匹配问题。

MV-LSTM模型采用双向长短期记忆神经网络处理两个原始文本词向量化之后的文本表示，接着进行两个文本向量交互计算得到文本间的语义交互矩阵，得到词粒度和句粒度不同层次的语义交互信息，接着采用K最大值池化和全连接网络得到对应的文本间匹配分值。整个模型表达简单，匹配计算速度快，但是不具有传递性。

aNMM模型采用注意力机制进行文本语义单元的重要性排序和选择性学习。首先文本进行词向量化后，通过交互计算可以得到不同文本间的交互矩阵，采用全连接网络进行处理，接着引入注意力网络进行原始文本语义单元间语义关系的重要性排序，进行选择学习后得到匹配分值。整个模型考虑了词与词之间的时序关系，但是没有考虑文本的全局语义信息。

因此以上的文本语义匹配方法实际应用效果并不理想。

发明内容

本发明的目的是提供一种基于层次化卷积神经网络和注意力机制的文本匹配方法，它能够实现自然语言中文本语义匹配功能。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于层次化卷积神经网络和注意力机制的文本匹配方法，首先问题-答案词向量化之后，通过交互运算得到问题-答案交互矩阵，接着使用层次化卷积神经网络进行高维语义信息的特征提取和池化操作，最后通过注意力网络进行处理，使用注意力机制进行原始问题语义单元的重要性排序和选择学习，得到最终的问题-答案匹配得分。

进一步地，所诉的词向量化采用的词向量是预训练好的词向量，接着采用词向量做特征映射，得到问题和答案的定长词向量表示。

进一步地，交互矩阵是对问题和答案间进行交互计算得到的问题-答案交互矩阵。

进一步地，层次化卷积神经网络即不同层级下不同维度的卷积核操作和其相应的池化操作，对问题-答案交互矩阵，进行词粒度，短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取。

进一步地，注意力网络使用注意力机制进行原始问题语义单元的重要性排序和选择学习，我们需要对高维抽象的语义信息和已排序的原始问题语义单元进行结合，得到最终的问题-答案匹配得分。

进一步地，匹配过程如下：

①首先对自动问答数据集中的问题和答案语句进行词汇定长输出后得到T₁＝(ω₁,ω₂,…ω_m)和T₂＝(v₁,v₂,…v_n)进行词向量化得到问题和答案的定长词向量表示，可得到问题的定长词向量表示

和答案的定长词向量表示

②从问题和答案之间进行交互计算得到的问题-答案交互矩阵为：

③层次化卷积神经网络对问题-答案交互矩阵，进行词粒度，短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取即不同层级下不同维度的卷积核操作和其对应的池化操作。第一层卷积神经网络采用二维卷积核，第k个卷积核W^(1,k)对于交互矩阵Z⁽⁰⁾＝M进行运算：

采用二维正方形卷积核和Re LU作为σ激活函数。第二层网络的池化层采用动态最大值池化策略，通过公式得到动态池化后的高维语义特征向量：

第三层卷积神经网络采用三维卷积核计算得到更高维度和更抽象的语义特征信息，第四层池化层采用最大值池化策略：

注意力机制是对高维抽象的语义信息和已排序的原始问题语义单元进行结合，采用softmax进行原始问题语义单元重要性的归一化，同时采用点乘计算得到最终的得分：

其中，w_i：文本T₁第i个词汇；

v_j：文本T₂中第j个词汇；

Φ：表示将文本进行向量化函数；

r_k：代表第k个卷积核的大小；

d_k：表示动态池化单元的宽度大小，

d'_k：表示动态池化单元长度大小，

c：表示第二层输出的高维语义特征向量的数量，也就是第一层二维卷积核的数量；

q_j：表示原始问题的语义单元；

z_jk:表示高维语义信息的语义单元；

σ：激活函数为sigmoid函数。

与现有技术相比，本发明的有益效果是：

1.本发明采用交互矩阵作为文本间交互计算，可以得到文本匹配中问题和答案之间的在词粒度，短语粒度和语句粒度的不同粒度下的语义匹配信息，增加文本匹配的准确性。

2.本发明采用层次化卷积神经网络在文本匹配中对问题-答案交互矩阵，进行词粒度，短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取，特征是高维且抽象的语义匹配特征，同时也是层次化的语义特征。

3.本发明使用注意力机制对高维抽象的语义信息和已排序的原始问题语义单元进行结合，充分考虑原始语义单元的重要性，加强了文本匹配中原始问题的选择性学习。

附图说明

图1为本发明文本匹配模型的网络结构图。

图2为本发明文本匹配点乘交互计算效果图。

图中附图标记含义为：1词向量化，2交互矩阵，3为层次化卷积神经网络，4为注意力网络。

具体实施方式

下面结合附图以及具体实施方式进一步说明本发明。

本发明是一种基于层次化卷积神经网络和注意力机制的文本匹配方法，其网络结构如图1所示，包括：词向量化1、交互矩阵2、层次化卷积神经网络3、注意力网络4。

所诉的词向量化，采用的词向量是预训练好的词向量，接着采用词向量做特征映射，得到问题和答案的定长词向量表示。

具体来说，所诉的词向量化是预训练好的词向量，首先对自动问答数据集中的问题和答案语句进行词汇定长输出后得到T₁＝(ω₁,ω₂,…ω_m)和T₂＝(v₁,v₂,…v_n)进行词向量化得到问题和答案的定长词向量表示，可得到问题的定长词向量表示

和答案的定长词向量表示

所诉的交互矩阵部分，为了得到问题和答案之间的在词粒度，短语粒度和语句粒度的不同粒度下的语义匹配信息，我们需要对问题和答案之间进行交互计算得到问题-答案交互矩阵。

具体来说，所诉的交互矩阵部分从问题和答案之间进行交互计算得到的问题-答案交互矩阵为：

所诉的层次化卷积神经网络，对于问题-答案交互矩阵，需要进行词粒度，短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取，因此采用层次化的卷积神经网络进行处理，即不同层级下不同维度的卷积核操作和其对应的池化操作。

具体来说，所诉的层次化卷积神经网络的第一层卷积神经网络采用二维卷积核，第k个卷积核W^(1,k)对于交互矩阵Z⁽⁰⁾＝M进行运算：

所诉的注意力网络进行原始问题语义单元^[10]的重要性排序和选择学习，是注意力网络的核心。我们需要对高维抽象的语义信息和已排序的原始问题语义单元进行结合，得到最终的问题-答案匹配得分。

具体来说，所诉的采用注意力网络softmax进行原始问题语义单元重要性的归一化，同时采用点乘计算得到最终的得分：

词向量化、卷积神经网络、注意力机制等概念属于本领域技术人员的公知常识，在本说明书中不进行详细的赘述，本领域技术人员可根据实际应用情况进行概念查询，选择公知手段对各个网络结构进行理解实现。

Claims

1.一种基于层次化卷积神经网络和注意力机制的文本匹配方法，其特征在于：词向量化(1)、交互矩阵(2)、层次化卷积神经网络(3)、注意力网络(4)，其中所述的词向量化是对自动问答数据集中的问题和答案语句进行词汇定长输出后得到的T₁＝(ω₁,ω₂,…ω_m)和T₂＝(v₁,v₂,…v_n)用词向量做特征映射，得到问题和答案的定长词向量表示；交互矩阵是从问题和答案之间进行交互计算得到的问题-答案交互矩阵；层次化卷积神经网络对问题-答案交互矩阵，进行词粒度，短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取；使用注意力机制对高维抽象的语义信息和已排序的原始问题语义单元进行结合，得到最终的问题-答案匹配得分。

2.根据权利要求1所述的一种基于层次化卷积神经网络和注意力机制的文本匹配方法，其特征在于：词向量化(1)采用的词向量是预训练好的词向量，首先对自动问答数据集中的问题和答案语句进行词汇定长输出得到T₁＝(ω₁,ω₂,…ω_m)和T₂＝(v₁,v₂,…v_n)，接着采用词向量做特征映射，得到问题和答案的定长词向量表示。

3.根据权利要求1所述的一种基于层次化卷积神经网络和注意力机制的文本匹配方法，其特征在于：交互矩阵(2)对问题和答案之间进行交互计算得到的问题-答案交互矩阵。

4.根据权利要求1所述的一种基于层次化卷积神经网络和注意力机制的文本匹配方法，其特征在于：层次化卷积神经网络(3)即不同层级下不同维度的卷积核操作和其相应的池化操作，对问题-答案交互矩阵，进行词粒度，短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取。

5.根据权利要求1所述的一种基于层次化卷积神经网络和注意力机制的文本匹配方法，其特征在于：注意力网络(4)使用注意力机制进行原始问题语义单元的重要性排序和选择学习，是注意力网络的核心；我们需要对高维抽象的语义信息和已排序的原始问题语义单元进行结合，得到最终的问题-答案匹配得分。

6.根据权利要求1所述的一种基于层次化卷积神经网络和注意力机制的文本匹配方法，其特征在于：匹配过程如下：