CN113901802A

CN113901802A - Crnn网络融合注意力机制的短文本相似度匹配方法

Info

Publication number: CN113901802A
Application number: CN202111147983.8A
Authority: CN
Inventors: 朱利霞; 伊文超; 李明明; 潘心冰
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-07

Abstract

本发明公开了CRNN网络融合注意力机制的短文本相似度匹配方法，属于文本相似度匹配技术领域，要解决的技术问题为如何通过融合注意力机制的CRNN网络快速、准确的实现短文本匹配。对于待匹配的两个短文本，将词特征向量和自注意力权重信息结合得到具有自注意力权重信息的特征向量，通过CNN网络层对特征向量进行二次特征提取，得到词粒度特征；计算两个短文本之间的软注意力权重，并捕获句子之间的交互信息，并将词特征互相关权重和词粒度互注意力权重相融合，得到融合特征；将融合特征输入BiLSTM网络中进行特征提取并进行池化操作，将得到的所有特征整合为多维度、多粒度的特征信息；通过全连接网络对特征信息进行文本相似度计算。

Description

CRNN网络融合注意力机制的短文本相似度匹配方法

技术领域

本发明涉及文本相似度匹配技术领域，具体地说是CRNN网络融合注意力机制的短文本相似度匹配方法。

背景技术

随着自然语言领域的快速发展，文本信息理解和获取是辅助自然语言各个功能任务的基础，其中短文本匹配在智能问答、智能检索、智能对话等系统是基础部分也是重要部分。

与长文本不同，短文本有如下特点：(1)通常不遵守语法规则，那么词性标注和句法分析不再适用于短文本分析；(2)短文本包含的信息少，文本字数少，没有足够的信息进行统计推断，机器很难在有限的语境中进行准确的语义理解。所以传统的自然语言处理方法不能直接用于短文本，需要从不同特征层次获取更多的特征信息进行分析。简而言之，短文本具有较稀疏、噪声大、歧义多的特点，因而机器理解短文本的技术当前面临极大的挑战。

目前短文本匹配算法层出不穷，几乎全部的算法均基于RNN、CNN、Attention机制等不同网络以及它们的组合，短文本相似度计算基本的流程如附图1所示

其中，词向量方法包括word2vec方法生成以及使用Embedding方法生成，特征提取阶段常见使用RNN网络中的LSTM或者GRU网络提取，特征向量的相似度计算方法常见的有余弦相似度、欧式距离、明氏距离等。

RNN是一种顺序计算网络，虽然可以获取短文本的上下文信息，但也受到其自身的限制，对文本处理只能从左到右或从右到左计算，限制了模型的并行能力；顺序计算过程中对于长依赖问题无法解决。面对短文本多样性的表达，其语序在词义或者语义表达上具有关键性作用。

Attention机制在自然语言处理中用于定位关键token或者特征，其中Transformer抛弃了传统的CNN、RNN网络单元，整个网络结构采用了Attention机制，不仅将文本中任意两个位置之间的距离都缩小到一个常量，更是具有很好的并行性，并且参数量少，训练速度快等。但Attention机制对于文本位置信息并不敏感，即对于语序特征信息无法准确获取。

CNN网络比较常见于图像处理领域，它更关注一个感受野内的特征信息，对于文本向量一个感受野的特征信息更加倾向于词粒度的特征信息，短文本字数少，词的信息对文本的语义具有很大决定作用，在考虑两个文本的相似性时，词粒度特征对相似度也有很大的影响。所以在考虑短文本的分析理解时，加入词粒度特征可以很好的提高特征表达能力。

基于上述分析，如何通过融合注意力机制的CRNN网络快速、准确的实现短文本匹配，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供CRNN网络融合注意力机制的短文本相似度匹配方法，来解决如何通过融合注意力机制的CRNN网络快速、准确的实现短文本匹配的技术问题。

本发明的CRNN网络融合注意力机制的短文本相似度匹配方法，包括如下步骤：

对于待匹配的两个短文本，获取每个短文本的词特征向量和自注意力权重信息，并将词特征向量和自注意力权重信息结合得到具有自注意力权重信息的特征向量，通过CNN网络层对所述具有自注意力权重信息的特征向量进行二次特征提取，得到词粒度特征；

对于待匹配的两个短文本，计算两个短文本之间的软注意力权重，并捕获句子之间的交互信息，得到词特征互相关权重和词粒度互注意力权重，并将词特征互相关权重和词粒度互注意力权重相融合，得到融合特征；

将所述融合特征输入BiLSTM网络中进行特征提取并进行池化操作，将得到的所有特征整合为多维度、多粒度的特征信息；

通过全连接网络对所述特征信息进行文本相似度计算，得到待匹配的两个短文本之间的相似度匹配结果。

作为优选，通过如下方法获取每个短文本的词特征向量：

将短文本语句转化为词嵌入向量；

对短文本中词的相对位置进行编码，得到位置向量，所述位置向量与词嵌入向量维度一致；

将句子的词嵌入向量与位置编码向量相加，得到包含位置信息的词特征向量。

作为优选，通过正余弦位置编码方法对短文本中词的相对位置进行编码，位置向量的计算公式为：

t表示当前词语在句子中的位置，

表示词语对应的位置编码，d表示编码的维度，W_k表示短文本k对应的词嵌入向量，所述词嵌入向量为通过word2vec词嵌入方法获得的；

对于短文本A，其位置向量L_a表示为：

其中，L_a表示短文本A的位置编码，n表示短文本A的第n个词语；

对于短文本B，其位置向量L_b表示为：

其中，L_b表示短文本B的位置编码，m表示短文本B的第m个词语；

对于短文本A，其词特征向量R_a表示为：

R_a＝W_a+L_a

对于短文本B，其词特征向量R_b表示为：

R_b＝W_b+L_b

。

作为优选，将词特征向量输入到自注意力层，获得句子内词语之间的权重矩阵，将权重矩阵与词特性向量进行点乘运算，得到具有自注意力权重信息的特征信息；

对于短文本A，其具有自注意力权重信息的特征向量p_a表示为：

p_a＝R_a·Attention(a)_weight

对于短文本B，其具有自注意力权重信息的特征向量p_b表示为：

p_b＝R_b·Attention(b)_weight

其中，Attention(a)_weigh表示为短文本A的自注意力权重，Attention(b)_weight表示为短文本B的自注意力权重。

作为优选，通过CNN网络卷积核的特征捕捉词粒度的特征信息，

对于短文本A，其词粒度特征

表示为：

其中，p_a表示具有自注意力权重信息的特征向量；

对于短文本B，其词粒度特征

表示为：

其中，p_b表示具有自注意力权重信息的特征向量。

作为优选，通过soft-attention计算两个短文本之间的软注意力权重。

作为优选，词特征互相关权重e_ij计算公式为：

词粒度特征互相关权重

计算公式为：

对于短文本A，其融合特征V_a表示为：

对于短文本B，其融合特征V_b表示为：

其中，

作为优选，将所述融合特征输入BiLSTM网络中进行特征提取并进行池化操作，包括：

将融合特征输入BiLSTM网络中进一步提取上下文信息，得到对应的特征向量，

对于短文本A，其特征向量E_a表示为：

E_a＝BiLSTM(V_a)

对于短文本B，其特征向量E_b表示为：

E_b＝BiLSTM(V_b)

对所述特征向量E_a和特征向量E_b进行最大池化和均值池化操作，得到如下特征：

将所述特征进行整合的，得到句子的多维度、多粒度的融合特征，对于短文本A，其融合特征Q_a表示为：

对于短文本B，其融合特征Q_b表示为：

。

作为优选，将融合特征输入两层全连接网络进行文本相似度计算，并连接softmax层输出两个短文本的相似度匹配结果。

本发明的CRNN网络融合注意力机制的短文本相似度匹配方法具有以下优点：将短文本的词特征向量和自注意力权重信息结合得到具有自注意力权重信息的特征向量，通过CNN网络层对具有自注意力权重信息的特征向量进行二次特征提取，得到词粒度特征，获取词特征互相关权重和词粒度互注意力权重，将词特征互相关权重和词粒度互注意力权重相融合，得到融合特征，通过BiLSTM网络对融合特征进行特征提取及池化操作，得到多维度、多粒度的特征信息，然后通过全连接网络对特征信息进行文本相似度计算，得到相似度匹配结果，从而快速高效的实现了相似度计算，且能够很好的提高特征表达能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为现有技术中短文本相似度计算基本的流程的结构示意图；

图2为实施例1CRNN网络融合注意力机制的短文本相似度匹配方法的流程框图；

图3为实施例1CRNN网络融合注意力机制的短文本相似度匹配方法的算法流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供CRNN网络融合注意力机制的短文本相似度匹配方法，用于解决如何通过融合注意力机制的CRNN网络快速、准确的实现短文本匹配的技术问题。

实施例：

S100、对于待匹配的两个短文本，获取每个短文本的词特征向量和自注意力权重信息，并将词特征向量和自注意力权重信息结合得到具有自注意力权重信息的特征向量，通过CNN网络层对所述具有自注意力权重信息的特征向量进行二次特征提取，得到词粒度特征；

S200、对于待匹配的两个短文本，计算两个短文本之间的软注意力权重，并捕获句子之间的交互信息，得到词特征互相关权重和词粒度互注意力权重，并将词特征互相关权重和词粒度互注意力权重相融合，得到融合特征；

S300、将融合特征输入BiLSTM网络中进行特征提取并进行池化操作，将得到的所有特征整合为多维度、多粒度的特征信息；

S400、通过全连接网络对特征信息进行文本相似度计算，得到待匹配的两个短文本之间的相似度匹配结果。

LSTM(英文全称为Long Short-Term Memory，中文翻译为长短期记忆网络)，是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。BiLSTM网络为双向LSTM网络。

其中，步骤S100中具体包括如下操作：

(1)使用word2vec词嵌入方法将输入的短文文本语句转化成词嵌入向量，分别表示为W_a、W_b，向量维度均为512；

(2)加入位置信息。采用正余弦位置编码方法对文本中词的相对位置进行编码，得到位置向量，与词嵌入向量维度一致，公式如下：

其中，t表示当前词语在句子中的位置，

表示词语对应的位置编码，d表示编码的维度，W_k表示短文本k对应的词嵌入向量，本实施例中d＝512，与词嵌入向量维数一致；

(3)对于短文本A和短文本B，其位置编码信息计算如下：

其中，L_a表示短文本A的位置编码，n表示短文本A的第n个词语，L_b表示短文本B的位置编码，m表示短文本B的第m个词语；

(3)将句子的词嵌入向量与位置编码向量相加，得到包含位置信息的特征向量，计算如下：

R_a＝W_a+L_a

R_b＝W_b+L_b

将得到特征向量输入到自注意力层，获得句子内词语之间的权重矩阵，短文本和短文本B得到自注意力权重分别为Attention(a)_weight和Attention(b)_weight，将权重矩阵与特征向量进行点乘运算，即可得到具有自注意力权重信息的特征向量，假设文本a与文本b的特征向量分别记为p_a、p_b，计算如下：

p_a＝R_a·Attention(a)_weight

p_b＝R_b·Attention(b)_weight

(4)将特征向量输入到CNN网络层进行二次特征提取，利用CNN卷积核的特征捕捉词粒度的特征信息，词粒度特征表示如下：

通过上述步骤S100得到词粒度特征信息后，执行步骤S200计算两个句子之间的软注意力权重，捕获句子之间的交互信息，并融合特征，具体操作如下：

(1)使用soft-attention计算得到两个待比较的文本之间的软注意力权重，针对短文本A和短文本B，可得到两个不同的注意力权重，分别是文本A相对于文本B和文本B相对于文本A的，首先，计算词特征互相关权重公式如下所示：

(2)将互注意力权重加入到词特征向量中：

(3)接着计算词粒度特征互相关信息，计算公式如下所示：

(4)将词粒度互注意力权重加入到词粒度特征向量中：

(5)将上述特征进行整合，具体计算过程如下：

(6)进一步将两个不同粒度上的特征进行整合，得到融合特征：

整合后的特征包含不同粒度、不同层次，不同维度的特征信息，不仅可表达文本自身特征，也可表达文本之间相同特征和差异性特征。

然后执行步骤S300将整合之后的特征输入到BiLSTM网络中，并经过最大池化和平均池化操作。具体操作如下：

(2)将上述融合特征V_a和V_b输入到BiLSTM网络中用于进一步提取上下文信息，计算公式为：

E_a＝BiLSTM(V_a)

E_b＝BiLSTM(V_b)

(2)进行最大池化和均值池化操作，得到如下特征：

(3)将所有的特征进行整合，得到句子的多维度、多粒度特征信息：

最后，执行步骤S400经过全连接层接soffmax实现文本相似度计算，将上一步输出m_out＝[Q_a，Q_b]输入到一个两层全连接网络中，最后连接softmax层输出两个文本相似度匹配结果。

通过上述方法得到短文本相似度匹配结果。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。