CN112101043A

CN112101043A - 一种基于注意力的语义文本相似度计算方法

Info

Publication number: CN112101043A
Application number: CN202011002489.8A
Authority: CN
Inventors: 张华熊; 张豪
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT; Zhejiang Sci Tech University ZSTU; Zhejiang University of Science and Technology ZUST
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-18
Anticipated expiration: 2040-09-22
Also published as: CN112101043B

Abstract

本发明公开了一种基于注意力的语义文本相似度计算方法，包括：步骤一：对数据集中的每一对文本对进行预处理，从而得到对应的文本数据样本；步骤二：将所有样本分为训练集和验证集，搭建神经网络并利用训练集样本对该神经网络进行训练，得到用于语义文本相似度计算的网络模型；步骤三：将待计算的文本对经预处理后输入网络模型中，即可得到该文本对的语义相似度计算结果。本发明设计的神经网络能更有效地提取文本的语义信息，提取两个文本间更细粒度的交互信息；该神经网络使用多个注意力机制能增强两个文本间交互信息中重要信息，提高语义文本相似度计算准确率。

Description

一种基于注意力的语义文本相似度计算方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于注意力的语义文本相似度计算方法。

背景技术

语义文本相似度计算是自然语言处理领域的一个重要研究课题，语义文本相似度旨在计算两个句子/文本之间的语义等价程度，它可以应用于许多任务，如机器翻译、释义问题、自动问答、文本分类、信息检索等。

目前，在语义文本相似度计算方面已有很多研究成果，可归纳为以下三类：

(1)基于字面匹配的语义文本相似度计算方法，比较典型的有基于TF-IDF的语义相似度计算方法，基于TF-IDF的语义文本相似度计算方法是将文本建模成词频向量，运用余弦相似度来衡量文本之间的相似度；这类方法的优点是计算速度快、工作量小，缺点是忽略了词语的语义信息，需要人工设定停用词表。

(2)基于潜在语义分析的概率主题语义文本相似度计算方法，比较典型的有基于LDA(Latent Dirichlet Allocation)的语义文本相似度计算模型，主要思想是利用词语中的共同信息对文本进行主题建模，挖掘出文本中潜在的语义信息，从而计算出文本之间的语义相似度；这类方法的优点是考虑到了词语的深层语义信息，准确率高于第(1)类方法，缺点是没有考虑到词与词之间的位置关系，受样本种类限制较大。

(3)基于深度学习的语义文本相似度计算方法，针对语义文本相似度计算提出了两种类型的深度学习框架，第一个框架基于暹罗网络，第二个框架叫做匹配聚合，这两个框架的思想是通过捕获输入句子的文本表示之间的交互特征，从多个角度计算语义相似度，两者的区别主要体现在对交互特征的捕捉上；暹罗网络框架的优点是共享参数使模型更易于训练，缺点是在编码过程中，两个句子之间没有明确的交互作用，可能会丢失一些重要的信息。

匹配聚合框架下，首先对两个句子中较小的单元(如单词或上下文向量)进行匹配，然后将匹配结果聚合成一个向量，从而做出最终决策，该框架抓住了两个句子之间更多的交互特征，因此通常比暹罗网络框架性能更好。如Yin W等人在文献《Abcnn:Attention-based convolutional neural network for modeling sentence pairs,December 2016,Transactions of the Association for Computational Linguistics 4(4):259-272》中提出了一种模型称为ABCNN，它是一种基于注意力的卷积神经网络，用于对句子进行编码以计算句子相似度。Chen Q等人在文献《Enhanced lstm for natural language inference,ACL 2017,long paper,Vancouver,Canada,July 30th-August 4th.》中提出了ESIM模型是基于匹配聚合框架的著名模型，它通过两个句子之间的注意力机制捕获了高阶交互，并在包括文本相似性在内的许多NLP任务中取得了良好的性能。

发明内容

鉴于上述，本发明提出了一种基于注意力的语义文本相似度计算方法，通过建立并训练神经网络，实现语义文本相似度计算，在提取句子间交互信息更加有效，并有较高的准确率。

一种基于注意力的语义文本相似度计算方法，包括如下步骤：

(1)获取数据集并对数据集中每条文本进行预处理，从而得到大量数据样本，所述数据集中的文本均为成对组合且每一组均已人工标记是否语义相似；

(2)将所有数据样本分为训练集和测试集，搭建神经网络并利用训练集对其进行训练，得到语义文本相似度的计算模型；所述神经网络从输入至输出由文本编码层、局部相似性建模层、整体相似性建模层、池化层以及多层感知器依次连接组成；

(3)将测试集样本输入计算模型中，即可得到一组成对文本的相似度结果。

进一步地，所述步骤(1)的具体实现方式为：首先利用Jieba分词工具对数据集中的每一条文本进行分词操作并去除停用词，然后统一输入长度即只截取每条文本的前m个单词，最后基于预训练的n维词向量通过词嵌入方式将每条文本转换为m×n大小的词向量矩阵，m和n均为预设大于1的自然数；最终得到的每一数据样本即为成对组合的两个文本的词向量矩阵。

进一步地，所述文本编码层由两个并行的编码模块A1和A2组成，若一个数据样本包含的是文本a和文本b的词向量矩阵，则编码模块A1的输入为文本a的词向量矩阵，编码模块A2的输入为文本b的词向量矩阵；编码模块A1和A2结构相同均包含一个卷积层和一个双向门控循环单元，卷积层和双向门控循环单元的输入相同即为所属编码模块的输入，卷积层和双向门控循环单元的输出拼接后作为所属编码模块的输出，卷积层采用400个大小为1的卷积核以及Tanh函数对输入进行卷积操作，双向门控循环单元中的隐藏层大小设置为200。

进一步地，所述局部相似性建模层由两个并行的建模单元B1和B2组成，建模单元B1和B2结构相同均包含一个软注意力层和一个局部增强层，建模单元B1的软注意力层输出为

建模单元B1的软注意力层输出为

建模单元B1的局部增强层输出为

以及

拼接后的结果，建模单元B2的局部增强层输出为

以及

拼接后的结果，

由向量

拼接组成，

由向量

拼接组成，其中：

其中：

表示文本a的词向量矩阵经过编码模块A1后的输出结果

中对应第i个单词的向量，

表示文本b的词向量矩阵经过编码模块A2后的输出结果

中对应第j个单词的向量，i、j和k均为自然数，^T表示转置。

进一步地，所述整体相似性建模层从输入至输出由拼接层、整合层、多卷积层、通道注意力层依次连接组成；其中，所述拼接层用于将建模单元B1和B2中局部增强层的输出结果进行拼接后提供给整合层，所述整合层采用600个大小为1的卷积核以及Tanh函数对输入进行卷积操作后提供给多卷积层，所述多卷积层包含四个并行的卷积层C1～C4以及四个最大池化层M1～M4，卷积层C1采用300个大小为1的卷积核以及Tanh函数对输入进行卷积操作，卷积层C2采用300个大小为2的卷积核以及Tanh函数对输入进行卷积操作，卷积层C3采用300个大小为3的卷积核以及Tanh函数对输入进行卷积操作，卷积层C4采用300个大小为4的卷积核以及Tanh函数对输入进行卷积操作，最大池化层M1～M4分别对卷积层C1～C4的输出进行最大池化操作，最大池化层M1采用大小为4的卷积核，最大池化层M2采用大小为3的卷积核，最大池化层M3采用大小为2的卷积核，最大池化层M4采用大小为1的卷积核，四个最大池化层M1～M4的输出拼接后得到C×N大小的特征图

且

所述通道注意力层首先对特征图

进行压缩处理得到一个统计量z，z＝[z₁,z₂,…,z_C]^T，

表示向量

中的第p个元素值，c为自然数且1≤c≤C；然后利用门控机制函数对统计量z进行降维操作后得到指标量s且s＝[s₁,s₂,…,s_C]^T，所述门控机制函数连续采用了两个全连接层，每个全连接层均包含一次批标准化和ReLu激活函数操作；最后使指标量s与特征图

相乘后输出特征图

且

进一步地，所述池化层包含并行的平均池化层和最大池化层，通道注意力层输出的特征图

分别经过平均池化层和最大池化层使得特征图空间信息压缩到1个通道描述符，进而将平均池化层和最大池化层的输出拼接后提供给多层感知器；所述多层感知器连续采用了三个全连接层，每个全连接层均包含一次批标准化和ReLu激活函数操作，最后使用1个节点的输出维度作为整个神经网络的输出结果。

进一步地，所述步骤(2)中采用交叉熵损失函数以及Adam优化器通过正反向传播的方式按批次对神经网络进行训练。

基于上述技术方案，本发明具有以下有益技术效果：

1.本发明设计的神经网络能更有效的提取文本的语义信息。

2.本发明设计的神经网络使用多个不同的卷积核，能提取两个文本间更细粒度的交互信息。

3.本发明设计的神经网络使用软注意力机制和通道注意力机制，能增强两个文本间交互信息中重要信息。

附图说明

图1为本发明语义文本相似度计算方法的流程示意图。

图2为本发明设计的神经网络结构示意图。

图3为多卷积层的内部结构示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1所示，本发明语义文本相似度计算方法包括如下步骤：

(1)数据预处理。

需要对数据集中每一对文本(文本a和文本b)进行预处理以及语义文本相似度计算。

本实施方式使用Jieba分词工具对数据集中文本进行分词操作，并去除停用词；对于每一条文本，统一输入长度，只截取每条文本的前50个单词(小于等于50个单词的文本，进行填充)；对于每一条50个单词的文本，基于预训练的300维的词向量初始化单词嵌入得到50×300的词向量矩阵。

(2)搭建卷积神经网络并进行训练。

如图2所示，神经网络从输入到输出由输入层、文本编码层、局部相似性建模层、整体相似性建模层、池化层以及多层感知器依次连接组成，其中：

网络输入层为一对50×300大小的文本数据样本(文本a和文本b的词向量矩阵)。

文本编码层使用卷积层和双向门控循环单元共同编码；其中：卷积层使用400个大小为1的卷积核和Tanh函数进行卷积操作；双向门控循环单元隐藏层大小设置为200，将卷积层C1和双向门控循环单元G1的特征图进行拼接。

局部相似性建模层使用并行的软注意力层和局部增强层两个子层，两个50×800大小的特征图经过软注意力层后分别为50×800大小的特征图。软注意力层将注意力权重表示为两个文本之间的隐藏状态元组的相似性：

其中：

是文本a在文本编码层中第i个单词对应的向量输出，

是文本b在文本编码层中第j个单词对应的向量输出。

局部相似度是由上述计算的注意权重决定的，该权重用于获得两个文本之间的局部相关性；对于一个文本，另一个文本中的相关语义使用e_ij来计算，更具体地说，使用如下公式：

其中：

是

的加权和。

局部增强层用于计算

的差分和元素积，然后将差异和元素乘积分别与原始向量

和

相连。

文本编码层的输出经过局部相似性建模层处理后特征图的大小为50×6400。

整体相似性建模层包含：拼接层、整合层、多卷积层、通道注意力层；其中：连接层将局部增强层的输出结果连接；整合层使用600个大小为1的卷积核和Tanh函数进行卷积操作；如图3所示，多卷积层第一层使用不同大小的并行卷积层C1～C4，卷积层C1使用300个大小为1的卷积核和Tanh函数进行卷积操作，卷积层C2使用300个大小为2的卷积核和Tanh函数进行卷积操作，卷积层C3使用300个大小为3的卷积核和Tanh函数进行卷积操作，卷积层C4使用300个大小为4的卷积核和Tanh函数进行卷积操作，多卷积层第二层使用不同大小的并行最大池化层M1～M4，最大池化层M1使用大小为4的过滤器，最大池化层M2使用大小为3的过滤器，最大池化层M3使用大小为2的过滤器，最大池化层M4使用大小为1的过滤器，并将处理的特征图进行拼接后输出；通道注意力层处理多卷积层的输出

如下：

其中：z_c表示统计量z在c时刻的输出，统计量z通过N维空间上对

压缩得到。

s＝F_eq(z,W)＝σ(g(z,W))＝σ(W₂·σ(W₁·z))

其中：s表示一个门控机制函数，该函数使用了两个全连接层，两个全连接层均进行一次批标准化和ReLu激活函数操作，σ表示ReLU激活函数，

r表示降维比。

其中：

表示是指标量s_c与特征图

之间的信道乘法。

局部相似性建模层的输出经整体相似性建模层处理后特征图的大小为47×1200。

池化层使用并行的平均池化层和最大池化层，两者分别将上层输出的特征图空间信息压缩到1个通道描述符，最后将平均池化层和最大池化层的输出的特征图拼接，池化层处理后为1×2400大小的特征图。

多层感知器使用了三个全连接层，每个全连接层后均进行一次批标准化和激活函数操作，最后使用1个节点的输出维度，即0/1表示是否相似。

配置该网络模型，其中采用交叉熵损失函数，优化器为Adam，交叉熵损失函数的计算公式为：

其中：y⁽ⁱ⁾为第i个事件发生的真实概率值，

为第i个事件发生的估计概率值，m为样本总数。

训练卷积神经网络时，采用正向传播和反向传播的方法，将epoch设置为60，将batch_size设置为128，每次按批次对网络进行训练，初始学习率为0.0001，通过训练后网络的分类准确率收敛，得到训练好的网络模型。

(3)用训练好的网络模型进行语义文本相似度计算。

对待计算语义文本相似度数据集，对其进行文本预处理，将处理好的文本输入训练好的网络模型，即可得到语义文本相似度计算结果。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于注意力的语义文本相似度计算方法，包括如下步骤：

2.根据权利要求1所述的语义文本相似度计算方法，其特征在于：所述步骤(1)的具体实现方式为：首先利用Jieba分词工具对数据集中的每一条文本进行分词操作并去除停用词，然后统一输入长度即只截取每条文本的前m个单词，最后基于预训练的n维词向量通过词嵌入方式将每条文本转换为m×n大小的词向量矩阵，m和n均为预设大于1的自然数；最终得到的每一数据样本即为成对组合的两个文本的词向量矩阵。

3.根据权利要求2所述的语义文本相似度计算方法，其特征在于：所述文本编码层由两个并行的编码模块A1和A2组成，若一个数据样本包含的是文本a和文本b的词向量矩阵，则编码模块A1的输入为文本a的词向量矩阵，编码模块A2的输入为文本b的词向量矩阵；编码模块A1和A2结构相同均包含一个卷积层和一个双向门控循环单元，卷积层和双向门控循环单元的输入相同即为所属编码模块的输入，卷积层和双向门控循环单元的输出拼接后作为所属编码模块的输出，卷积层采用400个大小为1的卷积核以及Tanh函数对输入进行卷积操作，双向门控循环单元中的隐藏层大小设置为200。

4.根据权利要求3所述的语义文本相似度计算方法，其特征在于：所述局部相似性建模层由两个并行的建模单元B1和B2组成，建模单元B1和B2结构相同均包含一个软注意力层和一个局部增强层，建模单元B1的软注意力层输出为