CN110298037A

CN110298037A - 基于增强注意力机制的卷积神经网络匹配的文本识别方法

Info

Publication number: CN110298037A
Application number: CN201910510842.4A
Authority: CN
Inventors: 向阳; 徐诗瑶; 单光旭; 杨力; 刘芮辰
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-10-01
Anticipated expiration: 2039-06-13
Also published as: CN110298037B

Abstract

本发明涉及一种基于增强注意力机制的卷积神经网络匹配的文本识别方法，该方法包括：步骤1：对输入文本进行预处理，并根据文本语料预训练得到初始词向量；步骤2：利用初始词向量将输入文本中的句子转化为由初始词向量组成的矩阵；步骤3：通过带有增强注意力机制的卷积神经网络对矩阵进行编码并生成低维度句向量；步骤4：获取两两句子各自对应低维度句向量的相关性，并根据相关性结果对整体文本进行识别。与现有技术相比，本发明避免了两个句子在句子建模的过程中完全独立的缺点，在卷积神经网络获取局部上下文信息的基础上加入另一句子中相关的注意力信息，使两个句子间尽早的进行交互，并且结合了不同大小的卷积核所得到的多粒度信息。

Description

基于增强注意力机制的卷积神经网络匹配的文本识别方法

技术领域

本发明涉及人工智能与自然语言处理技术领域，尤其是涉及一种基于增强注意力机制的卷积神经网络匹配的文本识别方法。

背景技术

随着大数据时代的到来，每天都会产生海量的数据，这些数据中隐藏着大量的无关数据。使用人工的方式一一查看这些数据显然已经是不可能的。如何从这些数据中快速的过滤掉垃圾信息、迅速搜索到用户需要的内容，成为了人们越来越急迫的问题。目前，各种深度学习的技术已经广泛应用于各类自然语言处理任务中。句子匹配任务，是实现自然语言处理的基础任务。所谓句子匹配，就是计算出两个句子在语义上的关系。对论文进行抄袭检测，智能客服中的问句配对，基于答案库的简单的问答系统，使用搜索引擎进行信息检索，根据用户需求从海量文本中找到符合用户需求的相关文本等等应用都是基于文本间的语义匹配实现的。所以掌握文本相似度计算的技术，是完善自然语言处理问题的关键。

句子匹配主要包括句子相似度计算、问答匹配和自然语言推理三类。句子相似度计算用于判断两个句子是否表达相同的含义或意图。问答匹配通过问题和候选答案的相关性计算，对候选答案进行排序。自然语言推理判断前提和假设文本间是否具有蕴含关系。传统的句子匹配模型包括词袋模型和特征工程等，通常依赖于句子的词汇特征而忽略了句子的语义。

近年来，随着大规模数据集的不断发展和计算机处理能力的快速提升，深度神经网络得到了越来越广泛的应用，并且取得了很好的效果。当前对句子对进行建模的神经网络模型通常使用与训练好的词向量作为输入，通过结构和权重完全相同的孪生网络将两个句子词向量转换为低维的句子向量，然后再计算出两个句子向量间的相关性。但是这种方法使得两个句子的句子向量在生成的过程中完全独立。为了增加句子间的交互，模型逐渐引入了注意力机制。但是目前大部分注意力机制都应用于循环神经网络中，其在卷积神经网络中的表现并没有达到像循环神经网络那样惊人的效果。虽然循环神经网络在自然语言处理中的效果通常要比卷积神经网络好，但是它对时间数列数据的处理无法并行化，导致速度上要慢于卷积神经网络。所以，对卷积神经网络的研究依旧是非常必要的。

注意力机制在卷积神经网络中的应用主要是在注意力池化上。所谓注意力池化，是计算卷积操作后得到的两个句子中各个单词的向量之间的相似度得分作为注意力权重，再对句子中各个单词的卷积向量进行注意力权重的加权求和得到句子向量。这种注意力机制的方法能够使得两个句子中更重要的词获得更大的权重，但是实际上并没有加入另一个句子实质性的交互信息。另外，在句子匹配任务中，相比池化操作，用于提取出特征的卷积操作更重要。但是目前常见的注意力机制都忽略了卷积操作。所以，注意力机制在卷积神经网络中，没有发挥其应有的效果，导致实际在论文查重、搜索引擎和智能客服系统中应对复杂文本的处理上与数据库中的识别配对准确度仍不够高。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于增强注意力机制的卷积神经网络匹配的文本识别方法。

本发明的目的可以通过以下技术方案来实现：

一种基于增强注意力机制的卷积神经网络匹配的文本识别方法，该方法包括以下步骤：

步骤1：对输入文本进行预处理，并根据文本语料预训练得到初始词向量；

步骤2：利用初始词向量将输入文本中的句子转化为由初始词向量组成的矩阵；

步骤3：通过用于增加文本句子间交互信息的带有增强注意力机制的卷积神经网络对矩阵进行处理并得到低维度句向量；

步骤4：对输入文本的句子各自对应低维度句向量进行匹配，并最终对带有匹配结果的输入文本与数据库中的数据进行识别并输出数据库中对应识别文本。

进一步地，所述的步骤1中的预处理包括对句子进行分词和去除停用词，所述步骤1中的预训练包括将经过预处理的文本输入至语言模型中得到初始词向量。

进一步地，所述步骤3中的增强注意力机制包括多窗口的词向量注意力编码、注意力卷积和多视角的相似度计算层。

进一步地，所述多窗口的词向量注意力编码具体包括：在卷积神经网络的卷积操作之前，对词向量进行增强注意力的编码，使用不同大小的窗口获取词向量上下文的信息，并计算每个词向量与另一个句子的传统注意力向量，利用相关性度量，在原始词向量中加入一部分上下文以及句子间的相关信息以增强词向量，使其既包含本身的信息又包含另一个句子的有用信息。

进一步地，所述注意力卷积具体包括：在原始上下文特征的基础上加入了另一个句子与之相关的最终的注意力向量以及多视角的匹配向量以使得在句子编码的过程中，融合了另一个句子的信息。

进一步地，所述多视角的相似度计算层具体包括：将各种卷积核得到的卷积向量进行相似度计算，得到多个不同视角的相似度后通过深度卷积网络对其进行提取得到相似度特征，利用原卷积操作得到的向量最大池化的结果与相似度特征拼接以得到最终句向量。

进一步地，所述最终的注意力向量为：

式中，表示最终的注意力向量，表示传统注意力向量，表示最大注意力向量，表示词向量，-表示元素级的减法，·表示元素级的乘法。

进一步地，所述多视角的匹配向量为：

式中，表示多视角的匹配向量，表示全局信息匹配向量，表示注意力匹配向量，表示最大注意力匹配向量。

进一步地，所述步骤4中的对输入文本的句子各自对应低维度句向量进行匹配按照句子匹配的具体任务分为两种：

种类1：对于句子匹配中的分类问题，将两个句子向量拼接起来形成新的向量，并通过多层全连接层进行特征提取，最后一层神经元的个数为分类的类别数，最后输出分类结果，其对应的描述公式为：

其中，y_i表示正确的标签，表示预测的标签值，N为自然数；

种类2：对于句子匹配中的问题-答案对相关性排序任务，直接计算两个句子向量间的余弦相似度作为最终的预测结果，并按照相似度对候选答案进行排序并输出排序结果，其对应的描述公式为：

其中，M取0～1内表示边界值，表示真确答案，表示错误答案，r_Q表示问题。

本发明的基本原理如下：

首先，将输入的句子对文本转换为预训练好的词向量；然后，通过基于增强注意力机制的卷积神经网络进行句子建模，生成句子向量；最后，计算两个句子向量间的相关性作为最后的输出结果。目前，虽然注意力机制在自然语言处理中得到了广泛的应用，但是在句子匹配任务中卷积神经网络的注意力机制主要集中在注意力池化操作上。注意力池化只是计算了两个句子各个单词间的匹配得分，并未加入实质性的交互信息，所以并未带来很大的提升。为解除注意力机制在卷积网络中的限制，本发明充分利用了卷积神经网络的特点设计了相应的增强注意力策略。本发明主要由多窗口的词向量注意力编码、注意力卷积和多视角的相似度计算层三种增强注意力方法组成。多窗口的词向量注意力编码，通过上下文信息与另一句子中的相关信息，利用相关性度量对词向量进行编码。注意力卷积，卷积操作中加入了两个句子间的交互信息以及相应的匹配向量。多视角的相似度计算层，计算不同卷积核大小得到的向量间的相似度。与现有技术相比，本发明避免了两个句子在句子建模的过程中完全独立的缺点，在卷积神经网络获取局部上下文信息的基础上加入另一句子中相关的注意力信息，使两个句子间尽早的进行交互，并且结合了不同大小的卷积核所得到的多粒度信息。本发明充分利用卷积的特性，有效提升了注意力机制在卷积神经网络中的性能。并且本发明可应用于句子对相似度计算、问答匹配和自然语言推理等各类句子匹配任务中，可扩展性强。

与现有技术相比，本发明具有以下优点：

(1)本发明方法中的第一步骤：对输入文本进行预处理，并根据文本语料预训练得到初始词向量，对原始文本数据进行预处理，去除了一定的无用信息。并且根据相应的任务语料训练词向量，使得词向量更能反映该任务的语义特征。

(2)本发明方法中的第三步骤：通过带有增强注意力机制的卷积神经网络对词向量进行编码并生成低维度句向量，增强注意力机制充分利用卷积的特性，增加了模型中句子之间的交互，使得注意力机制在卷积神将网络中的性能显著提升。

(3)本发明方法中增强注意力机制包括了多窗口的词向量注意力编码、注意力卷积和多视角的相似度计算层，其中多窗口的词向量注意力编码与注意力卷积融合了上下文信息与句子间的交互信息，在句子建模的过程中加入了另一个句子的信息，能够增强语义相近的单词间的特征。

(4)本发明方法中增强注意力机制包括了多窗口的词向量注意力编码、注意力卷积和多视角的相似度计算层，其中多视角的相似度计算层，结合了不同大小的卷积核所得到的信息，综合了单词级到不同大小的词组级的多粒度相似度信息。

(5)本发明方法步骤3：通过带有增强注意力机制的卷积神经网络对词向量进行编码并生成低维度句向量；集合步骤4：获取两两句子各自对应低维度句向量的相关性，并根据相关性结果对整体文本进行识别，获取句子向量后，可根据不同的任务要求对输出层进行调整，适应各类句子匹配的任务，具有可扩展性强的特点。

附图说明

图1为本发明的整体方法流程图；

图2为本发明的方法技术框架图；

图3为本发明方法中的多窗口的词向量注意力编码结构图；

图4为本发明方法中的注意力卷积结构图；

图5为本发明方法中的多视角的相似度计算层结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所示为本发明方法的流程图，包括以下步骤：

本发明的目的就是为了解决句子匹配上述现有方法存在的缺陷而提供的应用于卷积神经网络中的增强注意力策略，其能够充分利用卷积的特点，使得注意力机制在卷积神经网络中得到更好的效果，并且易于扩展。技术框架如图2所示。

本发明主要包括输入层、句子建模层和输出层三大模块。模型输入为两个句子，使用相同权重和相同结构的孪生结构的网络分别对两个句子进行编码，得到相应的句子向量。在句子建模的过程中，在卷积神经网络中加入了增强注意力机制，充分利用了卷积的特性，使得两个句子间的信息得到交互，从而提升模型的性能。最后计算两个句子向量之间的相关性，输出两个句子间的匹配结果。

具体模块架构如下：

第一部分是输入层：首先需要对任务数据进行预处理，将其处理成模型所需的形式。使用分词工具对文本进行分词，分词完成后去除文本中常见但是不重要的停用词。然后将文本输入到语言模型中，利用语言模型进行无监督训练得到相应的初始词向量。在输入层中，所有的句子都填充或截断至固定长度，然后将输入的句子对单词序列转换为对应的词向量和其中和分别表示句子X和Y中第i和第j个单词对应的d维词向量，n为句子的长度。词向量的值可以选择在训练过程中固定，也可以选择根据训练不断调整更新。

第二部分是句子建模层：得到了词向量后，需要将句子的词向量转换成低维的句子向量，从而得到句子的语义特征。传统的卷积神经网络主要通过卷积操作提取出上下文的特征，然后通过最大池化找出最重要的特征作为句子向量。这种句子建模的方法使得两个句子在编码过程中完全独立。本发明提出的增强注意力机制能够使得两个句子间尽可能的产生交互。本发明共有三种注意力策略，可以在模型中单独使用，或者混合使用，均能有效地提升模型的性能。具体的增强注意力方法如下：

1、多窗口的词向量注意力编码：此增强注意力策略应用于卷积操作之前，对词向量进行进一步的编码。首先利用不同大小的卷积窗口获取上下文信息。再计算该词的词向量与另一个句子的所有词向量之间的相似度，对另一个句子的词向量进行相似度的注意力加权求和得到与之相关的注意力向量。然后计算出上下文信息与交互信息的相关度，从而将两类信息融合起来。得到的向量与原始词向量拼接得到新的增强后的词向量。

2、注意力卷积：此增强注意力策略可代替原始的卷积操作，在卷积的同时加入对应的注意力向量以及多视角的匹配向量。注意力向量如上所述，匹配向量是指通过将词向量和另一个句子与其相关的向量映射到l个视角后，计算得到l个余弦相似度组成的向量。

3、多视角的相似度计算层：此增强注意力策略应用于卷积操作之后。一般的相似度计算层只计算相同大小的卷积核得到的向量之间的相似度。多视角的相似度计算层将各种大小的卷积核得到的向量都进行了相似度计算，得到多个不同视角的相似度特征，使模型能够反映不同单词个数构成的但语义相近的词组之间的关系。得到多视角的相似度矩阵后，为了提取出更上层的特征，分别对两个句子的相似度矩阵使用一个深度卷积网络进行特征精选。对原卷积操作后得到的向量进行最大池化，然后将精选后的特征与池化后的向量拼接，形成最终的句子向量。

第三部分是输出层：获得两个句子的句子向量后，需要计算两个句子之间的相关性。计算方法根据具体的句子匹配任务要求而定。对于句子相似度计算和自然语言推理这样的分类任务，将两个句子向量拼接起来，再通过多个全连接层进行特征提取，最后输出属于每类的概率。对于问答匹配这样的对候选答案进行相关性排序的任务，直接计算两个句子向量之间的余弦相似度来表示其相关性。

具体实施例如下：

首先对文本数据进行分词和去停用词的预处理。将分词后的文本使用语言模型训练出每个词的词向量,词向量的维度可取100维或300维。词向量的维数用d表示。每个输入的句子都通过填充0或者截断的方法缩放到固定的长度n,n为句子的平均长度或训练集句子的最大长度。

卷积核大小为k的窗口可定义为：其中表示句子X中位置i对应的窗口，即以第i个单词为中心的相邻的k个词向量。传统的卷积神经网络句子匹配模型提取窗口特征的方法如下：

从而获取上下文的信息。卷积核的大小选择2、3、4和5。然后通过最大池化操作，获取最重要的特征作为句子向量。本发明就是在此卷积神经网络的基础上添加注意力机制，以增强两个句子之间的交互，提升模型的性能。

注意力向量是两个句子信息交互的关键。本发明中使用了两类注意力向量，包括传统注意力向量和最大注意力向量。注意力向量表示句子Y中与句子X的第i个单词相关的内容的向量表示。对两个句子各个词向量间进行点乘操作作为相似度度量，在对其进行归一化得到对应的注意力权重：

传统注意力向量是对句子Y中所有词向量根据注意力权重加权求和得到的向量：

最大注意力向量是句子Y中注意力权重最大的词向量，从而提取出最重要的信息：

通过拼接两种注意力向量并且加入注意力向量与原始词向量的差和积形成最终的注意力向量：

在本发明中，匹配向量不是简单的计算两个句子间的余弦相似度，而是对两个句子进行多角度的匹配。我们根据上述的两类注意力向量，选择了三种匹配策略应用于模型中，分别为全匹配，注意力匹配和最大注意力匹配。表示将向量映射到l＝20个视角的可训练的权重，每一行控制不同的角度。对于全匹配，句子X的每个词向量与句子Y的向量表示进行比较，来获取全局的信息。这里使用的是是句子中所有词向量的平均值来表示句子Y的向量：

对于注意力匹配和最大注意力匹配，将词向量与句子Y对应的传统注意力向量和最大注意力向量进行匹配：

最终连接这三类匹配向量，作为最终的多视角匹配向量：

多窗口的词向量注意力编码的结构如图3所示，用于卷积操作之前。通过融合词向量的上下文信息以及另一个句子的相关信息，对原始词向量进行增强。首先通过卷积操作获取词向量的上下文信息再通过上述方法计算出该词向量的传统注意力向量然后利用加法的注意力机制计算出注意力向量与该词向量之间的相关性。将与之相关的注意力向量与包含上下文信息的卷积向量按照相关性融合起来，得到增强的词向量编码。具体公式如下：

其中σ为S型生长曲线(Sigmoid)，从而获取0到1之间的相关度g。和为需要训练的权重，为需要训练的偏置项。本发明选择多种不同大小的窗口获取多粒度的特征，窗口大小设为1到5。最后，将多窗口得到的增强注意力词向量与原始词向量进行拼接，得到最终的词向量。

注意力卷积的结构如图4所示，用于替代原始的卷积操作。上述传统的卷积神经网络中的卷积操作只用来提取每个单词上下文的信息，使得句子建模的过程完全独立。注意力卷积在卷积操作中加入了相关的注意力向量和匹配向量，具体公式如下：

其中，f表示线性整流函数(Relu)，以及为需要训练的参数。这样在句子建模的过程中就融入了另一句子的相关信息，包括注意力信息和多视角的匹配信息。

多视角的相似度计算层的结构如图5所示，用于卷积操作之后。这里同样使用点乘计算向量间的相似度。常用的相似度计算通过计算句子X相同卷积核大小卷积之后的向量间的相似度，并且对匹配得分进行归一化：

相似度矩阵M的第k列表示句子X中所有单词关于句子Y中的第k个单词之间的重要性。但是因为卷积操作时使用了不同大小的卷积核，获取了不同范围的上下文信息。为了体现不同大小但语义相近的词组之间的关系，使用多视角的相似度计算层，将不同卷积核得到的结果都进行了相似度计算，进一步保证了卷积网络的优势：

其中，K是卷积核大小的列表。例如，如果卷积核大小为2、3和4，两个句子不同大小间进行两两匹配可以计算得到9个相似度矩阵。再将所有的相似度矩阵看成是|K|²通道数的图片，通过一个深度的卷积网络对其进行特征提取。深度网络由五个卷积核为3×3的卷积层和一个池化窗口为2×2、步长为2的最大池化层组成。最后将深度网络输出的相似度特征向量化，与原始句子编码时采用的卷积经过最大池化后的向量拼接起来，作为最终的句子向量。

上文所述的各类增强注意力机制的计算方法都是以句子X为例，因为使用孪生结构的网络，句子Y的操作完全相同。这三种增强注意力策略可单独使用或者混合使用，均能得到比传统卷积神经网络和加入注意力池化的卷积网络更优的性能。

使用基于增强注意力机制的卷积神经网络进行句子建模之后，得到了两个句子各自的句子向量，需要计算两个句子向量间的相关性。对于自然语言推理和相似度计算这样的分类任务，输出两个句子属于每一类的概率。将两个句子向量拼接起来，然后通过两层400维的全连接层进行特征提取。为了防止过拟合，全连接层之间都加入批归一化操作。最后一层全连接层的神经元个数为类别数，使用归一化指数函数(softmax)作为激活函数。最终输出句子对属于每一类别的个数。对于该类任务使用交叉熵作为损失函数：

其中，y_i表示正确的标签，表示预测的标签值。对于问答匹配这样的对候选答案进行相关性排序的任务，直接计算两个句子间的余弦相似度。训练过程中，输入为问题与候选答案中的一个正确答案和一个错误答案。使用过程中，直接输入问题-答案对即可，模型输出问答对的相关性。对于该类任务使用最大间隔损失函数：

其中，M，取值范围为0～1之间，本实施例设为0.15表示边界值，表示真确答案，表示错误答案，r_Q表示问题。该损失函数能够使得问题与正确答案间的相似性比错误答案高。

在训练过程中，使用学习率为0.001的Adam优化器。对于大型数据集批处理的大小(batch size)设为128，小型数据集设为64。在使用过程中，将句子对按照上述要求处理成相应格式后，输入到基于增强注意力的卷积神经网络模型中，即可输出相应的预测结果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于增强注意力机制的卷积神经网络匹配的文本识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于增强注意力机制的卷积神经网络匹配的文本识别方法，其特征在于，所述的步骤1中的预处理包括对句子进行分词和去除停用词，所述步骤1中的预训练包括将经过预处理的文本输入至语言模型中得到初始词向量。

3.根据权利要求1所述的一种基于增强注意力机制的卷积神经网络匹配的文本识别方法，其特征在于，所述步骤3中的增强注意力机制包括多窗口的词向量注意力编码、注意力卷积或多视角的相似度计算层。

4.根据权利要求3所述的一种基于增强注意力机制的卷积神经网络匹配的文本识别方法，其特征在于，所述多窗口的词向量注意力编码具体包括：在卷积神经网络的卷积操作之前，对词向量进行增强注意力的编码，使用不同大小的窗口获取词向量上下文的信息，并计算每个词向量与另一个句子的传统注意力向量，利用相关性度量，在原始词向量中加入一部分上下文以及句子间的相关信息以增强词向量，使其既包含本身的信息又包含另一个句子的有用信息。

5.根据权利要求3所述的一种基于增强注意力机制的卷积神经网络匹配的文本识别方法，其特征在于，所述注意力卷积具体包括：在原始上下文特征的基础上加入了另一个句子与之相关的最终的注意力向量以及多视角的匹配向量以使得在句子编码的过程中，融合了另一个句子的信息。

6.根据权利要求3所述的一种基于增强注意力机制的卷积神经网络匹配的文本识别方法，其特征在于，所述多视角的相似度计算层具体包括：将各种卷积核得到的卷积向量进行相似度计算，得到多个不同视角的相似度后通过深度卷积网络对其进行提取得到相似度特征，利用原卷积操作得到的向量最大池化的结果与相似度特征拼接以得到最终句向量。

7.根据权利要求5所述的一种基于增强注意力机制的卷积神经网络匹配的文本识别方法，其特征在于，所述最终的注意力向量为：

8.根据权利要求5所述的一种基于增强注意力机制的卷积神经网络匹配的文本识别方法，其特征在于，所述多视角的匹配向量为：

9.根据权利要求1所述的一种基于增强注意力机制的卷积神经网络匹配的文本识别方法，其特征在于，所述步骤4中的对输入文本的句子各自对应低维度句向量进行匹配按照句子匹配的具体任务分为两种：

其中，y_i表示正确的标签，表示预测的标签值，N为自然数；