CN112784532B

CN112784532B - 用于短文本情感分类的多头注意力记忆系统

Info

Publication number: CN112784532B
Application number: CN202110126510.3A
Authority: CN
Inventors: 李晓瑜; 邓钰; 彭宇; 何子睿; 雷航
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-09-02
Anticipated expiration: 2041-01-29
Also published as: CN112784532A

Abstract

本发明公开了用于短文本情感分类的多头注意力记忆系统，包括多跳记忆子网络，多跳记忆子网络包括多个顺次连接的独立计算模块，独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层。本发明多跳记忆子网络中每个多头注意力编码层的输入包括原始记忆以及历史信息记忆，通过足够跳数的独立计算模块堆叠转换，使多头注意力记忆系统学习到文本内部蕴含更加复杂、抽象的非线性特征，对文本中的情感语义结构进行有效地编码。进一步地，输入多跳记忆子网络的原始记忆由多头注意力编码层的递归计算过程充分交互，使得文本特征间的远程依赖关系得到更成分的建模，进而挖掘出更高层次的上下文情感语义关系，以此提升模型的分类性能。

Description

用于短文本情感分类的多头注意力记忆系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及用于短文本情感分类的多头注意力记忆系统。

背景技术

随着互联网技术的飞速发展，社交网络和电子商务平台已变成最重要的公共信息集散地，利用其中庞大的数据对人们的情感和观点进行分析，有着重要的社会价值和科研价值。情感分析是人们对产品、服务、组织、个人、问题、事件、话题及其属性的观点、情感、情绪、评价和态度的计算研究，属于文本分类的子任务。不同于普通文本分类，情感分析要求更高层的语义抽取，技术上更具挑战性。如何利用自然语言处理(natural languageprocessing,NLP)技术对主观意见文本进行情感分析正被越来越多的研究人员关注。

早期情感分析任务大多采用传统机器学习方法处理，依赖特征工程，需要花费大量时间对背景知识进行收集、整理和抽象。深度学习方法出现以后，迅速取代了机器学习成为NLP领域的主流。作为近年来人工智能领域发展最快的研究方向，深度学习模型在各种NLP任务中被广泛应用。相对于传统的机器学习算法，深度学习不依赖人工构建特征，具有特征的自学习能力，非常适合非结构化文本数据的抽象、高维、复杂等特点。目前，很多研究人员将长短记忆网络(long short-term memory,LSTM)与卷积神经网络(convolutionneural network, CNN)等深度学习模型用于解决文本情感分类问题，并取得了不错的效果。在结合注意力机制后，深度学习模型在NLP任务中可以抽象更高层次的特征信息和获得更有效的语义表示，基于注意力的深度学习模型不仅有效而且还具有很好的可解释性。

注意力机制(attention mechanism)最早由图像识别领域提出，可以让模型有效关注局部特定信息，挖掘更深的特征信息。随后，在自然语言处理领域，注意力机制被验证使得特征提取更加高效。现有技术中通过将注意力机制与循环神经网络结合，在编码-解码模型上计算输入序列与输出序列的对齐概率矩阵，有效解决机器翻译问题。同时，现有技术提出在卷积神经网络中使用注意力机制的有效方法，以完成机器阅读理解任务。目前，很多研究人员将注意力机制应用于情感分类领域，取得了很好的效果，如在LSTM网络中将目标内容与序列相应中间状态进行拼接，并计算注意力加权输出，有效解决了上下文对不同目标的情感极性问题。现有技术还通过基于LSTM网络提出了两种注意力实现方法，一种方法是将目标词向量拼接到用于注意权重计算的句子隐藏表示中，另一种方法是将目标词向量与输入词向量中拼接。现有技术还提出一种基于注意机制的交互式注意网络(IAN)模型，利用与目标相关的注意机制从上下文中获取重要信息，同时利用上下文的交互信息来监督目标的建模，以提高情感极性预测精度。

为了进一步提高情感分类任务的分类精度，部分研究人员将注意力机制与记忆网络(memory network)结构结合，并取得了很好的效果。现有技术通过借鉴深度记忆网络，提出多跳注意力模型，计算基于内容和位置的注意力值，利用外部存储单元保存上下文对于目标的权值信息，并通过叠加计算获取更深层次的情感语义信息。现有技术还通过利用双向LSTM网络构建memory单元，以对多跳注意力模型进行改进，同时对memory内容进行位置加权，捕获情感特征的同时消除噪声干扰。同时，现有技术还提出一种结合多跳注意力机制和卷积神经网的深度模型，利用记忆网络中多个相同的计算模块，获取更深层次的情感特征信息。

为了使注意力机制对NLP任务的性能改进更加有效，并且让模型的可解释性更强，创新的结构被不断提出，如提出了一种Transformer模型框架，用来代替CNN和RNN体系结构，并在机器翻译任务中取得了最好的结果。Transformer 结构中首次提出自注意力机制和多头注意力，它完全使用attention机制来建模输入和输出的全局依赖关系，以生成与语义更相关的文本表示，允许模型在不同的表示子空间中学习相关信息。现有技术通过分析自注意力网络的模型特点，提出了多头注意力与自注意力结合的两种方式，并探讨了其用于情感分析的有效性。如通过基于自注意力网络，提出了一种灵活、可解释的文本分类模型，可以有效提高情感分类精度。或者通过将多头自注意力运用于面向目标的情感分析，提出一种注意编码网络(AEN)，来获取每个词与上下文之间的交互关系和语义信息。

在情感分析领域，虽然目前已经有许多研究工作取得了很好的效果，尽管多头注意力机制可以有效挖掘上下文关联信息，但很难进一步获取更深层次的内联关系，分类性能有待进一步提升；另一方面，多跳结构中的记忆力单元只包含原始输入，这种不加处理的浅层特征数据，即使通过线性叠加也很难对短文本中的情感语义结构进行有效地编码。

发明内容

本发明的目的在于克服现有技术中难以挖掘短文本更深层次的内联关系、难以对短文本中的情感语义结构进行有效编码的问题，提供用于短文本情感分类的多头注意力记忆系统。

本发明的目的是通过以下技术方案来实现的：一种用于短文本情感分类的多头注意力记忆系统，所述系统包括多跳记忆子网络，所述多跳记忆子网络包括多个顺次连接的独立计算模块，独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层；第一多头注意力编码层根据输入的历史信息记忆与原始记忆进行学习，第一线性层对第一多头注意力编码层的输出进行线性化处理，输出层将第一线性层的输出与历史信息记忆进行叠加处理得到更高级别的抽象数据表示。

作为一选项，所述系统还包括顺次连接的词嵌入层、特征提取层和有序神经元长短时记忆子网络；词嵌入层用于获取文本的词向量矩阵；特征提取层用于将词向量矩阵转换为n-gram特征并产生新的N-gram特征矩阵，且n-gram特征作为文本的原始记忆输入第一多头注意力编码层；有序神经元长短时记忆子网络根据N-gram特征矩阵对文本各词组的依赖关系进行建模并挖掘其隐藏含义，得到输入文本的高层特征表示。

作为一选项，所述特征提取层具体为卷积神经网络。

作为一选项，所述系统还包括深度多头注意力编码层，与特征提取层、有序神经元长短时记忆子网络输出端连接，用于对n-gram特征序列进行抽象转换得到文本的高层特征表示。

作为一选项，所述深度多头注意力编码层对n-gram特征序列进行抽象转换得到文本的高层特征表示的具体计算过程为：

DMHSAtt(G)＝MHAtt(G,H,H)

H＝ON-LSTM(G)

O^g＝DMHSAtt(G)

其中，G表示N-gram特征矩阵，H表示有序神经元长短时记忆子网络得到的N-gram特征矩阵的隐藏状态，

是深度自注意力模型的输出。

作为一选项，所述深度多头注意力编码层连接有第二线性层，第二线性层将深度多头注意力编码层的输出进行线性变化处理得到历史信息记忆。

作为一选项，所述独立计算模块的具体计算方式为：

其中，

为多跳记忆结构中第i个独立计算模块的输出，M表示历史信息记忆。

作为一选项，所述系统还包括预测输出层，特征提取层、多跳记忆子网络输出端均与预测输出层连接。

作为一选项，所述预测输出层包括顺次连接的第二多头注意力编码层、池化层、第三线性层和分类层，特征提取层、多跳记忆子网络输出端与第二多头注意力编码层连接。

作为一选项，所述系统还包括训练模块，所述训练模块采用交叉熵损失函数优化系统，交叉熵损失函数的计算公式为：

其中，D为训练数据集大小；C为类别数；P(i,j)是模型预测样本i为类别j 的概率；Q(i,j)为1或0，表示系统分类结果是否正确；λ||θ||²为正则项。

需要进一步说明的是，上述各选项对应的技术特征可以相互组合或替换构成新的技术方案。

与现有技术相比，本发明有益效果是：

(1)本发明多跳记忆子网络包括多个顺次连接的独立计算模块，独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层，且每个第一多头注意力编码层的输入包括原始记忆以及历史信息记忆，通过足够跳数的独立计算模块堆叠转换，可以使本发明多头注意力记忆系统学习到文本内部蕴含更加复杂、抽象的非线性特征，对文本中的情感语义结构进行有效地编码。进一步地，输入多跳记忆子网络的原始记忆由多头注意力编码层的递归计算过程充分交互，使得文本特征间的远程依赖关系得到更成分的建模，进而挖掘出更高层次的上下文情感语义关系，以此提升模型的分类性能。

(2)本发明通过词嵌入层、特征提取层、ON-LSTM网络(有序神经元长短时记忆子网络)对多头自注意力机制进行改进，能够提取文本上下文内联关系的更深层次的表示，使多头注意力记忆系统能够获得更丰富的文本特征信息。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明，此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1中系统结构图；

图2为本发明实施例1中ON-LSTM流程图；

图3为本发明实施例1中MAMN模型数据处理体系结构示意图；

图4为本发明实施例1中不同跳数下模型应用于MR数据集的分类性能示意图；

图5为本发明实施例1中不同跳数下模型应用于SST-1数据集的分类性能示意图；

图6为本发明实施例1中不同跳数下模型应用于SST-2数据集的分类性能示意图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，属于“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明一种用于短文本情感分类的多头注意力记忆系统，系统(多头注意力记忆系统，memory network based on multi-head attention for short text sentimentclassification，MAMN)从输入词编码序列窗口提取N-gram特征，并利用改进的多头注意力机制和多跳记忆力系统对短文本上下文内部关联进行有效建模，并充分挖掘高层情感语义特征。最后，在两个公开用户评论数据集上对模型进行评估，实验证明了MAMN在情感分类任务中的有效性，其分类性能优于本任务中其他最新的相关模型。

实施例1

如图1所示，在实施例1中，一种用于短文本情感分类的多头注意力记忆系统，系统包括多跳记忆子网络，多跳记忆子网络包括多个顺次连接的独立计算模块，本实施例中具体包括两个顺次连接的独立计算模块(hop)，独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层；第一多头注意力编码层根据输入的历史信息记忆与原始记忆进行学习，第一线性层对第一多头注意力编码层的输出进行线性化处理，输出层将第一线性层的输出与历史信息记忆进行叠加处理得到更高级别的抽象数据表示。其中，原始记忆具体为文本的低维特征，历史信息记忆具体为文本的高层特征，本实施例中的原始记忆具体为文本的N-gram特征。

具体地，多头注意力编码层中的多头注意力机制可以简单有效的对上下文依赖关系进行抽象，并捕获句法和语义特征。具体说，输入矩阵Q、K、V对应 attention的三个重要组件，分别为query，key和value，其中

一般框架下的标准attention计算过程如下：

attention(Q,K,V)＝softmax(f_att(Q,K))V

其中f_att表示概率对齐函数，本发明采用Scaled Dot Product：

在多头注意力机制中，输入特征通过不同的权值矩阵被线性映射到不同的信息子空间，并在每个子空间完成相同的attention计算，以对文本潜在的结构和语义进行充分学习，其中第i头注意力计算过程如下：

O_i＝attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中

最后将各个head进行合并，产生多头注意力输出：

MHAtt(Q,K,V)＝concat(O₁,O₂,O₃,…O_N)

自注意力是在序列内部进行attention计算，寻找序列内部的联系。假设输入序列是X，其多头自注意力计算过程如下：

MHSAtt(X)＝MHAtt(X,X,X)

本发明MAMN模型将多头注意力机制和外部记忆单元结合构造独立计算模块(hop)，并将计算模块叠加，形成多跳(hops)深度记忆网络。这种多跳注意力递归深度记忆结构，相对于普通链式深度网络可以在更短路径上获得长距离依赖，并且相比浅层模型可以学习到更高级别的抽象数据表示。由于每个计算层 (hop)的运算都有外部原始记忆单元内容参与，可以使模型一直关注历史信息，通过足够跳数的计算层堆叠转换，可以使模型学习到文本内部蕴含更加复杂、抽象的非线性特征。因为所有的输入N-gram特征借由注意力的递归计算过程充分交互，也使得文本特征间的远程依赖关系得到更成分的建模。由于每一个计算层作为独立模块，拥有相同的处理流程，我们用第i个计算层来说明计算过程：

其中，

为多跳记忆结构中第i个计算层的输出，并且：

其中，M表示历史信息记忆。

进一步地，系统还包括顺次连接的词嵌入层、特征提取层和有序神经元长短时记忆子网络；词嵌入层用于获取文本的词向量矩阵；特征提取层用于将词向量矩阵转换为n-gram特征并产生新的N-gram特征矩阵，且n-gram特征作为文本的原始记忆输入第一多头注意力编码层；有序神经元长短时记忆子网络根据N-gram特征矩阵对文本各词组的依赖关系进行建模并挖掘其隐藏含义，得到输入文本的高层特征表示。本发明通过词嵌入层、特征提取层、ON-LSTM网络 (有序神经元长短时记忆子网络)对多头自注意力机制进行改进，能够提取文本上下文内联关系的更深层次的表示，使多头注意力记忆系统能够获得更丰富的文本特征信息。

进一步地，词嵌入层用于将非结构化的文本首先被转换成结构化的低维数值向量(词向量)。在典型的自然语言处理任务预处理阶段，文本中的词汇首先使用word2vec、Glove等算法进行预训练，转换为词向量(word embedding)。在词嵌入层中，一个包含n个词的上下文序列可以转换为S＝{v₁,v₂,…,v_n}，其中

是第i个词的d维向量表示，

代表句子的输入词向量矩阵，即context embedding。

进一步地，特征提取层具体为卷积神经网络，主要用于对输入特征(词向量矩阵)做进一步抽象和加工。在自然语言处理任务中，通常使用由语料产生的词库作为模型输入，然而这种浅层的直观特征对于隐含关系的表达并不充分，而简单依靠增加输入特征的数目，并不能有效突破模型的极限预测性能。采用n 元语法模型(n-gram model)，引入词组特征，将模型输入从浅层特征转换为深层特征，便拥有了更多的语义信息，以挖掘上下文更多的深层交互特性。通过卷积神经网络生成n-gram特征，可以在有效处理文本词汇局部相关性的同时，避免n-gram中对于特征权重的大量概率统计计算，相对循环神经网络具有更小的训练时间开销。该层将多个卷积运算应用于句子的输入词向量矩阵(contextembedding)，以提取相应的n-gram特征，产生新的特征向量矩阵G＝{g₁, g₂,…,g_n-k+1}，其中

k为一维卷积窗口大小，d_p为卷积核个数。

进一步地，有序神经元长短时记忆子网络应用于得到的N-gram特征矩阵，以对短文本中各词组的依赖关系进行建模，并挖掘其隐含语义。ON-LSTM有序神经元长短时记忆子网络(ON-LSTM)由传统的LSTM网络演化而来。传统的 LSTM网络通过设计遗忘门、输入门和输出门，可以有效解决文本处理中因上下文的长距离依赖而产生的梯度消失和梯度爆炸问题。在此基础上，ON-LSTM模型引入基础向量中各神经元的序信息对传统LSTM网络进行改进，使得内部的神经元可以经过特定排序，从而能够表达出更丰富的语义信息。通过有序神经元的设计，ON-LSTM将树状的层级结构整合到LSTM中，从而使其能自动学习到文本的层级结构信息，除了能提高模型的语义抽象能力外，还可以端到端的训练中让模型无监督地学习到句子的句法结构。ON-LSTM中通过主遗忘门 (master forget gate)和主输入门(master input gate)对神经元进行排序，利用不同的位置顺序来判断信息层级的高低。在这种层级结构中信息被分组进行更新，其中高层信息能够保留相当长的距离即不容易被遗忘门过滤，而低层信息可能随着每一步输入而被更改(低层级的信息意味着它在对应的区间更容易被遗忘)。如图2所示，有序神经元长短时记忆子网络通过对c_t的更新实现对历史隐层信息h_t-1以及输入信息x_t的记忆与忘记，具体更新方式为：

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

cumax函数的具体定义为：

其中，σ表示sigmoid函数，tanh表示双曲正切函数，

表示向量对应逐位相乘运算。本发明采用ON-LSTM网络得到的隐藏状态H＝{h₁,h₂,…,h_n-k+1}作为输入文本的高层特征表示，其

d_q为ON-LSTM网络隐藏层维度。

进一步地，系统还包括深度多头注意力编码层，与特征提取层、有序神经元长短时记忆子网络输出端连接，用于对n-gram特征序列进行抽象转换，将得到的高层特征表示加入多头注意力记忆系统以对标准自注意力机制进行扩展。

进一步地，标准的多头注意力模型中，以上下文序列中的单个词作为基本处理单元，这使得句子隐含的语义和结构信息被忽视。实际应用中，单纯依靠增加头部数量，也很难提高多头注意力模型的性能，表明其在多维信息空间中的提取和学习能力并没有得到充分发挥。本发明将n-gram特征与多头自注意力模型结合，提出深度自注意力机制。引入相邻词汇组合形成的语义特征，使多头注意力机制能在多维特征空间中学习更多隐藏信息，以更好地预测目标情感极性。在深度自注意力编码层具体计算过程如下：

DMHSAtt(G)＝MHAtt(G,H,H)

H＝ON-LSTM(G)

O^g＝DMHSAtt(G)

其中，

是深度自注意力模型的输出。

进一步地，深度多头注意力编码层连接有第二线性层，第二线性层将深度多头注意力编码层的输出进行线性变化处理得到历史信息记忆

M＝tanh(W_mO^g+b_m)。

进一步地，系统还包括预测输出层，特征提取层、多跳记忆子网络输出端均与预测输出层连接。预测输出层作为本发明MAMN模型的最后一层，负责将多跳记忆结构的输出进行再加工，最后通过分类函数计算各类的概率输出。

更进一步地，预测输出层包括顺次连接的第二多头注意力编码层、池化层、第三线性层和分类层，特征提取层、多跳记忆子网络输出端与第二多头注意力编码层连接。本发明具体采用SoftMax函数计算各类概率。具体地，将多跳记忆结构的最后输出O₀ ^h与N-gram特征矩阵再进行多头注意力计算，进一步抽象全局语义表示，然后采用全局最大池化对多头注意力输出在水平方向进行压缩，使得多头注意力特征在各子空间内聚合，最后在进行SoftMax操作之前做一次线性变换，预测输出层多头注意力计算、池化处理、线性处理、分类处理的具体计算公式依次如下所示：

更进一步地，为了能够充分对短文本上下文序列蕴含的句子结构以及语义信息进行建模，如图3所示，MAMN模型采用了多种粒度的词汇组合(2-gram，3-gram和4-gram)，以扩展多头注意力信息子空间规模，丰富语义表达。

进一步地，由于在情感分类任务中，情感极性通常被定为“正面”、“负面”和“中性”等，属于典型的文本多分类任务，于是MAMN模型还包括训练模块，训练模块的损失函数选择交叉熵，并通过对其最小化来优化模型，交叉熵损失函数的计算公式为：

为进一步说明本发明的分类性能，在两个基准数据集上开展实验，即电影评论集(Movie Review,MR)和斯坦福情感树数据集(Stanford Sentiment Treebank, SST)。MR数据集数据抓取自专业英文电影评论网站，包含“积极”和“消极”两类情感倾向的电影评论短文本，各5331条，测试一般采用随机分割，十折交叉检验；SST-1数据集是对MR的进一步扩展，是一个具有完全标记的解析树的语料库。它拥有11855条电影评论，但是数据按照“非常消极”、“消极”、“中性”、“积极”和“非常积极”分为了五类；SST-2数据集为SST的二进制标记版本，其中，“中性”评论被删除，“非常积极”和“积极”的评论被标记为“积极”，“非常消极”和“消极”的评论被标记为消极，总共包含9613条评论，其中1821条用于模型测试。MR和SST都被广泛应用于短文本情感分类任务评估，这使得我们能够将MAMN与已发表的同类任务模型进行性能比较，其具体细节统计如表1。

表1实验数据统计

更为具体地，在本实验中，MAMN模型的词嵌入层使用Glove预训练模型，词向量在训练过程中固定不变，维度设置为300，学习率设置为1e-3，模型最后运行于NVIDIA RTX2080Ti GPU，采用accuracy值来对其性能进行评价，其他通用超参设置如表2所示。

表2模型超参设置

Hyperparameter	value
		Dropout	0.1
批处理大小	32
		序列最大长度	200
L2正则项	1e-4
		隐藏层维度	300
多头注意力头数	8
		卷积窗口大小	2，3，4
优化器	Adam

更为具体地，为评价MAMN模型在三个数据集上的性能，引入多种典型模型进行实验对比，其中包括一些性能基线方法和最新研究成果。以下详细描述了所有比较模型：

1)RAE：该模型基于递归自动编码器构造，可对复杂构词短语的空间向量表示进行学习，以对的句子情感极性标签的所属概率进行预测。

2)MV-RNN：该模型是一种递归神经网络，可以学习任意句法类型和长度的短语，获得句子的组合向量表示。模型为解析树中的每一个节点分配一个向量和一个矩阵，以抽象不能相邻词语的组合情感语义。

3)RNTN：该模型是一个基于情感语义解析数结构的递归深层神经网络，利用张量特征对解析数上不同维度的子节点之间的相关性进行建模，抽象组合情感语义。

4)CNN-non-static：模型将一个预训练的word2vec词向量模型与卷积神经网络相结合，并在每个任务的训练过程中对词向量进行微调。

5)CNN-multichannel^[25]：该模型同时采用两个词向量集，每一组向量都被视为一个“通道”，并将每个滤波器同时对两个通道进行卷积操作。模型能动态微调一组向量，同时保持另一组向量为静态。

6)RNN-Capsule：该模型将RNN网络与胶囊网络相结合，并在胶囊网络中采用注意力机制，利用概率模块对输出胶囊进行重构以抽象更高层次的情感语义表达。

7)Capsule-CNN：该模型将卷积神经网络和胶囊网络相结合，实现了一种多级胶囊的通用文本分类处理架构，并针对特定的文本分类任务对胶囊网络中的动态路由算法进行了优化。

8)BiLSTM-CRF：该模型将序列结构和卷积神经网络结合，提出一种用于文本情感分类的流水处理框架。首先将文本按照所包含的情感目标数分为不同类型，然后采用一维卷积操作分别对每类文本进行情感特征检测。

本发明用分类精度作为评测指标，各模型分类实验结果如表3所示。

表3各模型在数据集上的分类精度

由表3可以看出，MAMN模型在三个基准数据集上都有良好表现，特别是在MR数据集上的类性能显著提高。在基线模型中，RAE、MV-RNN和RNTN 都采用了简单的深度学习算法，整体分类性能偏低。其中RAE模型只简单使用了空间向量特征和自编码器，分类精度最低；MV-RNN在空间向量的基础上，利用相邻词汇的组合特征对情感分类进行改善；而RNTN通过融入情感语义解析特征，进一步改善性能，尤其在SST两个数据集上性能提高明显。从实验结果上看，采用RNN和CNN结构的复杂深度学习模型在所有数据集上的表现都显著且持续地优于简单的深度学习算法。除了模型结构复杂度增加，预训练词向量的使用也是性能改进的关键原因。其中，CNN-non-static和CNN-multichannel 都采用了CNN结构，但在不同数据集上互有优劣，可见，靠单纯增加不同词向量集并不能对模型性能有效改善，而对词向量进行微调可以充分挖掘潜在语义特征；RNN-Capsule和Capsule-CNN都采用了胶囊网络与普通深度模型相结合的架构，以对高层情感语义特征进行抽象，其中RNN-Capsule在MR和SST-1上都有优异表现，说明注意力机制的引入，可以让模型有更好的内部关联挖掘的能力，能在二分类和多分类任务中更有优势；BiLSTM-CRF模型利用LSTM 和CNN相结合，设计了多级流水结构将模型的深度继续加深，以提高特征的表征能力，并在SST-2数据集上取得参考模型的最好分值。

本发明MAMN模型在MR、SST-1和SST-2这三个数据集上比参考模型的最好分值分别提高了0.4％、0.3％和0.4％。可见多头注意力机制的采用、记忆模块的参与以及多跳结构对模型深度的加深，都对分类性能提升起到了重要作用。模型在二分类和多分类任务中都表现出分类的有效性和性能的稳定性。

更进一步地，为进一步验证MAMN模型多跳记忆结构对性能改善的有效性，同时考察模块跳数设置对分类精度的影响程度，在三个数据集上对模型记忆结构跳数取不同值进行一系列对比实验，以评价不同数据集上的最优跳数设置。在实验中，将跳数预设范围定为1至7，对应着记忆结构模块不断增加。另外，整个实验过程模型的超参数集合均保持不变，实验结果如图4-6所示。从实验的结果数据可以看出，其中MR数据集最优跳数取值为4，对应分类精度为 0.842；SST-1数据集最优跳数取值为3，对应分类精度为0.491；SST-2数据集最优跳数取值为5，对应分类精度为0.887。从实验中很容易发现，模型在三个数据集上都表现出同样的规律，既随着跳数取值的增加，分类精度不断升高，并在堆叠特定数量的记忆模块时达到最优，随后性能明显下降。这表明，多跳结构的设计可以使模型深度得到扩展，让情感语义信息的提取层次更高、更加有效，从而直接改善模型的分类性能。并且记忆结构的设计也大大增强了模型的扩展性，因为模块具有相同的代码和接口，使得工程实施变得简单。需要注意的是，记忆模块的过度叠加，也会给模型带来过拟合的风险，导致性能下降。

本发明针对短文本情感分类问题，提出一种多头注意力记忆系统。模型利用卷积神经网络从输入序列中提取N-gram信息，结合改进的多头自注意力机制对上下文内部关联进行有效挖掘；另一方面引入多跳记忆结构，对模型深度进一步拓展，同时通过对记忆模块内容的递归操作，也使得模型可以挖掘更高层次的上下文情感语义关系。最后，我们在MR、SST-1和SST-2这三个数据集上对模型进行评估，实验表明MAMN与流行的基线模型和最新的任务相关模型相比，分类性能都显著优于对方，充分证明其在短文本情感分类任务中的有效性。另外结构性能分析实验也验证了多跳结构对于模型分类性能提升的重要作用。

实施例2

本实施例与实施例1具有相同的发明构思，在实施例1的基础上，提供了一种基于多头注意力记忆系统的短文本情感分类方法，该方法具体包括：

S01：获取短文本的词向量矩阵，并将该词向量矩阵转换为n-gram特征并产生新的N-gram特征矩阵，对N-gram特征矩阵进行建模，挖掘文本各词组的依赖关系及其隐藏含义，得到输入文本的高层特征表示；

S02：将n-gram特征序列进行抽象转换，并将高层特征表示进行多头注意力计算，最后进行线性化处理得到历史信息记忆；

S03：将历史信息记忆与N-gram特征作多头注意力计算并经线性处理后进行叠加，并重复该步骤实现足够条数的堆叠转换，得到更高级别的抽象数据表示；

S04：将N-gram特征矩阵、更高级别的抽象数据表示进行多头注意力计算，并依次进行全局最大池化处理、线性处理以及分类处理，进而实现文本的情感分类。

进一步地，步骤S01中，通过词嵌入层获取短文本的词向量矩阵；通过卷积神经网络将词向量矩阵转换为n-gram特征并产生新的N-gram特征矩阵；通过有序神经元长短时记忆子网络根据N-gram特征矩阵对文本各词组的依赖关系进行建模并挖掘其隐藏含义，得到输入文本的高层特征表示。

进一步地，在步骤S02中，通过深度多头注意力编码层将n-gram特征序列进行抽象转换，并将高层特征表示加入MAMN模型以对标准自注意力机制进行扩展。

进一步地，步骤S03中，通过多跳记忆子网络将历史信息记忆与N-gram特征进行堆叠转换，学习到文本内部蕴含更加复杂、抽象的非线性特征。更为具体地，多跳记忆子网络包括两个顺次连接的独立计算模块，独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层；第一多头注意力编码层根据输入的历史信息记忆与原始记忆进行学习，第一线性层对第一多头注意力编码层的输出进行线性化处理，输出层将第一线性层的输出与历史信息记忆进行叠加处理得到更高级别的抽象数据表示。

进一步地，步骤S04中，通过预测输出层实现文本的情感分类，具体包括顺次连接的第二多头注意力编码层、池化层、第三线性层和分类层，具体采用 SoftMax函数计算各类概率。

本发明多跳记忆子网络中的每个多头注意力编码层的输入均包括原始记忆以及历史信息记忆，通过足够跳数的独立计算模块堆叠转换，可以使本发明多头注意力记忆系统学习到文本内部蕴含更加复杂、抽象的非线性特征，对文本中的情感语义结构进行有效地编码。进一步地，输入多跳记忆子网络的原始记忆由多头注意力编码层的递归计算过程充分交互，使得文本特征间的远程依赖关系得到更成分的建模，进而挖掘出更高层次的上下文情感语义关系，以此提升模型的分类性能。

实施例3

本实施例提供了一种存储介质，与实施例2具有相同的发明构思，其上存储有计算机指令，计算机指令运行时执行实施例2中的用于短文本情感分类的多头注意力记忆系统的步骤。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory， ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例4

本实施例还提供一种终端，与实施例2具有相同的发明构思，包括存储器和处理器，存储器上存储有可在处理器上运行的计算机指令，处理器运行计算机指令时执行实施例2中的用于短文本情感分类的多头注意力记忆系统的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路，或者配置成实施本发明的一个或者多个集成电路。

在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上具体实施方式是对本发明的详细说明，不能认定本发明的具体实施方式只局限于这些说明，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演和替代，都应当视为属于本发明的保护范围。

Claims

1.一种用于短文本情感分类的多头注意力记忆系统，其特征在于：所述系统包括多跳记忆子网络，所述多跳记忆子网络包括多个顺次连接的独立计算模块，独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层；

第一多头注意力编码层根据输入的历史信息记忆与原始记忆进行学习，第一线性层对第一多头注意力编码层的输出进行线性化处理，输出层将第一线性层的输出与历史信息记忆进行叠加处理得到更高级别的抽象数据表示；

所述系统还包括预测输出层，特征提取层、多跳记忆子网络输出端均与预测输出层连接；

所述预测输出层包括顺次连接的第二多头注意力编码层、池化层、第三线性层和分类层，特征提取层、多跳记忆子网络输出端与第二多头注意力编码层连接。

2.根据权利要求1所述的用于短文本情感分类的多头注意力记忆系统，其特征在于：所述系统还包括顺次连接的词嵌入层、特征提取层和有序神经元长短时记忆子网络；

词嵌入层用于获取文本的词向量矩阵；特征提取层用于将词向量矩阵转换为n-gram特征并产生新的N-gram特征矩阵，且n-gram特征作为文本的原始记忆输入第一多头注意力编码层；有序神经元长短时记忆子网络根据N-gram特征矩阵对文本各词组的依赖关系进行建模并挖掘其隐藏含义，得到输入文本的高层特征表示。

3.根据权利要求2所述的用于短文本情感分类的多头注意力记忆系统，其特征在于：所述特征提取层具体为卷积神经网络。

4.根据权利要求2所述的用于短文本情感分类的多头注意力记忆系统，其特征在于：所述系统还包括深度多头注意力编码层，与特征提取层、有序神经元长短时记忆子网络输出端连接，用于对n-gram特征序列进行抽象转换得到的高层特征表示。

5.根据权利要求4所述的用于短文本情感分类的多头注意力记忆系统，其特征在于：所述深度多头注意力编码层对n-gram特征序列进行抽象转换得到文本的高层特征表示的具体计算过程为：

DMHSAtt(G)＝MHAtt(G,H,H)

H＝ON-LSTM(G)

O^g＝DMHSAtt(G)

是深度自注意力模型的输出。

6.根据权利要求4所述的用于短文本情感分类的多头注意力记忆系统，其特征在于：所述深度多头注意力编码层连接有第二线性层，第二线性层将深度多头注意力编码层的输出进行线性变化处理得到历史信息记忆。

7.根据权利要求6所述的用于短文本情感分类的多头注意力记忆系统，其特征在于：所述独立计算模块的具体计算方式为：

其中，

8.根据权利要求1所述的用于短文本情感分类的多头注意力记忆系统，其特征在于：所述系统还包括训练模块，所述训练模块采用交叉熵损失函数优化系统，交叉熵损失函数的计算公式为：

其中，D为训练数据集大小；C为类别数；P(i,j)是模型预测样本i为类别j的概率；Q(i,j)为1或0，表示系统分类结果是否正确；λ||θ||²为正则项。