CN112860888A

CN112860888A - 一种基于注意力机制的双模态情感分析方法

Info

Publication number: CN112860888A
Application number: CN202110103283.2A
Authority: CN
Inventors: 林翔鹏; 王甲海
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-28
Anticipated expiration: 2041-01-26
Also published as: CN112860888B

Abstract

本发明公开了一种基于注意力机制的双模态情感分析方法，使用了预训练的BERT模型和ResNet152模型进行文本和图片的信息编码，在得到文本编码和图片编码后先分别提取了文本模态和图片模态的局部信息和全局信息，充分考虑了模态内的高维特征对最终分类的积极作用。在模态间融合部分，本发明使用了双向注意力机制和门控多模态单元相结合的方式，考虑了图文模态之间双向的交互作用，从而提取到更多互补的信息。在模态间融合之后采取细粒度的特征提取，进一步对所拼接的特征进行过滤，剔除可能冗余的特征，得到更紧凑对情感极性更有益的细粒度特征表示，再对文本模态和图片模态进行加权拼接，从而提高了分类的准确度。

Description

一种基于注意力机制的双模态情感分析方法

技术领域

本发明涉及多模态情感分析领域，更具体地，涉及一种基于注意力机制的图文双模态情感分析方法。

背景技术

传统的情感分析是一个比较重要的自然语言处理领域的子任务。主要的形式就是输入一段文本，输出一个情感极性，是一个经典的分类任务。但是，随着互联网的发展，社交媒体的普及，信息越来越丰富，微博和Twitter等中英文社交平台已经成为我们日常生活中的一部分，并在人们的日常交流中发挥重要的作用。

因此，情感分析任务已经不仅仅局限于文本的信息，越来越多的多模态数据出现在社交平台平台上。比如在一段视频中提取文字，视频画面，音频信息，可以进行三模态的情感分析研究。又比如在微博或者Twitter的平台上，信息不仅仅是文本内容，还会附带大量的图片信息，图片会对文本的情感极性起到一个补充作用。尽管多模态的信息为人类的交流提供了极大的便利，但是多模态数据也为情感分析带来了越来越多的挑战。因此，从视觉和文本内容中自动检测情感已成为一个重要的研究课题。

目前大多数双模态情感分析的工作集中在简单融合的技术，将多个不同模态的不同特征组合在一起，然后输入到分类器中，得到预测的情感极性。首先，这些工作的主要缺点是难以捕捉模态之间的复杂关系，多模态之间的融合过程过于粗糙。文本和图片这两个模态是互补的关系，需要提取的是两者的互补特征，而不是仅仅是共有特征。其次，文本和图片之间的影响必定是双向的，有些方法不能有效利用视觉和文本信息之间的关联，片面地考虑图像对文本的单向影响，而忽略了视觉和文本信息之间的交互作用。

公开日为2019年03月29日，公开号为CN109543180A的中国专利公开了一种基于注意力机制的文本情感分析方法，包括如下步骤：一、对文本数据进行预处理；二、构建词表并利用GloVe模型构建词向量；三、利用内在注意力对句向量进行编码，利用交互注意力对目标词向量进行编码，并通过GRU融合编码后的两个向量，平均池化后得到融合表示；四、根据得到的融合表示，通过逐点的前馈网络(FFN)得到上下文向量的抽象特征，再通过全连接与Softmax函数计算情感分类标签的概率分布，得到分类结果；五、将预处理后的语料划分为训练集和测试集，对模型参数进行多次训练，选取分类准确率最高的模型用于情感倾向性分类。但该专利只考虑了文本信息，未曾考虑图片信息。

发明内容

本发明提供一种基于注意力机制的双模态情感分析方法，充分挖掘模态内的高维特征并利用模态间的交互信息，得到较好的分类结果。

为解决上述技术问题，本发明的技术方案如下：

一种基于注意力机制的双模态情感分析方法，包括以下步骤：

S1：获取文本数据和图片数据，所述文本数据和图片数据中的文本图片一一对应，并对文本数据和图片数据进行预处理；

S2：对于文本数据，将文本编码为词向量后作为文本模态的输入；对于图片数据，将图片编码为图片向量作为图片模态的输入；

S3：分别提取文本模态和图片模态的模态内高维特征；

S4：采用模态间的双向注意力机制和门控多模态单元对文本模态和图片模态的数据进行深层次的交互提取工作，提取模态间互补特征，得到文本侧模态间互补特征表示和图片侧模态间互补特征表示；

S5：分别对文本侧模态间互补特征表示和图片侧模态间互补特征表示进行细粒度特征提取，得到文本模态细粒度特征表示和图片模态细粒度特征表示，有助于后续的情感极性分类；

S6：将文本模态细粒度特征表示和图片模态细粒度特征表示进行加权拼接，通过softmax函数计算情感极性的概率，得到分类结果；

S7：对上述步骤S1至S6所述的模型进行多次迭代训练，将准确率最高的模型用于双模态情感分类任务。

优选地，所述步骤S1中对文本数据和图片数据进行预处理，具体为：

对于文本数据，所述预处理包括分词、去除停用词、去除标点符号得到相同长度的文本；

对于图片数据，所述预处理包括标准化和归一化过程得到相同大小的图片。

优选地，步骤S2中，采用GloVe或BERT预训练模型将文本编码为词向量后作为文本模态的输入T₁，采用ResNet152预训练模型将图片编码为图片向量后作为图片模态的输入V₁。

优选地，将每个单词映射成一个300维或768维的向量，再结合每段文本固定的句子长度，组成文本模态矩阵作为文本输入T₁。

优选地，将每张固定像素大小的图片映射成一个7x7x2048维的图片模态矩阵，再将每个特征图进行展平形成图片模态矩阵作为图片输入V₁。

优选地，在经过步骤S2之后，每种模态信息都有了向量表示，步骤S3的主要目的是进一步得到各自模态信息本身的显著特征，也就是模态内的高维特征，比如说局部特征和全局特征，方便后续模态融合工作，步骤S3采用卷积核大小为2和3的卷积窗口来捕捉2-gram和3-gram文本的局部特征，然后采用最大池化操作获取不同卷积窗口下的文本局部信息，采用双向门控循环单元去捕捉文本全局信息，最后将文本局部信息和文本全局信息进行拼接，得到了文本侧的模态内高维特征表示T₂：

T_CNN＝f_MP(f_Conv(T₁))

T_GRU＝f_BiGRU(T₁)

T₂＝W₁[T_CNN∶T_GRU]

其中，f_Conv表示卷积操作，f_MP表示最大池化操作，T_CNN表示文本模态的局部信息，f_BiGRU表示双向门控循环单元操作，T_GRU表示文本模态的全局信息，W₁表示将文本局部信息和文本全局信息进行拼接的全连接层的可训练参数。

优选地，步骤S3采用通道注意力机制和空间注意力机制去提取图片的特征，其中通道注意力机制关注的是通道维度，也就是说对于一个特征图而言，关注的是输入图片中什么内容是有意义的，具体为：

将图片输入V₁分别经过最大池化层和全局平均池化层后经过共享MLP进行拼接，再与图片输入V₁的向量逐个元素相乘得到图像模态的全局特征V_channel，空间注意力机制使用了最大池化和全局平均池化提取区域特征，然后将两个特征进行拼接，使用7*7大小的卷积核操作生成特征图，再经过一层ReLU激活函数后得到图片侧的模态内高维特征表示V₂：

V_channel＝ReLU(W₃(W₂(f_MP(V₁)))+W₃(W₂(f_AP(V₁))))⊙V₁

其中，f_MP表示最大池化操作，f_AP表示全局平均池化操作，ReLU表示激活函数，⊙表示逐元素相乘，V_channel表示图像模态的全局特征，

表示7*7大小的卷积核操作，V_spatial表示图像模态的区域特征，也是图片侧的模态内高维特征表示V₂，W₂和W₃表示通道注意力机制的全连接层的可训练参数。

优选地，经过步骤S3的模态内的高维特征提取后，每个模态有各自的局部信息和全局信息。多模态任务一般需要将两个模态发生一定的交互，得到互补信息。步骤S4主要采用的是模态间的双向注意力机制和门控多模态单元对双模态信息进行深层次的融合。

步骤S4中的门控多模态单元将文本特征和图片特征映射到同一空间中，得到一个多模态联合表示：

T₃＝tanh(W₄·T₂)

V₃＝tanh(W₅·V₂)

c＝σ(W₆·[T₂∶V₂])

g＝c*T₃+(1-c)*V₃

式中，tanh是激活函数，σ是sigmoid函数，T₃和V₃分别是为了拼接向量而进行的维度处理后的文本模态和图像模态，c存储两个模态的当前空间表示，g表示门控多模态单元所输出的多模态联合表示，W₄、W₅和W₆表示全连接层的可训练参数。

优选地，步骤S4中的双向注意力机制具体为：

将图片对文本所做的注意力机制后的得到的模态间特征F₁，多模态联合表示g以及步骤S3中所提取的文本侧的模态内高维特征表示T₂进行拼接，再送入一层线性层及激活函数tanh，得到融合后的文本侧的模态间互补特征T₄：

T₄＝tanh(W₇[T₂∶F₁∶g])

其中矩阵

表示第i个文本内容和第j个图片内容之间的联系，之后对于矩阵

的每行，用softmax函数来量化得到每个图片模态对文本模态的重要性权重矩阵

因此图片对文本的注意力机制的输出表示为F₁，W₇表示全连接层的可训练参数；

将图片对文本所做的注意力机制后的得到的模态间特征F₂，门控多模态单元g以及步骤S3中所提取的图片侧的模态内高维特征表示V₂进行拼接，再送入一层线性层及激活函数tanh，得到融合后的图片侧的模态间互补特征V₄：

V₄＝tanh(W₈[V₂∶F₂∶g])

其中矩阵

表示第i个图片内容和第j个文本内容之间的联系，之后对于矩阵M的每行，用softmax函数来量化得到每个文本模态对图片模态的重要性权重矩阵

因此文本对图片的注意力机制的输出表示为F₂，W₈表示全连接层的可训练参数。

优选地，步骤S5中对文本侧模态间互补特征表示和图片侧模态间互补特征表示进行细粒度特征提取，因为前一部分杂糅了比较多的特征信息，可能会出现拼接之后有互斥作用，因此需要通过卷积和门控机制来实现简单的细粒度的提取工作，具体为：

对于每个模态过一层卷积神经网络后，分别用tanh激活函数和sigmoid激活函数去处理，得到的输出再进行矩阵相乘，最后经过最大池化层得到各模态的最终细粒度的特征；

对于文本模态：

T_tanh＝tanh(f_conv(T₄))

T_sigmoid＝sigmoid(f_Conv(T₄))

T₅＝f_MP(T_tanh·T_sigmoid)

其中，T_tanh表示为经过tanh函数提取的文本特征，T_sigmoid表示为经过sigmoid函数提取的文本特征，T₅为文本模态的细粒度特征表示；

对于图片模态：

V_tanh＝tanh(f_Conv(V₄))

V_sigmoid＝sigmoid(f_Conv(V₄))

V₅＝f_MP(V_tanh·V_sigmoid)

其中，V_tanh表示为经过tanh函数提取的图片特征。V_sigmoid表示为经过sigmoid函数提取的图片特征，V₅为图片模态的细粒度特征表示。

与现有技术相比，本发明技术方案的有益效果是：

本发明使用了预训练的BERT模型和ResNet152模型进行文本和图片的信息编码，在得到文本编码和图片编码后并非直接进行模态间的融合工作，而是先分别提取了文本模态和图片模态的局部信息和全局信息，充分考虑了模态内的高维特征对最终分类的积极作用。在模态间融合部分，本发明使用了双向注意力机制和门控多模态单元相结合的方式，不仅考虑图片对文本单向的影响，也考虑了图文模态之间双向的交互作用，从而提取到更多互补的信息。在模态间融合之后并非直接进行常规分类工作。而是采取细粒度的特征提取，进一步对所拼接的特征进行过滤，剔除可能冗余的特征，得到更紧凑对情感极性更有益的细粒度特征表示，再对文本模态和图片模态进行加权拼接，从而提高了分类的准确度。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的模型结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种基于注意力机制的双模态情感分析方法，如图1和图2，包括以下步骤：

S3：分别提取文本模态和图片模态的模态内高维特征；

S5：分别对文本侧模态间互补特征表示和图片侧模态间互补特征表示进行细粒度特征提取，得到文本模态细粒度特征表示和图片模态细粒度特征表示；

所述步骤S1中对文本数据和图片数据进行预处理，具体为：对于文本数据，所述预处理包括分词、去除停用词、去除标点符号得到相同长度的文本；对于图片数据，所述预处理包括标准化和归一化过程得到相同大小的图片。

步骤S2中，采用GloVe或BERT预训练模型将文本编码为词向量后作为文本模态的输入T₁，采用ResNet152预训练模型将图片编码为图片向量后作为图片模态的输入V₁。

将每个单词映射成一个300维或768维的向量，再结合每段文本固定的句子长度，组成文本模态矩阵作为文本输入T₁。

将每张固定像素大小的图片映射成一个7x7x2048维的图片模态矩阵，再将每个特征图进行展平形成图片模态矩阵作为图片输入V₁。

步骤S3采用卷积核大小为2和3的卷积窗口来捕捉2-gram和3-gram文本的局部特征，然后采用最大池化操作获取不同卷积窗口下的文本局部信息，采用双向门控循环单元去捕捉文本全局信息，最后将文本局部信息和文本全局信息进行拼接，得到了文本侧的模态内高维特征表示T₂：

T_CNN＝f_MP(f_Conv(T₁))

T_GRU＝f_BiGRU(T₁)

T₂＝W₁[T_CNN∶T_GRU]

步骤S3采用通道注意力机制和空间注意力机制去提取图片的特征，具体为：

V_channel＝ReLU(W₃(W₂(f_MP(V₁)))+W₃(W₂(f_AP(V₁))))⊙V₁

T₃＝tanh(W₄·T₂)

V₃＝tanh(W₅·V₂)

c＝σ(W₆·[T₂∶V₂])

g＝c*T₃+(1-c)*V₃

步骤S4中的双向注意力机制具体为：

T₄＝tanh(W₇[T₂∶F₁∶g])

其中矩阵

V₄＝tanh(W₈[V₂∶F₂∶g])

其中矩阵

步骤S5中对文本侧模态间互补特征表示和图片侧模态间互补特征表示进行细粒度特征提取，具体为：

对于文本模态：

T_tanh＝tanh(f_Conv(T₄))

T_sigmoid＝sigmoid(f_Conv(T₄))

T₅＝f_MP(T_tanh·T_sigmoid)

对于图片模态：

V_tanh＝tanh(f_Conv(V₄))

V_sigmoid＝sigmoid(f_Conv(V₄))

V₅＝f_MP(V_tanh·V_sigmoid)

在具体实施过程中，使用公开的MVSA数据集，包括了MVSA-Single和MVSA-Multiple两个独立的部分。前者采集自Twitter上超过5000个文本图像对，并由单人进行标注。后者采集自Twitter上超过20000个文本图像对，并由三个人进行标注。该数据集是双模态情感分析领域的标准数据集，对数据集的干扰数据进行剔除，使用8:1:1的分割比例将数据集随机分成训练集，验证集和测试集。

在之前的方法中，要么局限于简单的早期融合或晚期融合技术，仅考虑模态间的相互作用，忽略了模态内的特征所产生的影响。要么是在模态间的融合仅使用了简单的注意力机制和拼接，没有充分利用模态间的互补关系，也没有考虑文本和图片的双向影响。本实施例既挖掘了模态内的高维特征，又通过双向注意力机制和门控多模态单元捕捉模态间复杂的关联，考虑了文本和图片的相互作用，最后又提出细粒度的特征提取工作，提炼丰富的情感极性特征。

对上述步骤S3至步骤S6的模型部分进行10个epoch的迭代训练，记录测试集的测试数据并保存准确率最高的模型，用于后续的双模态情感分类任务。

具体结果由准确率(Accuracy)来评价。具体结果如表1所示：

表1

由上述实验结果可知，本发明较其他方法有明显的提升，达到了目前数据集的最好水平。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于注意力机制的双模态情感分析方法，其特征在于，包括以下步骤：

S3：分别提取文本模态和图片模态的模态内高维特征；

2.根据权利要求1所述的基于注意力机制的双模态情感分析方法，其特征在于，所述步骤S1中对文本数据和图片数据进行预处理，具体为：

3.根据权利要求2所述的基于注意力机制的双模态情感分析方法，其特征在于，步骤S2中，采用GloVe或BERT预训练模型将文本编码为词向量后作为文本模态的输入T₁，采用ResNet152预训练模型将图片编码为图片向量后作为图片模态的输入V₁。

4.根据权利要求3所述的基于注意力机制的双模态情感分析方法，其特征在于，将每个单词映射成一个300维或768维的向量，再结合每段文本固定的句子长度，组成文本模态矩阵作为文本输入T₁。

5.根据权利要求4所述的基于注意力机制的双模态情感分析方法，其特征在于，将每张固定像素大小的图片映射成一个7x7x2048维的图片模态矩阵，再将每个特征图进行展平形成图片模态矩阵作为图片输入V₁。

6.根据权利要求5所述的基于注意力机制的双模态情感分析方法，其特征在于，步骤S3采用卷积核大小为2和3的卷积窗口来捕捉2-gram和3-gram文本的局部特征，然后采用最大池化操作获取不同卷积窗口下的文本局部信息，采用双向门控循环单元去捕捉文本全局信息，最后将文本局部信息和文本全局信息进行拼接，得到了文本侧的模态内高维特征表示T₂：

T_CNN＝f_MP(f_Conv(T₁))

T_GRU＝f_BiGRU(T₁)

T₂＝W₁[T_CNN：T_GRU]

7.根据权利要求6所述的基于注意力机制的双模态情感分析方法，其特征在于，步骤S3采用通道注意力机制和空间注意力机制去提取图片的特征，具体为：