CN116028846A

CN116028846A - 一种融合多特征和注意力机制的多模态情感分析方法

Info

Publication number: CN116028846A
Application number: CN202211628659.2A
Authority: CN
Inventors: 吕学强; 张乐; 滕尚志; 韩晶
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-04-28

Abstract

本发明公开了一种融合多特征和注意力机制的多模态情感分析模型，该模型具体包括以下步骤：通过多模态特征提取模块获得各模态丰富的低层特征；通过自注意力机制实现对三种模态内部信息的提取，获得对应的高层特征；通过跨模态注意力机制分别实现音频‑文本和视频‑文本的交互，在空间上实现模态间信息的交互，将学习到的模态内部信息和模态间交互信息进行拼接，得到更加丰富的音频和视频融合特征；最后拼接三种模态的最终表示并传入一个软注意力模块，为三种模态分配不同的权重，通过全连接层实现多模态情感分类结果。在公开数据集CH‑SIMS上进行测试，本发明可以有效提升多模态情感分析的准确性。

Description

一种融合多特征和注意力机制的多模态情感分析方法

技术领域

本发明涉及多模态情感分析方法，特别涉及丰富的多模态特征的获取和多模态特征的融合。

背景技术

随着社会的不断进步、网络的迅速普及和社交媒体的爆炸式发展，人们表达观点和看法的途径大大拓宽，越来越多的人热衷于在社交媒体、短视频平台上表达自己的看法或观点。因此，在社交媒体、短视频平台上存在海量由用户发布的观点评论、日常分享等数据，其中大量数据是以文本、音频、视频等多种形式联合出现的。这些多模态数据蕴含着丰富的情感信息，对其进行深度挖掘，有助于产品优化、舆情监测、风险管理等应用的研究，具有较大的应用价值。

近年来，研究者在多模态情感分析领域进行了探索研究。多模态数据中各种模态之间往往存在异构性，为了利用异构数据的互补性，研究者提出了多种融合机制对不同模态数据进行特征融合和信息交互。早期关于多模态融合的研究是基于核模型和图形模型的，如多核学习和动态贝叶斯网络。近年来，深度学习模型的研究取得了很大的进展，基于深度学习的神经网络成为了多模态融合研究的主体，如张量融合网络、低秩多模态融合方法。随着注意力机制的出现，基于注意力的融合方法成为多模态情感分析的主流方法，如多模态转换器、深度情感唤醒网络。

虽然研究者不断探索新的融合方式以提高多模态情感分析的准确率，但是仍然存在一些不足。一方面在多模态数据的特征提取方面仍有很大的探索空间。现有的研究表明，在视频数据上主要集中在面部特征的提取表示，但是视频中的人物不仅包含多样的面部表情变化，还有丰富的肢体动作，在情感分析方面，这些肢体动作也传递了大量的信息。视频中人物的性别、年龄等自身属性对情感表达也有一定的影响。文本模态数据中的特征大部分采用基于预训练模型的字级向量表示，无法对词级向量进行有效表征，导致模型对文本语义的学习不够充分。另一方面在不同的语境中，不同模态的数据重要程度不同，基于Transformer的融合模型虽然可以很好的对模态间的信息交互进行建模，但是无法关注不同模态中更重要的部分，也没有将模态内部和模态间的信息结合起来。

发明内容

为解决上述技术问题，本发明的目的是解决多模态特征提取不充分，模态内部信息和模态间交互信息结合不充分的问题，提出了一种融合多特征和注意力机制的多模态情感分析方法。

本发明的一种融合多特征和注意力机制的多模态情感分析方法，包括以下步骤：

1、通过多模态特征提取模块获得各模态丰富的低层特征；

2、通过自注意力机制实现对三种模态内部信息的提取，获得对应的高层特征；

3、通过跨模态注意力机制分别实现音频-文本和视频-文本的交互，在空间上实现模态间信息的交互；

4、将学习到的模态内部信息和模态间交互信息进行拼接，得到更加丰富的音频和视频融合特征；

5、最后拼接三种模态的最终表示并传入一个软注意力模块，为三种模态分配不同的权重，通过全连接层实现多模态情感分类结果；

6、根据训练数据训练模型并更新参数，然后在测试集上并进行测试。

本发明的一种融合多特征和注意力机制的多模态情感分析方法，所述步骤1中，对SIMS数据集进行多模态特征提取，对于音频模态，通过LibROSA语音工具包提取声学特征作为低层音频特征；对于文本模态，提取文本字级向量表示和词级向量表示作为低层文本特征；对于视频模态，提取面部特征、肢体动作、性别和年龄等特征作为低层视频特征。

本发明的一种融合多特征和注意力机制的多模态情感分析方法，所述步骤2中，利用Transformer在捕获上下文关系中的优势对单模态低层特征进行建模，获得更加丰富的高层特征信息。

本发明的一种融合多特征和注意力机制的多模态情感分析方法，所述步骤3中，通过改进Transformer使其接收两个模态作为输入，经过跨模态注意力机制实现模态间信息的交互，为了降低信息冗余和模型计算量，防止模型过拟合，采用组合池化获得更加丰富的特征。

本发明的一种融合多特征和注意力机制的多模态情感分析方法，所述步骤4中，将模态内部的高层特征和跨模态融合特征拼接在一起，实现模态内部和模态间信息的结合。

本发明的一种融合多特征和注意力机制的多模态情感分析方法，所述步骤5中，引入软注意力模块，为三种模态分配不同的权重，实现多模态情感分类结果。

与现有技术相比本发明的有益效果为：在特征提取方面，在视频模态中，在面部特征的基础上增加了肢体动作、性别和年龄特征，丰富了图像模态特征表示；在文本模态中加入基于义原外部知识获得的词级向量表示，融合字级和词级的向量表示，增强了文本模态自身的语义特征，这些丰富的低层特征为后续的多模态特征融合提供了很好的基础；通过自注意力机制、改进的跨模态注意力机制和软注意力机制的多次交互实现多模态信息的深度融合；有效提升了多模态情感分析的准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

在附图中：

图1是本发明一种融合多特征和注意力机制的多模态情感分析方法的流程图；

图2是本发明一种融合多特征和注意力机制的多模态情感分析方法的模型结构图；

图3是跨模态注意力模块的结构图；

图4是不同模型在多模态情感分析任务上的性能示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1和图2分别为本发明一种融合多特征和注意力机制的多模态情感分析方法的流程图和本发明一种融合多特征和注意力机制的多模态情感分析方法的模型结构图，包括如下步骤。

1.在多模态特征提取模块中，分别通过各自的子网络提取音频、文本和视频模态的特征，并转换为深度神经网络可以理解学习的向量表示。

对于音频模态，使用LibROSA语音工具包提取22050HZ的声学特征，获得低层的音频模态特征。

对于文本模态，文本数据可以按照不同粒度的语义进行划分，模型将会学习不同的语义表示。分别采用字级和词级的语义表示来增强文本本身的语义特征。先将经过预处理的文本数据送入预训练的中文BERT-base模型，获得文本字级向量表示。融合义原外部知识的SAT模型可以同时考虑文本中词语不同义项及其义原的信息，获得最符合当前语境的词级向量表示。将文本的字级向量表示和词级向量表示拼接起来作为低层的文本模态特征。

对于视频模态，通过OpenFace2.0工具包提取面部标志、面部动作单元、头部方向、凝视方向等信息，获得视频的面部特征。使用预训练的ViTPose提取视频中人物的动作特征。首先对所有的视频片段进行抽帧处理，因为不同时长的视频的帧数也不同，所以固定抽取的帧数，让模型根据视频时长通过均匀分布的方式自动选择抽帧间隔，得到一个

的集合，将抽取的所有帧传入ViTPose，可以得到头部、上肢和下肢五个部分各5个关键点坐标，我们采用第

帧与

帧的对应部位的关键点坐标相减，得到第

时刻到第

时刻的动作变化的向量表示，将各部位的动作变化向量拼接得到第

帧与

帧的完整向量表示，视频中未出现的部位用零填充，最后得到的向量可以动态地反应视频中人物动作变换的信息，我们将其作为人物的动作特征。此外，我们使用旷视Face++人工智能开放平台提取视频中人物的性别和年龄特征。最后将视频的面部特征、动作特征、性别和年龄特征传入一个线性变换层转换为相同维度并拼接起来作为低层的视频模态特征。

假设一共有N段视频，每段视频包含n段话语，则第

个视频可以表示为

。将第

个视频中第

段话语的文本、音频和视频分别传入各自的单模态特征提取模块获得对应的文本特征表示

、语音特征表示

、视频特征表示

。则第

段视频的特征表示如公式（1）：

（1）。

2.利用Transformer在捕获上下文关系中的优势对单模态低层特征进行建模，获得更加丰富的高层特征信息。以文本模态特征为例，将第

个视频的文本特征表示

输入到Transformer中，利用多头自注意力机制学习模态内部信息，其计算过程如公式（2）-（5）所示：

(2)

（3）

（4）

（5）

经过多头自注意力机制以后，通过残差连接和层归一化操作得到文本模态内部关系的向量表示，再经过由两个线性层组成的前馈神经网络，最后再次经过残差连接和层归一化得到高层文本特征表示

。

同理，可以得到高层音频特征表示

、高层视频特征表示

。

3.在跨模态注意力模块，通过改进Transformer实现跨模态融合。改进后的Transformer可以接收两个模态作为输入，将高层文本特征表示

和高层音频特征表示

一起输入跨模态注意力模块，其中，

作为主模态，提供

，

作为辅助模态，提供

和

。跨模态注意力模块的结构如图3所示。用文本辅助音频的跨模态注意力表示如公式（6）：

（6）

经过跨模态多头注意力以后，通过残差连接和层归一化操作得到融合文本和音频模态信息的特征向量，使模型充分学习两个模态的信息，实现模态间信息的交互融合，再经过由两个线性层组成的前馈神经网络，最后再次经过残差连接和层归一化得到融合文本特征信息后的音频特征向量

。因为池化操作具有抑制噪声、降低信息冗余和模型计算量和防止过拟合的优势，我们选择使用组合池化获得更加丰富的特征层，选择最大池化以捕获每个时刻的局部特征，选择平均池化以使模型更关注全局特征。将最大池化和平均池化的结果拼接在一起作为跨模态注意力模块的输出，计算过程如公式（7）-（9）所示：

（7）

（8）

（9）

同理，可以得到融合文本特征信息后的视频特征向量

。

4.为了获得单模态内部信息和模态间交互信息的融合，分别将模态内部的高层音频特征和高层视频特征与跨模态融合对应的特征拼接在一起，计算过程如公式（10）-（11）所示：

（10）

（11）

通过一个线性变换层，对音频、视频特征降维，使其与文本特征维度相等，然后再将三种模态特征拼接在一起，作为最终的多模态特征表示如公式（12）：

（12）。

5.在做多模态情感分析时，要考虑不同模态的贡献程度，所以在完成模态信息融合进行分类之前增加一个软注意力机制模块，为不同模态分配不同的权重。计算过程如公式（13）-（14）所示：

（13）

（14）

经过软注意力机制模块后，模型增大了更有用信息的权重，降低了其他信息的权重，充分考虑了不同模态的贡献度。最后连接一个全连接模块，得到多模态情感分析的最终结果。

实施例1：

该实施例中的实验结果是公开数据集CH-SIMS作为数据集，并在该数据集上测试得出。经试验得到体现本发明技术效果如下：

图4为不同模型，多模态情感分析的效果图，其中：EF-LSTM代表将各模态特征进行早期融合，再一起传入LSTM获得序列依赖关系。TFN代表先创建多维张量表征各模态特征，再通过外积计算动态的进行模态间的信息交互。MFN代表通过对特定视图交互和跨视图交互建模实现模态间的交互，并通过多视图门控机制在时间维度融合。MulT代表利用Transformer结构设计了跨通道注意力交互模块，关注不同时间步长的多通道序列交互。MISA代表将各模态映射到模态私有空间和跨模态共享空间以实现模态内部和模态间交互信息的结合。Self_MM代表通过设计的自监督学习策略生成单峰标签，对单模态和多模态联合训练以学习模态间的一致性和差异性。

从图4可以看出，本文提出的方法在多模态情感分析任务中，在CH-SIMS数据集上实验结果表明，与经典的早期融合模型EF-LSTM相比，在准确率和F1值上均有明显提升，说明早期融合模型简单的拼接多模态特征无法对模态内和模态间的信息交互进行建模。与计算复杂度高的TFN相比，在准确率（Acc-2）和F1值上分别提升了3.49%和2.51%。MFN、MULT和MISA均加入了注意力机制，模型性能进一步提升，说明注意力机制可以关注对任务结果更有用的信息，综合考虑各模态对结果的贡献度。与现有先进的Self_MM模型相比，在二分类准确率（Acc-2）上提升了1.83%，三分类准确率（Acc-3）提升了1.74%，F1值提升了0.69%，证明本文提取的丰富的单模态特征增强了多模态数据的低层特征表示，为模型性能的提升提供了很好的支撑，同时多次注意力深度融合模块更好的实现了模态内部和模态间信息的结合。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.本发明的一种融合多特征和注意力机制的多模态情感分析方法，其特征在于，包括以下步骤：

通过多模态特征提取模块获得文本、视频、语音各模态丰富的低层特征；

通过自注意力机制实现对三种模态内部信息的提取，获得对应的高层特征；

通过跨模态注意力机制分别实现音频-文本和视频-文本的交互，在空间上实现模态间信息的交互；

将学习到的模态内部信息和模态间交互信息进行拼接，得到更加丰富的音频和视频融合特征；

最后拼接三种模态的最终表示并传入一个软注意力模块，为三种模态分配不同的权重，通过全连接层实现多模态情感分类结果；

根据训练数据训练模型并更新参数，然后在测试集上并进行测试。

2.如权利要求1所述的一种融合多特征和注意力机制的多模态情感分析方法，其特征在于：对SIMS公开数据集进行多模态特征提取，对于音频模态，通过LibROSA语音工具包提取声学特征作为低层音频特征；对于文本模态，通过预训练的中文BRET-base提取文本字级向量表示，融合义原外部知识的SAT提取词级向量表示作为低层文本特征；对于视频模态，通过OpenFace2.0提取面部特征，ViTPose提取肢体动作，Face++提取性别和年龄等特征作为低层视频特征。

3.如权利要求2所述的一种融合多特征和注意力机制的多模态情感分析方法，其特征在于：利用Transformer中的自注意力机制在捕获上下文关系中的优势对单模态低层特征进行建模，获得更加丰富的高层特征信息。

4.如权利要求3所述的一种融合多特征和注意力机制的多模态情感分析方法，其特征在于：通过改进Transformer使其接收两个模态作为输入，经过跨模态注意力机制实现模态间信息的交互，为了降低模型的复杂度，在跨模态交互部分，选择利用文本模态去辅助音频和视频模态进行建模，为了降低信息冗余和模型计算量，防止模型过拟合，在经过跨模态注意力机制后，采用组合池化获得更加丰富的特征。

5.如权利要求4所述的一种融合多特征和注意力机制的多模态情感分析方法，其特征在于：将模态内部的高层特征和跨模态融合特征拼接在一起，实现模态内部和模态间信息的结合。

6.如权利要求5所述的一种融合多特征和注意力机制的多模态情感分析方法，其特征在于：引入软注意力模块，为三种模态分配不同的权重，实现多模态情感分类结果。