CN115034227B

CN115034227B - 一种基于多模态互注意融合的渐进式多任务情感分析方法

Info

Publication number: CN115034227B
Application number: CN202210742276.1A
Authority: CN
Inventors: 贺丽君; 王子晴; 李凡
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2024-04-19
Anticipated expiration: 2042-06-28
Also published as: CN115034227A

Abstract

本发明公开了一种基于多模态互注意融合的渐进式多任务情感分析方法，该方法基于多模态数据相融共生的特点，设计全视角闭环互注意融合模块，融合模块级内提出闭环互注意多模态融合网络，级间提出全视角分级融合机制，增强多模态数据的融合效果；针对复杂语境下单模态个性语义缺失、个性与共性语义无法协同的问题，提出渐进式多任务情感分析框架，框架第一层多模态融合子任务挖掘多模态共性语义，单模态子任务保留单模态个性语义，然后提出双重决策融合策略从第二层高层特征和第三层决策两个维度增强子任务间的交互，增强多模态情感分析算法的适应复杂语境的能力，在CH‑SIMS数据集上的测试结果显示了本发明准确率高、参数量小的综合优势。

Description

一种基于多模态互注意融合的渐进式多任务情感分析方法

技术领域

本发明属于自然语言处理领域，特别是涉及一种基于多模态互注意融合的渐进式多任务情感分析方法。

背景技术

情感分析技术通过智能分析数据进而预测其中体现出的情感倾向，在社会舆情挖掘、企业信息分析等领域具有重要的现实意义和应用价值。在社会舆情挖掘方面，通过分析大众对社会热点的点评可以有效掌握舆论走向，保持健康和谐网络环境；在企业信息分析方面，通过分析社会对企业的评价，为企业的战略规划提供决策依据，提升企业竞争力。随着智能终端的大量普及，爆炸性增长的多模态数据为多模态情感分析奠定了坚实的数据基础，基于深度学习的多模态情感分析算法相比与单模态情感分析算法和基于传统特征的情感分析算法进一步提升了分析效果。

基于深度学习的多模态情感分析算法虽然可以在一定程度上提升分析效果，但是仍然存在一些问题。多模态融合过程中，多模态数据融合角度、深度有限，导致模态间的交互性和关联性不足，融合特征情感倾向可能存在偏差。仅分析多模态情感倾向的单任务多模态情感分析算法单纯的追求多模态共性表达，导致单模态个性语义缺失。仅有的多任务情感分析算法中单模态情感分析任务和多模态情感分析任务相互独立，导致彼此间相互促进和制约关系没有得到充分利用，模态间个性和共性语义无法兼顾。现实场景的情感表达是复杂多样的，有的热烈张扬、有的含蓄内敛、有的存在隐喻反讽，在这种语境相对复杂的情况下，目前的多模态情感分析算法的分析效果不好。

发明内容

针对目前基于深度学习的多模态情感分析算法，本发明提供了一种基于多模态互注意融合的渐进式多任务情感分析方法。

本发明采用如下技术方案来实现：

一种基于多模态互注意融合的渐进式多任务情感分析方法，包括以下步骤：

1)待分析的音频、文本和视觉三种模态特征输入到数据预处理模块，去除各单模态特征中的冗余信息、进行数据规范化，得到三种模态预处理特征；

2)将三种模态预处理特征输入到渐进式多任务情感分析框架，框架的第一层任务是并行的三个单模态和一个多模态融合情感分析子任务，三种模态预处理特征分别输入到第一层中的单模态情感分析子任务得到单模态情感决策，一起输入到多模态融合情感分析子任务，由多模态融合模块进行三种模态特征融合得到多模态融合特征，根据融合特征得到多模态融合情感决策，第一层子任务的高层特征和情感决策作用于双重决策融合模块；

3)双重决策融合模块包括渐进式多任务情感分析框架的第二层和第三层子任务，第二层子任务在特征维度上对第一层子任务高层特征进行拼接融合，利用单模态语义差异补充多模态融合语义，得到高层特征融合情感决策，第三层子任务从决策维度上均衡前两层子任务的情感决策得到最终的情感分析结果。

本发明进一步的改进在于，步骤1)中，文本特征的上下文场景对文本语义具有更为重要的意义，音频和视觉的特征值冗余信息比较多，根据不同模态的数据特性设计不同的单模态特征处理子网络，视觉与音频特征预处理子网络结构相似，单模态特征分别输入各单模态特征预处理子网络得到单模态预处理特征。

本发明进一步的改进在于，步骤2)中，单模态预处理特征分别输入到单模态情感分析子任务得到单模态情感分析决策，各单模态情感分析子任务网络设计相似，均为由tanh激活的三层全连接网络层构成，三种单模态预处理特征一起输入多模态融合情感分析子任务，首先通过设计的全视角闭环互注意融合模块，然后由tanh激活的两层全连接网络层进行特征降维得到多模态融合情感分析决策。

本发明进一步的改进在于，为了取得文本上下文词向量的长期依赖关系，文本特征预处理子网络首先采用LSTM网络处理文本特征，接着设计dropout层使神经元的激活值以一定的概率停止工作，减小模型对局部特征的依赖，防止文本特征预处理子网络过拟合，然后由tanh激活的全连接层增加文本特征处理子网络的非线性，利用BN层对文本特征数据进行归一化处理得到文本预处理特征，视觉、音频特征预处理子网络的相似，以音频预处理子网络的设计为例：首先通过时序取均值去除部分信息冗余，添加dropout层使神经元的激活值以一定的概率停止工作，减小模型对局部特征的依赖，防止音频特征预处理子网络过拟合，然后由tanh激活的全连接层增加音频特征处理子网络的非线性，利用BN层对音频特征数据进行归一化处理得到音频预处理特征。

本发明进一步的改进在于，三种单模态预处理特征输入到全视角闭环互注意融合模块，首先经过多模态特征融合阶段的两级多模态闭环互注意结构，每一级包括3个跨模态注意力融合机制，包括transV(·)、transA(·)、transT(·)分别代表视频、音频、文本引导的跨模态注意力融合机制，3个跨模态注意力融合机制网络结构相似，三种单模态预处理特征经过融合顺序为transV₁(·)～transA₁(·)～transT₁(·)的第一级多模态闭环互注意结构，先通过transV₁(·)进行视频预处理特征I_v和文本预处理特征I_t的跨模态融合生成视频-文本融合特征transV₁(·)先通过全连接网络将I_v映射成视频查询向量Q,将I_t映射成文本关键向量K和文本值向量V,transV₁(·)实现视频文本跨模态融合的具体流程采用式(1)-(4)表示：

π＝Q·K^T (1)

π'＝softmax(π+mask) (3)

接着通过transA₁(·)利用音频预处理特征约束视频-文本融合特征得到音频-视频-文本融合特征，然后将文本预处理特征和音频-视频-文本融合特征输入到transT₁(·)生成文本-视频-音频-文本的闭环互注意融合特征，第一级多模态闭环互注意结构采用式(5)-(7)表示：

其中I_v、I_a、I_t分别表示视频、音频、文本预处理特征，分别表示transV(·)、transA(·)、transT(·)输出的融合特征；

级间调整融合顺序，第二级从不同角度进行特征融合，第二级的融合顺序设计为transA₂(·)～transV₂(·)～transT₂(·)，第一级transV₁(·)输入是I_v和I_t，与之不同的是transA₂(·)的输入是I_a与第一级融合特征第二级其他跨模态注意机制结构的输入与第一级类似，得到第二级融合特征/>

接着在多模态自注意阶段，将第二级融合特征输入到使用多模态自注意机制transM(·)，多模态自注意机制与其他跨模态注意力机制网络结构相似，最终生成多模态全视角闭环互注意融合特征ζ，采用式(8)表示：

本发明进一步的改进在于，步骤3)中，双重决策融合模块包括高层特征融合和决策融合，高层特征融合将第一层并行分任务的最后一层全连接输入的高层情感特征进行拼接，将拼接特征输入到由特征融合网络中得到高层特征融合情感分析决策，然后，决策融合设置可自动学习的权重参数作为前两层子任务情感决策的权重值，在网络的训练过程中，自动学习最优的权重分配值均衡各子任务的情感决策得到最终的情感决策结果，三层任务间层层递进，共同构成了渐进式多任务情感分析框架。

本发明进一步的改进在于，第一层子任务中文本高层特征h_t、视频高层特征h_v、音频高层特征h_a、多模态融合高层特征h_m经过拼接，利用全连接网络对拼接特征进行降维得到高层特征融合情感决策，前两层的情感决策有文本情感决策视频情感决策/>音频情感决策/>多模态融合情感决策/>高层特征融合情感决策/>设计多任务均衡的决策权值学习网络，自动学习各子任务情感决策的最优分配w_t,w_v,w_a,w_m,w_f得到最终的情感分析结果/>具体均衡方式采用式(9)示：

本发明进一步的改进在于，采用回归模型约束得到的情感分析预测结果，优化目标有4个：3个单模态的预测损失和1个决策融合预测损失；除了不同的训练损失外，通过l2范数对共享参数的特征提取网络、数据预处理网络进行稀疏，防止过拟合，还可以让本发明优化求解变得稳定和快速；因此，个人情感分析的优化目标Loss采用式(10)表示为：

其中N是训练个人评论样本的数量，其中ε∈{t,a,v,d}、j∈{t,a,v}；t,a,v,d分别表示文本、音频、视觉、决策融合子任务；表示采用的是MSEloss表示模态ε中第n个样本的训练损失；在优化目标中，W_j是模态j和多模态任务中的共享参数，δ_ε是平衡不同预测结果的超参数，β_ε分别表示共用子网络的权值衰减步长。

本发明至少具有如下有益的技术效果：

本发明提供的一种基于多模态互注意融合的渐进式多任务情感分析方法。该方法提出多模态多视角分级融合理念，通过设计全视角闭环互注意融合模块，级内提出闭环互注意多模态融合网络，级间提出全视角分级融合机制，增强多模态数据的融合效果。同时提出渐进式多任务情感分析框架，第一层任务在挖掘多模态共性语义的同时保留单模态个性语义，然后提出双重决策融合策略从第二层高层特征和第三层决策两个维度增强子任务间的交互，增强多模态情感分析算法的适应能力，提升分析准确率。

进一步，本发明中的闭环互注意多模态融合网络，闭环互注意网络中的三个跨模态注意力融合机制约束模态间语义相关性的同时，由注意力权值和参与特征融合的次数加强重要情感特征生成跨模态融合特征，第一级以视频跨模态融合机制—音频跨模态融合机制—文本跨模态融合机制连接，视频跨模态融合机制生成的视频-文本跨模态融合特征输入音频跨模态融合机制，由音频再次约束，最终第一级闭环互注意多模态融合网络输出三种模态相互约束的文本-音频-视频-文本闭环互注意的融合特征。

进一步，本发明中的全视角闭环互注意融合模块，考虑不同模态间的语义相关性存在差异这一特点，提出了多视角分级融合理念，每一级内，构造结构各异的特征提取网络，增强多模态融合模块输入特征的语义丰富程度，然后利用闭环互注意多模态融合网络进行多模态融合；级间采用全视角分级融合机制，通过调整模态间融合顺序获取多视角多模态融合特征，最终实现任何两种模态的融合都会受到第三种模态约束的多模态互注意目的，从而减少由于某种模态语义偏激造成的融合特征偏差。

进一步，本发明中的渐进式多任务情感分析框架，第一层设计并行的单模态情感分析任务和多模态融合情感分析任务，保留各单模态完整个性语义的同时获取多模态共性语义特征，为了充分挖掘单模态个性语义和多模态共性语义之间的相互作用关系，保证用于情感分析任务语义的全面性，双重决策融合策略首先将第一层各子任务的高层特征进行融合，以此作为第二层子任务，然后，为了充分利用多任务之间的相互促进和制约关系使其作用于最终的情感分析任务，在最后一层对前两层子任务的情感决策进行了加权融合，最终实现多模态共性互补增强和个性共性间的均衡，提升了情感分析算法的分析准确率和复杂语境的适应能力。

综上所述，本发明提供一种基于多模态互注意融合的渐进式多任务情感分析方法。本发明基于多模态数据相融共生的特点，提出多模态多视角分级融合理念，通过设计全视角闭环互注意融合模块，级内提出闭环互注意多模态融合网络，级间提出全视角分级融合机制调整融合顺序，从不同角度挖掘多模态数据的相关性，增强多模态数据的融合效果。针对单模态个性语义缺失并无法实现与多模态共性语义统筹兼顾的问题，本发明提出了渐进式多任务情感分析框架，框架中有三层任务，三层任务层层递进，相互关联。从整体上来看，本发明从数据和任务两个层面增强情感分析算法的分析能力，有效避免复杂语境下由于单模态情感偏向导致分析结果产生误差的问题，提升算法的分析准确率增强复杂语境适应能力，具有良好的应用价值。

附图说明

图1为本发明基于多模态互注意融合的渐进式多任务情感分析方法流程图。

图2为本发明中跨模态注意力融合机制的流程图。

图3为本发明中全视角闭环互注意融合模块的流程图。

图4为本发明中的双重决策融合策略的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

如图1所示，本发明提出一种基于多模态互注意融合的渐进式多任务情感分析方法，包括以下几个步骤：

1)各模态深度语义特征由数据预处理子网络后输入到第一层三个单模态和一个多模态融合情感分析子任务，保留完整单模态个性语义，融合多模态数据挖掘多模态共性语义，分别得到各单模态、多模态融合情感决策。

2)将第一层各子任务中最后一层全连接输入的高层特征输入到第二层高层特征融合子任务中，对各子任务高层特征进行融合并利用全连接网络进行降维，挖掘第一层子任务间个性语义和共性语义关联，得到高层特征融合情感决策。

3)第三层子任务中的多任务情感决策均衡机制对第一层、第二层子任务产生的情感决策进行加权融合，得到最终的情感分析结果。

具体来说，第一层三个单模态子任务分别利用全连接网络对三种单模态预处理特征进行降维，根据各单模态预处理特征得到情感分析结果作为单模态情感分析决策。第一层中的多模态融合子任务通过设计全视角闭环互注意融合模块对三种模态特征进行融合，再利用全连接网络对三融合特征进行降维，根据融合特征得到情感分析结果作为多模态融合情感分析决策。

全视角闭环互注意融合模块如图2所示，文本、音频、视觉三种单模态预处理特征输入到全视角闭环互注意融合模块，首先经过多模态特征融合阶段的两级多模态闭环互注意结构，每一级包括3个跨模态注意力融合机制(transV(·)、transA(·)、transT(·)分别代表视频、音频、文本引导的跨模态注意力融合机制)，3个跨模态注意力融合机制网络结构相似，如图3所示，三种单模态预处理特征经过融合顺序为transV₁(·)～transA₁(·)～transT₁(·)的第一级多模态闭环互注意结构，先通过transV₁(·)进行视频预处理特征I_v和文本预处理特征I_t的跨模态融合生成视频-文本融合特征transV₁(·)先通过全连接网络将I_v映射成视频查询向量Q,将I_t映射成文本关键向量K和文本值向量V,transV₁(·)实现视频文本跨模态融合的具体流程采用式(1)-(4)表示：

π＝Q·K^T (1)

π'＝softmax(π+mask) (3)

其中I_v、I_a、I_t分别表示视频、音频、文本预处理特征，分别表示transV(·)、transA(·)、transT(·)输出的融合特征。

级间调整融合顺序，第二级从不同角度进行特征融合，第二级的融合顺序设计为transA₂(·)～transV₂(·)～transT₂(·)，第一级transV₁(·)输入是I_v和I_t,与之不同的是transA₂(·)的输入是I_a与第一级融合特征第二级其他跨模态注意机制结构的输入与第一级类似，得到第二级融合特征/>

第一层子任务中文本高层特征h_t、视频高层特征h_v、音频高层特征h_a、多模态融合高层特征h_m输入到第二层高层特征融合子任务，各高层特征经过拼接，利用全连接网络对拼接特征进行降维得到高层特征融合情感决策前两层子任务得到的情感决策有文本情感决策/>视频情感决策/>音频情感决策/>多模态融合情感决策/>高层特征融合情感决策/>在第三层设计多任务均衡的决策权值学习网络，自动学习各子任务情感决策的最优分配w_t,w_v,w_a,w_m,w_f得到最终的情感分析结果/>具体均衡方式采用式(9)示：

本发明采用的是回归模型，优化目标有4个：3个单模态的预测损失和1个决策融合预测损失。除了不同的训练损失外，通过l2范数对共享参数的特征提取网络、数据预处理网络进行稀疏，防止过拟合，还可以让优化求解变得稳定和快速。因此，个人情感分析的优化目标Loss可采用式(10)表示为：

其中N是训练个人评论样本的数量，其中ε∈{t,a,v,d}、j∈{t,a,v}。t,a,v,d分别表示文本、音频、视觉、决策融合子任务。表示采用的是MSEloss表示模态ε中第n个样本的训练损失。在优化目标中，W_j是模态j和多模态任务中的共享参数，δ_ε是平衡不同预测结果的超参数，β_ε分别表示共用子网络的权值衰减步长。

本发明在CH-SMIS情感分析数据集上进行训练、测试，CH-SMIS情感分析数据集不仅具有多模态数据的情感标签还有文本、视觉、音频单模态标签。数据集提供文本、视觉、音频的原始特征，特征维度分别为39*768、55*709、400*33。该数据集以6：2：2的比例被划分为训练集、验证集和测试集。本发明基于Pytorch搭建网络架构并进行训练、测试。其中文本、视觉、音频预处理子网络全连接层的输出维度分别设置为64、64、16。第一层文本、视觉、音频、多模态融合的高层特征维度分别为64、64、16、64。采用Adam优化器训练网络，设置初始学习率为0.001。训练完成后保存模型并进行测试，测试指标包括二分类准确率、三分类准确率、五分类准确率、F1分数、绝对误差、相关度、参数量，与当前单任务情感分析算法及多任务情感分析算法进行对比，结果如表1所示。根据测试结果，本发明提出的基于多模态互注意融合的渐进式多任务情感分析方法(MMSA)相比于表1上栏的所有单任务情感分析算法在参数量以外的所有指标上均有提升，相比于表1下栏的多任务情感分析算法在五分类准确率和参数量以外的所有指标上均有提升，相比于五分类准确率更优的BIMHA算法，本发明算法参数量不到其

表1本发明在CH-SIMS数据集上的评估结果

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于多模态互注意融合的渐进式多任务情感分析方法，其特征在于，包括以下步骤：

模态预处理特征分别输入到单模态情感分析子任务得到单模态情感分析决策，各单模态情感分析子任务网络设计相似，均为由tanh激活的三层全连接网络层构成，三种单模态预处理特征一起输入多模态融合情感分析子任务，首先通过设计的全视角闭环互注意融合模块，然后由tanh激活的两层全连接网络层进行特征降维得到多模态融合情感分析决策；

为了取得文本上下文词向量的长期依赖关系，文本特征预处理子网络首先采用LSTM网络处理文本特征，接着设计dropout层使神经元的激活值以一定的概率停止工作，减小模型对局部特征的依赖，防止文本特征预处理子网络过拟合，然后由tanh激活的全连接层增加文本特征处理子网络的非线性，利用BN层对文本特征数据进行归一化处理得到文本预处理特征，视觉、音频特征预处理子网络的相似，以音频预处理子网络的设计为例：首先通过时序取均值去除部分信息冗余，添加dropout层使神经元的激活值以一定的概率停止工作，减小模型对局部特征的依赖，防止音频特征预处理子网络过拟合，然后由tanh激活的全连接层增加音频特征处理子网络的非线性，利用BN层对音频特征数据进行归一化处理得到音频预处理特征；

三种单模态预处理特征输入到全视角闭环互注意融合模块，首先经过多模态特征融合阶段的两级多模态闭环互注意结构，每一级包括3个跨模态注意力融合机制，包括transV(·)、transA(·)、transT(·)分别代表视频、音频、文本引导的跨模态注意力融合机制，3个跨模态注意力融合机制网络结构相似，三种单模态预处理特征经过融合顺序为transV₁(·)～transA₁(·)～transT₁(·)的第一级多模态闭环互注意结构，先通过transV₁(·)进行视频预处理特征I_v和文本预处理特征I_t的跨模态融合生成视频-文本融合特征transV₁(·)先通过全连接网络将I_v映射成视频查询向量Q,将I_t映射成文本关键向量K和文本值向量V,transV₁(·)实现视频文本跨模态融合的具体流程采用式(1)-(4)表示：

π＝Q·K^T (1)

π'＝softmax(π+mask) (3)

3)双重决策融合模块包括渐进式多任务情感分析框架的第二层和第三层子任务，第二层子任务在特征维度上对第一层子任务高层特征进行拼接融合，利用单模态语义差异补充多模态融合语义，得到高层特征融合情感决策，第三层子任务从决策维度上均衡前两层子任务的情感决策得到最终的情感分析结果；

双重决策融合模块包括高层特征融合和决策融合，高层特征融合将第一层并行分任务的最后一层全连接输入的高层情感特征进行拼接，将拼接特征输入到由特征融合网络中得到高层特征融合情感分析决策，然后，决策融合设置可自动学习的权重参数作为前两层子任务情感决策的权重值，在网络的训练过程中，自动学习最优的权重分配值均衡各子任务的情感决策得到最终的情感决策结果，三层任务间层层递进，共同构成了渐进式多任务情感分析框架；

第一层子任务中文本高层特征h_t、视频高层特征h_v、音频高层特征h_a、多模态融合高层特征h_m经过拼接，利用全连接网络对拼接特征进行降维得到高层特征融合情感决策，前两层的情感决策有文本情感决策视频情感决策/>音频情感决策/>多模态融合情感决策高层特征融合情感决策/>设计多任务均衡的决策权值学习网络，自动学习各子任务情感决策的最优分配w_t,w_v,w_a,w_m,w_f得到最终的情感分析结果/>具体均衡方式采用式(9)示：

2.根据权利要求1所述的一种基于多模态互注意融合的渐进式多任务情感分析方法，其特征在于，步骤1)中，文本特征的上下文场景对文本语义具有更为重要的意义，音频和视觉的特征值冗余信息比较多，根据不同模态的数据特性设计不同的单模态特征处理子网络，视觉与音频特征预处理子网络结构相似，单模态特征分别输入各单模态特征预处理子网络得到单模态预处理特征。

3.根据权利要求1所述的一种基于多模态互注意融合的渐进式多任务情感分析方法，其特征在于，采用回归模型约束得到的情感分析预测结果，优化目标有4个：3个单模态的预测损失和1个决策融合预测损失；因此，个人情感分析的优化目标Loss采用式(10)表示为：