CN114330551A

CN114330551A - 基于多任务学习和注意力层融合的多模态情感分析方法

Info

Publication number: CN114330551A
Application number: CN202111635556.4A
Authority: CN
Inventors: 尹从峰; 林丹; 梁启军; 谢锋
Original assignee: Food Safety And Nutrition Guizhou Information Technology Co ltd
Current assignee: Food Safety And Nutrition Guizhou Information Technology Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-12

Abstract

本发明公开了一种基于多任务学习和注意力层融合的多模态情感分析方法，涉及多模态情感分析技术领域。本发明包括所述方法包括：S1、构建单模态抽取；具体抽取操作如下：对存有多个样本的数据集中每个数据片段出现的讲话者进行统计，每个讲话者用一个独热码作为其特征表示，话语片段中出现的讲话者用SP_u表示。本发明通过多模态情感分析算法，首先利用现有的工具获取文本、音频和视频的特征，而后通过多个双模态注意力层实现不同模态的特征融合，最后利用反讽分类的辅助任务提升情感分类的主任务效果。该算法内容的创新点是设计了一种双模态注意力模块，能够深度融合两种模态的信息，获取对应的语义表示。

Description

基于多任务学习和注意力层融合的多模态情感分析方法

技术领域

本发明属于多模态情感分析技术领域，特别是涉及一种基于多任务学习和注意力层融合的多模态情感分析方法。

背景技术

多模态情感分析是指在文本、音频和图像等多种不同模态的数据中挖掘信息并判断对象情感倾向的研究方法。由于涉及不同类型的数据的特征抽取和融合，多模态情感分析相比于单一模态的情感分析更加复杂，并且由于多模态情感分析的研究起步较晚，因此该方向还有不少需要深入探究的内容。

多模态本身是由若干个单一模态组成，所以根据不同模态数据的表示组合方式，多模态表示可以划分为协同表示和联合表示。

联合表示本质上是合并了多模态的表示学习和多模态表示融合两个部分的工作，它是通过对3个单一模态的表示进行联合建模后得到，最终输出一个统一的多模态表示。通过这种方式，可以将多个模态模态的信息映射到一个统一的向量空间中。由于在联合表示的多模态统一映射过程中，不同模态蕴含的信息是有所区别的，比如在情感分析领域，文本模态所包含的情感信息远多于另外两个模态，所以这种情况下会将文本模态看作主模态，音频和视频看作辅助模态。有人提出了一种基于门控的注意力网络来对文本特征进行调整，这是因为面部表情和语调等信息也是影响情感的重要因素，通过构建提取音频和视频特征构建一个门控的模态融合网络，可以更好地调整从文本中提取到的特征信息。在此基础上，又有人将这种融合方式引入到文本预训练模型中，并且取得了不错的效果。协同表示将多模态中每个模态逐一映射到独立的向量空间中，等同看待不同模态的数据。经协同表示处理后的多模态数据，不同模态之间还是会有一定的相关性约束，因此协同表示还可以进一步划分为强协同表示和弱协同表示。

对于视频类型的多模态数据，其中的单一模态信息都是按照时间顺序组合起来的，并且这些单一模态信息本身也是按照时间序列化，所以部分强协同表示学习，关注于如何利用不同模态之间的时序关联构建更强的数据表示。Zadeh等人利用LSTM的时间建模特性，用3个LSTM分别对文本、音频和图像进行对齐建模，通过模拟不同模态之间的时序依赖，在词级别的时间窗口上叠加从不同模态中抽取到的信息，然后利用时序注意力模块将不同模态之间的时序关系融入多模态融合特征。这种方案虽考虑了多模态数据的时序信息，但是对数据标注的要求较高，需要词对齐的多模态数据。此后，Tsai等人[首次将时效性更好的Transformer[26]引入到多模态学习中，通过将模态A作为Transformer模块的Query输入，模态B作为该模块的Key和Value输入的方式，构建了一种新的跨模态注意力机制。Tsai通过大量实验证明了其提出的模型在对齐和非对齐的多模态数据上效果都非常显著。由于单模态表示抽取过程不考虑其他模态的影响，所以弱协同表示学习也可以看作是三个互不干扰的单模态表示学习的组合，这种简单的结构使得弱协同表示学习方式应用广泛。这种结构特点使得设计多模态模型时可以参考单模态情感分析领域的成果。在文本情感分析领域，早期通常使用word2vec或者Glove等词向量将单词向量化，再结合循环神经网络获得句子级别的表示。近年，融入大规模语料知识的预训练模型比如BERT逐步取代了之前的表示方式，成为文本表示学习的主流。和文本表示学习相比，音频和视频模态的表示学习方法繁多，但是通常不会将对应的表示学习模型直接应用到多模态表示学习模型中。因为这会导致一系列问题，一方面会使得模型结构复杂，由于现有多模态情感分析数据集规模有限，因此可能致使模型欠拟合；另一方面是因为音视频中蕴含的信息繁杂，直接从原始数据进行表示学习不利于模型关注到其中与情感相关的内容。所以当前主流的方案是先对音视频数据抽取特征，然后在此基础上构建特征表示学习模型。

音频数据中包含着大量的情感信息，所以在音频情感识别领域中，研究人员从语音中提取声学特征或韵律学特征用于分析讲话者的情感状态。由于音频信号中同时也包含了大量情感无关的信息，所以，选择的音频特征的优劣直接影响情感识别的结果。音频情感识别的相关研究中，如何抽取得到主要的情感相关特征是其中的研究重点。当前音频情感识别中主要使用的声学特征可以划分为音质特征，韵律学特征和基于谱的特征，这三类特征的基本情况是这样的：音质特征描述的是声音的质量，用来衡量音频是否清晰且易于辨识。讲话者的情绪状态直接影响音质特征，比如语音中有明显的颤音、哽咽等，音质特征都会发生改变。Gobl等人研究发现，语音情感听辨实验中的受试者普遍认为声音质量的变化与语音中蕴含的情感有紧密联系。音频数据中包含的高低音、快慢节奏和轻重语气的变化就是声音的韵律。音频中韵律存在与否不会妨碍听者对音频内包含的词句识别，但是却关乎一句话是否听起来顺耳。因此，韵律学特征也被称作超语言学特征，其在音频情感分析中的重要作用已经得到了该领域研究人员的广泛认同。Luengo等人在语音情感数据上尝试了大量韵律特征分析实验。通过提取每个含有情感信息语句的基频曲线和对数曲线，计算每条曲线的统计特征(最大最小值，均值和方差等)，最后得到若干最具有区分性的情感识别特征。Nwe等人通过研究谱特征在语音情感识别中的应用，发现音频能量谱与其情感倾向有显著关联。比如，一段欢快的语音在频谱图的高频段有较高的能量分布，而一段悲伤的语音在高频段的能量分布普遍较低，二者有明显的差别。基于谱的音频特征有助于改善情感识别系统的性能，因而被很多研究者使用。弱协同表示学习是本文主要采用的一种多模态表示学习方案，通过这种方式获得多个单一模态的表示之后，需要采用一定的策略进行多模态表示融合。

多模态情感分析中最为关键的一个步骤就是多模态表示的融合，这一步骤其实也是多模态学习的基本问题。采用合理的融合方式有助于充分利用多模态数据，提升预测效果，改善模型的泛化性能，Potamianos等人早在2003年就通过多模态融合显著提升模型的抗干扰能力。由于多模态融合可以在模型的不同阶段进行，所以可以分类为前期融合，中期融合，后期融合和末期融合。在模型接收数据输入时就对不同模态的特征进行结合是前期融合；模型在学习单模态表示的过程中对不同模态进行融合是中期融合；模型学习到不同模态的表示之后再进行不同模态的融合是后期融合；得到不同模态的分类结果之后再进行汇总，这种融合方式是末期融合。本文主要关注的是其中的后期融合方法。

不同模态特征融合的方式有很多，特征拼接是其中一种简洁高效的实现方法，将源于不同模态的多个特征直接拼接，从而增加后续处理中的特征信息。由于这种方式将每个模态视为独立特征，所以忽略了模态间的关联信息。Zadeh等人设计了一种新的特征融合网络，这种方式通过计算不同模态特征之间的叉积来获取其关联信息。由于该方法需要计算多维叉积，所以计算后结果中向量特征维度大大增加，导致其中可能掺杂很多冗余信息，并会增加后续的计算量。

针对这个问题，Liu等人在Zadeh等人的工作基础上提出一种低阶融合模型。该方案针对文本，音频和视频分别使用一个模态特异性因子，从而使得模型可以在二维空间中融合多模态特征，所以其融合后特征维度显著降低，有效改善了TFN中的问题。随后，Sahay等人将Transformer引入，虽然有一定效果，但是该方案不能够把握不同模态在融合后特征中所占的重要性。在此基础上，Zadeh等人设计了一种分层融合模型，先对三模态数据两两组合，获得双模态融合结果，然后再融合得到三模态融合结果。由于这种融合方式可获取每种模态融合时的权重，所以能够对不同模态的贡献度有清晰的把握。

发明内容

本发明的目的在于提供一种基于多任务学习和注意力层融合的多模态情感分析方法，解决了现有的针对互联网舆情数据中得到的情感分析结果可靠性较低的技术问题。

为达上述目的，本发明是通过以下技术方案实现的：

一种基于多任务学习和注意力层融合的多模态情感分析方法，所述方法包括：

S1、构建单模态抽取；

具体抽取操作如下：

对存有多个样本的数据集中每个数据片段出现的讲话者进行统计，每个讲话者用一个独热码作为其特征表示，话语片段中出现的讲话者用SP_u表示，上下文片段中出现的讲话者用SP_c表示；

其中，数据集是通过收集整理的一个包含对话音视频片段的多模态数据集；

S2、构建双模态注意力层；

具体构建操作如下：

输入两个模态的向量

并分别划分为h个片段，

每个片段维度为d_k，满足条件d_m＝h*d_k对这两个模态的片段数据，进行一个对称的多头注意力运算；

S3、构建模型目标函数；

处于多任务训练时，情感分类任务的预测结果满足以下函数：

处于反讽识别任务时的预测结果满足以下函数：

模型总体的目标函数满足下式：

其中C代表整个数据集，

代表数据的标签，i∈{1,2}代表两个任务，

代表第i个任务中p的第

个元素，α_i是一个不同任务的权重超参数，Θ_i代表任务i所有的可训练参数，λ_i是对应的L₂正则化系数。

可选的，步骤S1中，数据集中的文本的每个话语片段中的句向量T_u通过预训练的12层BERT模型获取，BERT模型最后一层输出的第一个词向量即为T_u。此处不冻结BERT模型的参数，所以随着模型的训练，预训练的BERT模型参数也在更新。话语片段中的句向量和上下文片段中的文本句向量均通过该方式获取。

可选的，步骤S2中，所述对称的多头注意力运算的计算式为：

其中

表示图中的缩放点积注意力。

可选的，其中缩放点积注意力计算式为：

Attention(Q,K,V)＝Γ(Q,K)ΘV

其中Q,K,V是该模块的输入，d是K的维度，M＝Q.K^T,i,j∈{1,2,...,h}。

可选的，视频中有n帧图像，对于第i帧图像，使用在ImageNet上预训练过的ResNet-152处理，提取该模型的Pool5层的输出

作为该帧图像的特征

可选的，对于话语片段的视频，将所有帧的特征取平均作为该话语片段的视频特征，也即

然后将之与讲话者的信息拼接起来V_u+SP_u,

d_v＝2048。

可选的，对于上下文片段，同样对所有帧取平均，得到上下文的特征信息V_c。由于数据集中上下文片段可能包含多个句子，所以这里的上下文视频特征可能会包含多个讲话者。

可选的，为了充分提取音频信号中的信息，具体采用了以下方式：

1)、计算话语片段中语言的多种低阶特征，并通过这些特征获得能够反映出音频的音调、音色以及其他设计讲话人音质相关的细节；

2)、对于所有的话语片段中的音频数据，以22050Hz的采样率对数据分帧，并将每帧音频控制在23ms，同时使用Librosa工具包提取其中的音频特征；

其中提取的音频特征包括：梅尔倒频谱系数、过零率、频谱质心以及这些特征的时域导数。所有这些特征直接拼接到一起构成一个283维的向量a_i，片段中音频的表示是该片段内所有窗口音频特征的均值:

本发明的实施例具有以下有益效果：

多模态情感分析算法，首先利用现有的工具获取文本、音频和视频的特征，而后通过多个双模态注意力层实现不同模态的特征融合，最后利用反讽分类的辅助任务提升情感分类的主任务效果。该算法内容的创新点是设计了一种双模态注意力模块，能够深度融合两种模态的信息，获取对应的语义表示；同时通过引入反讽检测的辅助任务，显著改善了讽刺语境下情感分析的效果。算法采用的双模态注意力层和跨层连接，通过提取模态间两两组合的影响从而更好地实现模态信息的融合。算法通过底层参数硬共享，顶层参数分离的设计，一定程度上缓解了多任务学习中的跷跷板现象，从而通过添加反讽识别的次要任务，辅助情感分类主任务的效果实现提升。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一实施例的多模态情感识别的总体框架图；

图2为本发明一实施例的双模态注意力层结构示意图；

图3为本发明一实施例的硬共享与软共享示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

为了保持本发明实施例的以下说明清楚且简明，本发明省略了已知功能和已知部件的详细说明。

请参阅图1-2所示，在本实施例中提供了一种基于多任务学习和注意力层融合的多模态情感分析方法，包括：所述方法包括：

S1、构建单模态抽取；

具体抽取操作如下：

其中，数据集是通过收集整理的一个包含对话音视频片段的多模态数据集，数据集中的文本的每个话语片段中的句向量T_u通过预训练的12层BERT模型获取，BERT模型最后一层输出的第一个词向量即为T_u。此处不冻结BERT模型的参数，所以随着模型的训练，预训练的BERT模型参数也在更新。话语片段中的句向量和上下文片段中的文本句向量均通过该方式获取；

S2、构建双模态注意力层；

具体构建操作如下：

输入两个模态的向量

并分别划分为h个片段，

S3、构建模型目标函数；

处于反讽识别任务时的预测结果满足以下函数：

模型总体的目标函数满足下式：

其中C代表整个数据集，

代表数据的标签，i∈{1,2}代表两个任务，

代表第i个任务中p的第

步骤S2中，所述对称的多头注意力运算的计算式为：

其中

表示图中的缩放点积注意力；

其中缩放点积注意力计算式为：

Attention(Q,K,V)＝Γ(Q,K)ΘV

视频中有n帧图像，对于第i帧图像，使用在ImageNet上预训练过的ResNet-152处理，提取该模型的Pool5层的输出

作为该帧图像的特征

对于话语片段的视频，将所有帧的特征取平均作为该话语片段的视频特征，也即

然后将之与讲话者的信息拼接起来V_u+SP_u,

d_v＝2048，对于上下文片段，同样对所有帧取平均，得到上下文的特征信息V_c。由于数据集中上下文片段可能包含多个句子，所以这里的上下文视频特征可能会包含多个讲话者。

多任务学习是一种同时优化多个目标的模型训练方法，其中每一个优化目标都可以看做是一个单独的任务。多任务学习的关键在于利用多个任务之间的关联信息，提升算法的通用性能。Caruana在其文章中首次从总体详细描述了什么是多任务学习以及多任务学习和单任务学习之间的区别及其优势。在深度学习技术快速发展的今天，研究人员通过实验发现多任务学习能够有效降低深度神经网络对数据和计算资源的需求，所以多任务学习开始逐步被越来越多的人们关注。多任务学习中有两个关键问题需要回答，第一个问题是如何合理搭配不同任务之间的参数，使得不同任务能够共同利用一部分参数，也即参数共享问题；第二个问题是如何保证不同任务收敛的速度达到均衡，也即优化策略问题。

为了充分提取音频信号中的信息，具体采用了以下方式：

2)、对于所有的话语片段中的音频数据，以22050Hz的采样率对数据分帧，并将每帧音频控制在23ms，同时使用Librosa工具包提取其中的音频特征。

其中提取的音频特征包括：梅尔倒频谱系数、过零率、频谱质心以及这些特征的时域导数。所有这些特征直接拼接到一起构成一个283维的向量ai，片段中音频的表示是该片段内所有窗口音频特征的均值:

多任务学习构建模型时首先面临的问题就是如何安排不同任务的参数，共享参数是其中一个基本的实现方式。深度神经网络中，靠近数据侧也即底层的网络层倾向于关注数据中一般化、全局化的特征，而靠近输出侧的网络层倾向于关注其中特性化、语义化的特征，通常而言靠近输出侧的网络层和任务的优化目标的关联更紧密，这也是当前多任务学习方法中比较主流的一种结构设计方式：即共享模型的底层网络，模型的顶层为每个任务设计一个单独的网络结构。其中，底层网络的参数共享方式还可以划分硬参数共享和软参数共享，如图1所示。硬参数共享是指不同任务共用统一的底层网络，其底层参数完全一致，在训练的过程中不同的训练任务目标会对这一套底层参数联合优化。软参数共享则是采用“求同存异”的思路，每个任务的底层参数都与其他任务不同，但是不同任务的底层参数之间会有一定的关联。

请参阅图3所示，在硬参数共享方式下，模型在将多个任务的底层特征表示映射到统一的向量表示空间中，然后用相同的特征表示完成后续的不同任务。由于这种模型构建方式在底层共享参数，所以能够在一定程度上减少参数数量，从而极大降低了模型过拟合的可能性。Liao等人[曾尝试将一个径向基函数网络扩展成为一个多任务学习的结构，并开展了相关学习任务的实验。经过近年来深度学习技术的发展，多任务学习模型有了更多可供参考的底层网络结构，一些研究将通用的神经网络层作为多任务模型的底层网络，并采用硬参数共享的机制训练相关任务，取得了一定的效果提升。硬参数共享实现简单，并且也有不错的效果增益，但是它有一个隐含的要求：不同任务之间高度相关，不然会发生“跷跷板”现象，也即一些任务的效果得到提升，而其余任务的效果变差，很难同时让所有的任务效果都得到提升。因此，多任务学习的研究者的模型构建策略通常是通过引入具有高度相关性的辅助任务，促使模型通过辅助任务关注更多相关特征信息，从而提升主任务的效果。Zhang等人在构建人脸关键点检测模型时，引入了性别检测、微笑检测等辅助任务，不同任务之间采用硬参数共享机制使用统一的特征抽取层，其实验结果优于同时期的最佳模型，这证明了高度相关的辅助任务的性能提升效果。此外，自然语言处理领域近年开始流行的预训练语言模型采用的策略本质上就是基于硬参数共享机制的多任务学习，该类模型通过设计多个任务优化目标，使得同一套模型参数学习到了不同类型的语义信息，因此利用预训练模型获取的文本表示往往都能够在下游任务中取得不错的效果。总的来看，硬参数共享方式简单有效，但是其核心在于找到合适的辅助任务，这样才有可能获得主任务的效果提升；

软参数共享方式关注于如何描述不同任务参数之间的关联，因为这种方式中不同任务之间的参数是相互独立的。Misra等人提出的交叉连接网络实现了一种具有代表性的软参数共享方式。CSN框架中，两个任务的骨干网络结构完全一样，拥有各自独立的参数，共享的方式是通过在特征层之间引入可训练权重。这种共享方式可以保证每层之后，两个任务学习到的特征都有一次交叉共享。交叉连接网络的默认前提是两个任务关注的特征位于同一层次，这样用同一个参数进行运算得到的输出才具有意义，这种方式还可以进一步改进比如引入跨层的参数共享连接。Soggard等人在进行试验时就发现低阶的任务应该关注于如何优化低阶特征，比如，自然语言处理领域中词性标注和命名实体识别就属于两个不同层次的任务，其中词性标注关注的是较低层次的词义特征，而命名实体识别更需要较高层次的特征。Ruder等人在此基础上对交叉连接网络进行了改进：一方面将每个任务的中间隐层划分为两部分，当需要进行交叉连接时任选其中一部分进行共享；另一方面就是在分类层前添加一个可训练参数，这种类似门控的结构可以帮助模型更好地选择用于分类的特征。随着多任务学习研究的深入，还出现了一些新的参数共享机制，例如参数分层共享和参数稀疏共享。不过在多任务学习的研究中，主要采用的还是硬参数共享和软参数共享。本文的研究中，由于多模态情感分析中数据源于不同的特征空间，所以比较适合采用硬参数共享。

多任务学习中，由于同时具有多个优化目标，所以会存在不同任务的收敛速度不一致的问题。由于多任务模型中不同任务的对应的模型分支有所区别，其中的参数运算方式也不完全一样，所以需要设置合适的迭代步长，确保不同任务的参数收敛速度基本接近。如果不同任务的收敛速度有很大差异，会致使参数值出现振荡，影响最终的多任务训练结果。Crawshaw等人整理了多任务学习相关的研究，将其中常用的优化策略分为六类：正则化技巧、引入任务调度器、梯度调整、损失加权处理、采用多目标优化策略以及知识蒸馏。本文使用的是其中的损失加权的方式，因此下面主要介绍该研究方向的进展。顾名思义，损失加权的优化策略就是对多任务中的各个损失施加不同的权重系数，该方法的关键点是如何设置合理的权重。一种简单的权重设置方式是将权重视为超参数，在训练之前预先指定，不过这种方式太过于依靠个人的经验，所以实用性不强。Kendall等人设计了一种基于模型任务的权重赋值方案，该方案中任务的权重与其不确定程度成反比。具体而言，假设模型有n个待优化任务，每个任务输出满足正态分布

其中f_i(x)是第i个任务的输出，

是训练参数，对应分布的方差，该值越大，表明任务对结果影响的不确定性程度越大。由上述可得到优化目标：

其中l_i是第i个任务的损失函数，logσ_i是正则化项。此后，研究人员尝试结合任务的收敛速度对损失的权重进行动态调整。任务的收敛速度主要有两种评估方式，一种是根据模型训练效果增幅评判，另一种则是根据任务的迭代损失值估计。由于模型训练效果的计算过程与模型的收敛状态没有明确的联系，所以前者的效果一般，研究人员通常采用的方法是后者。Liu等人直接将当前迭代损失与首轮迭代损失的比值作为任务权重，也即损失减少愈少，权重越大。由于该方案仅仅采用一个迭代周期的损失，鲁棒性较差，所以引入了多个轮次的损失值：

其中r_j(t-1)＝l_j(t-1)/l(t-2),T是温度系数。

由于不同模型中任务之间的关联千变万化，所以加权优化策略还需要根据具体场景设定。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

本发明的产品形式并非限于本案图示和实施例，任何人对其进行类似思路的适当变化或修饰，皆应视为不脱离本发明的专利范畴。