CN114091466A

CN114091466A - 一种基于Transformer和多任务学习的多模态情感分析方法及系统

Info

Publication number: CN114091466A
Application number: CN202111194183.1A
Authority: CN
Inventors: 石磊; 张琼安; 徐连诚; 刘培玉; 朱振方
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-02-25
Anticipated expiration: 2041-10-13
Also published as: CN114091466B

Abstract

本发明提供了一种基于Transformer和多任务学习的多模态情感分析方法及系统。该方法包括，提取得到文本数据对应的第一模态、视频数据对应的第二模态和音频数据对应的第三模态；主任务：采用映射Transformer编码器，从三种模态中随机挑选两种模态，将挑选的两种模态映射到未被挑选的模态中，得到三个映射特征；采用Transformer解码器对三个映射特征进行处理，得到三个特征向量，将三个特征向量进行拼接，得到三模态融合特征；根据三模态融合特征预测主任务的情感极性；辅助任务：基于所述三个映射特征，依据设定的积极情感中心和消极情感中心，确定三个映射特征的标签，结合所述三个映射特征预测情感；基于主任务得到的情感极性和辅助任务得到的情感，得到情感分析结果。

Description

一种基于Transformer和多任务学习的多模态情感分析方法及系统

技术领域

本发明属于自然语言处理多模态情感分析任务领域，尤其涉及一种基于Transformer和多任务学习的多模态情感分析方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

情感分析是自然语言处理中的一个热门任务，原始的情感分析主要集中在对文本做细粒度的研究。随着微博和抖音等社交媒体的普及，人们开始通过多种形式来表达自己的情感。我们可以通过识别面部表情和语音语调，再加上语言的帮助，得到比简单分析文本更多的情感信息。为了能够掌握短视频社交平台的用户舆论、了解当前新闻热点的社会影响，及时做出正确的应对方法，我们需要用多模态方法进行用户情感极性的分析。

面对互联网中每天更新和存储的海量视频信息，仅依靠人工进行鉴别审核是不现实的。近年来，随着深度学习的兴起，越来越多的基于神经网络的模型被应用于多模态情感分析领域中。目前多模态特征提取主要包括基于长短时记忆神经网络和基于Transformer的神经网络模型。多模态融合主要包括早期融合(特征层融合)、后期融合(决策层融合)和模型层融合。

这些复杂的融合机制可以很好地发挥作用，但仍存在一些问题。首先，以前的研究大部分都是针对对齐场景下的多模态联合表示，融合总是从一个方向开始，然后沿着这个方向持续到最后，缺少对总体模态依赖性的关注；其次，主流多模态训练数据集并没有提供其子任务的情感标签，忽视了单模态和双模态对最终融合情感分析的增益作用。

Transformer首次被提出是应用于神经机器翻译领域，这是一个序列到序列的结构，其编码器和解码器都是利用自注意力进行实现，可以在很多任务上实现最先进的性能，因此，Transformer已经成为自然语言处理中的热门架构。除了于神经机器翻译，Transformer也已成功应用于语言建模、语义角色标记、词感消歧、学习句子表述、视频活动识别。但是人类多模态语言时间序列和词嵌入不同，每个模态对应的序列都有着不同频率，如果使用基于长短时记忆神经网络的模型，很难针对时序不对齐的多模态进行分析。

多任务学习是迁移学习算法的一种，可以把多个相关的任务放在一起学习，同时学习多个任务，学习过程中通过一个在浅层的共享表示来互相分享、互相补充学习到的领域相关的信息，互相促进学习，提升泛化的效果。最近,多任务学习在自然语言处理中被广泛应用，多模态中不同模态的情感分析非常适合用来进行多任务学习。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于Transformer和多任务学习的多模态情感分析方法及系统，其利用Transformer的编码器构建映射Transformer，整合不同模态的信息，使每个单独的模态可以拥有其他模态的信息映射，获得更丰富的特征信息。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于Transformer和多任务学习的多模态情感分析方法。

一种基于Transformer和多任务学习的多模态情感分析方法，包括：

获取文本数据、视频数据和音频数据，提取得到文本数据对应的第一模态、视频数据对应的第二模态和音频数据对应的第三模态；

主任务：采用映射Transformer编码器，从三种模态中随机挑选两种模态，将挑选的两种模态映射到未被挑选的模态中，得到三个映射特征；采用Transformer解码器对三个映射特征进行处理，得到三个特征向量，将三个特征向量进行拼接，得到三模态融合特征；根据三模态融合特征预测主任务的情感极性；

辅助任务：基于所述三个映射特征，依据设定的积极情感中心和消极情感中心，确定三个映射特征的标签，结合所述三个映射特征预测情感；

基于主任务得到的情感极性和辅助任务得到的情感，得到情感分析结果。

进一步地，在三个映射特征获得过程中添加残差连接，使得在深化的过程中不丢失原本的特征信息。

进一步地，在所述辅助任务过程中，通过训练数据集中含有的多模态标签，利用自监督学习，分别获得单模态的情感标签和双模态的情感标签，作为辅助任务的情感结果。

进一步地，所述根据三模态融合特征预测主任务的情感极性的过程包括：基于所述三模态融合特征，利用全连接层和softmax层，得到概率分布，基于概率分布预测主任务的情感极性。

进一步地，所述结合所述三个映射特征预测情感的过程包括：将所述三个映射特征通过辅助任务的全连接层，得到预测情感。

进一步地，所述基于主任务得到的情感极性和辅助任务得到的情感，得到情感分析结果的过程包括：采用总损失函数优化情感分析结果，所述总损失函数包括主任务损失和辅助任务损失。

进一步地，所述映射Transformer编码器有三个映射Transformer。

本发明的第二个方面提供一种基于Transformer和多任务学习的多模态情感分析系统。

一种基于Transformer和多任务学习的多模态情感分析系统，包括：

提取模块，其被配置为：获取文本数据、视频数据和音频数据，提取得到文本数据对应的第一模态、视频数据对应的第二模态和音频数据对应的第三模态；

主任务模块，其被配置为：采用映射Transformer编码器，从三种模态中随机挑选两种模态，将挑选的两种模态映射到未被挑选的模态中，得到三个映射特征；采用Transformer解码器对三个映射特征进行处理，得到三个特征向量，将三个特征向量进行拼接，得到三模态融合特征；根据三模态融合特征预测主任务的情感极性；

辅助任务模块，其被配置为：基于所述三个映射特征，依据设定的积极情感中心和消极情感中心，确定三个映射特征的标签，结合所述三个映射特征预测情感；

输出模块，其被配置为：基于主任务得到的情感极性和辅助任务得到的情感，得到情感分析结果。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于Transformer和多任务学习的多模态情感分析方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于Transformer和多任务学习的多模态情感分析方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明利用Transformer的编码器构建映射Transformer，整合不同模态的信息，使每个单独的模态可以拥有其他模态的信息映射，获得更丰富的特征信息。

本发明设计的映射Transformer舍弃了Transformer的解码器，对编码器进行了改进，利用多头注意力将其他两个模态的信息映射到另一个模态，获得更丰富的模态关联信息。

本发明利用自监督获得单模态和双模态的情感标签，通过多任务模块，指导最后的情感预测。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明示出的基于Transformer和多任务学习的多模态情感分析方法的模型图；

图2是本发明示出的映射Transformer示意图；

图3是本发明示出的标签生成模块确定偏移量的示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

如图1所示，本实施例提供了一种基于Transformer和多任务学习的多模态情感分析方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

本实例基于本发明的主要思想，详细地介绍了映射Transformer和多任务学习的多模态情感分析方法的实施过程，其具体包括以下步骤：

S1:文本方面：将视频文本转换为预先训练的Glove嵌入(Glove.840B.300d)。嵌入是一个300维的向量。视觉方面：使用Facet(iMotions,2017)来表示35个面部动作单位，记录面部肌肉运动，以代表每帧基本和高级情绪。音频方面：使用COVAREP来提取低电平声学特征。该特征包括12个梅尔频率倒谱系数(MFCCs)、基音跟踪和浊音/浊音分割特征、声门源参数、峰值斜率参数和最大色散商，特征尺寸为74。

S2:将文本、视觉、音频的输入用{X_L,X_V,X_A}来表示，并且它们拥有各自独立的时间序列

其中f_i代表相应模态的序列长度，d_i代表相应模态的特征维度(i∈(L,V,A))。受Transformers中多头注意力启发，本实例设计了映射注意力机制，通过将两种模态的信息映射到第三模态，可以获得更丰富的多模态情感表示。

参照多头注意力,多头注意力中输入张量为Query(简写Q),将Query定义为

Keys定义为

Values定义为

其中

式中Keys、Values、W均表示不同张量的权重矩阵，

表示权重矩阵维度。所以从β模态到α模态的映射可以通过多模态注意力表现为

简写为

式中，

表示分解因子。值得注意的是，U_α与Q_α维度一致，但U_α通过MA获得了β模态的映射。为了解决多层连接下的网络退化问题，我们引入了残差连接，当映射工作完成后，通过残差连接再次加入低级特征，确保信息的完整度。

S3:基于多模态注意力模块，如图2所示，本实施例设计了映射Transformer，使一个模态能从其他两个模态接受信息并进行映射。使用将视觉信息(V)和音频信息(A)映射到语言信息(L)，用

表示。将视觉信息映射到语言信息的MA定义为MA_VL,音频信息映射到语言信息的MA定义为MA_AL。每个MT由P层MA模块组成，其中P为偶数。具体的，一个多模态Transformer前馈网络层有

层，则其中一层可表示为：

其中，f_θ是参数为θ的前馈位置层，

表示在i层使用MA将β模态映射到α模态，LN表示归一化层。通过MT，每个模态可以通过MA模块获得其他模态的信息映射，获得多模态信息的交互，关注多模态之间得长距离依赖。由于存在三种模态，本实施例一共设置了三个MT。

S4:将S3中获得的映射特征进一步通过Transformer解码器处理，输出的特征维度与输入前一致，但是通过Transformer,映射特征获得每个模态上下文相关信息，使模态具有长期依赖性。本实施例将三个模态最终获得的特征向量进行拼接，将拼接后的特征作为主任务的特征，利用全连接层和softmax层对主任务预测情感极性。最后将最终得到的特征向量表示送入一个全连接的softmax层，得到概率分布

并利用此概率分布得到最终预测的情感极性。

P＝softmax(W_ph^o+b_p)

其中，W_p和b_p分别为需要学习的权重矩阵和偏置，d_p表示情感极性的类别个数。

S5:为了指导帮助多模态特征的最终融合,如图3所示，本实施例设计了一个标签生成模块，可以获得三个单模态的情感标签和三个双模态融合的情感标签。首先，标签生成模块(LGM)同三模态融合任务共享同一个输入，将他们投影到一个新的特征空间进行计算降低不同模态之间的差异。每个子任务都有相应的积极情感中心

和消极情感中心

其中，i∈{M,L,V,A,LV,LA,VA},N是数据集样本的数量，I(.)是一个指标函数，

表示模态i第j个样例的全局表示。接下来，采用L2正则化去定义模态表示的距离：

其中，d_i是表示维度，一个比例表示因子；

表示模态距离积极情感中心的距离，

表示模态距离消极情感中心的距离；i∈{m,l,v,a,lv,la,va}模态,F_i ^*表示不同模态的最终情感得分。然后，获得模态表示到积极情感中心

和消极情感中心

的相对距离值：

其中，∈是一个接近0的数字，防止

为0时，公式无效。最后可以得到相关子任务的情感标签：

其中，s∈{L,V,A,LV,LA,VA}，y_m表示多模态情感标签得分，α_s和α_m都表示对应模态(下标表示模态)表示到积极情感中心

和消极情感中心

的相对距离值。在子任务中，将获得的模态特征通过全连接层，最终输出获得预测情感

其中，i∈{L,V,A,LV,LA,VA},最后联合学习单模态、双模态和三模态融合；W为权重矩阵，b为偏置矩阵，RELU为激活函数，F为提取的模态特征，F_i ^*为经过全连接层后的模态特征。

S6:采用L1损失来训练数据集的回归任务，Cross-entropy损失来训练数据集的分类任务，主任务的损失为：

辅助任务的损失为：

其中，N是训练样例的数量，K是子任务的数量，j代表不同的子任务并且j∈(L,V,A,LV,LA,VA)。我们模型的总损失为Loss_m和Loss_aux的加权和：

Loss＝(1-α)*Loss_m+α*Loss_aux

其中α∈(0,1)为超参数。

本实施例在传统的多模态情感分析模块上添加了多任务模块，利用自监督技术获得多模态中每个模态单独的情感标签，并进一步通过单模态的子任务辅助多模态情感分析，可以增强模态之间的依赖性，减少模态缺失造成的干扰，提高最终情感分析的准确率。

本实施例解决了原本多模态情感分析中对三种模态进行了无差别的计算，这样模态部分缺失的问题会影响到最后的分类结果的问题，通过设计映射Transformer来进行模态之间映射，每一个单独的模态可以映射获得其他模态的信息，弥补模态缺失部分造成的损失，丰富模态所包含的信息。

本实施例使用Transformer进行模态特征的提取，提高模态之间的长距离依赖程度，更多的关注上下文信息。

实施例二

本实施例提供了一种基于Transformer和多任务学习的多模态情感分析系统。

此处需要说明的是，上述提取模块、主任务模块、辅助任务模块和输出模块与实施例一中的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于Transformer和多任务学习的多模态情感分析方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于Transformer和多任务学习的多模态情感分析方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Transformer和多任务学习的多模态情感分析方法，其特征在于，包括：

2.根据权利要求1所述的基于Transformer和多任务学习的多模态情感分析方法，其特征在于，在三个映射特征获得过程中添加残差连接，使得在深化的过程中不丢失原本的特征信息。

3.根据权利要求1所述的基于Transformer和多任务学习的多模态情感分析方法，其特征在于，在所述辅助任务过程中，通过训练数据集中含有的多模态标签，利用自监督学习，分别获得单模态的情感标签和双模态的情感标签，作为辅助任务的情感结果。

4.根据权利要求1所述的基于Transformer和多任务学习的多模态情感分析方法，其特征在于，所述根据三模态融合特征预测主任务的情感极性的过程包括：基于所述三模态融合特征，利用全连接层和softmax层，得到概率分布，基于概率分布预测主任务的情感极性。

5.根据权利要求1所述的基于Transformer和多任务学习的多模态情感分析方法，其特征在于，所述结合所述三个映射特征预测情感的过程包括：将所述三个映射特征通过辅助任务的全连接层，得到预测情感。

6.根据权利要求1所述的基于Transformer和多任务学习的多模态情感分析方法，其特征在于，所述基于主任务得到的情感极性和辅助任务得到的情感，得到情感分析结果的过程包括：采用总损失函数优化情感分析结果，所述总损失函数包括主任务损失和辅助任务损失。

7.根据权利要求1所述的基于Transformer和多任务学习的多模态情感分析方法，其特征在于，所述映射Transformer编码器有三个映射Transformer。

8.一种基于Transformer和多任务学习的多模态情感分析系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于Transformer和多任务学习的多模态情感分析方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于Transformer和多任务学习的多模态情感分析方法中的步骤。