CN115730153B

CN115730153B - 一种基于情感关联和情感标签生成的多模态情感分析方法

Info

Publication number: CN115730153B
Application number: CN202211051172.2A
Authority: CN
Inventors: 李祖贺; 郭青冰; 陈燕; 于泽琦; 王延峰; 张亚洲; 庾骏; 陈浩然; 刘伟华; 陈辉; 卜祥洲; 朱寒雪
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2023-05-26
Anticipated expiration: 2042-08-30
Also published as: CN115730153A

Abstract

本申请公开了一种基于情感关联和情感标签生成的多模态情感分析方法，用以解决现有方法在挖掘情感关联信息、捕获情感差异信息方面的不足；所述方法包括如下步骤：步骤1：将原始视频按照语境提取语言学、声学和视觉三个模态的特征向量；步骤2：将特征向量传入情感关联增强器借助纵向注意力、横向注意力和自适应门控单元增强上下文情感关联和跨模态情感关联；步骤3：将多模态标签传入情感标签生成器中利用特征向量与标签之间的映射关系计算单模态标签值，并通过模态表示类中心判定单模态标签情感极性；步骤4：通过多模态预测任务和单模态预测任务的协同训练捕获情感差异信息，并输出最终的情感预测结果。

Description

一种基于情感关联和情感标签生成的多模态情感分析方法

本发明涉及多模态情感分析技术领域，特别是指一种基于情感关联和情感标签生成的多模态情感分析方法。

背景技术

随着微博、抖音等多媒体平台的快速发展，情感分析技术的目标逐渐从单模态数据转向由语言学、声学和视觉等多种模态组成的多模态数据，这种信息增益有时在情感分析中能够起到决定性作用。比如说，日常生活中经常出现的反讽表达，单凭语言信息无法很好的获取反讽语句背后蕴含的真实情感。而加入听觉信息和视觉信息后，通过语调和肢体动作就能很容易的理解反讽表达。得益于此，多模态情感分析正在受到越来越多的关注。然而由于各模态之间的异构性，多模态数据在带来信息增益的同时也带来一些问题，如何在情感分析过程中挖掘各模态的情感关联、捕获各模态的情感差异成为一个挑战。

现有方法在研究过程中多侧重于多模态数据的融合，忽略了数据之间潜在的情感关联，使得模型在情感预测时难以挖掘多模态数据之间的共性情感信息。此外，这些方法虽然使用多模态数据作为输入，但是在训练时各模态数据均使用统一的多模态标注，这使得模型在获取各模态数据的情感差异时受到限制，进而影响最终的情感预测结果。因此，如何在多模态情感分析过程中同时关注多模态数据中所蕴含的情感关联与情感差异，以此来保证预测结果的准确度，是亟需解决的技术问题。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种基于情感关联和情感标签生成的多模态情感分析方法，以解决现有技术中对于在挖掘情感关联信息、捕获情感差异信息方面不足的技术问题。

为实现上述目的，本申请实施例采用的技术方案如下：

本申请提供了一种基于情感关联和情感标签生成的多模态情感分析方法，其特征在于，包括以下步骤：

步骤1：将原始数据传入特征提取层，获取语境级特征向量；

步骤2：将所述语境级特征向量传入所述情感关联增强器，获得增强情感关联的特征向量；

步骤3：将所述增强情感关联的特征向量传入情感标签生成器中，获得单模态标签值；

步骤4：将所述各模态的增强特征向量及其对应的标签传入多任务协同情感预测层，获得最终的情感预测结果。

可选地，所述获取语境级特征向量为：以每一句话作为分割点将所述原始数据切分成多个小片段，分别从一个小片段中获取语言学、声学和视觉模态的话语级特征向量；挖掘所述三个模态的特征向量在不同视频片段之间的相关度，根据所述相关度将所述特征向量整合作为一个语境序列，生成三个模态的语境级特征向量。

可选地，所述三个模态的语境级特征向量大小为1*d，d∈{32,64,128,256,512}。

可选地，所述情感关联增强器的实现方法为：通过纵向注意力机制增强模态表征中的上下文情感关联；通过横向注意力机制分别获得所述语言学模态、所述声学模态、以及所述视觉模态的跨模态情感关联特征向量；并通过自适应门控单元根据实际情况分配增强情感关联的权重；最终得到所述每个模态的增强特征向量。

可选地，获得所述语言学模态、所述声学模态、以及所述视觉模态之间跨模态情感关联信息的跨模态情感关联增强向量为分别计算出其中一个模态与另外两个模态之间的增强特征向量，并将获得的两个增强特征向量拼接即可获得蕴含跨模态情感关联的各个模态的特征向量。

可选地，所述自适应门控单元利用门控函数计算上下文情感关联增强向量与跨模态情感关联增强向量之间的互补耦合度，然后利用互补耦合度自适应分配增强情感关联的权重；所述互补耦合度越大则表示多模态表征之间的情感信息得以互补耦合，此时跨模态情感关联信息的作用更大，应对其分配更大的权重；所述互补耦合度越小表示单模态中的情感信息足够丰富，此时上下文情感关联信息的作用更大，应对其分配更大的权重。

可选地，所述情感标签生成的方法为：将所述语言学、声学以及视觉三个模态增强情感关联后的所述特征向量拼接得到多模态特征向量，分别计算多模态和单模态的积极表示中心和消极表示中心，根据所述样本与所述积极表示中心和消极表示中心的偏离程度，判定所述样本的情感极性获得所述单模态的标签值。

可选地，所述样本标签与所述样本特征向量的量纲不同无法直接结算，因此使用无量纲化的模态表示类中心，并且使用比值与差值来量化映射关系，得到所述单模态标签值。

可选地，所述多任务协同情感预测为：分别构造一个多模态情感预测神经网络与三个单模态情感预测神经网络，所述神经网络都是由三层神经网络所构成，其输入为对应模态的特征向量，输出为情感分类结果。

可选地，用多模态标签以及三种单模态标签借助多任务学习硬共享机制同时训练四个情感预测网络，通过所述三个单模态网络辅助多模态网络的训练，选择多模态情感预测网络的预测结果作为最终的预测结果。

本申请的有益效果是：

一种基于情感关联和情感标签生成的多模态情感分析方法，其特征在于，包括以下步骤：步骤1：将原始数据传入特征提取层，获取语境级特征向量；步骤2：将所述语境级特征向量传入所述情感关联增强器，获得增强情感关联的特征向量；步骤3：将所述增强情感关联的特征向量传入情感标签生成器中，获得单模态标签值以从中捕获模态之间的情感差异信息；步骤4：将所述各模态的增强特征向量及其对应的标签传入多任务协同情感预测层，获得最终的情感预测结果。通过如此设计，能够在一定程度上解决现有方法对情感关联信息和情感差异信息关注不够的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种情感预测模型示意图；

图2为本申请实施例提供的一种多模态情感预测的流程示意图；

图3为本申请实施例提供的一种情感关联增强实现流程示意图；

图4为本申请实施例提供的一种情感标签生成的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和展示的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1为本申请实施例提供的一种情感预测模型示意图。如图1所示模型包括：特征提取层、情感关联增强器、情感标签生成器以及多任务联合预测层。其中特征提取层包括：语言特征向量提取、声学特征向量提取、视觉特征向量提取；情感关联增强器用于挖掘上下文情感关联和跨模态情感关联，生成增强语言学特征、增强的声学特征以及增强视觉特征；情感标签生成器用于在多模态标签的基础上产生独立的单模态标注，包括生成语言学标签、声学标签以及视觉标签；最后所述多任务联合训练模块协同训练多模态任务和单模态捕获情感差异信息，以生成最佳预测结果。

图2为本申请实施例提供的一种多模态情感预测的流程示意图。如图2所示包括如下步骤：

S201：将原始数据传入特征提取层，获取语境级特征向量；所述获取语境级特征向量的步骤为：

A、以每一句话作为分割点将原始视频切分成多个小片段，然后利用现有技术手段分别从一个小片段中获取语言学、声学和视觉模态的话语级特征向量。具体而言，使用GloVe模型对视频中的字幕等语言学信号进行词编码，最终获取大小为1*k的语言学模态特征向量u_l；使用COVAREP模型对视频中的音频等声学信号进行编码，最终获取获取大小为1*k的声学模态特征向量u_a；使用Facet模型对视频中的图像等视觉信号进行编码，最终获取获取大小为1*k的视觉模态特征向量u_v。

B、分别将三个模态的所有特征向量输入Bi-GRU模型中挖掘不同视频片段之间的关联，将相关度高的特征向量整合作为一个语境序列，由此生成三个模态的语境级特征向量U_l、U_a、U_v，其大小均为1*d，其中d可以为任意大小，即d∈R,在本申请实施例中选择8的倍数，比较常用的几个取值为d∈{32，64，128，256，512}。

S202：将所述语境级特征向量传入所述情感关联增强器，分别利用纵向注意力机制和横向注意力机制得到增强上下文情感关联的特征向量以及增强跨模态情感关联的特征向量，然后将其传入自适应门控单元中根据互补耦合度分配权重以获取增强情感关联的特征向量；

图3为本申请实施例提供的一种情感关联增强实现流程示意图；如图3所示情感关联增强实现的步骤为：

A、借助纵向注意力机制增强模态表征中的上下文情感关联。首先利用每个模态独有的权重矩阵W_i将三个模态的特征向量U_i初始化，然后将其与该特征向量的转置向量进行点积运算并通过softmax()激活函数后获取纵向注意力得分，最后利用这个得分与该特征向量相乘即可得到蕴含模态内上下文情感关联信息的特征向量S_i。具体如公式(1)所示：

其中i∈{l,a,v}，

是U_i的转置向量。

B、借助横向注意力机制对语言学模态的特征向量进行增强，利用如公式(2)分别计算出语言学模态与声学模态之间的增强特征向量K_l-a，以及语言学模态与视觉模态之间的增强特征向量K_l-v，再将两个增强特征向量拼接即可得到蕴含跨模态情感关联的语言学特征向量K_l。

其中W_l是权重矩阵，

是U_a的转置向量，/>

是U_v的转置向量。

C、借助横向注意力机制对声学模态的特征向量进行增强，利用如公式(3)分别计算出声学模态与语言学模态之间的增强特征向量K_a-l，以及声学模态与视觉模态之间的增强特征向量K_a-v，再将两个增强特征向量拼接即可得到蕴含跨模态情感关联的声学特征向量K_a。

其中W_a是权重矩阵，

是U_l的转置向量，/>

是U_v的转置向量中。

D、借助横向注意力机制对视觉模态的特征向量进行增强，利用如公式(4)分别计算出视觉模态与语言学模态之间的增强特征向量K_v-l，以及视觉模态与声学模态之间的增强特征向量K_v-a，再将两个增强特征向量拼接即可得到蕴含跨模态情感关联的视觉特征向量K_v。

/>

其中W_v是权重矩阵，

是U_l的转置向量，/>

是U_a的转置向量中。

E、借助自适应门控单元根据实际情况分配增强情感关联的权重。利用门控函数G()计算上下文情感关联增强向量S_i与跨模态情感关联增强向量K_i之间的互补耦合度τ，该互补耦合度以两者的非线性变换的形式衡量，且由于两者的尺寸大小并不匹配，为便于计算将S_i扩充成新的向量S_i′＝(S_i,S_i)。具体如公式(5)所示：

其中i∈{l,a,v}，

是权重矩阵，sigmod()是激活函数，o表示逐元素相乘。

然后利用互补耦合度τ自适应分配增强情感关联的权重。τ越大则表示多模态表征之间的情感信息得以互补耦合，此时使用跨模态情感关联增强模态表征较为合适；τ越小表示单模态中的情感信息足够丰富，此时使用上下文情感关联增强模态表征较为合适。最终得到每个模态的最优增强特征向量F_i，具体如公式(6)所示：

F_i＝(1-τ)·S_i′+τ·K_i (6)

其中i∈{l,a,v}。

S203：将所述增强情感关联的特征向量传入情感标签生成器中，利用其计算出各模态的积极表示中心和消极表示中心，并借助于模态表示类中心偏离度得出样本的单模态标签情感极性，最后利用样本标签值和特征向量之间的映射关系生成单模态标签值；

图4为本实施例提供的一种情感标签生成的流程示意图；所述情感标签生成实现的步骤为：

由于大多数多模态情感分析数据集仅提供多模态标签，而没有独立的单模态标签，因此本申请实施例基于模态表示类中心偏离度的情感标签生成器,旨在于利用多模态标签生成单模态标签。所述标签生成器主要是基于两种映射关系所设计的：①对于任意样本，其对应模态的标签值和特征向量之间存在映射关系(比如：某样本的语言学模态标签值与语言学模态特征向量之间是相关的)；②对于任意样本，其不同模态中所存在的映射关系互相之间是成比例的。上述映射关系可用公式(7)表示：

其中，F表示样本的特征向量，L表示样本的标签值，

表示映射关联，∝表示成比例，i∈{l,a,v}。

A、将语言学、声学和视觉三个模态增强情感关联后的特征向量拼接得到多模态特征向量F_f，具体如公式(8)所示：

F_f＝(F_l,F_a,F_v) (8)

B、分别计算多模态和单模态的积极表示中心

和消极表示中心/>

具体如公式(9)、公式(10)所示：

/>

其中I()表示指示函数，N表示样本的个数，F_k和F_i分别表示第k个和第i个样本的特征向量，m∈{f,l,a,v}。

C、使用巴氏系数计算模态中某一样本与两个类中心的偏离程度，用以判定该样本的情感极性，具体如公式(11)、公式(12)所示

其中K表示特征向量中的元素个数，m∈{f,l,a,v}。

D、根据样本对两个类中心的偏离程度判断该样本的情感极性，具体分为三种情况：

①如果S_p＞S_n，则该样本更偏向于积极表示中心，情感极性为“positive”，此时选择S_p计算样本的单模态标签值；

②如果S_p＜S_n，则该样本距离消极表示中心更近，情感极性为“negative”，此时使用S_n计算样本的单模态标签值；

③如果S_p＝S_n，则说明该样本处于两个中心点的临界处，情感极性为“neutral”，此时该样本的单模态标签值为0。

如图4所示，样本的单模态表征距离积极表示中心更近，满足上述情况①，所以对应的单峰标签情感极性应该为positive。

E、由于样本标签L与样本特征向量F的量纲不同无法直接结算，因此使用无量纲化的模态表示类中心S来代替F，并且使用比值与差值来量化前文所述的两种映射关系，得到如下公式计算单模态标签值L_u，具体如公式(13)、公式(14)、公式(15)所示：

S_f/L_f＝S_u/L_u (13)

S_f-L_f＝S_u-L_u (14)

其中u∈{l,a,v}。

所述多任务协同情感预测层实现的步骤为：

A、分别构造一个多模态情感预测神经网络和三个单模态情感预测神经网络，它们都是由三层神经网络所构成，其输入为对应模态的特征向量，输出层为情感2分类结果(positive、negative)。具体如公式(16)所示：

其中Q和b表示神经网络中的参数，Relu()表示激活函数，m∈{f,l,a,v}。

B、使用已知的多模态标签L_f以及通过情感标签生成器获取的三种单模态标签L_l、L_a、L_v借助多任务学习硬共享机制同时训练四个情感预测网络，通过三个单模态网络辅助多模态网络的训练，然后选择多模态情感预测网络的预测结果y_f作为最终的预测结果。

S204：将各模态的增强特征向量和对应的标签传入多任务协同情感预测层，以模态为单位并行构造四个情感预测任务，借助于多任务联合训练生成最终的情感预测结果。

表1为本申请实施例所提供方法与各种代表性方法在MOSI数据集上的比较结果比较。该比较选择在多模态情感分析领域的公共数据集CMU-MOSI上进行，主要测试了模型的情感2分类性能，即判定样本的情感类别是“positive”或者“negative”。该测试选择了情感2分类的准确率和F1分数作为评价指标，准确率是指样本预测结果中情感分类正确的数量与全部样本数量的比值，其值越大说明预测效果越好。F1分数是精确率和召回率的调和平均数，其值越大说明预测效果越好。如表1所示本申请实施例与多模态情感分析领域经典模型LMF、ARGF、MISA相比，在情感2分类测试时取得了更好的表现。

表1

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于情感关联和情感标签生成的多模态情感分析方法，其特征在于，包括以下步骤：

步骤1：将原始数据传入特征提取层，获取语境级特征向量；

步骤2：将所述语境级特征向量传入情感关联增强器，获得增强情感关联的特征向量；

步骤4：将各模态的增强特征向量及其对应的标签传入多任务协同情感预测层，获得最终的情感预测结果；

所述情感关联增强器的实现方法为：通过纵向注意力机制增强模态表征中的上下文情感关联；通过横向注意力机制分别获得语言学模态、声学模态、以及视觉模态的跨模态情感关联特征向量；并通过自适应门控单元根据实际情况分配增强情感关联的权重；最终得到所述每个模态的增强特征向量；

所述自适应门控单元利用门控函数计算上下文情感关联增强向量与跨模态情感关联增强向量之间的互补耦合度，然后利用互补耦合度自适应分配增强情感关联的权重；所述互补耦合度越大则表示多模态表征之间的情感信息得以互补耦合，此时跨模态情感关联信息的作用更大，应对其分配更大的权重；所述互补耦合度越小表示单模态中的情感信息足够丰富，此时上下文情感关联信息的作用更大，应对其分配更大的权重；

其中，所述互补耦合度为：

其中i∈{l,a,v}，l,a,v分别为语言学模态、声学模态以及视觉模态，/>

是权重矩阵，sigmod()是激活函数，/>

表示逐元素相乘，G()为门控函数，S_i为上下文情感关联增强向量，S′_i为S_i扩充成的新向量：S′_i＝(S_i,S_i)，K_i为跨模态情感关联增强向量，τ为互补耦合度。

2.根据权利要求1所述的多模态情感分析方法，其特征在于，所述获取语境级特征向量为：以每一句话作为分割点将所述原始数据切分成多个小片段，分别从一个小片段中获取语言学、声学和视觉模态的话语级特征向量；挖掘所述三个模态的特征向量在不同视频片段之间的相关度，根据所述相关度将所述特征向量整合作为一个语境序列，生成三个模态的语境级特征向量。

3.根据权利要求2所述的多模态情感分析方法，其特征在于，所述三个模态的语境级特征向量大小为1*d，d∈{32,64,128,256,512}。

4.根据权利要求1所述的多模态情感分析方法，其特征在于，获得所述语言学模态、所述声学模态、以及所述视觉模态之间跨模态情感关联信息的跨模态情感关联增强向量为分别计算出其中一个模态与另外两个模态之间的增强特征向量，并将获得的两个增强特征向量拼接即可获得蕴含跨模态情感关联的各个模态的特征向量。

5.根据权利要求1所述的多模态情感分析方法，其特征在于，所述情感标签生成的方法为：将所述语言学、声学以及视觉三个模态增强情感关联后的所述特征向量拼接得到多模态特征向量，分别计算多模态和单模态的积极表示中心和消极表示中心，根据样本与所述积极表示中心和消极表示中心的偏离程度，判定所述样本的情感极性获得所述单模态的标签值。

6.根据权利要求5所述的多模态情感分析方法，其特征在于，所述样本标签与所述样本特征向量的量纲不同无法直接计算，因此使用无量纲化的模态表示类中心，并且使用比值与差值来量化映射关系，得到所述单模态标签值。

7.根据权利要求1所述的多模态情感分析方法，其特征在于，所述多任务协同情感预测为：分别构造一个多模态情感预测神经网络与三个单模态情感预测神经网络，所述神经网络都是由三层神经网络所构成，其输入为对应模态的特征向量，输出为情感分类结果。

8.根据权利要求7所述的多模态情感分析方法，其特征在于，用多模态标签以及三种单模态标签借助多任务学习硬共享机制同时训练四个情感预测网络，通过所述三个单模态网络辅助多模态网络的训练，选择多模态情感预测网络的预测结果作为最终的预测结果。