CN114386515A - 基于Transformer算法的单模态标签生成和多模态情感判别方法 - Google Patents

基于Transformer算法的单模态标签生成和多模态情感判别方法 Download PDF

Info

Publication number
CN114386515A
CN114386515A CN202210037389.1A CN202210037389A CN114386515A CN 114386515 A CN114386515 A CN 114386515A CN 202210037389 A CN202210037389 A CN 202210037389A CN 114386515 A CN114386515 A CN 114386515A
Authority
CN
China
Prior art keywords
mode
modal
network module
modality
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210037389.1A
Other languages
English (en)
Other versions
CN114386515B (zh
Inventor
师飘
胡敏
时雪峰
李泽中
任福继
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210037389.1A priority Critical patent/CN114386515B/zh
Publication of CN114386515A publication Critical patent/CN114386515A/zh
Application granted granted Critical
Publication of CN114386515B publication Critical patent/CN114386515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Transformer算法的单模态标签生成和多模态情感判别方法,包括:1获取多模态非对齐数据集,并进行预处理得到对应模态的嵌入表达特征;2建立ITE网络模块,提取模态内特征;3单模态标签预测和多模态情感决策判别标签的融合生成;4建立模态间BTE网络模块和模态增强MTE网络模块,并经过全局自注意力STE网络模块获取模态间特征和模态增强特征;5获取多模态情感深层预测的标签。本发明对目前多模态数据集仅有一个多模态标签的情况,通过自监督的带权投票机制进行决策融合产生单模态标签,基于多种跨模态TE的使用,使得模态之间数据充分交互,从而能提升多模态情感判别的精度。

Description

基于Transformer算法的单模态标签生成和多模态情感判别 方法
技术领域
本发明涉及时序一维卷积神经网络Conv1D,BiLSTM,Transformer自注意力机制以及多模态交互注意力机制,涉及到模态的不同融合策略,实现多模态(语音,文本,视频)情感的评估,并使用带权投票的自监督机制,实现了单模态标签的预测和最终的多模态情感判别,属于多模态多任务的情感计算领域。
背景技术
随着大数据时代的到来,数据内容纷繁冗杂,数据形式也异常丰富。人类对某一事务的认知是结合多个模态信息感知下做出的反应。仅仅使用单一模态很难对信息进行全面解读,人类情感的判断尤其如此。如,眉头紧锁的人说对陪护机器人说,“我喜欢这道菜”,从表情上理解是负面情绪,但是语言上却是正面情绪。为进一步促进机器对人类情感的解读,提升人机交互的质量,降低心理疾病的出现,多模态的情感判别具有十分重要的意义。
传统的情感判别多是基于单一模态的,文本或视频信息。单模态的情感不能全面反应人的情感表达,而视听信息是协同共存的,利用多模态信息将在一定程度上能够提升数据的表征能力,为机器学习更好地解决下游任务提供有利帮助。借助多模态信息进行综合全面的情感判断。文本、视觉和听觉所构成的多模态信息,和单模态情感分析相比,多模态融合可以提供更为全面的信息,捕捉更多情感特征,使得情感判别算法更加稳健。
基于多模态的情感判别算法也有了一定的研究基础。经典的特征提取网络是使用LSTM分别提取不同模态的时序特征,并使用特征的早期融合或后期融合机制进行不同特征的连接,且现有技术多将每一个模态的语义信息看成一个整体,模态间的交互能力比较弱,情感分类不准。传统的网络无法解决序列长期依赖问题,无法动态关注重要模态的信息。其中很重要的一个方面是,公开数据集的标签是多个模态共享一个标签,不同模态没有自己独立的标签。而单模态和多模态之间存在很强的关联,且人工标注单模态标签费时费力,因此如何使用自监督的方式从多模态的特征和共享标签中学到单模态特征表示,对于深入理解多模态情感的表达具有重要的意义。模态之间的融合机制,对于解决模态数据缺失的问题,充分提取模态内特征和模态间的差异,也是值得研究的关键问题。
发明内容
本发明为克服现有技术的不足之处,提出一种基于Transformer算法的单模态标签生成和多模态情感判别方法,以期能基于带权的投票机制来实现单模态标签的预测和多模态情感决策判别标签的融合生成,并进一步探索单模态标签和多模态共享标签之间的关联,以提高网络特征提取的准确性,从而显著提高情感判别的精度。
本发明为解决技术问题采用如下技术方案:
本发明一种基于Transformer算法的单模态标签生成和多模态情感判别方法的特点是按如下步骤进行:
步骤1、获取多模态非对齐数据集,并进行预处理得到对应模态的嵌入表达特征;
步骤1.1、获取一段多模态的原始录像,并将所述原始录像中的语音模态序列记为
Figure BDA0003468497860000021
所述原始录像中的文本模态序列记为
Figure BDA0003468497860000022
所述原始录像中人脸表情的视频模态序列记为
Figure BDA0003468497860000023
其中,Ta,Tt,Tv分别表示语音、文本、视频序列的长度,da,dt,dv分别表示语音、文本、视频序列的维度信息,令多模态的原始录像的标签为y;
步骤1.2、利用式(1)-式(3)分别对语音模态序列Ua,视频模态序列Uv和文本模态序列Ut进行规范化处理,得到对应模态的底层语义特征
Figure BDA0003468497860000024
Figure BDA0003468497860000025
Figure BDA0003468497860000026
Figure BDA0003468497860000027
式(1)和(2)中,BN(·)表示批量标准化,Conv1D(·)表示时序一维卷积操作,Us,s∈{a,v,t}表示对应模态序列,ks,s∈{a,v}表示对应模态卷积核的大小,Ts,s∈{a,v,t}表示对应模态序列的长度,式(3)中,BiLSTM(·)表示双向长短期记忆网络,LN(·)表示层归一化处理,d表示特征统一后的维度;
步骤1.3、结合对应模态的底层语义特征
Figure BDA0003468497860000028
使用式(4)生成对应模态的嵌入表达特征Xs,s∈{a,v,t};
Figure BDA0003468497860000029
式(4)中,PE表示正弦位置编码;
步骤2、建立ITE网络模块,提取模态内特征;
步骤2.1、初始化单模态训练数据集合中的单模态标签ys为人工标注的多模态标签,即ys=y,s∈{a,v,t};
步骤2.2、将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入至ITE网络模块,获取单模态的编码序列和模态内特征;
所述ITE网络模块是由两个子模块组成,包括:多头注意力模块Multihead和带有注意力的前向传播模块MLP-SE;
将嵌入表达特征Xs输入所述多头注意力模块Multihead中,并利用式(5)得到多头注意力特征
Figure BDA0003468497860000035
Figure BDA0003468497860000036
式(5)中,x∈{a,v,t}代表任一模态,x→s表示将x模态的信息传递给s模态的交互方式,Xx表示对应模态的嵌入表达特征;
将多头注意力特征
Figure BDA0003468497860000031
输入所述前向传播模块MLP-SE,并利用式(6)获取所述ITE网络模块输出的编码序列Xx→s
Figure BDA0003468497860000032
式(6)中GELU为激活函数,W1 T和W2 T分别表示第一个、第二个线性变换的权重矩阵的转置,b1和b2表示两个线形层的偏置向量,SE表示注意力机制,输出X′x→s中间特征;
最终利用式(7)表征式(5)和式(6),得到模态内特征
Figure BDA0003468497860000033
Figure BDA0003468497860000034
步骤2.3、将所述ITE网络模块堆叠N次后,输出最终的模态内特征Is→s,简记为Is
步骤2.4、定义模态间BTE网络模块、模态增强MTE网络模块、全局自注意力STE网络模块的结构与所述ITE网络模块相同,并将四个网络模块中的任一网络模块记为WTE模块,则按照所述ITE网络模块内两个子模块的数据处理过程所表征的式(5)和式(6),将WTE模块内两个子模块的数据处理过程记为式(8):
Xx→s=WTE(Xs,Xx) (8)
步骤3、单模态标签预测和多模态情感决策判别标签的融合生成;
将所述模态内特征Is输入一个MLP-SE模块,从而利用式(9)得到单模态的标签预测值
Figure BDA0003468497860000041
Figure BDA0003468497860000042
式(9)中,
Figure BDA0003468497860000043
Figure BDA0003468497860000044
分别表示s模态的第一、第二个线性变换的权重矩阵的转置,
Figure BDA0003468497860000045
Figure BDA0003468497860000046
分别表示s模态的两个线形层的偏置向量;
根据模态的非全显性,并结合单模态标签的预测值,利用式(10)得到多模态情感决策判别的标签y”:
Figure BDA0003468497860000047
式(10)中,α123分别表示文本模态、语音模态、视频模态输出值的权重值;
步骤4、建立模态间BTE网络模块和模态增强MTE网络模块,并经过全局自注意力STE网络模块获取模态间特征和模态增强特征;
步骤4.1、所述模态间BTE网络模块利用式(8)对嵌入表达特征Xs进行处理,获得语音序列、文本序列和图像序列的两两交互的编码特征
Figure BDA0003468497860000048
s≠x,s,x∈{a,v,t};
步骤4.2、使用张量拼接的方式将两两交互的编码特征
Figure BDA0003468497860000049
进行特征融合,然后利用式(11),使用全局自注意力STE网络模块对融合后的特征进行提取,得到模态间特征B* s→s,简记为
Figure BDA00034684978600000410
Figure BDA00034684978600000411
式(11)中,符号
Figure BDA00034684978600000412
表示张量的拼接操作,s≠x1≠x2,s,x1,x2∈{a,v,t};
步骤4.3、使用模态增强MTE网络模块进行模态增强特征提取;
所述模态增强MTE网络模块对所述嵌入表达特征Xs,s∈{a,v,t}进行张量拼接,形成多模态m的早期融合向量Xm
所述模态增强MTE网络模块利用式(8)对所述嵌入表达特征Xs和早期融合特征Xm进行处理,得到模态的增强特征
Figure BDA00034684978600000413
步骤4.4、将模态的增强特征
Figure BDA00034684978600000414
再次送入全局自注意力STE网络模块进行全局自注意力特征的提取,得到增强特征M* s→s,s∈{a,v,t},简记为
Figure BDA00034684978600000415
步骤5、获取多模态情感深层预测标签;
将模态间BTE网络模块、模态增强MTE网络模块分别堆叠N次,得到最终的模态间特征Bs和最终的模态增强特征Ms,s∈{a,v,t},并将最终的模态间特征Bs和最终的模态增强特征Ms进行张量拼接,得到融合后的多模态特征MB;
将所述多模态特征MB输入至MLP-SE模块,使用式(12)进行多模态情感深层预测,得到标签y′;
Figure BDA0003468497860000051
式(12)中,GELU为激活函数,
Figure BDA0003468497860000052
Figure BDA0003468497860000053
分别表示多模态m的第一个和第二个线性变换的权重矩阵的转置,
Figure BDA0003468497860000054
Figure BDA0003468497860000055
表示两个线形层的偏置向量;
步骤6、损失函数的设计与迭代训练;
步骤6.1、利用式(13)构建带有标签平滑的损失函数loss:
Figure BDA0003468497860000056
式(13)中,ξ1和ξ2表示多模态情感深层预测的标签y′与多模态情感决策判别的标签y″分别和多模态的原始录像的标签y之间的残差超参值;
步骤6.2、设置最大迭代次数epoch,将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入步骤2-步骤6.1中进行训练,并计算所述损失函数loss,当迭代次数达到epoch时,停止训练,从而得到最优预测模型,用于对所输入的多模态情感数据集进行单模态标签的预测,并输出多模态情感深层预测的标签和多模态情感决策判别的标签。
与已有技术相比,本发明的有益效果在于:
1、基于Transformer的情感序列上下文建模可以解决传统LSTM等方法的序列长期依赖问题,在对齐的数据和非对其数据上均具有一定的优势。
2、本发明实现了不同层次的融合机制,不仅仅包含前期的特征融合,还包含了经过深层特征提取之后的后期特征融合,以及单模态标签生成多模态标签的后期决策融合。将跨模态的融合信息在不同的特征层次上进行融合,充分挖掘多模态信息之间的互补信息,是当前多模态情感识别领域上多模态融合架构的有效补充。
3、本发明提出不同模态之间情感具有非全显性,某一模态处于主导,其他模态可能比较隐蔽,且成年人更容易隐藏自己的情感,但是有效的情感表达和情感交互,显性模态起主要作用,隐形模态也可以理解为是多模态整体情感的干扰信息。
4、本发明充分进行模态间的交互操作,基于多模态TransformerEncoder的模态内ITE,模态间BTE,以及单模态增强MTE等多种特征提取策略,可以解决直接进行特征融合而忽视的模态间交互问题,提高模型对情感语义的理解和泛化能力。
5、基于自监督的投票机制的单模态标签生成思想,深入分析多模态情感数据集,针对目前开源的英文多模态情绪数据集中仅仅存在一个统一标签的问题提供解决思路,此研究可以为单模态情感分析或为探讨单模态和多模态情感关联提供基础。
6、基于多模态短视频中人物情感标签具有一定的平滑过渡性,为了避免网络过分相信训练样本中异常点的标签,研究使用标签平滑损失可在一定程度上解决过拟合问题,并体现了情感变化的平滑性。
附图说明
图1为本发明整体结构图;
图2为本发明方法中TransformerEncoder结构图;
图3为本发明模态间BTE展开结构图。
具体实施方式
本实施例中,一种基于Transformer算法的单模态标签生成和多模态情感判别方法,整体算法流程如图1所示,其步骤包括:首先获取多模态非对齐数据集,并进行预处理得到对应模态的嵌入表达特征;然后建立ITE网络模块,提取模态内特征;结合单模态标签预测和多模态情感决策判别标签的融合生成,建立模态间BTE网络模块和模态增强MTE网络模块,并经过全局自注意力STE网络模块获取模态间特征和模态增强特征,获取多模态情感深层预测的标签;最后结合损失函数的设计进行迭代训练。具体说,其特征是按如下步骤进行:
步骤1、获取多模态非对齐数据集,并进行预处理得到对应模态的嵌入表达特征;
本实例中,使用的是CMU-MOSI,CMU-MOSEI以及IEMOCAP数据集,研究所包含的CMU数据来自于真实环境的YouTube网站,而IEMOCAP采集自实验室环境,不同的数据来源也是为了更充分全面地验证本发明;
步骤1.1、获取一段多模态的原始录像,并将原始录像中的语音模态序列记为
Figure BDA0003468497860000061
原始录像中的文本模态序列记为
Figure BDA0003468497860000062
原始录像中人脸表情的视频模态序列记为
Figure BDA0003468497860000071
其中,Ta,Tt,Tv分别表示语音、文本、视频序列的长度,da,dt,dv分别表示语音、文本、视频序列的维度信息,令多模态的原始录像的标签为y,对于CMU数据,包含2分类标签(积极情绪和消极情绪),以及7分类标签(情感的7类[-3,+3]得分值),而对于IEMOCAP,则包含开心、伤心、生气、中性四种情感状态;
步骤1.2、序列维度统一化处理,并确保输入序列中的每一个元素都能感知相邻元素,利用式(1)-式(3)分别对语音模态序列Ua,视频模态序列Uv和文本模态序列Ut进行规范化处理,得到对应模态的底层语义特征
Figure BDA0003468497860000072
Figure BDA0003468497860000073
Figure BDA0003468497860000074
Figure BDA0003468497860000075
式(1)和(2)中,BN(·)表示批量标准化,Conv1D(·)表示时序一维卷积操作,Us,s∈{a,v,t}表示对应模态序列,ks,s∈{a,v}表示对应模态卷积核的大小,本实施例中,核大小为1,步长也为1,Ts,s∈{a,v,t}表示对应模态序列的长度;
式(3)中,BiLSTM(·)表示双向长短期记忆网络,LN(·)表示层归一化处理,d表示特征统一后的维度,本实施例中d为30;
步骤1.3、使用PE正弦位置编码生成不同时刻的信息,结合对应模态的底层语义特征
Figure BDA0003468497860000076
使用式(4)生成对应模态的嵌入表达特征Xs,s∈{a,v,t};
Figure BDA0003468497860000077
式(4)中,PE表示正弦位置编码;
步骤2、建立ITE(Intra-modal TransformerEncoder)网络模块,提取深层特征,获取单模态的高层语义特征的编码序列,即模态内特征;
步骤2.1、初始化单模态训练数据集合中的单模态标签ys为人工标注的多模态标签,即ys=y,s∈{a,v,t};
步骤2.2、将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入至ITE网络模块,获取单模态的编码序列和模态内特征;
ITE网络模块是由两个子模块组成,如图2所示,TransformerEncoder结构图所示,本实施例中,多头注意力机制中的头数设置为8,包括:多头注意力模块Multihead和带有注意力的前向传播模块MLP-SE;
将嵌入表达特征Xs输入多头注意力模块Multihead中,并利用式(5)得到多头注意力特征
Figure BDA0003468497860000081
Figure BDA0003468497860000082
式(5)中,x∈{a,v,t}代表任一模态,x→s表示将x模态的信息传递给s模态的交互方式,让s模态特征指导模型匹配x模态特征相应的区域,并将与s模态特征紧密相关的x模态特征区域赋予高重要性权值,Xx表示对应模态的嵌入表达特征;
将多头注意力特征
Figure BDA0003468497860000083
输入前向传播模块MLP-SE,并利用式(6)获取ITE网络模块输出的编码序列Xx→s
Figure BDA0003468497860000084
式(6)中GELU为激活函数,W1 T和W2 T分别表示第一个、第二个线性变换的权重矩阵的转置,b1和b2表示两个线形层的偏置向量,SE表示注意力机制,输出X′x→s中间特征;
最终利用式(7)表征式(5)和式(6),得到模态内特征
Figure BDA0003468497860000085
Figure BDA0003468497860000086
步骤2.3、将ITE网络模块堆叠N次后,本实施例中,设置为3次堆叠,如图1所示,输出最终的模态内特征Is→s,简记为Is
步骤2.4、定义模态间BTE(Between-modal TransformerEncoder)网络模块、模态增强MTE(Multi-modal TransformerEncoder)网络模块、全局自注意力STE(Self-modalTransformer Encoder)网络模块的结构与ITE网络模块相同,并将四个网络模块中的任一网络模块记为WTE模块,则按照ITE网络模块内两个子模块的数据处理过程所表征的式(5)和式(6),将WTE模块内两个子模块的数据处理过程记式(8):
Xx→s=WTE(Xs,Xx) (8)
步骤3、单模态标签预测和多模态情感决策判别标签的融合生成;
将模态内特征Is输入一个MLP-SE模块,从而利用式(9)得到单模态的标签预测值
Figure BDA0003468497860000091
Figure BDA0003468497860000092
式(9)中,
Figure BDA0003468497860000093
Figure BDA0003468497860000094
分别表示s模态的第一、第二个线性变换的权重矩阵的转置,
Figure BDA0003468497860000095
Figure BDA0003468497860000096
分别表示s模态的两个线形层的偏置向量;
根据模态的非全显性,即多模态数据中会有部分隐性模态的信息丢失(假隐),设计权重控制每一个模态对多模态的贡献率,并结合单模态标签的预测值,共同决策,根据带有权重的单模态标签投票机制,利用式(10)得到多模态情感决策判别的标签y″:
Figure BDA0003468497860000097
式(10)中,α123分别表示文本模态、语音模态、视频模态输出值的权重值,本施例中,权重值是一个基于统计的超参数,α123分别为0.45、0.25、0.30,后期也可以通过训练学习进行调整;
步骤4、建立模态间BTE网络模块和模态增强MTE网络模块,并经过全局自注意力STE网络模块获取模态间特征和模态增强特征;
步骤4.1、模态间BTE网络模块利用式(8)对嵌入表达特征Xs进行处理,获得语音序列、文本序列和图像序列的两两交互的编码特征
Figure BDA0003468497860000098
s≠x,s,x∈{a,v,t},展开具体的图解结构如图3所示;
步骤4.2、使用张量拼接的方式,如图3所示,将两两交互的编码特征
Figure BDA0003468497860000099
进行特征融合,然后利用式(11),使用全局自注意力STE网络模块对融合后的特征进行提取,得到模态间特征B* s→s,简记为
Figure BDA00034684978600000910
Figure BDA00034684978600000911
式(11)中,符号
Figure BDA00034684978600000912
表示张量的拼接操作,s≠x1≠x2,s,x1,x2∈{a,v,t};
步骤4.3、使用模态增强MTE网络模块进行模态增强特征提取;
模态增强MTE网络模块对嵌入表达特征Xs,s∈{a,v,t}进行张量拼接,形成多模态m的早期融合向量Xm
模态增强MTE网络模块利用式(8)对嵌入表达特征Xs和早期融合特征Xm进行处理,得到模态的增强特征
Figure BDA0003468497860000101
步骤4.4、将增强模态的特征
Figure BDA0003468497860000102
再次送入全局自注意力STE网络模块进行全局自注意力特征的提取,得到增强特征M* s→s,s∈{a,v,t},简记为
Figure BDA0003468497860000103
步骤5、获取多模态情感深层预测标签;
将模态间BTE网络模块、模态增强MTE网络模块的单次输出
Figure BDA0003468497860000104
Figure BDA0003468497860000105
分别堆叠N次,能够进一步挖掘多模态信息之间的高层次互补信息,得到最终的模态间特征Bs和最终的模态增强特征Ms,s∈{a,v,t},并将最终的模态间特征Bs和最终的模态增强特征Ms进行张量拼接,得到融合后的多模态特征MB,如图1所示,该特征包含了增强的单模态特征以及模态间特征,同时也包含多模态的后期融合特征;
将多模态特征MB输入至MLP-SE模块,使用式(12)进行多模态情感深层预测,得到标签y′;
Figure BDA0003468497860000106
式(12)中,GELU为激活函数,
Figure BDA0003468497860000107
Figure BDA0003468497860000108
分别表示多模态m的第一个和第二个线性变换的权重矩阵的转置,
Figure BDA0003468497860000109
Figure BDA00034684978600001010
表示两个线形层的偏置向量;
步骤6、损失函数的设计与迭代训练;
步骤6.1、Huber损失对于离群点非常的有效,它同时结合了L1损失与L2损失的优点,结合情感标签的平滑性,设计带有标签平滑的损失函数,通过加入噪声,减少真实样本标签在计算损失函数时的权重,抑制过拟合,利用式(13)构建带有标签平滑的损失函数loss:
Figure BDA00034684978600001011
式(13)中ξ1和ξ2表示多模态情感深层预测的标签y′与多模态情感决策判别的标签y″分别和多模态的原始录像的标签y之间的残差超参值;
步骤6.2、设置最大迭代次数epoch=50,将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入步骤2-步骤6.1中进行训练,并计算损失函数loss,当迭代次数达到epoch时,停止训练,从而得到最优预测模型,用于对所输入的多模态情感数据集进行单模态标签的预测,并输出多模态情感深层预测的标签和多模态情感决策判别的标签。
综上所述,本方法对目前开源的英文多模态情绪数据集仅有一个多模态标签的情况,结合不同模态之间情感具有非全显性,通过自监督的带权投票机制进行决策融合产生单模态标签和多模态情感决策判别的标签。基于多种交互策略进行的模态内、模态间、增强模态等特征的提取对于多模态数据集进行了深入的挖掘,使得模态之间数据充分交互,可以解决直接进行特征融合而忽视的模态间交互的问题,提高模型对情感语义的理解和泛化能力,最终结合情感标签的平滑过渡性,使用标签平滑损失,实现多模态情感的深层预测,从而显著提高了情感判别的精度。

Claims (1)

1.一种基于Transformer算法的单模态标签生成和多模态情感判别方法,其特征是按如下步骤进行:
步骤1、获取多模态非对齐数据集,并进行预处理得到对应模态的嵌入表达特征;
步骤1.1、获取一段多模态的原始录像,并将所述原始录像中的语音模态序列记为
Figure FDA0003468497850000011
所述原始录像中的文本模态序列记为
Figure FDA0003468497850000012
所述原始录像中人脸表情的视频模态序列记为
Figure FDA0003468497850000013
其中,Ta,Tt,Tv分别表示语音、文本、视频序列的长度,da,dt,dv分别表示语音、文本、视频序列的维度信息,令多模态的原始录像的标签为y;
步骤1.2、利用式(1)-式(3)分别对语音模态序列Ua,视频模态序列Uv和文本模态序列Ut进行规范化处理,得到对应模态的底层语义特征
Figure FDA0003468497850000014
Figure FDA0003468497850000015
Figure FDA0003468497850000016
Figure FDA0003468497850000017
式(1)和(2)中,BN(·)表示批量标准化,Conv1D(·)表示时序一维卷积操作,Us,s∈{a,v,t}表示对应模态序列,ks,s∈{a,v}表示对应模态卷积核的大小,Ts,s∈{a,v,t}表示对应模态序列的长度,式(3)中,BiLSTM(·)表示双向长短期记忆网络,LN(·)表示层归一化处理,d表示特征统一后的维度;
步骤1.3、结合对应模态的底层语义特征
Figure FDA0003468497850000018
使用式(4)生成对应模态的嵌入表达特征Xs,s∈{a,v,t};
Figure FDA0003468497850000019
式(4)中,PE表示正弦位置编码;
步骤2、建立ITE网络模块,提取模态内特征;
步骤2.1、初始化单模态训练数据集合中的单模态标签ys为人工标注的多模态标签,即ys=y,s∈{a,v,t};
步骤2.2、将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入至ITE网络模块,获取单模态的编码序列和模态内特征;
所述ITE网络模块是由两个子模块组成,包括:多头注意力模块Multihead和带有注意力的前向传播模块MLP-SE;
将嵌入表达特征Xs输入所述多头注意力模块Multihead中,并利用式(5)得到多头注意力特征
Figure FDA0003468497850000021
Figure FDA0003468497850000022
式(5)中,x∈{a,v,t}代表任一模态,x→s表示将x模态的信息传递给s模态的交互方式,Xx表示对应模态的嵌入表达特征;
将多头注意力特征
Figure FDA0003468497850000023
输入所述前向传播模块MLP-SE,并利用式(6)获取所述ITE网络模块输出的编码序列Xx→s
Figure FDA0003468497850000024
式(6)中GELU为激活函数,W1 T和W2 T分别表示第一个、第二个线性变换的权重矩阵的转置,b1和b2表示两个线形层的偏置向量,SE表示注意力机制,输出X′x→s中间特征;
最终利用式(7)表征式(5)和式(6),得到模态内特征
Figure FDA0003468497850000025
Figure FDA0003468497850000026
步骤2.3、将所述ITE网络模块堆叠N次后,输出最终的模态内特征Is→s,简记为Is
步骤2.4、定义模态间BTE网络模块、模态增强MTE网络模块、全局自注意力STE网络模块的结构与所述ITE网络模块相同,并将四个网络模块中的任一网络模块记为WTE模块,则按照所述ITE网络模块内两个子模块的数据处理过程所表征的式(5)和式(6),将WTE模块内两个子模块的数据处理过程记为式(8):
Xx→s=WTE(Xs,Xx) (8)
步骤3、单模态标签预测和多模态情感决策判别标签的融合生成;
将所述模态内特征Is输入一个MLP-SE模块,从而利用式(9)得到单模态的标签预测值
Figure FDA0003468497850000027
Figure FDA0003468497850000031
式(9)中,W1 sT
Figure FDA0003468497850000032
分别表示s模态的第一、第二个线性变换的权重矩阵的转置,
Figure FDA0003468497850000033
Figure FDA0003468497850000034
分别表示s模态的两个线形层的偏置向量;
根据模态的非全显性,并结合单模态标签的预测值,利用式(10)得到多模态情感决策判别的标签y”:
Figure FDA0003468497850000035
式(10)中,α123分别表示文本模态、语音模态、视频模态输出值的权重值;
步骤4、建立模态间BTE网络模块和模态增强MTE网络模块,并经过全局自注意力STE网络模块获取模态间特征和模态增强特征;
步骤4.1、所述模态间BTE网络模块利用式(8)对嵌入表达特征Xs进行处理,获得语音序列、文本序列和图像序列的两两交互的编码特征
Figure FDA0003468497850000036
步骤4.2、使用张量拼接的方式将两两交互的编码特征
Figure FDA0003468497850000037
进行特征融合,然后利用式(11),使用全局自注意力STE网络模块对融合后的特征进行提取,得到模态间特征
Figure FDA0003468497850000038
简记为
Figure FDA0003468497850000039
Figure FDA00034684978500000310
式(11)中,符号
Figure FDA00034684978500000311
表示张量的拼接操作,s≠x1≠x2,s,x1,x2∈{a,v,t};
步骤4.3、使用模态增强MTE网络模块进行模态增强特征提取;
所述模态增强MTE网络模块对所述嵌入表达特征Xs,s∈{a,v,t}进行张量拼接,形成多模态m的早期融合向量Xm
所述模态增强MTE网络模块利用式(8)对所述嵌入表达特征Xs和早期融合特征Xm进行处理,得到模态的增强特征
Figure FDA00034684978500000312
步骤4.4、将模态的增强特征
Figure FDA00034684978500000313
再次送入全局自注意力STE网络模块进行全局自注意力特征的提取,得到增强特征
Figure FDA00034684978500000314
简记为
Figure FDA00034684978500000315
步骤5、获取多模态情感深层预测标签;
将模态间BTE网络模块、模态增强MTE网络模块分别堆叠N次,得到最终的模态间特征Bs和最终的模态增强特征Ms,s∈{a,v,t},并将最终的模态间特征Bs和最终的模态增强特征Ms进行张量拼接,得到融合后的多模态特征MB;
将所述多模态特征MB输入至MLP-SE模块,使用式(12)进行多模态情感深层预测,得到标签y′;
Figure FDA0003468497850000041
式(12)中,GELU为激活函数,W1 mT
Figure FDA0003468497850000042
分别表示多模态m的第一个和第二个线性变换的权重矩阵的转置,
Figure FDA0003468497850000043
Figure FDA0003468497850000044
表示两个线形层的偏置向量;
步骤6、损失函数的设计与迭代训练;
步骤6.1、利用式(13)构建带有标签平滑的损失函数loss:
Figure FDA0003468497850000045
式(13)中,ξ1和ξ2表示多模态情感深层预测的标签y′与多模态情感决策判别的标签y″分别和多模态的原始录像的标签y之间的残差超参值;
步骤6.2、设置最大迭代次数epoch,将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入步骤2-步骤6.1中进行训练,并计算所述损失函数loss,当迭代次数达到epoch时,停止训练,从而得到最优预测模型,用于对所输入的多模态情感数据集进行单模态标签的预测,并输出多模态情感深层预测的标签和多模态情感决策判别的标签。
CN202210037389.1A 2022-01-13 2022-01-13 基于Transformer算法的单模态标签生成和多模态情感判别方法 Active CN114386515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210037389.1A CN114386515B (zh) 2022-01-13 2022-01-13 基于Transformer算法的单模态标签生成和多模态情感判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210037389.1A CN114386515B (zh) 2022-01-13 2022-01-13 基于Transformer算法的单模态标签生成和多模态情感判别方法

Publications (2)

Publication Number Publication Date
CN114386515A true CN114386515A (zh) 2022-04-22
CN114386515B CN114386515B (zh) 2024-02-20

Family

ID=81201492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210037389.1A Active CN114386515B (zh) 2022-01-13 2022-01-13 基于Transformer算法的单模态标签生成和多模态情感判别方法

Country Status (1)

Country Link
CN (1) CN114386515B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034227A (zh) * 2022-06-28 2022-09-09 西安交通大学 一种基于多模态互注意融合的渐进式多任务情感分析方法
CN116150383A (zh) * 2023-04-21 2023-05-23 湖南工商大学 基于跨模态注意力机制的谣言检测方法及模型
CN116257142A (zh) * 2023-05-12 2023-06-13 福建省亿鑫海信息科技有限公司 基于多模态数据特征化的安全监测方法及终端
CN117891940A (zh) * 2023-12-11 2024-04-16 华南师范大学 多模态讽刺检测方法、装置、计算机设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN112633364A (zh) * 2020-12-21 2021-04-09 上海海事大学 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
US11045271B1 (en) * 2021-02-09 2021-06-29 Bao Q Tran Robotic medical system
CN113065577A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种面向目标的多模态情感分类方法
CN113420807A (zh) * 2021-06-22 2021-09-21 哈尔滨理工大学 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN112633364A (zh) * 2020-12-21 2021-04-09 上海海事大学 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
US11045271B1 (en) * 2021-02-09 2021-06-29 Bao Q Tran Robotic medical system
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models
CN113065577A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种面向目标的多模态情感分类方法
CN113420807A (zh) * 2021-06-22 2021-09-21 哈尔滨理工大学 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
余莉萍;梁镇麟;梁瑞宇;: "基于改进LSTM的儿童语音情感识别模型", 计算机工程, no. 06, 15 June 2020 (2020-06-15), pages 46 - 55 *
邹纪云;许云峰;: "基于辅助模态监督训练的情绪识别神经网络", 河北科技大学学报, no. 05, 15 October 2020 (2020-10-15), pages 33 - 34 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034227A (zh) * 2022-06-28 2022-09-09 西安交通大学 一种基于多模态互注意融合的渐进式多任务情感分析方法
CN115034227B (zh) * 2022-06-28 2024-04-19 西安交通大学 一种基于多模态互注意融合的渐进式多任务情感分析方法
CN116150383A (zh) * 2023-04-21 2023-05-23 湖南工商大学 基于跨模态注意力机制的谣言检测方法及模型
CN116257142A (zh) * 2023-05-12 2023-06-13 福建省亿鑫海信息科技有限公司 基于多模态数据特征化的安全监测方法及终端
CN116257142B (zh) * 2023-05-12 2023-07-21 福建省亿鑫海信息科技有限公司 基于多模态数据特征化的安全监测方法及终端
CN117891940A (zh) * 2023-12-11 2024-04-16 华南师范大学 多模态讽刺检测方法、装置、计算机设备以及存储介质

Also Published As

Publication number Publication date
CN114386515B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
Zhu et al. Multimodal sentiment analysis based on fusion methods: A survey
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
Wu et al. Video sentiment analysis with bimodal information-augmented multi-head attention
Vashisht et al. Speech recognition using machine learning
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN114386515A (zh) 基于Transformer算法的单模态标签生成和多模态情感判别方法
CN113822192A (zh) 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN115577161A (zh) 融合情感资源的多模态情感分析模型
CN113971837B (zh) 一种基于知识的多模态特征融合的动态图神经手语翻译方法
Qi et al. MEDT: Using multimodal encoding-decoding network as in transformer for multimodal sentiment analysis
Lin et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN115544279B (zh) 一种基于协同注意力的多模态情感分类方法及其应用
Ming-Hao et al. Data fusion methods in multimodal human computer dialog
CN114091466A (zh) 一种基于Transformer和多任务学习的多模态情感分析方法及系统
CN116108215A (zh) 基于深度融合的跨模态大数据检索方法及系统
CN115272908A (zh) 一种基于改进Transformer的多模态情感识别方法和系统
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
Deng et al. Multimodal affective computing with dense fusion transformer for inter-and intra-modality interactions
Boukdir et al. Character-level Arabic text generation from sign language video using encoder–decoder model
CN117633674A (zh) 一种基于因果门控注意力机制的多模态情感分析方法
Hu et al. Speech emotion recognition based on attention mcnn combined with gender information
Rana et al. Multi-task semisupervised adversarial autoencoding for speech emotion
CN115169348A (zh) 一种基于混合神经网络的事件抽取方法
Patamia et al. Multimodal Speech Emotion Recognition Using Modality-Specific Self-Supervised Frameworks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant