CN114386515A - 基于Transformer算法的单模态标签生成和多模态情感判别方法 - Google Patents
基于Transformer算法的单模态标签生成和多模态情感判别方法 Download PDFInfo
- Publication number
- CN114386515A CN114386515A CN202210037389.1A CN202210037389A CN114386515A CN 114386515 A CN114386515 A CN 114386515A CN 202210037389 A CN202210037389 A CN 202210037389A CN 114386515 A CN114386515 A CN 114386515A
- Authority
- CN
- China
- Prior art keywords
- mode
- modal
- network module
- modality
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 230000014509 gene expression Effects 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 12
- 239000004576 sand Substances 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 8
- 108091026890 Coding region Proteins 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000000844 transformation Methods 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000008921 facial expression Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000011541 reaction mixture Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于Transformer算法的单模态标签生成和多模态情感判别方法,包括:1获取多模态非对齐数据集,并进行预处理得到对应模态的嵌入表达特征;2建立ITE网络模块,提取模态内特征;3单模态标签预测和多模态情感决策判别标签的融合生成;4建立模态间BTE网络模块和模态增强MTE网络模块,并经过全局自注意力STE网络模块获取模态间特征和模态增强特征;5获取多模态情感深层预测的标签。本发明对目前多模态数据集仅有一个多模态标签的情况,通过自监督的带权投票机制进行决策融合产生单模态标签,基于多种跨模态TE的使用,使得模态之间数据充分交互,从而能提升多模态情感判别的精度。
Description
技术领域
本发明涉及时序一维卷积神经网络Conv1D,BiLSTM,Transformer自注意力机制以及多模态交互注意力机制,涉及到模态的不同融合策略,实现多模态(语音,文本,视频)情感的评估,并使用带权投票的自监督机制,实现了单模态标签的预测和最终的多模态情感判别,属于多模态多任务的情感计算领域。
背景技术
随着大数据时代的到来,数据内容纷繁冗杂,数据形式也异常丰富。人类对某一事务的认知是结合多个模态信息感知下做出的反应。仅仅使用单一模态很难对信息进行全面解读,人类情感的判断尤其如此。如,眉头紧锁的人说对陪护机器人说,“我喜欢这道菜”,从表情上理解是负面情绪,但是语言上却是正面情绪。为进一步促进机器对人类情感的解读,提升人机交互的质量,降低心理疾病的出现,多模态的情感判别具有十分重要的意义。
传统的情感判别多是基于单一模态的,文本或视频信息。单模态的情感不能全面反应人的情感表达,而视听信息是协同共存的,利用多模态信息将在一定程度上能够提升数据的表征能力,为机器学习更好地解决下游任务提供有利帮助。借助多模态信息进行综合全面的情感判断。文本、视觉和听觉所构成的多模态信息,和单模态情感分析相比,多模态融合可以提供更为全面的信息,捕捉更多情感特征,使得情感判别算法更加稳健。
基于多模态的情感判别算法也有了一定的研究基础。经典的特征提取网络是使用LSTM分别提取不同模态的时序特征,并使用特征的早期融合或后期融合机制进行不同特征的连接,且现有技术多将每一个模态的语义信息看成一个整体,模态间的交互能力比较弱,情感分类不准。传统的网络无法解决序列长期依赖问题,无法动态关注重要模态的信息。其中很重要的一个方面是,公开数据集的标签是多个模态共享一个标签,不同模态没有自己独立的标签。而单模态和多模态之间存在很强的关联,且人工标注单模态标签费时费力,因此如何使用自监督的方式从多模态的特征和共享标签中学到单模态特征表示,对于深入理解多模态情感的表达具有重要的意义。模态之间的融合机制,对于解决模态数据缺失的问题,充分提取模态内特征和模态间的差异,也是值得研究的关键问题。
发明内容
本发明为克服现有技术的不足之处,提出一种基于Transformer算法的单模态标签生成和多模态情感判别方法,以期能基于带权的投票机制来实现单模态标签的预测和多模态情感决策判别标签的融合生成,并进一步探索单模态标签和多模态共享标签之间的关联,以提高网络特征提取的准确性,从而显著提高情感判别的精度。
本发明为解决技术问题采用如下技术方案:
本发明一种基于Transformer算法的单模态标签生成和多模态情感判别方法的特点是按如下步骤进行:
步骤1、获取多模态非对齐数据集,并进行预处理得到对应模态的嵌入表达特征;
步骤1.1、获取一段多模态的原始录像,并将所述原始录像中的语音模态序列记为所述原始录像中的文本模态序列记为所述原始录像中人脸表情的视频模态序列记为其中,Ta,Tt,Tv分别表示语音、文本、视频序列的长度,da,dt,dv分别表示语音、文本、视频序列的维度信息,令多模态的原始录像的标签为y;
式(1)和(2)中,BN(·)表示批量标准化,Conv1D(·)表示时序一维卷积操作,Us,s∈{a,v,t}表示对应模态序列,ks,s∈{a,v}表示对应模态卷积核的大小,Ts,s∈{a,v,t}表示对应模态序列的长度,式(3)中,BiLSTM(·)表示双向长短期记忆网络,LN(·)表示层归一化处理,d表示特征统一后的维度;
式(4)中,PE表示正弦位置编码;
步骤2、建立ITE网络模块,提取模态内特征;
步骤2.1、初始化单模态训练数据集合中的单模态标签ys为人工标注的多模态标签,即ys=y,s∈{a,v,t};
步骤2.2、将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入至ITE网络模块,获取单模态的编码序列和模态内特征;
所述ITE网络模块是由两个子模块组成,包括:多头注意力模块Multihead和带有注意力的前向传播模块MLP-SE;
式(5)中,x∈{a,v,t}代表任一模态,x→s表示将x模态的信息传递给s模态的交互方式,Xx表示对应模态的嵌入表达特征;
式(6)中GELU为激活函数,W1 T和W2 T分别表示第一个、第二个线性变换的权重矩阵的转置,b1和b2表示两个线形层的偏置向量,SE表示注意力机制,输出X′x→s中间特征;
步骤2.3、将所述ITE网络模块堆叠N次后,输出最终的模态内特征Is→s,简记为Is;
步骤2.4、定义模态间BTE网络模块、模态增强MTE网络模块、全局自注意力STE网络模块的结构与所述ITE网络模块相同,并将四个网络模块中的任一网络模块记为WTE模块,则按照所述ITE网络模块内两个子模块的数据处理过程所表征的式(5)和式(6),将WTE模块内两个子模块的数据处理过程记为式(8):
Xx→s=WTE(Xs,Xx) (8)
步骤3、单模态标签预测和多模态情感决策判别标签的融合生成;
根据模态的非全显性,并结合单模态标签的预测值,利用式(10)得到多模态情感决策判别的标签y”:
式(10)中,α1,α2,α3分别表示文本模态、语音模态、视频模态输出值的权重值;
步骤4、建立模态间BTE网络模块和模态增强MTE网络模块,并经过全局自注意力STE网络模块获取模态间特征和模态增强特征;
步骤4.3、使用模态增强MTE网络模块进行模态增强特征提取;
所述模态增强MTE网络模块对所述嵌入表达特征Xs,s∈{a,v,t}进行张量拼接,形成多模态m的早期融合向量Xm;
步骤5、获取多模态情感深层预测标签;
将模态间BTE网络模块、模态增强MTE网络模块分别堆叠N次,得到最终的模态间特征Bs和最终的模态增强特征Ms,s∈{a,v,t},并将最终的模态间特征Bs和最终的模态增强特征Ms进行张量拼接,得到融合后的多模态特征MB;
将所述多模态特征MB输入至MLP-SE模块,使用式(12)进行多模态情感深层预测,得到标签y′;
步骤6、损失函数的设计与迭代训练;
步骤6.1、利用式(13)构建带有标签平滑的损失函数loss:
式(13)中,ξ1和ξ2表示多模态情感深层预测的标签y′与多模态情感决策判别的标签y″分别和多模态的原始录像的标签y之间的残差超参值;
步骤6.2、设置最大迭代次数epoch,将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入步骤2-步骤6.1中进行训练,并计算所述损失函数loss,当迭代次数达到epoch时,停止训练,从而得到最优预测模型,用于对所输入的多模态情感数据集进行单模态标签的预测,并输出多模态情感深层预测的标签和多模态情感决策判别的标签。
与已有技术相比,本发明的有益效果在于:
1、基于Transformer的情感序列上下文建模可以解决传统LSTM等方法的序列长期依赖问题,在对齐的数据和非对其数据上均具有一定的优势。
2、本发明实现了不同层次的融合机制,不仅仅包含前期的特征融合,还包含了经过深层特征提取之后的后期特征融合,以及单模态标签生成多模态标签的后期决策融合。将跨模态的融合信息在不同的特征层次上进行融合,充分挖掘多模态信息之间的互补信息,是当前多模态情感识别领域上多模态融合架构的有效补充。
3、本发明提出不同模态之间情感具有非全显性,某一模态处于主导,其他模态可能比较隐蔽,且成年人更容易隐藏自己的情感,但是有效的情感表达和情感交互,显性模态起主要作用,隐形模态也可以理解为是多模态整体情感的干扰信息。
4、本发明充分进行模态间的交互操作,基于多模态TransformerEncoder的模态内ITE,模态间BTE,以及单模态增强MTE等多种特征提取策略,可以解决直接进行特征融合而忽视的模态间交互问题,提高模型对情感语义的理解和泛化能力。
5、基于自监督的投票机制的单模态标签生成思想,深入分析多模态情感数据集,针对目前开源的英文多模态情绪数据集中仅仅存在一个统一标签的问题提供解决思路,此研究可以为单模态情感分析或为探讨单模态和多模态情感关联提供基础。
6、基于多模态短视频中人物情感标签具有一定的平滑过渡性,为了避免网络过分相信训练样本中异常点的标签,研究使用标签平滑损失可在一定程度上解决过拟合问题,并体现了情感变化的平滑性。
附图说明
图1为本发明整体结构图;
图2为本发明方法中TransformerEncoder结构图;
图3为本发明模态间BTE展开结构图。
具体实施方式
本实施例中,一种基于Transformer算法的单模态标签生成和多模态情感判别方法,整体算法流程如图1所示,其步骤包括:首先获取多模态非对齐数据集,并进行预处理得到对应模态的嵌入表达特征;然后建立ITE网络模块,提取模态内特征;结合单模态标签预测和多模态情感决策判别标签的融合生成,建立模态间BTE网络模块和模态增强MTE网络模块,并经过全局自注意力STE网络模块获取模态间特征和模态增强特征,获取多模态情感深层预测的标签;最后结合损失函数的设计进行迭代训练。具体说,其特征是按如下步骤进行:
步骤1、获取多模态非对齐数据集,并进行预处理得到对应模态的嵌入表达特征;
本实例中,使用的是CMU-MOSI,CMU-MOSEI以及IEMOCAP数据集,研究所包含的CMU数据来自于真实环境的YouTube网站,而IEMOCAP采集自实验室环境,不同的数据来源也是为了更充分全面地验证本发明;
步骤1.1、获取一段多模态的原始录像,并将原始录像中的语音模态序列记为原始录像中的文本模态序列记为原始录像中人脸表情的视频模态序列记为其中,Ta,Tt,Tv分别表示语音、文本、视频序列的长度,da,dt,dv分别表示语音、文本、视频序列的维度信息,令多模态的原始录像的标签为y,对于CMU数据,包含2分类标签(积极情绪和消极情绪),以及7分类标签(情感的7类[-3,+3]得分值),而对于IEMOCAP,则包含开心、伤心、生气、中性四种情感状态;
步骤1.2、序列维度统一化处理,并确保输入序列中的每一个元素都能感知相邻元素,利用式(1)-式(3)分别对语音模态序列Ua,视频模态序列Uv和文本模态序列Ut进行规范化处理,得到对应模态的底层语义特征
式(1)和(2)中,BN(·)表示批量标准化,Conv1D(·)表示时序一维卷积操作,Us,s∈{a,v,t}表示对应模态序列,ks,s∈{a,v}表示对应模态卷积核的大小,本实施例中,核大小为1,步长也为1,Ts,s∈{a,v,t}表示对应模态序列的长度;
式(3)中,BiLSTM(·)表示双向长短期记忆网络,LN(·)表示层归一化处理,d表示特征统一后的维度,本实施例中d为30;
式(4)中,PE表示正弦位置编码;
步骤2、建立ITE(Intra-modal TransformerEncoder)网络模块,提取深层特征,获取单模态的高层语义特征的编码序列,即模态内特征;
步骤2.1、初始化单模态训练数据集合中的单模态标签ys为人工标注的多模态标签,即ys=y,s∈{a,v,t};
步骤2.2、将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入至ITE网络模块,获取单模态的编码序列和模态内特征;
ITE网络模块是由两个子模块组成,如图2所示,TransformerEncoder结构图所示,本实施例中,多头注意力机制中的头数设置为8,包括:多头注意力模块Multihead和带有注意力的前向传播模块MLP-SE;
式(5)中,x∈{a,v,t}代表任一模态,x→s表示将x模态的信息传递给s模态的交互方式,让s模态特征指导模型匹配x模态特征相应的区域,并将与s模态特征紧密相关的x模态特征区域赋予高重要性权值,Xx表示对应模态的嵌入表达特征;
式(6)中GELU为激活函数,W1 T和W2 T分别表示第一个、第二个线性变换的权重矩阵的转置,b1和b2表示两个线形层的偏置向量,SE表示注意力机制,输出X′x→s中间特征;
步骤2.3、将ITE网络模块堆叠N次后,本实施例中,设置为3次堆叠,如图1所示,输出最终的模态内特征Is→s,简记为Is;
步骤2.4、定义模态间BTE(Between-modal TransformerEncoder)网络模块、模态增强MTE(Multi-modal TransformerEncoder)网络模块、全局自注意力STE(Self-modalTransformer Encoder)网络模块的结构与ITE网络模块相同,并将四个网络模块中的任一网络模块记为WTE模块,则按照ITE网络模块内两个子模块的数据处理过程所表征的式(5)和式(6),将WTE模块内两个子模块的数据处理过程记式(8):
Xx→s=WTE(Xs,Xx) (8)
步骤3、单模态标签预测和多模态情感决策判别标签的融合生成;
根据模态的非全显性,即多模态数据中会有部分隐性模态的信息丢失(假隐),设计权重控制每一个模态对多模态的贡献率,并结合单模态标签的预测值,共同决策,根据带有权重的单模态标签投票机制,利用式(10)得到多模态情感决策判别的标签y″:
式(10)中,α1,α2,α3分别表示文本模态、语音模态、视频模态输出值的权重值,本施例中,权重值是一个基于统计的超参数,α1,α2,α3分别为0.45、0.25、0.30,后期也可以通过训练学习进行调整;
步骤4、建立模态间BTE网络模块和模态增强MTE网络模块,并经过全局自注意力STE网络模块获取模态间特征和模态增强特征;
步骤4.3、使用模态增强MTE网络模块进行模态增强特征提取;
模态增强MTE网络模块对嵌入表达特征Xs,s∈{a,v,t}进行张量拼接,形成多模态m的早期融合向量Xm;
步骤5、获取多模态情感深层预测标签;
将模态间BTE网络模块、模态增强MTE网络模块的单次输出和分别堆叠N次,能够进一步挖掘多模态信息之间的高层次互补信息,得到最终的模态间特征Bs和最终的模态增强特征Ms,s∈{a,v,t},并将最终的模态间特征Bs和最终的模态增强特征Ms进行张量拼接,得到融合后的多模态特征MB,如图1所示,该特征包含了增强的单模态特征以及模态间特征,同时也包含多模态的后期融合特征;
将多模态特征MB输入至MLP-SE模块,使用式(12)进行多模态情感深层预测,得到标签y′;
步骤6、损失函数的设计与迭代训练;
步骤6.1、Huber损失对于离群点非常的有效,它同时结合了L1损失与L2损失的优点,结合情感标签的平滑性,设计带有标签平滑的损失函数,通过加入噪声,减少真实样本标签在计算损失函数时的权重,抑制过拟合,利用式(13)构建带有标签平滑的损失函数loss:
式(13)中ξ1和ξ2表示多模态情感深层预测的标签y′与多模态情感决策判别的标签y″分别和多模态的原始录像的标签y之间的残差超参值;
步骤6.2、设置最大迭代次数epoch=50,将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入步骤2-步骤6.1中进行训练,并计算损失函数loss,当迭代次数达到epoch时,停止训练,从而得到最优预测模型,用于对所输入的多模态情感数据集进行单模态标签的预测,并输出多模态情感深层预测的标签和多模态情感决策判别的标签。
综上所述,本方法对目前开源的英文多模态情绪数据集仅有一个多模态标签的情况,结合不同模态之间情感具有非全显性,通过自监督的带权投票机制进行决策融合产生单模态标签和多模态情感决策判别的标签。基于多种交互策略进行的模态内、模态间、增强模态等特征的提取对于多模态数据集进行了深入的挖掘,使得模态之间数据充分交互,可以解决直接进行特征融合而忽视的模态间交互的问题,提高模型对情感语义的理解和泛化能力,最终结合情感标签的平滑过渡性,使用标签平滑损失,实现多模态情感的深层预测,从而显著提高了情感判别的精度。
Claims (1)
1.一种基于Transformer算法的单模态标签生成和多模态情感判别方法,其特征是按如下步骤进行:
步骤1、获取多模态非对齐数据集,并进行预处理得到对应模态的嵌入表达特征;
步骤1.1、获取一段多模态的原始录像,并将所述原始录像中的语音模态序列记为所述原始录像中的文本模态序列记为所述原始录像中人脸表情的视频模态序列记为其中,Ta,Tt,Tv分别表示语音、文本、视频序列的长度,da,dt,dv分别表示语音、文本、视频序列的维度信息,令多模态的原始录像的标签为y;
式(1)和(2)中,BN(·)表示批量标准化,Conv1D(·)表示时序一维卷积操作,Us,s∈{a,v,t}表示对应模态序列,ks,s∈{a,v}表示对应模态卷积核的大小,Ts,s∈{a,v,t}表示对应模态序列的长度,式(3)中,BiLSTM(·)表示双向长短期记忆网络,LN(·)表示层归一化处理,d表示特征统一后的维度;
式(4)中,PE表示正弦位置编码;
步骤2、建立ITE网络模块,提取模态内特征;
步骤2.1、初始化单模态训练数据集合中的单模态标签ys为人工标注的多模态标签,即ys=y,s∈{a,v,t};
步骤2.2、将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入至ITE网络模块,获取单模态的编码序列和模态内特征;
所述ITE网络模块是由两个子模块组成,包括:多头注意力模块Multihead和带有注意力的前向传播模块MLP-SE;
式(5)中,x∈{a,v,t}代表任一模态,x→s表示将x模态的信息传递给s模态的交互方式,Xx表示对应模态的嵌入表达特征;
式(6)中GELU为激活函数,W1 T和W2 T分别表示第一个、第二个线性变换的权重矩阵的转置,b1和b2表示两个线形层的偏置向量,SE表示注意力机制,输出X′x→s中间特征;
步骤2.3、将所述ITE网络模块堆叠N次后,输出最终的模态内特征Is→s,简记为Is;
步骤2.4、定义模态间BTE网络模块、模态增强MTE网络模块、全局自注意力STE网络模块的结构与所述ITE网络模块相同,并将四个网络模块中的任一网络模块记为WTE模块,则按照所述ITE网络模块内两个子模块的数据处理过程所表征的式(5)和式(6),将WTE模块内两个子模块的数据处理过程记为式(8):
Xx→s=WTE(Xs,Xx) (8)
步骤3、单模态标签预测和多模态情感决策判别标签的融合生成;
根据模态的非全显性,并结合单模态标签的预测值,利用式(10)得到多模态情感决策判别的标签y”:
式(10)中,α1,α2,α3分别表示文本模态、语音模态、视频模态输出值的权重值;
步骤4、建立模态间BTE网络模块和模态增强MTE网络模块,并经过全局自注意力STE网络模块获取模态间特征和模态增强特征;
步骤4.3、使用模态增强MTE网络模块进行模态增强特征提取;
所述模态增强MTE网络模块对所述嵌入表达特征Xs,s∈{a,v,t}进行张量拼接,形成多模态m的早期融合向量Xm;
步骤5、获取多模态情感深层预测标签;
将模态间BTE网络模块、模态增强MTE网络模块分别堆叠N次,得到最终的模态间特征Bs和最终的模态增强特征Ms,s∈{a,v,t},并将最终的模态间特征Bs和最终的模态增强特征Ms进行张量拼接,得到融合后的多模态特征MB;
将所述多模态特征MB输入至MLP-SE模块,使用式(12)进行多模态情感深层预测,得到标签y′;
步骤6、损失函数的设计与迭代训练;
步骤6.1、利用式(13)构建带有标签平滑的损失函数loss:
式(13)中,ξ1和ξ2表示多模态情感深层预测的标签y′与多模态情感决策判别的标签y″分别和多模态的原始录像的标签y之间的残差超参值;
步骤6.2、设置最大迭代次数epoch,将对应模态的嵌入表达特征Xs,s∈{a,v,t}输入步骤2-步骤6.1中进行训练,并计算所述损失函数loss,当迭代次数达到epoch时,停止训练,从而得到最优预测模型,用于对所输入的多模态情感数据集进行单模态标签的预测,并输出多模态情感深层预测的标签和多模态情感决策判别的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210037389.1A CN114386515B (zh) | 2022-01-13 | 2022-01-13 | 基于Transformer算法的单模态标签生成和多模态情感判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210037389.1A CN114386515B (zh) | 2022-01-13 | 2022-01-13 | 基于Transformer算法的单模态标签生成和多模态情感判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114386515A true CN114386515A (zh) | 2022-04-22 |
CN114386515B CN114386515B (zh) | 2024-02-20 |
Family
ID=81201492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210037389.1A Active CN114386515B (zh) | 2022-01-13 | 2022-01-13 | 基于Transformer算法的单模态标签生成和多模态情感判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114386515B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115034227A (zh) * | 2022-06-28 | 2022-09-09 | 西安交通大学 | 一种基于多模态互注意融合的渐进式多任务情感分析方法 |
CN116150383A (zh) * | 2023-04-21 | 2023-05-23 | 湖南工商大学 | 基于跨模态注意力机制的谣言检测方法及模型 |
CN116257142A (zh) * | 2023-05-12 | 2023-06-13 | 福建省亿鑫海信息科技有限公司 | 基于多模态数据特征化的安全监测方法及终端 |
CN117891940A (zh) * | 2023-12-11 | 2024-04-16 | 华南师范大学 | 多模态讽刺检测方法、装置、计算机设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348075A (zh) * | 2020-11-02 | 2021-02-09 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
CN112489635A (zh) * | 2020-12-03 | 2021-03-12 | 杭州电子科技大学 | 一种基于增强注意力机制的多模态情感识别方法 |
CN112633364A (zh) * | 2020-12-21 | 2021-04-09 | 上海海事大学 | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 |
US11045271B1 (en) * | 2021-02-09 | 2021-06-29 | Bao Q Tran | Robotic medical system |
CN113065577A (zh) * | 2021-03-09 | 2021-07-02 | 北京工业大学 | 一种面向目标的多模态情感分类方法 |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
-
2022
- 2022-01-13 CN CN202210037389.1A patent/CN114386515B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348075A (zh) * | 2020-11-02 | 2021-02-09 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
CN112489635A (zh) * | 2020-12-03 | 2021-03-12 | 杭州电子科技大学 | 一种基于增强注意力机制的多模态情感识别方法 |
CN112633364A (zh) * | 2020-12-21 | 2021-04-09 | 上海海事大学 | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 |
US11045271B1 (en) * | 2021-02-09 | 2021-06-29 | Bao Q Tran | Robotic medical system |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN113065577A (zh) * | 2021-03-09 | 2021-07-02 | 北京工业大学 | 一种面向目标的多模态情感分类方法 |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
Non-Patent Citations (2)
Title |
---|
余莉萍;梁镇麟;梁瑞宇;: "基于改进LSTM的儿童语音情感识别模型", 计算机工程, no. 06, 15 June 2020 (2020-06-15), pages 46 - 55 * |
邹纪云;许云峰;: "基于辅助模态监督训练的情绪识别神经网络", 河北科技大学学报, no. 05, 15 October 2020 (2020-10-15), pages 33 - 34 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115034227A (zh) * | 2022-06-28 | 2022-09-09 | 西安交通大学 | 一种基于多模态互注意融合的渐进式多任务情感分析方法 |
CN115034227B (zh) * | 2022-06-28 | 2024-04-19 | 西安交通大学 | 一种基于多模态互注意融合的渐进式多任务情感分析方法 |
CN116150383A (zh) * | 2023-04-21 | 2023-05-23 | 湖南工商大学 | 基于跨模态注意力机制的谣言检测方法及模型 |
CN116257142A (zh) * | 2023-05-12 | 2023-06-13 | 福建省亿鑫海信息科技有限公司 | 基于多模态数据特征化的安全监测方法及终端 |
CN116257142B (zh) * | 2023-05-12 | 2023-07-21 | 福建省亿鑫海信息科技有限公司 | 基于多模态数据特征化的安全监测方法及终端 |
CN117891940A (zh) * | 2023-12-11 | 2024-04-16 | 华南师范大学 | 多模态讽刺检测方法、装置、计算机设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114386515B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Multimodal sentiment analysis based on fusion methods: A survey | |
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
Wu et al. | Video sentiment analysis with bimodal information-augmented multi-head attention | |
Vashisht et al. | Speech recognition using machine learning | |
CN113420807A (zh) | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 | |
CN114386515A (zh) | 基于Transformer算法的单模态标签生成和多模态情感判别方法 | |
CN113822192A (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
CN115577161A (zh) | 融合情感资源的多模态情感分析模型 | |
CN113971837B (zh) | 一种基于知识的多模态特征融合的动态图神经手语翻译方法 | |
Qi et al. | MEDT: Using multimodal encoding-decoding network as in transformer for multimodal sentiment analysis | |
Lin et al. | PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN115544279B (zh) | 一种基于协同注意力的多模态情感分类方法及其应用 | |
Ming-Hao et al. | Data fusion methods in multimodal human computer dialog | |
CN114091466A (zh) | 一种基于Transformer和多任务学习的多模态情感分析方法及系统 | |
CN116108215A (zh) | 基于深度融合的跨模态大数据检索方法及系统 | |
CN115272908A (zh) | 一种基于改进Transformer的多模态情感识别方法和系统 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
Deng et al. | Multimodal affective computing with dense fusion transformer for inter-and intra-modality interactions | |
Boukdir et al. | Character-level Arabic text generation from sign language video using encoder–decoder model | |
CN117633674A (zh) | 一种基于因果门控注意力机制的多模态情感分析方法 | |
Hu et al. | Speech emotion recognition based on attention mcnn combined with gender information | |
Rana et al. | Multi-task semisupervised adversarial autoencoding for speech emotion | |
CN115169348A (zh) | 一种基于混合神经网络的事件抽取方法 | |
Patamia et al. | Multimodal Speech Emotion Recognition Using Modality-Specific Self-Supervised Frameworks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |