CN114973044A - 一种基于双模态信息增强多头注意力的视频情感分析方法 - Google Patents

一种基于双模态信息增强多头注意力的视频情感分析方法 Download PDF

Info

Publication number
CN114973044A
CN114973044A CN202110195691.5A CN202110195691A CN114973044A CN 114973044 A CN114973044 A CN 114973044A CN 202110195691 A CN202110195691 A CN 202110195691A CN 114973044 A CN114973044 A CN 114973044A
Authority
CN
China
Prior art keywords
features
video
bimodal
information
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110195691.5A
Other languages
English (en)
Inventor
彭俊杰
吴廷
郑藏智
马传帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110195691.5A priority Critical patent/CN114973044A/zh
Publication of CN114973044A publication Critical patent/CN114973044A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于双模态信息增强多头注意力的视频情感分析方法,包括:对视频进行预处理;从预处理后的数据中获取单模态原始特征;基于单模态原始特征,进一步获取单模态深层特征,其中,单模态深层特征包括文本深层特征、音频深层特征和视频深层特征;根据单模态深层特征,提取出单模态间的交互信息,即得到双模态信息;从不同特征子空间计算双模态注意力,获取双模态间的交互信息;将双模态信息与双模态间交互信息进行融合及分类预测,得到对应的情感分析预测结果。与现有技术相比,本发明在提取单模态特征后,利用其获取模态间的交互信息,再进一步得到不同交互信息的独立性和一致性信息,从而进行有效的特征融合和准确的情感预测。

Description

一种基于双模态信息增强多头注意力的视频情感分析方法
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种基于双模态信息增强多头注意力的视频情感分析方法。
背景技术
情感分析是自然语言处理领域的一个基本任务,传统的情感分析方法主要是基于文本进行的单模态情感分析;随着人们表达方式的多样化,产生了大量的非静态数据如语音、视频,这些数据包含了丰富的情感信息,由此产生的多模态情感分析能够帮助计算机更好地学习了解人们的心理状态以及情感趋向。目前基于单模态的情感分析技术已经得到广泛研究和应用,如智能客服,推荐系统中;基于多模态数据的情感分析工作还有待进一步研究,其面临的主要困难是模态内部信息提取和模态间交互信息提取,即单模态特征提取和多模态融合。
其中,针对文本的情感分析可分为三种:基于情感词典的方法、机器学习方法和深度学习方法。基于情感词典的方法是使用适合于数据集的相应词典来进行文本分类,这种方法依赖于人工、且分类性能依赖于词典的质量;基于机器学习的方法包括使用一些有监督或无监督的机器学习分类算法,如朴素贝叶斯、支持向量机、决策树、随机森林等,这些方法在一定程度上依赖于特征工程、且在数据量较大的时候效率低;基于深度学习的方法则大多能取得不错的效果,比如LSTM(Long Short-Term Memory,长短期记忆网络)、CNN(Convolutional Neural Networks,卷积神经网络)、注意力机制、Transformer、BERT等都在文本学习上有着广泛的应用,BERT在很多自然语言处理任务上的性能也是达到SOTA。
针对语音的情感分析首先需要对语音特征进行提取,其中谱特征、韵律特征和音质特征最为常用。目前也有一些开源的库可以提取出这些与情感相关的特征如openSMILE,LibROSA,COVAREP等,然后设计神经网络来对提取的特征进行深度学习。
针对视频的情感分析则包含了文本、语音还有面部表情的识别。解决该问题的常规做法是,首先进行单模态特征提取,对于面部特征可以使用开源库OpenFace2.0等,也可以使用3D-CNN,VGG(Visual Geometry Group,超分辨率测试序列)等神经网络;然后进行多模态融合,目前已有的一些融合方法主要是特征层融合和决策层融合,基于特征层融合的方法较多,但是不能充分提取模态内部的交互信息,而基于决策层融合的方法则不能充分提取模态间的交互信息,由此,研究者提出了张量融合、动态记忆网络以及基于注意力机制的方法,但是这些方法仅考虑提取单模态内部重要特征,或是以其他模态信息作为监督信息来提高模态内部特征提取的有效性,而在实际场景中,不同的模态的交互程度是不同的,另一个模态可以弥补当前模态的不足,并且两个模态融合之后的特征对最终的情感决策的贡献不同,例如,有些人说话音量很高,但面部表情是开心的,那么结合这两个模态可以判断该人是高兴的,但若说出的内容是表达不满的,那么结合声音和文本可以判断该人是愤怒的。因此如何权衡两两模态交互之后所提供的信息,从而使计算机能够准确识别出人的情感,是当前视频情感分析中亟需解决的问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于双模态信息增强多头注意力的视频情感分析方法,以可靠权衡不同双模态的贡献度、提高视频情感分析识别结果的准确度。
本发明的目的可以通过以下技术方案来实现:一种基于双模态信息增强多头注意力的视频情感分析方法,包括以下步骤:
S1、对视频进行预处理:从视频中分离出音频,并对音频进行转录,得到相应文本,之后对视频进行分帧处理、对视频帧进行人脸检测与对齐处理;
S2、从预处理后的数据中获取单模态原始特征:采用BERT模型从文本中获取句子向量,并利用第三方工具提取出音频特征和视频特征;
S3、基于单模态原始特征,进一步获取单模态深层特征,其中,单模态深层特征包括文本深层特征、音频深层特征和视频深层特征;
S4、根据单模态深层特征,提取出单模态间的交互信息,即得到双模态信息;
S5、从不同特征子空间计算双模态注意力,获取双模态间的交互信息;
S6、将双模态信息与双模态间交互信息进行融合及分类预测,得到对应的情感分析预测结果。
进一步地,所述步骤S3具体包括以下步骤:
S31、基于句子向量,将所有句子的长度调整为长度一致,得到长度统一的句子表示;
将长度统一的句子表示输入LSTM中,得到提取了上下文关系的文本深层特征;
S32、在特征维上,对音频特征所有的帧向量取平均,得到平均后的音频特征;
将平均后的音频特征输入三层深度神经网络中,得到音频深层特征;
S33、在特征维上,对视频特征所有的帧向量取平均,得到平均后的视频特征;
将平均后的视频特征输入三层深度神经网络中,得到视频深层特征。
进一步地,所述文本深层特征具体为:
Figure BDA0002946349780000031
其中,ti为文本深层特征,
Figure BDA0002946349780000032
为长度统一的句子表示,Wi为文本深度特征提取过程中所用的权重参数。
进一步地,所述音频深层特征具体为:
Figure BDA0002946349780000033
其中,ai为音频深层特征,
Figure BDA0002946349780000034
为平均后的音频特征,Wi'为音频深层特征提取过程中所用的权重参数。
进一步地,所述视频深层特征具体为:
Figure BDA0002946349780000035
其中,vi为视频深层特征,
Figure BDA0002946349780000036
为平均后的视频特征,W'i'为视频深层特征提取过程中所用的权重参数。
进一步地,所述双模态信息包括声音和视频的融合信息、声音和文本的融合信息、视频和文本的融合信息,所述声音和视频的融合信息具体为:
Figure BDA0002946349780000037
RA={a1,a2,...,aN}
RV={v1,v2,...,vN}
其中,RAV为声音和视频的融合信息,RA为音频深层特征集合,RV为视频深层特征集合,N为视频数量;
所述声音和文本的融合信息具体为:
Figure BDA0002946349780000041
RT={t1,t2,...,tN}
其中,RAT为声音和文本的融合信息,RT为文本深层特征集合;
所述视频和文本的融合信息具体为:
Figure BDA0002946349780000042
其中,RVT为视频和文本的融合信息。
进一步地,所述步骤S5具体包括以下步骤:
S51、使用两层相同维度的全连接层,以获得双模态信息交互特征,其中,两层相同维度的全连接层包括第一层独立全连接层和第二层共享全连接层;
S52、结合多头注意力机制,首先将双模态信息交互特征拼接得到多模态特征D,以作为键X和值Y的输入;
之后分别将各双模态信息交互特征作为查询Q的输入,并分别经过线性变换得到对应的双模态特征,与键X和值Y对应的多模态特征也经过相应的线性变换得到对应的双模态特征;
再将各双模态特征与多模态特征D中所有双模态特征进行交互,并使用softmax函数对交互结果进行归一化处理,以计算得到多模态特征中各双模态特征的注意力;
最后将每个注意头计算出的双模态特征的注意力进行拼接和线性层变换,以得到分配了注意力的双模态特征,即为双模态间交互信息。
进一步地,所述双模态信息交互特征具体为:
Figure BDA0002946349780000043
Figure BDA0002946349780000044
Figure BDA0002946349780000045
HAV=FC1-AV(RAV)
HAT=FC1-AT(RAT)
HVT=FC1-VT(RVT)
其中,
Figure BDA0002946349780000046
分别为音频与视频双模态交互特征、音频与文本双模态交互特征、视频与文本双模态交互特征,FC2为第二层共享全连接层,FC1-AV、FC1-AT、FC1-VT分别为第一层对应于各双模态信息的独立全连接层,HAV、HAT、HVT分别为FC1-AV、FC1-AT、FC1-VT对应输出的值。
进一步地,所述双模态间交互信息具体为:
Figure BDA0002946349780000051
Figure BDA0002946349780000052
Figure BDA0002946349780000053
Figure BDA0002946349780000054
Figure BDA0002946349780000055
Figure BDA0002946349780000056
Figure BDA0002946349780000057
Figure BDA0002946349780000058
Figure BDA0002946349780000059
Figure BDA00029463497800000510
其中,q为X的维度,n是注意头的个数,对应n个线性变换层,WQ、WX、WY分别为查询Q、键X、值Y对应的线性层参数矩阵,WO为权重参数,AttAV(QAV,D,D)、AttAT(QAT,D,D)、AttVT(QVT,D,D)分别为音频与视频双模态间交互信息、音频与文本双模态间交互信息、视频与文本双模态间交互信息,
Figure BDA00029463497800000511
Figure BDA00029463497800000512
分别为第h个注意力头中音频与视频双模态特征的注意力、音频与文本双模态特征的注意力、视频与文本双模态特征的注意力。
进一步地,所述步骤S6中情感分析预测结果具体为:
Figure BDA00029463497800000513
其中,
Figure BDA00029463497800000514
为情感分析预测结果,CM为多模态情感分类器。
与现有技术相比,本发明具有以下优点:
一、本发明首先从视频中提取出不同单模态特征,利用不同单模态特征以获取单模态间的交互信息,再进一步获取双模态间交互信息,以此同时考虑了模态内部信息和模态间信息提取,增强了双模态间的信息交互,通过融合单模态间交互信息和双模态间交互信息,能够实现有效的特征融合,从而提高后续分类预测结果的准确性。
二、本发明利用拓展的多头注意力增强不同双模态间的特征交互,并通过注意力分配来权衡不同双模态的贡献度,本发明在获取单模态内部特征的同时能够充分提取模态间的交互信息,基于该交互信息计算双模态的贡献度,得到分配了注意力的双模态特征,通过计算双模态特征贡献度量化了不同模态的交互程度,从而得到了高质量的特征,有利于准确地进行情感分析预测。
附图说明
图1为本发明的方法流程示意图;
图2为本发明的模型结构示意图;
图3为双模态交互过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于双模态信息增强多头注意力的视频情感分析方法,包括以下步骤:
(1)对视频数据进行预处理,包括音频分离和视频分帧处理,具体是使用第三方工具进行预处理,并对视频分帧处理后进行人脸检测与对齐。
(2)使用开源方法,从预处理后的数据中提取出文本、音频和人脸原始特征。
(3)使用深度学习方法,基于原始特征,进一步提取出文本、音频和人脸深层特征。
(4)获取模态间交互信息,具体使用张量融合增强了模态间交互,并利用权重共享减少了参数量。
(5)获取双模态间交互信息,具体是通过从不同的特征表示子空间计算双模态特征在整体特征上的注意力分值。
(6)多模态融合和预测,具体是融合模态间的交互信息和双模态间的交互信息,并将该信息输入到分类器中,以实现情感分析预测。
本实施例中,令U={u1,u2,u3...,uN}为一系列的视频片段。对于ui,在单模态特征提取阶段,首先将视频中的音频分离出来,然后进行视频分帧和人脸检测与对齐;之后利用BERT得到文本的句子向量,第三方工具提取音频特征和人脸特征;由于文本存在上下文关系,音频和视频存在时序关系,利用神经网络对上一步提取的单模态特征进行建模,得到单模态深层特征;基于单模态深层特征,提取出单模态间的交互信息,即为双模态信息;为增强双模态间的交互,从不同特征子空间计算双模态注意力,从而获取双模态间的交互信息;最后融合所获得模态间交互信息和双模态间交互信息,输入分类器进行情感预测。
如图2所示,本发明的模型架构图分成4个部分:单模态特征提取层、模态间交互信息提取层、双模态间交互信息提取层和预测层。模型以视频的话语段序列作为输入,经过特征提取网络提取单模态特征,然后进入模态间交互信息提取层,分别提取声音和视频、声音和文本、视频和文本的交互信息。双模态间交互信息提取层分别通过三个拓展的多头注意力进行不同双模态间的交互,并在不同的特征子空间计算双模态注意力,以得到双模态间的交互特征,预测层对所有交互信息进行融合然后进行情感预测。
在单模态特征提取层,需要分别提取出文本、音频和人脸特征。以话语段ui为例,文本特征提取过程:经过BERT的句子表示为si,由于不同视频中的句子所包含的词的数量不同,对长度过短句子,在句子末尾填充字符,对长度过长的句子取其前L个词向量,最后使得所有句子的长度为L,L是所有话语段对应的文本序列长度的均值与一定倍数的标准差的加和。由此得到新的句子表示
Figure BDA0002946349780000074
后,将其输入到LSTM网络中得到提取了上下文关系的文本特征,如公式(1)所示,其中Wi为可训练的权重参数,利用BERT的优势,避免了中文分词工具不准确对句子语义关系的影响,同时利用LSTM捕捉词序列之间的上下文依赖关系。
Figure BDA0002946349780000071
音频特征提取过程:利用LibROSA库提取音频特征表示为fi。由于音频是时间帧序列数据,每个音频包含不同的帧数量。对于帧长较短的音频,进行帧向量填充,对于帧长较长的音频,取其前L'个帧向量,使所有音频的帧长度都为L',L'是所有音频对应的帧序列长度的均值与一定倍数的标准差的加和。为了减少计算维度,在特征维上对所有的帧向量取平均,得到新的音频特征表示
Figure BDA0002946349780000072
然后输入到三层深度神经网络中提取深层特征ai,如公式(2)所示,其中Wi'为可训练的权重参数。
Figure BDA0002946349780000073
视频特征提取过程:首先利用第三方工具得到每个视频中出现的人脸部分的图像序列后,输入到OpenFace2.0中提取初始特征,表示为gi。由于视频是时间帧序列数据,每个视频包含不同的帧数量。对于帧长较短的视频,进行帧向量填充,对帧长较长的视频,取其前L”个帧向量,使所有视频的帧长度都为L”,L”是所有视频对应的帧序列长度的均值与一定倍数的标准差的加和。为了减少计算维度,在特征维上对所有的帧向量取平均,得到新的视频特征表示
Figure BDA0002946349780000081
然后输入到三层深度神经网络中提取深层特征vi,如公式(3)所示,其中Wi”为可训练的权重参数。
Figure BDA0002946349780000082
在模态间交互信息提取层,分别获取声音(A)和视频(V)的融合信息,声音(A)和文本(T)的融合信息,视频(V)和文本(T)的融合信息。将包含声音和视频模态的表示为AV,声音和文本两个模态的表示为AT,视频和文本的表示为VT。它们是基于单模态信息融合的双模态信息。对于所有视频提取单模态特征之后,将其特征表示为RT={t1,t2,...,tN},RA={a1,a2,...,aN},RV={v1,v2,...,vN}。模态间交互信息的计算如式(4)。
Figure BDA0002946349780000083
两个模态融合的信息获取为两个独立模态特征表示的二阶笛卡尔积。为了能够适应下一层的计算,本发明分别使用两层相同维度的全连接层将其转为相同的维度,其中前一层是独立的,后一层是共享的,以减少参数量并获得更多相似信息。如(5)、(6)所示,双模态交互后的特征
Figure BDA0002946349780000084
HAV=FC1-AV(RAV),HAT=FC1-AT(RAT),HVT=FC1-VT(RVT) (5)
Figure BDA0002946349780000085
在双模态间交互信息提取层,其中,Attention函数的本质可以被描述为一个查询(Q)到一系列键(X)-值(Y)对的映射,在NLP(Natural Language Processing,自然语言处理)中,常见的设置是键和值是一样的。多头注意力机制在传统的注意力机制上引入了放缩点积和多头计算,该方法能够在不同特征子空间上捕获相关信息,随后被应用到更多其他的NLP任务。更具体地,在多头注意力结构中,每个头的Q,X,Y首先经过线性变换,如式(7)(8)(9)所示。然后计算放缩点积注意力,如式(10)所示,然后将所有头的注意力进行拼接,再进行一次线性变换得到的值作为多头注意力,如(11)所示。
Figure BDA0002946349780000086
Figure BDA0002946349780000087
Figure BDA0002946349780000088
Figure BDA0002946349780000089
MultHead(Q,X,Y)=Concat(Att1,Att2,...,Attn)×WO (11)
其中,q为X的维度,n是注意头的个数,对应n个线性变换层,WQ、WX、WY、WO分别为Q,X,Y和最后一步对应的线性层参数矩阵。
为了进行双模态之间的交互,计算双模态贡献度,并从不同的表示子空间捕捉相关信息,首先将模态间交互特征拼接得到多模态特征D,作为X和Y的输入,如式(12)所示,然后分别将声音和视频交互后的特征
Figure BDA0002946349780000091
声音和文本交互后的特征
Figure BDA0002946349780000092
视频和文本交互后的特征
Figure BDA0002946349780000093
作为Q的输入,记为QAV、QAT、QVT。双模态交互过程如图3所示,QAV,QAT,QVT和D经过线性变换得到对应的特征,然后AV与D中的AV、AT、VT进行交互,AT和VT也是如此,得到三组值。使用softmax函数对这些值进行归一化后,据此计算AV,AT,VT在D中的注意力,注意力计算公式如(13)、(14)、(15)所示。最后分别拼接每个头计算出的AV,AT,VT注意力并经过一个线性层变换得到分配了注意力的双模态特征表示,如(16),(17),(18)所示,WO为权重参数。在这整个过程中AV,AT,VT共享参数,由此可以减少参数量和存储空间。
Figure BDA0002946349780000094
Figure BDA0002946349780000095
Figure BDA0002946349780000096
Figure BDA0002946349780000097
Figure BDA0002946349780000098
Figure BDA0002946349780000099
Figure BDA00029463497800000910
在预测层,首先对模态间交互信息和双模态间交互信息进行拼接,然后输入到多模态情感分类器CM中,CM使用三层DNN(Deep Neural Networks,深度神经网络)来生成输出,如(19)所示。
Figure BDA00029463497800000911
综上所述,本发明在提取单模态特征后,利用其获取模态间的交互信息,再进一步得到不同交互信息的独立性和一致性信息,从而进行有效的特征融合和准确的情感预测。由于同时考虑了模态内部信息和模态间信息提取,并基于多头注意力机制增强了双模态间的信息交互,通过计算双模态特征贡献度,有效地量化了不同模态的交互程度,从而得到了高质量的特征,保证了情感分析预测的准确性。

Claims (10)

1.一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,包括以下步骤:
S1、对视频进行预处理:从视频中分离出音频,并对音频进行转录,得到相应文本,之后对视频进行分帧处理、对视频帧进行人脸检测与对齐处理;
S2、从预处理后的数据中获取单模态原始特征:采用BERT模型从文本中获取句子向量,并利用第三方工具提取出音频特征和视频特征;
S3、基于单模态原始特征,进一步获取单模态深层特征,其中,单模态深层特征包括文本深层特征、音频深层特征和视频深层特征;
S4、根据单模态深层特征,提取出单模态间的交互信息,即得到双模态信息;
S5、从不同特征子空间计算双模态注意力,获取双模态间的交互信息;
S6、将双模态信息与双模态间交互信息进行融合及分类预测,得到对应的情感分析预测结果。
2.根据权利要求1所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、基于句子向量,将所有句子的长度调整为长度一致,得到长度统一的句子表示;
将长度统一的句子表示输入LSTM中,得到提取了上下文关系的文本深层特征;
S32、在特征维上,对音频特征所有的帧向量取平均,得到平均后的音频特征;
将平均后的音频特征输入三层深度神经网络中,得到音频深层特征;
S33、在特征维上,对视频特征所有的帧向量取平均,得到平均后的视频特征;
将平均后的视频特征输入三层深度神经网络中,得到视频深层特征。
3.根据权利要求2所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述文本深层特征具体为:
Figure FDA0002946349770000011
其中,ti为文本深层特征,
Figure FDA0002946349770000012
为长度统一的句子表示,Wi为文本深度特征提取过程中所用的权重参数。
4.根据权利要求3所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述音频深层特征具体为:
Figure FDA0002946349770000021
其中,ai为音频深层特征,
Figure FDA0002946349770000022
为平均后的音频特征,Wi'为音频深层特征提取过程中所用的权重参数。
5.根据权利要求4所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述视频深层特征具体为:
Figure FDA0002946349770000023
其中,vi为视频深层特征,
Figure FDA0002946349770000024
为平均后的视频特征,W″i为视频深层特征提取过程中所用的权重参数。
6.根据权利要求5所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述双模态信息包括声音和视频的融合信息、声音和文本的融合信息、视频和文本的融合信息,所述声音和视频的融合信息具体为:
Figure FDA0002946349770000025
RA={a1,a2,...,aN}
RV={v1,v2,...,vN}
其中,RAV为声音和视频的融合信息,RA为音频深层特征集合,RV为视频深层特征集合,N为视频数量;
所述声音和文本的融合信息具体为:
Figure FDA0002946349770000026
RT={t1,t2,...,tN}
其中,RAT为声音和文本的融合信息,RT为文本深层特征集合;
所述视频和文本的融合信息具体为:
Figure FDA0002946349770000027
其中,RVT为视频和文本的融合信息。
7.根据权利要求6所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、使用两层相同维度的全连接层,以获得双模态信息交互特征,其中,两层相同维度的全连接层包括第一层独立全连接层和第二层共享全连接层;
S52、结合多头注意力机制,首先将双模态信息交互特征拼接得到多模态特征D,以作为键X和值Y的输入;
之后分别将各双模态信息交互特征作为查询Q的输入,并分别经过线性变换得到对应的双模态特征,与键X和值Y对应的多模态特征也经过相应的线性变换得到对应的双模态特征;
再将各双模态特征与多模态特征D中所有双模态特征进行交互,并使用softmax函数对交互结果进行归一化处理,以计算得到多模态特征中各双模态特征的注意力;
最后将每个注意头计算出的双模态特征的注意力进行拼接和线性层变换,以得到分配了注意力的双模态特征,即为双模态间交互信息。
8.根据权利要求7所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述双模态信息交互特征具体为:
Figure FDA0002946349770000031
Figure FDA0002946349770000032
Figure FDA0002946349770000033
HAV=FC1-AV(RAV)
HAT=FC1-AT(RAT)
HVT=FC1-VT(RVT)
其中,
Figure FDA0002946349770000034
分别为音频与视频双模态交互特征、音频与文本双模态交互特征、视频与文本双模态交互特征,FC2为第二层共享全连接层,FC1-AV、FC1-AT、FC1-VT分别为第一层对应于各双模态信息的独立全连接层,HAV、HAT、HVT分别为FC1-AV、FC1-AT、FC1-VT对应输出的值。
9.根据权利要求8所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述双模态间交互信息具体为:
Figure FDA0002946349770000035
Figure FDA0002946349770000036
Figure FDA0002946349770000037
Figure FDA0002946349770000038
Figure FDA0002946349770000039
Figure FDA00029463497700000310
Figure FDA00029463497700000311
Figure FDA0002946349770000041
Figure FDA0002946349770000042
Figure FDA0002946349770000043
其中,q为X的维度,n是注意头的个数,对应n个线性变换层,WQ、WX、WY分别为查询Q、键X、值Y对应的线性层参数矩阵,WO为权重参数,AttAV(QAV,D,D)、AttAT(QAT,D,D)、AttVT(QVT,D,D)分别为音频与视频双模态间交互信息、音频与文本双模态间交互信息、视频与文本双模态间交互信息,
Figure FDA0002946349770000044
Figure FDA0002946349770000045
分别为第h个注意力头中音频与视频双模态特征的注意力、音频与文本双模态特征的注意力、视频与文本双模态特征的注意力。
10.根据权利要求9所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述步骤S6中情感分析预测结果具体为:
Figure FDA0002946349770000046
其中,
Figure FDA0002946349770000047
为情感分析预测结果,CM为多模态情感分类器。
CN202110195691.5A 2021-02-22 2021-02-22 一种基于双模态信息增强多头注意力的视频情感分析方法 Pending CN114973044A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110195691.5A CN114973044A (zh) 2021-02-22 2021-02-22 一种基于双模态信息增强多头注意力的视频情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110195691.5A CN114973044A (zh) 2021-02-22 2021-02-22 一种基于双模态信息增强多头注意力的视频情感分析方法

Publications (1)

Publication Number Publication Date
CN114973044A true CN114973044A (zh) 2022-08-30

Family

ID=82953929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110195691.5A Pending CN114973044A (zh) 2021-02-22 2021-02-22 一种基于双模态信息增强多头注意力的视频情感分析方法

Country Status (1)

Country Link
CN (1) CN114973044A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115239937A (zh) * 2022-09-23 2022-10-25 西南交通大学 一种跨模态情感预测方法
CN115983280A (zh) * 2023-01-31 2023-04-18 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN116701708A (zh) * 2023-07-27 2023-09-05 上海蜜度信息技术有限公司 多模态增强的视频分类方法、系统、存储介质及电子设备
CN116738359A (zh) * 2023-05-23 2023-09-12 内蒙古工业大学 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法
CN116738359B (zh) * 2023-05-23 2024-07-09 内蒙古工业大学 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115239937A (zh) * 2022-09-23 2022-10-25 西南交通大学 一种跨模态情感预测方法
CN115239937B (zh) * 2022-09-23 2022-12-20 西南交通大学 一种跨模态情感预测方法
CN115983280A (zh) * 2023-01-31 2023-04-18 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN115983280B (zh) * 2023-01-31 2023-08-15 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN116738359A (zh) * 2023-05-23 2023-09-12 内蒙古工业大学 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法
CN116738359B (zh) * 2023-05-23 2024-07-09 内蒙古工业大学 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法
CN116701708A (zh) * 2023-07-27 2023-09-05 上海蜜度信息技术有限公司 多模态增强的视频分类方法、系统、存储介质及电子设备
CN116701708B (zh) * 2023-07-27 2023-11-17 上海蜜度信息技术有限公司 多模态增强的视频分类方法、系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN110674339B (zh) 一种基于多模态融合的中文歌曲情感分类方法
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN113408385B (zh) 一种音视频多模态情感分类方法及系统
Mower et al. Interpreting ambiguous emotional expressions
CN114973044A (zh) 一种基于双模态信息增强多头注意力的视频情感分析方法
Atmaja et al. Two-stage dimensional emotion recognition by fusing predictions of acoustic and text networks using SVM
CN107452379B (zh) 一种方言语言的识别方法及虚拟现实教学方法和系统
CN111898670B (zh) 多模态情感识别方法、装置、设备及存储介质
Wang et al. Learning Mutual Correlation in Multimodal Transformer for Speech Emotion Recognition.
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
Atmaja et al. Dimensional speech emotion recognition from speech features and word embeddings by using multitask learning
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN114973045A (zh) 一种基于多任务学习的层次多模态情感分析方法
CN115329779A (zh) 一种多人对话情感识别方法
CN112818118A (zh) 基于反向翻译的中文幽默分类模型
WO2023226239A1 (zh) 对象情绪的分析方法、装置和电子设备
Gupta et al. Speech emotion recognition using SVM with thresholding fusion
CN114330551A (zh) 基于多任务学习和注意力层融合的多模态情感分析方法
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
Shixin et al. An autoencoder-based feature level fusion for speech emotion recognition
CN114742047A (zh) 基于最大概率填充和多头注意力机制的文本情感识别方法
CN114446324A (zh) 一种基于声学和文本特征的多模态情感识别方法
CN114254096A (zh) 一种基于交互机器人对话的多模态情感预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination