CN114973044A - 一种基于双模态信息增强多头注意力的视频情感分析方法 - Google Patents
一种基于双模态信息增强多头注意力的视频情感分析方法 Download PDFInfo
- Publication number
- CN114973044A CN114973044A CN202110195691.5A CN202110195691A CN114973044A CN 114973044 A CN114973044 A CN 114973044A CN 202110195691 A CN202110195691 A CN 202110195691A CN 114973044 A CN114973044 A CN 114973044A
- Authority
- CN
- China
- Prior art keywords
- features
- video
- bimodal
- information
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002902 bimodal effect Effects 0.000 title claims abstract description 80
- 230000008451 emotion Effects 0.000 title claims abstract description 42
- 238000004458 analytical method Methods 0.000 title claims abstract description 31
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 9
- 230000003993 interaction Effects 0.000 claims abstract description 58
- 230000004927 fusion Effects 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000002452 interceptive effect Effects 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于双模态信息增强多头注意力的视频情感分析方法,包括:对视频进行预处理;从预处理后的数据中获取单模态原始特征;基于单模态原始特征,进一步获取单模态深层特征,其中,单模态深层特征包括文本深层特征、音频深层特征和视频深层特征;根据单模态深层特征,提取出单模态间的交互信息,即得到双模态信息;从不同特征子空间计算双模态注意力,获取双模态间的交互信息;将双模态信息与双模态间交互信息进行融合及分类预测,得到对应的情感分析预测结果。与现有技术相比,本发明在提取单模态特征后,利用其获取模态间的交互信息,再进一步得到不同交互信息的独立性和一致性信息,从而进行有效的特征融合和准确的情感预测。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种基于双模态信息增强多头注意力的视频情感分析方法。
背景技术
情感分析是自然语言处理领域的一个基本任务,传统的情感分析方法主要是基于文本进行的单模态情感分析;随着人们表达方式的多样化,产生了大量的非静态数据如语音、视频,这些数据包含了丰富的情感信息,由此产生的多模态情感分析能够帮助计算机更好地学习了解人们的心理状态以及情感趋向。目前基于单模态的情感分析技术已经得到广泛研究和应用,如智能客服,推荐系统中;基于多模态数据的情感分析工作还有待进一步研究,其面临的主要困难是模态内部信息提取和模态间交互信息提取,即单模态特征提取和多模态融合。
其中,针对文本的情感分析可分为三种:基于情感词典的方法、机器学习方法和深度学习方法。基于情感词典的方法是使用适合于数据集的相应词典来进行文本分类,这种方法依赖于人工、且分类性能依赖于词典的质量;基于机器学习的方法包括使用一些有监督或无监督的机器学习分类算法,如朴素贝叶斯、支持向量机、决策树、随机森林等,这些方法在一定程度上依赖于特征工程、且在数据量较大的时候效率低;基于深度学习的方法则大多能取得不错的效果,比如LSTM(Long Short-Term Memory,长短期记忆网络)、CNN(Convolutional Neural Networks,卷积神经网络)、注意力机制、Transformer、BERT等都在文本学习上有着广泛的应用,BERT在很多自然语言处理任务上的性能也是达到SOTA。
针对语音的情感分析首先需要对语音特征进行提取,其中谱特征、韵律特征和音质特征最为常用。目前也有一些开源的库可以提取出这些与情感相关的特征如openSMILE,LibROSA,COVAREP等,然后设计神经网络来对提取的特征进行深度学习。
针对视频的情感分析则包含了文本、语音还有面部表情的识别。解决该问题的常规做法是,首先进行单模态特征提取,对于面部特征可以使用开源库OpenFace2.0等,也可以使用3D-CNN,VGG(Visual Geometry Group,超分辨率测试序列)等神经网络;然后进行多模态融合,目前已有的一些融合方法主要是特征层融合和决策层融合,基于特征层融合的方法较多,但是不能充分提取模态内部的交互信息,而基于决策层融合的方法则不能充分提取模态间的交互信息,由此,研究者提出了张量融合、动态记忆网络以及基于注意力机制的方法,但是这些方法仅考虑提取单模态内部重要特征,或是以其他模态信息作为监督信息来提高模态内部特征提取的有效性,而在实际场景中,不同的模态的交互程度是不同的,另一个模态可以弥补当前模态的不足,并且两个模态融合之后的特征对最终的情感决策的贡献不同,例如,有些人说话音量很高,但面部表情是开心的,那么结合这两个模态可以判断该人是高兴的,但若说出的内容是表达不满的,那么结合声音和文本可以判断该人是愤怒的。因此如何权衡两两模态交互之后所提供的信息,从而使计算机能够准确识别出人的情感,是当前视频情感分析中亟需解决的问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于双模态信息增强多头注意力的视频情感分析方法,以可靠权衡不同双模态的贡献度、提高视频情感分析识别结果的准确度。
本发明的目的可以通过以下技术方案来实现:一种基于双模态信息增强多头注意力的视频情感分析方法,包括以下步骤:
S1、对视频进行预处理:从视频中分离出音频,并对音频进行转录,得到相应文本,之后对视频进行分帧处理、对视频帧进行人脸检测与对齐处理;
S2、从预处理后的数据中获取单模态原始特征:采用BERT模型从文本中获取句子向量,并利用第三方工具提取出音频特征和视频特征;
S3、基于单模态原始特征,进一步获取单模态深层特征,其中,单模态深层特征包括文本深层特征、音频深层特征和视频深层特征;
S4、根据单模态深层特征,提取出单模态间的交互信息,即得到双模态信息;
S5、从不同特征子空间计算双模态注意力,获取双模态间的交互信息;
S6、将双模态信息与双模态间交互信息进行融合及分类预测,得到对应的情感分析预测结果。
进一步地,所述步骤S3具体包括以下步骤:
S31、基于句子向量,将所有句子的长度调整为长度一致,得到长度统一的句子表示;
将长度统一的句子表示输入LSTM中,得到提取了上下文关系的文本深层特征;
S32、在特征维上,对音频特征所有的帧向量取平均,得到平均后的音频特征;
将平均后的音频特征输入三层深度神经网络中,得到音频深层特征;
S33、在特征维上,对视频特征所有的帧向量取平均,得到平均后的视频特征;
将平均后的视频特征输入三层深度神经网络中,得到视频深层特征。
进一步地,所述文本深层特征具体为:
进一步地,所述音频深层特征具体为:
进一步地,所述视频深层特征具体为:
进一步地,所述双模态信息包括声音和视频的融合信息、声音和文本的融合信息、视频和文本的融合信息,所述声音和视频的融合信息具体为:
RA={a1,a2,...,aN}
RV={v1,v2,...,vN}
其中,RAV为声音和视频的融合信息,RA为音频深层特征集合,RV为视频深层特征集合,N为视频数量;
所述声音和文本的融合信息具体为:
RT={t1,t2,...,tN}
其中,RAT为声音和文本的融合信息,RT为文本深层特征集合;
所述视频和文本的融合信息具体为:
其中,RVT为视频和文本的融合信息。
进一步地,所述步骤S5具体包括以下步骤:
S51、使用两层相同维度的全连接层,以获得双模态信息交互特征,其中,两层相同维度的全连接层包括第一层独立全连接层和第二层共享全连接层;
S52、结合多头注意力机制,首先将双模态信息交互特征拼接得到多模态特征D,以作为键X和值Y的输入;
之后分别将各双模态信息交互特征作为查询Q的输入,并分别经过线性变换得到对应的双模态特征,与键X和值Y对应的多模态特征也经过相应的线性变换得到对应的双模态特征;
再将各双模态特征与多模态特征D中所有双模态特征进行交互,并使用softmax函数对交互结果进行归一化处理,以计算得到多模态特征中各双模态特征的注意力;
最后将每个注意头计算出的双模态特征的注意力进行拼接和线性层变换,以得到分配了注意力的双模态特征,即为双模态间交互信息。
进一步地,所述双模态信息交互特征具体为:
HAV=FC1-AV(RAV)
HAT=FC1-AT(RAT)
HVT=FC1-VT(RVT)
其中,分别为音频与视频双模态交互特征、音频与文本双模态交互特征、视频与文本双模态交互特征,FC2为第二层共享全连接层,FC1-AV、FC1-AT、FC1-VT分别为第一层对应于各双模态信息的独立全连接层,HAV、HAT、HVT分别为FC1-AV、FC1-AT、FC1-VT对应输出的值。
进一步地,所述双模态间交互信息具体为:
其中,q为X的维度,n是注意头的个数,对应n个线性变换层,WQ、WX、WY分别为查询Q、键X、值Y对应的线性层参数矩阵,WO为权重参数,AttAV(QAV,D,D)、AttAT(QAT,D,D)、AttVT(QVT,D,D)分别为音频与视频双模态间交互信息、音频与文本双模态间交互信息、视频与文本双模态间交互信息, 分别为第h个注意力头中音频与视频双模态特征的注意力、音频与文本双模态特征的注意力、视频与文本双模态特征的注意力。
进一步地,所述步骤S6中情感分析预测结果具体为:
与现有技术相比,本发明具有以下优点:
一、本发明首先从视频中提取出不同单模态特征,利用不同单模态特征以获取单模态间的交互信息,再进一步获取双模态间交互信息,以此同时考虑了模态内部信息和模态间信息提取,增强了双模态间的信息交互,通过融合单模态间交互信息和双模态间交互信息,能够实现有效的特征融合,从而提高后续分类预测结果的准确性。
二、本发明利用拓展的多头注意力增强不同双模态间的特征交互,并通过注意力分配来权衡不同双模态的贡献度,本发明在获取单模态内部特征的同时能够充分提取模态间的交互信息,基于该交互信息计算双模态的贡献度,得到分配了注意力的双模态特征,通过计算双模态特征贡献度量化了不同模态的交互程度,从而得到了高质量的特征,有利于准确地进行情感分析预测。
附图说明
图1为本发明的方法流程示意图;
图2为本发明的模型结构示意图;
图3为双模态交互过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于双模态信息增强多头注意力的视频情感分析方法,包括以下步骤:
(1)对视频数据进行预处理,包括音频分离和视频分帧处理,具体是使用第三方工具进行预处理,并对视频分帧处理后进行人脸检测与对齐。
(2)使用开源方法,从预处理后的数据中提取出文本、音频和人脸原始特征。
(3)使用深度学习方法,基于原始特征,进一步提取出文本、音频和人脸深层特征。
(4)获取模态间交互信息,具体使用张量融合增强了模态间交互,并利用权重共享减少了参数量。
(5)获取双模态间交互信息,具体是通过从不同的特征表示子空间计算双模态特征在整体特征上的注意力分值。
(6)多模态融合和预测,具体是融合模态间的交互信息和双模态间的交互信息,并将该信息输入到分类器中,以实现情感分析预测。
本实施例中,令U={u1,u2,u3...,uN}为一系列的视频片段。对于ui,在单模态特征提取阶段,首先将视频中的音频分离出来,然后进行视频分帧和人脸检测与对齐;之后利用BERT得到文本的句子向量,第三方工具提取音频特征和人脸特征;由于文本存在上下文关系,音频和视频存在时序关系,利用神经网络对上一步提取的单模态特征进行建模,得到单模态深层特征;基于单模态深层特征,提取出单模态间的交互信息,即为双模态信息;为增强双模态间的交互,从不同特征子空间计算双模态注意力,从而获取双模态间的交互信息;最后融合所获得模态间交互信息和双模态间交互信息,输入分类器进行情感预测。
如图2所示,本发明的模型架构图分成4个部分:单模态特征提取层、模态间交互信息提取层、双模态间交互信息提取层和预测层。模型以视频的话语段序列作为输入,经过特征提取网络提取单模态特征,然后进入模态间交互信息提取层,分别提取声音和视频、声音和文本、视频和文本的交互信息。双模态间交互信息提取层分别通过三个拓展的多头注意力进行不同双模态间的交互,并在不同的特征子空间计算双模态注意力,以得到双模态间的交互特征,预测层对所有交互信息进行融合然后进行情感预测。
在单模态特征提取层,需要分别提取出文本、音频和人脸特征。以话语段ui为例,文本特征提取过程:经过BERT的句子表示为si,由于不同视频中的句子所包含的词的数量不同,对长度过短句子,在句子末尾填充字符,对长度过长的句子取其前L个词向量,最后使得所有句子的长度为L,L是所有话语段对应的文本序列长度的均值与一定倍数的标准差的加和。由此得到新的句子表示后,将其输入到LSTM网络中得到提取了上下文关系的文本特征,如公式(1)所示,其中Wi为可训练的权重参数,利用BERT的优势,避免了中文分词工具不准确对句子语义关系的影响,同时利用LSTM捕捉词序列之间的上下文依赖关系。
音频特征提取过程:利用LibROSA库提取音频特征表示为fi。由于音频是时间帧序列数据,每个音频包含不同的帧数量。对于帧长较短的音频,进行帧向量填充,对于帧长较长的音频,取其前L'个帧向量,使所有音频的帧长度都为L',L'是所有音频对应的帧序列长度的均值与一定倍数的标准差的加和。为了减少计算维度,在特征维上对所有的帧向量取平均,得到新的音频特征表示然后输入到三层深度神经网络中提取深层特征ai,如公式(2)所示,其中Wi'为可训练的权重参数。
视频特征提取过程:首先利用第三方工具得到每个视频中出现的人脸部分的图像序列后,输入到OpenFace2.0中提取初始特征,表示为gi。由于视频是时间帧序列数据,每个视频包含不同的帧数量。对于帧长较短的视频,进行帧向量填充,对帧长较长的视频,取其前L”个帧向量,使所有视频的帧长度都为L”,L”是所有视频对应的帧序列长度的均值与一定倍数的标准差的加和。为了减少计算维度,在特征维上对所有的帧向量取平均,得到新的视频特征表示然后输入到三层深度神经网络中提取深层特征vi,如公式(3)所示,其中Wi”为可训练的权重参数。
在模态间交互信息提取层,分别获取声音(A)和视频(V)的融合信息,声音(A)和文本(T)的融合信息,视频(V)和文本(T)的融合信息。将包含声音和视频模态的表示为AV,声音和文本两个模态的表示为AT,视频和文本的表示为VT。它们是基于单模态信息融合的双模态信息。对于所有视频提取单模态特征之后,将其特征表示为RT={t1,t2,...,tN},RA={a1,a2,...,aN},RV={v1,v2,...,vN}。模态间交互信息的计算如式(4)。
两个模态融合的信息获取为两个独立模态特征表示的二阶笛卡尔积。为了能够适应下一层的计算,本发明分别使用两层相同维度的全连接层将其转为相同的维度,其中前一层是独立的,后一层是共享的,以减少参数量并获得更多相似信息。如(5)、(6)所示,双模态交互后的特征
HAV=FC1-AV(RAV),HAT=FC1-AT(RAT),HVT=FC1-VT(RVT) (5)
在双模态间交互信息提取层,其中,Attention函数的本质可以被描述为一个查询(Q)到一系列键(X)-值(Y)对的映射,在NLP(Natural Language Processing,自然语言处理)中,常见的设置是键和值是一样的。多头注意力机制在传统的注意力机制上引入了放缩点积和多头计算,该方法能够在不同特征子空间上捕获相关信息,随后被应用到更多其他的NLP任务。更具体地,在多头注意力结构中,每个头的Q,X,Y首先经过线性变换,如式(7)(8)(9)所示。然后计算放缩点积注意力,如式(10)所示,然后将所有头的注意力进行拼接,再进行一次线性变换得到的值作为多头注意力,如(11)所示。
MultHead(Q,X,Y)=Concat(Att1,Att2,...,Attn)×WO (11)
其中,q为X的维度,n是注意头的个数,对应n个线性变换层,WQ、WX、WY、WO分别为Q,X,Y和最后一步对应的线性层参数矩阵。
为了进行双模态之间的交互,计算双模态贡献度,并从不同的表示子空间捕捉相关信息,首先将模态间交互特征拼接得到多模态特征D,作为X和Y的输入,如式(12)所示,然后分别将声音和视频交互后的特征声音和文本交互后的特征视频和文本交互后的特征作为Q的输入,记为QAV、QAT、QVT。双模态交互过程如图3所示,QAV,QAT,QVT和D经过线性变换得到对应的特征,然后AV与D中的AV、AT、VT进行交互,AT和VT也是如此,得到三组值。使用softmax函数对这些值进行归一化后,据此计算AV,AT,VT在D中的注意力,注意力计算公式如(13)、(14)、(15)所示。最后分别拼接每个头计算出的AV,AT,VT注意力并经过一个线性层变换得到分配了注意力的双模态特征表示,如(16),(17),(18)所示,WO为权重参数。在这整个过程中AV,AT,VT共享参数,由此可以减少参数量和存储空间。
在预测层,首先对模态间交互信息和双模态间交互信息进行拼接,然后输入到多模态情感分类器CM中,CM使用三层DNN(Deep Neural Networks,深度神经网络)来生成输出,如(19)所示。
综上所述,本发明在提取单模态特征后,利用其获取模态间的交互信息,再进一步得到不同交互信息的独立性和一致性信息,从而进行有效的特征融合和准确的情感预测。由于同时考虑了模态内部信息和模态间信息提取,并基于多头注意力机制增强了双模态间的信息交互,通过计算双模态特征贡献度,有效地量化了不同模态的交互程度,从而得到了高质量的特征,保证了情感分析预测的准确性。
Claims (10)
1.一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,包括以下步骤:
S1、对视频进行预处理:从视频中分离出音频,并对音频进行转录,得到相应文本,之后对视频进行分帧处理、对视频帧进行人脸检测与对齐处理;
S2、从预处理后的数据中获取单模态原始特征:采用BERT模型从文本中获取句子向量,并利用第三方工具提取出音频特征和视频特征;
S3、基于单模态原始特征,进一步获取单模态深层特征,其中,单模态深层特征包括文本深层特征、音频深层特征和视频深层特征;
S4、根据单模态深层特征,提取出单模态间的交互信息,即得到双模态信息;
S5、从不同特征子空间计算双模态注意力,获取双模态间的交互信息;
S6、将双模态信息与双模态间交互信息进行融合及分类预测,得到对应的情感分析预测结果。
2.根据权利要求1所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、基于句子向量,将所有句子的长度调整为长度一致,得到长度统一的句子表示;
将长度统一的句子表示输入LSTM中,得到提取了上下文关系的文本深层特征;
S32、在特征维上,对音频特征所有的帧向量取平均,得到平均后的音频特征;
将平均后的音频特征输入三层深度神经网络中,得到音频深层特征;
S33、在特征维上,对视频特征所有的帧向量取平均,得到平均后的视频特征;
将平均后的视频特征输入三层深度神经网络中,得到视频深层特征。
7.根据权利要求6所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、使用两层相同维度的全连接层,以获得双模态信息交互特征,其中,两层相同维度的全连接层包括第一层独立全连接层和第二层共享全连接层;
S52、结合多头注意力机制,首先将双模态信息交互特征拼接得到多模态特征D,以作为键X和值Y的输入;
之后分别将各双模态信息交互特征作为查询Q的输入,并分别经过线性变换得到对应的双模态特征,与键X和值Y对应的多模态特征也经过相应的线性变换得到对应的双模态特征;
再将各双模态特征与多模态特征D中所有双模态特征进行交互,并使用softmax函数对交互结果进行归一化处理,以计算得到多模态特征中各双模态特征的注意力;
最后将每个注意头计算出的双模态特征的注意力进行拼接和线性层变换,以得到分配了注意力的双模态特征,即为双模态间交互信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110195691.5A CN114973044B (zh) | 2021-02-22 | 2021-02-22 | 一种基于双模态信息增强多头注意力的视频情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110195691.5A CN114973044B (zh) | 2021-02-22 | 2021-02-22 | 一种基于双模态信息增强多头注意力的视频情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114973044A true CN114973044A (zh) | 2022-08-30 |
CN114973044B CN114973044B (zh) | 2024-09-24 |
Family
ID=82953929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110195691.5A Active CN114973044B (zh) | 2021-02-22 | 2021-02-22 | 一种基于双模态信息增强多头注意力的视频情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973044B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115983280A (zh) * | 2023-01-31 | 2023-04-18 | 烟台大学 | 面向不确定模态缺失的多模态情感分析方法及系统 |
CN116701708A (zh) * | 2023-07-27 | 2023-09-05 | 上海蜜度信息技术有限公司 | 多模态增强的视频分类方法、系统、存储介质及电子设备 |
CN116738359A (zh) * | 2023-05-23 | 2023-09-12 | 内蒙古工业大学 | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190341025A1 (en) * | 2018-04-18 | 2019-11-07 | Sony Interactive Entertainment Inc. | Integrated understanding of user characteristics by multimodal processing |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
-
2021
- 2021-02-22 CN CN202110195691.5A patent/CN114973044B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190341025A1 (en) * | 2018-04-18 | 2019-11-07 | Sony Interactive Entertainment Inc. | Integrated understanding of user characteristics by multimodal processing |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
Non-Patent Citations (1)
Title |
---|
王雨竹: "基于跨模态上下文感知注意力的多模态情感分析", 《数据分析与知识发现》, vol. 5, no. 04, 23 February 2021 (2021-02-23) * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115239937B (zh) * | 2022-09-23 | 2022-12-20 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115983280A (zh) * | 2023-01-31 | 2023-04-18 | 烟台大学 | 面向不确定模态缺失的多模态情感分析方法及系统 |
CN115983280B (zh) * | 2023-01-31 | 2023-08-15 | 烟台大学 | 面向不确定模态缺失的多模态情感分析方法及系统 |
CN116738359A (zh) * | 2023-05-23 | 2023-09-12 | 内蒙古工业大学 | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
CN116738359B (zh) * | 2023-05-23 | 2024-07-09 | 内蒙古工业大学 | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
CN116701708A (zh) * | 2023-07-27 | 2023-09-05 | 上海蜜度信息技术有限公司 | 多模态增强的视频分类方法、系统、存储介质及电子设备 |
CN116701708B (zh) * | 2023-07-27 | 2023-11-17 | 上海蜜度信息技术有限公司 | 多模态增强的视频分类方法、系统、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114973044B (zh) | 2024-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275085B (zh) | 基于注意力融合的在线短视频多模态情感识别方法 | |
CN113408385B (zh) | 一种音视频多模态情感分类方法及系统 | |
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
CN110674339B (zh) | 一种基于多模态融合的中文歌曲情感分类方法 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN114973044B (zh) | 一种基于双模态信息增强多头注意力的视频情感分析方法 | |
Mower et al. | Interpreting ambiguous emotional expressions | |
Atmaja et al. | Two-stage dimensional emotion recognition by fusing predictions of acoustic and text networks using SVM | |
CN107452379B (zh) | 一种方言语言的识别方法及虚拟现实教学方法和系统 | |
Wang et al. | Learning Mutual Correlation in Multimodal Transformer for Speech Emotion Recognition. | |
CN111898670B (zh) | 多模态情感识别方法、装置、设备及存储介质 | |
CN114973045B (zh) | 一种基于多任务学习的层次多模态情感分析方法 | |
CN115329779A (zh) | 一种多人对话情感识别方法 | |
CN112818118A (zh) | 基于反向翻译的中文幽默分类模型 | |
WO2023226239A1 (zh) | 对象情绪的分析方法、装置和电子设备 | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
Aslam et al. | Attention-based multimodal sentiment analysis and emotion recognition using deep neural networks | |
CN114742047A (zh) | 基于最大概率填充和多头注意力机制的文本情感识别方法 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
Zhao et al. | Tdfnet: Transformer-based deep-scale fusion network for multimodal emotion recognition | |
CN114254096A (zh) | 一种基于交互机器人对话的多模态情感预测方法及系统 | |
Santoso et al. | Large Language Model-Based Emotional Speech Annotation Using Context and Acoustic Feature for Speech Emotion Recognition | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |