CN114511906A - 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 - Google Patents
基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN114511906A CN114511906A CN202210067242.7A CN202210067242A CN114511906A CN 114511906 A CN114511906 A CN 114511906A CN 202210067242 A CN202210067242 A CN 202210067242A CN 114511906 A CN114511906 A CN 114511906A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- mode
- modal
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 37
- 230000003993 interaction Effects 0.000 claims abstract description 38
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 28
- 230000008451 emotion Effects 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 15
- 239000002775 capsule Substances 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 14
- 238000007526 fusion splicing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 239000011782 vitamin Substances 0.000 claims description 2
- 239000012634 fragment Substances 0.000 claims 2
- 238000004590 computer program Methods 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 25
- 238000010586 diagram Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 235000002505 Centaurea nigra Nutrition 0.000 description 1
- 241001073742 Mylopharodon conocephalus Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及自然语言处理、深度学习、多模态情感分析领域,涉及一种基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备,所述方法包括使用ERNIE2.0预训练模型、DCCN、ResNet‑152和胶囊网络分别对文本、音频、图像提取出单模态低级特征;使用词对齐对三个模态特征进行对齐;采用双向GRU对上述特征进行处理,得到各模态高级特征;利用跨模态动态卷积对三个模态特征进行交互;拼接各个模态的跨模态交互特征和高级特征,并利用多头注意力机制融合;最后输入到softmax函数中得到情感识别结果;本发明很好的融合了各单模态特征,有效挖掘视频中所表达的情感信息,从而提升了多模态情感识别的准确率及效率。
Description
技术领域
本发明涉及自然语言处理、深度学习、多模态情感分析技术领域,特别涉及一种基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备。
背景技术
随着电子商务和社交网络兴起和发展,人类可以通过这些媒体广泛的表达他们的意见以及建议,这些意见以及建议中通常会包含大量的主观性文本,这为意见挖掘和情感分析提供了非常丰富的资源,促进了情感分析的发展。同时也将情感分析应用众多领域。例如,公司在了解顾客对于他们的产品或品牌持有怎样的观点与建议等。因此情感分析体现了越来越重要的研究价值。以往的情感分析大多数是通过对单一的文本模态进行分析,但往往声音和面部表情也会包含丰富的情感信息,通过对声音和面部表情的情感挖掘,结合文本信息的情感,更有助于提高最终情感预测的准确度。因此,多模态情感分析更值得研究者进行研究。
关于多模态情感分析中的文本信息的提取,大多数基于单词和句子之间的共现性来训练模型,而文本语料库中还有其他值得研究的词汇、句法和语义信息。即多模态情感分析的第一个挑战在于如何更好提取出文本信息词汇、句法和语义等方面信息。除此之外,有一部分只关注单个模态的中不同信息的权重,对于音频和图像对文本信息的影响并没有考虑进去,即多模态情感识别的第二个挑战在于如何结合音频和图像模态信息来动态的调整文本信息词的权重。目前多模态融合策略主要有特征层融合和决策层融合两种。特征层融合,也称早融合,即将输入的多种模态信息进行简单拼接操作。虽然此方法简单易操作,但是却不能将从不同模态获得的冲突或冗余信息过滤掉,并且容易忽略模态间的动态关系。决策层融合,也称晚融合,即对每种模态信息单独做训练,考虑模态的内在信息,然后进行决策投票,并且任何一个模态的缺失,都不会影响情感的预测。虽然此种方法充分考虑了各模态特征的差异性,但是却难以学习到模态之间的相互联系。
发明内容
为解决以上现有技术问题,本发明提出了基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备,能够对模态的时间维度的局部信息进行建模,避免重要信息被不相关特征所淹没。故基于跨模态动态卷积和胶囊网络的视频多模态情感识别模型,能够实现对视频较好的情感识别效果。
在本发明的第一方面,本发明提供了一种基于跨模态动态卷积的视频多模态情感识别方法,该方法步骤包括:
S1:获取视频中的各单模态初级特征,包括初级文本特征、初级音频特征以及初级图像特征;
S2:将各单模态初级特征进行词级对齐,得到各个单模态词对齐特征,包括词对齐文本特征、词对齐音频特征和词对齐图像特征;
S3:采用双向GRU网络分别对各个单模态词对齐特征进行预处理,得到各个单模态高级特征,包括高级文本特征、高级音频特征和高级图像特征;
S4:利用跨模态动态卷积对词对齐文本特征、词对齐音频特征和词对齐图像特征进行多模态交互,得到六种跨模态交互对特征;
S5:采用多头注意力机制对六种跨模态交互对特征以及各个单模态高级特征进行融合拼接,并输入到softmax函数中,输出视频的情感识别结果;
其中,GRU表示门循环单元,softmax表示归一化指数函数。
本发明的有益效果:
本发明采用了ERNIE2.0预训练模型,充分考虑了文本信息字的多义性,增强字的语义表示,提高了情感分类性能;采用了DCCN,提取了音频信息中的空间情绪特征;采用ResNet-152和胶囊网络的递进网络充分考虑了图像信息中的局部情绪特征的提取;采用双向GRU网络,充分考虑了视频中各模态上下文相互依赖关系的影响,提高了情感分类性能;本发明采用跨模态动态卷积,能够对模态的时间维度的局部信息进行建模,避免重要信息被不相关特征所淹没。故本发明基于跨模态动态卷积的视频多模态情感识别模型,能够较好地实现对视频的情感识别效果。
附图说明
图1为本发明实施例的总体流程图;
图2为本发明采用的GRU机制图;
图3为本发明的双向GRU模型结构图;
图4为本发明的跨模态动态卷积结构图;
图5为本发明的跨模态动态卷积的视频多模态情感识别模型;
图6为本发明的多头注意力融合结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的总体流程图,如图1所示,一种跨模态动态卷积的视频多模态情感识别方法,该方法步骤包括:
S1:获取视频中的各单模态初级特征,包括初级文本特征、初级音频特征以及初级图像特征;
在本发明实施例中,需要在提取视频的特征时,采用不同的特征提取方法分别提取各单模态特征,其中,提取单模态特征的过程包括:
S11:使用WordPiece标记视频中文本序列,送入到ERNIE2.0预训练模型中,得到视频中的初级文本特征Xt;
S12:使用openSMILE提取视频中的低级音频特征,采用DCCN提取音频局部特征,进行拼接得到视频中的初级音频特征Xa;
S13:使用openFACE提取视频中的低级图像特征,采用ResNet-152和胶囊网络进行图像特征提取,进行拼接得到视频中的初级图像特征Xv;
其中,openSMILE表示音频特征提取模型,openFACE表示图像特征提取模型,DCCN是扩张卷积神经网络,ResNet-152是残差网络,且m∈{t,a,v},t代表文本、a表音频、v表图像,表示集合χm的维度是μ×d维。
将音频信息通过DCCN,其计算公式为:
其中x′a是卷积滤波器的输出,xa(n)是音频信号的输入;DCCN是利用(.)乘积计算卷积滤波器与输入之间的数据的输出,wa(n)是大小为L时的输入,σ表示激活函数;是第l层第i个输出特征表示,是第l-1层第j个输出特征表示,是在BN层第i个和第j个特征之间的卷积滤波器。
ResNet-152将输入的图像调整为224×224的像素图像,通过ResNet-152进行与训练,得到的图像特征向量的计算公式为:
xv′=ResNet(xv)
其中,xv′是7×7×2048维的张量。
将xv′输入到单层的胶囊网络,获得含有图像位置信息的图像特征向量,其计算公式为:
xv″=Capsule(xv′)
本发明实施例中,利用ResNet-152残差网络提取出图像的第一图像特征,将所述第一图像特征输入到胶囊网络中提取出低级图像特征,这种方式能够更好的提取出更深层次的图像特征。
WordPiece是一个分词模型,可以将单词分解为给定训练的单词模块的单词块,在对模型进行预训练之前,加入特殊的单词边界符号,使原来的词序列保持不变,使得可以从文字序列中恢复且没有歧义。
预训练模型ERNIE2.0是由双向的Transformer编码器和任务嵌入构成。
openSMILE是一个高度封装的音频特征提取工具,不仅可以提取基础的语音特征,而且还可以提取重要的情感特征参数。在本实施例中,以30Hz帧速率和100ms的滑动窗口来提取音频特征;为了识别语音样本,使用z标准化技术对语音样本进行归一化处理,并对语音强度进行阈值处理。openSMILE提取的特征由若干低级描述因子(LLD)组成,如梅尔频率倒谱系数MFCC、语音强度、音高,以及它们的统计量,如均值、根二次均值等。
DCCN主要提取原始语音信号的局部特征,其目的是增强局部特征,从而从局部学习的特征图中提取情感特征。DCCN是由1个扩张的CNN层、1个批处理归一化BN(BatchNormalization)层和1个leaky_relu层组成,其中BN(Batch Normalization)层是为了提高训练过程中的性能和速度,从而避免梯度爆炸,leaky_relu层保证了模型中不存在线性关系。在本实施例中,我们将扩张率设置为2。
openFACE是一个能够进行面部标志检测、头部姿势估计、面部动作单元识别和目视估计的开源工具。在本实施例中,使用条件局部神经场(CLNF)从眼部区域HOG、注视向量、头部姿态、硬头形状和代表面部肌肉运动的面部动作单元中提取出面部特征,同时将无法检测到的人脸的其余信息删除。
ResNet-152是深度残差网络,在本示例中,将输入的图像调整为224×224的像素图像。
胶囊网络是一个将特征封装在神经元组中,即为胶囊。胶囊网络可以更加准确的捕获特征关系,捕捉模态中的局部潜在信息。
S2:将各单模态初级特征进行词级对齐,得到各个单模态词对齐特征,包括词对齐文本特征、词对齐音频特征和词对齐图像特征;在本发明实施例中,将初级文本特征Xt、初级音频特征Xa和初级图像特征Xv经过词级对齐后得到词对齐语音特征zt、词对齐语音特征za和词对齐图像特征zv。
使用P2FA获取每个单词的时间步长,在相应的时间步长对音频和图像特征进行平均,获得词对齐音频和词对齐图像特征。
其中,所谓词对齐即为使用一维时间卷积处理输入序列,其计算公式为:
{zt,za,zv}=Conv1D({Xt,Xa,Xv},k{t,a,v})
Conv1D表示一维时间卷积;k{t,a,v}表示一维时间卷积对应的卷积核大小。
S3:采用双向GRU网络分别对各个单模态词对齐特征进行预处理,得到各个单模态高级特征,包括高级文本特征、高级音频特征和高级图像特征;
其中,GRU表示门循环单元,softmax表示归一化指数函数。
采用双向GRU确定各模态中上下文的相互依赖关系并得到各模态的高级特征表示,其步骤包括:
S31:将词对齐文本特征zt输入到双向GRUt中,得到高级文本特征Zt;
S32:将词对齐音频特征za输入到双向GRUa中,得到高级音频特征Za;
S33:将词对齐图像特征zv输入到双向GRUv中,得到高级图像特征Zv;
其中,GRU模型由更新门zt和重置门rt构成,其机制图如图2所示。更新门zt决定是否要将隐藏状态更新为新的状态,zt的值越大,表明前一时刻的状态信息代入越多;重置门rt决定是否要将之前的状态忘记,rt的值越小,表明前一时刻的状态信息被忘掉得越多。双向GRU具有参数少、训练快的优点,而且能够记住句子中上下文的长期依赖关系,在进行情感分类的时候可以通过双向GRU来考虑上下文的信息。
采用双向GRU捕捉各模态中的上下文的相互依赖关系,如图3,包括:
将矩阵Z′m作为双向GRUm的输入,假设GRUm的输出大小为dm维,每个模态的特征向量zm都使用以下公式通过GRUm单元:
rmt=δ(zmt·Umr+hm(t-1)·Wmr+bmr);
zmt=δ(zmt·Umz+hm(t-1)·Wmz+bmz);
输入的特征通过双向GRU的计算公式为:
经过双向GRUm后的隐藏层输出表示为:
将双向GRUm的输出作为视频中模态m的初级特征向量。
其中,m表示是模态类型,且m∈{t,a,v},t代表文本、a表音频、v表图像,μ表示视频片段,zm为视频中模态m的特征表示,Zm表示各个模态特征信息zm经过双向GRU网络后的隐藏层输出,表示前向GRU计算,表示后向GRU计算,表示矩阵Z′m的维度是μ×2dm维,Z′m表示模态m的初级特征。
S4:利用跨模态动态卷积对词对齐文本特征、词对齐音频特征和词对齐图像特征进行多模态交互,得到六种跨模态交互对特征;
采用跨模态动态卷积将各个模态进行交互,如图4,获取6组跨模态交互对特征,跨模态动态卷积交互的计算公式为:
其中,分别是输入源模态S1,S2和目标模态S3词对齐的初始层输入特征表示;分别是输入源模态S1,S2和目标模态S3词对齐特征表示;是多头跨模态动态卷积层;LN是层归一化;PWConv[i]是逐点卷积;是多头交互后的特征表示;是逐点卷积后的文本、音频、图像特征表示;是交互最终的文本、音频、图像输出特征表示,i∈[1,2,...,N],N表示多头跨模态动态卷积层的卷积层个数,在交互过程中,S1,S2,S3可以分别代替文本、图像、音频,也即是当源模态S1,S2分别为文本和音频的词对齐特征信息,那么目标模态S3则为对应的图像的词对齐特征信息。
跨模态动态卷积(Cross-modal Dynamic Convolution)是在时间维度对特征进行局部提取,可以避免不相关的信息被忽视,跨模态动态卷积容易叠加,可以更好的对长时间的模态交互进行建模。
S5:采用多头注意力机制对六种跨模态交互对特征以及各个单模态高级特征进行融合拼接,并输入到softmax函数中,输出视频的情感识别结果;
如图5所示,构建基于跨模态动态卷积的视频多模态情感识别模型的过程包括:
S51:采用残差连接拼接各个模态对应的高级特征以及跨模态交互特征;
S52:将各个模态最终输出序列表示输入到多头注意力机制进行特征融合;
S53:将多模态融合信息总特征向量输入softmax函数中,得到跨模态动态卷积的视频多模态情感识别模型。
利用残差连接拼接各个模态对应的高级特征以及跨模态交互特征:
Ov=Concat(Oa-t-v,Ot-a-v,Zv)
Ot=Concat(Ov-a-t,Oa-v-t,Zt)
Oa=Concat(Ot-v-a,Ov-t-a,Za)
O=Ov+Ot+Oa
其中,Ov,Ot,Oa分别表示图像、文本、音频的拼接后的特征;Oa-t-v,Ot-a-v是图像分别与文本、音频的跨模态交互特征;Ov-a-t,Oa-v-t是文本分别与音频、图像的跨模态交互特征;Ot-v-a,Ov-t-a是音频分别与图像、文本的跨模态交互特征;Concat是合并函数;O是最后最终交互特征输出。
采用多头注意力机制进行融合,可参考如图6所示,得到最终融合输出特征,其计算公式为:
F=Wm[head1…headm]+bm
其中,Q=OWQi,K=OWKi,V=OWVi分别对于query值,key值,value值。都是query,key,value对应的参数矩阵,bm是权重;headi表示每个头的特征信息;F表示最终融合输出特征。
将最终融入输出特征作为softmax函数的输入,包括:
将最终融入输出特征F作为softmax函数的输入进行情感分类:
y=softmax(Wsoft·F+bsoft)
其中,Wsoft为softmax层的权重矩阵,bsoft为softmax层的偏置项,y表示所有的真实标签,c为情感种类值(这里c=class,为0或1,即分为消极或积极),为预测类的概率,y[c]表示预测类的真实标签,class表示总的情感种类值。
可以理解的是,在本发明实施例,基于跨模态动态卷积的视频多模态情感识别方法中出现的所有网络结构构成了基于跨模态动态卷积的视频多模态情感识别模型,而本发明实施例中还需要对该识别模型进行训练优化,利用训练完成的该识别模型完成对待测视频的情感识别,其中该模型的训练优化过程包括:
使用分类交叉熵函数与Adam优化器对基于跨模态ERNIE2.0视频多模态情感识别模型进行训练优化。
在训练过程中,将分类交叉熵函数作为训练的损失函数Loss,其损失函数的表达式为:
其中,N为样本的数量,i为样本的索引,c为类值,C表示总的情感种类值,yic表示第i个样本c类的真实标签,且 表示第i个样本预测为c类的概率,并使用Adam优化器来优化网络学习参数,采用Dropout来防止过拟合;其中,Adam表示适应性矩估计,Dropout表示深度神经网络层的一种选择层。在完成模型的训练之后,将所需要识别的视频输入模型之中,即可对视频中表达的情感进行识别。
本发明实施例提供的一种基于跨模态动态卷积的视频多模态情感识别装置,包括:
初级特征提取模块,用于获取视频中的各单模态初级特征,包括初级文本特征、初级音频特征以及初级图像特征;
词对齐特征提取模块,用于将各单模态初级特征进行词级对齐,得到各个单模态词对齐特征,包括词对齐文本特征、词对齐音频特征和词对齐图像特征;
高级特征提取模块,用于采用双向GRU网络分别对各个单模态词对齐特征进行预处理,得到各个单模态高级特征,包括高级文本特征、高级音频特征和高级图像特征;
特征交互处理模块,用于利用跨模态动态卷积对词对齐文本特征、词对齐音频特征和词对齐图像特征进行多模态交互,得到六种跨模态交互对特征;
特征融合模块,用于采用多头注意力机制对六种跨模态交互对特征以及各个单模态高级特征进行融合拼接,并输入到softmax函数中,输出视频的情感识别结果;
其中,GRU表示门循环单元,softmax表示归一化指数函数。
根据本发明的实施例,本发明还提供了一种计算机设备,所述计算机设备旨在各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。计算机设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
所述计算机设备包括:处理器、存储器。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理。
存储器即为本发明所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本发明所提供的一种基于跨模态动态卷积的视频多模态情感识别方法。本发明的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本发明所提供的一种基于跨模态动态卷积的视频多模态情感识别方法。
存储器作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本发明实施例中的一种基于跨模态动态卷积的视频多模态情感识别方法对应的程序指令/模块。处理器通过运行存储在存储器中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的一种基于跨模态动态卷积的视频多模态情感识别方法。
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,包括:
S1:获取视频中的各单模态初级特征,包括初级文本特征、初级音频特征以及初级图像特征;
S2:将各单模态初级特征进行词级对齐,得到各个单模态词对齐特征,包括词对齐文本特征、词对齐音频特征和词对齐图像特征;
S3:采用双向GRU网络分别对各个单模态词对齐特征进行预处理,得到各个单模态高级特征,包括高级文本特征、高级音频特征和高级图像特征;
S4:利用跨模态动态卷积对词对齐文本特征、词对齐音频特征和词对齐图像特征进行多模态交互,得到六种跨模态交互对特征;
S5:采用多头注意力机制对六种跨模态交互对特征以及各个单模态高级特征进行融合拼接,并输入到softmax函数中,输出视频的情感识别结果;
其中,GRU表示门循环单元,softmax表示归一化指数函数。
2.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,所述获取视频中的各单模态初级特征的步骤包括:
S11:使用WordPiece标记视频中文本序列,送入到ERNIE2.0预训练模型中,得到视频中的初级文本特征Xt;
S12:使用openSMILE提取视频中的低级音频特征,采用DCCN提取音频局部特征,进行拼接得到视频中的初级音频特征Xa;
S13:使用openFACE提取视频中的低级图像特征,采用ResNet-152和胶囊网络进行图像特征提取,进行拼接得到视频中的初级图像特征Xv;
4.根据权利要求2所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,所述采用ResNet-152和胶囊网络进行图像特征提取包括利用ResNet-152残差网络提取出图像的第一图像特征,将所述第一图像特征输入到胶囊网络中提取出低级图像特征。
5.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,所述采用双向GRU网络分别对各个单模态词对齐特征进行预处理,得到各个单模态高级特征包括双向GRU网络由更新门zt和重置门rt组成,更新门zt决定是否要将隐藏状态更新为新的状态,重置门rt决定是否要将之前的状态忘记;
双向GRU网络输出数据的大小为dm维,每个模态的词对齐特征向量xm输入双向GRU网络,双向GRU网络的计算公式为:
7.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,拼接各个模态的高级特征和跨模态交互特征包括:
Ov=Concat(Oa-t-v,Ot-a-v,Zv)
Ot=Concat(Ov-a-t,Oa-v-t,Zt)
Oa=Concat(Ot-v-a,Ov-t-a,Za)
O=Ov+Ot+Oa
其中,Ov,Ot,Oa分别表示图像、文本、音频的拼接后的特征;Oa-t-v,Ot-a-v是图像分别与文本、音频的跨模态交互特征;Ov-a-t,Oa-v-t是文本分别与音频、图像的跨模态交互特征;Ot-v-a,Ov-t-a是音频分别与图像、文本的跨模态交互特征;Concat是合并函数;O是拼接后的最终交互特征输出;
采用多头注意力机制进行融合包括:
F=Wm[head1…headm]+bm
其中,Q=OWQi,K=OWKi,V=OWVi分别对于query值,key值,value值;都是query,key,value对应的参数矩阵,bm是权重;headi表示每个头的特征信息;F表示最终融合输出特征;
将F作为softmax函数的输入进行情感分类:
y=softmax(Wsoft·F+bsoft)
8.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,所述方法还包括使用分类交叉熵函数与Adam优化器进行训练优化,直至满足识别需求;其中,Adam表示适应性矩估计。
9.一种基于跨模态动态卷积的视频多模态情感识别装置,其特征在于,包括:
初级特征提取模块,用于获取视频中的各单模态初级特征,包括初级文本特征、初级音频特征以及初级图像特征;
词对齐特征提取模块,用于将各单模态初级特征进行词级对齐,得到各个单模态词对齐特征,包括词对齐文本特征、词对齐音频特征和词对齐图像特征;
高级特征提取模块,用于采用双向GRU网络分别对各个单模态词对齐特征进行预处理,得到各个单模态高级特征,包括高级文本特征、高级音频特征和高级图像特征;
特征交互处理模块,用于利用跨模态动态卷积对词对齐文本特征、词对齐音频特征和词对齐图像特征进行多模态交互,得到六种跨模态交互对特征;
特征融合模块,用于采用多头注意力机制对六种跨模态交互对特征以及各个单模态高级特征进行融合拼接,并输入到softmax函数中,输出视频的情感识别结果;
其中,GRU表示门循环单元,softmax表示归一化指数函数。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210067242.7A CN114511906A (zh) | 2022-01-20 | 2022-01-20 | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210067242.7A CN114511906A (zh) | 2022-01-20 | 2022-01-20 | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114511906A true CN114511906A (zh) | 2022-05-17 |
Family
ID=81548913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210067242.7A Pending CN114511906A (zh) | 2022-01-20 | 2022-01-20 | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511906A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114944002A (zh) * | 2022-06-16 | 2022-08-26 | 中国科学技术大学 | 文本描述辅助的姿势感知的人脸表情识别方法 |
CN115019237A (zh) * | 2022-06-30 | 2022-09-06 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
CN115186683A (zh) * | 2022-07-15 | 2022-10-14 | 哈尔滨工业大学 | 一种基于跨模态翻译的属性级多模态情感分类方法 |
CN115240713A (zh) * | 2022-07-14 | 2022-10-25 | 中国人民解放军国防科技大学 | 基于多模态特征和对比学习的语音情感识别方法及装置 |
CN115631504A (zh) * | 2022-12-21 | 2023-01-20 | 西南石油大学 | 一种基于双模态图网络信息瓶颈的情感识别方法 |
CN116701708A (zh) * | 2023-07-27 | 2023-09-05 | 上海蜜度信息技术有限公司 | 多模态增强的视频分类方法、系统、存储介质及电子设备 |
CN116738359A (zh) * | 2023-05-23 | 2023-09-12 | 内蒙古工业大学 | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
CN116758462A (zh) * | 2023-08-22 | 2023-09-15 | 江西师范大学 | 一种情感极性分析方法、装置、电子设备及存储介质 |
CN116778967A (zh) * | 2023-08-28 | 2023-09-19 | 清华大学 | 基于预训练模型的多模态情感识别方法及装置 |
CN117234369A (zh) * | 2023-08-21 | 2023-12-15 | 华院计算技术(上海)股份有限公司 | 数字人交互方法及系统、计算机可读存储介质、数字人设备 |
CN117409780A (zh) * | 2023-12-14 | 2024-01-16 | 浙江宇宙奇点科技有限公司 | 一种应用于ai数字人语音交互方法及系统 |
-
2022
- 2022-01-20 CN CN202210067242.7A patent/CN114511906A/zh active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114944002B (zh) * | 2022-06-16 | 2024-04-16 | 中国科学技术大学 | 文本描述辅助的姿势感知的人脸表情识别方法 |
CN114944002A (zh) * | 2022-06-16 | 2022-08-26 | 中国科学技术大学 | 文本描述辅助的姿势感知的人脸表情识别方法 |
CN115019237B (zh) * | 2022-06-30 | 2023-12-08 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
CN115019237A (zh) * | 2022-06-30 | 2022-09-06 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
CN115240713A (zh) * | 2022-07-14 | 2022-10-25 | 中国人民解放军国防科技大学 | 基于多模态特征和对比学习的语音情感识别方法及装置 |
CN115240713B (zh) * | 2022-07-14 | 2024-04-16 | 中国人民解放军国防科技大学 | 基于多模态特征和对比学习的语音情感识别方法及装置 |
CN115186683A (zh) * | 2022-07-15 | 2022-10-14 | 哈尔滨工业大学 | 一种基于跨模态翻译的属性级多模态情感分类方法 |
CN115631504A (zh) * | 2022-12-21 | 2023-01-20 | 西南石油大学 | 一种基于双模态图网络信息瓶颈的情感识别方法 |
CN116738359A (zh) * | 2023-05-23 | 2023-09-12 | 内蒙古工业大学 | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
CN116701708A (zh) * | 2023-07-27 | 2023-09-05 | 上海蜜度信息技术有限公司 | 多模态增强的视频分类方法、系统、存储介质及电子设备 |
CN116701708B (zh) * | 2023-07-27 | 2023-11-17 | 上海蜜度信息技术有限公司 | 多模态增强的视频分类方法、系统、存储介质及电子设备 |
CN117234369A (zh) * | 2023-08-21 | 2023-12-15 | 华院计算技术(上海)股份有限公司 | 数字人交互方法及系统、计算机可读存储介质、数字人设备 |
CN116758462A (zh) * | 2023-08-22 | 2023-09-15 | 江西师范大学 | 一种情感极性分析方法、装置、电子设备及存储介质 |
CN116778967B (zh) * | 2023-08-28 | 2023-11-28 | 清华大学 | 基于预训练模型的多模态情感识别方法及装置 |
CN116778967A (zh) * | 2023-08-28 | 2023-09-19 | 清华大学 | 基于预训练模型的多模态情感识别方法及装置 |
CN117409780A (zh) * | 2023-12-14 | 2024-01-16 | 浙江宇宙奇点科技有限公司 | 一种应用于ai数字人语音交互方法及系统 |
CN117409780B (zh) * | 2023-12-14 | 2024-02-27 | 浙江宇宙奇点科技有限公司 | 一种应用于ai数字人语音交互方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114511906A (zh) | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 | |
Niu et al. | A review on the attention mechanism of deep learning | |
Adaloglou et al. | A comprehensive study on deep learning-based methods for sign language recognition | |
Cheng et al. | Fully convolutional networks for continuous sign language recognition | |
Torfi et al. | Natural language processing advancements by deep learning: A survey | |
Cihan Camgoz et al. | Subunets: End-to-end hand shape and continuous sign language recognition | |
Qiu et al. | DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN114936623B (zh) | 一种融合多模态数据的方面级情感分析方法 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
CN115131613B (zh) | 一种基于多向知识迁移的小样本图像分类方法 | |
CN116432019A (zh) | 一种数据处理方法及相关设备 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
Elons et al. | Facial expressions recognition for arabic sign language translation | |
Cao et al. | Visual question answering research on multi-layer attention mechanism based on image target features | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
CN116757195A (zh) | 一种基于提示学习的隐性情感识别方法 | |
EP4071729A2 (en) | Method and apparatus for training image recognition model based on semantic enhancement | |
CN113159071B (zh) | 一种跨模态图像-文本关联异常检测方法 | |
Jia et al. | Multimodal emotion distribution learning | |
Robert et al. | A review on computational methods based automated sign language recognition system for hearing and speech impaired community | |
Singh et al. | Visual content generation from textual description using improved adversarial network | |
Rodríguez et al. | Understanding motion in sign language: A new structured translation dataset | |
Yao | Automatic GUI Code Generation with Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |