CN114511906A

CN114511906A - 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备

Info

Publication number: CN114511906A
Application number: CN202210067242.7A
Authority: CN
Inventors: 郭艳霞; 唐宏; 金勇�; 彭金枝
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-17

Abstract

本发明涉及自然语言处理、深度学习、多模态情感分析领域，涉及一种基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备，所述方法包括使用ERNIE2.0预训练模型、DCCN、ResNet‑152和胶囊网络分别对文本、音频、图像提取出单模态低级特征；使用词对齐对三个模态特征进行对齐；采用双向GRU对上述特征进行处理，得到各模态高级特征；利用跨模态动态卷积对三个模态特征进行交互；拼接各个模态的跨模态交互特征和高级特征，并利用多头注意力机制融合；最后输入到softmax函数中得到情感识别结果；本发明很好的融合了各单模态特征，有效挖掘视频中所表达的情感信息，从而提升了多模态情感识别的准确率及效率。

Description

基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备

技术领域

本发明涉及自然语言处理、深度学习、多模态情感分析技术领域，特别涉及一种基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备。

背景技术

随着电子商务和社交网络兴起和发展，人类可以通过这些媒体广泛的表达他们的意见以及建议，这些意见以及建议中通常会包含大量的主观性文本，这为意见挖掘和情感分析提供了非常丰富的资源，促进了情感分析的发展。同时也将情感分析应用众多领域。例如，公司在了解顾客对于他们的产品或品牌持有怎样的观点与建议等。因此情感分析体现了越来越重要的研究价值。以往的情感分析大多数是通过对单一的文本模态进行分析，但往往声音和面部表情也会包含丰富的情感信息，通过对声音和面部表情的情感挖掘，结合文本信息的情感，更有助于提高最终情感预测的准确度。因此，多模态情感分析更值得研究者进行研究。

关于多模态情感分析中的文本信息的提取，大多数基于单词和句子之间的共现性来训练模型，而文本语料库中还有其他值得研究的词汇、句法和语义信息。即多模态情感分析的第一个挑战在于如何更好提取出文本信息词汇、句法和语义等方面信息。除此之外，有一部分只关注单个模态的中不同信息的权重，对于音频和图像对文本信息的影响并没有考虑进去，即多模态情感识别的第二个挑战在于如何结合音频和图像模态信息来动态的调整文本信息词的权重。目前多模态融合策略主要有特征层融合和决策层融合两种。特征层融合，也称早融合，即将输入的多种模态信息进行简单拼接操作。虽然此方法简单易操作，但是却不能将从不同模态获得的冲突或冗余信息过滤掉，并且容易忽略模态间的动态关系。决策层融合，也称晚融合，即对每种模态信息单独做训练，考虑模态的内在信息，然后进行决策投票，并且任何一个模态的缺失，都不会影响情感的预测。虽然此种方法充分考虑了各模态特征的差异性，但是却难以学习到模态之间的相互联系。

发明内容

为解决以上现有技术问题，本发明提出了基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备，能够对模态的时间维度的局部信息进行建模，避免重要信息被不相关特征所淹没。故基于跨模态动态卷积和胶囊网络的视频多模态情感识别模型，能够实现对视频较好的情感识别效果。

在本发明的第一方面，本发明提供了一种基于跨模态动态卷积的视频多模态情感识别方法，该方法步骤包括：

S1：获取视频中的各单模态初级特征，包括初级文本特征、初级音频特征以及初级图像特征；

S2：将各单模态初级特征进行词级对齐，得到各个单模态词对齐特征，包括词对齐文本特征、词对齐音频特征和词对齐图像特征；

S3：采用双向GRU网络分别对各个单模态词对齐特征进行预处理，得到各个单模态高级特征，包括高级文本特征、高级音频特征和高级图像特征；

S4：利用跨模态动态卷积对词对齐文本特征、词对齐音频特征和词对齐图像特征进行多模态交互，得到六种跨模态交互对特征；

S5：采用多头注意力机制对六种跨模态交互对特征以及各个单模态高级特征进行融合拼接，并输入到softmax函数中，输出视频的情感识别结果；

其中，GRU表示门循环单元，softmax表示归一化指数函数。

本发明的有益效果：

本发明采用了ERNIE2.0预训练模型，充分考虑了文本信息字的多义性，增强字的语义表示，提高了情感分类性能；采用了DCCN，提取了音频信息中的空间情绪特征；采用ResNet-152和胶囊网络的递进网络充分考虑了图像信息中的局部情绪特征的提取；采用双向GRU网络，充分考虑了视频中各模态上下文相互依赖关系的影响，提高了情感分类性能；本发明采用跨模态动态卷积，能够对模态的时间维度的局部信息进行建模，避免重要信息被不相关特征所淹没。故本发明基于跨模态动态卷积的视频多模态情感识别模型，能够较好地实现对视频的情感识别效果。

附图说明

图1为本发明实施例的总体流程图；

图2为本发明采用的GRU机制图；

图3为本发明的双向GRU模型结构图；

图4为本发明的跨模态动态卷积结构图；

图5为本发明的跨模态动态卷积的视频多模态情感识别模型；

图6为本发明的多头注意力融合结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例的总体流程图，如图1所示，一种跨模态动态卷积的视频多模态情感识别方法，该方法步骤包括：

在本发明实施例中，需要在提取视频的特征时，采用不同的特征提取方法分别提取各单模态特征，其中，提取单模态特征的过程包括：

S11：使用WordPiece标记视频中文本序列，送入到ERNIE2.0预训练模型中，得到视频中的初级文本特征X_t；

S12：使用openSMILE提取视频中的低级音频特征，采用DCCN提取音频局部特征，进行拼接得到视频中的初级音频特征X_a；

S13：使用openFACE提取视频中的低级图像特征，采用ResNet-152和胶囊网络进行图像特征提取，进行拼接得到视频中的初级图像特征X_v；

S14：获取视频中μ个片段，其中各单模态特征的维度d，将模态m的特征信息采用一个特征向量X_m表示，并将所有的特征向量存放于集合χ_m中；即χ_m＝[X_m1,X_m2,…,X_mi]，

其中，openSMILE表示音频特征提取模型，openFACE表示图像特征提取模型，DCCN是扩张卷积神经网络，ResNet-152是残差网络，且m∈{t,a,v}，t代表文本、a表音频、v表图像，

表示集合χ_m的维度是μ×d维。

将音频信息通过DCCN，其计算公式为：

其中x′_a是卷积滤波器的输出，x_a(n)是音频信号的输入；DCCN是利用(.)乘积计算卷积滤波器与输入之间的数据的输出，w_a(n)是大小为L时的输入，σ表示激活函数；

是第l层第i个输出特征表示，

是第l-1层第j个输出特征表示，

是在BN层第i个和第j个特征之间的卷积滤波器。

ResNet-152将输入的图像调整为224×224的像素图像，通过ResNet-152进行与训练，得到的图像特征向量的计算公式为：

x_v′＝ResNet(x_v)

其中，x_v′是7×7×2048维的张量。

将x_v′输入到单层的胶囊网络，获得含有图像位置信息的图像特征向量，其计算公式为：

x_v″＝Capsule(x_v′)

本发明实施例中，利用ResNet-152残差网络提取出图像的第一图像特征，将所述第一图像特征输入到胶囊网络中提取出低级图像特征，这种方式能够更好的提取出更深层次的图像特征。

WordPiece是一个分词模型，可以将单词分解为给定训练的单词模块的单词块，在对模型进行预训练之前，加入特殊的单词边界符号，使原来的词序列保持不变，使得可以从文字序列中恢复且没有歧义。

预训练模型ERNIE2.0是由双向的Transformer编码器和任务嵌入构成。

openSMILE是一个高度封装的音频特征提取工具，不仅可以提取基础的语音特征，而且还可以提取重要的情感特征参数。在本实施例中，以30Hz帧速率和100ms的滑动窗口来提取音频特征；为了识别语音样本，使用z标准化技术对语音样本进行归一化处理，并对语音强度进行阈值处理。openSMILE提取的特征由若干低级描述因子(LLD)组成，如梅尔频率倒谱系数MFCC、语音强度、音高，以及它们的统计量，如均值、根二次均值等。

DCCN主要提取原始语音信号的局部特征，其目的是增强局部特征，从而从局部学习的特征图中提取情感特征。DCCN是由1个扩张的CNN层、1个批处理归一化BN(BatchNormalization)层和1个leaky_relu层组成，其中BN(Batch Normalization)层是为了提高训练过程中的性能和速度，从而避免梯度爆炸，leaky_relu层保证了模型中不存在线性关系。在本实施例中，我们将扩张率设置为2。

openFACE是一个能够进行面部标志检测、头部姿势估计、面部动作单元识别和目视估计的开源工具。在本实施例中，使用条件局部神经场(CLNF)从眼部区域HOG、注视向量、头部姿态、硬头形状和代表面部肌肉运动的面部动作单元中提取出面部特征，同时将无法检测到的人脸的其余信息删除。

ResNet-152是深度残差网络，在本示例中，将输入的图像调整为224×224的像素图像。

胶囊网络是一个将特征封装在神经元组中，即为胶囊。胶囊网络可以更加准确的捕获特征关系，捕捉模态中的局部潜在信息。

S2：将各单模态初级特征进行词级对齐，得到各个单模态词对齐特征，包括词对齐文本特征、词对齐音频特征和词对齐图像特征；在本发明实施例中，将初级文本特征X_t、初级音频特征X_a和初级图像特征X_v经过词级对齐后得到词对齐语音特征z_t、词对齐语音特征z_a和词对齐图像特征z_v。

使用P2FA获取每个单词的时间步长，在相应的时间步长对音频和图像特征进行平均，获得词对齐音频和词对齐图像特征。

其中，所谓词对齐即为使用一维时间卷积处理输入序列，其计算公式为：

{z_t,z_a,z_v}＝Conv1D({X_t,X_a,X_v},k_{t,a,v})

Conv1D表示一维时间卷积；k_{t,a,v}表示一维时间卷积对应的卷积核大小。

其中，GRU表示门循环单元，softmax表示归一化指数函数。

采用双向GRU确定各模态中上下文的相互依赖关系并得到各模态的高级特征表示，其步骤包括：

S31：将词对齐文本特征z_t输入到双向GRU_t中，得到高级文本特征Z_t；

S32：将词对齐音频特征z_a输入到双向GRU_a中，得到高级音频特征Z_a；

S33：将词对齐图像特征z_v输入到双向GRU_v中，得到高级图像特征Z_v；

其中，GRU模型由更新门z_t和重置门r_t构成，其机制图如图2所示。更新门z_t决定是否要将隐藏状态更新为新的状态，z_t的值越大，表明前一时刻的状态信息代入越多；重置门r_t决定是否要将之前的状态忘记，r_t的值越小，表明前一时刻的状态信息被忘掉得越多。双向GRU具有参数少、训练快的优点，而且能够记住句子中上下文的长期依赖关系，在进行情感分类的时候可以通过双向GRU来考虑上下文的信息。

采用双向GRU捕捉各模态中的上下文的相互依赖关系，如图3，包括：

将矩阵Z′_m作为双向GRU_m的输入，假设GRU_m的输出大小为d_m维，每个模态的特征向量z_m都使用以下公式通过GRU_m单元：

r_mt＝δ(z_mt·U_mr+h_m(t-1)·W_mr+b_mr)；

z_mt＝δ(z_mt·U_mz+h_m(t-1)·W_mz+b_mz)；

其中，z_m是视频中模态m的特征表示，

为话语t的候选隐藏状态，h_mt为模态m的隐藏层状态，δ为Sigmoid激活函数。

输入的特征通过双向GRU的计算公式为：

经过双向GRU_m后的隐藏层输出表示为：

其中，

表示向量拼接操作，则模态m中所有特征向量经过双向GRU_m后的矩阵表示为：

将双向GRU_m的输出作为视频中模态m的初级特征向量。

其中，m表示是模态类型，且m∈{t,a,v}，t代表文本、a表音频、v表图像，μ表示视频片段，z_m为视频中模态m的特征表示，Z_m表示各个模态特征信息z_m经过双向GRU网络后的隐藏层输出，

表示前向GRU计算，

表示后向GRU计算，

表示矩阵Z′_m的维度是μ×2d_m维，Z′_m表示模态m的初级特征。

采用跨模态动态卷积将各个模态进行交互，如图4，获取6组跨模态交互对特征，跨模态动态卷积交互的计算公式为：

其中，

分别是输入源模态S₁,S₂和目标模态S₃词对齐的初始层输入特征表示；

分别是输入源模态S₁,S₂和目标模态S₃词对齐特征表示；

是多头跨模态动态卷积层；LN是层归一化；PWConv^[i]是逐点卷积；

是多头交互后的特征表示；

是逐点卷积后的文本、音频、图像特征表示；

是交互最终的文本、音频、图像输出特征表示，i∈[1,2,...,N]，N表示多头跨模态动态卷积层的卷积层个数，在交互过程中，S₁,S₂，S₃可以分别代替文本、图像、音频，也即是当源模态S₁,S₂分别为文本和音频的词对齐特征信息，那么目标模态S₃则为对应的图像的词对齐特征信息。

跨模态动态卷积(Cross-modal Dynamic Convolution)是在时间维度对特征进行局部提取，可以避免不相关的信息被忽视，跨模态动态卷积容易叠加，可以更好的对长时间的模态交互进行建模。

如图5所示，构建基于跨模态动态卷积的视频多模态情感识别模型的过程包括：

S51：采用残差连接拼接各个模态对应的高级特征以及跨模态交互特征；

S52：将各个模态最终输出序列表示输入到多头注意力机制进行特征融合；

S53：将多模态融合信息总特征向量输入softmax函数中，得到跨模态动态卷积的视频多模态情感识别模型。

利用残差连接拼接各个模态对应的高级特征以及跨模态交互特征：

O_v＝Concat(O_a-t-v,O_t-a-v,Z_v)

O_t＝Concat(O_v-a-t,O_a-v-t,Z_t)

O_a＝Concat(O_t-v-a,O_v-t-a,Z_a)

O＝O_v+O_t+O_a

其中，O_v，O_t，O_a分别表示图像、文本、音频的拼接后的特征；O_a-t-v，O_t-a-v是图像分别与文本、音频的跨模态交互特征；O_v-a-t，O_a-v-t是文本分别与音频、图像的跨模态交互特征；O_t-v-a，O_v-t-a是音频分别与图像、文本的跨模态交互特征；Concat是合并函数；O是最后最终交互特征输出。

采用多头注意力机制进行融合，可参考如图6所示，得到最终融合输出特征，其计算公式为：

F＝W_m[head₁…head_m]+b_m

其中，Q＝OW_Qi,K＝OW_Ki,V＝OW_Vi分别对于query值，key值，value值。

都是query，key，value对应的参数矩阵，b_m是权重；head_i表示每个头的特征信息；F表示最终融合输出特征。

将最终融入输出特征作为softmax函数的输入，包括：

将最终融入输出特征F作为softmax函数的输入进行情感分类：

y＝softmax(W_soft·F+b_soft)

其中，W_soft为softmax层的权重矩阵，b_soft为softmax层的偏置项，y表示所有的真实标签，c为情感种类值(这里c＝class，为0或1，即分为消极或积极)，

为预测类的概率，y[c]表示预测类的真实标签，class表示总的情感种类值。

可以理解的是，在本发明实施例，基于跨模态动态卷积的视频多模态情感识别方法中出现的所有网络结构构成了基于跨模态动态卷积的视频多模态情感识别模型，而本发明实施例中还需要对该识别模型进行训练优化，利用训练完成的该识别模型完成对待测视频的情感识别，其中该模型的训练优化过程包括：

使用分类交叉熵函数与Adam优化器对基于跨模态ERNIE2.0视频多模态情感识别模型进行训练优化。

在训练过程中，将分类交叉熵函数作为训练的损失函数Loss，其损失函数的表达式为：

其中，N为样本的数量，i为样本的索引，c为类值，C表示总的情感种类值，yi_c表示第i个样本c类的真实标签，且

表示第i个样本预测为c类的概率，并使用Adam优化器来优化网络学习参数，采用Dropout来防止过拟合；其中，Adam表示适应性矩估计，Dropout表示深度神经网络层的一种选择层。在完成模型的训练之后，将所需要识别的视频输入模型之中，即可对视频中表达的情感进行识别。

本发明实施例提供的一种基于跨模态动态卷积的视频多模态情感识别装置，包括：

初级特征提取模块，用于获取视频中的各单模态初级特征，包括初级文本特征、初级音频特征以及初级图像特征；

词对齐特征提取模块，用于将各单模态初级特征进行词级对齐，得到各个单模态词对齐特征，包括词对齐文本特征、词对齐音频特征和词对齐图像特征；

高级特征提取模块，用于采用双向GRU网络分别对各个单模态词对齐特征进行预处理，得到各个单模态高级特征，包括高级文本特征、高级音频特征和高级图像特征；

特征交互处理模块，用于利用跨模态动态卷积对词对齐文本特征、词对齐音频特征和词对齐图像特征进行多模态交互，得到六种跨模态交互对特征；

特征融合模块，用于采用多头注意力机制对六种跨模态交互对特征以及各个单模态高级特征进行融合拼接，并输入到softmax函数中，输出视频的情感识别结果；

其中，GRU表示门循环单元，softmax表示归一化指数函数。

根据本发明的实施例，本发明还提供了一种计算机设备，所述计算机设备旨在各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。计算机设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

所述计算机设备包括：处理器、存储器。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理。

存储器即为本发明所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本发明所提供的一种基于跨模态动态卷积的视频多模态情感识别方法。本发明的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本发明所提供的一种基于跨模态动态卷积的视频多模态情感识别方法。

存储器作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本发明实施例中的一种基于跨模态动态卷积的视频多模态情感识别方法对应的程序指令/模块。处理器通过运行存储在存储器中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的一种基于跨模态动态卷积的视频多模态情感识别方法。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于跨模态动态卷积的视频多模态情感识别方法，其特征在于，包括：

其中，GRU表示门循环单元，softmax表示归一化指数函数。

2.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法，其特征在于，所述获取视频中的各单模态初级特征的步骤包括：

S14：获取视频中μ个片段，将每个视频片段中模态m的单模态初级特征信息采用一个特征向量X_m表示，并将所有的特征向量存放于集合χ_m中；即

其中，openSMILE表示音频特征提取模型，openFACE表示图像特征提取模型，DCCN(Dilated Convolutional Neural Network)是扩张卷积神经网络，ResNet-152是残差网络，且m∈{t,a,v}，t代表文本、a表音频、v表图像，

表示集合χ_m的维度是μ×d维；d表示单模态初级特征的维度。

3.根据权利要求2所述的一种基于跨模态动态卷积的视频多模态情感识别方法，其特征在于，所述采用DCCN提取音频局部特征包括利用扩张率来降低输入特征图的尺度，其计算公式为：

x′_a＝x_a(n)*w_a(n)

其中，x′_a表示卷积滤波器的输出；x_a(n)是音频信号的输入；w_a(n)是卷积滤波器的输入，σ表示激活函数，

表示第l层第i个输出特征的偏置表示，

是第l层第i个输出特征表示，

是第l-1层第j个输出特征表示，

是在BN层第i个和第j个特征之间的卷积滤波器。

4.根据权利要求2所述的一种基于跨模态动态卷积的视频多模态情感识别方法，其特征在于，所述采用ResNet-152和胶囊网络进行图像特征提取包括利用ResNet-152残差网络提取出图像的第一图像特征，将所述第一图像特征输入到胶囊网络中提取出低级图像特征。

5.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法，其特征在于，所述采用双向GRU网络分别对各个单模态词对齐特征进行预处理，得到各个单模态高级特征包括双向GRU网络由更新门z_t和重置门r_t组成，更新门z_t决定是否要将隐藏状态更新为新的状态，重置门r_t决定是否要将之前的状态忘记；

双向GRU网络输出数据的大小为d_m维，每个模态的词对齐特征向量x_m输入双向GRU网络，双向GRU网络的计算公式为：

其中，

表示向量拼接操作，则模态m中特征向量经过双向GRU后的矩阵为：

其中，m表示是模态类型，且m∈{t,a,v}，t代表文本、a表音频、v表图像，μ表示视频片段，Z_m表示各个模态词对齐特征信息z_m经过双向GRU网络后的隐藏层输出，z_m为视频中模态m的词对齐特征表示，

表示前向GRU计算，

表示后向GRU计算，

表示矩阵Z′_m的维度是μ×2d_m维，Z′_m表示模态m的高级特征。

6.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法，其特征在于，获取跨模态交互特征的步骤包括：

其中，

分别是输入源模态S₁,S₂和目标模态S₃词对齐特征表示；

是多头交互后的特征表示；

是逐点卷积后的特征表示；

是交互最终的输出特征表示，i∈[1,2,...,N]，N表示多头跨模态动态卷积层的卷积层个数，在交互过程中，源模态S₁,S₂分别为文本、图像、音频中的任意两个模态，目标模态S₃为源模态文本、图像、音频中任意两个模态所剩余的另一个模态。

7.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法，其特征在于，拼接各个模态的高级特征和跨模态交互特征包括：

O_v＝Concat(O_a-t-v,O_t-a-v,Z_v)

O_t＝Concat(O_v-a-t,O_a-v-t,Z_t)

O_a＝Concat(O_t-v-a,O_v-t-a,Z_a)

O＝O_v+O_t+O_a

其中，O_v，O_t，O_a分别表示图像、文本、音频的拼接后的特征；O_a-t-v，O_t-a-v是图像分别与文本、音频的跨模态交互特征；O_v-a-t，O_a-v-t是文本分别与音频、图像的跨模态交互特征；O_t-v-a，O_v-t-a是音频分别与图像、文本的跨模态交互特征；Concat是合并函数；O是拼接后的最终交互特征输出；

采用多头注意力机制进行融合包括：

F＝W_m[head₁…head_m]+b_m

其中，Q＝OW_Qi,K＝OW_Ki,V＝OW_Vi分别对于query值，key值，value值；

都是query，key，value对应的参数矩阵，b_m是权重；head_i表示每个头的特征信息；F表示最终融合输出特征；

将F作为softmax函数的输入进行情感分类：

y＝softmax(W_soft·F+b_soft)

其中，W_soft为softmax层的权重矩阵，b_soft为softmax层的偏置项，y表示所有的真实标签，c为情感种类值，

8.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法，其特征在于，所述方法还包括使用分类交叉熵函数与Adam优化器进行训练优化，直至满足识别需求；其中，Adam表示适应性矩估计。

9.一种基于跨模态动态卷积的视频多模态情感识别装置，其特征在于，包括：

其中，GRU表示门循环单元，softmax表示归一化指数函数。

10.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一所述的方法。