CN113408385B

CN113408385B - 一种音视频多模态情感分类方法及系统

Info

Publication number: CN113408385B
Application number: CN202110646620.2A
Authority: CN
Inventors: 岑敬伦; 李志鹏; 青春美; 罗万相
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-06-14
Anticipated expiration: 2041-06-10
Also published as: CN113408385A

Abstract

本发明涉及语音和图像处理、模式识别领域，为一种音视频多模态情感分类方法及系统，其方法包括步骤：对原始视频数据的处理与计算，得到视频数据样本、音频数据样本及文本特征样本；构建情感特征提取网络，分别对视频数据样本、音频数据样本及文本特征样本进行特征提取，获得多模态中的视觉模态特征、音频特征及文本特征；将提取到的视觉模态特征、音频特征及文本特征进行维度统一，输入到张量融合网络中进行融合学习，最后进行分类输出多模态情感分类概率结果。本发明能够对跨模态之间的情感信息进行有效的整合，对视频、音频及文本进行时空高维度上的特征提取，拼接成多模态特征向量，再融合学习并进行情感分类。

Description

一种音视频多模态情感分类方法及系统

技术领域

本发明涉及语音和图像处理、模式识别领域，具体为一种基于开源深度学习框架的音视频多模态情感分类方法及系统。

背景技术

随着5G时代的到来，在现有的以短视频为代表的新兴互联网娱乐产业发展的基础上，网速制约的解除将使短视频进一步成为新的主流信息载体。随之而来的是以视频为载体的数据量的爆炸式增长，“信息过载”已经成为了不可避免的问题。基于信息内容的个性化推荐系统正起着越来越重要的作用，因而对于视频的标签化描述和分类的需求也日益加剧。其次，由于4G、5G网络的不断普及以及活跃在线用户数量的增加，网络上出现的视频质量良莠不齐，对音视频等多媒体文件的审查工作尤为重要，智能的音视频自动化分类系统将会对互联网信息的过滤工作带来极大的帮助。

与此同时，在这种“信息过载”的现状下，好的个性化推荐将能够很好的提升用户体验，提高用户使用产品的效率。对于自媒体社交平台而言，这意味着能更好的留住用户，进一步扩大竞争优势。情感作为音视频等多媒体文件中一项重要的分类依据，在个性化推荐系统的分类参考上起着重要的作用，因为对此类基于情感的分类算法的需求日益增大。

一个智能化的视频平台的高层次目标需要的是能理解用户的情感，实现能为用户提供基于情感的筛选功能以及更加个性化的内容推荐功能，为青少年模式提供自动过滤恐惧、悲伤等负面情感视频内容的过滤功能等。因此视频情感分析在视频创作全民化的现今有着重要的社会意义。

现有的视频情感分析大多是以复杂的神经网络为基础进行的，对视频中语音和表情信息进行提取和分析。对音视频中的人脸表情特征、语音信息和文本信息特征的主流提取方法主要包括人脸表情的变化特征、人脸关键点位置、语音相关的频谱特性、韵律特征、峰值、均值、过零率、文本的词向量特征等。

于2020年6月5日公开的发明申请CN111242155A，公开了一种基于多模深度学习的双模态情感识别方法，使用两个深度卷积神经网络进行高层特征提取，采用全连接层构成的融合网络，实现对音视频情感信息的融合。该方法能够构建出高层次的音视频特征表示来用于情感分类，使得该发明能够提高音视频情感识别的性能。

尽管如此，该项发明申请在数据处理方式、特征的提取与表达、模态间的时间关联性等方面仍存在些许的不足之处：

1、该项发明申请在特征的提取上，只采用了深度卷积神经网络对人脸的表情图片及语音的语谱图进行高层次的特征提取。对于人脸的表情而言，微笑的表情变化差异不足以体现于高层特征中。

2、对于视频的感情而言，视频中的人物在情感的表达与决定性上占有绝大部分的权重。该发明申请只将整体特征输入到卷积神经网络中，通过卷积来提取高维特征，缺少对内容局部的关注。

3、该项发明申请所提出的双模态的情感识别方法中，只用到了音频与人脸表情信息。对于音频特征的提取做法为单个音频样本提取一个特征，而对于每一张关键帧图片都提取人脸表情特征。在时间维度上，音频为一段时间内的连续变化而图片则为离散的关键帧。

4、对于音视频而言(尤其是对话中)，语音的文本信息最能表达出情感，因而在音视频的多模态融合情感识别中，语音文本中的信息不应该被忽略。

5、该项发明申请中，对音视频原始数据的处理并没有统一的做法，在音视频的数据处理中，数据的格式、内容等都有很大区别。例如视频中可能不出现人脸，则无法按照该项发明申请所述方法进行人脸特征的提取。

发明内容

为解决现有技术所存在的技术问题，本发明提供一种音视频多模态情感分类方法及系统，能够对跨模态之间的情感信息进行有效的整合，采用ViT(Vision Transformer)网络、循环神经网络(LSTM)及路径积分网络(Signature)分别对视频、音频及文本进行时空高维度上的特征提取，将三个模态所提取的高级特征进行维度上的拼接获得多模态的特征向量，最后采用TFN张量融合网络对学习到的特征向量进行融合学习并进行情感分类。

根据本发明的音视频多模态情感分类方法，包括以下步骤：

S1、对原始视频数据的处理与计算，得到视频数据样本、音频数据样本及文本特征样本；

S2、构建情感特征提取网络，分别对视频数据样本、音频数据样本及文本特征样本进行特征提取，获得多模态中的视觉模态特征、音频特征及文本特征；

S3、将提取到的视觉模态特征、音频特征及文本特征通过全连接层进行维度统一，输入到张量融合网络中进行融合学习，最后进行分类输出多模态情感分类概率结果。

根据本发明的音视频多模态情感分类系统，包括：

数据预处理模块，用于对原始视频数据的处理与计算，得到视频数据样本、音频数据样本及文本特征样本；

情感特征提取模块，用于构建情感特征提取网络，分别对视频数据样本、音频数据样本及文本特征样本进行特征提取，获得多模态中的视觉模态特征、音频特征及文本特征；

特征融合及分类模块，将提取到的视觉模态特征、音频特征及文本特征通过全连接层进行维度统一，输入到张量融合网络中进行融合学习，最后进行分类输出多模态情感分类概率结果。

本发明将包含音频视频的多媒体文件输入网络，通过网络内部的计算，更高效准确地实现对于视频内容的多模态情感分析，有助于计算机实现对于人类情感的理解，从而提高软件的服务质量，进一步提升用户的使用体验。与现有技术相比，本发明具有如下优点和有益效果：

1、在人脸表情识别当中采用了路径积分等方法，把握了人脸关键点序列随时间变化的细节，不仅关注了整体也注意到了局部，能够更加准确的把握人脸表情细微变化中体现的情感，将路径积分应用于人脸关键点上进行情感计算，充分挖掘了路径积分算法的潜力，在一定程度上简化了运算开销的同时提高了识别的准确度，对实际应用有重大意义，开创了一个全新的视频情感识别方向。

2、将图片整体切分为块，输入到ViT网络中，通过注意力机制，既提高了对主要信息的比重，忽略了不必要的冗余信息，也简化了原有神经网络结构，在此基础上进行多模态融合。也就是说，本发明采取了注意力机制，增强了网络对于视频内容局部的关注，使得网络在捕获人物的情感表达的同时，不仅局限于人物，也能注意到除了人物本身之外的其他音频视频细节，使得对于信息的取舍更加合理，降低了冗余信息的影响而提高了主要信息的权重，使得网络在之后的多模态融合中能够取得更好的效果，也在一定程度上提高了网络的信息处理效率。

3、使用了语音切割的方式，以视频中图片关键帧的时间戳为基准，截取了该时间戳前后一段时间的语音信号，即在所选取的图片关键帧时刻前后一定范围内对音频进行切片，将连续的音频信号与连续的视频信号相统一，保证了音频与图片在时间维度上的统一性，提高了网络对于情感分析中时间维度的准确度，更加贴合人类同时结合视觉和听觉处理信息的习惯，提高了系统对于情感分析的准确度。

4、引入了文字情感分析模块，增加了网络获取的信息的维度，让视频中出现语音不止停留在声音层面，把语音中文本的信息也加入了网络信息处理的过程中，使得网络能够更加准确的分析对话中说话者的情感；也使得网络能够在一定程度上对非对话类的视频有一定的情感分析能力，拓展了网络能够应用的范畴。在本发明的优选实施例中，可通过开源的语音转文本API(Deepspeech)，将语音转换为文本，通过将文本转换为词向量特征输入到融合网络中，以增强网络性能。

5、考虑了不同的视频内容，通过人脸检测模块，对于有人脸的视频，采取人脸特征点提取进行表情识别，而对于无人脸的视频，则采取卷积神经网络的方式进行图片高层次的特征提取。也就是说，本发明增加了人脸识别模块，使得网络能够应用于没有人脸出现的视频中，提高了网络的鲁棒性，也使得对音频视频的数据处理能够具有统一性，可由此进一步部署为端到端应用。

附图说明

图1是本发明实施例中多模态情感分类方法的流程示意图；

图2是本发明实施例中多模态情感分类系统的结构框架图。

具体实施方式

下面将结合本发明的附图和实施例，对本发明的技术方案作进一步描述，但本发明的实施方式并不限于此。

实施例1

如图1所示，本实施例中音视频多模态情感分类方法，包括以下步骤：

S1、对原始视频数据的处理与计算

从输入的原始视频片段中获取关键帧和音频信号；对于每一关键帧，将帧图片缩放后输入到人脸检测模块中，若帧图片中不包含人脸，则将帧图片进行等大小的切分；若帧图片中包含人脸，则使用旷视Face++开源API提取人脸的关键点；对音频信号进行梅尔频谱图计算以及MFCC(梅尔频率倒谱系数)的计算，使用开源语音转文本工具包Deepspeech将音频转换为文本，由Transformers(自注意力变换网络)中提供的相关函数将文本转换为词向量并根据文本语句结构生成分句符号。

在本实施例中步骤S1具体包括以下步骤：

S11、视频数据处理与计算

从一段视频片段中提取关键帧，对每一关键帧进行特征提取：将帧图片缩放成维度为(W,H,C)的矩阵，利用级联分类器检测帧图片中有无人脸；对于无人脸的帧图片，将帧图片切分成大小为(P,P)的图片块，并将切分后的图片块展平拼接，得到

的特征矩阵；对于有人脸的帧图片，使用旷视Face++开源API提取人脸的68个关键点，得到相应的(1,68)人脸特征矩阵；对视频片段中每一关键帧进行上述特征提取后，进行时间上的拼接，获得视觉特征样本V_i；。

对K段视频片段均进行上述特征提取步骤，得到K个视频数据样本，记为{V₁,V₂,V₃,…,V_k}。

S12、音频数据处理与计算

以16KHz采样率对原始视频片段进行采样，得到音频信号。对第i段音频信号进行特征提取，获得相应的音频特征样本：对音频信号进行梅尔频谱图计算，分别由512个快速傅里叶变换点与1024个快速傅里叶变换点的短时傅里叶变换来计算获得，帧长是快速傅里叶变换点的50％，记为特征M_i1，梅尔通道数是快速傅里叶变换点的25％，记为特征M_i2；对音频信号进行截断，时间阈值为7.5s，小于时间阈值的音频信号使用周期性延拓的方法，使用开源音频特征提取工具Opensmile，计算出13维的梅尔频率倒谱系数，对其(即梅尔频率倒谱系数)在时间轴上进行一阶差分系数和二阶差分系数求导，获得39维的MFCC特征向量，记为特征M_i3；将三个特征进行拼接，得到相应的音频数据样本A_i＝{M_i1,M_i2,M_i3}。

对K段音频信号均进行上述特征提取，得到K个音频数据样本，记为{A₁,A₂,A₃,…,A_k}。

S13、文本数据处理与计算

从音频信号中获取文本，使用开源的语音转文本工具DeepSpeech2.0，将第i段音频信号转换为文本，并得到对应的文本词向量与分句符号，形成该段音频信号对应的文本特征样本，记为T_i。其中，文本向词向量的转换采取了Transformers库中的内置函数来实现，将起始标识符、文本、中止标识符按顺序拼接后，输入到Transformers框架中的text_to_sequence函数，来获得文本词向量；采用补零的方式来获得与文本词向量具有相同长度L的分句词向量特征，其中分句符号表示词位于整体文本中单句层级的位置，首句中所有词的分句符号均为0，次句中为1，依此类推。

对K段音频信号均进行上述文本转换过程，得到K个文本特征样本，记为{T₁,T₂,T₃,…,T_k}。

S2、构建情感特征提取网络

本发明使用Pytorch深度学习框架进行网络的搭建与训练。对于关键帧图片，搭建ViT网络、路径积分(Signature)网络和长短期记忆(LSTM)网络，对无人脸的图片经过ViT网络提取特征，对有人脸的图片进行人脸表情特征提取，以及时间维度上的特征提取；其中时间维度上的特征指的是对关键帧中的每一帧图片，对有人脸图片或者无人脸图片都提取了特征之后，每一帧的特征组合成一个时间序列特征，再通过LSTM网络提取时间维度上的特征。对于音频特征，构建了卷积神经网络、循环神经网络、路径积分网络的双层网络模型，对采集到的音频特征进行深层次的长时间序列上的时空维度建模。对于文本特征的提取，构建了预训练BERT微调网络，将文本转化为词向量并经由attention+transformer结构与预训练BERT微调网络进行文本层面句级情感特征的提取与分析。

本步骤中，特征提取网络包括帧图片序列特征提取网络、音频特征提取网络、文本特征提取网络，具体结构分别如下：

帧图片序列特征提取网络主要包括Vit网络、路径积分网络和LSTM网络。其中，Vit网络主要分为编码器部分和多层感知机部分(MLP)，

张P²C的图片块输入到编码器中，通过一个多头的注意力模块获取内容局部的关注，最后经过多层感知机部分增加非线性，Vit网络输出取多层感知机MLP的头部接到全连接层。路径积分网络用于计算人脸关键点连线的路径特征，路径积分网络中的路径积分模块分别对关键点序列沿平面二位坐标轴进行空间上的路径积分，选定合适的截断阶数N_T，将计算得到路径积分的特征同样接到全连接层中输出特征。将视频片段中所有的帧序列输入到上述Vit网络、路径积分网络后，沿时间维度对上述输出特征进行拼接，通过LSTM网络获取时间序列特征的时空特征，最后将LSTM网络输出接到全连接层获得多模态中的视觉模态特征F_Vi。

音频特征提取网络由双层模型组合而成，包括两个独立的神经网络组，分别称为Con-LSTM模块、Sig模块。其中，Con-LSTM模块包括两个独立的卷积块和双序列的LSTM(Dual-LSTM)，两个独立的卷积块输入矩阵为音频数据样本A_i＝{M_i1,M_i2,M_i3}中的梅尔频谱图特征M_i1、M_i2；两个梅尔频谱图特征M_i1、M_i2分别输入Con-LSTM模块两个独立的卷积块中，每个卷积块由两个卷积层与最大池化层组成；两个卷积块输出即为梅尔频谱图的高层次特征。由于两个卷积块输出的特征维度具有不同的时间步长T₁,T₂(T₁≈T₂)，对T₁序列取相邻时间的平均值，使得序列T₁,T₂具有相同的时间步长T₃；将具有相同步长的两序列输送至双序列的LSTM中，分别对梅尔频谱图特征中的时间域与频率域进行时空上的建模，提取更深层次的时空维度特征Q_i1。Sig模块的输入矩阵为音频数据样本A_i＝{M_i1,M_i2,M_i3}中的梅尔频谱图特征M_i3，输入到路径积分模块中，通过在时间维度上计算带截断的路径积分值得到深层次特征Q_i2。将Con-LSTM模块与Sig模块分别采集到的深层次特征拼接，作为多模态情感分析中的音频特征，记为F_Ai＝{Q_i1,Q_i2}。

文本特征提取网络由Transformer提供的预训练BERT网络经调整获得。经步骤S13处理后的文本词向量以及分句符号的输入长度固定为L，输入到由多个Transformer块构成BERT网络中。每个Transformer块包括编码器以及后续的全连接层、Softmax层。利用Transformer中的多头注意力机制来提取文本中的相关特征。文本词向量在输入BERT网络后，按照单词顺序依次送入各个Transformer块中，生成第一层特征；第一层特征由全连接层输送给第二层的N_m个Transformer块中，提取高层信息特征，经历M_m层提取后最终将特征输送给全连接层获取输出向量，作为多模态情感分析中的文本特征，记为F_Ti。

S3、特征融合与分类网络

将三个模态分别提取到的高级特征(即视觉模态特征、音频特征及文本特征)通过全连接层进行维度统一，输入到张量融合网络中进行融合学习，最后经过全连接层与Softmax层进行分类输出多模态情感分类概率结果。

融合网络为TFN(TensorFusionNetwork)张量融合网络，输入为多模态特征F＝{F_V,F_A,F_T}，并以三重笛卡尔积定义为如下矢量：

对以上矢量进行外积运算：

以三模态的情感信息相互作用，进行外积运算形成高维特征矩阵，最后展平输入到全连接层中，最后Softmax进行分类输出，得到融合的情感分类结果。

本发明在单模态特征基础上添加额外的一维，并通过矩阵外积的运算，将携带单模态特征的数据点映射到高一维空间中以包含三模态融合特征的数据点，得到高维度的三模态融合情感特征。相比于常见的拼接方法，本发明能够增强模态间的互相关性，增强模态间的融合深度。得到的多模态高维特征经过展平后，可经过全连接层进行降维，最后利用分类器进行分类输出。本方法采用深度学习中最为常见的Softmax分类器，计算较为简单的同时可以直接输出各情感类别的分类概率。

实施例2

与实施例1基于相同的发明构思，本实施例提供一种音视频多模态情感分类系统，如图2所示，包括：

数据预处理模块，用于实现实施例1的步骤S1，对原始视频数据的处理与计算，得到视频数据样本、音频数据样本及文本特征样本；

情感特征提取模块，用于实现实施例1的步骤S2，构建情感特征提取网络，分别对视频数据样本、音频数据样本及文本特征样本进行特征提取，获得多模态中的视觉模态特征、音频特征及文本特征；

特征融合及分类模块，用于实现实施例1的步骤S3，将提取到的视觉模态特征、音频特征及文本特征通过全连接层进行维度统一，输入到张量融合网络中进行融合学习，最后进行分类输出多模态情感分类概率结果。

图2中，ViT指ViT(Vision Transformer)网络，Signature指路径积分模块，LSTM指长短期记忆卷积神经网络，BRET指双向编码Transformer网络，Conv指卷积块，Fc指全连接层。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种音视频多模态情感分类方法，其特征在于，包括以下步骤：

S3、将提取到的视觉模态特征、音频特征及文本特征通过全连接层进行维度统一，输入到张量融合网络中进行融合学习，最后进行分类输出多模态情感分类概率结果；

步骤S1包括：

S11、视频数据处理与计算

从一段原始视频数据中提取关键帧，对每一关键帧进行特征提取：将帧图片缩放成维度为(W,H,C)的矩阵，检测帧图片中有无人脸；对于无人脸的帧图片，将帧图片切分成大小为(P,P)的图片块，并将切分后的图片块展平拼接，得到

的特征矩阵；对于有人脸的帧图片，提取人脸的多个关键点，得到相应的人脸特征矩阵；对每一关键帧进行上述特征提取后，进行时间上的拼接，获得视觉特征样本V_i；

对K段原始视频数据均进行上述特征提取步骤，得到K个视频数据样本，记为{V₁,V₂,V₃,…,V_k}；

S12、音频数据处理与计算

对原始视频数据进行采样，得到音频信号；对第i段音频信号进行特征提取，获得相应的音频特征样本：对音频信号进行梅尔频谱图计算，帧长记为特征M_i1，梅尔通道数记为特征M_i2；设定时间阈值，对音频信号进行截断，小于时间阈值的音频信号使用周期性延拓的方法，使用开源音频特征提取工具计算出倒谱系数，对其在时间轴上进行一阶差分系数和二阶差分系数求导，获得MFCC特征向量，记为特征M_i3；将三个特征进行拼接，得到相应的音频数据样本A_i＝{M_i1,M_i2,M_i3}；

对K段音频信号均进行上述特征提取，得到K个音频数据样本，记为{A₁,A₂,A₃,…,A_k}；

S13、文本数据处理与计算

将第i段音频信号转换为文本，并得到对应的文本词向量与分句符号，形成该段音频信号对应的文本特征样本，记为T_i；采用补零的方式来获得与文本词向量具有相同长度的分句词向量特征，其中分句符号表示词位于整体文本中单句层级的位置；

对K段音频信号均进行上述文本转换过程，得到K个文本特征样本，记为{T₁,T₂,T₃,…,T_k}；

步骤S2中特征提取网络包括帧图片序列特征提取网络，帧图片序列特征提取网络包括Vit网络、路径积分网络和LSTM网络；其中，Vit网络分为编码器和多层感知机，

张P²C 的图片块输入到编码器中，通过多头注意力模块获取内容局部的关注，最后经过多层感知机增加非线性，Vit网络输出取多层感知机的头部接到全连接层；路径积分网络用于计算人脸关键点连线的路径特征，路径积分网络中的路径积分模块分别对关键点序列沿平面二位坐标轴进行空间上的路径积分，选定合适的截断阶数N_T，将计算得到路径积分的特征同样接到全连接层中输出特征；将视频数据中所有的帧序列输入到Vit网络、路径积分网络后，沿时间维度对上述输出特征进行拼接，通过LSTM网络获取时间序列特征的时空特征，最后将LSTM网络输出接到全连接层获得多模态中的视觉模态特征F_Vi。

2.根据权利要求1所述的音视频多模态情感分类方法，其特征在于，步骤S2中特征提取网络包括音频特征提取网络，音频特征提取网络包括独立的Con-LSTM模块、Sig模块；其中，Con-LSTM模块包括两个独立的卷积块和双序列的LSTM，两个独立的卷积块的输入矩阵为梅尔频谱图特征M_i1、M_i2，获得具有相同步长的两个序列后输送至双序列的LSTM中以分别对梅尔频谱图特征中的时间域与频率域进行时空上的建模，提取深层次的时空维度特征Q_i1；Sig模块的输入矩阵为梅尔频谱图特征M_i3，输入到路径积分模块中，通过在时间维度上计算带截断的路径积分值得到深层次特征Q_i2；将Con-LSTM模块与Sig模块分别采集到的深层次特征拼接，作为多模态情感分析中的音频特征，记为F_Ai＝{Q_i1,Q_i2}。

3.根据权利要求1所述的音视频多模态情感分类方法，其特征在于，步骤S2中特征提取网络包括文本特征提取网络，经步骤S13处理后的文本词向量以及分句符号的输入长度固定为L，输入到由多个Transformer块构成BERT网络中；每个Transformer块包括编码器、全连接层、Softmax层；利用Transformer中的多头注意力机制来提取文本中的相关特征；文本词向量在输入BERT网络后，按照单词顺序依次送入各个Transformer块中，生成第一层特征；第一层特征由全连接层输送给第二层的N_m个Transformer块中，提取高层信息特征，经历M_m层提取后最终将特征输送给全连接层获取输出向量，作为多模态情感分析中的文本特征，记为F_Ti。

4.根据权利要求1所述的音视频多模态情感分类方法，其特征在于，步骤S3中融合网络为TFN张量融合网络，输入为多模态特征F＝{F_V,F_A,F_T}，并以三重笛卡尔积定义为如下矢量：

对以上矢量进行外积运算：

5.一种音视频多模态情感分类系统，其特征在于，包括：

特征融合及分类模块，将提取到的视觉模态特征、音频特征及文本特征通过全连接层进行维度统一，输入到张量融合网络中进行融合学习，最后进行分类输出多模态情感分类概率结果；

数据预处理模块包括：

视频数据处理与计算模块，用于从一段原始视频数据中提取关键帧，对每一关键帧进行特征提取：将帧图片缩放成维度为(W,H,C)的矩阵，检测帧图片中有无人脸；对于无人脸的帧图片，将帧图片切分成大小为(P,P)的图片块，并将切分后的图片块展平拼接，得到

的特征矩阵；对于有人脸的帧图片，提取人脸的多个关键点，得到相应的人脸特征矩阵；对每一关键帧进行上述特征提取后，进行时间上的拼接，获得视觉特征样本V_i；对K段原始视频数据均进行上述特征提取，得到K个视频数据样本，记为{V₁,V₂,V₃,…,V_k}；

音频数据处理与计算模块，用于对原始视频数据进行采样，得到音频信号；对第i段音频信号进行特征提取，获得相应的音频特征样本：对音频信号进行梅尔频谱图计算，帧长记为特征M_i1，梅尔通道数记为特征M_i2；设定时间阈值，对音频信号进行截断，小于时间阈值的音频信号使用周期性延拓的方法，使用开源音频特征提取工具计算出倒谱系数，对其在时间轴上进行一阶差分系数和二阶差分系数求导，获得MFCC特征向量，记为特征M_i3；将三个特征进行拼接，得到相应的音频数据样本A_i＝{M_i1,M_i2,M_i3}；对K段音频信号均进行上述特征提取，得到K个音频数据样本，记为{A₁,A₂,A₃,…,A_k}；

文本数据处理与计算模块，用于将第i段音频信号转换为文本，并得到对应的文本词向量与分句符号，形成该段音频信号对应的文本特征样本，记为T_i；采用补零的方式来获得与文本词向量具有相同长度的分句词向量特征，其中分句符号表示词位于整体文本中单句层级的位置；对K段音频信号均进行上述文本转换过程，得到K个文本特征样本，记为{T₁,T₂,T₃,…,T_k}；

情感特征提取模块包括：

帧图片序列特征提取网络，帧图片序列特征提取网络包括Vit网络、路径积分网络和LSTM网络；其中，Vit网络分为编码器和多层感知机，

张P²C的图片块输入到编码器中，通过多头注意力模块获取内容局部的关注，最后经过多层感知机增加非线性，Vit网络输出取多层感知机的头部接到全连接层；路径积分网络用于计算人脸关键点连线的路径特征，路径积分网络中的路径积分模块分别对关键点序列沿平面二位坐标轴进行空间上的路径积分，选定合适的截断阶数N_T，将计算得到路径积分的特征同样接到全连接层中输出特征；将视频数据中所有的帧序列输入到Vit网络、路径积分网络后，沿时间维度对上述输出特征进行拼接，通过LSTM网络获取时间序列特征的时空特征，最后将LSTM网络输出接到全连接层获得多模态中的视觉模态特征F_Vi；

音频特征提取网络，音频特征提取网络包括独立的Con-LSTM模块、Sig模块；其中，Con-LSTM模块包括两个独立的卷积块和双序列的LSTM，两个独立的卷积块的输入矩阵为梅尔频谱图特征M_i1、M_i2，获得具有相同步长的两个序列后输送至双序列的LSTM中以分别对梅尔频谱图特征中的时间域与频率域进行时空上的建模，提取深层次的时空维度特征Q_i1；Sig模块的输入矩阵为梅尔频谱图特征M_i3，输入到路径积分模块中，通过在时间维度上计算带截断的路径积分值得到深层次特征Q_i2；将Con-LSTM模块与Sig模块分别采集到的深层次特征拼接，作为多模态情感分析中的音频特征，记为F_Ai＝{Q_i1,Q_i2}；

文本特征提取网络，经文本数据处理与计算模块处理后的文本词向量以及分句符号的输入长度固定为L，输入到由多个Transformer块构成BERT网络中；每个Transformer块包括编码器、全连接层、Softmax层；利用Transformer中的多头注意力机制来提取文本中的相关特征；文本词向量在输入BERT网络后，按照单词顺序依次送入各个Transformer块中，生成第一层特征；第一层特征由全连接层输送给第二层的N_m个Transformer块中，提取高层信息特征，经历M_m层提取后最终将特征输送给全连接层获取输出向量，作为多模态情感分析中的文本特征，记为F_Ti。

6.根据权利要求5所述的音视频多模态情感分类系统，其特征在于，特征融合及分类模块中融合网络为TFN张量融合网络，输入为多模态特征F＝{F_V,F_A,F_T}，并以三重笛卡尔积定义为如下矢量：

对以上矢量进行外积运算：