CN115641533A

CN115641533A - 目标对象情绪识别方法、装置和计算机设备

Info

Publication number: CN115641533A
Application number: CN202211293013.3A
Authority: CN
Inventors: 李肯立; 吴一鸣; 曹嵘晖; 唐卓; 段明星; 谭光华; 高楚楚; 牛晨颖
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-01-24

Abstract

本申请涉及一种目标对象情绪识别方法、装置、计算机设备、存储介质和计算机程序产品。该方法通过获取目标对象的视频数据；对视频数据进行分割，得到视频帧数据以及音频数据；对视频帧数据进行特征提取，得到目标视频特征；对音频数据进行特征提取，得到目标音频特征；将视频特征以及音频特征进行特征融合，得到融合特征；基于融合特征对目标对象进行情感分类，得到情绪识别结果。整个方案通过提取目标对象的视频帧数据以及音频数据链的特征数据，并基于视频帧数据以及音频数据分别进行特征提取，得到多模态特征，基于多模态特征进行特征融合，可以学习更多维度的特征，最后基于融合后的特征进行情绪识别，可以得到更加准确的情绪识别结果。

Description

目标对象情绪识别方法、装置和计算机设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种目标对象多模态情绪识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能领域的迅速发展以及深度学习的助力，人机交互领域受到越来越多研究学者的重视。而情绪识别作为人机交互中一个重要的分支，也成为了当前的热点研究方向。

目前的情感识别方法，存在信息不全面、反馈不及时以及易受干扰等诸多缺点，导致情绪识别的结果不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种准确的目标对象情绪识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种目标对象情绪识别方法。该方法包括：

获取目标对象的视频数据；

从视频数据中提取视频帧数据以及音频数据；

对视频帧数据进行特征提取得到目标视频特征，并对音频数据进行特征提取得到目标音频特征；

将视频特征以及音频特征进行特征融合，得到融合特征；

基于融合特征对目标对象进行情感分类，得到情绪识别结果。

在其中一个实施例中，上述方法还包括：对音频数据进行梅尔频率倒谱系数提取，得到音频特征；对音频数据进行特征提取，得到目标音频特征包括：基于音频Transformer网络模型，对音频特征进行特征提取，得到目标音频特征。

在其中一个实施例中，对音频数据进行梅尔频率倒谱系数提取，得到音频特征包括：对音频数据进行高通滤波，得到高通滤波音频数据；对高通滤波音频数据进行分帧处理，得到音频帧数据；对音频帧数据进行加窗处理，得到连续音频帧数据；对连续音频帧数据进行快速傅里叶变换，得到音频频谱；对音频频谱平滑处理，得到平滑后的音频频谱；根据平滑后的音频频谱进行取对数操作，得到取对数后的音频频谱；对取对数后的音频频谱进行离散余弦变换，得到音频特征。

在其中一个实施例中，对视频帧数据进行特征提取，得到目标视频特征包括：基于视频Transformer网络模型，对视频帧数据进行特征提取，得到目标视频特征。

在其中一个实施例中，基于视频Transformer网络模型，对视频帧数据进行特征提取，得到目标视频特征包括：基于视频Transformer网络模型，对视频帧数据进行图像分块，得到分块视频帧数据；对分块视频帧数据进行线性嵌入，得到重塑张量后的视频帧数据；对重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征。

在其中一个实施例中，对重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征包括：基于Transformer网络模型的Transformer基础模块，对重塑张量后的视频帧数据进行归一化处理，得到归一化视频帧数据；基于自注意力机制，对归一化视频帧数据的不同图像块进行特性学习，得到不同图像块的子空间特征；对不同图像块的子空间特征相加，得到基础视频特征；对基础视频特征进行特性学习以及特征合并，得到目标视频特征。

在其中一个实施例中，对基础视频特征进行特性学习以及特征合并，得到目标视频特征包括：对基础视频特征进行预设次数的特性学习以及特征合并，得到目标视频特征。

在其中一个实施例中，对音频数据进行特征提取，得到目标音频特征包括：将音频数据进行一维卷积以及线性嵌入处理，得到第一音频数据；对第一音频数据进行自注意力特征提取，得到目标音频特征。

第二方面，本申请还提供了一种目标对象情绪识别装置。该装置包括：

获取模块，用于获取目标对象的视频数据；

提取模块，用于从视频数据中提取视频帧数据以及音频数据；

特征提取模块，用于对视频帧数据进行特征提取得到目标视频特征，并对音频数据进行特征提取得到目标音频特征；

特征融合模块，用于将视频特征以及音频特征进行特征融合，得到融合特征；

分类模块，用于基于融合特征对目标对象进行情感分类，得到情绪识别结果。

第三方面，本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器，该存储器存储有计算机程序，该处理器执行该计算机程序时实现以下步骤：

获取目标对象的视频数据；

从视频数据中提取视频帧数据以及音频数据；

将视频特征以及音频特征进行特征融合，得到融合特征；

第四方面，本申请还提供了一种计算机可读存储介质。该计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取目标对象的视频数据；

从视频数据中提取视频帧数据以及音频数据；

将视频特征以及音频特征进行特征融合，得到融合特征；

第五方面，本申请还提供了一种计算机程序产品。该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取目标对象的视频数据；

从视频数据中提取视频帧数据以及音频数据；

将视频特征以及音频特征进行特征融合，得到融合特征；

上述目标对象情绪识别方法、装置、计算机设备、存储介质和计算机程序产品，获取目标对象的视频数据；对视频数据进行分割，得到视频帧数据以及音频数据；对视频帧数据进行特征提取，得到目标视频特征；对音频数据进行特征提取，得到目标音频特征；将视频特征以及音频特征进行特征融合，得到融合特征；基于融合特征对目标对象进行情感分类，得到情绪识别结果。整个方案通过提取目标对象的视频帧数据以及音频数据链各个模态的特征数据，并基于视频帧数据以及音频数据分别进行特征提取，得到多模态特征，基于多模态特征进行特征融合，可以学习更多维度的特征，最后基于融合后的特征进行情绪识别，可以得到更加准确的情绪识别结果。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中目标对象情绪识别方法的应用环境图；

图2为一个实施例中目标对象情绪识别方法的流程示意图；

图3为一个实施例中音频特征提取过程的示意图；

图4为一个实施例中视频Transformer网络模型的结构图；

图5为一个实施例中Swin-Transformer结构的结构图；

图6为一个实施例中音频Transformer网络模型的结构图；

图7为一个实施例中情绪识别结果混淆矩阵示意图；

图8为另一个实施例中目标对象情绪识别方法的流程示意图；

图9为一个实施例中目标对象情绪识别装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的目标对象情绪识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102采集目标对象的视频数据，将目标对象的视频数据发送至服务器104，服务器104获取目标对象的视频数据；从视频数据中提取视频帧数据以及音频数据；对视频帧数据进行特征提取得到目标视频特征，并对音频数据进行特征提取得到目标音频特征；将视频特征以及音频特征进行特征融合，得到融合特征；基于融合特征对目标对象进行情感分类，得到情绪识别结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请提供的目标对象情绪识别方法可以应用环境于在线教育中，随着网络教育的普及，越来越多学生参与网上学习，网络教育给学生提供了大量的教学资源，加强学校、老师、学生之间的相互交流沟通。但是网络教育无法通过面对面形式了解学生的情感和对课程的接受程度，导致网络教学效果差。根据本申请提供的目标对象情绪识别方法可以准确识别学生参与在线教育过程中的情绪状态，进而可以根据情绪状态判断学生的学习状态，可以根据学生的学习状态来调整教学方案，为不同学生提供个性化的学习方案，提升网络教学效果。本申请还可以应用于线上会议、非专业的心理诊断、聊天机器人等一系列易获取用户人脸视频和音频的软件或硬件装置中。

本申请的多模态情绪识别模型的网络设计为决策级融合，即指对不同模态的数据分别选取适合的分类器进行训练，并对每种模态分类器输出的标签值进行打分之后融合。然后，将可以提取全局空间特征和长距离信息的Transformer应用到视频和音频特征提取部分，增强了视频特征空间维度的全局特征的学习能力，增强基于时间的长距离信息保持能力，增强音频细节特征表示。最后，使用级联操作和多个全连接层将视频帧和音频特征融合，得到情感特征，使用交叉熵损失对整个情感特征提取网络进行训练，得到最终情绪识别网络模型。本申请的情绪识别模型包括音频Transformer网络模型、视频Transformer网络模型、全连接层以及线性层。

在一个实施例中，如图2所示，提供了一种目标对象情绪识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取目标对象的视频数据。

其中，目标对象指的使用终端的用户，目标对象的视频数据在用户参与在线交流过程中，终端利用摄像装置采集的用户的视频数据，视频数据包括目标对象的人脸视频数据。本实施例中的目标对象可以为参与在线教育的学生，也可为参与在线会议的用户，还可以为其他在线交流平台中的用户，本实施例在此不作限定。视频数据为实时视频数据。视频数据文件格式为.api。

具体地，终端采集目标对象的视频数据，并将目标对象的视频数据发送至服务器。进一步地，终端连续采集目标对象的实时视频数据，并不断地将采集的目标对象的实时视频数据发送至服务器。服务器获取终端发送的目标对象的视频数据。

步骤204，从视频数据中提取视频帧数据以及音频数据。

具体地，服务器基于cv2(Open Source Computer Vision Library 2)算法库的视频帧提取线程，提取视频数据中的视频帧数据，基于moviepy算法库的音频提取线程提取视频数据中的音频数据。cv2算法库和moviepy算法库均可为python语言中的算法库。所提取的视频帧数据对应同时段的音频数据，视频数据与音频数据在时间序列上可以匹配。

步骤206，对视频帧数据进行特征提取得到目标视频特征，并对音频数据进行特征提取得到目标音频特征。

具体地，服务器得到视频帧数据和音频数据后，基于视频帧数据和音频数据各自对应的Transformer网络模型进行相应的特征提取，得到目标视频特征和目标音频特征。

步骤208，将视频特征以及音频特征进行特征融合，得到融合特征。

具体地，服务器将目标视频特征和目标音频帧特征分别进行Flatten(压平)操作以及预设层数的全连接层将特征转化至一维情感特征向量，得到一维视频帧特征向量和一维音频特征向量，一维视频帧特征向量和一维音频特征向量的向量维度相同，再通过级联操作将一维视频帧特征向量和一维音频特征向量进行拼接，得到融合特征。

步骤210，基于融合特征对目标对象进行情感分类，得到情绪识别结果。

其中，情绪识别结果包括恐惧、厌恶、愤怒、悲伤、开心、平静、自然、惊喜等。

具体地，服务器基于预设层数的线性层将融合特征进行线性变换，得到情感向量标签，情感向量标签即为情绪识别结果。情感向量标签存储形式为One-hot向量。

上述目标对象情绪识别方法中，通过获取目标对象的视频数据；对视频数据进行分割，得到视频帧数据以及音频数据；对视频帧数据进行特征提取，得到目标视频特征；对音频数据进行特征提取，得到目标音频特征；将视频特征以及音频特征进行特征融合，得到融合特征；基于融合特征对目标对象进行情感分类，得到情绪识别结果。整个方案通过提取目标对象的视频帧数据以及音频数据链各个模态的特征数据，并基于视频帧数据以及音频数据分别进行特征提取，得到多模态特征，基于多模态特征进行特征融合，可以学习更多维度的特征，最后基于融合后的特征进行情绪识别，可以得到更加准确的情绪识别结果。

在一个可选的实施例中，上述方法还包括：对音频数据进行梅尔频率倒谱系数提取，得到音频特征；对音频数据进行特征提取，得到目标音频特征包括：基于音频Transformer网络模型，对音频特征进行特征提取，得到目标音频特征。

具体地，音频数据需要通过提取MFCC(Mel-scale Frequency CepstralCoefficients，梅尔频率倒谱系数)特征来增强音频信息细节，服务器提取到音频数据之后，基于MFCC特征提取算法，对音频数据进行梅尔频率倒谱系数提取，得到音频特征。之后，基于音频Transformer网络模型，对音频特征进行特征提取，得到目标音频特征。

本实施例中，通过对音频数据进行MFCC特征提取，可以增强音频数据细节特征，提高了音频数据的准确性，目前大部分音频特征提取方法都使用卷积神经网络，本实施例基于Transformer网络模型可以增加音频数据全局空间信息的收集能力，提高目标音频特征的全面性以及准确率。

在一个可选的实施例中，对音频数据进行梅尔频率倒谱系数提取，得到音频特征包括：对音频数据进行高通滤波，得到高通滤波音频数据；对高通滤波音频数据进行分帧处理，得到音频帧数据；对音频帧数据进行加窗处理，得到连续音频帧数据；对连续音频帧数据进行快速傅里叶变换，得到音频频谱；对音频频谱平滑处理，得到平滑后的音频频谱；根据平滑后的音频频谱进行取对数操作，得到取对数后的音频频谱；对取对数后的音频频谱进行离散余弦变换，得到音频特征。

具体地，如图3所示，服务器首先对音频数据进行高通滤波，用来增强高频信息，高通滤波表达式为：

y[k]＝x[k]-μx[k-1]

其中，x(k)表示k时刻语音采样值，y[k]表示k时刻语音高通滤波值，μ表示预加重系数，μ的取值为0.97。

之后，服务器根据预设分帧信息对高通滤波音频数据进行分帧处理，得到音频帧数据。进一步地，预设分帧信息设置一帧的长度为20ms，一帧的采样点为882个，设置帧间重叠率为1/2，可得到随时间变化的频谱。预设分帧信息的具体参数还可以根据需求进行调整，本实施例在此不作限定。

为增加音频帧数据的帧左端和右端数据的连续性，也避免频谱泄露，需要对每一帧的音频信号乘上窗函数，选用汉明窗进行加窗处理，假设N为帧大小，汉明窗表达式W(n)为：

其中，a取0.46，n为帧数量。

之后，服务器使用快速傅里叶变换(FFT)线程，对连续音频帧数据进行快速傅里叶变换，得到音频频谱。快速傅里叶变换(FFT)线程可以基于python中的numpy库中的fft函数实现。快速傅里叶变换基于周期性和对称性的性质推导得到。

之后，服务器基于梅尔(Mel)尺度的三角带通滤波器，对音频频谱平滑处理，得到平滑后的音频频谱。进一步地，服务器将音频频谱通过一组梅尔(Mel)尺度的三角带通滤波器，对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。假设在Mel频谱内，有M个带通滤波器H_m(k),0≤m≤M，每个带通滤波器的中心频率为F(m)，每个Mel滤波器的传递函数为：

服务器计算每个滤波器组输出的对数能量s(m)，取对数操作公式为：

根据平滑后的音频频谱进行取对数操作，得到每个滤波器组输出的对数能量，即取对数后的音频频谱。最后，服务器将取对数后的频谱进行离散余弦变换(DiscreteCosine Transform，DCT)，得到MFCC音频特征，DCT表达式为：

本实施例中，对音频数据进行MFCC特征提取，MFCC是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换，能够平衡低频和高频信号对音频输出的影响，更贴近人类听觉系统，能有效提高语音识别准确率。

在一个可选的实施例中，对视频帧数据进行特征提取，得到目标视频特征包括：基于视频Transformer网络模型，对视频帧数据进行特征提取，得到目标视频特征。

具体地，服务器基于预先训练的视频Transformer网络模型，对视频帧数据进行特征提取，得到目标视频特征。视频Transformer网络模型基于视频帧数据以及视频情绪标签训练得到。视频Transformer网络模型包括Swin(Shifted Windows，移动窗口)-Transformer结构。

在一个可选的实施例中，基于视频Transformer网络模型，对视频帧数据进行特征提取，得到目标视频特征包括：基于视频Transformer网络模型，对视频帧数据进行图像分块，得到分块视频帧数据；对分块视频帧数据进行线性嵌入，得到重塑张量后的视频帧数据；对重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征。

具体地，如图4所示，为视频Transformer网络模型的结构图，图5为Transformer网络模型中Swin-Transformer结构的结构图。

视频帧数据的特征维度R^T×H×W×3，其中T为视频帧数，H和W分别为视频帧的长和宽空间大小，3为RGB色彩通道。服务器基于视频Transformer网络模型，对视频帧数据进行图像分块，得到分块视频帧数据，然后，对分块视频帧数据进行线性嵌入，得到重塑张量后的视频帧数据。即服务器通过图像块分区和线性嵌入将原始视频帧张量维度R^T×H×W×96重塑为张量维度

使用比原尺寸更小的图像块来减少批处理计算量。

之后，服务器基于Swin-Transformer模块，对重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征。

一个Swin-Transformer模块由两个基础Transformer模块组成，其中第二个Transformer模块在多头注意力之前还进行了窗口位移的操作，目的是通过滑动窗口操作增加不同窗口之间的连通性，同时通过窗口的约束也能够减少整体网络的参数量。

在一个可选的实施例中，对重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征包括：基于Transformer网络模型的Transformer基础模块，对重塑张量后的视频帧数据进行归一化处理，得到归一化视频帧数据；基于自注意力机制，对归一化视频帧数据的不同图像块进行特性学习，得到不同图像块的子空间特征；对不同图像块的子空间特征相加，得到基础视频特征；对基础视频特征进行特性学习以及特征合并，得到目标视频特征。

具体地，服务器在对重塑张量后的视频帧数据进行自注意力特征提取时，首先，基于Transformer网络模型的Transformer基础模块，首先将输入的重塑张量后的视频帧数据z^l-1进行层归一化，得到归一化视频帧数据。再基于多头自注意力机制，对归一化视频帧数据的不同图像块进行特性学习，得到不同图像块的子空间特征。进一步地，在进行多头自注意力学习过程中，学习不同图像块之间的子空间特征，输出对应图像块的注意力权重，即基础视频特征，将注意力权重和输入的重塑张量后的视频帧数据特征进行元素相加，得到基础视频特征

最后，通过层归一化以及多层感知机将

进行特征提取，特征提取结果与

进行残差连接，得到目标视频特征z^l。

子空间特征是指在输入Transformer基础模块前，对重塑张量后的视频帧数据作为映射特征，对映射特征进行分块处理，得到的图像块为原始映射特征的子空间特征。注意力权重是通过Transformer模块中的多头注意力机制计算出，具体来说，将输入特征分别与三个可学习矩阵W^Q，W^K，W^V矩阵相乘，得到Q，K，V；然后通过多头注意力计算得到注意力权重。多头注意力计算表达式如下：

此处T为转置矩阵，d_k为缩放因子。

进一步地，在一个可选的实施例中，对基础视频特征进行特性学习以及特征合并，得到目标视频特征包括：对基础视频特征进行预设次数的特性学习以及特征合并，得到目标视频特征。

具体地，本实施例中的预设次数为3，目标视频数据提取过程中，通过第一个Swin-Transformer模块后，在其余的Swin-Transformer中，都将经过图像块分区合并操作。具体来说，将图像块的H和W维度的分辨率减半，同时使通道维度C加倍。即总共通过三次图像块分区合并操作以及四次Swin-Transformer特征提取操作，最终视频帧特征的张量维度为

在一个可选的实施例中，对音频数据进行特征提取，得到目标音频特征包括：将音频数据进行一维卷积以及线性嵌入处理，得到第一音频数据；对第一音频数据进行自注意力特征提取，得到目标音频特征。

具体地，基于音频Transformer网络模型，对音频特征进行特征提取，得到目标音频特征。如图6所示，为音频Transformer网络模型的结构图。音频Transformer网络模型中也包括Swin-Transformer结构。

首先对音频数据进行MFCC特征提取，得到MFCC音频特征。MFCC音频特征的特征维度为E^T×1，其中T为时间维度，1为音频帧通道维度。基于音频Transformer网络模型，将MFCC音频特征进行一维卷积以及线性嵌入处理，得到第一音频数据，通过一维卷积和线性嵌入将音频帧维度1扩增至10，扩大特征信息表达能力。

之后，特征提取部分使用基础Transformer模块，基于基础Transformer模块，对MFCC音频特征进行自注意力特征提取，得到目标音频特征。目标音频特征的提取过程类似于视频帧Transformer特征提取，首先将通道维度增加到40，时间维度T减少到

再通过三次Transformer模块将时间维度压缩，通道维度扩增，最终输出音频特征张量维度为

在具体实施中，本申请的多模态情绪识别模型使用交叉熵损失来训练网络中参数，交叉熵损失如下所示：

其中，M为情感类别数量，y_ic为符号函数0或1，若样本i的真实类别等于c取1，否则取0，p_ic为观测样本i属于类别c的预测概率。

训练环境使用GPU版本的pytorch1.6，训练使用Adam优化器对模型参数进行优化，学习率为0.0005，批大小(batch-size)为64，模型训练设置训练迭代次数为100次。

数据集采用RAVDESS数据集，包含24名角色分别使用八种情绪固定说一段话，每段视频与语音时常为3秒钟，视频包含语音数据。八种情绪标签为：恐惧、愤怒、悲伤、快乐、平静、中性、惊讶、厌恶。

我们使用精确度，召回率、F1分数和混淆矩阵对所提出方法进行性能评估，精度，召回率和F1分数计算公式如下所示：

真阳性(TP)表示预测的情感标签与原始目标情感标签匹配。假阳性(FP)表示预测的目标情感标签与原始非目标情感标签匹配。假阴性(FN)表示预测非目标情感标签与原始目标情感标签匹配。混淆矩阵通过二维矩阵的形式展示了每个情感分类的预测值与真实值拟合程度。预测值与真实值匹配通过对角元素展示，其他元素属于预测值与真实值不匹配，混淆矩阵示例如图7所示。

为了易于理解本申请实施例提供的技术方案，如图8所示，以完整的目标对象情绪识别过程对本申请实施例提供的目标对象情绪识别方法进行简要说明：

(1)获取目标对象的视频数据。

(2)从视频数据中提取视频帧数据以及音频数据。

(3)对音频数据进行梅尔频率倒谱系数提取，得到MFCC音频特征。

(4)基于视频Transformer网络模型对视频帧数据进行特征提取得到目标视频特征。

(5)并基于音频Transformer网络模型，对音频数据进行特征提取得到目标音频特征。

(6)将视频特征以及音频特征进行特征融合，得到融合特征。

(7)基于融合特征对目标对象进行情感分类，得到情绪识别结果，即情感标签。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的目标对象情绪识别方法的目标对象情绪识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个目标对象情绪识别装置实施例中的具体限定可以参见上文中对于目标对象情绪识别方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种目标对象情绪识别装置，包括：获取模块902、提取模块904、特征提取模块906、特征融合模块908和分类模块910，其中：

获取模块902，用于获取目标对象的视频数据。

提取模块904，用于从视频数据中提取视频帧数据以及音频数据。

特征提取模块906，用于对视频帧数据进行特征提取得到目标视频特征，并对音频数据进行特征提取得到目标音频特征。

特征融合模块908，用于将视频特征以及音频特征进行特征融合，得到融合特征。

分类模块910，用于基于融合特征对目标对象进行情感分类，得到情绪识别结果。

在一个实施例中，特征提取模块906还用于对音频数据进行梅尔频率倒谱系数提取，得到音频特征；基于音频Transformer网络模型，对音频特征进行特征提取，得到目标音频特征。

在一个实施例中，特征提取模块906还用于对音频数据进行高通滤波，得到高通滤波音频数据；对高通滤波音频数据进行分帧处理，得到音频帧数据；对音频帧数据进行加窗处理，得到连续音频帧数据；对连续音频帧数据进行快速傅里叶变换，得到音频频谱；对音频频谱平滑处理，得到平滑后的音频频谱；根据平滑后的音频频谱进行取对数操作，得到取对数后的音频频谱；对取对数后的音频频谱进行离散余弦变换，得到音频特征。

在一个实施例中，特征提取模块906还用于基于视频Transformer网络模型，对视频帧数据进行特征提取，得到目标视频特征。

在一个实施例中，特征提取模块906还用于基于视频Transformer网络模型，对视频帧数据进行图像分块，得到分块视频帧数据；对分块视频帧数据进行线性嵌入，得到重塑张量后的视频帧数据；对重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征。

在一个实施例中，特征提取模块906还用于基于Transformer网络模型的Transformer基础模块，对重塑张量后的视频帧数据进行归一化处理，得到归一化视频帧数据；基于自注意力机制，对归一化视频帧数据的不同图像块进行特性学习，得到不同图像块的子空间特征；对不同图像块的子空间特征相加，得到基础视频特征；对基础视频特征进行特性学习以及特征合并，得到目标视频特征。

在一个实施例中，特征提取模块906还用于对基础视频特征进行预设次数的特性学习以及特征合并，得到目标视频特征。

在一个实施例中，特征提取模块906还用于将音频数据进行一维卷积以及线性嵌入处理，得到第一音频数据；对第一音频数据进行自注意力特征提取，得到目标音频特征。

上述目标对象情绪识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频Transformer网络模型数据以及音频Transformer网络模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标对象情绪识别方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取目标对象的视频数据；

从视频数据中提取视频帧数据以及音频数据；

将视频特征以及音频特征进行特征融合，得到融合特征；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对音频数据进行梅尔频率倒谱系数提取，得到音频特征；对音频数据进行特征提取，得到目标音频特征包括：基于音频Transformer网络模型，对音频特征进行特征提取，得到目标音频特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对音频数据进行梅尔频率倒谱系数提取，得到音频特征包括：对音频数据进行高通滤波，得到高通滤波音频数据；对高通滤波音频数据进行分帧处理，得到音频帧数据；对音频帧数据进行加窗处理，得到连续音频帧数据；对连续音频帧数据进行快速傅里叶变换，得到音频频谱；对音频频谱平滑处理，得到平滑后的音频频谱；根据平滑后的音频频谱进行取对数操作，得到取对数后的音频频谱；对取对数后的音频频谱进行离散余弦变换，得到音频特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对视频帧数据进行特征提取，得到目标视频特征包括：基于视频Transformer网络模型，对视频帧数据进行特征提取，得到目标视频特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于视频Transformer网络模型，对视频帧数据进行特征提取，得到目标视频特征包括：基于视频Transformer网络模型，对视频帧数据进行图像分块，得到分块视频帧数据；对分块视频帧数据进行线性嵌入，得到重塑张量后的视频帧数据；对重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征包括：基于Transformer网络模型的Transformer基础模块，对重塑张量后的视频帧数据进行归一化处理，得到归一化视频帧数据；基于自注意力机制，对归一化视频帧数据的不同图像块进行特性学习，得到不同图像块的子空间特征；对不同图像块的子空间特征相加，得到基础视频特征；对基础视频特征进行特性学习以及特征合并，得到目标视频特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对基础视频特征进行特性学习以及特征合并，得到目标视频特征包括：对基础视频特征进行预设次数的特性学习以及特征合并，得到目标视频特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对音频数据进行特征提取，得到目标音频特征包括：将音频数据进行一维卷积以及线性嵌入处理，得到第一音频数据；对第一音频数据进行自注意力特征提取，得到目标音频特征。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取目标对象的视频数据；

从视频数据中提取视频帧数据以及音频数据；

将视频特征以及音频特征进行特征融合，得到融合特征；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对音频数据进行梅尔频率倒谱系数提取，得到音频特征；对音频数据进行特征提取，得到目标音频特征包括：基于音频Transformer网络模型，对音频特征进行特征提取，得到目标音频特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对音频数据进行梅尔频率倒谱系数提取，得到音频特征包括：对音频数据进行高通滤波，得到高通滤波音频数据；对高通滤波音频数据进行分帧处理，得到音频帧数据；对音频帧数据进行加窗处理，得到连续音频帧数据；对连续音频帧数据进行快速傅里叶变换，得到音频频谱；对音频频谱平滑处理，得到平滑后的音频频谱；根据平滑后的音频频谱进行取对数操作，得到取对数后的音频频谱；对取对数后的音频频谱进行离散余弦变换，得到音频特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对视频帧数据进行特征提取，得到目标视频特征包括：基于视频Transformer网络模型，对视频帧数据进行特征提取，得到目标视频特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于视频Transformer网络模型，对视频帧数据进行特征提取，得到目标视频特征包括：基于视频Transformer网络模型，对视频帧数据进行图像分块，得到分块视频帧数据；对分块视频帧数据进行线性嵌入，得到重塑张量后的视频帧数据；对重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征包括：基于Transformer网络模型的Transformer基础模块，对重塑张量后的视频帧数据进行归一化处理，得到归一化视频帧数据；基于自注意力机制，对归一化视频帧数据的不同图像块进行特性学习，得到不同图像块的子空间特征；对不同图像块的子空间特征相加，得到基础视频特征；对基础视频特征进行特性学习以及特征合并，得到目标视频特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对基础视频特征进行特性学习以及特征合并，得到目标视频特征包括：对基础视频特征进行预设次数的特性学习以及特征合并，得到目标视频特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对音频数据进行特征提取，得到目标音频特征包括：将音频数据进行一维卷积以及线性嵌入处理，得到第一音频数据；对第一音频数据进行自注意力特征提取，得到目标音频特征。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取目标对象的视频数据；

从视频数据中提取视频帧数据以及音频数据；

将视频特征以及音频特征进行特征融合，得到融合特征；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种目标对象情绪识别方法，其特征在于，所述方法包括：

获取目标对象的视频数据；

从所述视频数据中提取视频帧数据以及音频数据；

对所述视频帧数据进行特征提取得到目标视频特征，并对所述音频数据进行特征提取得到目标音频特征；

将所述视频特征以及所述音频特征进行特征融合，得到融合特征；

基于所述融合特征对目标对象进行情感分类，得到情绪识别结果。

2.根据权利要求1所述的方法，其特征在于，还包括：

对所述音频数据进行梅尔频率倒谱系数提取，得到音频特征；

所述对所述音频数据进行特征提取，得到目标音频特征包括：

基于音频Transformer网络模型，对所述音频特征进行特征提取，得到目标音频特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述音频数据进行梅尔频率倒谱系数提取，得到音频特征包括：

对所述音频数据进行高通滤波，得到高通滤波音频数据；

对所述高通滤波音频数据进行分帧处理，得到音频帧数据；

对所述音频帧数据进行加窗处理，得到连续音频帧数据；

对所述连续音频帧数据进行快速傅里叶变换，得到音频频谱；

对所述音频频谱平滑处理，得到平滑后的音频频谱；

根据所述平滑后的音频频谱进行取对数操作，得到取对数后的音频频谱；

对所述取对数后的音频频谱进行离散余弦变换，得到音频特征。

4.根据权利要求1所述的方法，其特征在于，所述对所述视频帧数据进行特征提取，得到目标视频特征包括：

基于视频Transformer网络模型，对所述视频帧数据进行特征提取，得到目标视频特征。

5.根据权利要求4所述的方法，其特征在于，所述基于视频Transformer网络模型，对所述视频帧数据进行特征提取，得到目标视频特征包括：

基于视频Transformer网络模型，对所述视频帧数据进行图像分块，得到分块视频帧数据；

对所述分块视频帧数据进行线性嵌入，得到重塑张量后的视频帧数据；

对所述重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征。

6.根据权利要求5所述的方法，其特征在于，所述对所述重塑张量后的视频帧数据进行自注意力特征提取，得到目标视频特征包括：

基于Transformer网络模型的Transformer基础模块，对所述重塑张量后的视频帧数据进行归一化处理，得到归一化视频帧数据；

基于自注意力机制，对所述归一化视频帧数据的不同图像块进行特性学习，得到不同所述图像块的子空间特征；

对不同所述图像块的子空间特征相加，得到基础视频特征；

对所述基础视频特征进行特性学习以及特征合并，得到目标视频特征。

7.根据权利要求6所述的方法，其特征在于，所述对所述基础视频特征进行特性学习以及特征合并，得到目标视频特征包括：

对所述基础视频特征进行预设次数的特性学习以及特征合并，得到目标视频特征。

8.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行特征提取，得到目标音频特征包括：

将所述音频数据进行一维卷积以及线性嵌入处理，得到第一音频数据；

对所述第一音频数据进行自注意力特征提取，得到目标音频特征。

9.一种目标对象情绪识别装置，其特征在于，所述装置包括：

获取模块，用于获取目标对象的视频数据；

提取模块，用于从所述视频数据中提取视频帧数据以及音频数据；

特征提取模块，用于对所述视频帧数据进行特征提取得到目标视频特征，并对所述音频数据进行特征提取得到目标音频特征；

特征融合模块，用于将所述视频特征以及所述音频特征进行特征融合，得到融合特征；

分类模块，用于基于所述融合特征对目标对象进行情感分类，得到情绪识别结果。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。