CN117708752A

CN117708752A - 一种基于视音频信息融合的情绪识别方法及系统

Info

Publication number: CN117708752A
Application number: CN202311551890.0A
Authority: CN
Inventors: 冯莹; 胡睿; 周慧平; 代维; 陈明
Original assignee: Hubei Public Information Industry Co ltd
Current assignee: Hubei Public Information Industry Co ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-03-15

Abstract

本发明公开了一种基于视音频信息融合的情绪识别方法及系统，该方法包括：S1、获取标记了特定情绪样本的标签文本，以及获取对应的标准音频数据与视频数据；S2、构建基础情绪识别模型；S3、将训练数据输入至步骤S2中的基础情绪识别模型，根据模型输出的情绪类别标签和步骤S1中获取的标记了特定情绪样本标签文本之间的误差设计损失函数；S4、上线训练好的目标情绪识别模型用于相应场景下的情绪识别操作。本发明在视频提取时减少了多层卷积层，使用多尺度特征提取方法，在音频情绪特征提取器中使用了基于VGGNet网络改进的一种轻量级语音情绪识别网络，从而减少了模型的参数，简化了模型的复杂度。

Description

一种基于视音频信息融合的情绪识别方法及系统

技术领域

本发明涉及数据识别技术领域，尤其涉及一种基于视音频信息融合的情绪识别方法及系统。

背景技术

情绪是人在外界环境的刺激下产生的一种心理状态，它能够反映一个人当前的生理与心理状态，影响人们对事物的感知和决定。情绪往往伴随着明显的生理特征，这些特征可以通过分析来识别。特别是在一些服务行业如客服服务等，如果知道对方的感受，就能更有效地进行互动。为了改善用户体验，利用计算机等智能设备识别人类的情绪状态，让机器理解人类的情绪，从而可以更好的用于服务行业。并且，随着计算机科学和心理学的快速发展，情绪识别在智能驾驶、健康检测、智能推荐系统等领域得到了广泛的应用。

传统的情绪识别是基于语音、视频或文本等单一模态的进行情绪分析的。然而，当单一因素受到影响时，例如，当面部表情因阳光而不清晰或当声音被环境声音掩盖时，情绪预测的准确性会大大降低。因此，由于单模态语音或视觉情绪识别无法准确识别人类的情绪状态，语音与视觉情态融合逐渐成为当前情绪识别的研究热点。在语音视觉情绪识别中，特征融合是一个非常重要的问题。为了解决上述问题，提出了一些新的情绪识别方法。例如，提出基于注意力的多模态融合网络，其同时考虑了不同模态之间的重要性和互补性，或者提出相关损失函数，将其最小化以获得语音-视觉模态的共享特征，或通过引入分类信息，提出改进的典型相关分析(CCA)算法用于分析语音和视觉特征表示，以获得语音-视觉模态的共享特征。目前流行的特征融合方法是使用神经网络直接融合语音和视觉单模态的特征。

本申请发明人在实施本发明的过程中，发现现有技术中存在如下技术问题：

虽然当前模型在语音视觉情绪识别上已经有了一些提升，但是，语音视觉情绪识别面临着对于不同模态的融合方法只是简单的将不同模块获取到的特征相互融合，从而使得在融合时总会有一种模态特征占据主导地位，弱化了另一种模态特征的影响。因而，影响客服情绪识别的准确率。此外，深度学习需要大量资源、高处理能力和超参数调整，而语音视觉情绪识别模型融合两种不同的模态，所需要的参数量较多，因此不适合用于轻型设备上。

由此可知，现有技术中的方法存在不同模态之间由于融合方法不理想导致情绪识别的准确率低与降低多模态模型的计算复杂度的技术问题。

发明内容

为了克服现有技术中相关产品的不足，本发明提出一种基于视音频信息融合的情绪识别方法及系统。

本发明提供了一种基于视音频信息融合的情绪识别方法及系统，包括如下步骤：

S1、获取标记了特定情绪样本的标签文本，以及获取对应的标准音频数据与视频数据；

S2、构建基础情绪识别模型，基于视频情绪特征提取器从视频数据中获取多尺度视频情绪特征向量；以及基于音频情绪特征提取器从MFCC特征中获取音频情绪特征向量；将获取的视频情绪特征与音频情绪特征映射到同一特征向量空间进行拼接，将拼接得到的多模态情绪特征进行分类；

S3、将训练数据输入至步骤S2中的基础情绪识别模型，根据模型输出的情绪类别标签和步骤S1中获取的标记了特定情绪样本标签文本之间的误差设计损失函数，训练过程中更新模型的参数直到模型收敛，得到训练好的目标情绪识别模型；

S4、上线训练好的目标情绪识别模型用于相应场景下的情绪识别操作。

在本发明的某些实施方式中，步骤S1具体包括：

S101、将样本视频数据转化为包含面部表情的图像数据；

S102、将标准音频数据转化为标准Mel频谱用于提取MFCC特征；

S103、将标签文本、图像数据以及提取的MFCC特征作为训练数据。

在本发明的某些实施方式中，步骤S2中，视频情绪特征提取器为基于金字塔多尺度图片特征提取的多尺度轻量级视频情绪特征提取器，用于从图像数据中获取对应的多尺度情绪特征。

在本发明的某些实施方式中，步骤S2中，音频情绪特征提取器为基于VGGNet网络的轻量级语音情绪识别网络，用于从MFCC特征中提取对应音频的情绪特征。

在本发明的某些实施方式中，步骤S2中，在进行特征融合时，先将提取到的多尺度视频情绪特征通过多层感知器进行维度调整，使得与音频情绪特征维度保持一致；融合方式采用Concat融合方法，将提取到的对应情绪特征分别进行连接，使得不同特征映射到同一空间上，输出拼接后的多模态情绪特征。

本发明还提供了一种基于视音频信息融合的情绪识别系统，应用于上述任一项所述基于视音频信息融合的情绪识别方法，包括：

数据获取模块，用于获取标记了特定情绪样本的标签文本，以及获取对应的标准音频数据与视频数据；

模型构建模块，用于构建基础情绪识别模型，基于视频情绪特征提取器从视频数据中获取多尺度视频情绪特征向量；以及基于音频情绪特征提取器从MFCC特征中获取音频情绪特征向量；将获取的视频情绪特征与音频情绪特征映射到同一特征向量空间进行拼接，将拼接得到的多模态情绪特征进行分类；

模型训练模块，用于将训练数据输入至步骤S2中的基础情绪识别模型，根据模型输出的情绪类别标签和步骤S1中获取的标记了特定情绪样本标签文本之间的误差设计损失函数，训练过程中更新模型的参数直到模型收敛，得到训练好的目标情绪识别模型；

情绪识别模块，用于上线训练好的目标情绪识别模型用于相应场景下的情绪识别操作。

在本发明的某些实施方式中，所述数据获取模块具体用于：

将样本视频数据转化为包含面部表情的图像数据；

将标准音频数据转化为标准Mel频谱用于提取MFCC特征；

将标签文本、图像数据以及提取的MFCC特征作为训练数据。

在本发明的某些实施方式中，所述模型构建模块包括视频情绪特征提取器，所述视频情绪特征提取器为基于金字塔多尺度图片特征提取的多尺度轻量级视频情绪特征提取器，用于从图像数据中获取对应的多尺度情绪特征。

在本发明的某些实施方式中，所述模型构建模块包括音频情绪特征提取器，所述音频情绪特征提取器为基于VGGNet网络的轻量级语音情绪识别网络，用于从MFCC特征中提取对应音频的情绪特征。

在本发明的某些实施方式中，所述模型构建模块在进行特征融合时，先将提取到的多尺度视频情绪特征通过多层感知器进行维度调整，使得与音频情绪特征维度保持一致；融合方式采用Concat融合方法，将提取到的对应情绪特征分别进行连接，使得不同特征映射到同一空间上，输出拼接后的多模态情绪特征。

与现有技术相比，本发明有以下优点：

本发明所述基于视音频信息融合的情绪识别方法，融合特征时将获取不同模态之间的情绪特征映射到同一特征空间上进行特征融合，减少了不同模态特征之间的相互影响，提高情绪识别的准确率。并且，由于传统的视频与音频的情绪识别模型采用的时多层卷积进行特征提取，其中VGGNet16取得的效果比较好，但是由于卷积层过深导致参数量过大，模型复杂度较高，因而，在视频提取时减少了多层卷积层，使用多尺度特征提取方法，在音频情绪特征提取器中使用了基于VGGNet网络改进的一种轻量级语音情绪识别网络，从而减少了模型的参数，简化了模型的复杂度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述基于视音频信息融合的情绪识别方法的流程示意图；

图2为本发明另一实施例的流程示意图；

图3为多尺度轻量级的视频情绪提取器的提取过程参考示意图

图4为轻量级音频情绪特征的提取过程参考示意图；

图5为模型的特征融合模块参考原理结构示意图；

图6为分类器的参考原理结构示意图；

图7为本发明所述基于视音频信息融合的情绪识别系统的原理结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，附图中给出了本发明的较佳实施例。本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例，相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

参阅图1所示，为本发明所述基于视音频信息融合的情绪识别方法的流程示意图，所述基于视音频信息融合的情绪识别方法，包括如下步骤：

通过在融合特征时将获取不同模态之间的情绪特征映射到同一特征空间上进行特征融合，减少了不同模态特征之间的相互影响，提高情绪识别的准确率。

在本发明实施例中，参阅图2所示，步骤S1具体包括如下步骤：

S101、将样本视频数据转化为包含面部表情的图像数据；

S102、将标准音频数据转化为标准Mel频谱用于提取MFCC特征；

在本发明实施例中，步骤S2中，视频情绪特征提取器为基于金字塔多尺度图片特征提取的多尺度轻量级视频情绪特征提取器，用于从图像数据中获取对应的多尺度情绪特征。参见图3所示，为多尺度轻量级的视频情绪提取器的提取过程参考示意图，视频经过处理后得到图片输入到提取器中，通过提取器提取局部情绪特征与全局特征增强提取到的情绪特征，其中，ReLU(Rectified LinearUnit)是一种神经网络中常用的激活函数。

本发明实施例在执行前述步骤时，训练数据中样本形式为图片或图像数据，或者通过视频转换为图片或图像数据。图片处理过程为将拍摄的视频，每半秒捕捉两帧，每一段视频大约有6帧，之后将两帧的图像横向连接起来，增加冗余度帮助网络轻松的从图像中提取情绪特征。

在一种实施方式中，多尺度轻量级情绪视频情绪特征的提取方式为：

M₁＝Dropout(LayerNorm(ReLU(Conv2D(x_{_image}))))

M₂＝Dropout(LayerNorm(ReLU(Conv2D(M₁))))

X_{_image}＝Maxpool(M₁+M₂)

x_{_image}为数据预处理后的图片信息，Conv2D为二维卷积，X_{_image}为多尺度轻量级视频情绪特征提取器输出的视频情绪特征向量。

在本发明实施例中，步骤S2中，音频情绪特征提取器为基于VGGNet网络的轻量级语音情绪识别网络，用于从MFCC特征中提取对应音频的情绪特征，其中，VGGNet(VeryDeepConvolutionalNetworks)是一种更深的深度卷积神经网络模型。

具体来说，mel频谱图首先经过三个卷积块得到的特征向量进行归一化处理之后进行Dense操作得到音频情绪特征向量，其中前两个卷积块分别由两层二维卷积层和最大池化层组成，第三个卷积块由三个卷积层和Dropout组成。

具体实施时，训练数据中样本形式为音频转换为频谱。频谱转换为MFCC。频谱转换为MFCC(梅尔倒谱系数)。

MFCC提取过程部分过程及公式为：

预加重：H(Z)＝1-μz^-1，μ为预加重系数，通常取0.9-1.0之间，为语音信号，表示预加重后的结果。

分帧：先将N个采样点集合成一个观测单位。通常情况下N的值为256或512，涵盖的时间约为20～30ms左右，为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音信号的采样频率为8KHz或16KHz。

加窗：S'(n)＝S(n)×W(n),

其中，S(n)为H(Z)分帧之后信号，W(n)为汉明窗n为帧的大小，S'(n)为加窗处理后的语音信号，a为汉明窗产生系数，不同的a产生不同的汉明窗，一般取0.46。

FFT(Fast Fourier transform快速傅里叶变换)：

N表示傅里叶变换点数，K是经过FFT计算后的点的下标,是傅里叶转换周期，是欧拉公式中的虚数单位。

三角带通滤波器：

其中f(m)代表的是中心频率,f(m)之间的间隔随m值的减小而缩小，m为滤波器个数，k是经过FFT计算后的点的下标。

取对数：每个滤波器组输出的对数能量，

s(m)为每组滤波器输出的对数能量，M表示三角滤波器的个数，L指的是MFCC系数阶数。

具体来说，音频情绪特征的提取过程包括：

black1＝MaxPool(Conv2D(Conv2D(v_{_mel})))，

black2＝MaxPool(Conv2D(Conv2D(black1))),

black3＝Dropout(Conv2D(Conv2D(Conv2D(black2))))，

V_emotion＝Dense(BN(black3))，

v_{_mel}为音频转换的MFCC特征，BN为BatchNorm函数，V_emotion为音频情绪提取特征器提取的音频情绪特征向量。

参阅图4所示，为本发明实施例中轻量级音频情绪特征的提取过程示意图。音频通过转换为MFCC特征输入到卷积块中，再通过Dense层得到音频情绪特征向量。

在本发明实施例中，步骤S2中，在进行特征融合时，先将提取到的多尺度视频情绪特征通过多层感知器进行维度调整，使得与音频情绪特征维度保持一致；融合方式采用Concat融合方法，将提取到的对应情绪特征分别进行连接，使得不同特征映射到同一空间上，输出拼接后的多模态情绪特征，其中，Concat一种特征融合的方法。

在本发明实施例中，将视频情绪特征与音频情绪特征进行拼接采用早融合Concat技术，将多尺度视频情绪特征经过MLP中进行维度调节，使其维度与音频情绪特征维度一致，之后将提取到的情绪特征进行连接后，映射到同一维度上，输出拼接后的特征T_e，连接后的特征进行标准化处理后输入MLP分类器中进行情绪特征的分类C_e，处理过程包括：

T_e＝concat(MLP(X_{_image}),V_emotion)，

C_e＝MLP(BN(T_e))，

T_e为视频情绪特征与音频情绪特征融合拼接到同一映射空间后的向量，BN为BatchNorm函数，C_e为模型输出的情绪分类。

请参阅图5-6，分别为模型的特征融合模块与分类器的参考原理结构示意图。

本发明实施例所述基于视音频信息融合的情绪识别方法融合特征时将获取不同模态之间的情绪特征映射到同一特征空间上进行特征融合，减少了不同模态特征之间的相互影响，提高情绪识别的准确率。并且，由于传统的视频与音频的情绪识别模型采用的时多层卷积进行特征提取，其中VGGNet16取得的效果比较好，但是由于卷积层过深导致参数量过大，模型复杂度较高，因而，在视频提取时减少了多层卷积层，使用多尺度特征提取方法，在音频情绪特征提取器中使用了基于VGGNet网络改进的一种轻量级语音情绪识别网络，从而减少了模型的参数，简化了模型的复杂度。

在上述实施例的基础上，本发明还提供了一种基于视音频信息融合的情绪识别系统，应用于上述任一实施例所述基于视音频信息融合的情绪识别方法，包括：

数据获取模块100，用于获取标记了特定情绪样本的标签文本，以及获取对应的标准音频数据与视频数据；

模型构建模块200，用于构建基础情绪识别模型，基于视频情绪特征提取器从视频数据中获取多尺度视频情绪特征向量；以及基于音频情绪特征提取器从MFCC特征中获取音频情绪特征向量；将获取的视频情绪特征与音频情绪特征映射到同一特征向量空间进行拼接，将拼接得到的多模态情绪特征进行分类；

模型训练模块300，用于将训练数据输入至步骤S2中的基础情绪识别模型，根据模型输出的情绪类别标签和步骤S1中获取的标记了特定情绪样本标签文本之间的误差设计损失函数，训练过程中更新模型的参数直到模型收敛，得到训练好的目标情绪识别模型；

情绪识别模块400，用于上线训练好的目标情绪识别模型用于相应场景下的情绪识别操作。

在本发明实施例中，所述数据获取模块100具体用于：

将样本视频数据转化为包含面部表情的图像数据；

将标准音频数据转化为标准Mel频谱用于提取MFCC特征；

将标签文本、图像数据以及提取的MFCC特征作为训练数据。

在本发明实施例中，所述模型构建模块200包括视频情绪特征提取器，所述视频情绪特征提取器为基于金字塔多尺度图片特征提取的多尺度轻量级视频情绪特征提取器，用于从图像数据中获取对应的多尺度情绪特征。

在本发明实施例中，所述模型构建模块200包括音频情绪特征提取器，所述音频情绪特征提取器为基于VGGNet网络的轻量级语音情绪识别网络，用于从MFCC特征中提取对应音频的情绪特征。

在本发明实施例中，所述模型构建模块200在进行特征融合时，先将提取到的多尺度视频情绪特征通过多层感知器进行维度调整，使得与音频情绪特征维度保持一致；融合方式采用Concat融合方法，将提取到的对应情绪特征分别进行连接，使得不同特征映射到同一空间上，输出拼接后的多模态情绪特征。

本发明实施例所述的基于视音频信息融合的情绪识别系统可执行上述实施例所提供的基于视音频信息融合的情绪识别方法，所述基于视音频信息融合的情绪识别系统具备上述实施例所述基于视音频信息融合的情绪识别方法相应的功能步骤以及有益效果，具体请参阅上述基于视音频信息融合的情绪识别方法的实施例，本发明实施例在此不再赘述。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。以上仅为本发明的实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。

Claims

1.一种基于视音频信息融合的情绪识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于视音频信息融合的情绪识别方法，其特征在于，步骤S1具体包括：

S101、将样本视频数据转化为包含面部表情的图像数据；

S102、将标准音频数据转化为标准Mel频谱用于提取MFCC特征；

3.根据权利要求1所述的基于视音频信息融合的情绪识别方法，其特征在于，步骤S2中，视频情绪特征提取器为基于金字塔多尺度图片特征提取的多尺度轻量级视频情绪特征提取器，用于从图像数据中获取对应的多尺度情绪特征。

4.根据权利要求1所述的基于视音频信息融合的情绪识别方法，其特征在于，步骤S2中，音频情绪特征提取器为基于VGGNet网络的轻量级语音情绪识别网络，用于从MFCC特征中提取对应音频的情绪特征。

5.根据权利要求1所述的基于视音频信息融合的情绪识别方法，其特征在于，步骤S2中，在进行特征融合时，先将提取到的多尺度视频情绪特征通过多层感知器进行维度调整，使得与音频情绪特征维度保持一致；融合方式采用Concat融合方法，将提取到的对应情绪特征分别进行连接，使得不同特征映射到同一空间上，输出拼接后的多模态情绪特征。

6.一种基于视音频信息融合的情绪识别系统，应用于权利要求1-5任一项所述基于视音频信息融合的情绪识别方法，其特征在于，包括：

7.根据权利要求6所述的基于视音频信息融合的情绪识别系统，其特征在于，所述数据获取模块具体用于：

将样本视频数据转化为包含面部表情的图像数据；

将标准音频数据转化为标准Mel频谱用于提取MFCC特征；

将标签文本、图像数据以及提取的MFCC特征作为训练数据。

8.根据权利要求6所述的基于视音频信息融合的情绪识别系统，其特征在于，所述模型构建模块包括视频情绪特征提取器，所述视频情绪特征提取器为基于金字塔多尺度图片特征提取的多尺度轻量级视频情绪特征提取器，用于从图像数据中获取对应的多尺度情绪特征。

9.根据权利要求6所述的基于视音频信息融合的情绪识别系统，其特征在于，所述模型构建模块包括音频情绪特征提取器，所述音频情绪特征提取器为基于VGGNet网络的轻量级语音情绪识别网络，用于从MFCC特征中提取对应音频的情绪特征。

10.根据权利要求6所述的基于视音频信息融合的情绪识别系统，其特征在于，所述模型构建模块在进行特征融合时，先将提取到的多尺度视频情绪特征通过多层感知器进行维度调整，使得与音频情绪特征维度保持一致；融合方式采用Concat融合方法，将提取到的对应情绪特征分别进行连接，使得不同特征映射到同一空间上，输出拼接后的多模态情绪特征。