CN117349792A

CN117349792A - 一种基于面部特征与语音特征的情绪识别方法

Info

Publication number: CN117349792A
Application number: CN202311391539.XA
Authority: CN
Inventors: 武圣君; 刘旭峰; 王秀超; 王卉; 方鹏; 谢康宁; 李国新; 胡敏花; 杨梦圆; 张芫蓓; 蒲昭君
Original assignee: Air Force Medical University of PLA
Current assignee: Air Force Medical University of PLA
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-01-05
Anticipated expiration: 2043-10-25

Abstract

本发明公开一种基于面部特征与语音特征的情绪识别方法，涉及特征融合技术领域，包括：对采集的包含有面部信号和语音信号的音视频进行分帧，提取每帧的语音特征值和面部特征值；根据情绪种类构建K均值聚类数目集，从K均值聚类数目集合中确定最优聚类数目；使用最优聚类数目k_best把语音特征值和面部特征值聚为不同的簇，将既含有面部特征值也含有语音特征值的簇作为融合特征；将融合特征输入到情绪识别模块中，输出情绪识别结果。本发明引入k均值算法对表情特征和语音特征进行融合，将不同感知模式的信息融合，有助于捕捉模态之间的互补信息。将该类作为情绪识别模型的输入有助于情绪识别模型输出更准确的情绪识别结果。

Description

一种基于面部特征与语音特征的情绪识别方法

技术领域

本发明涉及深度学习技术领域，特别涉及一种基于面部特征与语音特征的情绪识别方法。

背景技术

人机交互的过程中，让机器真正看的懂、听的懂情感丰富的人类的情绪状态，不仅可以帮助心理医生通过对病人情绪的判断来掌握病人的心理状态，更好的进行心理治疗，还可以通过观众的反应对广告效果做出评估、识别驾驶员驾驶状态以触发应急措施进行干预等。

早期关于情绪识别的研究中，研究者们将表情定义为六种基本的情绪：开心、悲伤、惊讶、害怕、厌恶、生气，并通过让相关研究人员或专业的演员在实验室条件下进行摆拍获得不同类别表情的方式构建数据集。但随着研究的深入，人们发现通过上述的方式进行情绪识别的研究存在弊病：人可以通过控制自己的面部表情来隐藏自己的情绪，基于单一视觉模态很难有效对情绪进行识别。针对以上弊病，目前情绪识别也逐步偏向于面部表情+语音多模态背景下的研究。

基于面部表情+语音多模态的情绪识别中，确定每种特征对情绪的影响大小是一个复杂的问题，某种情况下面部表情可能更具信息量，而在其他情况下，语音特征可能更为重要，因此如何获得鲁棒性更强、更具有代表性的综合特征进行情绪识别具有重要的研究意义。使用k均值算法对表情特征和语音特征进行融合，可以通过无监督方法自发的将相似的表情特征和语音特征被聚为一簇，该聚类结果是综合情绪表示，实现不同感知模式之间的信息融合，这有助于捕捉不同模态之间的互补信息。在使用k均值算法获得融合特征的过程中k值可以使用肘部法则来确定，肘部法则的工作步骤是：尝试不同的k值将数据分为不同数量的簇；计算每个尝试的k值的轮廓系数；将不同k值轮廓系数绘制成曲线；在曲线上找一个拐点最佳簇数量。

但是使用肘部法则获得最佳簇数量的过程中，轮廓系数的计算是基于全部数据来计算，对于获得融合特征来说，使用全部数据这样可能会掩盖一些细微的情绪变化，获得的k值不准确；并且肘部法则在某些情况下可能存在多个可能的拐点、获得多个k值，造成获得的融合特征的鲁棒性差。

发明内容

本发明实施例提供一种基于面部特征与语音特征的情绪识别方法，可以解决现有技术中，使用传统肘部法获得的聚类数量不准确，以及基于不准确的聚类数量获得的融合特征的鲁棒性差的技术问题。

本发明实施例提供一种基于面部特征与语音特征的情绪识别方法，包括：

对采集的包含有面部信号和语音信号的音视频进行分帧，提取每帧的语音特征值向量α和面部特征值向量β；

根据情绪种类N构建K均值聚类数目集合K＝{2,3,…,k_i,…,N}，从K均值聚类数目集合K＝{2,3,…,k_i,…,N}中确定最优聚类数目k_best，包括：

对于每个k_i值，使用K均值聚类算法把语音特征值和面部特征值聚为k_i个簇；

计算每个k_i值对应的融合特征轮廓系数：

其中，是k_i对应的融合特征轮廓系数；j∈{α∪β}的含义是特征值j所属的簇既含有语音特征值也含有面部特征值，S(j)是单个特征值j的轮廓系数；n_{α∪β}的含义是既含有语音特征值α也含有面部特征值β的簇中的特征值总数量；

计算相邻k_i对应的融合特征轮廓系数的变化情况将相邻k_i融合特征轮廓系数的变化情况/>最小的k_i作为最优聚类数目k_best：

其中，分别是第i-1个聚类数目k_i-1、第i个聚类数目k_i、第i+1聚类数目k_i+1对应的融合特征轮廓系数；

将最优聚类数目k_best对应的既含有面部特征值也含有语音特征值的簇作为融合特征；

将融合特征输入到情绪识别模块中，输出情绪识别结果。

进一步的，所述语音特征值的获取，包括：

提取包含有面部信号和语音信号的音视频中的音频；

使用汉明窗口函数对音频进行分帧，对分帧的音频进行移帧后获得每帧音频信号；

获得每帧音频信号的所有梅尔倒谱系数MFCC，去除第一个梅尔倒谱系数MFCC，将剩余的梅尔倒谱系数MFCC作为对应帧的语音特征值。

进一步的，所述获得每帧音频信号的所有梅尔倒谱系数MFCC，包括：

对每帧音频信号应用离散傅立叶变换DFT，将时域信号转换为频域信号；

通过计算离散傅立叶变换DFT结果的幅度平方，获得每帧音频信号的功率谱；

构建梅尔滤波器组，将每帧音频信号的功率谱分别与梅尔滤波器组中每一个梅尔滤波器进行频率相乘累加，获得每个梅尔滤波器的能量值；

取每个梅尔滤波器的能量值的对数，对取对数后的梅尔滤波器组应用离散余弦变换DCT，得到所有梅尔倒谱系数MFCC。

进一步的，所述面部特征值的获取，包括：

获得每帧音频信号的起始时间戳和终止时间戳：

其中，是第i帧音频信号的起始时间戳，R是移帧大小，Fs是音频的采样率；/>是第i帧音频信号的终止时间戳，m表示汉明窗口中的采样点数量；

根据每帧音频信号的起始时间戳和终止时间戳获得与每帧音频信号同步的每帧视频信号，提取每帧视频信号中的所有图像；

使用多任务卷积神经网络检测所有图像中的人脸；

使用Dlib库检测所有图像中的人脸上68个关键点的位置；

基于所有图像中的人脸上68个关键点的位置变化，获得面部特征值：

β_i0，…，β_ij，…，β_i67}

其中，

{β_i0，…，β_ij，…，β_i67}是与第i帧音频信号同步的第i帧视频信号的所有面部特征值；

β_ij是所有面部特征值中第j个面部特征值，其根据人脸上第j个关键点在起始时间戳和终止时间戳的位置变化计算所得；

分别是第j个关键点在起始时间戳和终止时间戳的位置。

进一步的，所述多任务卷积神经网络，包括：

候选模块，所述候选模块用于快速生成大量的候选窗；

与所述候选模块输出端连接的精炼模块，所述精炼模块用于对候选窗进行精筛；

与所述精炼模块输出端连接的输出模块，所述输出模块用于输出最终人脸框。

进一步的，所述68个关键点的位置，包括：

下颌线[0,16]、左眼眉毛[17,21]、右眼眉毛[22,26]、鼻梁[27,30]、鼻子[31,35]、左眼[36,41]、右眼[42,47]、上嘴唇外边缘[48,54]、下嘴唇外边缘[55,59]、上嘴唇内边缘[60,64]、下嘴唇内边缘[65,67]。

进一步的，所述使用K均值聚类算法把语音特征值和面部特征值聚为个簇，包括：

S1.确定聚类个数为k_i、初始聚类中心为γ＝{γ₁，…，γ_ki}；

S2.计算所有归一化后的特征值到k_i个初始聚类中心的欧式距离，并将其分到距离最小的初始聚类中心所对应的簇中；

S3.针对每个类别，重新计算它的聚类中心：

其中，是新的聚类中心，/>表示簇γ_j中特征值的个数，x表示属于该簇的特征值的大小；

S4.重复S2-S3，直到达到所设终止条件后停止循环，将若干个特征值划分为k_i簇。

进一步的，所述单个特征值的轮廓系数，包括：

计算单个特征值j到同一簇内的其他特征值的平均距离a(j)；

计算单个特征值j到其他簇中的所有特征值的平均距离b(j)；

计算单个特征值j的轮廓系数S(j)：

进一步的，所述情绪识别模块，是使用训练完的多层感知机MLP来进行情绪识别的模块，所述多层感知机MLP包括：

输入层，用于接收输入的融合特征；

若干个与输入层输出端连接的隐藏层，隐藏层的神经元用于接收上一层的输出，并对上一层的输出进行加权和激活函数处理；

输出层，用于通过softmax函数输出最终的情绪识别结果。

本发明实施例提供一种基于面部特征与语音特征的情绪识别方法，与现有技术相比，其有益效果如下：

本发明在计算轮廓系数时，仅关注既含有面部特征值也含有语音特征值的簇的融合特征轮廓系数变化，专注于融合特征的变化可以提供更有针对性的信息，不会让少量的融合特征变化被其他非融合特征变化掩盖更好的捕捉融合特征变化情况，基于该融合特征轮廓系数获得的聚类数目更准确；并且本发明将融合特征轮廓系数变化更平稳的k作为最优聚类数目k_best，基于最优聚类数目k_best获得的融合特征趋于平稳，该融合特征不会随着k值的变化发生较大的改变，鲁棒性更强，将该融合特征作为情绪识别模型的输入有助于情绪识别模型输出更准确的情绪识别结果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本说明书提供的一种基于面部特征与语音特征的情绪识别方法的流程图；

图2是本说明书提供的获得梅尔倒谱系数MFCC的流程图；

图3是本说明书提供的68个关键点的位置示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

实施例

一种基于面部特征与语音特征的情绪识别方法，具体包括：

步骤1、采集的包含有面部信息和语音信息的音视频

本说明书从以下公开数据集中进行采样，获得包含有面部信息和语音信息的音视频来构建本实施例的数据集：

CREMA-D(Crowdsourced Emotional Multimodal Actors Dataset)是一个多模态数据集，包括了来自不同演员的音频和音视频片段，展示了各种情绪。

SAVEE(Surrey Audio-Visual Expressed Emotion)是一个小型的多模态数据集，包括了来自四位演员的语音和面部表情数据，它涵盖了如愤怒、高兴、悲伤等基本的情感类别。

SEMAINE(Sustained Emotionally colored Machine-human Interaction usingNonverbal Expression)是一个大规模多模态数据库，包含来自各种情感和情绪的音频、音视频和文本数据。

获得包含有面部信息和语音信息的音视频后需要将其输入到情绪识别模型中进行情绪识别。本发明所构建的情绪识别模型包括2个模块：特征提取模块、情绪识别模块；其中特征提取模块用于提取音视频中的面部特征和语音特征，并根据面部特征和语音特征获得融合特征；情绪识别模块用于对输入的融合特征进行识别，输出情绪识别结果。具体包括：

步骤2、特征提取

提取音视频中的面部特征和语音特征，然后将它们融合成一个特征向量，是一种多模态数据处理的方法，常用于人机交互、情感分析等应用领域。通过将多种信息源结合起来，可以更好地捕捉数据的多样性和复杂性，进而提高情绪识别的鲁棒性。

步骤2.1、获得音视频中的每帧音频以及与每帧音频对应的视频

采集的包含有面部信号和语音信号的音视频是将音频和视频信号以一定的时间同步方式呈现的多媒体数据格式。其中音频表示声音信息，其按采样点播放，声音播放设备每次播放一个采样点，声音播放速度由采样率确定，采样率指示每秒播放多少个采样点。视频表示图像信息，其按帧播放，图像显示设备每次显示一帧画面，视频播放速度由帧率确定，帧率指示每秒显示多少帧。

步骤2.1.1、提取音视频中的每帧音频

步骤2.1.1.1、提取音视频中的音频数据

步骤2.1.1.2、音频分帧

音频分帧是将连续的音频信号划分为一系列短时间段的操作。分帧操作使用汉明窗口函数将连续音频信号分割成帧，汉明窗口函数是一个具有固定长度的窗口，它在音频信号上进行滑动，通过与音频信号相乘对音频信号分割，每一帧的长度以采样点数表示，第i帧的音频信号可以表示为s^[i,m]：

s^[i,m]＝s[i*R+m]

其中，

s[i,m]表示第i帧的音频信号，m表示长度为L的汉明窗口中的采样点；

R是帧移大小，移帧是在分帧后，将分割的帧沿时间轴上移动R个采样点，以产生重叠的帧，这种重叠有助于更准确地捕捉音频信号的短期特性。

步骤2.1.1.3、计算时间戳

时间戳用于记录音频帧的时间，时间戳计算的计算公式为：

其中，

是第i帧音频信号的起始时间戳，R是帧移，Fs是音频信号的采样率；

是第i帧音频信号的终止时间戳，m表示汉明窗口中的采样点数量。

步骤2.1.2、提取音视频中的每帧视频

提取音视频中的视频数据，根据步骤2.1.1所获得的第i帧音频信号的起始时间戳和终止时间戳对视频进行分割，获得该时间段内相应帧的图像作为第i帧的视频数据：

其中，

P_i是第i帧的视频数据；是时间段/>内相应帧的图像数据。

步骤2.2、语音特征提取

语音信号分析可分为时域、频域、倒谱域等方法。语音信号本身是时域信号，因而时域分析是最早使用的应用范围最广的一种方法。但更为有效的分析多是围绕频域进行的，语音信号的频谱具有非常明显的声学特征，利用频域分析获得的语音特征具有实际的物理意义。倒谱域是将对数功率谱进行反傅里叶变换后得到，它可以进一步讲声道特征和激励特征有效地分开，因此可以更好地揭示语音信号的本质特征，由Davies和Mermelstein提出的梅尔倒谱系数MCFF利用了听觉原理和倒谱的解相关特性，从人耳对频率高低的非线性心理感觉角度，反映了语音短时幅度谱的特征。如图2所示，获得梅尔倒谱系数MCFF的具体步骤包括：

对每帧音频信号应用离散傅立叶变换DFT将时域信号转换为频域信号；

通过计算离散傅立叶变换DFT结果的幅度平方获得每帧音频信号的功率谱；

去除第一个梅尔倒谱系数MFCC，将剩余的梅尔倒谱系数MFCC作为对应帧的语音特征值：

α_i表示第i帧的语音特征向量，α_i1，…，α_ij，…，α_ih是其包含的特征值。

步骤2.3、面部特征提取

步骤2.3.1、提取面部图像数据：

是时间段/>内所有图像。

步骤2.3.2、使用多任务卷积神经网络检测图像中的人脸

多任务卷积神经网络(Multi-task convolutional neural network，MTCNN)是中国科学院深圳研究院于2016年提出的用于人脸检测任务的神经网络模型。MTCNN网络结构是一个三级联级网络，总体可分为候选网络(Proposal Network，P-Net)、精炼网络(Refining Network，R-Net)、输出网络(Outputting Network，O-Net)三层网络结构，候选网络用于快速生成大量的候选窗，精炼网络用于对候选窗进行精筛，输出网络用于输出最终人脸框。该模型采用了候选框加分类器的思想，能够同时兼顾速度与精度，实现快速高效的人脸检测。

步骤2.3.3、在检测到的人脸区域内，使用关键点检测算法检测出人脸上的关键点

Dlib是一个开源的C++库，主要用于机器学习和计算机视觉领域。其中，Dlib的68点模型是其人脸识别和人脸关键点检测的核心算法之一，其原理是通过训练一个深度神经网络来预测人脸的68个关键点的位置，68个关键点如下图所示，包括：

步骤2.3.4、获得面部特征值

基于所有图像中的人脸上68个关键点的位置变化获得面部特征值：

β_i0，…，β_ij，…，β_i67}

其中，

分别是第j个关键点在起始时间戳和终止时间戳的位置。

步骤3、特征融合

语音和面部特征提供了不同的信息来源，语音可以捕捉到语速、音调、音量等与情感有关的声音特征，而面部特征可以捕捉到面部表情、眼神等与情感相关的视觉信号。融合这两种信息源可以提供更丰富和多样化的特征，有助于更准确地识别情感，并且通过多模态融合，可以提高系统的鲁棒性，更好地区分不同的情感状态。

步骤3.1、使用肘部法则确定最优聚类数目k_best

步骤3.1.1、根据情绪种类N构建K均值聚类数目集合K＝{2,3,…,k_i,…,N}

将语音特征值和表情特征值使用K均值聚类时，逐渐增加聚类数目允许聚类系统尝试捕捉和区分尽可能多的情感种类，而无需预先知道情感的确切数量，这有助于实现更全面的情感分类，从而更好地了解可识别的情感种类。

步骤3.1.2、对于每个选定的k_i值，使用K均值聚类算法将输入的特征值分为k_i个簇，具体包括：

S1.确定聚类个数为k_i、初始聚类中心为

S3.针对每个类别，重新计算它的聚类中心：

步骤3.1.3、对于每个使用不同k值的聚类结果，计算其总轮廓系数

轮廓系数用于度量簇内数据点的相似性和簇间数据点的差异性。更高的整体轮廓系数通常表示更好的聚类结果，因为它意味着簇内的数据点更加相似，而不同簇之间的距离更大。对于每个特征值i的轮廓系数S(i)可以按如下方式计算：

计算单个特征值i到同一簇内的其他特征值的平均距离a(i)；

计算单个特征值i到其他簇中的所有特征值的平均距离b(i)；

计算单个特征值i的轮廓系数S(i)：

轮廓系数的取值范围在-1到1之间：

如果S(i)接近1，表示特征值i分配到正确的簇。

如果S(i)接近0，表示特征值i在簇的边界上。

如果S(i)远离0且接近-1，表示特征值i被错误地分配到了其他簇。

传统总轮廓系数是所有数据点的轮廓系数的平均值，但是本发明中仅关注融合特征是否分配正确，因此只考虑既含有语音特征值α也含有面部特征值β的簇的轮廓系数，本发明中计算总轮廓系数的公式为：

其中，

是k_i对应的融合特征轮廓系数；

j∈{α∪β}的含义是特征值j所属的簇既含有语音特征值也含有面部特征值；

S(j)是单个特征值j的轮廓系数；

n_{α∪β}的含义是既含有语音特征值α也含有面部特征值β的簇中的特征值总数量；

步骤3.1.4、计算相邻k_i对应的融合特征轮廓系数的变化情况将相邻k_i融合特征轮廓系数的变化情况/>最小的k_i作为最优聚类数目k_best：

由步骤3.1.3得到的各个聚类数目{2,3,…,k_i,…,N}对应的总轮廓系数范围在轮廓系数的取值范围在-1到1之间，总轮廓系数越接近1、变化越平稳说明分配正确。

步骤3.2、获得融合特征

奖最优聚类数目k_best对应的聚类结果中既含有语音特征值也含有面部特征值作为融合特征。

步骤4、情绪识别

首先，根据步骤2和步骤3获得的融合特征向量、与该特征向量对应的情绪标签构建数据集

然后，构建多层感知机MLP，多层感知机(Multilayer Perceptron，MLP)是一种常用于进行情感分类和其他自然语言处理任务的人工神经网络。它是一种前馈神经网络，具有多个层次的神经元，包括：

输入层，用于接收输入的融合特征。

若干个与输入层输出端连接的隐藏层，隐藏层的神经元用于接收上一层的输出，并对上一层的输出进行加权和激活函数处理。

输出层，用于通过softmax函数输出最终的情绪识别结果。

接着，将构建的数据集输入到多层感知机MLP中进行训练：随机设定初始权重，将数据集中的融合特征输入多层感知机MLP中，输出情绪识别结果，通过交叉熵损失函数计算输出情绪识别结果与对真实情绪标签之间的误差，对误差进行反向传播，迭代更新多层感知机MLP中的权重，迭代次数达到设定次数后，得到多层感知机MLP的最终权重，获得训练完成的多层感知机MLP。

将待识别的融合特征输入到训练完成的多层感知机MLP中，输出情绪识别结果。域的普通技术人员来说，在不脱离本发明构思的前提。

Claims

1.一种基于面部特征与语音特征的情绪识别方法，其特征在于，包括：

根据情绪种类N构建K均值聚类数目集合K＝{2，3，…，k_i，…，N}，从K均值聚类数目集合K＝{2，3，…，k_i，…，N}中确定最优聚类数目k_best，包括：

计算每个k_i值对应的融合特征轮廓系数：

其中，是k_i对应的融合特征轮廓系数；j∈{α∪β}的含义是特征值j所属的簇既含有语音特征值也含有面部特征值，S(j)是单个特征值；的轮廓系数；n_{α∪β}的含义是既含有语音特征值α也含有面部特征值β的簇中的特征值总数量；

将融合特征输入到情绪识别模块中，输出情绪识别结果。

2.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述语音特征值的获取，包括：

提取包含有面部信号和语音信号的音视频中的音频；

3.根据权利要求2所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述获得每帧音频信号的所有梅尔倒谱系数MFCC，包括：

4.根据权利要求2所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述面部特征值的获取，包括：

获得每帧音频信号的起始时间戳和终止时间戳：

使用多任务卷积神经网络检测所有图像中的人脸；

使用Dlib库检测所有图像中的人脸上68个关键点的位置；

{β_i0，…，β_ij，…，β_i67}

其中，

分别是第j个关键点在起始时间戳和终止时间戳的位置。

5.根据权利要求4所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述多任务卷积神经网络，包括：

候选模块，所述候选模块用于快速生成大量的候选窗；

6.根据权利要求4所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述68个关键点的位置，包括：

7.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述使用K均值聚类算法把语音特征值和面部特征值聚为个簇，包括：

S1.确定聚类个数为k_i、初始聚类中心为

S3.针对每个类别，重新计算它的聚类中心：

8.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述单个特征值的轮廓系数，包括：

计算单个特征值j到同一簇内的其他特征值的平均距离a(j)；

计算单个特征值j到其他簇中的所有特征值的平均距离b(j)；

计算单个特征值j的轮廓系数S(j)：

9.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法，其特征在于，所述情绪识别模块，是使用训练完的多层感知机MLP来进行情绪识别的模块，所述多层感知机MLP包括：

输入层，用于接收输入的融合特征；

输出层，用于通过softmax函数输出最终的情绪识别结果。