CN105976809B

CN105976809B - 基于语音和面部表情的双模态情感融合的识别方法及系统

Info

Publication number: CN105976809B
Application number: CN201610352750.4A
Authority: CN
Inventors: 刘振焘; 吴敏; 曹卫华; 陈鑫; 潘芳芳; 徐建平; 张日; 丁学文
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2016-05-25
Filing date: 2016-05-25
Publication date: 2019-12-17
Anticipated expiration: 2036-05-25
Also published as: CN105976809A

Abstract

本发明涉及一种基于语音和面部表情的双模态情感融合的识别方法，包括以下步骤：获取待识别对象的音频数据和视频数据；从视频数据中提取人脸表情图像，并进行眼睛、鼻子、嘴巴区域的分割；从三个区域的图像中提取每个区域图像中的面部表情特征；S4、对语音情感特征和面部表情特征进行PCA分析降维；将两种模态样本进行朴素贝叶斯的情感语音分类，并将条件概率进行决策级融合，得到最终情感识别结果。本发明采用决策级融合方法对语音情感特征和面部表情特征进行融合，能够为下一步进行相应条件概率的计算提供了更加准确的数据，使得本发明的方法能够更准确的得出受测对象的情感状态，从而提高情感识别的准确性和可靠性。

Description

基于语音和面部表情的双模态情感融合的识别方法及系统

技术领域

本发明属于情感识别领域，更具体地，涉及一种基于语音和面部表情的双模态情感融合和识别方法及系统。

背景技术

随着生活水平的提高和信息技术的高速发展人类对智能化生活的需求越来越高，人机交互能力也越来越得到重视，作为人机交互的重要部分的情感计算也就成为了研究热点。目前国内外在情感识别方面的研究主要分为两大类，一类是基于单一模态的情感识别，另一类是基于多模态的情感识别。两类情感识别的主要区别是多模态情感识别是通过对多通道采集到的信息进行分析，并通过一系列的技术手段最终较为准确的获得被测者的情感状态，而单一模态情感识别是通过对某一通道采集到的信息进行分析，并通过一系列的技术手段最终较为准确的获得被测者的情感状态。

现有的情感识别主要是基于单一模态的情感识别，在面部表情识别上多数研究仍停留在对基本面部表情的情感识别，对更加细微的表情的识别效果不好。对于语音情感识别方面的研究较为成熟，但是针对语音进行单一模态的情感识别时，如果语音通道受阻则对情感识别的结果影响很大。

叶亮等提出了一种用于混合语音情感识别的语音特征筛选方法，能够很好地提取一系列声学特征中的最佳特征集合，但是未考虑声学通道受阻的情况。赵小明等提出了基于压缩感知的鲁棒性语音情感识别方法，将特征参数的提取从韵律特征和音质特征两方面扩充到梅尔频率倒谱系数MFCC，提高了特征信号的抗干扰性，但是仍未解决声学通道无法获取信号时的情感识别。

韩志艳等提出了一种串并结合的多模式情感信息融合与识别方法，通过讲语音信号特征参数和面部表情特征参数顺序组合起来等处理方法融合语音和面部表情的特征信息，采用Adaboost算法训练获得分类器，最终采用投票法获得最终结果。而本专利创新的采用贝叶斯分类器和决策级融合方法，融合情感语音特征和面部表情特征，获得更好的效果。

发明内容

本发明所要解决的技术问题是提供一种基于语音和面部表情的双模态情感融合和识别方法及系统。

本发明解决上述技术问题的技术方案如下：

基于语音和面部表情的双模态情感融合的识别方法，包括以下步骤：

S1、获取待识别对象的音频数据和视频数据；

S2、对所述音频数据进行预处理得到情感语音信号；从所述视频数据中提取人脸表情图像，并进行眼睛、鼻子、嘴巴区域的分割，预处理后得到统一标准的三个区域的图像；

S3、从所述情感语音信号中提取语音情感特征；从所述三个区域的图像中提取每个区域图像中的面部表情特征；

S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维，获得最终语音情感特征和最终面部表情特征，并将最终语音情感特征作为语音模态样本，将最终面部表情特征作为面部模态样本；

S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类，得到语音模态样本在不同情感状态下的第一条件概率集合；将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类，得到面部表情模态样本在不同情感状态下的第二条件概率集合；

S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合，得到待识别对象的最终情感识别结果。

本发明的有益效果是：本发明基于语音和面部表情的双模态情感识别方法使用了标准数据库对分类器进行训练使得情感识别结果更加的准确高效。并且采用决策级融合方法对语音情感特征和面部表情特征进行融合，能够更好地得到融合后的情感特征为下一步进行相应条件概率的计算提供了更加准确的数据，使得本专利的方法能够更准确的得出受测对象的情感状态，从而提高情感识别的准确性和可靠性。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步的，所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为：

S2A.1、对音频数据进行固定频率的采样，将音频数据的幅值分为若干个有限区间，将属于同一区间的音频数据用区间所对应的幅值统一表示，最终将信号转化为时间和幅值离散的数字信号；

S2A.2、采用高通滤波器H(z)＝1-αz^-1对数字信号的高频部分的功率进行补偿，放大语音信号高频部分，得到补偿语音信号，其中H(z)为语音信号功率函数，z为频率，α为预加重系数且0.9≤α＜1；

S2A.3、对步骤S2A.2处理后的补偿语音信号进行分帧处理，将补偿语音信号划分为多帧语音段，并对分帧后的语音段进行加窗处理，得到情感语音信号。

采用上述进一步方案的有益效果为：对语音信号进行一定频率的采样保证了信号不失真的同时，包含最少的冗余信息。预加重增强了情感识别中所需要的信息。分帧和加窗确保了帧与帧之间的平稳过渡并且减少帧起始处与帧结束处信号的不连续问题。

进一步的，所述步骤S2从步骤S1抽取的视频数据中提取人脸表情图像，并进行眼睛、鼻子、嘴巴区域的分割，预处理后得到统一标准的三个区域图像的具体步骤为：

S2B.1、获取所述人脸表情图像中眼睛、鼻子、嘴巴的三个区域的四角坐标，将每个区域的坐标值经过坐标变换和取整数，获取相应裁剪区域的矩形信息，将眼睛、鼻子、嘴巴从所述人脸表情图像中分割出来，分别得到眼睛区域图像、鼻子区域图像和嘴巴区域图像；

S2B.2、将待识别对象的所有眼睛区域图像调节为同一尺寸，所有的鼻子区域图像调节为同一尺寸，所有的嘴巴区域图像调节为同一尺寸；

S2B.3、增加所有区域图像的亮度和对比度，得到高亮度图像；

S2B.4、通过调整高亮度图像的灰度值将图像像素均匀地分布在整个图像范围内得到统一标准的三个区域图像。

采用上述进一步方案的有益效果为：三个区域分割减少了图像中非关键部分对表情变化信息的干扰，也减少了数据量，提高了计算速度，由于分割后的灰度图像较为模糊，不易识别，灰度变换通过调整图像的灰度值，将其均匀地分布在整个范围的灰度区域，使一定灰度区间的像素个数大体相同，从而使图像的对比度得以增强，直方图均衡化使图像的对比度得以增强。

进一步的，所述步骤S3从情感语音信号中提取语音情感特征的具体包括以下步骤：

S3A.1、利用短时自相关函数法确定情感语音信号的周期，提取出基频特征的10个统计学特征参数，短时自相关函数R_ω(k)的定义为：其中，S(n)为情感语音信号的时间序列，S_ω(n)为第ω帧情感语音信号，每帧帧长为N，k为时间的延迟量,10个统计学特征参数包括：基频的最大值P_max、最小值P_min、变化范围P_d＝P_max-P_min、平均值P_m、标准差σ_p、平均绝对斜度M_s、上四分位数P_0.75、下四分位数P_0.25、内四分极值P_i＝P_0.75-P_0.25、中位数P_0.5；

S3A.2、根据LPC的线性预测运算求出预测系数{a_k,k＝1,2,…,p}，再根据预测系数通过FFT运算确定声道的功率谱响应曲线；最后用峰值检出法精准地计算出功率谱与中心频率，并计算出F₁、F₂、F₃共振峰以及与其相关的统计学参数，具体包括：F₁平均值、F₁标准差、F₂平均值、F₂标准差、F₃平均值、F₃标准差、F₁中位数、F₁中位数所占带宽、F₂中位数、F₂中位数所占带宽、F₃中位数、F₃中位数所占带宽，共12个共振峰特征参数；

S3A.3、对每一帧情感语音信号进行FFT变换得到语音信号的频谱；再对每一帧的数据求频谱幅值的平方得到能量谱，并采用Mel滤波器对每一帧的谱线进行带通滤波；最后对Mel滤波器组的输出求对数，并作逆傅里叶变换便可得到Mel倒谱系数；

S3A.4、综合步骤S3A.1中得到的10个统计学特征参数、步骤S3A.3中得到的12个共振峰特征参数和步骤S3A.4得到的Mel倒谱系数，最终得到语音情感特征。

采用上述进一步方案的有益效果为：通过采集10个基频特征参数，12个共振峰特征参数和14个Mel倒谱系数特征参数能够较为全面的代表语音的情感特征，从而为情感识别做好了数据保障。

进一步的，所述步骤S3从步骤S2处理得到的统一标准的三个区域图像中提取每个区域图像中的面部表情特征的具体步骤为：

S3B.1、通过2D-Gabor小波变换从统一标准的人脸图像中提取图像纹理特征，将眼睛、鼻子、嘴巴的区域图像的每个方向与尺度进行2D-Gabor小波变换处理获得眼睛、鼻子、嘴巴ROI图像每个方向与尺度的2D-Gabor幅值图谱；

S3B.2、将眼睛、鼻子、嘴巴图像每个方向与尺度的2D-Gabor幅值图谱进行均匀模式的LBP算子处理，并对其求取直方图，最后将各子块、各方向、各尺度的直方图级联为表示一幅人脸表情图像特征的直方图序列，将所述直方图序列作为多特征提取算法的面部表情特征。

采用上述进一步方案的有益效果为：融合了2D-Gabor小波变换和LBP算子地优良特性且使用了特征数据PCA分析。2D-Gabor小波变换可多方向、多尺度地提取原始图像在每个通道下的局部特征，具有优良的空间位置及方向选择性。且能够放大眼睛、鼻子、嘴巴的灰度变化等局部特征，增强人脸中关键部位的局部特性，可更容易区分出不同的人脸图像。此外，2D-Gabor小波变换特征提取方法可接受一定程度的人脸姿态变化、图像旋转和形变，对光照变化不敏感，且由于其计算的数据量较少具有实时性。使用的LBP算子在有效提取图像局部纹理特征的同时，计算过程也较为简单，减少了计算量，并且具有良好的旋转不变性和灰度不变性，不易受图像的位移、光照不均衡等因素的影响。

进一步的，所述步骤S4对步骤S3中提取的语音情感特征和面部表情特征进行PCA分析降维的具体步骤为：

S4.1、使用PCA对步骤S4提取的语音情感特征进行降维处理，获得用于表情分类的最终语音情感特征；

S4.2、将步骤S3B.2得到的面部表情特征经过PCA降维处理后，获得用于表情分类的最终面部表情特征。

采用上述进一步方案的有益效果为：PCA分析可以减少样本在某一属性的特征变量个数，并尽量确保新特征之间的相互独立性；在保证最大化包含数据内在信息的条件下，可对高维数据进行降维、提高计算速度、去除噪声。

进一步的，所述步骤S5中分别使用语音模态样本和面部表情模态样本进行朴素贝叶斯情感分类的具体步骤为：

S5.1、设分别有m个语音模态样本，设语音模态样本为x₁，则对x₁进行朴素贝叶斯情感分类后可得到x₁在每种情感类别下的第一条件概率集合{p_ij(x),i＝1,3,…,2m-1,j＝1,2,…,6}，其中，i＝1,3,…,2m-1代表不同的情感语音模态样本数据，j＝1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别；

S5.2、设分别有m个面部表情模态样本，设面部表情模态样本为x₂，则对x₂进行朴素贝叶斯情感分类后可得到第二条件概率集合{p_ij(x),i＝2,4,…,2m,j＝1,2,…,6}，其中，i＝2,4,…,2m代表不同的情感语音模态样本数据，j＝1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别。

采用上述进一步方案的有益效果为：通过将情感语音和面部表情的样本数据分别输入到对应的分类器进行分类得到该样本在不同情感类别下的条件概率，能够更加快速准确的为下一步情感识别提供良好的数据支持。

进一步的，所述步骤S6的将所述第一条件概率集合和所述第二条件概率集合进行决策级融合，得到待识别对象的最终情感识别结果具体步骤为：

S6.1、按照乘积规则对第一条件概率集合和第二条件概率集合进行融合，将不同模态的情感特征在同一情感类别下的条件概率相乘，得到的后验概率集合，{q'_j(x),j＝1,2,…,6}；

S6.2、将所述后验概率集合中最大的后验概率数值所对应的类别作为最终识别结果，若有多个数值相同的最大后验概率，则对数值相同的最大后验概率对应的样本重新进行步骤S5的分类并计算条件概率，直至得到最终识别结果。

采用上述进一步方案的有益效果为：

将条件概率通过乘积规则得到相应的后验概率，并选择最大的后验概率所对应的情感状态作为情感识别结果的方法能够更加准确地得到情感识别结果，有效地提高了情感识别率。

基于语音和面部表情的双模态情感融合的识别系统，包括以下模块：

数据提取模块，用于获取待识别对象的音频数据和视频数据；信号提取模块，用于对所述音频数据进行预处理得到情感语音信号；从所述视频数据中提取人脸表情图像，并进行眼睛、鼻子、嘴巴区域的分割，预处理后得到统一标准的三个区域的图像；

特征提取模块，用于从所述情感语音信号中提取语音情感特征；从所述三个区域的图像中提取每个区域图像中的面部表情特征；

PCA分析降维模块，用于对语音情感特征和面部表情特征进行PCA分析降维；

贝叶斯分类模块，用于将所述语音模态样本进行朴素贝叶斯的情感语音分类，得到语音模态样本在不同情感状态下的第一条件概率集合；将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类，得到面部表情模态样本在不同情感状态下的第二条件概率集合；

决策级融合模块，用于将第一条件概率集合和第二条件概率集合进行决策级融合，得到最终识别结果。

进一步的，所述的基于语音和面部表情的双模态情感融合的识别系统，其特征在于，所述PCA分析降维模块还包括语音情感特征降维单元和面部表情特征降维单元，

所述语音情感特征降维单元用于使用PCA对步骤S4提取的语音情感特征进行降维处理，获得用于表情分类的最终语音情感特征；

将所述面部表情特征经过PCA降维处理后，获得用于表情分类的最终面部表情特征。

附图说明

图1为本发明方法的总体示意图；

图2为本发明方法步骤S2A的流程示意图；

图3为本发明方法步骤S2B的流程示意图；

图4为本发明方法步骤S3的流程示意图；

图5为本发明系统示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本实施例以eNTERFACE'05音视频多模态情感数据库的数据作为素材，仿真平台是MATLAB R2015b。

如图1所示，基于语音和面部表情的双模态情感融合的识别方法，包括以下步骤：

S1、获取待识别对象的音频数据和视频数据；

如图2所示，所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为：

S2A.1、采样和量化，对音频数据进行固定频率的采样，将音频数据的幅值分为若干个有限区间，将属于同一区间的音频数据用区间所对应的幅值统一表示，最终将信号转化为时间和幅值离散的数字信号；

S2A.2、预加重，采用高通滤波器H(z)＝1-αz^-1对数字信号的高频部分的功率进行补偿，放大语音信号高频部分，得到补偿语音信号，其中H(z)为语音信号功率函数，z为频率，α为预加重系数且0.9≤α＜1；

S2A.3、分帧和加窗，对步骤S2A.2处理后的补偿语音信号进行分帧处理，将补偿语音信号划分为多帧语音段，并对分帧后的语音段进行加窗处理，得到情感语音信号。

如图3所示，所述步骤S2从步骤S1抽取的视频数据中提取人脸表情图像，并进行眼睛、鼻子、嘴巴区域的分割，预处理后得到统一标准的三个区域图像的具体步骤为：

S2B.1、ROI区域分割，获取所述人脸表情图像中眼睛、鼻子、嘴巴的三个区域的四角坐标，将每个区域的坐标值经过坐标变换和取整数，获取相应裁剪区域的矩形信息，将眼睛、鼻子、嘴巴从所述人脸表情图像中分割出来，分别得到眼睛区域图像、鼻子区域图像和嘴巴区域图像；

S2B.2、尺寸调整，将待识别对象的所有眼睛区域图像调节为10×30，所有的鼻子区域图像调节为16×24，所有的嘴巴区域图像调节为12×18；

S2B.3、灰度变换，增加所有区域图像的亮度和对比度，得到高亮度图像；

如图4所示，所述步骤S3从情感语音信号中提取语音情感特征的具体包括以下步骤：

S3A.1、提取基频特征，利用短时自相关函数法确定情感语音信号的周期，提取出基频特征的10个统计学特征参数，短时自相关函数R_ω(k)的定义为：其中，S(n)为情感语音信号的时间序列，S_ω(n)为第ω帧情感语音信号，每帧帧长为N，k为时间的延迟量,10个统计学特征参数包括：基频的最大值P_max、最小值P_min、变化范围P_d＝P_max-P_min、平均值P_m、标准差σ_p、平均绝对斜度M_s、上四分位数P_0.75、下四分位数P_0.25、内四分极值P_i＝P_0.75-P_0.25、中位数P_0.5；

S3A.2、计算共振峰特征，根据LPC的线性预测运算求出预测系数{a_k,k＝1,2,…,p}，再根据预测系数通过FFT运算确定声道的功率谱响应曲线；最后用峰值检出法精准地计算出功率谱与中心频率，并计算出F₁、F₂、F₃共振峰以及与其相关的统计学参数，具体包括：F₁平均值、F₁标准差、F₂平均值、F₂标准差、F₃平均值、F₃标准差、F₁中位数、F₁中位数所占带宽、F₂中位数、F₂中位数所占带宽、F₃中位数、F₃中位数所占带宽，共12个共振峰特征参数；

S3A.3、计算Mel倒谱系数，对每一帧情感语音信号进行FFT变换得到语音信号的频谱；再对每一帧的数据求频谱幅值的平方得到能量谱，并采用Mel滤波器对每一帧的谱线进行带通滤波；最后对Mel滤波器组的输出求对数，并作逆傅里叶变换便可得到Mel倒谱系数；

所述步骤S3从步骤S2处理得到的统一标准的三个区域图像中提取每个区域图像中的面部表情特征的具体步骤为：

所述步骤S4对步骤S3中提取的语音情感特征和面部表情特征进行PCA分析降维的具体步骤为：

所述步骤S5中分别使用语音模态样本和面部表情模态样本进行朴素贝叶斯情感分类的具体步骤为：

所述步骤S6的将所述第一条件概率集合和所述第二条件概率集合进行决策级融合，得到待识别对象的最终情感识别结果具体步骤为：

如图5所示，基于语音和面部表情的双模态情感融合的识别系统，包括以下模块：

所述PCA分析降维模块还包括语音情感特征降维单元和面部表情特征降维单元，

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于语音和面部表情的双模态情感融合的识别方法，其特征在于，包括以下步骤：

S1、获取待识别对象的音频数据和视频数据；

S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维，获得最终语音情感特征和最终面部表情特征，并将最终语音情感特征作为语音模态样本，将最终面部表情特征作为面部表情模态样本；

S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合，得到待识别对象的最终情感识别结果；

S5.1、设分别有m个语音模态样本，设语音模态样本为x₁，则对x₁进行朴素贝叶斯情感分类后可得到x₁在每种情感类别下的第一条件概率集合{p_ij(x),i＝1,3,…,2m-1，j＝1,2,…,6}，其中，i＝1,3,…,2m-1代表不同的情感语音模态样本数据，j＝1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别；

S5.2、设分别有m个面部表情模态样本，设面部表情模态样本为x₂，则对x₂进行朴素贝叶斯情感分类后可得到第二条件概率集合{p_ij(x),i＝2,4,…,2m,j＝1,2,…,6}，其中，i＝2,4,…,2m代表不同的情感语音模态样本数据，j＝1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别；

2.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法，其特征在于，所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为：

3.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法，其特征在于，所述步骤S2从步骤S1抽取的视频数据中提取人脸表情图像，并进行眼睛、鼻子、嘴巴区域的分割，预处理后得到统一标准的三个区域图像的具体步骤为：

4.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法，其特征在于，所述步骤S3从情感语音信号中提取语音情感特征的具体包括以下步骤：

S3A.1、利用短时自相关函数法确定情感语音信号的周期，提取出基频特征的10个统计学特征参数，短时自相关函数R_ω(k)的定义为：其中，S(n)为情感语音信号的时间序列，S_ω(n)为第ω帧情感语音信号，每帧帧长为N，k为时间的延迟量,10个统计学特征参数包括：基频的最大值P_max、基频的最小值P_min、变化范围P_d＝P_max-P_min、平均值P_m、标准差σ_p、平均绝对斜度M_s、上四分位数P_0.75、下四分位数P_0.25、内四分极值P_i＝P_0.75-P_0.25、中位数P_0.5；

5.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法，其特征在于，所述步骤S3从步骤S2处理得到的统一标准的三个区域图像中提取每个区域图像中的面部表情特征的具体步骤为：

S3B.1、通过2D-Gabor小波变换从统一标准的人脸图像中提取图像纹理特征，将眼睛、鼻子、嘴巴的区域图像的每个方向与尺度进行2D-Gabor小波变换处理，获得眼睛、鼻子、嘴巴ROI图像每个方向与尺度的2D-Gabor幅值图谱；

S3B.2、将眼睛、鼻子、嘴巴区域图像每个方向与尺度的2D-Gabor幅值图谱进行均匀模式的LBP算子处理，并对其求取直方图，最后将各子块、各方向、各尺度的直方图级联为表示一幅人脸表情图像特征的直方图序列，将所述直方图序列作为多特征提取算法的面部表情特征。

6.根据权利要求5所述的基于语音和面部表情的双模态情感融合的识别方法，其特征在于，所述步骤S4对步骤S3中提取的语音情感特征和面部表情特征进行PCA分析降维的具体步骤为：

7.基于语音和面部表情的双模态情感融合的识别系统，其特征在于，基于权利要求1至6任一项所述的基于语音和面部表情的双模态情感融合的识别方法，包括以下模块：

8.根据权利要求7所述的基于语音和面部表情的双模态情感融合的识别系统，其特征在于，所述PCA分析降维模块还包括语音情感特征降维单元和面部表情特征降维单元，