CN105976809B - 基于语音和面部表情的双模态情感融合的识别方法及系统 - Google Patents

基于语音和面部表情的双模态情感融合的识别方法及系统 Download PDF

Info

Publication number
CN105976809B
CN105976809B CN201610352750.4A CN201610352750A CN105976809B CN 105976809 B CN105976809 B CN 105976809B CN 201610352750 A CN201610352750 A CN 201610352750A CN 105976809 B CN105976809 B CN 105976809B
Authority
CN
China
Prior art keywords
emotion
facial expression
voice
image
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610352750.4A
Other languages
English (en)
Other versions
CN105976809A (zh
Inventor
刘振焘
吴敏
曹卫华
陈鑫
潘芳芳
徐建平
张日
丁学文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201610352750.4A priority Critical patent/CN105976809B/zh
Publication of CN105976809A publication Critical patent/CN105976809A/zh
Application granted granted Critical
Publication of CN105976809B publication Critical patent/CN105976809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本发明涉及一种基于语音和面部表情的双模态情感融合的识别方法,包括以下步骤:获取待识别对象的音频数据和视频数据;从视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割;从三个区域的图像中提取每个区域图像中的面部表情特征;S4、对语音情感特征和面部表情特征进行PCA分析降维;将两种模态样本进行朴素贝叶斯的情感语音分类,并将条件概率进行决策级融合,得到最终情感识别结果。本发明采用决策级融合方法对语音情感特征和面部表情特征进行融合,能够为下一步进行相应条件概率的计算提供了更加准确的数据,使得本发明的方法能够更准确的得出受测对象的情感状态,从而提高情感识别的准确性和可靠性。

Description

基于语音和面部表情的双模态情感融合的识别方法及系统
技术领域
本发明属于情感识别领域,更具体地,涉及一种基于语音和面部表情的双模态情感融合和识别方法及系统。
背景技术
随着生活水平的提高和信息技术的高速发展人类对智能化生活的需求越来越高,人机交互能力也越来越得到重视,作为人机交互的重要部分的情感计算也就成为了研究热点。目前国内外在情感识别方面的研究主要分为两大类,一类是基于单一模态的情感识别,另一类是基于多模态的情感识别。两类情感识别的主要区别是多模态情感识别是通过对多通道采集到的信息进行分析,并通过一系列的技术手段最终较为准确的获得被测者的情感状态,而单一模态情感识别是通过对某一通道采集到的信息进行分析,并通过一系列的技术手段最终较为准确的获得被测者的情感状态。
现有的情感识别主要是基于单一模态的情感识别,在面部表情识别上多数研究仍停留在对基本面部表情的情感识别,对更加细微的表情的识别效果不好。对于语音情感识别方面的研究较为成熟,但是针对语音进行单一模态的情感识别时,如果语音通道受阻则对情感识别的结果影响很大。
叶亮等提出了一种用于混合语音情感识别的语音特征筛选方法,能够很好地提取一系列声学特征中的最佳特征集合,但是未考虑声学通道受阻的情况。赵小明等提出了基于压缩感知的鲁棒性语音情感识别方法,将特征参数的提取从韵律特征和音质特征两方面扩充到梅尔频率倒谱系数MFCC,提高了特征信号的抗干扰性,但是仍未解决声学通道无法获取信号时的情感识别。
韩志艳等提出了一种串并结合的多模式情感信息融合与识别方法,通过讲语音信号特征参数和面部表情特征参数顺序组合起来等处理方法融合语音和面部表情的特征信息,采用Adaboost算法训练获得分类器,最终采用投票法获得最终结果。而本专利创新的采用贝叶斯分类器和决策级融合方法,融合情感语音特征和面部表情特征,获得更好的效果。
发明内容
本发明所要解决的技术问题是提供一种基于语音和面部表情的双模态情感融合和识别方法及系统。
本发明解决上述技术问题的技术方案如下:
基于语音和面部表情的双模态情感融合的识别方法,包括以下步骤:
S1、获取待识别对象的音频数据和视频数据;
S2、对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;
S3、从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每个区域图像中的面部表情特征;
S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维,获得最终语音情感特征和最终面部表情特征,并将最终语音情感特征作为语音模态样本,将最终面部表情特征作为面部模态样本;
S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;
S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别对象的最终情感识别结果。
本发明的有益效果是:本发明基于语音和面部表情的双模态情感识别方法使用了标准数据库对分类器进行训练使得情感识别结果更加的准确高效。并且采用决策级融合方法对语音情感特征和面部表情特征进行融合,能够更好地得到融合后的情感特征为下一步进行相应条件概率的计算提供了更加准确的数据,使得本专利的方法能够更准确的得出受测对象的情感状态,从而提高情感识别的准确性和可靠性。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步的,所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为:
S2A.1、对音频数据进行固定频率的采样,将音频数据的幅值分为若干个有限区间,将属于同一区间的音频数据用区间所对应的幅值统一表示,最终将信号转化为时间和幅值离散的数字信号;
S2A.2、采用高通滤波器H(z)=1-αz-1对数字信号的高频部分的功率进行补偿,放大语音信号高频部分,得到补偿语音信号,其中H(z)为语音信号功率函数,z为频率,α为预加重系数且0.9≤α<1;
S2A.3、对步骤S2A.2处理后的补偿语音信号进行分帧处理,将补偿语音信号划分为多帧语音段,并对分帧后的语音段进行加窗处理,得到情感语音信号。
采用上述进一步方案的有益效果为:对语音信号进行一定频率的采样保证了信号不失真的同时,包含最少的冗余信息。预加重增强了情感识别中所需要的信息。分帧和加窗确保了帧与帧之间的平稳过渡并且减少帧起始处与帧结束处信号的不连续问题。
进一步的,所述步骤S2从步骤S1抽取的视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域图像的具体步骤为:
S2B.1、获取所述人脸表情图像中眼睛、鼻子、嘴巴的三个区域的四角坐标,将每个区域的坐标值经过坐标变换和取整数,获取相应裁剪区域的矩形信息,将眼睛、鼻子、嘴巴从所述人脸表情图像中分割出来,分别得到眼睛区域图像、鼻子区域图像和嘴巴区域图像;
S2B.2、将待识别对象的所有眼睛区域图像调节为同一尺寸,所有的鼻子区域图像调节为同一尺寸,所有的嘴巴区域图像调节为同一尺寸;
S2B.3、增加所有区域图像的亮度和对比度,得到高亮度图像;
S2B.4、通过调整高亮度图像的灰度值将图像像素均匀地分布在整个图像范围内得到统一标准的三个区域图像。
采用上述进一步方案的有益效果为:三个区域分割减少了图像中非关键部分对表情变化信息的干扰,也减少了数据量,提高了计算速度,由于分割后的灰度图像较为模糊,不易识别,灰度变换通过调整图像的灰度值,将其均匀地分布在整个范围的灰度区域,使一定灰度区间的像素个数大体相同,从而使图像的对比度得以增强,直方图均衡化使图像的对比度得以增强。
进一步的,所述步骤S3从情感语音信号中提取语音情感特征的具体包括以下步骤:
S3A.1、利用短时自相关函数法确定情感语音信号的周期,提取出基频特征的10个统计学特征参数,短时自相关函数Rω(k)的定义为:其中,S(n)为情感语音信号的时间序列,Sω(n)为第ω帧情感语音信号,每帧帧长为N,k为时间的延迟量,10个统计学特征参数包括:基频的最大值Pmax、最小值Pmin、变化范围Pd=Pmax-Pmin、平均值Pm、标准差σp、平均绝对斜度Ms、上四分位数P0.75、下四分位数P0.25、内四分极值Pi=P0.75-P0.25、中位数P0.5
S3A.2、根据LPC的线性预测运算求出预测系数{ak,k=1,2,…,p},再根据预测系数通过FFT运算确定声道的功率谱响应曲线;最后用峰值检出法精准地计算出功率谱与中心频率,并计算出F1、F2、F3共振峰以及与其相关的统计学参数,具体包括:F1平均值、F1标准差、F2平均值、F2标准差、F3平均值、F3标准差、F1中位数、F1中位数所占带宽、F2中位数、F2中位数所占带宽、F3中位数、F3中位数所占带宽,共12个共振峰特征参数;
S3A.3、对每一帧情感语音信号进行FFT变换得到语音信号的频谱;再对每一帧的数据求频谱幅值的平方得到能量谱,并采用Mel滤波器对每一帧的谱线进行带通滤波;最后对Mel滤波器组的输出求对数,并作逆傅里叶变换便可得到Mel倒谱系数;
S3A.4、综合步骤S3A.1中得到的10个统计学特征参数、步骤S3A.3中得到的12个共振峰特征参数和步骤S3A.4得到的Mel倒谱系数,最终得到语音情感特征。
采用上述进一步方案的有益效果为:通过采集10个基频特征参数,12个共振峰特征参数和14个Mel倒谱系数特征参数能够较为全面的代表语音的情感特征,从而为情感识别做好了数据保障。
进一步的,所述步骤S3从步骤S2处理得到的统一标准的三个区域图像中提取每个区域图像中的面部表情特征的具体步骤为:
S3B.1、通过2D-Gabor小波变换从统一标准的人脸图像中提取图像纹理特征,将眼睛、鼻子、嘴巴的区域图像的每个方向与尺度进行2D-Gabor小波变换处理获得眼睛、鼻子、嘴巴ROI图像每个方向与尺度的2D-Gabor幅值图谱;
S3B.2、将眼睛、鼻子、嘴巴图像每个方向与尺度的2D-Gabor幅值图谱进行均匀模式的LBP算子处理,并对其求取直方图,最后将各子块、各方向、各尺度的直方图级联为表示一幅人脸表情图像特征的直方图序列,将所述直方图序列作为多特征提取算法的面部表情特征。
采用上述进一步方案的有益效果为:融合了2D-Gabor小波变换和LBP算子地优良特性且使用了特征数据PCA分析。2D-Gabor小波变换可多方向、多尺度地提取原始图像在每个通道下的局部特征,具有优良的空间位置及方向选择性。且能够放大眼睛、鼻子、嘴巴的灰度变化等局部特征,增强人脸中关键部位的局部特性,可更容易区分出不同的人脸图像。此外,2D-Gabor小波变换特征提取方法可接受一定程度的人脸姿态变化、图像旋转和形变,对光照变化不敏感,且由于其计算的数据量较少具有实时性。使用的LBP算子在有效提取图像局部纹理特征的同时,计算过程也较为简单,减少了计算量,并且具有良好的旋转不变性和灰度不变性,不易受图像的位移、光照不均衡等因素的影响。
进一步的,所述步骤S4对步骤S3中提取的语音情感特征和面部表情特征进行PCA分析降维的具体步骤为:
S4.1、使用PCA对步骤S4提取的语音情感特征进行降维处理,获得用于表情分类的最终语音情感特征;
S4.2、将步骤S3B.2得到的面部表情特征经过PCA降维处理后,获得用于表情分类的最终面部表情特征。
采用上述进一步方案的有益效果为:PCA分析可以减少样本在某一属性的特征变量个数,并尽量确保新特征之间的相互独立性;在保证最大化包含数据内在信息的条件下,可对高维数据进行降维、提高计算速度、去除噪声。
进一步的,所述步骤S5中分别使用语音模态样本和面部表情模态样本进行朴素贝叶斯情感分类的具体步骤为:
S5.1、设分别有m个语音模态样本,设语音模态样本为x1,则对x1进行朴素贝叶斯情感分类后可得到x1在每种情感类别下的第一条件概率集合{pij(x),i=1,3,…,2m-1,j=1,2,…,6},其中,i=1,3,…,2m-1代表不同的情感语音模态样本数据,j=1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别;
S5.2、设分别有m个面部表情模态样本,设面部表情模态样本为x2,则对x2进行朴素贝叶斯情感分类后可得到第二条件概率集合{pij(x),i=2,4,…,2m,j=1,2,…,6},其中,i=2,4,…,2m代表不同的情感语音模态样本数据,j=1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别。
采用上述进一步方案的有益效果为:通过将情感语音和面部表情的样本数据分别输入到对应的分类器进行分类得到该样本在不同情感类别下的条件概率,能够更加快速准确的为下一步情感识别提供良好的数据支持。
进一步的,所述步骤S6的将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别对象的最终情感识别结果具体步骤为:
S6.1、按照乘积规则对第一条件概率集合和第二条件概率集合进行融合,将不同模态的情感特征在同一情感类别下的条件概率相乘,得到的后验概率集合,{q'j(x),j=1,2,…,6};
S6.2、将所述后验概率集合中最大的后验概率数值所对应的类别作为最终识别结果,若有多个数值相同的最大后验概率,则对数值相同的最大后验概率对应的样本重新进行步骤S5的分类并计算条件概率,直至得到最终识别结果。
采用上述进一步方案的有益效果为:
将条件概率通过乘积规则得到相应的后验概率,并选择最大的后验概率所对应的情感状态作为情感识别结果的方法能够更加准确地得到情感识别结果,有效地提高了情感识别率。
基于语音和面部表情的双模态情感融合的识别系统,包括以下模块:
数据提取模块,用于获取待识别对象的音频数据和视频数据;信号提取模块,用于对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;
特征提取模块,用于从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每个区域图像中的面部表情特征;
PCA分析降维模块,用于对语音情感特征和面部表情特征进行PCA分析降维;
贝叶斯分类模块,用于将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;
决策级融合模块,用于将第一条件概率集合和第二条件概率集合进行决策级融合,得到最终识别结果。
进一步的,所述的基于语音和面部表情的双模态情感融合的识别系统,其特征在于,所述PCA分析降维模块还包括语音情感特征降维单元和面部表情特征降维单元,
所述语音情感特征降维单元用于使用PCA对步骤S4提取的语音情感特征进行降维处理,获得用于表情分类的最终语音情感特征;
将所述面部表情特征经过PCA降维处理后,获得用于表情分类的最终面部表情特征。
附图说明
图1为本发明方法的总体示意图;
图2为本发明方法步骤S2A的流程示意图;
图3为本发明方法步骤S2B的流程示意图;
图4为本发明方法步骤S3的流程示意图;
图5为本发明系统示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本实施例以eNTERFACE'05音视频多模态情感数据库的数据作为素材,仿真平台是MATLAB R2015b。
如图1所示,基于语音和面部表情的双模态情感融合的识别方法,包括以下步骤:
S1、获取待识别对象的音频数据和视频数据;
S2、对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;
S3、从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每个区域图像中的面部表情特征;
S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维,获得最终语音情感特征和最终面部表情特征,并将最终语音情感特征作为语音模态样本,将最终面部表情特征作为面部模态样本;
S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;
S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别对象的最终情感识别结果。
如图2所示,所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为:
S2A.1、采样和量化,对音频数据进行固定频率的采样,将音频数据的幅值分为若干个有限区间,将属于同一区间的音频数据用区间所对应的幅值统一表示,最终将信号转化为时间和幅值离散的数字信号;
S2A.2、预加重,采用高通滤波器H(z)=1-αz-1对数字信号的高频部分的功率进行补偿,放大语音信号高频部分,得到补偿语音信号,其中H(z)为语音信号功率函数,z为频率,α为预加重系数且0.9≤α<1;
S2A.3、分帧和加窗,对步骤S2A.2处理后的补偿语音信号进行分帧处理,将补偿语音信号划分为多帧语音段,并对分帧后的语音段进行加窗处理,得到情感语音信号。
如图3所示,所述步骤S2从步骤S1抽取的视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域图像的具体步骤为:
S2B.1、ROI区域分割,获取所述人脸表情图像中眼睛、鼻子、嘴巴的三个区域的四角坐标,将每个区域的坐标值经过坐标变换和取整数,获取相应裁剪区域的矩形信息,将眼睛、鼻子、嘴巴从所述人脸表情图像中分割出来,分别得到眼睛区域图像、鼻子区域图像和嘴巴区域图像;
S2B.2、尺寸调整,将待识别对象的所有眼睛区域图像调节为10×30,所有的鼻子区域图像调节为16×24,所有的嘴巴区域图像调节为12×18;
S2B.3、灰度变换,增加所有区域图像的亮度和对比度,得到高亮度图像;
S2B.4、通过调整高亮度图像的灰度值将图像像素均匀地分布在整个图像范围内得到统一标准的三个区域图像。
如图4所示,所述步骤S3从情感语音信号中提取语音情感特征的具体包括以下步骤:
S3A.1、提取基频特征,利用短时自相关函数法确定情感语音信号的周期,提取出基频特征的10个统计学特征参数,短时自相关函数Rω(k)的定义为:其中,S(n)为情感语音信号的时间序列,Sω(n)为第ω帧情感语音信号,每帧帧长为N,k为时间的延迟量,10个统计学特征参数包括:基频的最大值Pmax、最小值Pmin、变化范围Pd=Pmax-Pmin、平均值Pm、标准差σp、平均绝对斜度Ms、上四分位数P0.75、下四分位数P0.25、内四分极值Pi=P0.75-P0.25、中位数P0.5
S3A.2、计算共振峰特征,根据LPC的线性预测运算求出预测系数{ak,k=1,2,…,p},再根据预测系数通过FFT运算确定声道的功率谱响应曲线;最后用峰值检出法精准地计算出功率谱与中心频率,并计算出F1、F2、F3共振峰以及与其相关的统计学参数,具体包括:F1平均值、F1标准差、F2平均值、F2标准差、F3平均值、F3标准差、F1中位数、F1中位数所占带宽、F2中位数、F2中位数所占带宽、F3中位数、F3中位数所占带宽,共12个共振峰特征参数;
S3A.3、计算Mel倒谱系数,对每一帧情感语音信号进行FFT变换得到语音信号的频谱;再对每一帧的数据求频谱幅值的平方得到能量谱,并采用Mel滤波器对每一帧的谱线进行带通滤波;最后对Mel滤波器组的输出求对数,并作逆傅里叶变换便可得到Mel倒谱系数;
S3A.4、综合步骤S3A.1中得到的10个统计学特征参数、步骤S3A.3中得到的12个共振峰特征参数和步骤S3A.4得到的Mel倒谱系数,最终得到语音情感特征。
所述步骤S3从步骤S2处理得到的统一标准的三个区域图像中提取每个区域图像中的面部表情特征的具体步骤为:
S3B.1、通过2D-Gabor小波变换从统一标准的人脸图像中提取图像纹理特征,将眼睛、鼻子、嘴巴的区域图像的每个方向与尺度进行2D-Gabor小波变换处理获得眼睛、鼻子、嘴巴ROI图像每个方向与尺度的2D-Gabor幅值图谱;
S3B.2、将眼睛、鼻子、嘴巴图像每个方向与尺度的2D-Gabor幅值图谱进行均匀模式的LBP算子处理,并对其求取直方图,最后将各子块、各方向、各尺度的直方图级联为表示一幅人脸表情图像特征的直方图序列,将所述直方图序列作为多特征提取算法的面部表情特征。
所述步骤S4对步骤S3中提取的语音情感特征和面部表情特征进行PCA分析降维的具体步骤为:
S4.1、使用PCA对步骤S4提取的语音情感特征进行降维处理,获得用于表情分类的最终语音情感特征;
S4.2、将步骤S3B.2得到的面部表情特征经过PCA降维处理后,获得用于表情分类的最终面部表情特征。
所述步骤S5中分别使用语音模态样本和面部表情模态样本进行朴素贝叶斯情感分类的具体步骤为:
S5.1、设分别有m个语音模态样本,设语音模态样本为x1,则对x1进行朴素贝叶斯情感分类后可得到x1在每种情感类别下的第一条件概率集合{pij(x),i=1,3,…,2m-1,j=1,2,…,6},其中,i=1,3,…,2m-1代表不同的情感语音模态样本数据,j=1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别;
S5.2、设分别有m个面部表情模态样本,设面部表情模态样本为x2,则对x2进行朴素贝叶斯情感分类后可得到第二条件概率集合{pij(x),i=2,4,…,2m,j=1,2,…,6},其中,i=2,4,…,2m代表不同的情感语音模态样本数据,j=1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别。
所述步骤S6的将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别对象的最终情感识别结果具体步骤为:
S6.1、按照乘积规则对第一条件概率集合和第二条件概率集合进行融合,将不同模态的情感特征在同一情感类别下的条件概率相乘,得到的后验概率集合,{q'j(x),j=1,2,…,6};
S6.2、将所述后验概率集合中最大的后验概率数值所对应的类别作为最终识别结果,若有多个数值相同的最大后验概率,则对数值相同的最大后验概率对应的样本重新进行步骤S5的分类并计算条件概率,直至得到最终识别结果。
如图5所示,基于语音和面部表情的双模态情感融合的识别系统,包括以下模块:
数据提取模块,用于获取待识别对象的音频数据和视频数据;信号提取模块,用于对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;
特征提取模块,用于从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每个区域图像中的面部表情特征;
PCA分析降维模块,用于对语音情感特征和面部表情特征进行PCA分析降维;
贝叶斯分类模块,用于将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;
决策级融合模块,用于将第一条件概率集合和第二条件概率集合进行决策级融合,得到最终识别结果。
所述PCA分析降维模块还包括语音情感特征降维单元和面部表情特征降维单元,
所述语音情感特征降维单元用于使用PCA对步骤S4提取的语音情感特征进行降维处理,获得用于表情分类的最终语音情感特征;
将所述面部表情特征经过PCA降维处理后,获得用于表情分类的最终面部表情特征。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于语音和面部表情的双模态情感融合的识别方法,其特征在于,包括以下步骤:
S1、获取待识别对象的音频数据和视频数据;
S2、对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;
S3、从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每个区域图像中的面部表情特征;
S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维,获得最终语音情感特征和最终面部表情特征,并将最终语音情感特征作为语音模态样本,将最终面部表情特征作为面部表情模态样本;
S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;
S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别对象的最终情感识别结果;
所述步骤S5中分别使用语音模态样本和面部表情模态样本进行朴素贝叶斯情感分类的具体步骤为:
S5.1、设分别有m个语音模态样本,设语音模态样本为x1,则对x1进行朴素贝叶斯情感分类后可得到x1在每种情感类别下的第一条件概率集合{pij(x),i=1,3,…,2m-1,j=1,2,…,6},其中,i=1,3,…,2m-1代表不同的情感语音模态样本数据,j=1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别;
S5.2、设分别有m个面部表情模态样本,设面部表情模态样本为x2,则对x2进行朴素贝叶斯情感分类后可得到第二条件概率集合{pij(x),i=2,4,…,2m,j=1,2,…,6},其中,i=2,4,…,2m代表不同的情感语音模态样本数据,j=1,2,…,6分别代表高兴、生气、讨厌、害怕、悲伤和惊奇六种基本情感类别;
所述步骤S6的将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别对象的最终情感识别结果具体步骤为:
S6.1、按照乘积规则对第一条件概率集合和第二条件概率集合进行融合,将不同模态的情感特征在同一情感类别下的条件概率相乘,得到的后验概率集合,{q'j(x),j=1,2,…,6};
S6.2、将所述后验概率集合中最大的后验概率数值所对应的类别作为最终识别结果,若有多个数值相同的最大后验概率,则对数值相同的最大后验概率对应的样本重新进行步骤S5的分类并计算条件概率,直至得到最终识别结果。
2.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征在于,所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为:
S2A.1、对音频数据进行固定频率的采样,将音频数据的幅值分为若干个有限区间,将属于同一区间的音频数据用区间所对应的幅值统一表示,最终将信号转化为时间和幅值离散的数字信号;
S2A.2、采用高通滤波器H(z)=1-αz-1对数字信号的高频部分的功率进行补偿,放大语音信号高频部分,得到补偿语音信号,其中H(z)为语音信号功率函数,z为频率,α为预加重系数且0.9≤α<1;
S2A.3、对步骤S2A.2处理后的补偿语音信号进行分帧处理,将补偿语音信号划分为多帧语音段,并对分帧后的语音段进行加窗处理,得到情感语音信号。
3.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征在于,所述步骤S2从步骤S1抽取的视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域图像的具体步骤为:
S2B.1、获取所述人脸表情图像中眼睛、鼻子、嘴巴的三个区域的四角坐标,将每个区域的坐标值经过坐标变换和取整数,获取相应裁剪区域的矩形信息,将眼睛、鼻子、嘴巴从所述人脸表情图像中分割出来,分别得到眼睛区域图像、鼻子区域图像和嘴巴区域图像;
S2B.2、将待识别对象的所有眼睛区域图像调节为同一尺寸,所有的鼻子区域图像调节为同一尺寸,所有的嘴巴区域图像调节为同一尺寸;
S2B.3、增加所有区域图像的亮度和对比度,得到高亮度图像;
S2B.4、通过调整高亮度图像的灰度值将图像像素均匀地分布在整个图像范围内得到统一标准的三个区域图像。
4.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征在于,所述步骤S3从情感语音信号中提取语音情感特征的具体包括以下步骤:
S3A.1、利用短时自相关函数法确定情感语音信号的周期,提取出基频特征的10个统计学特征参数,短时自相关函数Rω(k)的定义为:其中,S(n)为情感语音信号的时间序列,Sω(n)为第ω帧情感语音信号,每帧帧长为N,k为时间的延迟量,10个统计学特征参数包括:基频的最大值Pmax、基频的最小值Pmin、变化范围Pd=Pmax-Pmin、平均值Pm、标准差σp、平均绝对斜度Ms、上四分位数P0.75、下四分位数P0.25、内四分极值Pi=P0.75-P0.25、中位数P0.5
S3A.2、根据LPC的线性预测运算求出预测系数{ak,k=1,2,…,p},再根据预测系数通过FFT运算确定声道的功率谱响应曲线;最后用峰值检出法精准地计算出功率谱与中心频率,并计算出F1、F2、F3共振峰以及与其相关的统计学参数,具体包括:F1平均值、F1标准差、F2平均值、F2标准差、F3平均值、F3标准差、F1中位数、F1中位数所占带宽、F2中位数、F2中位数所占带宽、F3中位数、F3中位数所占带宽,共12个共振峰特征参数;
S3A.3、对每一帧情感语音信号进行FFT变换得到语音信号的频谱;再对每一帧的数据求频谱幅值的平方得到能量谱,并采用Mel滤波器对每一帧的谱线进行带通滤波;最后对Mel滤波器组的输出求对数,并作逆傅里叶变换便可得到Mel倒谱系数;
S3A.4、综合步骤S3A.1中得到的10个统计学特征参数、步骤S3A.3中得到的12个共振峰特征参数和步骤S3A.4得到的Mel倒谱系数,最终得到语音情感特征。
5.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征在于,所述步骤S3从步骤S2处理得到的统一标准的三个区域图像中提取每个区域图像中的面部表情特征的具体步骤为:
S3B.1、通过2D-Gabor小波变换从统一标准的人脸图像中提取图像纹理特征,将眼睛、鼻子、嘴巴的区域图像的每个方向与尺度进行2D-Gabor小波变换处理,获得眼睛、鼻子、嘴巴ROI图像每个方向与尺度的2D-Gabor幅值图谱;
S3B.2、将眼睛、鼻子、嘴巴区域图像每个方向与尺度的2D-Gabor幅值图谱进行均匀模式的LBP算子处理,并对其求取直方图,最后将各子块、各方向、各尺度的直方图级联为表示一幅人脸表情图像特征的直方图序列,将所述直方图序列作为多特征提取算法的面部表情特征。
6.根据权利要求5所述的基于语音和面部表情的双模态情感融合的识别方法,其特征在于,所述步骤S4对步骤S3中提取的语音情感特征和面部表情特征进行PCA分析降维的具体步骤为:
S4.1、使用PCA对步骤S4提取的语音情感特征进行降维处理,获得用于表情分类的最终语音情感特征;
S4.2、将步骤S3B.2得到的面部表情特征经过PCA降维处理后,获得用于表情分类的最终面部表情特征。
7.基于语音和面部表情的双模态情感融合的识别系统,其特征在于,基于权利要求1至6任一项所述的基于语音和面部表情的双模态情感融合的识别方法,包括以下模块:
数据提取模块,用于获取待识别对象的音频数据和视频数据;信号提取模块,用于对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;
特征提取模块,用于从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每个区域图像中的面部表情特征;
PCA分析降维模块,用于对语音情感特征和面部表情特征进行PCA分析降维;
贝叶斯分类模块,用于将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;
决策级融合模块,用于将第一条件概率集合和第二条件概率集合进行决策级融合,得到最终识别结果。
8.根据权利要求7所述的基于语音和面部表情的双模态情感融合的识别系统,其特征在于,所述PCA分析降维模块还包括语音情感特征降维单元和面部表情特征降维单元,
所述语音情感特征降维单元用于使用PCA对步骤S4提取的语音情感特征进行降维处理,获得用于表情分类的最终语音情感特征;
将所述面部表情特征经过PCA降维处理后,获得用于表情分类的最终面部表情特征。
CN201610352750.4A 2016-05-25 2016-05-25 基于语音和面部表情的双模态情感融合的识别方法及系统 Active CN105976809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610352750.4A CN105976809B (zh) 2016-05-25 2016-05-25 基于语音和面部表情的双模态情感融合的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610352750.4A CN105976809B (zh) 2016-05-25 2016-05-25 基于语音和面部表情的双模态情感融合的识别方法及系统

Publications (2)

Publication Number Publication Date
CN105976809A CN105976809A (zh) 2016-09-28
CN105976809B true CN105976809B (zh) 2019-12-17

Family

ID=56956292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610352750.4A Active CN105976809B (zh) 2016-05-25 2016-05-25 基于语音和面部表情的双模态情感融合的识别方法及系统

Country Status (1)

Country Link
CN (1) CN105976809B (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503646B (zh) * 2016-10-19 2020-07-10 竹间智能科技(上海)有限公司 多模态情感辨识系统及方法
CN106803098A (zh) * 2016-12-28 2017-06-06 南京邮电大学 一种基于语音、表情与姿态的三模态情感识别方法
CN106845391B (zh) * 2017-01-18 2020-02-18 中国地质大学(武汉) 一种家居环境下的氛围场识别方法及识别系统
CN107066956B (zh) * 2017-03-24 2020-06-19 北京科技大学 一种基于体域网的多源情感识别机器人
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN106991172B (zh) * 2017-04-05 2020-04-28 安徽建筑大学 一种多模态情感交互数据库的建立方法
CN106992000B (zh) * 2017-04-07 2021-02-09 安徽建筑大学 一种基于预测的多特征融合的老人语音情感识别方法
CN107220591A (zh) * 2017-04-28 2017-09-29 哈尔滨工业大学深圳研究生院 多模态智能情绪感知系统
CN107170445B (zh) * 2017-05-10 2020-03-31 重庆大学 基于语音混合信息特征协同优选判别的帕金森症检测装置
CN107256392A (zh) * 2017-06-05 2017-10-17 南京邮电大学 一种联合图像、语音的全面情绪识别方法
CN107423683A (zh) * 2017-06-11 2017-12-01 广州市迪士普音响科技有限公司 基于语音识别和人脸识别的报警求助处理方法和装置
CN107577991B (zh) * 2017-08-10 2020-07-10 深圳市心上信息技术有限公司 随访数据处理方法、装置、存储介质和计算机设备
CN107657964B (zh) * 2017-08-15 2021-01-05 西北大学 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
CN107609572B (zh) * 2017-08-15 2021-04-02 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN107564541B (zh) * 2017-09-04 2018-11-02 南方医科大学南方医院 一种便携式婴儿啼哭声识别器及其识别方法
CN108039181B (zh) * 2017-11-02 2021-02-12 北京捷通华声科技股份有限公司 一种声音信号的情感信息分析方法和装置
CN108091323B (zh) * 2017-12-19 2020-10-13 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
CN108577866A (zh) * 2018-04-03 2018-09-28 中国地质大学(武汉) 一种多维情感识别与缓解的系统及方法
CN108814567A (zh) * 2018-04-16 2018-11-16 东南大学 一种居家养老智能守护机器人系统
CN108985152A (zh) * 2018-06-04 2018-12-11 珠海格力电器股份有限公司 一种动态面部表情的识别方法及装置
CN109145837A (zh) * 2018-08-28 2019-01-04 厦门理工学院 人脸情感识别方法、装置、终端设备和存储介质
CN109272986A (zh) * 2018-08-29 2019-01-25 昆明理工大学 一种基于人工神经网络的狗声音情感分类方法
CN109409296B (zh) * 2018-10-30 2020-12-01 河北工业大学 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN111145785A (zh) * 2018-11-02 2020-05-12 广州灵派科技有限公司 一种基于语音的情绪识别方法及装置
CN109814718A (zh) * 2019-01-30 2019-05-28 天津大学 一种基于Kinect V2的多模态信息采集系统
CN110111783A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于深度神经网络的多模态语音识别方法
CN110110653A (zh) * 2019-04-30 2019-08-09 上海迥灵信息技术有限公司 多特征融合的情绪识别方法、装置和存储介质
CN110084220A (zh) * 2019-05-08 2019-08-02 重庆邮电大学 一种基于多尺度二进制模式的车载疲劳检测方法
CN110516696B (zh) * 2019-07-12 2023-07-25 东南大学 一种基于语音和表情的自适应权重双模态融合情感识别方法
CN110363148A (zh) * 2019-07-16 2019-10-22 中用科技有限公司 一种人脸声纹特征融合验证的方法
CN110414465B (zh) * 2019-08-05 2023-11-10 北京深醒科技有限公司 一种视频通讯的情感分析方法
CN110717410A (zh) * 2019-09-23 2020-01-21 湖南检信智能科技有限公司 语音情感和面部表情双模态识别系统
CN110826466B (zh) * 2019-10-31 2023-10-03 陕西励爱互联网科技有限公司 基于lstm音像融合的情感识别方法、装置及存储介质
CN110826637A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 情绪识别方法、系统及计算机可读存储介质
CN111292765B (zh) * 2019-11-21 2023-07-28 台州学院 一种融合多个深度学习模型的双模态情感识别方法
CN110969106B (zh) * 2019-11-25 2023-04-18 东南大学 一种基于表情、语音和眼动特征的多模态测谎方法
CN110717067B (zh) * 2019-12-16 2020-05-05 北京海天瑞声科技股份有限公司 视频中音频聚类的处理方法和装置
CN111163366B (zh) * 2019-12-30 2022-01-18 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端
CN111210818B (zh) * 2019-12-31 2021-10-01 北京三快在线科技有限公司 匹配情感极性的词语采集方法、装置、电子设备
CN111274955A (zh) * 2020-01-20 2020-06-12 中国地质大学(武汉) 一种基于视听特征相关性融合的情感识别方法及系统
CN111582280B (zh) * 2020-05-11 2023-10-17 吉林省森祥科技有限公司 一种面向多光谱救援机器人的数据深层融合图像分割方法
CN111723783B (zh) * 2020-07-29 2023-12-08 腾讯科技(深圳)有限公司 一种内容识别方法和相关装置
CN112101462B (zh) * 2020-09-16 2022-04-19 北京邮电大学 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法
CN112307975A (zh) * 2020-10-30 2021-02-02 江西理工大学 融合语音与微表情的多模态情感识别方法及系统
CN113033450B (zh) * 2021-04-02 2022-06-24 山东大学 多模态连续情感识别方法、服务推理方法及系统
CN113450829A (zh) * 2021-06-01 2021-09-28 浙江工贸职业技术学院 一种演唱评分系统
CN113408649A (zh) * 2021-07-09 2021-09-17 南京工业大学 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型
CN113749656B (zh) * 2021-08-20 2023-12-26 杭州回车电子科技有限公司 基于多维生理信号的情感识别方法和装置
CN115410061B (zh) * 2022-07-14 2024-02-09 东北林业大学 一种基于自然语言处理的图文情感分析系统
CN116233567B (zh) * 2023-05-05 2023-07-25 山东建筑大学 一种基于音频情感感知的说话人脸视频生成方法及系统

Also Published As

Publication number Publication date
CN105976809A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
Zhou et al. Modality attention for end-to-end audio-visual speech recognition
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN109256150B (zh) 基于机器学习的语音情感识别系统及方法
CN113158727A (zh) 一种基于视频和语音信息的双模态融合情绪识别方法
Scanlon et al. Feature analysis for automatic speechreading
WO2022198923A1 (zh) 一种融合人群信息的语音情感识别方法和系统
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN111326178A (zh) 基于卷积神经网络的多模态语音情感识别系统及方法
EP4344199A1 (en) Speech and image synchronization measurement method and apparatus, and model training method and apparatus
Jachimski et al. A comparative study of English viseme recognition methods and algorithms
CN111326139A (zh) 一种语种识别方法、装置、设备及存储介质
CN111091840A (zh) 一种建立性别识别模型的方法及性别识别方法
CN112927723A (zh) 基于深度神经网络的高性能抗噪语音情感识别方法
KR101208678B1 (ko) 다중 생체정보를 이용하는 점진적 개인인증 시스템 및 방법
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN114881668A (zh) 一种基于多模态的欺骗检测方法
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
Chit et al. Myanmar continuous speech recognition system using convolutional neural network
Haq et al. Using lip reading recognition to predict daily Mandarin conversation
CN117079673B (zh) 一种基于多模态人工智能的智能情绪识别方法
Varshney et al. Hindi viseme recognition using subspace DCT features
Nandini et al. Deep Weighted Feature Descriptors for Lip Reading of Kannada Language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant