CN102930297A - 基于增强耦合hmm的语音-视觉融合的情感识别方法 - Google Patents
基于增强耦合hmm的语音-视觉融合的情感识别方法 Download PDFInfo
- Publication number
- CN102930297A CN102930297A CN2012104359461A CN201210435946A CN102930297A CN 102930297 A CN102930297 A CN 102930297A CN 2012104359461 A CN2012104359461 A CN 2012104359461A CN 201210435946 A CN201210435946 A CN 201210435946A CN 102930297 A CN102930297 A CN 102930297A
- Authority
- CN
- China
- Prior art keywords
- hmm
- expression
- components
- continuous type
- coupling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提出的一种基于增强耦合HMM的语音-视觉融合的情感识别方法,属于自动情感识别领域。本发明方法融合了脸部表情和语音两种特征流,使用改进的EM算法训练连续型二分量耦合HMM,训练时考虑并不断更新各样本的权重,使得训练过程偏重于难于识别的样本。本发明方法与已有识别方法相比明显提高了分类的准确度。
Description
技术领域
本发明涉及一种多通道信息融合的情感识别方法,特别涉及一种增强耦合HMM(Hidden Markov Model,隐马尔科夫模型)的语音-视觉融合的情感识别方法,属于自动情感识别领域。
背景技术
各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使用离散类别方法表示(如Ekman提出的6种基本情感类别),或者使用连续维度方法表示(如activation-evaluation空间方法),或者使用基于评价的方法表示。脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情感状态。研究人员已经针对单模态情感识别与分析做了很多工作。
融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用的数据融合方法大都可以归为以下三类:特征层融合、模型层融合和决策层融合。模型层融合使用了多个数据流之间的关联信息,可能是该融合问题的最佳选择。Zeng等人在文献《Audio–Visual Affective Expression Recognition ThroughMultistream Fused HMM》(IEEE TRANSACTIONS ON MULTIMEDIA,vol.10,no.4,June 2008)中提出了一种多流融合HMM(MFHMM)方法,根据最大熵和最大相互信息准则,建立多个语音-视觉流间的优化连接。MFHMM通过将一个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量HMM。他们接着在文献《Training Combination Strategy of Multi-Stream FusedHidden Markov Model for Audio-Visual Affect Recognition》(Proc.14th ACM Int’lConf.Multimedia(Multimedia’06),pp.65-68,2006.)中扩展了该框架,采用训练组合策略,使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis等人在文献《Audiovisual Discrimination between Laughter and Speech》(IEEEInt’l Conf.Acoustics,Speech,and Signal Processing(ICASSP),pp.5117-5120,2008.)中使用神经网络来合并语音-视觉通道的信息。这些方法的缺点是:这些方法在使用某个模态的特征流训练分类器时,没有对用其它模态的特征难于识别的样本进行重点训练,在使用同一模态的样本进行训练时,也未对同一模态的样本中难于识别的样本进行重点训练,从而造成识别率不高。
本发明中涉及到的重要已有技术有:耦合HMM;AdaBoost方法。
(1)耦合HMM:
HMM是一种有效的描述存在于离散时间段上的具有关联关系的数据序列的统计学方法。
HMM的理论基础是在1970年前后由Baum等人建立起来的,随后有CMU的Baker和IBM的Jelinek等人将其应用到语音识别之中,由于Bell实验室Rabiner等人在80年代中期对HMM的深入浅出的介绍,才逐渐使隐马尔科夫模型为世界各国从事语音处理的研究员所了解和熟悉,进而成为公认的一个研究热点。
HMM是在Markov链(一种有限状态机)的基础上发展起来的。首先介绍两个概念:状态集合和观察序列。状态集合指隐马尔科夫模型所具有的全部状态{S1,...,Si,...,SN},其中N为状态数;观察序列是一个具有上下文关联性的数据序列,用v1,...,vt′,...,vT表示,v1,...,vt′,...,vT为一个观测序列,其中vt′=cb,表示该序列中时刻t′的元素的取值为cb,1≤b≤B,B表示每个状态可输出的元素(值)的总数。
由于实际问题比Markov链模型所描述的更为复杂,观察到的观察序列中的元素并不是与Markov链中的状态一一对应,而是通过一组概率分布相联系。这样,站在观察者的角度,只能看到观察值,不像Markov链模型中的观察值和状态一一对应。因此,不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性,这就是所谓的“隐”Markov模型,即Hidden Markov Model(HMM)。
隐马尔科夫模型的三个基本问题是:评估问题、解码问题及学习问题。其中,学习问题是使模型参数最优化,及调整模型参数,以使模型能最好的描述一个给定观测序列,最好的说明这个观测序列就是最优化模型产生出来的,用来解决分类问题。
耦合HMM整合了2个以上分量HMM。它允许分量HMM的隐节点之间进行交互,同时各个分量HMM的隐节点具有独立的观察变量。在某一时刻,某个分量HMM的隐节点状态依赖于所有相关的分量HMM在前一时刻的隐节点状态。耦合HMM适合于需要对不同模态的异步性进行建模,并捕获它们在时间域中关联的许多任务。常用的二分量耦合HMM结构如图1所示,圆圈代表可见节点,或称为观察节点,方块代表隐节点;相邻采样时间点上的隐节点互联。图1显示的耦合HMM中的两条分量HMM的采样率一样,即在同一采样时间点上,每条分量HMM均有1个可见节点和1个隐节点相对应。
(2)AdaBoost方法:
AdaBoost(adaptive boosting,自适应增强)方法是“Boosting”方法中的一种。该方法允许设计者不断的加入新的“弱分类器”,直到达到某个预定的足够小的误差率。在AdaBoost方法中,每一个训练样本都被赋予一个权重,表明它被某个分量分类器选入训练集的概率;相反,如果某个样本点没有被正确分类,那么它的权重就得到提高。通过这样的方式,AdaBoost方法能够“聚焦于”那些较困难识别的样本上。
发明内容
本发明的目的是为了解决已有技术存在的识别率不高的问题,提出一种增强耦合HMM的语音-视觉融合的情感识别方法。
本发明的目的是通过下述技术方案实现的。
一种增强耦合HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶等;所述情感视频是指包含人脸表情和语音的视频数据,并且每段情感视频都开始于中性表情。所述增强耦合HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程。
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理。
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20;该训练样本集中的第r个训练样本用xr表示,1≤r≤R。分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和音频观察向量序列。一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这2种特征数据流用符号Xv表示,v∈{a,f},a表示音频,f表示表情;表示v特征数据流的第r个观察向量序列。
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb≥5赫兹(Hz),p=vb×ta,ta为情感视频的时间长度。
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α≥4。
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCC);线谱对参数(Line Spectrum Pair,LSP);Mel频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC);感知线性预测倒谱系数(Perceptual Linear PredictionCepstral Coefficients,PLPCC)。
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧。
步骤c.3:用对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F1′表示,用对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,以此类推,用对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p。一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′tα]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α。
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′p]∈Rα×p。
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va≥5赫兹(Hz),m=va×ta,va=vb/η,η=1,2,3。由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像。
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ≥5。
所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值。
步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,θ=10,其具体步骤为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至T10的影响,第2.3步中所述计算脸部表情特征值T8至T10的优选方法是:在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部表情图像序列中找出包含待处理图像中人脸的所有表情图像序列;所述待处理图像为当前等待做归一化处理的图像。
第3.3步:用对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,用对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,以此类推,用对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
第4步:获得每个表情图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m。一个表情图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,fqθ]T,fq1为该表情图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该表情图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,fqθ为该表情图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ。
第5步:对于一个情感视频,其表情图像序列中各帧图像的表情观察向量V1至Vm组成该情感视频的原始表情观察向量序列,用矩阵M″来表示,M″=[V1,V2,……,Vm]∈Rθ×m;
第6步:在每个情感视频的原始表情观察向量序列M″中的表情观察向量V′q和V′q+1之间通过线性插值法插入(η-1)个表情观察向量,并在表情观察向量Vm后,增加(η-1)个Vm,得到该情感视频的表情观察向量序列,用M表示,M=[V1,V2,……,Vp]∈Rθ×p,1≤q′<m。
步骤二、建立增强耦合HMM分类器。
在步骤一操作的基础上,建立增强耦合HMM分类器。所述增强耦合HMM分类器由从左向右的K′个连续型二分量耦合HMM组合而成,1≤K′≤K,K的值由人为预先设定,4≤K≤10;连续型二分量耦合HMM的两条分量HMM分别称为音频通道分量HMM和表情通道分量HMM;同一采样时间点上,每条分量HMM均有1个可见节点和1个隐节点相对应;在某一时刻,某个分量HMM的隐节点状态依赖于所有相关的分量HMM在前一时刻的隐节点状态。。
用Nv表示连续型二分量耦合HMM的v通道的分量HMM的隐状态个数,v∈{a,f};用表示连续型二分量耦合HMM的v通道分量HMM的隐状态集合;用N表示连续型二分量耦合HMM的隐状态个数,N=Na×Nf;用S表示连续型二分量耦合HMM的隐状态集合,则
所述连续型二分量耦合HMM的参数由公式(1)至公式(3)表示。
其中,a(i|j)表示连续型二分量耦合HMM从(t1-1)时刻的隐状态j到t1时刻隐状态i的转移概率,i,j∈S,2≤t1≤p;av(iv|j)表示从(t1-1)时刻连续型二分量耦合HMM的隐状态j到t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态iv的转移概率;表示t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态取值;表示连续型二分量耦合HMM在(t1-1)时刻的隐状态取值。
其中,bt(i)是连续型二分量耦合HMM中隐状态i的观察概率密度函数,其形式是混合高斯密度函数;是连续型二分量耦合HMM的v通道分量HMM中隐状态iv的观察概率密度函数,其形式是混合高斯密度函数;λv是连续型二分量耦合HMM的v通道分量HMM对应的指数,λv∈[0.5,1];表示连续型二分量耦合HMM的v通道分量HMM在t时刻的观察向量,1≤t≤p;表示连续型二分量耦合HMM的v通道分量HMM在t时刻的隐状态取值;表示在连续型二分量耦合HMM的v通道分量HMM中,隐状态iv的混合高斯密度函数的混合数;分别表示在连续型二分量耦合HMM的v通道分量HMM中,隐状态iv的第m个高斯密度函数的混合权重、均值向量和对角协方差矩阵,
步骤三、初始化增强耦合HMM分类器。
在步骤二操作的基础上,同时初始化C个增强耦合HMM分类器,C表示情感类别的数量;即:对应每一种情感,初始化一个增强耦合HMM分类器。用φc表示第c种情感对应的增强耦合HMM分类器,1≤c≤C。
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行初始化的过程为:
步骤3.1:第c种情感的训练样本集经过步骤一的操作后,得到音频特征数据流Xa和表情特征数据流Xf;将特征数据流Xv中的观察向量序列表示为 表示第r个训练样本xr在连续型二分量耦合HMM的v通道分量HMM中的t时刻的观察向量,1≤t≤p;然后根据特征数据流Xv对应的v通道分量HMM的隐状态数Nv,依次将特征数据流Xv中的每个观察向量序列平均分为Nv段,1≤r≤R;对每个观察向量序列中的第i′段对应的隐节点状态赋初值为i′,1≤i′≤Nv,从而可得每个观察向量序列的初始隐节点状态序列,用表示。
步骤3.2:使用K-means聚类算法,依次对每个观察向量序列中每个隐状态i′所对应的观察向量聚类为个类别,分别用表示;用表示观察向量序列在t时刻的隐状态对应的混合高斯密度函数的混合分量;根据观察向量序列中隐状态i′所对应的观察向量的聚类结果,得到观察向量序列的混合分量序列 1≤t≤p。
其中,表示第r个训练样本xr在连续型二分量耦合HMM的v通道分量HMM中的t时刻的隐状态取值。
其中,
步骤3.5.3:通过公式(12)计算训练样本xr在当前二分量耦合HMM模型下的概率,用符号P表示;通过公式(13)计算训练样本xr在当前二分量耦合HMM模型下的概率P对应的p时刻的隐节点状态,用符号qp表示。
其中,
通过步骤3.5.1至步骤3.5.4的操作,得到各训练样本xr在当前二分量耦合HMM模型下的优化隐节点状态序列(q1,q2,...,qp);即得到各观察向量序列在当前二分量耦合HMM的v通道分量HMM的优化隐节点状态序列
其中, 表示使得 最大时,m的取值。
步骤3.7:判断各训练样本xr在当前二分量耦合HMM模型下的概率P是否均收敛;如果不均收敛,利用公式(4)至公式(9)重估连续型二分量耦合HMM的参数,然后回到步骤3.5;如果均收敛,则将重估得到的参数 和av(iv|j)作为增强耦合HMM分类器φc中各连续型二分量耦合HMM的模型初始参数。
经过步骤3.1至步骤3.7的操作,即完成对增强耦合HMM分类器φc的初始化操作。
步骤四、训练增强耦合HMM分类器。
在步骤三对增强耦合HMM分类器初始化的基础上,同时训练C个增强耦合HMM分类器φc,1≤c≤C。
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行训练的过程为:
步骤4.1:用Kc表示增强耦合HMM分类器φc中包含的连续型二分量耦合HMM的个数,并设定Kc的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4.2至步骤4.8的操作。
步骤4.2:用表示增强耦合HMM分类器φc中的第k个连续型二分量耦合HMM。用wk(r)表示输入到连续型二分量耦合HMM的特征数据流Xv中的第r个观察向量序列的权重,1≤r≤R;当k=1时,wk(r)=1/R。将带有权重wk(r)的音频特征数据流Xa输入到连续型二分量耦合HMM的音频通道分量HMM;将带有权重wk(r)的表情特征数据流Xf输入到连续型二分量耦合HMM的表情通道分量HMM。
其中,αr,1(i)=π(i)b1(i);2≤t1≤p。
其中,βr,p(i)=1;1≤t2≤p-1。
Pr=αr,p(qp)=βr,1(q1) (18)
步骤4.3.5:使用公式(19)至公式(23),利用各训练样本在步骤4.3.2中得到的前向概率 步骤4.3.3中得到的后向概率和步骤4.3.4得到的观察序列的概率Pr重估连续型二分量耦合HMM的模型参数和av(iv|j)。
步骤4.3.6:判断连续型二分量耦合HMM的模型参数和av(iv|j)是否均收敛;如非均收敛,则将步骤4.3.5得到的和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i),然后返回到步骤4.3.2;否则,则将步骤4.3.5得到的和av(iv|j)作为连续型二分量耦合HMM的最优模型参数。
步骤4.4:使用步骤4.2中所述输入到连续型二分量耦合HMM的特征数据流Xv验证步骤4.3得到的连续型二分量耦合HMM具体验证方法为:用表示训练样本xr是否被连续型二分量耦合HMM正确分类,如果观察向量序列xr被正确分类,设定否则,设定所述判断某一训练样本xr是否被连续型二分量耦合HMM正确分类的方法为:
步骤4.4.1:首先取出增强耦合HMM分类器φc中的连续型二分量耦合HMM然后对其它并行训练的(C-1)个增强耦合HMM分类器分别进行如下操作:如果k≤Kc′,c′∈{1,2,……,c-1}∪{c+1,c+2,……,C},Kc′表示第c′个增强耦合HMM分类器φ′c中包含的连续型二分量耦合HMM的个数,则取出第c′个增强耦合HMM分类器φ′c中的连续型二分量耦合HMM否则,取出第c′个增强耦合HMM分类器φ′c中的连续型二分量耦合HMM
步骤4.4.2:分别计算各训练样本在步骤4.4.1取出的C个连续型二分量耦合HMM下的概率。如果训练样本xr属于第c个情感类别,且训练样本xr在连续型二分量耦合HMM下的概率最大,则认为训练样本xr被正确分类;否则,认为训练样本xr未被正确分类。
步骤4.6:使用临时变量k″,并设定k″=k+1。
其中,Zk″是归一化因子,
步骤4.8:如果此时k≠K,并且的值不大于某一预先设定值(用符号σ表示,0<σ≤0.5),则令k=k″,wk(r)=wk″(r),然后返回到步骤4.2;否则,得到增强耦合HMM分类器φc,令Kc=k。
经过上述步骤的操作,即完成对增强耦合HMM分类器φc的训练。
所述识别过程的具体实施步骤如下:
步骤五、对待识别情感视频(用x表示)进行预处理,得到待识别情感视频的表情观察向量序列(用xf表示)和音频观察向量序列(用xa表示)。
所述得到待识别情感视频的表情观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列的具体步骤一致。
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致。
步骤六、判断待识别情感视频的情感类别,具体过程为:
步骤6.1:将待识别情感视频的音频观察向量序列xa作为每一种情感的增强耦合HMM分类器φc中的连续型二分量耦合HMM的音频通道分量HMM的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的增强耦合HMM分类器φc中的每一个连续型二分量耦合HMM的表情通道分量HMM的观察序列。
步骤6.2:通过公式(26)计算待识别情感视频x,在增强耦合HMM分类器φc下的概率(用Pc表示)。
步骤6.3:从步骤6.2得到的概率Pc中找到最大值,得到该最大值的增强耦合HMM分类器对应的情感即为待识别情感视频所属的情感类别。
有益效果
本发明提出的基于增强耦合HMM的语音-视觉融合的情感识别方法,融合了脸部表情和语音两种特征流,使用改进的EM算法训练连续型二分量耦合HMM,训练时考虑并不断更新各样本的权重,使得训练过程偏重于难于识别的样本。本发明方法与已有识别方法相比较明显提高了分类的准确度。
附图说明
图1为已有技术中二分量耦合HMM结构示意图;
图2为本发明实施例中每个图像序列中的第一帧图像中20个脸部特征点的具体位置。
具体实施方式
下面结合附图和具体实施例对本发明方法的实施方式做详细说明。
本实施例中,5个实验者(2男3女)在引导式(Wizard of Oz)场景下朗读带有7种基本情感(高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性)的句子,摄像机从正面同步录下脸部表情图像和声音数据。场景脚本中,每一种情感有3个不同的句子,每个人将每句话重复5遍。随机选择四个人的情感视频数据作为训练数据,将剩下那个人的视频数据作为测试集合,整个识别过程是独立于实验者的。然后,将实验数据使用activation-evaluation空间粗分类方法进行了再次标注,即沿着activation轴将样本划分为积极和消极类别,沿着evaluation轴将样本划分为正和负类别。随机选择四个人的情感数据作为训练集合,将剩下那个人的情感数据作为测试集合,整个识别过程是独立于实验者的。实验中执行5重交叉验证。
实验中使用了两种情感类别集合分别进行情感识别实验。其一是7种基本情感(高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性),其二是activation-evaluation空间的粗分类。
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理。
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20;该训练样本集中的第r个训练样本用xr表示,1≤r≤R。分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和音频观察向量序列。一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这2种特征数据流用符号Xv表示,v∈{a,f},a表示音频,f表示表情;表示v特征数据流的第r个观察向量序列。
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb=50赫兹(Hz),p=vb×ta,ta为3~6秒。
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α=14,包括:信号强度;基音频率;12个Mel频率倒谱系数。
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧。
步骤c.3:用对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示,用对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,以此类推,用对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p。一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′tα]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α。
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′P]∈R14×p。
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va=25赫兹(Hz),m=va×ta,η=2。由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像。
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ=10。所述脸部表情特征值为脸部几何特征值。具体操作步骤为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
所述标识20个脸部特征点的方法为使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至T10的影响,因此在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部表情图像序列中找出包含待处理图像中人脸的所有表情图像序列;所述待处理图像为当前等待做归一化处理的图像。
第3.3步:用对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,用对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,以此类推,用对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
第4步:获得每个表情图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m。一个表情图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,fqθ]T,fq1为该表情图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该表情图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,fqθ为该表情图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ。
第5步:对于一个情感视频,其表情图像序列中各帧图像的表情观察向量V1至Vm组成该情感视频的原始表情观察向量序列,用矩阵M″来表示,M″=[V1,V2,……,Vm]∈R10×m;
第6步:在每个情感视频的原始表情观察向量序列M″中的表情观察向量Vq′和V′q+1之间通过线性插值法插入1个表情观察向量,并在表情观察向量Vm后,增加1个Vm,得到该情感视频的表情观察向量序列,用M表示,M=[V1,V2,……,Vp]∈R10×p,1≤q′<m。
步骤二、建立增强耦合HMM分类器。
在步骤一操作的基础上,建立增强耦合HMM分类器。所述增强耦合HMM分类器由从左向右的K′个连续型二分量耦合HMM组合而成,1≤K′≤K,K=6;连续型二分量耦合HMM的两条分量HMM分别称为音频通道分量HMM和表情通道分量HMM;同一采样时间点上,每条分量HMM均有1个可见节点和1个隐节点相对应;在某一时刻,某个分量HMM的隐节点状态依赖于所有相关的分量HMM在前一时刻的隐节点状态。。
Na=Nf=5; N表示连续型二分量耦合HMM的隐状态个数,N=Na×Nf;用S表示连续型二分量耦合HMM的隐状态集合,则
所述连续型二分量耦合HMM的参数由公式(1)至公式(3)表示。
其中,π(i)表示连续型二分量耦合HMM的初始隐状态概率分布;i表示连续型二分量耦合HMM的隐状态,i∈S;πv(iv)表示连续型二分量耦合HMM的v通道分量HMM的初始隐状态概率分布;iv表示连续型二分量耦合HMM的v通道分量HMM的隐状态,iv∈Sv;表示连续型二分量耦合HMM的v通道分量HMM在初始时刻的隐状态取值。
其中,a(i|j)表示连续型二分量耦合HMM从(t1-1)时刻的隐状态j到t1时刻隐状态i的转移概率,i,j∈S,2≤t1≤p;av(iv|j)表示从(t1-1)时刻连续型二分量耦合HMM的隐状态j到t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态iv的转移概率;表示t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态取值;表示连续型二分量耦合HMM在(t1-1)时刻的隐状态取值。
步骤三、初始化增强耦合HMM分类器。
在步骤二操作的基础上,同时初始化C=7个增强耦合HMM分类器,C表示情感类别的数量;即:对应每一种情感,初始化一个增强耦合HMM分类器。用φc表示第c种情感对应的增强耦合HMM分类器,1≤c≤C。
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行初始化的过程为:
步骤3.1:第c种情感的训练样本集经过步骤一的操作后,得到音频特征数据流Xa和表情特征数据流Xf;将特征数据流Xv中的观察向量序列表示为 表示第r个训练样本xr在连续型二分量耦合HMM的v通道分量HMM中的t时刻的观察向量,1≤t≤p;然后根据特征数据流Xv对应的v通道分量HMM的隐状态数Nv,依次将特征数据流Xv中的每个观察向量序列平均分为Nv段,1≤r≤R;对每个观察向量序列中的第i′段对应的隐节点状态赋初值为i′,1≤i′≤Nv,从而可得每个观察向量序列的初始隐节点状态序列,用表示。
步骤3.2:使用K-means聚类算法,依次对每个观察向量序列中每个隐状态i′所对应的观察向量聚类为个类别,分别用表示;用表示观察向量序列在t时刻的隐状态对应的混合高斯密度函数的混合分量;根据观察向量序列中隐状态i′所对应的观察向量的聚类结果,得到观察向量序列的混合分量序列 1≤t≤p。
步骤3.3:将特征数据流Xv输入到增强耦合HMM分类器φc中的某一连续型二分量耦合HMM中,用符号表示增强耦合HMM分类器φc中的第k′个连续型二分量耦合HMM,1≤k′≤K。
步骤3.4:利用公式(4)至公式(9)重估连续型二分量耦合HMM的参数。
其中,表示第r个训练样本xr在连续型二分量耦合HMM的v通道分量HMM中的t时刻的隐状态取值。
其中,
步骤3.5.3:通过公式(12)计算训练样本xr在当前二分量耦合HMM模型下的概率,用符号P表示;通过公式(13)计算训练样本xr在当前二分量耦合HMM模型下的概率P对应的p时刻的隐节点状态,用符号qp表示。
其中,
通过步骤3.5.1至步骤3.5.4的操作,得到各训练样本xr在当前二分量耦合HMM模型下的优化隐节点状态序列(q1,q2,...,qp);即得到各观察向量序列在当前二分量耦合HMM的v通道分量HMM的优化隐节点状态序列
其中, 表示使得 最大时,m的取值。
步骤3.7:判断各训练样本xr在当前二分量耦合HMM模型下的概率P是否均收敛;如果不均收敛,利用公式(4)至公式(9)重估连续型二分量耦合HMM的参数,然后回到步骤3.5;如果均收敛,则将重估得到的参数 和av(iv|j)作为增强耦合HMM分类器φc中各连续型二分量耦合HMM的模型初始参数。
经过步骤3.1至步骤3.7的操作,即完成对增强耦合HMM分类器φc的初始化操作。
步骤四、训练增强耦合HMM分类器。
在步骤三对增强耦合HMM分类器初始化的基础上,同时训练C个增强耦合HMM分类器φc,1≤c≤C。
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行训练的过程为:
步骤4.1:用Kc表示增强耦合HMM分类器φc中包含的连续型二分量耦合HMM的个数,并设定Kc的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4.2至步骤4.8的操作。
步骤4.2:用表示增强耦合HMM分类器φc中的第k个连续型二分量耦合HMM。用wk(r)表示输入到连续型二分量耦合HMM的特征数据流Xv中的第r个观察向量序列的权重,1≤r≤R;当k=1时,wk(r)=1/R。将带有权重wk(r)的音频特征数据流Xa输入到连续型二分量耦合HMM的音频通道分量HMM;将带有权重wk(r)的表情特征数据流Xf输入到连续型二分量耦合HMM的表情通道分量HMM。
其中,αr,1(i)=π(i)b1(i);2≤t1≤p。
其中,βr,p(i)=1;1≤t2≤p-1。
Pr=αr,p(qp)=βr,1(q1) (18)
步骤4.3.5:使用公式(19)至公式(23),利用各训练样本在步骤4.3.2中得到的前向概率 步骤4.3.3中得到的后向概率和步骤4.3.4得到的观察序列的概率Pr重估连续型二分量耦合HMM的模型参数和av(iv|j)。
其中,可通过公式(20)计算得到。
步骤4.3.7:判断连续型二分量耦合HMM的模型参数和av(iv|j)是否均收敛;如非均收敛,则将步骤4.3.6得到的和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i),然后返回到步骤4.3.2;否则,则将步骤4.3.6得到的和av(iv|j)作为连续型二分量耦合HMM的最优模型参数。
步骤4.4:使用步骤4.2中所述输入到连续型二分量耦合HMM的特征数据流Xv验证步骤4.3得到的连续型二分量耦合HMM具体验证方法为:用表示训练样本xr是否被连续型二分量耦合HMM正确分类,如果观察向量序列xr被正确分类,设定否则,设定
步骤4.4.1:首先取出增强耦合HMM分类器φc中的连续型二分量耦合HMM然后对其它并行训练的(C-1)个增强耦合HMM分类器分别进行如下操作:如果k≤Kc′,c′∈{1,2,……,c-1}∪{c+1,c+2,……,C},Kc′表示第c′个增强耦合HMM分类器φ′c中包含的连续型二分量耦合HMM的个数,则取出第c′个增强耦合HMM分类器φ′c中的连续型二分量耦合HMM否则,取出第c′个增强耦合HMM分类器φ′c中的连续型二分量耦合HMM
步骤4.4.2:分别计算各训练样本在步骤4.4.1取出的C个连续型二分量耦合HMM下的概率。如果训练样本xr属于第c个情感类别,且训练样本xr在连续型二分量耦合HMM下的概率最大,则认为训练样本xr被正确分类;否则,认为训练样本xr未被正确分类。
步骤4.6:使用临时变量k″,并设定k″=k+1。
其中,Zk″是归一化因子,
步骤4.8:如果此时k≠K,并且的值不大于某一预先设定值(用符号σ表示,0<σ≤0.5),则令k=k″,wk(r)=wk″(r),然后返回到步骤4.2;否则,得到增强耦合HMM分类器φc,令Kc=k。
经过上述步骤的操作,即完成对增强耦合HMM分类器φc的训练。
所述识别过程的具体实施步骤如下:
步骤五、对待识别情感视频x进行预处理,得到待识别情感视频的表情观察向量序列xf和音频观察向量序列xa。
所述得到待识别情感视频的表情观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列的具体步骤一致。
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致。
步骤六、判断待识别情感视频的情感类别,具体过程为:
步骤6.1:将待识别情感视频的音频观察向量序列xa作为每一种情感的增强耦合HMM分类器φc中的连续型二分量耦合HMM的音频通道分量HMM的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的增强耦合HMM分类器φc中的每一个连续型二分量耦合HMM的表情通道分量HMM的观察序列。
步骤6.2:通过公式(26)计算待识别情感视频x,在增强耦合HMM分类器φc下的概率Pc。
步骤6.3:从步骤6.2得到的概率Pc中找到最大值,得到该最大值的增强耦合HMM分类器对应的情感即为待识别情感视频所属的情感类别。
经过上述步骤的操作,得到的7种基本情感的平均准确率结果如表1第2行第5列所示;使用本发明提出方法进行实验,得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行第5列所示。
表1不同方法的识别准确率对比表
Audio HMM | Facial HMM | CHMM | 增强耦合HMM | |
7种基本情感 | 75.5% | 60.8% | 86.1% | 91.6% |
Activation-evaluation空间 | 76.0% | 62.2% | 85.8% | 91.1% |
为了对比本发明提出方法的有效性,使用相同的训练数据和测试数据,分别采用以下4种方法进行识别:(1)单一特征(Audio)HMM分类器;(2)单一特征(Facial)HMM分类器;(3)常规的3-链耦合HMM(CHMM)分类器,得到的7种表情的平均准确率结果如表1第2行至第1列至第3列所示;得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行至第1列至第3列所示。
通过对比,可以看到CHMM分类器的识别准确率大大高于单模态的HMM方法,因为耦合HMM可以有效利用两个通道的互补信息。而本发明提出的方法使用脸部表情和语音两种特征流,训练时考虑并不断更新各样本的权重,明显提高了分类的准确度。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种增强耦合HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶等;所述情感视频是指包含人脸表情和语音的视频数据,并且每段情感视频都开始于中性表情;其特征在于:所述增强耦合HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程;
所述训练过程的具体实施步骤包括步骤一至步骤六,具体为:
步骤一、对训练数据中的情感视频数据进行预处理;
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20;该训练样本集中的第r个训练样本用xr表示,1≤r≤R;分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和音频观察向量序列;一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这2种特征数据流用符号Xv表示,v∈{a,f},a表示音频,f表示表情;表示v特征数据流的第r个观察向量序列;
所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的操作步骤包括步骤a至步骤f,具体为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb≥5赫兹,p=vb×ta,ta为情感视频的时间长度;
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α≥4;
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数;线谱对参数;Mel频率倒谱系数;感知线性预测倒谱系数;
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,操作过程为步骤c.1至c.3,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧;
步骤c.3:用对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示,用对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,以此类推,用对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p;一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′tα]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α;
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′P]∈Rα×p;
所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列的操作步骤包括第1步至第6步,具体为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va≥5赫兹,m=va×ta,va=vb/η,η=1,2,3;由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像;
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ≥5;所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值;
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部表情图像序列中找出包含待处理图像中人脸的所有表情图像序列;所述待处理图像为当前等待做归一化处理的图像;
第3.3步:用对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,用对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,以此类推,用对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
第4步:获得每个表情图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m;一个表情图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,fqθ]T,fq1为该表情图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该表情图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,fqθ为该表情图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值t′θ;
第5步:对于一个情感视频,其表情图像序列中各帧图像的表情观察向量V1至Vm组成该情感视频的原始表情观察向量序列,用矩阵M″来表示,M″=[V1,V2,……,Vm]∈Rθ×m;
第6步:在每个情感视频的原始表情观察向量序列M″中的表情观察向量Vq′和Vq′+1之间通过线性插值法插入(η-1)个表情观察向量,并在表情观察向量Vm后,增加(η-1)个Vm,得到该情感视频的表情观察向量序列,用M表示,M=[V1,V2,……,VN]∈Rθ×p,1≤q′<m;
步骤二、建立增强耦合HMM分类器;
在步骤一操作的基础上,建立增强耦合HMM分类器;所述增强耦合HMM分类器由从左向右的K′个连续型二分量耦合HMM组合而成,1≤K′≤K,K的值由人为预先设定,4≤K≤10;连续型二分量耦合HMM的两条分量HMM分别称为音频通道分量HMM和表情通道分量HMM;同一采样时间点上,每条分量HMM均有1个可见节点和1个隐节点相对应;
用Nv表示连续型二分量耦合HMM的v通道的分量HMM的隐状态个数,v∈{a,f};用Sv表示连续型二分量耦合HMM的v通道分量HMM的隐状态集合,用N表示连续型二分量耦合HMM的隐状态个数,N=Na×Nf;用S表示连续型二分量耦合HMM的隐状态集合,则
所述连续型二分量耦合HMM的参数由公式(1)至公式(3)表示;
其中,π(i)表示连续型二分量耦合HMM的初始隐状态概率分布;i表示连续型二分量耦合HMM的隐状态,i∈S;πv(iv)表示连续型二分量耦合HMM的v通道分量HMM的初始隐状态概率分布;iv表示连续型二分量耦合HMM的v通道分量HMM的隐状态,iv∈Sv;表示连续型二分量耦合HMM的v通道分量HMM在初始时刻的隐状态取值;
其中,a(i|j)表示连续型二分量耦合HMM从(t1-1)时刻的隐状态j到t1时刻隐状态i的转移概率,i,j∈S,2≤t1≤p;av(iv|j)表示从(t1-1)时刻连续型二分量耦合HMM的隐状态j到t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态iv的转移概率;表示t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态取值;表示连续型二分量耦合HMM在(t1-1)时刻的隐状态取值;
步骤三、初始化增强耦合HMM分类器;
在步骤二操作的基础上,同时初始化C个增强耦合HMM分类器,C表示情感类别的数量;即:对应每一种情感,初始化一个增强耦合HMM分类器;用φc表示第c种情感对应的增强耦合HMM分类器,1≤c≤C;
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行初始化的过程包括步骤3.1至步骤3.7,具体为:
步骤3.1:第c种情感的训练样本集经过步骤一的操作后,得到音频特征数据流Xa和表情特征数据流Xf;将特征数据流Xv中的观察向量序列表示为 表示第r个训练样本xr在连续型二分量耦合HMM的v通道分量HMM中的t时刻的观察向量,1≤t≤p;然后根据特征数据流Xv对应的v通道分量HMM的隐状态数Nv,依次将特征数据流Xv中的每个观察向量序列平均分为Nv段,1≤r≤R;对每个观察向量序列中的第i′段对应的隐节点状态赋初值为i′,1≤i′≤Nv,从而可得每个观察向量序列的初始隐节点状态序列,用表示;
步骤3.2:使用K-means聚类算法,依次对每个观察向量序列中每个隐状态i′所对应的观察向量聚类为个类别,分别用表示;用表示观察向量序列在t时刻的隐状态对应的混合高斯密度函数的混合分量;根据观察向量序列中隐状态i′所对应的观察向量的聚类结果,得到观察向量序列的混合分量序列 1≤t≤p;
其中,
步骤3.5.3:通过公式(12)计算训练样本xr在当前二分量耦合HMM模型下的概率,用符号P表示;通过公式(13)计算训练样本xr在当前二分量耦合HMM模型下的概率P对应的p时刻的隐节点状态,用符号qp表示;
其中,
通过步骤3.5.1至步骤3.5.4的操作,得到各训练样本xr在当前二分量耦合HMM模型下的优化隐节点状态序列(q1,q2,...,qp);即得到各观察向量序列在当前二分量耦合HMM的v通道分量HMM的优化隐节点状态序列
其中, 表示使得 最大时,m的取值;
步骤3.7:判断各训练样本xr在当前二分量耦合HMM模型下的概率P是否均收敛;如果不均收敛,利用公式(4)至公式(9)重估连续型二分量耦合HMM的参数,然后回到步骤3.5;如果均收敛,则将重估得到的参数 和av(iv|j)作为增强耦合HMM分类器φc中各连续型二分量耦合HMM的模型初始参数;
经过步骤3.1至步骤3.7的操作,即完成对增强耦合HMM分类器φc的初始化操作;
步骤四、训练增强耦合HMM分类器;
在步骤三对增强耦合HMM分类器初始化的基础上,同时训练C个增强耦合HMM分类器φc,1≤c≤C;
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行训练的过程包括步骤4.1至步骤4.8,具体为:
步骤4.1:用Kc表示增强耦合HMM分类器φc中包含的连续型二分量耦合HMM的个数,并设定Kc的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4.2至步骤4.8的操作;
步骤4.2:用表示增强耦合HMM分类器φc中的第k个连续型二分量耦合HMM;用wk(r)表示输入到连续型二分量耦合HMM的特征数据流Xv中的第r个观察向量序列的权重,1≤r≤R;当k=1时,wk(r)=1/R;将带有权重wk(r)的音频特征数据流Xa输入到连续型二分量耦合HMM的音频通道分量HMM;将带有权重wk(r)的表情特征数据流Xf输入到连续型二分量耦合HMM的表情通道分量HMM;
其中,αr,1(i)=π(i)b1(i);2≤t1≤p;
其中,βr,p(i)=1;1≤t2≤p-1;
Pr=αr,p(qp)=βr,1(q1) (18)
步骤4.3.5:使用公式(19)至公式(23),利用各训练样本在步骤4.3.2中得到的前向概率 步骤4.3.3中得到的后向概率和步骤4.3.4得到的观察序列的概率Pr重估连续型二分量耦合HMM的模型参数和av(iv|j);
步骤4.3.6:判断连续型二分量耦合HMM的模型参数和av(iv|j)是否均收敛;如非均收敛,则将步骤4.3.5得到的和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i),然后返回到步骤4.3.2;否则,则将步骤4.3.5得到的和av(iv|j)作为连续型二分量耦合HMM的最优模型参数;
步骤4.4:使用步骤4.2中所述输入到连续型二分量耦合HMM的特征数据流Xv验证步骤4.3得到的连续型二分量耦合HMM具体验证方法为:用表示训练样本xr是否被连续型二分量耦合HMM正确分类,如果观察向量序列xr被正确分类,设定否则,设定
步骤4.6:使用临时变量k″,并设定k″=k+1;
其中,Zk″是归一化因子,
经过上述步骤的操作,即完成对增强耦合HMM分类器φc的训练;
所述识别过程的具体实施步骤如下:
步骤五、对待识别情感视频x进行预处理,得到待识别情感视频的表情观察向量序列xf表示和音频观察向量序列xa;
所述得到待识别情感视频的表情观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列的具体步骤一致;
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致;
步骤六、判断待识别情感视频的情感类别,操作过程包括步骤6.1至步骤6.3,具体为:
步骤6.1:将待识别情感视频的音频观察向量序列xa作为每一种情感的增强耦合HMM分类器φc中的连续型二分量耦合HMM的音频通道分量HMM的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的增强耦合HMM分类器φc中的每一个连续型二分量耦合HMM的表情通道分量HMM的观察序列;
步骤6.2:通过公式(26)计算待识别情感视频x,在增强耦合HMM分类器φc下的概率Pc;
步骤6.3:从步骤6.2得到的概率Pc中找到最大值,得到该最大值的增强耦合HMM分类器对应的情感即为待识别情感视频所属的情感类别。
2.如权利要求1所述的一种增强耦合HMM的语音-视觉融合的情感识别方法,其特征在于:步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,θ=10,其操作步骤包括第2.1步至第2.3步,具体为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示;
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
3.如权利要求2所述的一种增强耦合HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.1步中所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
4.如权利要求2或3所述的一种增强耦合HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.2步中所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
5.如权利要求2至4之一所述的一种增强耦合HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.3步中所述计算脸部表情特征值T8至T10的优选方法是:在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
6.如权利要求1至5之一所述的一种增强耦合HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一步骤4.4中所述判断某一训练样本xr是否被连续型二分量耦合HMM正确分类的方法的操作过程包括步骤4.4.1至步骤4.4.2,具体为:
步骤4.4.1:首先取出增强耦合HMM分类器φc中的连续型二分量耦合HMM然后对其它并行训练的(C-1)个增强耦合HMM分类器分别进行如下操作:如果k≤Kc′,c′∈{1,2,……,c-1}∪{c+1,c+2,……,C},Kc′表示第c′个增强耦合HMM分类器φc′中包含的连续型二分量耦合HMM的个数,则取出第c′个增强耦合HMM分类器φc′中的连续型二分量耦合HMM否则,取出第c′个增强耦合HMM分类器φc′中的连续型二分量耦合HMM
步骤4.4.2:分别计算各训练样本在步骤4.4.1取出的C个连续型二分量耦合HMM下的概率;如果训练样本xr属于第c个情感类别,且训练样本xr在连续型二分量耦合HMM下的概率最大,则认为训练样本xr被正确分类;否则,认为训练样本xr未被正确分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210435946.1A CN102930297B (zh) | 2012-11-05 | 2012-11-05 | 基于增强耦合hmm的语音-视觉融合的情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210435946.1A CN102930297B (zh) | 2012-11-05 | 2012-11-05 | 基于增强耦合hmm的语音-视觉融合的情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102930297A true CN102930297A (zh) | 2013-02-13 |
CN102930297B CN102930297B (zh) | 2015-04-29 |
Family
ID=47645094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210435946.1A Expired - Fee Related CN102930297B (zh) | 2012-11-05 | 2012-11-05 | 基于增强耦合hmm的语音-视觉融合的情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102930297B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400145A (zh) * | 2013-07-19 | 2013-11-20 | 北京理工大学 | 基于线索神经网络的语音-视觉融合情感识别方法 |
CN104637480A (zh) * | 2015-01-27 | 2015-05-20 | 广东欧珀移动通信有限公司 | 一种控制语音识别方法、装置以及系统 |
CN105575388A (zh) * | 2014-07-28 | 2016-05-11 | 索尼电脑娱乐公司 | 情感语音处理 |
CN106227836A (zh) * | 2016-07-26 | 2016-12-14 | 上海交通大学 | 基于图像与文字的无监督联合视觉概念学习系统及方法 |
CN107256392A (zh) * | 2017-06-05 | 2017-10-17 | 南京邮电大学 | 一种联合图像、语音的全面情绪识别方法 |
CN107919137A (zh) * | 2017-10-25 | 2018-04-17 | 平安普惠企业管理有限公司 | 远程审批方法、装置、设备及可读存储介质 |
CN108351968A (zh) * | 2017-12-28 | 2018-07-31 | 深圳市锐明技术股份有限公司 | 一种针对犯罪活动的告警方法、装置、存储介质及服务器 |
CN109522818A (zh) * | 2018-10-29 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 一种表情识别的方法、装置、终端设备及存储介质 |
CN112633263A (zh) * | 2021-03-09 | 2021-04-09 | 中国科学院自动化研究所 | 海量音视频情感识别系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5754681A (en) * | 1994-10-05 | 1998-05-19 | Atr Interpreting Telecommunications Research Laboratories | Signal pattern recognition apparatus comprising parameter training controller for training feature conversion parameters and discriminant functions |
CN101464950A (zh) * | 2009-01-16 | 2009-06-24 | 北京航空航天大学 | 基于在线学习和贝叶斯推理的视频人脸识别与检索方法 |
CN102201237A (zh) * | 2011-05-12 | 2011-09-28 | 浙江大学 | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 |
-
2012
- 2012-11-05 CN CN201210435946.1A patent/CN102930297B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5754681A (en) * | 1994-10-05 | 1998-05-19 | Atr Interpreting Telecommunications Research Laboratories | Signal pattern recognition apparatus comprising parameter training controller for training feature conversion parameters and discriminant functions |
CN101464950A (zh) * | 2009-01-16 | 2009-06-24 | 北京航空航天大学 | 基于在线学习和贝叶斯推理的视频人脸识别与检索方法 |
CN102201237A (zh) * | 2011-05-12 | 2011-09-28 | 浙江大学 | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 |
Non-Patent Citations (2)
Title |
---|
PETRIDIS等: ""audiovisual discrimination between laughter and speech"", 《IEEEINT"1 CONF.ACOUSTICS,SPEECH,AND SIGNAL PROCESSING(ICASSP)》 * |
黄永明,章国宝,刘海彬,达飞鹏: ""基于新双模融合算法的情感检测系统"", 《天津大学学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400145A (zh) * | 2013-07-19 | 2013-11-20 | 北京理工大学 | 基于线索神经网络的语音-视觉融合情感识别方法 |
CN103400145B (zh) * | 2013-07-19 | 2016-08-10 | 北京理工大学 | 基于线索神经网络的语音-视觉融合情感识别方法 |
CN105575388A (zh) * | 2014-07-28 | 2016-05-11 | 索尼电脑娱乐公司 | 情感语音处理 |
CN105575388B (zh) * | 2014-07-28 | 2021-06-01 | 索尼电脑娱乐公司 | 情感语音处理 |
CN104637480A (zh) * | 2015-01-27 | 2015-05-20 | 广东欧珀移动通信有限公司 | 一种控制语音识别方法、装置以及系统 |
CN106227836B (zh) * | 2016-07-26 | 2020-07-14 | 上海交通大学 | 基于图像与文字的无监督联合视觉概念学习系统及方法 |
CN106227836A (zh) * | 2016-07-26 | 2016-12-14 | 上海交通大学 | 基于图像与文字的无监督联合视觉概念学习系统及方法 |
CN107256392A (zh) * | 2017-06-05 | 2017-10-17 | 南京邮电大学 | 一种联合图像、语音的全面情绪识别方法 |
CN107919137A (zh) * | 2017-10-25 | 2018-04-17 | 平安普惠企业管理有限公司 | 远程审批方法、装置、设备及可读存储介质 |
CN108351968A (zh) * | 2017-12-28 | 2018-07-31 | 深圳市锐明技术股份有限公司 | 一种针对犯罪活动的告警方法、装置、存储介质及服务器 |
CN108351968B (zh) * | 2017-12-28 | 2022-04-22 | 深圳市锐明技术股份有限公司 | 一种针对犯罪活动的告警方法、装置、存储介质及服务器 |
CN109522818A (zh) * | 2018-10-29 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 一种表情识别的方法、装置、终端设备及存储介质 |
CN109522818B (zh) * | 2018-10-29 | 2021-03-30 | 中国科学院深圳先进技术研究院 | 一种表情识别的方法、装置、终端设备及存储介质 |
CN112633263A (zh) * | 2021-03-09 | 2021-04-09 | 中国科学院自动化研究所 | 海量音视频情感识别系统 |
CN112633263B (zh) * | 2021-03-09 | 2021-06-08 | 中国科学院自动化研究所 | 海量音视频情感识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102930297B (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102930298B (zh) | 基于多层增强hmm的语音-视觉融合的情感识别方法 | |
CN102930297B (zh) | 基于增强耦合hmm的语音-视觉融合的情感识别方法 | |
CN102819744B (zh) | 一种双通道信息融合的情感识别方法 | |
CN103400145B (zh) | 基于线索神经网络的语音-视觉融合情感识别方法 | |
CN109409296B (zh) | 将人脸表情识别和语音情感识别融合的视频情感识别方法 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN109508669B (zh) | 一种基于生成式对抗网络的人脸表情识别方法 | |
CN106250855B (zh) | 一种基于多核学习的多模态情感识别方法 | |
Guanghui et al. | Multi-modal emotion recognition by fusing correlation features of speech-visual | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN107679491A (zh) | 一种融合多模态数据的3d卷积神经网络手语识别方法 | |
CN109978034B (zh) | 一种基于数据增强的声场景辨识方法 | |
CN110853680A (zh) | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 | |
CN110111797A (zh) | 基于高斯超矢量和深度神经网络的说话人识别方法 | |
CN105160299A (zh) | 基于贝叶斯融合稀疏表示分类器的人脸情感识别方法 | |
Datcu et al. | Emotion recognition using bimodal data fusion | |
CN111292765A (zh) | 一种融合多个深度学习模型的双模态情感识别方法 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN108597501A (zh) | 一种基于残差网络和双向门控循环单元的视听语音模型 | |
CN108256307A (zh) | 一种智能商务旅居房车的混合增强智能认知方法 | |
CN111242155A (zh) | 一种基于多模深度学习的双模态情感识别方法 | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
Petridis et al. | Static vs. dynamic modeling of human nonverbal behavior from multiple cues and modalities | |
Sahu et al. | Modeling feature representations for affective speech using generative adversarial networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent of invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhang Xin Inventor after: Lv Kun Inventor after: Jia Yunde Inventor before: Lv Kun Inventor before: Zhang Xin Inventor before: Jia Yunde |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: LV KUN ZHANG XIN JIA YUNDE TO: ZHANG XIN LV KUN JIA YUNDE |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150429 Termination date: 20181105 |