CN103400145A - 基于线索神经网络的语音-视觉融合情感识别方法 - Google Patents

基于线索神经网络的语音-视觉融合情感识别方法 Download PDF

Info

Publication number
CN103400145A
CN103400145A CN2013103040114A CN201310304011A CN103400145A CN 103400145 A CN103400145 A CN 103400145A CN 2013103040114 A CN2013103040114 A CN 2013103040114A CN 201310304011 A CN201310304011 A CN 201310304011A CN 103400145 A CN103400145 A CN 103400145A
Authority
CN
China
Prior art keywords
visual angle
neural network
expression
emotion
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103040114A
Other languages
English (en)
Other versions
CN103400145B (zh
Inventor
吕坤
张欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201310304011.4A priority Critical patent/CN103400145B/zh
Publication of CN103400145A publication Critical patent/CN103400145A/zh
Application granted granted Critical
Publication of CN103400145B publication Critical patent/CN103400145B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提出的一种基于线索神经网络的语音-视觉融合情感识别方法,属于自动情感识别领域。其基本思想是:首先,分别使用人的正面脸部表情、侧面脸部表情和语音三个通道的特征数据,独立地训练一个神经网络来执行离散的情感类别的识别,训练过程中神经网络模型中的输出层加入4个线索(hint)节点,分别承载活跃度-评价度(activation-evaluation)空间中的4个粗粒度类别的线索(hint)信息。在线索信息的帮助下,神经网络权重的学习会产生更优的特征选择。然后,使用多模态融合模型对三个神经网络的输出结果进行融合,多模态融合模型也采用基于线索信息训练的神经网络。该方法具有较低的计算量,识别率高且鲁棒性好。对于训练数据较少的情况,效果更加明显。

Description

基于线索神经网络的语音-视觉融合情感识别方法
技术领域
本发明涉及一种多通道信息融合的情感识别方法,特别涉及一种基于线索神经网络的语音-视觉融合情感识别方法,属于自动情感识别领域。
背景技术
各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使用离散类别方法表示(如Ekman提出的6种基本情感类别),或者使用连续维度方法表示(如activation-evaluation空间方法),或者使用基于评价的方法表示。脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情感状态。研究人员已经针对单模态情感识别与分析做了很多工作。
融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用的数据融合方法大都可以归为以下三类:特征层融合、模型层融合和决策层融合。模型层融合使用了多个数据流之间的关联信息,可能是该融合问题的最佳选择。Zeng等人在文献《Audio–Visual Affective Expression Recognition ThroughMultistream Fused HMM》(IEEE TRANSACTIONS ON MULTIMEDIA,vol.10,no.4,June2008)中提出了一种多流融合HMM(MFHMM)方法,根据最大熵和最大相互信息准则,建立多个语音-视觉流间的优化连接。MFHMM通过将一个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量HMM。他们接着在文献《Training Combination Strategy of Multi-Stream FusedHidden Markov Model for Audio-Visual Affect Recognition》(Proc.14th ACM Int’lConf.Multimedia(Multimedia’06),pp.65-68,2006.)中扩展了该框架,采用训练组合策略,使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis等人在文献《Audiovisual Discrimination between Laughter and Speech》(IEEEInt’l Conf.Acoustics,Speech,and Signal Processing(ICASSP),pp.5117-5120,2008.)中使用神经网络来合并语音-视觉通道的信息。总的来讲,这些方法在自然情感识别中还未达到令人满意的识别准确率。
发明内容
本发明的目的是为了解决已有技术存在的识别率不高的问题,提出一种基于线索神经网络的语音-视觉融合情感识别方法。
本发明的目的是通过下述技术方案实现的。
一种基于线索神经网络的语音-视觉融合情感识别方法,用于识别情感视频中人的情感,其识别过程包括2部分:训练过程和识别过程。
所述训练过程的具体实施步骤包括步骤一至步骤四,具体为:
步骤一、建立神经网络分类器。
所述神经网络分类器为包含输入层、隐含层和输出层的三层结构神经网络。其输入层的节点数用符号nI表示,当所述神经网络分类器的输入为人的正面视角特征数据和侧面视角特征数据时,nI=nS,10≤nS≤80;当所述神经网络分类器的输入为语音特征数据时,nI=nY,20≤nY≤200。所述神经网络分类器隐含层的节点数用符号nH表示,4≤nH≤10。所述神经网络分类器输出层包含2种节点,分别称为情感类别输出节点和线索节点。输出层的节点数用符号nO表示,nO=nL+nX。其中,nL表示情感类别输出节点的数量,每个情感类别输出节点对应一种情感类别,2≤nL≤15。nX表示线索节点的数量,在训练阶段,nX的取值为4,并且4个线索节点分别对应活跃度-评价度(activation-evaluation)空间上的4种粗粒度情感类别,即活跃度-评价度(activation-evaluation)空间上的四个象限,分别为:积极-正、消极-正、积极-负、消极-负。其中,积极和消极是活跃度-评价度(activation-evaluation)空间中活跃度维度上的两个取值,正和负是活跃度-评价度(activation-evaluation)空间中评价度维度上的两个取值。
所述神经网络分类器为nI-nH-nO完全连接的拓扑结构。
步骤二、在步骤一的基础上,使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面视角特征数据和语音特征数据分别训练一个神经网络分类器。
第一训练样本集里包含nL种情感的训练数据,nL种情感中包含中性情感;每种情感的训练数据由多个训练样本对组成,每种情感的训练样本对的数量不小于20个。每个训练样本对由2条情感视频组成,分别为同步拍摄的正面视频和侧面视频。正面视频是包含人的正面脸部表情和语音的视频数据,侧面视频是包含人的侧面脸部表情的视频数据。每条情感视频都开始于中性表情。
第一训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注,一种是离散的情感类别标注,另一种是在活跃度-评价度(activation-evaluation)空间的4种粗粒度情感类别标注。并且,每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一致的,在活跃度-评价度(activation-evaluation)空间的粗粒度情感类别上的标注结果也是一致的。
所述使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面视角特征数据和语音特征数据分别训练一个神经网络分类器的过程为:
步骤2.1:依次对第一训练样本集里的每个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据;对第一训练样本集里的每个训练样本对中的侧面视频做预处理,得到侧面视角特征数据。
所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据的操作步骤为:
步骤a.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nS帧图像,构成一个正面视角图像序列。
步骤a.2:在步骤a.1中得到的正面视角图像序列中的第一帧图像中标识出20个正面脸部特征点;其中,第1、2正面脸部特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4正面脸部特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6正面脸部特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8正面脸部特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10正面脸部特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12正面脸部特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14正面脸部特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15正面脸部特征点位于鼻尖位置,用(x15,y15)表示;第16、17正面脸部特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19正面脸部特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20正面脸部特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
所述标识20个正面脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个正面脸部特征点的自动定位。
步骤a.3:根据步骤a.2中得到的正面视角图像序列中的第一帧图像中的20个正面脸部特征点的位置,定位出该正面视角图像序列中除第一帧图像以外的后续帧图像中的20个正面脸部特征点。
所述定位出正面视角图像序列中除第一帧图像以外的后续帧图像中的20个正面脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个正面脸部特征点的自动跟踪。
步骤a.4:依次计算步骤a.2中得到的正面视角图像序列中各帧图像的10个正面脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至T10的影响,步骤a.4中所述计算正面脸部表情特征值T8至T10的优选方法是:在步骤a.4操作的基础上,在每个图像序列中的第n帧图像中,1<n<nS,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
步骤a.5:使用步骤a.4中得到的正面视角图像序列中每帧图像的10个正面脸部表情特征值T1至T10构成该图像的特征向量,用符号Fq表示,Fq=[fq1,fq2,...,fq10]T。其中,1≤q≤nS,fq1为所述正面视角图像序列的第q帧图像中第1个正面脸部表情特征值T1,fq2为所述正面视角图像序列的第q帧图像中第2个正面脸部表情特征值T2,……,以此类推,fq10为所述正面视角图像序列的第q帧图像中第10个正面脸部表情特征值T10
步骤a.6:计算第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的特征向量的均值,用符号
Figure BDA00003534763300051
表示,
Figure BDA00003534763300052
其中,
Figure BDA00003534763300053
表示第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的第k个特征值的均值,1≤k≤10。
步骤a.7:使用Fq
Figure BDA00003534763300054
之间的欧几里得距离表示步骤a.1中所述正面视角图像序列中第q帧图像的特征。Fq
Figure BDA00003534763300055
之间的欧几里得距离用符号DF(q)表示。DF(q)可通过公式(1)得到。
D F ( q ) = ( Σ k = 1 10 ( f qk - f k ‾ ) 2 ) 1 / 2    (1)
步骤a.8:步骤a.1中所述正面视角图像序列中nS帧图像的特征DF(q)组成了该正面视频的正面视角特征数据。
所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到语音特征数据的操作步骤为:
步骤b.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nY个语音帧,构成一条语音序列。
步骤b.2:依次从步骤b.1得到的语音序列的每个语音帧中提取α个音频特征值,分别用F1~Fα表示,α≥4。
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCC);线谱对参数(Line Spectrum Pair,LSP);Mel频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC);感知线性预测倒谱系数(Perceptual Linear PredictionCepstral Coefficients,PLPCC)。
步骤b.3:从步骤b.2中所述语音序列里的一个语音帧提取的α个音频特征值组成一个音频特征向量,用Vt表示,Vt=[f′t1,f′t2,……,f′]T,1≤t≤nY。f′t1为步骤所述语音序列的第t帧语音帧中第1个音频特征值F1,f′t2为所述语音序列的第t帧语音帧中第2个音频特征值F2,……,以此类推,f′为所述语音序列的第t帧语音帧中第α个音频特征值Fα
步骤b.4:从第一训练数据集里找出与步骤b.1中所述正面视频中的音频为同一发声人物的所有中性情感的正面视频,并计算出由这些正面视频得到的语音序列中各语音帧对应的音频特征向量的均值,用符号
Figure BDA00003534763300061
表示,
Figure BDA00003534763300062
其中,
Figure BDA00003534763300063
表示由第一训练样本集中所有与步骤b.1中所述正面视频中的音频为同一发声人物的所有中性情感的正面视频得到的语音序列中各语音帧的第i个特征值的均值,1≤i<α。
步骤b.5:使用步骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向量的均值
Figure BDA00003534763300065
之间的距离表示步骤b.1得到的语音序列的第t个语音帧的特征。步骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向量的均值
Figure BDA00003534763300066
之间的距离用符号DV(t)表示,DV(t)可通过公式(2)得到。
D V ( t ) = ( Σ i = 1 α ( f ti ′ - f ‾ i ′ f ‾ i ′ ) 2 ) 1 / 2    (2)
步骤b.6:步骤b.1中所述语音序列中nY个语音帧的特征DV(t)组成了该正面视频的语音特征数据。
所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤为:
步骤c.1:从所述训练样本对中的侧面视频中以均等的时间间隔提取nS帧图像,构成一个侧面视角图像序列。
步骤c.2:在步骤c.1中得到的侧面视角图像序列中的第一帧图像中标识出6个侧面脸部特征点;其中,第1侧面脸部特征点位于眉头位置,用(x1′,y1′)表示;第2侧面脸部特征点位于鼻尖位置,用(x′2,y′2)表示;第3侧面脸部特征点分别位于上唇与侧面脸部轮廓线相交的交点位置,用(x3′,y3′)表示;第4侧面脸部特征点位于嘴角位置,用(x′4,y′4)表示;第5侧面脸部特征点位于下唇与侧面脸部轮廓线相交的交点位置,用(x5′,y5′)表示;第6侧面脸部特征点位于耳孔位置,用(x′6,y′6)表示。
所述标识6个侧面脸部特征点的方法包括:人工手动标识。
步骤c.3:根据步骤c.2中得到的侧面视角图像序列中的第一帧图像中的6个侧面脸部特征点的位置,定位出该侧面视角图像序列中除第一帧图像以外的后续帧图像中的6个侧面脸部特征点。
所述定位出该侧面视角图像序列中除第一帧图像以外的后续帧图像中的6个侧面脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对6个侧面脸部特征点的自动跟踪。
步骤c.4:依次计算步骤c.2中得到的侧面视角图像序列中各帧图像的5个侧面脸部表情特征值P1至P5,具体为:(1)耳孔与第1侧面脸部特征点的水平距离,用P1表示,P1=|x6-x1|;(2)耳孔与第2侧面脸部特征点的水平距离,用P2表示,P2=|x6-x2|;(3)耳孔与第3侧面脸部特征点的水平距离,用P3表示,P3=|x6-x3|;(4)耳孔与第4侧面脸部特征点的水平距离,用P4表示,P4=|x6-x4|;(5)耳孔与第5侧面脸部特征点的水平距离,用P5表示,P5=|x6-x5|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于侧面脸部表情特征值P3至P5的影响,步骤c.4中所述计算侧面脸部表情特征值P3至P5的优选方法是:在步骤c.4操作的基础上,在每个侧面视角图像序列中的第n帧图像中,1<n<nS,将P3至P5这三个侧面脸部特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
步骤c.5:使用步骤c.4中得到的侧面视角图像序列中每帧图像的5个侧面脸部表情特征值P1至P5构成该图像的特征向量,用符号Fq′′表示,Fq′′=[fq1′′,fq2′′,...,fq5′′]T。其中,1≤q≤nS,fq1′′为所述侧面视角图像序列的第q帧图像中第1个侧面脸部表情特征值P1,fq2′′为所述侧面视角图像序列的第q帧图像中第2个侧面脸部表情特征值P2,……,以此类推,fq5′′为所述侧面视角图像序列的第q帧图像中第5个正面脸部表情特征值P5
步骤c.6:计算第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的特征向量的均值,用符号
Figure BDA00003534763300071
表示,
Figure BDA00003534763300072
其中,
Figure BDA00003534763300073
表示第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的第j个特征值的均值,1≤j≤5。
步骤c.7:使用Fq′′和
Figure BDA00003534763300074
之间的欧几里得距离表示步骤c.1中所述侧面视角图像序列中第q帧图像的特征。Fq′′和
Figure BDA00003534763300075
之间的欧几里得距离用符号DP(q)表示,DP(q)可通过公式(3)得到。
D F ( q ) = ( Σ j = 1 5 ( f qj ′ ′ - f ‾ j ′ ′ ) 2 ) 1 / 2    (3)
步骤c.8:步骤c.1中所述侧面视角图像序列中nS帧图像的特征DP(q)组成了该侧面视频的侧面视角特征数据。
步骤2.2:使用步骤2.1中得到的正面视角特征数据作为步骤一中建立的神经网络分类器的输入,将产生该正面视角特征数据的正面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该正面视角特征数据的正面视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0。然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到正面视角神经网络分类器。所述正面视角神经网络分类器为nS-nH-nL完全连接的拓扑结构。
步骤2.3:使用步骤2.1中得到的侧面视角特征数据作为步骤一中建立的神经网络分类器的输入,将产生该侧面视角特征数据的侧面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该侧面视角特征数据的侧面视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0。然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到侧面视角神经网络分类器。所述侧面视角神经网络分类器为nS-nH-nL完全连接的拓扑结构。
步骤2.4:使用步骤2.1中得到的语音特征数据作为步骤一中建立的神经网络分类器的输入,将产生该语音特征数据的正面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该语音特征数据的正面视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0。然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到音频神经网络分类器。所述音频神经网络分类器为nY-nH-nL完全连接的拓扑结构。
步骤2.2、步骤2.3和步骤2.4中所述训练神经网络分类器的方法为反向传播算法。
步骤三、建立基于神经网络的多模态融合分类器。
此步骤可以与步骤一同步操作:基于神经网络的多模态融合分类器为包含输入层、隐含层和输出层的三层结构的神经网络。其输入层的节点数用符号NI表示,NI=3×nL。其隐含层的节点数用符号NH表示,4≤NH≤10。其输出层包含2种节点,分别为情感类别输出节点和线索节点。输出层的节点数用符号NO表示,NO=NL+NX。其中,NL表示情感类别输出节点的数量,每个情感类别输出节点对应一种情感类别,NL=nL。NX表示线索节点的数量,在训练阶段,NX的取值为4,并且4个线索节点分别对应活跃度-评价度(activation-evaluation)空间上的4种粗粒度情感类别,即活跃度-评价度(activation-evaluation)空间上的四个象限,分别为:积极-正、消极-正、积极-负、消极-负。其中,积极和消极是活跃度-评价度(activation-evaluation)空间中活跃度维度上的两个取值,正和负是活跃度-评价度(activation-evaluation)空间中评价度维度上的两个取值。
所述基于神经网络的多模态融合分类器为NI-NH-NO完全连接的拓扑结构。
步骤四、训练基于神经网络的多模态融合分类器。
在步骤二和步骤三操作的基础上,使用第二训练样本集里的训练样本中人的正面视角特征数据、侧面视角特征数据和语音特征数据训练基于神经网络的多模态融合分类器。
第二训练样本集里包含NL种情感的训练数据,并且NL种情感类别与第一训练样本集里的训练数据的情感类别相同。第二训练样本集里每种情感的训练数据由多个训练样本对组成,每种情感的训练样本对的数量不小于20个。每个训练样本对由2条情感视频组成,分别为同步拍摄的正面视频和侧面视频。正面视频是包含人的正面脸部表情和语音的视频数据,侧面视频是包含人的侧面脸部表情的视频数据。每条情感视频都开始于中性表情。
第二训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注,一种是离散的情感类别标注,另一种是在活跃度-评价度(activation-evaluation)空间的4种粗粒度情感类别标注,即:积极-正、消极-正、积极-负、消极-负。并且,每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一致的,在活跃度-评价度(activation-evaluation)空间的粗粒度情感类别上的标注结果也是一致的。
第二训练样本集里的训练数据可以与第一训练样本集里的训练数据一样,也可以不一样。
所述训练基于神经网络的多模态融合分类器的具体操作步骤为:
步骤4.1:依次对第二训练样本集里的每个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据;对第二训练样本集里的每个训练样本对中的侧面视频做预处理,得到侧面视角特征数据。
所述对第二训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据的操作步骤一致。
所述对第二训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤一致。
步骤4.2:将步骤4.1中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入,然后运算该正面视角神经网络分类器,得到该正面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第1至第nL个输入节点的输入。
步骤4.3:将步骤4.1中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入,然后运算该侧面视角神经网络分类器,得到该侧面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第(nL+1)至第(2×nL)个输入节点的输入。
步骤4.4:将步骤4.1中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入,然后运算该音频神经网络分类器,得到该音频神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第(2×nL+1)至第(3×nL)个输入节点的输入。
步骤4.5:在基于神经网络的多模态融合分类器中,将产生步骤4.1中所述正面视角特征数据的正面视频所标注的离散情感类别对应的输出节点的值设置为1,同时将产生步骤4.1中所述正面视角特征数据的正面视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0。然后,训练该基于神经网络的多模态融合分类器,直至训练结束,确定网络权值,然后去除掉该基于神经网络的多模态融合分类器输出层的4个线索节点,得到多模态融合分类器。所述多模态融合分类器为NI-NH-nL完全连接的拓扑结构。
步骤4.2中所述运算正面视角神经网络分类器的运算模式、步骤4.3中所述运算侧面视角神经网络分类器的运算模式以及步骤4.4中所述运算音频神经网络分类器的运算模式均为前馈运算。
步骤4.5中所述训练基于神经网络的多模态融合分类器的方法为反向传播算法。
所述识别过程的具体实施步骤包括步骤五至步骤六,具体为:
步骤五、对待识别情感视频对中正面视频做预处理,得到正面视角特征数据和语音特征数据;对待识别情感视频对中侧面视频做预处理,得到侧面视角特征数据。
所述从待识别情感视频对中得到正面视角特征数据的具体步骤与训练过程的步骤二中所述得到正面视角特征数据的具体步骤一致。
所述从待识别情感视频对中得到语音特征数据的具体步骤与训练过程的步骤二中所述得到语音特征数据的具体步骤为一致。
所述从待识别情感视频对中得到侧面视角特征数据的具体步骤与训练过程的步骤二中所述得到侧面视角特征数据的具体步骤一致。
步骤六、判断待识别情感视频对的情感类别,具体过程为:
步骤6.1:将步骤五中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入,运算该正面视角神经网络分类器,得到该正面视角神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第1至第nL个输入节点的输入。
步骤6.2:将步骤五中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入,运算该侧面视角神经网络分类器,得到该侧面视角神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第(nL+1)至第(2×nL)个输入节点的输入。
步骤6.3:将步骤五中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入,运算该音频神经网络分类器,得到该音频神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第(2×nL+1)至第(3×nL)个输入节点的输入。
步骤6.4:运算多模态融合分类器,得到多模态融合分类器输出层各节点的输出值,然后从该运算多模态融合分类器的输出节点中选取出产生最大输出值的输出节点,将该节点对应的情感类别作为待识别情感视频对的情感类别。
步骤6.4中所述运算多模态融合分类器的运算模式为前馈运算。
有益效果
本发明提出的基于线索神经网络的语音-视觉融合情感识别方法,融合了正面脸部表情、侧面脸部表情和语音三种特征流,在特征分类器和多模态融合分类器中采用了三层神经网络,并且在训练阶段,在神经网络的输出层中均加入了4个线索节点,改进了特征选择,与已有识别方法相比较明显提高了分类的准确度,特别是在训练样本数较少的情况下,效果更加明显。
附图说明
图1为本发明实施例中神经网络分类器的三层结构示意图;
图2为本发明实施例中正面视角图像序列中一帧图像的10个正面脸部表情特征值T1至T10的位置示意图;
其中,1-正面脸部表情特征值T1;2-正面脸部表情特征值T2;3-正面脸部表情特征值T3;4-正面脸部表情特征值T4;5-正面脸部表情特征值T5;6-正面脸部表情特征值T6;7-正面脸部表情特征值T7;8-正面脸部表情特征值T8;9-正面脸部表情特征值T9;10-正面脸部表情特征值T10
图3为本发明实施例中侧面视角图像序列中一帧图像的5个侧面脸部表情特征值P1至P5
其中,11-侧面脸部表情特征值P1;12-侧面脸部表情特征值P2;13-侧面脸部表情特征值P3;14-侧面脸部表情特征值P4;15-侧面脸部表情特征值P5
图4为本发明实施例中基于神经网络的多模态融合分类器的三层结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明方法的实施方式做详细说明。
本实施例中,6个实验者(3男3女)在引导式(Wizard of Oz)场景下朗读带有7种离散的基本情感(高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性)的句子,2台摄像机同步拍下正面视角的脸部视频、侧面视角的脸部视频和语音数据。场景脚本中,每一种情感有3个不同的句子,每个人将每句话重复5遍。
。随机选择三个人的情感数据作为第一训练数据集,用于训练使用单通道特征数据流的三个神经网络。再随机选择两个人的情感数据作为第二训练数据集,用于训练多模态融合神经网络。将剩下那个人的情感数据作为测试集合,整个识别过程是独立于实验者的。实验中执行6重交叉验证。第一训练样本集和第二训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注,一种是离散的情感类别标注,另一种是在活跃度-评价度(activation-evaluation)空间的4种粗粒度情感类别标注,即:积极-正、消极-正、积极-负、消极-负。并且,每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一致的,在活跃度-评价度(activation-evaluation)空间的粗粒度情感类别上的标注结果也是一致的。
高兴、悲伤、愤怒、厌恶、恐惧和惊讶6种离散的基本情感类别在活跃度-评价度(activation-evaluation)空间中分别对应:积极-正、消极-负、积极-负、消极-负、积极-负、积极-正。中性情感在活跃度-评价度(activation-evaluation)空间对应原点,即中性情感在活跃度-评价度(activation-evaluation)空间不对应任何一个类别。
所述训练过程的具体实施步骤如下:
步骤一、建立神经网络分类器。
所述神经网络分类器为包含输入层、隐含层和输出层的三层结构神经网络,如图1所示。其输入层的节点数用符号nI表示,当所述神经网络分类器的输入为人的正面视角特征数据和侧面视角特征数据时,nI=nS=25;当所述神经网络分类器的输入为语音特征数据时,nI=nY=50。所述神经网络分类器隐含层的节点数用符号nH表示,nH=5。所述神经网络分类器输出层包含2种节点,分别称为情感类别输出节点和线索节点。输出层的节点数用符号nO表示,nO=nL+nX。其中,nL表示情感类别输出节点的数量,每个情感类别输出节点对应一种情感类别,nL=7。nX表示线索节点的数量,在训练阶段,nX的取值为4,并且4个线索节点分别对应活跃度-评价度(activation-evaluation)空间上的4种粗粒度情感类别,即活跃度-评价度(activation-evaluation)空间上的四个象限,分别为:积极-正、消极-正、积极-负、消极-负。其中,积极和消极是活跃度-评价度(activation-evaluation)空间中活跃度维度上的两个取值,正和负是活跃度-评价度(activation-evaluation)空间中评价度维度上的两个取值。图1中,节点
Figure BDA00003534763300141
为输入层节点;节点
Figure BDA00003534763300142
为隐含节点;节点o1,o2,…,o11为输出层节点。
所述神经网络分类器为nI-nH-nO完全连接的拓扑结构。
步骤二、在步骤一的基础上,使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面视角特征数据和语音特征数据分别训练一个神经网络分类器。
所述使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面视角特征数据和语音特征数据分别训练一个神经网络分类器的过程为:
步骤2.1:依次对第一训练样本集里的每个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据;对第一训练样本集里的每个训练样本对中的侧面视频做预处理,得到侧面视角特征数据。
所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据的操作步骤为:
步骤a.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nS帧图像,构成一个正面视角图像序列。
步骤a.2:在步骤a.1中得到的正面视角图像序列中的第一帧图像中标识出20个正面脸部特征点;其中,第1、2正面脸部特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4正面脸部特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6正面脸部特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8正面脸部特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10正面脸部特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12正面脸部特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14正面脸部特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15正面脸部特征点位于鼻尖位置,用(x15,y15)表示;第16、17正面脸部特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19正面脸部特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20正面脸部特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
使用基于Gabor特征的增强分类器方法实现对20个正面脸部特征点的自动定位。
步骤a.3:根据步骤a.2中得到的正面视角图像序列中的第一帧图像中的20个正面脸部特征点的位置,使用基于分解概率的粒子滤波跟踪算法定位出该正面视角图像序列中除第一帧图像以外的后续帧图像中的20个正面脸部特征点。
步骤a.4:依次计算步骤a.2中得到的正面视角图像序列中各帧图像的10个正面脸部表情特征值T1至T10,如图2所示,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至T10的影响,在步骤a.4操作的基础上,在每个图像序列中的第n帧图像中,1<n<nS,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
步骤a.5:使用步骤a.4中得到的正面视角图像序列中每帧图像的10个正面脸部表情特征值T1至T10构成该图像的特征向量,用符号Fq表示,Fq=[fq1,fq2,...,fq10]T。其中,1≤q≤nS,fq1为所述正面视角图像序列的第q帧图像中第1个正面脸部表情特征值T1,fq2为所述正面视角图像序列的第q帧图像中第2个正面脸部表情特征值T2,……,以此类推,fq10为所述正面视角图像序列的第q帧图像中第10个正面脸部表情特征值T10
步骤a.6:计算第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的特征向量的均值,用符号
Figure BDA00003534763300151
表示,
Figure BDA00003534763300152
其中,
Figure BDA00003534763300153
表示第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的第k个特征值的均值,1≤k≤10。
步骤a.7:使用Fq
Figure BDA00003534763300164
之间的欧几里得距离表示步骤a.1中所述正面视角图像序列中第q帧图像的特征。Fq
Figure BDA00003534763300165
之间的欧几里得距离用符号DF(q)表示。DF(q)可通过公式(1)得到。
步骤a.8:步骤a.1中所述正面视角图像序列中nS帧图像的特征DF(q)组成了该正面视频的正面视角特征数据。
所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到语音特征数据语音特征数据的操作步骤为:
步骤b.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nY个语音帧,构成一条语音序列。
步骤b.2:依次从步骤b.1得到的语音序列的每个语音帧中提取α个音频特征值,分别用F1~Fα表示,α=14。14个音频特征值具体为:信号强度;基音频率和12个Mel频率倒谱系数。
步骤b.3:从步骤b.2中所述语音序列里的一个语音帧提取的α个音频特征值组成一个音频特征向量,用Vt表示,Vt=[f′t1,f′t2,……,f′]T,1≤t≤nY。f′t1为步骤所述语音序列的第t帧语音帧中第1个音频特征值F1,f′t2为所述语音序列的第t帧语音帧中第2个音频特征值F2,……,以此类推,f′为所述语音序列的第t帧语音帧中第α个音频特征值Fα
步骤b.4:从第一训练数据集里找出与步骤b.1中所述正面视频中的音频为同一发声人物的所有中性情感的正面视频,并计算出由这些正面视频得到的语音序列中各语音帧对应的音频特征向量的均值,用符号
Figure BDA00003534763300161
表示,
Figure BDA00003534763300162
其中,
Figure BDA00003534763300163
表示由第一训练样本集中所有与步骤b.1中所述正面视频中的音频为同一发声人物的所有中性情感的正面视频得到的语音序列中各语音帧的第i个特征值的均值,1≤i<α。
步骤b.5:使用步骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向量的均值
Figure BDA00003534763300166
之间的距离表示步骤b.1得到的语音序列的第t个语音帧的特征。步骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向量的均值
Figure BDA00003534763300167
之间的距离用符号DV(t)表示,DV(t)可通过公式(2)得到。
步骤b.6:步骤b.1中所述语音序列中nY个语音帧的特征DV(t)组成了该正面视频的语音特征数据。
所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤为:
步骤c.1:从所述训练样本对中的侧面视频中以均等的时间间隔提取nS帧图像,构成一个侧面视角图像序列。
步骤c.2:在步骤c.1中得到的侧面视角图像序列中的第一帧图像中人工手动标识出6个侧面脸部特征点;其中,第1侧面脸部特征点位于眉头位置,用(x1′,y1′)表示;第2侧面脸部特征点位于鼻尖位置,用(x′2,y′2)表示;第3侧面脸部特征点分别位于上唇与侧面脸部轮廓线相交的交点位置,用(x3′,y3′)表示;第4侧面脸部特征点位于嘴角位置,用(x′4,y′4)表示;第5侧面脸部特征点位于下唇与侧面脸部轮廓线相交的交点位置,用(x5′,y5′)表示;第6侧面脸部特征点位于耳孔位置,用(x′6,y′6)表示。
步骤c.3:根据步骤c.2中得到的侧面视角图像序列中的第一帧图像中的6个侧面脸部特征点的位置,使用基于分解概率的粒子滤波跟踪算法定位出该侧面视角图像序列中除第一帧图像以外的后续帧图像中的6个侧面脸部特征点。
步骤c.4:依次计算步骤c.2中得到的侧面视角图像序列中各帧图像的5个侧面脸部表情特征值P1至P5,如图3所示,具体为:(1)耳孔与第1侧面脸部特征点的水平距离,用P1表示,P1=|x6-x1|;(2)耳孔与第2侧面脸部特征点的水平距离,用P2表示,P2=|x6-x2|;(3)耳孔与第3侧面脸部特征点的水平距离,用P3表示,P3=|x6-x3|;(4)耳孔与第4侧面脸部特征点的水平距离,用P4表示,P4=|x6-x4|;(5)耳孔与第5侧面脸部特征点的水平距离,用P5表示,P5=|x6-x5|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于侧面脸部表情特征值P3至P5的影响,在步骤c.4操作的基础上,在每个侧面视角图像序列中的第n帧图像中,1<n<nS,将P3至P5这三个侧面脸部特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
步骤c.5:使用步骤c.4中得到的侧面视角图像序列中每帧图像的5个侧面脸部表情特征值P1至P5构成该图像的特征向量,用符号Fq′′表示,Fq′′=[fq1′′,fq2′′,...,fq5′′]T。其中,1≤q≤nS,fq1′′为所述侧面视角图像序列的第q帧图像中第1个侧面脸部表情特征值P1,fq2′′为所述侧面视角图像序列的第q帧图像中第2个侧面脸部表情特征值P2,……,以此类推,fq5′′为所述侧面视角图像序列的第q帧图像中第5个正面脸部表情特征值P5
步骤c.6:计算第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的特征向量的均值,用符号
Figure BDA00003534763300181
表示,
Figure BDA00003534763300182
其中,
Figure BDA00003534763300183
表示第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的第j个特征值的均值,1≤j<5。
步骤c.7:使用Fq′′和
Figure BDA00003534763300184
之间的欧几里得距离表示步骤c.1中所述侧面视角图像序列中第q帧图像的特征。Fq′′和之间的欧几里得距离用符号DP(q)表示,DP(q)可通过公式(3)得到。
步骤c.8:步骤c.1中所述侧面视角图像序列中nS帧图像的特征DP(q)组成了该侧面视频的侧面视角特征数据。
步骤2.2:使用步骤2.1中得到的正面视角特征数据作为步骤一中建立的神经网络分类器的输入,将产生该正面视角特征数据的正面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该正面视角特征数据的正面视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0。然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到正面视角神经网络分类器。所述正面视角神经网络分类器为nS-nH-nL完全连接的拓扑结构。
步骤2.3:使用步骤2.1中得到的侧面视角特征数据作为步骤一中建立的神经网络分类器的输入,将产生该侧面视角特征数据的侧面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该侧面视角特征数据的侧面视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0。然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到侧面视角神经网络分类器。所述侧面视角神经网络分类器为nS-nH-nL完全连接的拓扑结构。
步骤2.4:使用步骤2.1中得到的语音特征数据作为步骤一中建立的神经网络分类器的输入,将产生该语音特征数据的正面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该语音特征数据的正面视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0。然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到音频神经网络分类器。所述音频神经网络分类器为nY-nH-nL完全连接的拓扑结构。
步骤2.2、步骤2.3和步骤2.4中所述训练神经网络分类器的方法为反向传播算法。
步骤三、建立基于神经网络的多模态融合分类器。
此步骤可以与步骤一同步操作:基于神经网络的多模态融合分类器为包含输入层、隐含层和输出层的三层结构的神经网络,如图4所示。其输入层的节点数用符号NI表示,NI=21。其隐含层的节点数用符号NH表示,NH=4。其输出层包含2种节点,分别为情感类别输出节点和线索节点。输出层的节点数用符号NO表示,NO=NL+NX。其中,NL表示情感类别输出节点的数量,每个情感类别输出节点对应一种情感类别,NL=7。NX表示线索节点的数量,在训练阶段,NX的取值为4,并且4个线索节点分别对应活跃度-评价度(activation-evaluation)空间上的4种粗粒度情感类别,即活跃度-评价度(activation-evaluation)空间上的四个象限,分别为:积极-正、消极-正、积极-负、消极-负。其中,积极和消极是活跃度-评价度(activation-evaluation)空间中活跃度维度上的两个取值,正和负是活跃度-评价度(activation-evaluation)空间中评价度维度上的两个取值。图4中,节点i1,i2,…,i21为输入层节点;节点
Figure BDA00003534763300191
为隐含节点;节点o1,o2,…,o11为输出层节点。
所述基于神经网络的多模态融合分类器为NI-NH-NO完全连接的拓扑结构。
步骤四、训练基于神经网络的多模态融合分类器。
在步骤二和步骤三操作的基础上,使用第二训练样本集里的训练样本中人的正面视角特征数据、侧面视角特征数据和语音特征数据训练基于神经网络的多模态融合分类器。
所述训练基于神经网络的多模态融合分类器的具体操作步骤为:
步骤4.1:依次对第二训练样本集里的每个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据;对第二训练样本集里的每个训练样本对中的侧面视频做预处理,得到侧面视角特征数据。
所述对第二训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据的操作步骤一致。
所述对第二训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤一致。
步骤4.2:将步骤4.1中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入,然后运算该正面视角神经网络分类器,得到该正面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第1至第7个输入节点的输入。
步骤4.3:将步骤4.1中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入,然后运算该侧面视角神经网络分类器,得到该侧面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第8至第14个输入节点的输入。
步骤4.4:将步骤4.1中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入,然后运算该音频神经网络分类器,得到该音频神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第15至第21个输入节点的输入。
步骤4.5:在基于神经网络的多模态融合分类器中,将产生步骤4.1中所述正面视角特征数据的正面视频所标注的离散情感类别对应的输出节点的值设置为1,同时将产生步骤4.1中所述正面视角特征数据的正面视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0。然后,训练该基于神经网络的多模态融合分类器,直至训练结束,确定网络权值,然后去除掉该基于神经网络的多模态融合分类器输出层的4个线索节点,得到多模态融合分类器。所述多模态融合分类器为NI-NH-nL完全连接的拓扑结构。
步骤4.2中所述运算正面视角神经网络分类器的运算模式、步骤4.3中所述运算侧面视角神经网络分类器的运算模式以及步骤4.4中所述运算音频神经网络分类器的运算模式均为前馈运算。
步骤4.5中所述训练基于神经网络的多模态融合分类器的方法为反向传播算法。
所述识别过程的具体实施步骤包括步骤五至步骤六,具体为:
步骤五、对待识别情感视频对中正面视频做预处理,得到正面视角特征数据和语音特征数据;对待识别情感视频对中侧面视频做预处理,得到侧面视角特征数据。
所述从待识别情感视频对中得到正面视角特征数据的具体步骤与训练过程的步骤二中所述得到正面视角特征数据的具体步骤一致。
所述从待识别情感视频对中得到语音特征数据的具体步骤与训练过程的步骤二中所述得到语音特征数据的具体步骤为一致。
所述从待识别情感视频对中得到侧面视角特征数据的具体步骤与训练过程的步骤二中所述得到侧面视角特征数据的具体步骤一致。
步骤六、判断待识别情感视频对的情感类别,具体过程为:
步骤6.1:将步骤五中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入,运算该正面视角神经网络分类器,得到该正面视角神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第1至第7个输入节点的输入。
步骤6.2:将步骤五中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入,运算该侧面视角神经网络分类器,得到该侧面视角神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第8至第14个输入节点的输入。
步骤6.3:将步骤五中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入,运算该音频神经网络分类器,得到该音频神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第15至第21个输入节点的输入。
步骤6.4:运算多模态融合分类器,得到多模态融合分类器输出层各节点的输出值,然后从该运算多模态融合分类器的输出节点中选取出产生最大输出值的输出节点,将该节点对应的情感类别作为待识别情感视频对的情感类别。
步骤6.4中所述运算多模态融合分类器的运算模式为前馈运算。
经过上述步骤的操作,得到的7种基本情感的识别率以及平均准确率结果如表1第6列所示。
为了对比本发明提出方法的有效性,使用相同的训练数据和测试数据,分别采用以下4种方法进行识别:①单一正面视角视觉特征HMM(frontal-viewHMM)分类器(隐状态数为5);②单一侧面视角视觉特征HMM(profile-view HMM)分类器(隐状态数为5);③单一语音特征HMM(audio HMM)分类器(隐状态数为6);④常规的3-链耦合HMM(3-chain CHMM)分类器,得到的7种表情的识别率以及平均准确率结果如表1第2列至第5列所示。
表1不同方法的识别准确率(%)对比表
frontal-view HMM profile-view HMM audio HMM 3-chain CHMM 本发明方法
高兴 62.2 57.8 54.4 78.9 92.6
悲伤 43.3 45.6 60 81.1 84.7
恐惧 60 54.4 80 84.4 91.2
厌恶 45.6 44.4 76.7 83.3 84.6
惊讶 73.3 53.3 75.6 91.1 94.7
愤怒 70 41.1 83.3 90 92.3
中性 80 62.2 85.6 93.3 95.8
平均准确率 62.1 51.3 73.7 86 90.84
通过对比可以看出,常规CHMM的识别准确率大大高于单模态的HMM方法,因为CHMM使用了模型层融合技术,可以有效利用所有通道的互补信息。本发明提出的方法利用线索神经网络来进行多模态融合和情感识别,在保持较低计算量的同时得到了更好的识别性能。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于线索神经网络的语音-视觉融合情感识别方法,用于识别情感视频中人的情感,其特征在于:其识别过程包括2部分:训练过程和识别过程;
所述训练过程的具体实施步骤包括步骤一至步骤四,具体为:
步骤一、建立神经网络分类器;
所述神经网络分类器为包含输入层、隐含层和输出层的三层结构神经网络;其输入层的节点数用符号nI表示,当所述神经网络分类器的输入为人的正面视角特征数据和侧面脸部表情特征数据时,nI=nS,10≤nS≤80;当所述神经网络分类器的输入为语音特征数据时,nI=nY,20≤nY≤200;所述神经网络分类器隐含层的节点数用符号nH表示,4≤nH≤10;所述神经网络分类器输出层包含2种节点,分别称为情感类别输出节点和线索节点;输出层的节点数用符号nO表示,nO=nL+nX;其中,nL表示情感类别输出节点的数量,每个情感类别输出节点对应一种情感类别,2≤nL≤15;nX表示线索节点的数量,在训练阶段,nX的取值为4,并且4个线索节点分别对应活跃度-评价度空间上的4种粗粒度情感类别,即活跃度-评价度空间上的四个象限,分别为:积极-正、消极-正、积极-负、消极-负;其中,积极和消极是活跃度-评价度空间中活跃度维度上的两个取值,正和负是活跃度-评价度空间中评价度维度上的两个取值;
所述神经网络分类器为nI-nH-nO完全连接的拓扑结构;
步骤二、在步骤一的基础上,使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面脸部表情特征数据和语音特征数据分别训练一个神经网络分类器;
第一训练样本集里包含nL种情感的训练数据,nL种情感中包含中性情感;每种情感的训练数据由多个训练样本对组成,每种情感的训练样本对的数量不小于20个;每个训练样本对由2条情感视频组成,分别为同步拍摄的正面视频和侧面视频;正面视频是包含人的正面脸部表情和语音的视频数据,侧面视频是包含人的侧面脸部表情的视频数据;每条情感视频都开始于中性表情;
第一训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注,一种是离散的情感类别标注,另一种是在活跃度-评价度空间的4种粗粒度情感类别标注;并且,每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一致的,在活跃度-评价度空间的粗粒度情感类别上的标注结果也是一致的;
所述使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面脸部表情特征数据和语音特征数据分别训练一个神经网络分类器的过程为:
步骤2.1:依次对第一训练样本集里的每个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据;对第一训练样本集里的每个训练样本对中的侧面视频做预处理,得到侧面视角特征数据;
所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据的操作步骤为:
步骤a.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nS帧图像,构成一个正面视角图像序列;
步骤a.2:在步骤a.1中得到的正面视角图像序列中的第一帧图像中标识出20个正面脸部特征点;其中,第1、2正面脸部特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4正面脸部特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6正面脸部特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8正面脸部特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10正面脸部特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12正面脸部特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14正面脸部特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15正面脸部特征点位于鼻尖位置,用(x15,y15)表示;第16、17正面脸部特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19正面脸部特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20正面脸部特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示;
步骤a.3:根据步骤a.2中得到的正面视角图像序列中的第一帧图像中的20个正面脸部特征点的位置,定位出该正面视角图像序列中除第一帧图像以外的后续帧图像中的20个正面脸部特征点;
步骤a.4:依次计算步骤a.2中得到的正面视角图像序列中各帧图像的10个正面脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|;
步骤a.5:使用步骤a.4中得到的正面视角图像序列中每帧图像的10个正面脸部表情特征值T1至T10构成该图像的特征向量,用符号Fq表示,Fq=[fq1,fq2,...,fq10]T;其中,1≤q≤nS,fq1为所述正面视角图像序列的第q帧图像中第1个正面脸部表情特征值T1,fq2为所述正面视角图像序列的第q帧图像中第2个正面脸部表情特征值T2,……,以此类推,fq10为所述正面视角图像序列的第q帧图像中第10个正面脸部表情特征值T10
步骤a.6:计算第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的特征向量的均值,用符号
Figure FDA00003534763200031
表示,
Figure FDA00003534763200032
其中,
Figure FDA00003534763200033
表示第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的第k个特征值的均值,1≤k≤10;
步骤a.7:使用Fq
Figure FDA00003534763200034
之间的欧几里得距离表示步骤a.1中所述正面视角图像序列中第q帧图像的特征;Fq
Figure FDA00003534763200035
之间的欧几里得距离用符号DF(q)表示;DF(q)可通过公式(1)得到;
D F ( q ) = ( Σ k = 1 10 ( f qk - f k ‾ ) 2 ) 1 / 2    (1)
步骤a.8:步骤a.1中所述正面视角图像序列中nS帧图像的特征DF(q)组成了该正面视频的正面视角特征数据;
所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到语音特征数据的操作步骤为:
步骤b.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nY个语音帧,构成一条语音序列;
步骤b.2:依次从步骤b.1得到的语音序列的每个语音帧中提取α个音频特征值,分别用F1~Fα表示,α≥4;
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数LPCC;线谱对参数LSP;Mel频率倒谱系数MFCC;感知线性预测倒谱系数PLPCC;
步骤b.3:从步骤b.2中所述语音序列里的一个语音帧提取的α个音频特征值组成一个音频特征向量,用Vt表示,Vt=[f′t1,f′t2,……,f′]T,1≤t≤nY;f′t1为步骤所述语音序列的第t帧语音帧中第1个音频特征值F1,f′t2为所述语音序列的第t帧语音帧中第2个音频特征值F2,……,以此类推,f′为所述语音序列的第t帧语音帧中第α个音频特征值Fα
步骤b.4:从第一训练数据集里找出与步骤b.1中所述正面视频中的音频为同一发声人物的所有中性情感的正面视频,并计算出由这些正面视频得到的语音序列中各语音帧对应的音频特征向量的均值,用符号
Figure FDA00003534763200041
表示,
Figure FDA00003534763200042
其中,
Figure FDA00003534763200043
表示由第一训练样本集中所有与步骤b.1中所述正面视频中的音频为同一发声人物的所有中性情感的正面视频得到的语音序列中各语音帧的第i个特征值的均值,1≤i<α;
步骤b.5:使用步骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向量的均值
Figure FDA00003534763200046
之间的距离表示步骤b.1得到的语音序列的第t个语音帧的特征;步骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向量的均值
Figure FDA00003534763200044
之间的距离用符号DV(t)表示,DV(t)可通过公式(2)得到;
D V ( t ) = ( Σ i = 1 α ( f ti ′ - f ‾ i ′ f ‾ i ′ ) 2 ) 1 / 2    (2)
步骤b.6:步骤b.1中所述语音序列中nY个语音帧的特征DV(t)组成了该正面视频的语音特征数据;
所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤为:
步骤c.1:从所述训练样本对中的侧面视频中以均等的时间间隔提取nS帧图像,构成一个侧面视角图像序列;
步骤c.2:在步骤c.1中得到的侧面视角图像序列中的第一帧图像中标识出6个侧面脸部特征点;其中,第1侧面脸部特征点位于眉头位置,用(x1′,y1′)表示;第2侧面脸部特征点位于鼻尖位置,用(x′2,y′2)表示;第3侧面脸部特征点分别位于上唇与侧面脸部轮廓线相交的交点位置,用(x3′,y3′)表示;第4侧面脸部特征点位于嘴角位置,用(x′4,y′4)表示;第5侧面脸部特征点位于下唇与侧面脸部轮廓线相交的交点位置,用(x5′,y5′)表示;第6侧面脸部特征点位于耳孔位置,用(x′6,y′6)表示;
步骤c.3:根据步骤c.2中得到的侧面视角图像序列中的第一帧图像中的6个侧面脸部特征点的位置,定位出该侧面视角图像序列中除第一帧图像以外的后续帧图像中的6个侧面脸部特征点;
所述定位出该侧面视角图像序列中除第一帧图像以外的后续帧图像中的6个侧面脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对6个侧面脸部特征点的自动跟踪;
步骤c.4:依次计算步骤c.2中得到的侧面视角图像序列中各帧图像的5个侧面脸部表情特征值P1至P5,具体为:(1)耳孔与第1侧面脸部特征点的水平距离,用P1表示,P1=|x6-x1|;(2)耳孔与第2侧面脸部特征点的水平距离,用P2表示,P2=|x6-x2|;(3)耳孔与第3侧面脸部特征点的水平距离,用P3表示,P3=|x6-x3|;(4)耳孔与第4侧面脸部特征点的水平距离,用P4表示,P4=|x6-x4|;(5)耳孔与第5侧面脸部特征点的水平距离,用P5表示,P5=|x6-x5|;
步骤c.5:使用步骤c.4中得到的侧面视角图像序列中每帧图像的5个侧面脸部表情特征值P1至P5构成该图像的特征向量,用符号Fq′′表示,Fq′′=[fq1′′,fq2′′,...,fq5′′]T;其中,1≤q≤nS,fq1′′为所述侧面视角图像序列的第q帧图像中第1个侧面脸部表情特征值P1,fq2′′为所述侧面视角图像序列的第q帧图像中第2个侧面脸部表情特征值P2,……,以此类推,fq5′′为所述侧面视角图像序列的第q帧图像中第5个正面脸部表情特征值P5
步骤c.6:计算第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的特征向量的均值,用符号
Figure FDA00003534763200051
表示,
Figure FDA00003534763200052
其中,
Figure FDA00003534763200053
表示第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的第j个特征值的均值,1≤j≤5;
步骤c.7:使用Fq′′和
Figure FDA00003534763200054
之间的欧几里得距离表示步骤c.1中所述侧面视角图像序列中第q帧图像的特征;Fq′′和
Figure FDA00003534763200061
之间的欧几里得距离用符号DP(q)表示,DP(q)可通过公式(3)得到;
D F ( q ) = ( Σ j = 1 5 ( f qj ′ ′ - f ‾ j ′ ′ ) 2 ) 1 / 2    (3)
步骤c.8:步骤c.1中所述侧面视角图像序列中nS帧图像的特征DP(q)组成了该侧面视频的侧面视角特征数据;
步骤2.2:使用步骤2.1中得到的正面视角特征数据作为步骤一中建立的神经网络分类器的输入,将产生该正面视角特征数据的正面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该正面视角特征数据的正面视频所标注的活跃度-评价度空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0;然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到正面视角神经网络分类器;所述正面视角神经网络分类器为nS-nH-nL完全连接的拓扑结构;
步骤2.3:使用步骤2.1中得到的侧面视角特征数据作为步骤一中建立的神经网络分类器的输入,将产生该侧面视角特征数据的侧面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该侧面视角特征数据的侧面视频所标注的活跃度-评价度空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0;然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到侧面视角神经网络分类器;所述侧面视角神经网络分类器为nS-nH-nL完全连接的拓扑结构;
步骤2.4:使用步骤2.1中得到的语音特征数据作为步骤一中建立的神经网络分类器的输入,将产生该语音特征数据的正面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该语音特征数据的正面视频所标注的活跃度-评价度空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0;然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到音频神经网络分类器;所述音频神经网络分类器为nY-nH-nL完全连接的拓扑结构;
步骤三、建立基于神经网络的多模态融合分类器;
此步骤可以与步骤一同步操作:基于神经网络的多模态融合分类器为包含输入层、隐含层和输出层的三层结构的神经网络;其输入层的节点数用符号NI表示,NI=3×nL;其隐含层的节点数用符号NH表示,4≤NH≤10;其输出层包含2种节点,分别为情感类别输出节点和线索节点;输出层的节点数用符号NO表示,NO=NL+NX;其中,NL表示情感类别输出节点的数量,每个情感类别输出节点对应一种情感类别,NL=nL;NX表示线索节点的数量,在训练阶段,NX的取值为4,并且4个线索节点分别对应活跃度-评价度空间上的4种粗粒度情感类别,即活跃度-评价度空间上的四个象限,分别为:积极-正、消极-正、积极-负、消极-负;其中,积极和消极是活跃度-评价度空间中活跃度维度上的两个取值,正和负是活跃度-评价度空间中评价度维度上的两个取值;
所述基于神经网络的多模态融合分类器为NI-NH-NO完全连接的拓扑结构;
步骤四、训练基于神经网络的多模态融合分类器;
在步骤二和步骤三操作的基础上,使用第二训练样本集里的训练样本中人的正面视角特征数据、侧面脸部表情特征数据和语音特征数据训练基于神经网络的多模态融合分类器;
第二训练样本集里包含NL种情感的训练数据,并且NL种情感类别与第一训练样本集里的训练数据的情感类别相同;第二训练样本集里每种情感的训练数据由多个训练样本对组成,每种情感的训练样本对的数量不小于20个;每个训练样本对由2条情感视频组成,分别为同步拍摄的正面视频和侧面视频;正面视频是包含人的正面脸部表情和语音的视频数据,侧面视频是包含人的侧面脸部表情的视频数据;每条情感视频都开始于中性表情;
第二训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注,一种是离散的情感类别标注,另一种是在活跃度-评价度空间的4种粗粒度情感类别标注,即:积极-正、消极-正、积极-负、消极-负;并且,每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一致的,在活跃度-评价度空间的粗粒度情感类别上的标注结果也是一致的;
第二训练样本集里的训练数据可以与第一训练样本集里的训练数据一样,也可以不一样;
所述训练基于神经网络的多模态融合分类器的具体操作步骤为:
步骤4.1:依次对第二训练样本集里的每个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据;对第二训练样本集里的每个训练样本对中的侧面视频做预处理,得到侧面视角特征数据;
所述对第二训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据的操作步骤一致;
所述对第二训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤一致;
步骤4.2:将步骤4.1中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入,然后运算该正面视角神经网络分类器,得到该正面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第1至第nL个输入节点的输入;
步骤4.3:将步骤4.1中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入,然后运算该侧面视角神经网络分类器,得到该侧面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第(nL+1)至第(2×nL)个输入节点的输入;
步骤4.4:将步骤4.1中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入,然后运算该音频神经网络分类器,得到该音频神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第(2×nL+1)至第(3×nL)个输入节点的输入;
步骤4.5:在基于神经网络的多模态融合分类器中,将产生步骤4.1中所述正面视角特征数据的正面视频所标注的离散情感类别对应的输出节点的值设置为1,同时将产生步骤4.1中所述正面视角特征数据的正面视频所标注的活跃度-评价度空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0;然后,训练该基于神经网络的多模态融合分类器,直至训练结束,确定网络权值,然后去除掉该基于神经网络的多模态融合分类器输出层的4个线索节点,得到多模态融合分类器;所述多模态融合分类器为NI-NH-nL完全连接的拓扑结构;
所述识别过程的具体实施步骤包括步骤五至步骤六,具体为:
步骤五、对待识别情感视频对中正面视频做预处理,得到正面视角特征数据和语音特征数据;对待识别情感视频对中侧面视频做预处理,得到侧面视角特征数据;
所述从待识别情感视频对中得到正面视角特征数据的具体步骤与训练过程的步骤二中所述得到正面视角特征数据的具体步骤一致;
所述从待识别情感视频对中得到语音特征数据的具体步骤与训练过程的步骤二中所述得到语音特征数据的具体步骤为一致;
所述从待识别情感视频对中得到侧面视角特征数据的具体步骤与训练过程的步骤二中所述得到侧面视角特征数据的具体步骤一致;
步骤六、判断待识别情感视频对的情感类别,具体过程为:
步骤6.1:将步骤五中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入,运算该正面视角神经网络分类器,得到该正面视角神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第1至第nL个输入节点的输入;
步骤6.2:将步骤五中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入,运算该侧面视角神经网络分类器,得到该侧面视角神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第(nL+1)至第(2×nL)个输入节点的输入;
步骤6.3:将步骤五中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入,运算该音频神经网络分类器,得到该音频神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第(2×nL+1)至第(3×nL)个输入节点的输入;
步骤6.4:运算多模态融合分类器,得到多模态融合分类器输出层各节点的输出值,然后从该运算多模态融合分类器的输出节点中选取出产生最大输出值的输出节点,将该节点对应的情感类别作为待识别情感视频对的情感类别。
2.如权利要求1所述的一种基于线索神经网络的语音-视觉融合情感识别方法,其特征在于:步骤二步骤a.2中所述标识20个正面脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个正面脸部特征点的自动定位。
3.如权利要求1或2所述的一种基于线索神经网络的语音-视觉融合情感识别方法,其特征在于:步骤二步骤a.3中所述定位出正面视角图像序列中除第一帧图像以外的后续帧图像中的20个正面脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个正面脸部特征点的自动跟踪。
4.如权利要求1至3之一所述的一种基于线索神经网络的语音-视觉融合情感识别方法,其特征在于:步骤二步骤a.4中所述计算正面脸部表情特征值T8至T10的优选方法是:在步骤a.4操作的基础上,在每个图像序列中的第n帧图像中,1<n<nS,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
5.如权利要求1至4之一所述的一种基于线索神经网络的语音-视觉融合情感识别方法,其特征在于:步骤二步骤c.2中所述标识6个侧面脸部特征点的方法包括:人工手动标识。
6.如权利要求1至5之一所述的一种基于线索神经网络的语音-视觉融合情感识别方法,其特征在于:步骤二步骤c.4中所述计算侧面脸部表情特征值P3至P5的优选方法是:在步骤c.4操作的基础上,在每个侧面视角图像序列中的第n帧图像中,1<n<nS,将P3至P5这三个侧面脸部特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
7.如权利要求1至6之一所述的一种基于线索神经网络的语音-视觉融合情感识别方法,其特征在于:步骤二中的步骤2.2、步骤2.3和步骤2.4中所述训练神经网络分类器的方法为反向传播算法。
8.如权利要求1至7之一所述的一种基于线索神经网络的语音-视觉融合情感识别方法,其特征在于:步骤四中的步骤4.2中所述运算正面视角神经网络分类器的运算模式、步骤4.3中所述运算侧面视角神经网络分类器的运算模式以及步骤4.4中所述运算音频神经网络分类器的运算模式均为前馈运算。
9.如权利要求1至8之一所述的一种基于线索神经网络的语音-视觉融合情感识别方法,其特征在于:步骤四中的步骤4.5中所述训练基于神经网络的多模态融合分类器的方法为反向传播算法。
10.如权利要求1至9之一所述的一种基于线索神经网络的语音-视觉融合情感识别方法,其特征在于:步骤六步骤6.4中所述运算多模态融合分类器的运算模式为前馈运算。
CN201310304011.4A 2013-07-19 2013-07-19 基于线索神经网络的语音-视觉融合情感识别方法 Expired - Fee Related CN103400145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310304011.4A CN103400145B (zh) 2013-07-19 2013-07-19 基于线索神经网络的语音-视觉融合情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310304011.4A CN103400145B (zh) 2013-07-19 2013-07-19 基于线索神经网络的语音-视觉融合情感识别方法

Publications (2)

Publication Number Publication Date
CN103400145A true CN103400145A (zh) 2013-11-20
CN103400145B CN103400145B (zh) 2016-08-10

Family

ID=49563763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310304011.4A Expired - Fee Related CN103400145B (zh) 2013-07-19 2013-07-19 基于线索神经网络的语音-视觉融合情感识别方法

Country Status (1)

Country Link
CN (1) CN103400145B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021373A (zh) * 2014-05-27 2014-09-03 江苏大学 一种半监督语音特征可变因素分解方法
CN104573741A (zh) * 2014-12-24 2015-04-29 杭州华为数字技术有限公司 一种特征选择方法及装置
CN105430383A (zh) * 2015-12-07 2016-03-23 广东电网有限责任公司珠海供电局 一种视频流媒体业务的体验质量评估方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105512687A (zh) * 2015-12-15 2016-04-20 北京锐安科技有限公司 训练情感分类模型和文本情感极性分析的方法及系统
CN105551499A (zh) * 2015-12-14 2016-05-04 渤海大学 面向语音与面部表情信号的情感可视化方法
CN105868694A (zh) * 2016-03-24 2016-08-17 中国地质大学(武汉) 基于面部表情和眼球动作的双模态情感识别方法及系统
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法
CN106408085A (zh) * 2016-08-31 2017-02-15 天津南大通用数据技术股份有限公司 使用单隐层解决非线性问题的bp神经网络分类方法
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN107633225A (zh) * 2017-09-18 2018-01-26 北京金山安全软件有限公司 一种信息获得方法及装置
CN108198265A (zh) * 2018-03-13 2018-06-22 成都数智凌云科技有限公司 基于语音和人脸复合识别的考勤系统
CN108229540A (zh) * 2017-12-08 2018-06-29 中国科学院自动化研究所 类脑多模态融合方法及装置
CN108846375A (zh) * 2018-06-29 2018-11-20 山东大学 一种基于神经网络的多模态协同学习方法及装置
CN108960337A (zh) * 2018-07-18 2018-12-07 浙江大学 一种基于深度学习模型的多模态复杂活动识别方法
CN108957418A (zh) * 2018-05-30 2018-12-07 西安电子科技大学 一种基于循环神经网络模型的雷达目标识别方法
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN109508783A (zh) * 2018-12-28 2019-03-22 杭州翼兔网络科技有限公司 情绪粗略划归模型构建及自动进行情绪粗略获取方法
CN110705413A (zh) * 2019-09-24 2020-01-17 清华大学 基于视线方向和lstm神经网络的情感预测方法及系统
CN110752042A (zh) * 2019-10-16 2020-02-04 广东韶钢松山股份有限公司 高炉炉缸状态确定方法、装置及电子设备
CN111626253A (zh) * 2020-06-02 2020-09-04 上海商汤智能科技有限公司 表情检测的方法、装置、电子设备及存储介质
WO2020216193A1 (zh) * 2019-04-24 2020-10-29 戴文跃 一种线索集成系统基础构成
CN112133406A (zh) * 2020-08-25 2020-12-25 合肥工业大学 基于情感图谱的多模态情感引导方法和系统、存储介质
CN113611286A (zh) * 2021-10-08 2021-11-05 之江实验室 一种基于共性特征提取的跨语种语音情感识别方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908149A (zh) * 2010-07-06 2010-12-08 北京理工大学 一种从人脸图像序列中识别脸部表情的方法
US8166109B2 (en) * 2007-06-21 2012-04-24 Cisco Technology, Inc. Linking recognized emotions to non-visual representations
CN102819744A (zh) * 2012-06-29 2012-12-12 北京理工大学 一种双通道信息融合的情感识别方法
CN102930297A (zh) * 2012-11-05 2013-02-13 北京理工大学 基于增强耦合hmm的语音-视觉融合的情感识别方法
CN102930298A (zh) * 2012-09-02 2013-02-13 北京理工大学 基于多层增强hmm的语音-视觉融合的情感识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8166109B2 (en) * 2007-06-21 2012-04-24 Cisco Technology, Inc. Linking recognized emotions to non-visual representations
CN101908149A (zh) * 2010-07-06 2010-12-08 北京理工大学 一种从人脸图像序列中识别脸部表情的方法
CN102819744A (zh) * 2012-06-29 2012-12-12 北京理工大学 一种双通道信息融合的情感识别方法
CN102930298A (zh) * 2012-09-02 2013-02-13 北京理工大学 基于多层增强hmm的语音-视觉融合的情感识别方法
CN102930297A (zh) * 2012-11-05 2013-02-13 北京理工大学 基于增强耦合hmm的语音-视觉融合的情感识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
PETRIDIS等: ""Audiovisual Discrimination between Laughter and Speech"", 《IEEE INT’L CONF.ACOUSTICS,SPEECH,AND SIGNAL PROCESSING(ICASSP)》, 30 April 2008 (2008-04-30) *
ZENG等: ""Audio–Visual Affective Expression Recognition Through Multistream Fused HMM"", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 10, no. 4, 30 June 2008 (2008-06-30), XP011214859 *
ZENG等: ""Training Combination Strategy of Multi-Stream Fused Hidden Markov Model for Audio-Visual Affect Recognition"", 《PROC.14TH ACM INT’L CONF.MULTIMEDIA(MULTIMEDIA’06)》, 23 October 2006 (2006-10-23) *
颜才柄: ""基于BP神经网络的语音情感识别算法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 September 2009 (2009-09-15) *
黄永明等: ""基于新双模融合算法的情感检测系统"", 《天津大学学报》, vol. 43, no. 12, 15 December 2010 (2010-12-15) *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015180368A1 (zh) * 2014-05-27 2015-12-03 江苏大学 一种半监督语音特征可变因素分解方法
CN104021373A (zh) * 2014-05-27 2014-09-03 江苏大学 一种半监督语音特征可变因素分解方法
CN104021373B (zh) * 2014-05-27 2017-02-15 江苏大学 一种半监督语音特征可变因素分解方法
CN104573741A (zh) * 2014-12-24 2015-04-29 杭州华为数字技术有限公司 一种特征选择方法及装置
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法
CN106297773B (zh) * 2015-05-29 2019-11-19 中国科学院声学研究所 一种神经网络声学模型训练方法
CN105430383A (zh) * 2015-12-07 2016-03-23 广东电网有限责任公司珠海供电局 一种视频流媒体业务的体验质量评估方法
CN105469065B (zh) * 2015-12-07 2019-04-23 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105551499A (zh) * 2015-12-14 2016-05-04 渤海大学 面向语音与面部表情信号的情感可视化方法
CN105512687A (zh) * 2015-12-15 2016-04-20 北京锐安科技有限公司 训练情感分类模型和文本情感极性分析的方法及系统
CN105868694A (zh) * 2016-03-24 2016-08-17 中国地质大学(武汉) 基于面部表情和眼球动作的双模态情感识别方法及系统
CN105868694B (zh) * 2016-03-24 2019-03-08 中国地质大学(武汉) 基于面部表情和眼球动作的双模态情感识别方法及系统
CN106408085A (zh) * 2016-08-31 2017-02-15 天津南大通用数据技术股份有限公司 使用单隐层解决非线性问题的bp神经网络分类方法
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN107633225A (zh) * 2017-09-18 2018-01-26 北京金山安全软件有限公司 一种信息获得方法及装置
CN108229540A (zh) * 2017-12-08 2018-06-29 中国科学院自动化研究所 类脑多模态融合方法及装置
CN108198265A (zh) * 2018-03-13 2018-06-22 成都数智凌云科技有限公司 基于语音和人脸复合识别的考勤系统
CN108957418A (zh) * 2018-05-30 2018-12-07 西安电子科技大学 一种基于循环神经网络模型的雷达目标识别方法
CN108846375A (zh) * 2018-06-29 2018-11-20 山东大学 一种基于神经网络的多模态协同学习方法及装置
CN108960337A (zh) * 2018-07-18 2018-12-07 浙江大学 一种基于深度学习模型的多模态复杂活动识别方法
CN108960337B (zh) * 2018-07-18 2020-07-17 浙江大学 一种基于深度学习模型的多模态复杂活动识别方法
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN109508783A (zh) * 2018-12-28 2019-03-22 杭州翼兔网络科技有限公司 情绪粗略划归模型构建及自动进行情绪粗略获取方法
CN109508783B (zh) * 2018-12-28 2021-07-20 沛誉(武汉)科技有限公司 情绪粗略划归模型构建及自动进行情绪粗略获取方法
WO2020216193A1 (zh) * 2019-04-24 2020-10-29 戴文跃 一种线索集成系统基础构成
CN110705413A (zh) * 2019-09-24 2020-01-17 清华大学 基于视线方向和lstm神经网络的情感预测方法及系统
CN110752042A (zh) * 2019-10-16 2020-02-04 广东韶钢松山股份有限公司 高炉炉缸状态确定方法、装置及电子设备
CN110752042B (zh) * 2019-10-16 2022-03-11 广东韶钢松山股份有限公司 高炉炉缸状态确定方法、装置及电子设备
CN111626253A (zh) * 2020-06-02 2020-09-04 上海商汤智能科技有限公司 表情检测的方法、装置、电子设备及存储介质
CN112133406A (zh) * 2020-08-25 2020-12-25 合肥工业大学 基于情感图谱的多模态情感引导方法和系统、存储介质
CN112133406B (zh) * 2020-08-25 2022-11-04 合肥工业大学 基于情感图谱的多模态情感引导方法和系统、存储介质
CN113611286A (zh) * 2021-10-08 2021-11-05 之江实验室 一种基于共性特征提取的跨语种语音情感识别方法和系统

Also Published As

Publication number Publication date
CN103400145B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN103400145A (zh) 基于线索神经网络的语音-视觉融合情感识别方法
CN102930298B (zh) 基于多层增强hmm的语音-视觉融合的情感识别方法
CN102819744B (zh) 一种双通道信息融合的情感识别方法
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN109409296B (zh) 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN109508669B (zh) 一种基于生成式对抗网络的人脸表情识别方法
CN102930297B (zh) 基于增强耦合hmm的语音-视觉融合的情感识别方法
Petridis et al. End-to-end audiovisual fusion with LSTMs
CN107679491A (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN106127156A (zh) 基于声纹和人脸识别的机器人交互方法
Yang et al. DCNN and DNN based multi-modal depression recognition
Jiang et al. Audio visual emotion recognition based on triple-stream dynamic bayesian network models
Hassanat Visual speech recognition
Datcu et al. Emotion recognition using bimodal data fusion
CN113158727A (zh) 一种基于视频和语音信息的双模态融合情绪识别方法
Song et al. Dynamic facial models for video-based dimensional affect estimation
CN108597501A (zh) 一种基于残差网络和双向门控循环单元的视听语音模型
Lu et al. Audio-visual emotion recognition with boosted coupled HMM
Si et al. Speech2video: Cross-modal distillation for speech to video generation
Jalal et al. Spatio-temporal context modelling for speech emotion classification
Petridis et al. Static vs. dynamic modeling of human nonverbal behavior from multiple cues and modalities
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
Al-Hames et al. A multi-modal mixed-state dynamic bayesian network for robust meeting event recognition from disturbed data
CN115472182A (zh) 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置
Arsic et al. Automatic extraction of geometric lip features with application to multi-modal speaker identification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160810

Termination date: 20200719