CN104835507A

CN104835507A - 一种串并结合的多模式情感信息融合与识别方法

Info

Publication number: CN104835507A
Application number: CN201510142265.XA
Authority: CN
Inventors: 韩志艳; 王健; 王东; 魏洪峰; 冯冠
Original assignee: Bohai University
Current assignee: Bohai University
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2015-08-12
Anticipated expiration: 2035-03-30
Also published as: CN104835507B

Abstract

本发明公开了一种串并结合的多模式情感信息融合与识别方法，属于情感识别技术领域。主要包括：情感信号获取；情感信号预处理；情感特征参数提取；特征参数融合与识别；本发明首先将提取的语音信号和面部表情信号特征参数进行融合，获得串行特征向量集，然后通过有放回的抽样获得M个并行的训练样本集，并利用Adaboost算法训练获得各子分类器。再采用双误差异性选择策略来度量两两分类器之间的差异性，最后运用多数投票原则进行投票，得到最终识别结果，实现对高兴、愤怒、惊奇、悲伤和恐惧五种人类基本情感进行识别。该方法充分发挥了决策层融合与特征层融合的优点，使整个情感信息的融合过程更加接近人类情感识别，从而提高了情感识别的准确性。

Description

一种串并结合的多模式情感信息融合与识别方法

技术领域

本发明属于情感识别技术领域，具体涉及一种串并结合的多模式情感信息融合与识别方法。

背景技术

近年来，情感识别的研究工作在人机交互领域中已经成为一个热点问题。国内外情感识别的研究主要有两大类，一类是单模式情感识别，另一类是多模式情感识别。所谓单模式情感识别为只从单一信息通道中获得当前对象的情感状态，如从语音信号、面部表情信号或生理信号(血压、体温、脉搏、心电、脑电、皮肤电阻等)等。虽然单一地依靠语音信号、面部表情信号或生理参数来进行情感识别的研究取得了一定的成果，但却存在着很多局限性，因为人类是通过多模式的方式表达情感信息的，它具有表达的复杂性和文化的相对性。比如，在噪声环境下，当某一个通道的特征受到干扰或缺失时，多模式方法能在某种程度上产生互补的效应，弥补了单模式的不足，所以研究多模式情感识别的方法十分必要。如Wagner等通过融合肌动电流、心电、皮肤电阻和呼吸4个通道的生理参数，进行了多模式情感识别，获得了较高的融合识别率。Kim等融合了肌动电流、心电、皮肤电导和呼吸4个通道的生理参数，并采用听音乐的方式来诱发情感，实现了对积极和消极两大类情感的高效识别。东南大学的赵力、黄程韦等通过融合语音信号与心电信号进行了多模式情感识别，获得较高的融合识别率。但是上述方法均为与生理信号相融合，而生理信号的测量必须与身体接触，因此对于此通道的信号获取有一定的困难，所以语音和面部表情作为两种最为主要的表征情感的方式，得到了广泛的研究。如Busso等分析了单一的语音情感识别与人脸表情识别在识别性能上的互补性，并分别讨论了在决策层融合与在特征层融合的效果。Hoch等通过融合语音与表情信息，在车载环境下进行了正面(愉快)、负面(愤怒)与平静等3种情感状态的识别，但该方法只是通过用加权线性组合的方式在决策层进行了融合。从一定意义上说，不同信道信息的融合是多模式情感识别研究的瓶颈问题，它直接关系到情感识别的准确性。目前，融合多模式情感信息的方法主要有2种：决策层的融合和特征层的融合。这两种方法各有优缺点，决策层的融合技术考虑了不同模式对于情感识别重要性的不同，因此他们通过主观感知实验给不同的模式赋予不同的权重，但是这种通过主观感知实验得到的权重能否应用到其他的情况下是值得怀疑的。特征层的融合技术更接近人类识别情感的过程，能更好地利用统计机器学习的技术，但是这种方法没有考虑到识别不同情感时，不同模式重要性的不同，因此这种方法不能最大程度地发挥多模式融合的优势。可以看出，目前对于情感信息融合技术的研究尚处于起步阶段，相应的基础理论和方法框架仍很欠缺。

发明内容

针对上述现有技术存在的不足，本发明提供一种串并结合的多模式情感信息融合与识别方法。

本发明的技术方案是：

一种串并结合的多模式情感信息融合与识别方法，包括以下步骤：

步骤1：情感信号获取；

首先诱发情感，再同步获取相应情感状态下的语音信号和面部表情信号，并将二者绑定存储；

步骤2、情感信号预处理；

步骤2-1、语音信号预处理；

对获取的语音信号进行预处理，包括预加重、分帧加窗和端点检测；

步骤2-2、面部表情信号预处理；

对获取的面部表情信号，首先进行脸部定位，然后进行图像几何特性归一化处理和图像光学特性归一化处理；

步骤3、情感特征参数提取；

步骤3-1、语音情感特征参数提取；

包括韵律特征和音质特征；

步骤3-2、面部表情特征参数提取；

对预处理后的面部表情信号，采用Gabor小波变换来提取面部表情特征参数，具体过程如下：

1)将预处理后的面部表情图像网格化；

2)用Gabor小波和网格化后的图像进行卷积；

3)取卷积结果的模的均值和方差作为面部表情特征参数；

4)用主成分分析法PCA对上述面部表情特征参数进行降维处理，获得最终的面部表情特征参数；

步骤4、特征参数融合与识别；

步骤4-1、将提取的语音信号特征参数和面部表情特征参数顺序组合起来，获得多模式特征向量，依此将原始训练样本集中所有多模式特征向量构成的集合称为串行特征向量集；

步骤4-2、通过对上述串行特征向量集有放回的抽样，获得若干个并行的训练样本集；

步骤4-3、利用Adaboost算法对各并行训练样本集分别进行训练，获得每个训练样本集上的强分类器；

步骤4-4、采用双误差异性选择策略来度量两两强分类器之间的差异性，并挑选出大于平均差异性的强分类器作为识别分类器；

步骤4-5、运用多数优先投票原则对上述识别分类器进行投票，得到最终识别结果。

所述的步骤1中情感信号获取时，是利用麦克风输入语音数据后，再通过采样量化获得相应的语音信号，而面部表情信号则是由摄像机拍摄获得；

所述的采样量化的采样频率为11.025kHz、量化精度为16bit；所述的由摄像机拍摄获得的每幅面部表情信号图像大小为256×256像素。

所述的步骤2-1中语音信号预处理时，其中预加重是通过一阶数字预加重滤波器实现，预加重滤波器的系数取值为0.93～0.97；分帧是以帧长256点的标准进行，并对分帧后的数据加汉明窗处理；端点检测是利用短时能零积法进行。

所述的步骤2-2中面部表情信号预处理时，其中利用肤色模型进行脸部定位；图像几何特性归一化主要以两眼位置为依据，而图像光学特性的归一化处理包括先用直方图均衡化方法对图像灰度做拉伸，以改善图像的对比度，然后对图像像素灰度值进行归一化处理，使标准人脸图像的像素灰度值为0，方差为1，如此可以部分消除光照对识别结果的影响。

所述的步骤3-2中用Gabor小波和网格化后的图像进行卷积，公式如下：

r(x,y)＝∫∫I(ε,η)g(x-ε,y-η)dεdη (1)

其中，r(x,y)为Gabor小波变换后的结果；I(ε,η)为对应像素坐标(ε,η)的像素值；

i为复数算子，σ是与小波频率带宽有关的常数，v的取值决定了Gabor滤波的波长，u的取值表示Gabor核函数的方向，c表示总的方向数；ε,η为积分变量。

所述的步骤4-3中利用Adaboost算法对并行训练样本集进行训练，使用的弱分类器是三层BP神经网络。

所述的步骤4-4中度量两两强分类器H_i和H_j(i≠j)之间的差异性公式Div(i,j)如下：

Div (i, j) = \frac{{num}^{00}}{{num}^{00} + {num}^{01} + {num}^{10} + {num}^{11}} - - - (2)

其中，num^ab代表两两强分类器分类正确/错误的样本数，a＝1和a＝0分别表示强分类器H_i分类正确和错误，b＝1和b＝0分别表示强分类器H_j分类正确和错误。

有益效果：(1)本发明克服了单模式情感识别的局限性，将语音信号和面部表情信号进行融合，弥补了单模式的不足；

(2)本发明中将语音信号特征参数与面部表情特征参数顺序组合在一起，构成一个多模式特征向量，即在特征层进行了融合，并利用了AdaBoost算法、双误差异性选择策略和多数优先投票原则，使得多模式情感信息能在决策层进行充分融合，可见本发明充分发挥了决策层融合与特征层融合的优点，使整个信息融合与识别过程更加接近人类情感识别，从而提高了情感识别的准确性；

(3)本发明利用了AdaBoost算法，与现有方法相比，这种方法能够得到更高的识别率。

附图说明

图1为本发明一种实施方式的串并结合的多模式情感信息融合与识别方法流程图；

图2为本发明一种实施方式的的三层BP神经网络结构示意图。

具体实施方式

本实施方式的一种串并结合的多模式情感信息融合与识别方法，如图1所示，通过情感信号获取模块、情感信号预处理模块、情感特征参数提取模块和参数融合与识别模块实现，且具体包括如下步骤：

步骤1：情感信号获取；

首先通过噪声刺激或者观看影视片段等诱发方式诱发人的情感，再同步获取相应情感状态下的语音信号和面部表情信号，并将二者绑定存储。本实施方式利用麦克风输入语音数据，然后利用计算机、单片机或DSP芯片等处理单元以11.025kHz的采样频率、16bit的量化精度进行采样量化，获得相应的语音信号；本实施方式的面部表情信号则是通过摄像机拍摄，每幅图像大小为256×256像素；

步骤2：情感信号预处理；

步骤2-1：语音信号预处理；

利用一阶数字预加重滤波器对获取的语音信号进行预加重处理，其中利用的预加重滤波器的系数取值范围为0.93-0.97之间，本发明实施例中取0.9375。接下来以帧长256点的标准进行分帧处理，并对分帧后的语音信号加汉明窗处理，再利用短时能零积法进行端点检测。

步骤2-2、面部表情信号预处理；

对获取的面部表情信号，首先用肤色模型进行脸部定位，然后进行图像几何特性归一化处理和图像光学特性归一化处理，其中图像几何特性归一化主要以两眼位置为依据，而图像光学特性的归一化处理包括先用直方图均衡化方法对图像灰度做拉伸，以改善图像的对比度，然后对图像像素灰度值进行归一化处理，使标准人脸图像的像素灰度值为0，方差为1，如此可以部分消除光照对识别结果的影响。本发明实施例中，归一化后的图像大小为75×100像素；

步骤3、情感特征参数提取；

步骤3-1、语音情感特征参数提取；

以往对情感特征参数的有效提取主要以韵律特征为主，然而近年来通过深入研究发现，音质特征和韵律特征相互结合才能更准确地识别情感。为了尽可能地利用语音信号中所包含的有关情感方面的信息，本实施方式提取了16个语音情感特征，其中前9个语音情感特征为韵律特征，后7个语音情感特征为音质特征；

所述前9个语音情感特征分别为：语句发音持续时间与相应的平静语句持续时间的比值、基因频率平均值、基因频率最大值、基因频率平均值与相应平静语句的基因频率平均值的差值、基因频率最大值与相应平静语句的基因频率最大值的差值、振幅平均能量、振幅能量的动态范围、振幅平均能量与相应平静语句的振幅平均能量的差值、振幅能量动态范围与相应平静语句的振幅能量动态范围的差值；

所述后7个语音情感特征分别为：第一共振峰频率的平均值、第二共振峰频率的平均值、第三共振峰频率的平均值、谐波噪声比的均值、谐波噪声比的最大值、谐波噪声比的最小值、谐波噪声比的方差；

步骤3-2：面部表情特征参数提取；

目前面部表情特征的提取根据图像性质的不同可分为静态图像特征提取和序列图像特征提取，静态图像中提取的是表情的形变特征，而序列图像中提取的是运动特征。本发明实施例中，以静态图像为研究对象，采用Gabor小波变换来提取面部表情特征参数，具体过程如下：

(1)将预处理后的面部表情图像网格化为25×25像素，即每张脸共有4行3列共12个网格；

(2)用Gabor小波和网格化后的图像进行卷积，公式如下：

r(x,y)＝∫∫I(ε,η)g(x-ε,y-η)dεdη (3)

i为复数算子，σ是与小波频率带宽有关的常数，取值为v的取值决定了Gabor滤波的波长，取值为0,1,2，u的取值表示Gabor核函数的方向，取值为1,2,3,4,5,6，c表示总的方向数，取值为6；ε,η为积分变量；

(3)取模||r(x,y)||的均值和方差作为面部表情特征参数；

(4)用主成分分析法PCA对上述面部表情特征参数进行降维处理，本发明实施例中，将初始的75*100*2，即15000个维数降为30维；

步骤4、特征参数融合与识别；

步骤4-1、将提取的语音情感特征参数和面部表情特征参数顺序组合起来，获得多模式特征向量u₁，依此类推，获得了原始训练样本集中所有的多模式特征向量u₂,…,u_r,…,u_W，其中r＝1,2,…,W，W为原始训练样本集中语音信号样本数，即面部表情信号样本数，本发明实施方式中，W取值为1000；u_r＝(u_r1,u_r2,…,u_r46)，u_r1,u_r2,…,u_r16为语音情感特征参数，u_r17,u_r18,…,u_r46为面部表情特征参数；将从原始训练样本集中获得的所有多模式特征向量u₁,u₂,…,u_r,…,u_W构成的集合称为串行特征向量集；

步骤4-2、通过对上述串行特征向量集有放回的抽样N(N的取值不要超过串行特征向量集中向量的数量即可)次，获得训练样本集S₁，本实施方式中S₁包含500个多模式特征，而且是随机的获得的；然后依此继续抽取样本获得训练样本集S₂,…,S_M,即获得M个并行的训练样本集；本实施方式中，N取值为500，M取值为20。

步骤4-3、利用Adaboost算法对上述每个并行训练样本集S_k,k＝1,2,…,M分别进行训练，获得每个并行训练样本集上的强分类器；本实施方式利用Adaboost算法对并行训练样本集进行训练时，使用的弱分类器是三层BP神经网络，如图2所示，输入层有46个神经元，代表46个情感特征参数(16个语音情感特征参数加上30个面部表情特征参数)，输出层有5个神经元，代表5种人类基本情感，即高兴、愤怒、惊奇、悲伤和恐惧；

步骤4-4、采用双误差异性选择策略来度量两两强分类器之间的差异性，并挑选出大于平均差异性的强分类器作为识别分类器，其强分类器H_i和H_j(i≠j)之间的差异性公式Div(i,j)如下：

Div (i, j) = \frac{{num}^{00}}{{num}^{00} + {num}^{01} + {num}^{10} + {num}^{11}} - - - (4)

其中，num^ab代表两两强分类器分类正确/错误的样本数，a＝1和a＝0分别表示强分类器H_i分类正确和错误，b＝1和b＝0分别表示强分类器H_j分类正确和错误；

步骤4-5：运用多数优先投票原则对上述识别分类器进行投票，得到最终识别结果。

本发明实施例中，为证明本发明的识别效果，将单模式条件下的情感识别结果与多模式条件下的情感识别结果进行对比。原始训练样本集包含每种情感的200条语音信号样本与200条面部表情信号样本，测试集包含每种情感的100条语音信号样本和100条面部表情信号样本。在单模式条件下，仅通过语音信号进行情感识别的情感识别正确率如表1所示，仅通过面部表情信号进行情感识别的情感识别正确率如表2所示；在多模式条件下，通过顺序组合本发明中的语音情感特征参数和面部表情特征参数进行识别的情感识别正确率如表3所示，本发明的情感识别方法的情感识别正确率如表4所示。

表1仅通过语音信号进行情感识别的情感识别正确率

情感类别	高兴	愤怒	惊奇	悲伤	恐惧
						高兴	86％	0	12％	2％	0
愤怒	4％	81％	0	7％	8％
						惊奇	20％	1％	77％	2％	0
悲伤	5％	4％	0	88％	3％
						恐惧	5％	10％	6％	4％	75％

表2仅通过面部表情信号进行情感识别的情感识别正确率

情感类别	高兴	愤怒	惊奇	悲伤	恐惧
						高兴	85％	2％	13％	0	0
愤怒	0	79％	7％	10％	4％
						惊奇	0	0	81％	9％	10％
悲伤	0	20％	4％	66％	10％
						恐惧	3％	8％	2％	9％	78％

表3通过顺序组合本发明中的语音情感特征参数和面部表情特征参数进行情感识别的情感识别正确率

情感类别	高兴	愤怒	惊奇	悲伤	恐惧
						高兴	92％	1％	6％	1％	0
愤怒	1％	88％	2％	7％	2％
						惊奇	4％	0	90％	4％	2％

悲伤	5％	8％	2％	85％	0
						恐惧	1％	3％	2％	6％	88％

表4本发明的情感识别方法的情感识别正确率

情感类别	高兴	愤怒	惊奇	悲伤	恐惧
						高兴	99％	0	1％	0	0
愤怒	0	88％	4％	6％	2％
						惊奇	4％	0	96％	0	0
悲伤	2％	7％	1％	90％	0
						恐惧	0	0	0	7％	93％

由表1和表2可知，仅通过语音信号进行情感识别的平均识别正确率是81.4％(该平均识别正确率81.4％是通过表1中高兴的识别正确率86％、愤怒的识别正确率81％、惊奇的识别正确率77％、悲伤的识别正确率88％和恐惧的识别正确率75％求和后取平均值得到的，即81.4％＝(86％+81％+77％+88％+75％)/5)；仅通过面部表情信号进行情感识别的平均识别正确率是77.8％。因此，单纯依靠语音信号或面部表情信号进行识别在实际应用中会遇到一定的困难，因为人类是通过多模式的方式表达情感信息的，所以研究多模式情感识别的方法十分必要。从表3可以看出，通过顺序组合本发明中的语音情感特征参数和面部表情特征参数进行识别的情感识别正确率有所提高，但是提高的并不太明显，因此不同模式信息的融合是多模式情感识别研究的瓶颈问题，它直接关系到情感识别的准确性。从表4可以看出，本发明的情感识别方法的情感识别平均正确率达到了93.2％，因此本发明方法充分发挥了决策层融合与特征层融合的优点，整个融合过程更加接近人类情感识别，从而提高了情感识别的平均正确率。

Claims

1.一种串并结合的多模式情感信息融合与识别方法，其特征在于：包括以下步骤：

步骤1：情感信号获取；

步骤2、情感信号预处理；

步骤2-1、语音信号预处理；

步骤2-2、面部表情信号预处理；

步骤3、情感特征参数提取；

步骤3-1、语音情感特征参数提取；

包括韵律特征和音质特征；

步骤3-2、面部表情特征参数提取；

1)将预处理后的面部表情图像网格化；

2)用Gabor小波和网格化后的图像进行卷积；

3)取卷积结果的模的均值和方差作为面部表情特征参数；

步骤4、特征参数融合与识别；

2.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法，其特征在于：所述的步骤1中的情感信号获取时，是利用麦克风输入语音数据后，再通过采样量化获得相应的语音信号，而面部表情信号则是由摄像机拍摄获得。

3.根据权利要求2所述的串并结合的多模式情感信息融合与识别方法，其特征在于：所述的采样量化的采样频率为11.025kHz、量化精度为16bit；所述的由摄像机拍摄获得的每幅面部表情信号图像大小为256×256像素。

4.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法，其特征在于：所述的步骤2-1中语音信号预处理时，其中预加重是通过一阶数字预加重滤波器实现，预加重滤波器的系数取值为0.93～0.97之间；分帧是以帧长256点的标准进行，并对分帧后的数据加汉明窗处理；端点检测是利用短时能零积法进行。

5.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法，其特征在于：所述的步骤2-2中面部表情信号预处理时，其中利用肤色模型进行脸部定位；图像几何特性归一化主要以两眼位置为依据，而图像光学特性的归一化处理包括先用直方图均衡化方法对图像灰度做拉伸，以改善图像的对比度，然后对图像像素灰度值进行归一化处理，使标准人脸图像的像素灰度值为0，方差为1。

6.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法，其特征在于：所述的步骤3-2中用Gabor小波和网格化后的图像进行卷积，公式如下：

r(x,y)＝∫∫I(ε,η)g(x-ε,y-η)dεdη (1)

g (x, y) = \frac{c^{2}}{σ^{2}} \exp (- \frac{c^{2} (x^{2} + y^{2})}{2 σ^{2}}) (\exp (ic \cdot (\begin{matrix} x \\ y \end{matrix})) - \exp (- \frac{σ^{2}}{2})),

c_{v} = 2^{- \frac{v + 2}{2}},

7.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法，其特征在于：所述的步骤4-3中利用Adaboost算法对并行训练样本集进行训练，使用的弱分类器是三层BP神经网络。

8.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法，其特征在于：所述的步骤4-4中度量两两强分类器H_i和H_j(i≠j)之间的差异性公式Div(i,j)如下：

Div (i, j) = \frac{{num}^{00}}{{num}^{00} + {num}^{01} + {num}^{10} + {num}^{11}} - - - (2)