CN104361316A

CN104361316A - 一种基于多尺度时序建模的维度情感识别方法

Info

Publication number: CN104361316A
Application number: CN201410601169.2A
Authority: CN
Inventors: 陶建华; 巢林林; 杨明浩
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Priority date: 2014-10-30
Filing date: 2014-10-30
Publication date: 2015-02-18
Anticipated expiration: 2034-10-30
Also published as: CN104361316B

Abstract

本发明公开了一种基于多尺度时序建模的维度情感识别方法，该方法包括以下步骤：对于视频序列中的每帧图像进行人脸检测及跟踪，并提取人脸关键点作为第一类组人脸特征；提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中像素的灰度值作为第二、三、四类组人脸特征；根据单位时间段t内多帧图像的四类组人脸特征进行维度情感初步预测；根据连续N个单位时间段t的情感初步预测结果用线性回归器进行时序及模态融合，输出视频序列的情感预测值。本发明方法对视频序列信号进行不同尺度的时序建模，实现了序列中每一时序单元的精确预测。本发明适用于视频中人脸信号的情感识别，具有实时性好、并能够大幅度提高识别精度等优点。

Description

一种基于多尺度时序建模的维度情感识别方法

技术领域

本发明属于视频信号处理领域，具体涉及一种基于多尺度时序建模的维度情感识别方法，并以此来提高连续维度的情感识别的精度。

背景技术

近年来，国内外研究人员对连续维度情感识别进行了大量的研究工作，提出了许多用于情感识别的有效方法。这些方法从处理策略上可以分为基于静态分类器的检测方法和基于动态分类器的检测方法。基于静态分类器的检测方法，多利用支持向量机(SVM)、神经网络、Boosting等，且这类分类器多为判别式模型。由于具有较强的区分能力，因此广泛应用于情感状态识别领域，但这种方法忽略了连续维度情感中不同时刻情感相互联系的事实，也即忽视了时序建模在分类模型中的关键作用。情感状态是一个逐渐变化的、平滑的过程，有着很强的上下文相关性，充分考虑情感状态的时序信息将有助于分类精度的提升。基于动态分类器的检测方法大多采用基于隐马尔科夫(HMM)的分类模型，HMM在序列上下文信息建模方面有着突出的优势，因而对于时间序列，能够较好的融合序列信号的上下文信息，融合一定的情感历史信息。然而，HMM只能在单一时间尺度上进行时序建模，且时序建模的范围有限，并不能完全反应情感时序信息在情感识别中的关键作用。

本发明利用深度置信网络实现较小尺度的时序建模，同时利用线性回归进行多模态及时序的同时融合，实现了较大尺度上的时序建模，进而依靠两级不同尺度上的时序建模，实现了维度情感的精确预测。

发明内容

为了解决上述现有技术中存在的连续语音序列的情感信息识别问题，本发明提出了一种基于多尺度时序建模的维度情感识别方法。

本发明提出的一种基于多尺度时序建模的维度情感识别方法，包括以下步骤：

步骤1，对于视频序列中的每帧图像进行人脸检测及跟踪，并根据检测或跟踪得到的人脸区域图像提取对应的人脸关键点作为第一类组人脸特征；

步骤2，根据所述步骤1得到的人脸关键点，对于相应的人脸区域图像进行人脸校正，分别提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中所有像素的灰度值作为第二、三、四类组人脸特征；

步骤3，分别提取单位时间段t内多帧图像的四类组人脸特征，并将提取得到的四类组人脸特征分别输入到具有时序池化层的深度置信网络中进行维度情感初步预测，得到单位时间段t内视频序列的情感初步预测结果；

步骤4，根据所述步骤3提取连续N个单位时间段t内的四类组人脸特征并分别进行情感初步预测，根据连续N个单位时间段t的情感初步预测结果训练得到情感预测线性回归器，所述情感预测线性回归器用于同时融合上述四类组人脸特征在同一时间段内的情感预测值；

步骤5，对于连续N个单位时间段t内的测试视频序列，根据所述步骤1-3，得到连续N个单位时间段t内测试视频序列的情感初步预测结果，将得到的连续N个单位时间段t内测试视频序列的情感初步预测结果输入至线性回归器进行时序及模态融合，得到每单位时间段t内测试视频序列的情感预测值。

本发明在视频序列中，采用多层时序建模，实现了两个不同实现粒度上的有效建模，同时融合了多种视觉特征，最终达到了对连续维度情感的有效预测。

附图说明

图1是本发明基于多尺度时序建模的维度情感识别方法的流程图。

图2是本发明步骤1的流程示意图。

图3是本发明步骤2的流程示意图

图4是本发明采用的具有时序池化层的深度置信网络的结构示意图。

图5是本发明步骤5的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。附图中绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。应该指出，所描述的实例仅仅视为说明的目的，而不是对本发明的限制。

图1是本发明基于多尺度时序建模的维度情感识别方法的流程图，如图1所示，所述基于多尺度时序建模的维度情感识别方法包括以下步骤：

如图2所示，所述步骤1中，首先对于视频序列中的第一帧图像进行人脸检测，得到人脸检测结果(即人脸区域图像)后对于后续每帧图像进行人脸跟踪，跟踪时停止进行人脸检测；但如果人脸跟踪失败，则需要对于当前帧重新进行人脸检测寻找人脸。在得到每帧图像的人脸检测或跟踪结果(即人脸区域图像)后，提取得到每帧人脸区域图像对应的人脸关键点，并将得到的人脸关键点作为第一类组人脸特征，用于描述人脸的形态及头部运动信息。

在本发明一实施例中，采用Haar特征及AdaBoost分类器进行人脸检测；采用均值漂移算法进行人脸跟踪；由ASM特征点提取得到人脸的关键点，其中，所述人脸关键点包括眼球点及眼角点、鼻唇中心点、嘴角点三部分。

在本发明一实施例中，在所述步骤1得到人脸关键点之后，还对每帧人脸区域图像的人脸关键点的坐标值进行归一化，即将每帧人脸区域图像的人脸关键点的坐标值减去所有人脸关键点的坐标均值；之后采用主成分分析法对于所述人脸关键点的坐标值进行降维，降维之后通过白化处理使所有特征具有单位方差，(以下简称白化处理)，其中，降维后数据的能量保持在降维前数据能量的90％。

数据的白化处理是为了使降维后的所有特征都有相同的方差且特征之间的相关性较低。具体做法为：求得降维后数据的每一维除以各自维度上的标准差，从而使降维后的数据的每一维的方差为1。

如图3所示，该步骤中，首先依次对于人脸区域图像进行人脸校正处理，具体包括旋转校正、尺度缩放、灰度化和归一化，将所述人脸区域图像中所有像素的灰度值作为第二类组人脸特征；然后分别在经过人脸校正后的人脸区域图像上，根据人脸关键点提取人脸嘴部区域以及人脸眼睛区域，对于所述人脸嘴部区域和人脸眼睛区域进行大小归一化和灰度归一化后，将所述人脸嘴部区域和人脸眼睛区域内所有像素的灰度值分别作为第三组和第四类组人脸特征。

具体地，所述步骤2进一步包括以下步骤：

步骤21，根据所述人脸关键点中左、右眼睛眼角的关键点进行连线，得到眼角连线与水平线之间的夹角，根据所述夹角对于所述人脸区域图像进行旋转，使所述夹角变为0度；

步骤22，对于旋转后的人脸区域图像进行尺度缩放，使所述眼角连线的长度为M个像素，其中，M可取为50-100；

步骤23，根据左眼角关键点的位置对于经过尺度缩放的人脸区域图像进行裁剪，以使得到的人脸区域图像达到第一预定大小；

在本发明一实施例中，所述第一预定大小为2Mx2M，且左眼角关键点的位置为横纵坐标分别为0.8M和0.6M。

步骤24，对于裁剪得到的人脸区域图像进行灰度化，并将所述人脸区域图像中每个像素的灰度值减去所述人脸区域图像的像素灰度值均值，并对于归一化后的人脸区域图像的像素灰度值进行主成分分析降维和白化处理，降维后的特征能量保持在降维前特征总能量的80％，将降维后的人脸区域图像的所有像素灰度值作为第二类组人脸特征；

步骤25，根据嘴部关键点的位置，从归一化后的人脸区域图像中提取得到人脸嘴部区域图像，并将所述人脸嘴部区域图像归一化至第二预定大小，在本发明一实施例中，所述第二预定大小为0.9Mx0.6M；对于归一化后的人脸嘴部区域图像进行灰度化，将其中每个像素的灰度值减去整幅人脸嘴部区域图像像素的灰度值均值，并进行主成分分析降维和白化处理，降维后的特征能量保持在降维前特征总能量的80％，将降维后的人脸嘴部区域图像的所有像素灰度值作为第三类组人脸特征；

步骤26，根据眼睛关键点的位置，从归一化后的人脸区域图像中提取得到人脸眼睛区域图像，并将所述人脸眼睛区域图像归一化至第三预定大小，在本发明一实施例中，所述第三预定大小为1.6Mx0.4M；对于归一化后的人脸眼睛区域图像进行灰度化，将其中每个像素的灰度值减去整幅人脸眼睛区域图像像素的灰度值均值，并进行主成分分析降维和白化处理，降维后的特征能量保持在降维前特征总能量的80％，将降维后的人脸眼睛区域图像的所有像素灰度值作为第四类组人脸特征。

这样，对于每帧人脸区域图像，均能够得到四类组人脸特征。

步骤3，分别提取单位时间段t内多帧图像的四类组人脸特征，其中，单位时间段t可取为1～3秒，并将提取得到的四类组人脸特征分别输入到具有时序池化层的深度置信网络中进行维度情感初步预测，得到单位时间段t内视频序列的情感初步预测结果；

如图4所示，所述具有时序池化层的深度置信网络结构包括四层：一个输入层，一个隐藏层，一个时序池化层和一个线性回归层。其中，所述深度置信网络的激活函数统一采用sigmoid函数：

f (z) = \frac{1}{1 + \exp (- z)} .

z＝WX+b

其中，W和b为神经网络的权值，X为神经某一层的输入。

所述深度置信网络在进行有监督训练之前首先采用受限波尔兹曼机对于权值初始值进行预训练，在本发明一实施例中，所采用的受限波尔兹曼机的显层为连续特征值，隐藏层为符合0-1分布的输出结点；然后整个深度置信网络采用随机梯度下降法进行误差反传的有监督训练。其中，所述深度置信网络的损失函数采用最小均方误差(MSE)损失函数。

所述时序池化层抽取各个人脸特征值在单位时间段t内的最大值、最小值、均值、方差，作为新的特征输入到线性回归层。线性回归层的结点个数为3，分别对应PAD三个维度，在PAD维度空间中，PAD包含愉悦度、激活度和优势度3个维度。

总的来说，所述深度置信网络的输入是上述四类组人脸特征中的任意一类组，将所述单位时间段t内多帧图像的某一类组人脸特征输入至所述深度置信网络中，在隐藏层学习帧级别的特征，在时序池化层对所述单位时间段t内的帧级别的特征统计所述单位时间段t内的最大值、最小值、均值及方差，并将这些统计特征作为新的特征输入到下一层，即线性回归层中，以对所述单位时间段t内视频序列的情感状态进行预测。其中，通过时序池化层后的特征，能够反映上述四类组人脸特征在所述单位时间段内的动态变化，从而能够更好的描述情感的短时时序变化。

步骤4，根据所述步骤3提取连续N个单位时间段t内的四类组人脸特征并分别进行情感初步预测，其中，N可取10-20，根据连续N个单位时间段t的情感初步预测结果训练得到情感预测线性回归器，所述情感预测线性回归器用于同时融合上述四类组人脸特征在同一时间段内的情感预测值；

由上可知，经过所述步骤3，针对视频序列中的每单位时间段t内的数据均会得到4组情感预测值，分别对应上述四类组人脸特征，其中，每组情感预测值中均包含与三个维度相对应的情感预测值。

在本发明一实施例中，所述线性回归器输入结点个数为120，分别对应四类组特征的在10(N取10)个ts内对三个维度的预测值；输出结点个数为3。

在本发明一实施例中，所述线性回归器采用随机梯度下降法训练完成，采用的损失函数为最小均方误差函数。在实际预测时，直接输入上述四类组特征的情感预测值，即可得到融合后的最终情感预测值。

步骤5，对于连续N个单位时间段t内的测试视频序列，根据所述步骤1-3，得到连续N个单位时间段t内测试视频序列的情感初步预测结果，将得到的连续N个单位时间段t内测试视频序列的情感初步预测结果输入至线性回归器进行时序及模态融合，得到每单位时间段t内测试视频序列的情感预测值。该步骤的流程示意图如图5所示，图5中，D1(t)，D2(t)，D3(t)，D4(t)分别表示针对四类组人脸特征：人脸关键点特征、人脸区域特征、嘴部区域特征及眼睛区域特征的情感初步预测结果；d_t-10表示t时刻向前10秒的情感初步预测结果；O(t)表示t时刻的最终情感输出结果。

其中，时序及模态融合分别指上述某一类组人脸特征在不同时间段上的分类结果融合和上述四类组人脸特征的分类结果融合。

综上，本发明采取具有时序池化层的深度置信网络对视频中人脸信号的情感状态进行短时建模，之后采用线性回归器进行多模态及长序时融合，实现了较大尺度上的时序建模；本发明对视频序列中的人脸信号进行了充分利用，提取了关键点特征、脸部总体特征、嘴部特征以及眼部特征，得到了对视频中每帧图像的充分表示；本发明利用具有时序池化层的深度置信网络分别对四类组人脸特征进行情感初步预测，在时序池化层描述序列信号的短时动态变化，实现较小尺度的时序建模，最后采用线性回归器，同时融合上述四组人脸特征的预测结果，以及上述四组特征在不同时间段上的预测结果，实现较大尺度上的时序建模，最终得到情感预测结果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度时序建模的维度情感识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤1中，首先对于视频序列中的第一帧图像进行人脸检测，得到人脸区域图像后对于后续每帧图像进行人脸跟踪，跟踪时停止进行人脸检测；但如果人脸跟踪失败，则对于当前帧重新进行人脸检测寻找人脸。

3.根据权利要求1所述的方法，其特征在于，所述步骤1中，采用Haar特征及AdaBoost分类器进行人脸检测；采用均值漂移算法进行人脸跟踪；根据ASM特征点提取得到人脸的关键点。

4.根据权利要求1所述的方法，其特征在于，所述人脸关键点包括眼球点及眼角点、鼻唇中心点、嘴角点。

5.根据权利要求1所述的方法，其特征在于，在所述步骤1得到人脸关键点之后，还对每帧人脸区域图像的人脸关键点的坐标值进行归一化，之后采用主成分分析法对于所述人脸关键点的坐标值进行降维，降维之后通过白化处理使所有特征具有单位方差并去相关。

6.根据权利要求1所述的方法，其特征在于，具体地，所述步骤2进一步包括以下步骤：

步骤22，对于旋转后的人脸区域图像进行尺度缩放，使所述眼角连线的长度为M个像素；

步骤24，对于裁剪得到的人脸区域图像进行灰度化和归一化，并对于归一化后的人脸区域图像的像素灰度值进行主成分分析降维和白化处理，将得到的人脸区域图像的所有像素灰度值作为第二类组人脸特征；

步骤25，根据嘴部关键点的位置，从归一化后的人脸区域图像中提取得到人脸嘴部区域图像，并将所述人脸嘴部区域图像归一化至第二预定大小，对于归一化后的人脸嘴部区域图像进行灰度化和归一化，并进行主成分分析降维和白化处理，将降维后的人脸嘴部区域图像的所有像素灰度值作为第三类组人脸特征；

步骤26，根据眼睛关键点的位置，从归一化后的人脸区域图像中提取得到人脸眼睛区域图像，并将所述人脸眼睛区域图像归一化至第三预定大小，对于归一化后的人脸眼睛区域图像进行灰度化和归一化，并进行主成分分析降维和白化处理，将降维后的人脸眼睛区域图像的所有像素灰度值作为第四类组人脸特征。

7.根据权利要求1所述的方法，其特征在于，所述具有时序池化层的深度置信网络结构包括：一个输入层，一个隐藏层，一个时序池化层和一个线性回归层。

8.根据权利要求7所述的方法，其特征在于，所述时序池化层抽取各个人脸特征值在单位时间段t内的最大值、最小值、均值、方差，作为新的特征输入到线性回归层。

9.根据权利要求7所述的方法，其特征在于，所述线性回归层的结点个数为3，分别对应PAD三个维度：愉悦度、激活度和优势度。

10.根据权利要求1所述的方法，其特征在于，所述线性回归器和深度置信网络均采用随机梯度下降法训练完成，采用最小均方误差函数为损失函数。