CN105608447A

CN105608447A - 对人体面部微笑表情深度卷积神经网络的检测方法

Info

Publication number: CN105608447A
Application number: CN201610089191.2A
Authority: CN
Inventors: 马苗; 朱青青; 郑雪; 孙莉; 裴炤; 郭敏
Original assignee: Shaanxi Normal University
Current assignee: Jiangsu Siyuan Integrated Circuit And Intelligent Technology Research Institute Co ltd
Priority date: 2016-02-17
Filing date: 2016-02-17
Publication date: 2016-05-25
Anticipated expiration: 2036-02-17
Also published as: CN105608447B

Abstract

一种对人体面部微笑表情深度卷积神经网络的检测方法，由训练步骤和测试步骤组成。训练步骤为：对训练样本图像进行预处理、训练卷积神经网、训练支持向量机分类器步骤；测试步骤为：对测试样本图像进行预处理，用预处理后的测试样本输入到卷积神经网络中提取测试样本的多尺度特征，将多尺度特征输入到支持向量机分类器中，得到检测结果，即是否微笑。本发明从大量样本图像中自动地提取微笑特征，避免了人工设计特征的复杂性和片面性，再利用支持向量机分类器进行微笑检测，提高了检测的准确率，可用于新产品用户体验评价、服务人员微笑服务评价、相机微笑快门控制及照片选择等。

Description

对人体面部微笑表情深度卷积神经网络的检测方法

技术领域

本发明属于图像处理及模式识别的技术领域，具体地涉及一种对人体面部微笑表情深度卷积神经网络的检测方法。

背景技术

作为人类情感表达的重要方式之一，微笑常常代表着人们快乐、欢喜、满意等情绪。人们能够一眼看出其他人的快乐心情，如果计算机也能自动解读人的情绪，计算机将会为人类提供更全面的服务。近年来，微笑自动检测技术逐渐得到研究人员和服务行业的关注，并渗透于人们日常生活的各个技术领域。例如，2013年，巴塞罗那一家喜剧俱乐部Teatreneu利用平板电脑通过识别人脸表情实行“按微笑收费”，这种创新实效的举措赢得了用户的青睐，并使得俱乐部的收入飙涨。再如，2007年，在索尼公司的SONYT200数码相机中，提供了由索尼和欧姆龙公司合作开发出来“微笑快门”用来捕捉刹那间笑容。此后，索尼爱立信将该功能引入到Cyber-shot系列手机W61S。但是，一般来说“微笑快门”灵敏度尚不理想。

目前，人们对微笑表情识别方法开始考虑遮挡和噪声的影响，比如身份、年龄、性别、姿态、光照、遮挡、拍摄环境、图像质量等因素。由于面部微笑表情易受多种客观因素影响，使得微笑表情特征复杂多变，难以人为的设计特征，因此，微笑表情识别成为一项具有挑战性的研究课题。

现有人脸表情识别多是对人脸正面成像的图像进行分析，用一种或多种特征融合的方法识别人脸表情，因此特征提取和选择算法不可避免的损失了部分信息，且易受人脸角度姿态、尺度变化和噪声干扰。

发明内容

本发明所要解决的技术问题在于克服现有技术的缺点，提供一种设计特征简单、全面、检测准确率高、检测速度快的对人体面部微笑表情深度卷积神经网络的检测方法。

解决上述技术问题所采用的技术方案它是由训练步骤和测试步骤组成，本发明的训练步骤为：

(1)对训练样本图像进行预处理

包括图像灰度化、嘴巴子图定位、大小归一化以及亮度调节步骤；

图像灰度化：用(1)式对被训练的样本图像进行灰度化处理，将彩色图像转为灰度图像：

I＝Wr×R+Wg×G+Wb×B(1)

式中I为灰度化后的亮度，R为彩色图像的红色分量，G为彩色图像的绿色分量，B为彩色图像的蓝色分量，Wr为彩色图像的红色分量的权重，Wg为彩色图像的绿色分量的权重，Wb为彩色图像的蓝色分量的权重。

嘴巴子图定位：用五个关键点横坐标的平均值作为中心点的横坐标x，用五个关键点纵坐标的平均值作为中心点的纵坐标y，用欧式距离或曼哈顿距离或棋盘距离计算五个关键点到中心点的距离；计算上述五个距离的最大距离D或平均距离D或最小距离D，以((x-(0.75～0.77)D),y)为左上角，裁剪成宽为(1.5～1.58)D、高为(1.7～1.78)D的矩形，得到嘴巴子图。

嘴巴子图大小归一化：将上述嘴巴子图用双三次插值法或B样条插值法或三次样条插值法或等距插值法或四次样条插值法或拉格朗日插值法，归一化为32×32嘴巴子图，像素总个数为32²。

对嘴巴子图进行亮度调节：采用自适应亮度调节法或分段线性拉伸法或直方图均衡化算法，获得亮度调节后的嘴巴子图。

自适应亮度调节法，用(4)式计算32×32嘴巴子图的直方图h(x)累加和与像素总个数的比值cdf(x)：

c d f (x) = Σ_{i = 0}^{x} h (i) / 32^{2} - - - (4)

式中x∈[0,255]，在cdf(x)中寻找第一个大于0.01的索引值ilow和第一个大于0.99的索引值ihigh。

用(5)式得到亮度范围[low,high]：

low＝(ilow-1)/255,high＝(ihigh-1)/255(5)

用(6)式计算调节后的亮度值J

J＝(tmp-low)/(high-low)(6)

式中tmp＝max(low,min(high,I))，I为灰度化后的亮度，得到32×32标准嘴巴图像。

(2)训练卷积神经网络

将训练样本预处理后得到的32×32标准嘴巴图像输入卷积神经网络，经前向传播和反向传播两个步骤反复循环至达到设定的最大迭代次数，得到卷积神经网络和训练样本的多尺度特征。

(3)训练支持向量机分类器

把多尺度特征输入支持向量机，支持向量机根据多尺度特征寻找最优分类超平面，得到支持向量机分类器，该分类器的输出是1或0，1为微笑，0为不微笑。

本发明的测试步骤为：

(1)对测试样本图像进行预处理

测试样本图像的预处理与对训练样本图像进行预处理步骤(1)相同。

(2)用预处理后的测试样本输入到卷积神经网络中，提取测试样本的多尺度特征。

(3)将多尺度特征输入到支持向量机分类器中，得到检测结果，即是否微笑。

本发明的卷积神经网络的结构为：输入层是32×32的标准嘴巴图像；C1层是第一个卷积层，有10个28×28的特征图，每个特征图中的1个像素点与输入层的1个5×5区域相连接，共(5×5+1)×10＝260个训练参数；S2层是下2采样层，有10个14×14特征图，每个特征图中的1个像素点与C1层相应特征图的1个2×2区域相连接，共1×10个偏置参数；C3层是第二个卷积层，有12个10×10的特征图，每个特征图中的1个像素点与S2层相应的1个5×5区域相连接，共(5×5+1)×10×12＝3120个参数；S4层为第二个下2采样层，有12个5×5的特征图，共1×12个偏置参数；F5层是S4中12个5×5的特征图以列序为主序依次排列生成的1个300维的多尺度特征；输出层由2个结点1和0组成，F5层与输出层之间全连接，共300×2＝600个参数；该深度卷积神经网络共260+10+3120+12+600＝4002个参数，通过前向传播和反向传播反复循环至达到设定的最大迭代次数，确定网络参数。

本发明的支持向量机为：支持向量机的核函数选择径向基函数，其参数gamma＝0.05，支持向量机的输入是从卷积神经网络得到的多尺度特征，输出是1或0，1为微笑，0为不微笑。

本发明的多尺度特征的生成过程为：将32×32的标准嘴巴图像输入到卷积神经网络的输入层中，经C1层、S2层、C3层和S4层的2次卷积和下2采样，得到12个5×5的特征图，以列序为主序依次排列生成的1个300维的多尺度特征。

本发明针对真实场景下拍摄的不同姿态、光照和胡须等干扰的人脸图像，采用卷积神经网络的自动学习能力，从大量样本图像中自动地提取微笑特征，避免了人工设计特征的复杂性和片面性，再利用支持向量机分类器进行微笑检测，提高了检测的准确率，可用于新产品用户体验评价、服务人员微笑服务评价、相机微笑快门控制及照片选择等。

附图说明

图1是本发明实施例1对人体面部微笑表情深度卷积神经网络的检测方法流程图。

图2是图1中测试步骤的流程图。

图3是经过预处理后部分32×32的标准嘴巴图像。

图4是深度卷积神经网络的结构图。

图5是非正面成像的测试样本人体面部微笑表情的检测结果图。

图6是人体面部有胡须的测试样本微笑表情的检测结果图。

具体实施方式

下面结合具体附图和实例对本发明进行进一步的说明，但本发明不限于下述实例。

实施例1

本实施例的人脸图像来自多任务人脸标注(theMulti-TaskFacialLandmark，MTFL)数据库，该库包括12995幅人脸图像，其中10000幅图像为训练样本，2995幅图像为测试样本。

本实施例微笑表情深度卷积神经网络的检测方法由训练步骤和测试步骤组成，训练步骤如下：

1、对10000幅训练样本图像进行预处理

10000幅图像灰度化：用(1)式对被训练的样本图像进行灰度化处理，将彩色图像转为灰度图像：

I＝0.2989×R+0.5870×G+0.1140×B(1)

式中I为灰度化后的亮度，R为彩色图像的红色分量，G为彩色图像的绿色分量，B为彩色图像的蓝色分量。

10000幅嘴巴子图定位：用五个关键点横坐标的平均值作为中心点的横坐标x，用五个关键点纵坐标的平均值作为中心点的纵坐标y，用(2)式计算五个关键点到中心点的欧式距离：

d_i＝((x_i-x)²+(y_i-y)²)^0.5(2)

式中i＝1,2,3,4,5，分别为左眼、右眼、左嘴角、右嘴角和鼻子五个关键点，d_i分别为五个关键点到中心点的欧式距离，x_i分别为五个关键点的横坐标，y_i分别为五个关键点的纵坐标。用(3)式计算上述五个距离的最大距离：

D＝max(d₁，d₂，d₃，d₄，d₅)(3)

以((x-0.75D),y)为左上角，裁剪成宽为1.5D、高为1.7D的矩形，得到嘴巴子图。

10000幅嘴巴子图大小归一化：将上述嘴巴子图用双三次插值法归一化为32×32的图像，像素总个数为32²。

对10000幅嘴巴子图进行亮度调节：采用自适应亮度调节法，用(4)式计算32×32嘴巴子图的直方图h(x)累加和与像素总个数的比值cdf(x)：

c d f (x) = Σ_{i = 0}^{x} h (i) / 32^{2} - - - (4)

用(5)式得到亮度范围[low,high]：

low＝(ilow-1)/255,high＝(ihigh-1)/255(5)

用(6)式计算调节后的亮度值J

J＝(tmp-low)/(high-low)(6)

式中tmp＝max(low,min(high,I)),I为灰度化后的亮度，得到10000幅32×32标准嘴巴图像。

2、训练卷积神经网络

训练卷积神经网络的参数设定为：10000幅训练样本分批训练，每批图像50幅，学习步长设为0.8，最大迭代次数为200。

将10000幅训练样本预处理后得到的10000幅32×32标准嘴巴图像输入卷积神经网络，经前向传播和反向传播两个步骤反复循环至达到设定的最大迭代次数，得到卷积神经网络和10000幅训练样本的多尺度特征，多尺度特征的生成过程按照卷积神经网络进行具体设计。

本实施例的卷积神经网络的结构为：输入层是10000幅32×32的标准嘴巴图像；C1层是第一个卷积层，有10个28×28的特征图，每个特征图中的1个像素点与输入层的1个5×5区域相连接，共(5×5+1)×10＝260个训练参数；S2层是下2采样层，有10个14×14特征图，每个特征图中的1个像素点与C1层相应特征图的1个2×2区域相连接，共1×10个偏置参数；C3层是第二个卷积层，有12个10×10的特征图，每个特征图中的1个像素点与S2层相应的1个5×5区域相连接，共(5×5+1)×10×12＝3120个参数；S4层为第二个下2采样层，有12个5×5的特征图，共1×12个偏置参数；F5层是S4中12个5×5的特征图以列序为主序依次排列生成的1个300维的多尺度特征。输出层由2个结点1和0组成，F5层与输出层之间全连接，共300×2＝600个参数；该深度卷积神经网络共260+10+3120+12+600＝4002个参数，通过前向传播和反向传播反复循环至达到设定的最大迭代次数，确定网络参数。这种网络结构一方面保存了更多的表情细节，另一方面降低了网络的复杂度，减少了运算量。

本实施例的多尺度特征的生成过程为：将32×32的标准嘴巴图像输入到卷积神经网络的输入层中，经C1层、S2层、C3层和S4层的2次卷积和下2采样，得到12个5×5的特征图，以列序为主序依次排列生成的1个300维的多尺度特征。这种通过卷积神经网络自动提取的特征避免了人为选择特征的片面性和复杂性。

3、训练支持向量机分类器

支持向量机的核函数选择径向基函数，其参数gamma＝0.05。

把10000幅训练样本的多尺度特征输入支持向量机，支持向量机根据多尺度特征寻找最优分类超平面，得到支持向量机分类器，该分类器的输出是1或0，1为微笑，0为不微笑；10000幅样本图像的多尺度特征训练支持向量机的时间为30秒。

测试步骤如下：

1、对测试样本图像进行预处理

2995幅测试样本图像的预处理与10000幅训练样本图像的预处理步骤相同。

2、用预处理后的2995幅测试样本输入到卷积神经网络中，提取2995幅测试样本的多尺度特征；

从每个测试样本的C1层得到10个28×28的特征图，S2层得到10个14×14的特征图，C3层得到12个10×10的特征图，S4层得到12个5×5的特征图，F5层得到1个300维的多尺度特征。对2995幅样本图像特征提取时间为20秒。

3、将2995幅测试样本图像的多尺度特征输入到支持向量机分类器中，得到检测结果，即是否微笑。2995幅测试样本图像的平均分类时间为2.3毫秒/每幅。

本实施例中，从2995幅测试样本图像中选2幅测试样本图像结果，见图5、图6，图5是非正面成像的测试样本人体面部微笑表情的检测结果，支持向量机分类器的输出为1，人体面部呈现微笑表情。图6是人体面部有胡须的测试样本微笑表情的检测结果，支持向量机分类器的输出为0，人体面部呈现非微笑表情。

实施例2

本实施例的人脸图像来自多任务人脸标注(theMulti-TaskFacialLandmark，MTFL)数据库。该库包括12995幅人脸图像，其中10000幅图像为训练样本，2995幅图像为测试样本。

1、对10000幅训练样本图像进行预处理

10000幅图像灰度化：用(7)式对被训练的样本图像进行灰度化处理，将彩色图像转为10000幅灰度图像：

I＝(R+G+B)/3(7)

10000幅嘴巴子图定位：用五个关键点横坐标的平均值作为中心点的横坐标x，用五个关键点纵坐标的平均值作为中心点的纵坐标y，用(8)式计算五个关键点到中心点的曼哈顿距离：

d_i＝|x_i-x|+|y_i-y|(8)

式中i＝1,2,3,4,5，分别为左眼、右眼、左嘴角、右嘴角和鼻子五个关键点，d_i分别为五个关键点到中心点的曼哈顿距离，x_i分别为五个关键点的横坐标，y_i分别为五个关键点的纵坐标。

用(9)式计算上述五个距离的平均距离：

D＝(d₁+d₂+d₃+d₄+d₅)/5(9)

以((x-0.76D),y)为左上角，裁剪成宽为1.54D、高为1.74D的矩形，得到10000幅嘴巴子图。

10000幅嘴巴子图大小归一化：将上述嘴巴子图用B样条插值法，归一化为32×32的图像，像素总个数为32²。也可用三次样条插值法，也可用等距插值法，也可用四次样条插值法，还可用拉格朗日插值法等，得到归一化为32×32的图像，像素总个数为32²。

对10000幅嘴巴子图进行亮度调节：采用分段线性拉伸法对10000幅嘴巴子图进行亮度调节，还可以用直方图均衡化算法对10000幅嘴巴子图进行亮度调节，得到10000幅32×32标准嘴巴图像。

2、训练卷积神经网络

训练卷积神经网络的参数设定为：10000幅训练样本分批训练，每批图像100幅，学习步长设为0.5，最大迭代次数为100。

将10000幅训练样本预处理后得到的10000幅32×32标准嘴巴图像输入卷积神经网络，经前向传播和反向传播两个步骤反复循环至达到设定的最大迭代次数，得到卷积神经网络和训练样本的多尺度特征，多尺度特征的生成过程按照卷积神经网络进行具体设计。

本实施例的卷积神经网络的结构与实施例1相同，多尺度特征的生成过程与实施例1相同，得到10000个300维的多尺度特征。这种通过卷积神经网络自动提取的特征避免了人为选择特征的片面性和复杂性。

3、训练支持向量机分类器

训练支持向量机分类器步骤与实施例1相同。

本实施例的测试步骤与实施例1相同。

实施例3

1、对10000幅训练样本图像进行预处理

包括图像灰度化、嘴巴子图定位、大小归一化以及亮度调节步骤。

10000幅图像灰度化：该步骤与实施例1相同，得到10000幅灰度图像。

10000幅嘴巴子图定位：用五个关键点横坐标的平均值作为中心点的横坐标x，用五个关键点纵坐标的平均值作为中心点的纵坐标y，用(10)式计算五个关键点到中心点的棋盘距离：

d_i＝max(|x_i-x|，|y_i-y|)(10)

式中i＝1,2,3,4,5，分别为左眼、右眼、左嘴角、右嘴角和鼻子五个关键点，d_i分别为五个关键点到中心点的棋盘距离，x_i分别为五个关键点的横坐标，y_i分别为五个关键点的纵坐标。

用(11)式计算上述五个距离的最小距离：

D＝min(d₁，d₂，d₃，d₄，d₅)(11)

以((x-0.77D),y)为左上角，裁剪成宽为1.58D、高为1.78D的矩形，得到10000幅嘴巴子图。

10000幅嘴巴子图大小归一化、对10000幅嘴巴子图进行亮度调节步骤与实施例1相同，得到10000幅32×32标准嘴巴图像。

2、训练卷积神经网络

训练卷积神经网络的参数设定为：10000幅训练样本分批训练，每批图像150幅，学习步长设为1.0，最大迭代次数为300。

3、训练支持向量机分类器

训练支持向量机分类器步骤与实施例1相同。

本实施例的测试步骤与实施例1相同。

Claims

1.一种对人体面部微笑表情深度卷积神经网络的检测方法，它是由训练步骤和测试步骤组成，所述的训练步骤为：

(1)对训练样本图像进行预处理

I＝Wr×R+Wg×G+Wb×B(1)

式中I为灰度化后的亮度，R为彩色图像的红色分量，G为彩色图像的绿色分量，B为彩色图像的蓝色分量，Wr为彩色图像的红色分量的权重，Wg为彩色图像的绿色分量的权重，Wb为彩色图像的蓝色分量的权重；

嘴巴子图定位：用五个关键点横坐标的平均值作为中心点的横坐标x，用五个关键点纵坐标的平均值作为中心点的纵坐标y，用欧式距离或曼哈顿距离或棋盘距离计算五个关键点到中心点的距离；计算上述五个距离的最大距离D或平均距离D或最小距离D，以((x-(0.75～0.77)D),y)为左上角，裁剪成宽为(1.5～1.58)D、高为(1.7～1.78)D的矩形，得到嘴巴子图；

嘴巴子图大小归一化：将上述嘴巴子图用双三次插值法或B样条插值法或三次样条插值法或等距插值法或四次样条插值法或拉格朗日插值法，归一化为32×32嘴巴子图，像素总个数为32²；

对嘴巴子图进行亮度调节：采用自适应亮度调节法或分段线性拉伸法或直方图均衡化算法，获得亮度调节后的嘴巴子图；

c d f (x) = Σ_{i = 0}^{x} h (i) / 32^{2} - - - (4)

式中x∈[0,255]，在cdf(x)中寻找第一个大于0.01的索引值ilow和第一个大于0.99的索引值ihigh；

用(5)式得到亮度范围[low,high]：

low＝(ilow-1)/255,high＝(ihigh-1)/255(5)

用(6)式计算调节后的亮度值J

J＝(tmp-low)/(high-low)(6)

式中tmp＝max(low,min(high,I))，I为灰度化后的亮度，得到32×32标准嘴巴图像；

(2)训练卷积神经网络

将训练样本预处理后得到的32×32标准嘴巴图像输入卷积神经网络，经前向传播和反向传播两个步骤反复循环至达到设定的最大迭代次数，得到卷积神经网络和训练样本的多尺度特征；

(3)训练支持向量机分类器

把多尺度特征输入支持向量机，支持向量机根据多尺度特征寻找最优分类超平面，得到支持向量机分类器，该分类器的输出是1或0，1为微笑，0为不微笑；

所述的测试步骤为：

(1)对测试样本图像进行预处理

测试样本图像的预处理与对训练样本图像进行预处理步骤(1)相同；

(2)用预处理后的测试样本输入到卷积神经网络中，提取测试样本的多尺度特征；

2.根据权利要求1所述的对人体面部微笑表情深度卷积神经网络的检测方法，其特征在于所述的卷积神经网络的结构为：输入层是32×32的标准嘴巴图像；C1层是第一个卷积层，有10个28×28的特征图，每个特征图中的1个像素点与输入层的1个5×5区域相连接，共(5×5+1)×10＝260个训练参数；S2层是下2采样层，有10个14×14特征图，每个特征图中的1个像素点与C1层相应特征图的1个2×2区域相连接，共1×10个偏置参数；C3层是第二个卷积层，有12个10×10的特征图，每个特征图中的1个像素点与S2层相应的1个5×5区域相连接，共(5×5+1)×10×12＝3120个参数；S4层为第二个下2采样层，有12个5×5的特征图，共1×12个偏置参数；F5层是S4中12个5×5的特征图以列序为主序依次排列生成的1个300维的多尺度特征；输出层由2个结点1和0组成，F5层与输出层之间全连接，共300×2＝600个参数；该深度卷积神经网络共260+10+3120+12+600＝4002个参数，通过前向传播和反向传播反复循环至达到设定的最大迭代次数，确定网络参数。

3.根据权利要求1所述的对人体面部微笑表情深度卷积神经网络的检测方法，其特征在于所述的支持向量机为：支持向量机的核函数选择径向基函数，其参数gamma＝0.05，支持向量机的输入是从卷积神经网络得到的多尺度特征，输出是1或0，1为微笑，0为不微笑。

4.根据权利要求1或2或3所述的对人体面部微笑表情深度卷积神经网络的检测方法，其特征在于所述的多尺度特征的生成过程为：将32×32的标准嘴巴图像输入到卷积神经网络的输入层中，经C1层、S2层、C3层和S4层的2次卷积和下2采样，得到12个5×5的特征图，以列序为主序依次排列生成的1个300维的多尺度特征。