CN106503654A

CN106503654A - 一种基于深度稀疏自编码网络的人脸情感识别方法

Info

Publication number: CN106503654A
Application number: CN201610924367.1A
Authority: CN
Inventors: 陈略峰; 吴敏; 周梦甜; 刘振焘; 曹卫华; 陈鑫
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2016-10-24
Filing date: 2016-10-24
Publication date: 2017-03-15

Abstract

本发明公开了一种基于深度稀疏自编码网络的人脸情感识别方法，包括以下步骤：步骤1：数据获取及预处理；步骤2：建立深度稀疏自编码网络；步骤3：深度稀疏网络自动编解码；步骤4：训练Softmax分类器；步骤5：整体网络权值微调。本发明的方法引入稀疏性参数，即减少神经元节点个数情况下，可以学习到数据的压缩表示，有效提高训练和识别速度，并通过反向传播算法与梯度下降法对网络权值进行微调从而达到全局最优，能够克服训练过程中局部极值与梯度弥散问题，从而提高识别性能。

Description

一种基于深度稀疏自编码网络的人脸情感识别方法

技术领域

本发明涉及一种基于深度稀疏自编码网络的人脸情感识别方法，属于模式识别技术领域。

背景技术

随着人机交互、情感计算等理论与技术的高速发展，人们普遍希望机器人具有识别、理解和生成人类情感的能力，从而实现和谐、友好、顺畅的人机交流。由于人类情感的多样性与相应行为之间的复杂性，当前的人机交互仍面临着关于情感计算(包括识别、理解和表达情感的情感计算能力)领域的一些难题。研究基于人脸表情、语音、手势、生理信号等信息的情感识别等已成为人机交互中的重点。人脸表情识别是情感计算领域的关键技术，将人脸表情识别嵌入人机交互系统，可使机器更好地理解人类情感，建立人性化的交互模式，将会在客户体验、智能驾驶、远程教育等领域获得广泛应用。

人脸表情识别由人脸检测与分割、表情特征提取、人脸表情分类三部分组成。其中，人脸表情特征分析与人脸表情分类算法是人脸表情算法的关键。然而己有的一些机器学习算法对人脸表情特征进行训练与识别的过程中往往容易产生局部最优与梯度弥散等问题，因此更具鉴别力的人脸特征选择以及具有良好分类能力的分类器设计是提高人脸情感识别率的关键。

深度学习的概念源于人工神经网络的研究，通过组合低层特征形成更加抽象的高层表示类别或特征，以发现数据的分布式特征表示。深度稀疏自编码网络是一个含有多层隐藏层的神经网络，外加限制隐藏层神经元数量的稀疏性因子，是深度学习的基础模型之一。此网络较以往的识别算法具有以下优点：通过采用分层处理的方式训练数据，每一层都能提取到数据不同层次的特征，从而逐层建立从底层到高层信号的特征映射，大大提高训练和识别的速度；层叠非线性神经元，能够模仿高度复杂的非线性函数；能够克服训练过程中局部极值与梯度弥散问题，从而提高识别性能。

发明内容

为了解决现有技术的不足，本发明提供了一种基于深度稀疏自编码网络的人脸情感识别方法，用受限玻尔兹曼机进行逐层贪婪预训练得到网络的初始权重矩阵，展开模型产生“编码”网络与“解码”网络，之后在模型顶端搭建Softmax分类器并对其进行训练，最后将整个网络视为一个模型，使用反向传播算法与梯度下降法对网络权值进行微调从而达到全局最优，以此提高人脸情感识别性能。

本发明为解决其技术问题所采用的技术方案是：提供了一种基于深度稀疏自编码网络的人脸情感识别方法，包括以下步骤：

步骤1：数据获取与预处理：对训练样本中的人脸图像进行感兴趣区域剪裁，采用灰度均衡方法对剪裁后的人脸图像预处理，然后将表情图像中的像素信息进行归一化；所述训练样本中的人脸图像的人脸表情信息已知；

步骤2：建立深度稀疏自编码网络：根据归一化后的人脸图像的像素信息以及人脸表情信息，建立一个1+n+1层的深度稀疏自编码网络，其中第1层为输入层，最后一层为分类器输出层，中间n层为隐藏层，通过进行RBM预训练，对深度稀疏自编码网络中的1+n层的权重进行初始化；所述n为设置值；

步骤3：深度稀疏自编码网络解码：将经过步骤2中RBM预训练得到的初始权重矩阵定义为w_i，i∈[1,n]，展开深度稀疏自编码网络，产生编码网络与解码网络并实现稀疏性表示；

步骤4：训练Softmax分类器：在深度稀疏自编码网络顶层搭建Softmax分类器，并对深度稀疏自编码网络学习到的特征进行分类，采用梯度下降法对Softmax分类器进行训练；

步骤5：整体网络权值微调：将包括Softmax分类器在内的整个深度稀疏自编码网络视为一个模型，利用反向传播算法计算整体代价函数的偏导数，并采用梯度下降法对整体深度稀疏自编码网络权值进行微调从而达到全局最优，从而提高人脸情感识别性能。

步骤1所述数据获取与预处理具体包括以下过程：

(1-1)数据获取：对于训练样本中的人脸图像，将眉毛、眼睛和嘴巴这三部分ROI区域从人脸图像中分割出来，获取该ROI区域的四角坐标，并将ROI区域的像素信息存储在矩阵中；

(1-2)样本预处理：对人脸图像进行直方图均衡化处理，调整人脸图像的灰度值，使不同灰度区域范围内的图像像素个数均衡。

步骤2所述建立深度稀疏自编码网络具体包括以下过程：

(2-1)从输入层开始，将输入层及上一层隐藏层组成一个RBM，并训练这个RBM；

(2-2)定义输入层为v，隐藏层为h，用训练好的参数以及输入层数据计算v与h的联合概率分布函数p(h_j＝1|v)，并将此函数值作为h_j的值；

(2-3)如果上述隐藏层的上一层是输出层，则预训练结束，否则进行下一步；

(2-4)把上述隐藏层看成输入层，h_j作为输入数据，以输入层及上一层隐藏层组成一个RBM，并训练这个RBM；

(2-5)用训练好的参数以及输入数据计算p(h_j＝1|v)，作为h_j的值；

(2-6)返回步骤(2-3)判断预训练是否结束。

步骤3所述深度稀疏自编码网络解码具体包括以下过程：

(3-1)定义归一化的人脸图像的像素信息为网络输入数据x，网络输出为h_w,b(x)；在编码阶段，输入x通过激活函数g(·)的映射，得到u；

(3-2)在解码阶段，通过激活函数g(·)对输入信号u进行重建，得到h_w,b(x)；

(3-3)用表示在给定输入x下隐藏层第j个神经元的激活度，定义ρ为稀疏性参数，若某些隐藏神经元平均激活度与ρ不一致，则引入惩罚因子惩罚，使隐藏神经元的平均激活度保持在[0,0.2]范围内。

步骤4所述训练Softmax分类器具体包括以下过程：

(4-1)对于训练集{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，有y⁽ⁱ⁾∈{1,2,…,k}，在人脸情感识别中定义k种不同类别以表示不同表情，定义θ表示模型参数矩阵；

(4-2)在代价函数中添加权重衰减项以此惩罚数值过大的参数，并对代价函数J(θ)求导；使用梯度下降法来最小化J(θ)，每一次迭代需要进行参数更新，利用此迭代步骤重复进行来优化Soft分类器模型参数，实现一个优化的回归模型。

步骤5所述整体网络权值微调具体包括以下过程：

(5-1)利用前向传导计算公式，计算网络中各层的激活值；

(5-2)计算第n_i层中每一个输出单元i的残差，之后利用递推原理得到第l层第i个节点残差的计算公式；

(5-3)计算i＝1,2...,m的偏导数以及整体代价的偏导函数；

(5-4)对于J(w,b；x,y)，每一次迭代进行权重更新，通过重复迭代优化权重参数求出代价函数的最小值，即求解出了最优的网络模型。

本发明基于其技术方案所具有的有益效果在于：本发明通过采用分层处理的方式训练数据，每一层都能提取到数据不同层次的特征，从而逐层建立从底层到高层信号的特征映射，引入稀疏性参数，即减少神经元节点个数情况下，可以学习到数据的压缩表示，大大提高训练和识别的速度；反向传播算法与梯度下降法对网络权值进行微调从而达到全局最优，使整个深度神经网络更具有鲁棒性，能够克服训练过程中局部极值与梯度弥散问题，从而提高识别性能。

附图说明

图1是本发明总体结构框图。

图2是日本JAFFE人脸表情数据库图像。

图3是人脸表情图像ROI区域分割。

图4是引入稀疏性参数前整体代价函数收敛曲线。

图5是引入稀疏性参数后整体代价函数收敛曲线。

图6是稀疏性参数ρ＝0.05，微调前隐藏层权值特征可视化图像。

图7是稀疏性参数ρ＝0.05，微调后隐藏层权值特征可视化图像。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明提供了一种基于深度稀疏自编码网络的人脸情感识别方法，参照图1，通过构建深度稀疏自编码网络使其学习人脸表情特征并使用Softmax分类器对表情进行情感识别。首先用受限玻尔兹曼机进行逐层贪婪预训练得到网络的初始权重矩阵，展开模型产生“编码”网络与“解码”网络，之后在模型顶端搭建Softmax分类器并对其进行训练，通过梯度下降法寻找最优模型参数，最后将包括Softmax分类器在内的整个网络视为一个模型，使用反向传播算法与梯度下降法对网络权值进行微调从而达到全局最优，使整个深度神经网络更具有鲁棒性，从而提高人脸情感识别性能。

具体实现方法包括以下步骤：

步骤1：数据获取与预处理：对训练样本中的人脸图像进行感兴趣区域剪裁，采用灰度均衡方法对剪裁后的人脸图像预处理，然后将表情图像中的像素信息进行归一化；所述训练样本中的人脸图像的人脸表情信息已知。

(1-1)数据获取：使用日本JAFFE人脸表情数据库作为训练样本，此数据库共有213张人脸表情图像，包括10个对象，7类基本表情。其中7类表情为自然、高兴、愤怒、悲伤、吃惊、厌恶、恐惧。每幅灰度图像的分辨率为256×256，各个对象都有3～4幅无遮挡光照良好的正面表情灰度图像，部分样本如图2所示。对于训练样本中的人脸图像，将眉毛、眼睛和嘴巴这三部分ROI区域(Region of Interest，感兴趣区域)从人脸图像张分割出来，获取该ROI区域的四角坐标，并将ROY区域的像素信息存储在矩阵中；

(1-2)样本预处理：对每幅ROI区域分割后的人脸图像进行直方图均衡化处理，调整人脸图像的灰度值，将表情图像像素信息归一化为[0,1]，如图3所示，使不同灰度区域范围内的图像像素个数均衡。

步骤2：建立深度稀疏自编码网络：根据归一化后的人脸图像的像素信息以及人脸表情信息，建立一个1+n+1(输入+隐藏+Softmax分类器输出)层的深度稀疏自编码网络，其中第1层为输入层，最后一层为分类器输出层，中间n层为隐藏层，用w_ij ^(l)表示第l层中第j个神经元与第l+1层中第i个神经元之间的连接权重，用b_i ^(l)表示第l+1层中第i个神经元的偏置项，通过进行逐层RBM预训练，对深度稀疏自编码网络中的1+n层(输入层+隐藏层)的权重进行初始化；所述n为设置值。为减少噪声一般并不对每个输入数据都进行更新，而是将一定数量数据合并为一组，称为一个minibatch，把一个minibatch的更新值平均后才进行一次更新。当所有数据都被使用一次后，称为进行了一个epoch，每进行一个epoch，minibatch应该重新组合。之后重新划分minibatch，重复上述步骤进行若干个epoch从而达到训练的目的，具体包括以下过程：

(2-1)从输入层开始，将输入层及上一层隐藏层组成一个RBM(RestrictedBoltzmannMachine，逐层受限玻尔兹曼机)，并训练这个RBM；

(2-2)定义输入层为v，隐藏层为h，用训练好的参数以及输入层数据计算v与h的联合概率分布函数p(h_j＝1|v)，并将此函数值作为h_j的值；概率分布函数如公式(1)所示：

其中是logistic sigmoid函数，c_j为隐藏层偏移量；

(2-4)把上述隐藏层看成输入层，h_j作为输入数据，以输入层及上一层隐藏层组成一个RBM，并训练这个RBM，进行若干个epoch；

(2-6)返回步骤(2-3)判断预训练是否结束。

上述方法是将深度稀疏自编码网络中除输出层外的连续两层均两两看成一个RBM，之后自下而上地一层一层采用RBM进行预训练，因此训练的RBM数目与隐藏层数目一致。

步骤3：深度稀疏自编码网络解码：将经过步骤2中RBM预训练得到的初始权重矩阵定义为w_i(i＝1,2...n)，展开深度稀疏自编码网络，产生编码网络与解码网络并实现稀疏性表示，定义网络输入数据为x，网络输出为h_w,b(x)，具体包括以下过程：

(3-1)在编码阶段，输入x通过激活函数g(·)的映射，得到u如公式(2)所示；

u＝g(w_ix+b_i) (2)

其中激活函数选取Sigmoid函数，

(3-2)在解码阶段，通过激活函数g(·)对输入信号u进行重建，得到h_w,b(x)如公式(3)所示：

h_w,b(x)＝g(w_i ^Tu+b_i+1) (3)

(3-3)用表示在给定输入x下隐藏层第j个神经元的激活度，定义ρ为稀疏性参数，若某些隐藏神经元平均激活度与ρ不一致(其中，与ρ的取值范围均为[0,1]，不一致指它们的比值不等于1)，则引入惩罚因子惩罚，使隐藏神经元的平均激活度保持在较小范围[0,0.2]。

定义ρ为稀疏性参数，使若某些隐藏神经元平均激活度与ρ有显著不同，则引入惩罚因子惩罚，使隐藏神经元的平均激活度保持在较小范围，惩罚因子的具体形式有很多选择，本文选取其中的一种如公式(5)所示：

其中s_i+1表示隐藏层中神经元的数量，将公式(5)写成相对熵(KL divergence)的形式如公式(6)所示：

为了减小与ρ之间的差距需将惩罚因子最小化，因此总体代价函数如公式(7)所示：

其中是用于控制稀疏性惩罚因子的权重，代价函数在步骤4中继续具体说明；

步骤4：训练Softmax分类器：在网络顶层搭建Softmax分类器，并对深度自编码网络学习到的特征进行分类，采用梯度下降法对分类器进行训练；

(4-1)对于训练集{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，有y⁽ⁱ⁾∈{1,2,…,k}，在人脸情感识别中定义k种不同类别以表示不同表情，例如定义k＝7种不同类别，分别为自然、高兴、愤怒、悲伤、吃惊、厌恶、恐惧。

定义一个假设函数针对每一个类别估算概率分布，假设函数h_θ(x)形式如公式(8)所示：

其中θ₁,θ₂,...,θ_k为模型参数；

定义θ表示模型参数矩阵如公式(9)所示：

则Softmax分类器的代价函数表达式如公式(10)所示：

(4-2)在代价函数中添加权重衰减项以此惩罚数值过大的参数，权重衰减项可定义为既可保留全部参数θ₁,θ₂,...,θ_k也能够解决参数冗余问题，代价函数改写为如公式(11)所示：

并对代价函数J(θ)求导，得到结果如公式(12)所示：

使用梯度下降法来最小化J(θ)，每一次迭代需要进行参数更新，计算如公式(13)所示：

利用此迭代步骤重复进行来优化Soft分类器模型参数，实现一个优化的回归模型。

步骤5：整体网络权值微调：将包括Softmax分类器在内的整个网络视为一个模型，使用反向传播算法计算整体代价函数的偏导数，并采用梯度下降法对整体网络权值进行微调从而达到全局最优，具体包括以下步骤：

(5-1)包含m个样例的样本集整体代价函数可表示如公式(14)所示：

公式中第一项是一个均方差项(average sum-of-squares error)，第二项为权重衰减项(weight decay)；

利用前向传导计算公式，计算网络中各层的激活值(不包括输出层)，前向传导如公式(15)所示：

a^(l+1)＝f(w^(l)a^(l)+b^(l))A (15)

(5-2)计算第n_i层中每一个输出单元i的残差，如公式(16)所示：

对于其它各层，即l＝n₁-1,n₂-2,n_l-3,...,2层，利用l+1层节点的残差来计算l层节点的残差，其具体计算方式如公式(17)所示：

之后利用递推原理得到第l层第i个节点残差的计算公式如公式(18)所示：

(5-3)计算J(w,b；x,y)的偏导数，计算公式如公式(19)所示：

则整体代价的偏导函数如公式(20)所示：

(5-4)对于i＝1,2...,m，每一次迭代需要进行权重更新，计算如公式(21)所示：

利用上述迭代步骤，不断重复从而优化权重参数，可求出代价函数的最小值，也便求解出了最优的网络模型。

在求解出最优化的网络模型过程中，引入稀疏性参数，得到引入前后算法收敛情况如图4和图5所示，可以看出，引入稀疏性参数后，在训练次数为182时停止训练，使得整体代价函数更快地收敛，因此大幅度减少训练时间，提高训练效率。

进一步的，对网络权值进行全局微调来观察特征图像的变化，将学习得到的网络隐藏层权值特征进行可视化设计，如图6和图7所示，可以看出，微调后网络自学习到的表情特征更为精细与全面，保证了较高的识别精度。

同时，将所提出的深度稀疏自编码网络模型与Softmax回归模型进行人脸表情识别对比实验。通过表1中的实验结果可以得出，单独使用Softmax回归模型训练输入样本，总体表情平均识别率为73.333％，而首先使用深度稀疏自编码网络进行样本学习之后训练Softmax回归模型得到的总体表情平均识别率提高到94.761％，而且每个单项表情的识别率均比Softmax回归模型高，表明此深度稀疏自编码网络学习到的表情特征到比原始图像的特性更具有代表性，这也是传统的训练方法和深度学习训练方法的典型差别。

表1不同方法的表情识别结果对比。

Claims

1.一种基于深度稀疏自编码网络的人脸情感识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度稀疏自编码网络的人脸情感识别方法，其特征在于：步骤1所述数据获取与预处理具体包括以下过程：

3.根据权利要求1所述的基于深度稀疏自编码网络的人脸情感识别方法，其特征在于：步骤2所述建立深度稀疏自编码网络具体包括以下过程：

(2-6)返回步骤(2-3)判断预训练是否结束。

4.根据权利要求1所述的基于深度稀疏自编码网络的人脸情感识别方法，其特征在于：步骤3所述深度稀疏自编码网络解码具体包括以下过程：

5.根据权利要求1所述的基于深度稀疏自编码网络的人脸情感识别方法，其特征在于：步骤4所述训练Softmax分类器具体包括以下过程：

6.根据权利要求1所述的基于深度稀疏自编码网络的人脸情感识别方法，其特征在于：步骤5所述整体网络权值微调具体包括以下过程：

(5-1)利用前向传导计算公式，计算网络中各层的激活值；

(5-3)计算i＝1,2...,m的偏导数以及整体代价的偏导函数；