CN107657204A

CN107657204A - 深层网络模型的构建方法及人脸表情识别方法和系统

Info

Publication number: CN107657204A
Application number: CN201610591524.1A
Authority: CN
Inventors: 刘鹏; 李松斌
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2018-02-02

Abstract

本发明公开了深层网络模型的构建方法，包括：步骤S1)建立用于人脸表情识别的深层网络模型，对深层网络模型的参数进行初始化；所述深层网络模型包括：用于提取图片高层特征的卷积神经网络，用于提取图片低层特征的重建网络和用于识别人脸表情的联合判决网络；步骤S2)将所有的训练图片划分为N个组；步骤S3)将每组图片依次输入深层网络模型，基于梯度下降法对深层网络模型中的参数进行训练；步骤S4)将步骤S3)得到的深层网络模型参数作为模型参数的初始值，重新将所有的训练图片划分为N个组，转入步骤S3)；反复进行该过程，直至所有训练出的模型参数与模型参数的初始值相比不再发生变化。本发明还公开了人脸表情的识别方法和系统。

Description

深层网络模型的构建方法及人脸表情识别方法和系统

技术领域

本发明涉及计算机视觉及深度学习技术领域，特别涉及深层网络模型的构建方法及人脸表情识别方法和系统。

背景技术

人脸作为一个对计算机来说识别和分析都非常困难的物体，从20世纪90年代开始就引起了研究者们的广泛关注。而成功有效的人脸分析在智能监控，视频索引以及人口信息统计等领域又存在着巨大的应用前景。

目前存在的人脸分析领域的相关研究，都是基于人为“手工”确定特征描述子来表示人脸，结合分类器算法或者回归算法展开。人工选定特征往往耗费大量的前期准备时间，具有主观性，且选取出来的特征往往在某一类数据上表现良好，而扩展到另外的数据时性能会有显著下降，泛化能力较弱。而实际应用时，传统方法的弱泛化能力恰好在质量较低的图片(强光照图片、存在背景干扰图片、歪脸侧脸图片)上性能不佳，满足不了实际应用的需求。目前人脸分析领域的研究受限于这一瓶颈而发展缓慢。另一方面，近年来，基于深度学习思想的方法取得了极大的发展，为计算机科学向智能化方向发展提供了算法上的支持。深度学习的基本思想就是构建深层的人工神经网络，模拟人脑的学习机制，采用非监督学习的方式“自动”学习目标物体的特征，学习到的特征具有层次结构：从具体细节到抽象概念，这样的特征对数据本身有着更本质的刻画。深度学习的方法在许多领域的应用都取得了突破性的成功，美国多家银行的手写数字识别系统、Google的图像分类语音识别综合项目Google Brain、微软的全自动同声传译系统都是基于深度学习的方法实现的。目前深度学习的方法主要包括深层稀疏自编码算法，深度信念网络算法以及卷积神经网络算法。其中卷积神经网络算法在图像处理的多个领域都取得了世界领先的水平，例如人脸检测，行人检测以及人脸识别等；而深度信念网络算法主要在语音识别领域的应用较多，效果较好；深层稀疏自编码算法则更多的被应用于数据降维类的问题。

卷积神经网络本质是一种深层的神经网络结构，其算法的基本原理和特点是网络结构由两种重要的部分组成：卷积处理单元构成的卷积层，以及下采样处理单元构成的下采样层。卷积层和下采样层由神经元组成二维结构，对同样是二维结构的输入图像分别进行卷积处理和下采样处理，然后重复卷积和下采样，直到提取出图像的“理想”(根据研究应用需要确定)特征后，再进行分类或者回归或者检测。当输入图像为N×N大小时，首先连接卷积层C₁，C₁中每一个神经元只与上一层的一块局部接收域(又称作卷积核，filter)相连。假设卷积核的大小为m×m，那么C₁层将会用这m×m的卷积核卷积输入图片所有可能的(N-m+1)×(N-m+1)位置的像素点，生成一张(N-m+1)×(N-m+1)的局部特征图。输入图片每一块m×m大小区域内的所有像素点与C₁层中一个神经元相连，且这m×m个连接采取相同的权值(即权值共享机制)。当使用多个不同权值的连接方式生成多张局部特征图时，C₁层就提取出原图的不同局部特征。接着C₁层的局部特征图连接至下一层的下采样层S₁。假设C₁层有F₁张特征图，那么对应C₁层也有F₁张下采样图，且与C₁层的特征图一一对应。S₁层每一张图中的每一个神经元连接这上一层的一块局部域，且没有重叠，然后计算这块区域内所有值的平均值作为采样层的值。假设C₁层中每张特征图的大小为(N-m+1)×(N-m+1)，局部连接区域大小为n×n，那么S₁层每一张下采样图的大小即为(N-m+1)/n×(N-m+1)/n。这样即实现了对上一层特征图的下采样，降低空间分辨率。然后S₁层再与一个新的卷积层C₂层连接，C₂层与S₂层连接，如此交叉反复，根据实际需要确定卷积层的个数和下采样层的个数。最后网络的输出称作输出层，根据问题的不同可能是输出不同的类别，也可能是输出回归估计的概率。

然而，卷积神经网络的卷积+下采样处理方式虽然能够提取目标物体的高层、抽象的特征，用于某些分类问题时取得了很好的效果，但忽略了一些低层却对分类有效的特征和信息。且卷积+下采样处理提取到的特征图描述的主要是物体的局部特征和局部关联性，缺少对物体整体特征的表现。解决人脸表情估计问题时，恰恰需要对人脸进行全方位、多层次的特征提取和描述，才能够获得准确、全面的信息。

基于上述，在人脸分析领域应用传统的“手工”确定特征描述子的方法，或者直接应用卷积神经网络(包括现有的其它深度学习的方法)，它们性能和最终的效果都不能满足实际应用的需要。

发明内容

本发明的目的在于，为克服现有人脸分析的技术中的传统方法的性能满足不了实际应用需要的缺陷，从而提出用于人脸表情识别的深层网络模型的构建方法，该方法通过构建训练深层的网络，“自动”地学习、提取到人脸的分层次、全方位的特征，形成一种多特征(高层、低层，抽象、具体)的结构描述表示人脸。这样的多特征结构应用于最终的表情分类时取得了非常好的效果。

为了实现上述目的，本发明提供了深层网络模型的构建方法，所述方法包含：

步骤S1)建立用于人脸表情识别的深层网络模型，并对深层网络模型的参数进行初始化；所述深层网络模型包括：用于提取图片高层特征的卷积神经网络，用于提取图片低层特征的重建网络和用于识别人脸表情的联合判决网络；

步骤S2)将所有的训练图片划分为N个组；

步骤S3)将每组图片依次输入深层网络模型，基于梯度下降法对深层网络模型中的参数进行训练，每输入一组图片就进行一次网络参数调整，得到该次分组图片训练出的深层网络模型参数；

步骤S4)将步骤S3)得到的深层网络模型参数作为模型参数的初始值，重新将所有的训练图片划分为N个组，转入步骤S3)；反复进行该过程，直至所有训练出的模型参数与模型参数的初始值相比不再发生变化，所述深层网络模型构建完毕。

上述技术方案中，所述步骤S1)具体包括：

步骤S1-1)采用3层卷积层C₁，C₂和C₃，以及3层下采样层S₁，S₂和S₃的组合建立卷积神经网络，层与层之间采用全连接；对卷积神经网络中的参数集{CS}进行初始化；其中，{CS}表示卷积层和下采样层中所有参数的矩阵集合；

步骤S1-2)建立重建网络，所述重建网络为L层的人工神经网络，层与层之间采用全连接，每一个神经元采用sigmoid函数进行激活；对重建网络中的参数集{LN}进行初始化；其中，{LN}表示L层人工神经网络中所有参数的矩阵集合；

步骤S1-3)建立联合判决网络，输入层为卷积神经网络的输出层和重建网络的输出层组成的联合表决层；联合判决网络包含两层：联合表决层和输出层，两层之间采用全连接；

采用sigmoid函数对输出层的神经元进行激活，输出层每个神经元的判决概率p_i为：

其中，表示联合表决层第k个神经元的输出，表示联合表决层第k个神经元与输出层第i个神经元的连接权值，为对应偏置；选取输出层输出概率最大的神经元所对应的类别作为输入人脸表情图片的判决结果。

上述技术方案中，所述步骤S3)具体包括：

步骤S3-1)利用卷积神经网络依次提取每张训练图片的高层特征向量h_f；

步骤S3-2)将每张训练图片由二维的图结构形式转化为向量的形式，再对向量进行归一化，得到每张训练图片的原始特征向量；将每张训练图片的原始特征向量输入重建网络，得到低层特征向量l_f；

步骤S3-3)将高层特征向量h_f和低层特征向量l_f输入联合判决网络，得到输出结果为：

r＝sgmx(w₁·h_f+w₂·l_f×β+b) (4)

其中，r表示联合判决网络输出的判决结果，sigmx()表示利用sigmoid函数对输入矩阵中每一个元素进行激活；w₁表示联合判决网络输出层与卷积神经网络的输出层相连的权值矩阵，即第一权值矩阵；w₂表示联合判决网络输出层与重建网络的输出层相连的权值矩阵，即第二权值矩阵；b表示输出层偏置矩阵，β为调节权重值，0≤β≤1；

步骤S3-4)以一组图片为单位，对深层网络模型中的参数进行训练获取模型参数{CS}、{LN}、w₁、w₂、b和β的取值。

上述技术方案中，所述步骤S3-4)中模型参数{CS}、{LN}的训练算法为人工神经网络的误差反向传播更新参数算法。

上述技术方案中，所述步骤S3-4)中模型参数w₁、w₂和b的训练过程为：

计算输出层的误差，计算公式如下：

其中，MSE表示该组图片的判决结果o与该组图片实际样本标签矩阵Y之间的均方误差，MSE为矩阵表示；Y为该组输入样本的标签矩阵；o为该组图片中的每个图片的网络输出的判决结果r组成的矩阵，“||||₂”表示矩阵之间对应元素求平方差后的矩阵表示；

计算输出层的灵敏度：

其中，Od表示输出层灵敏度的矩阵形式，f′(o)表示对输出函数求导，激活函数采用sigmoid函数，其导数形式为f′(x)＝f(x)(1-f(x))；根据灵敏度采用如下3个公式可进一步求出参数w₁，w₂以及偏置b的值，即对w₁，w₂以及偏置b进行更新：

其中，(w₁)_new表示在每一次的误差反向传播时更新后的第一权值矩阵w₁的值,(w₁)_old对应更新前的第一权值矩阵w₁的值；α表示网络的学习率；

其中，(w₂)_new表示在每一次的误差反向传播时更新后的第二权值矩阵w₂的值，

(w₂)_old对应更新前的第二权值矩阵w₂的值。

其中，(b)_new表示在每一次的误差反向传播时更新后的偏置矩阵b的值，(b)_old对应更新前的偏置矩阵b的值。

上述技术方案中，所述步骤S3-4)中参数β的训练过程为：

由于β是一个实数，采取梯度下降法更新β的更新公式如下：

其中，误差函数J(W,b；β)的矩阵形式即为MSE；其中W为w₁和w₂组成的联合权重，对β求偏导的式子可由链式规则进一步化为：

β与矩阵(w₂·l_f)相乘可看作一个与矩阵相同行列数的矩阵A与矩阵(w₂·l_f)点乘，其中A中元素值全都为β。这样，公式(11)最终可化为：

其中“mean(B(:))”表示对矩阵B中所有元素取平均值运算，矩阵B表示由在每一次的误差反向传播时更新后的调节权重β的值构成的矩阵，该矩阵B的行列数与判决结果o的行列数相同。

基于上述方法构建的深层网络模型，本发明还提供了人脸表情的识别方法，，所述方法包含：

步骤T1)基于卷积神经网络提取待识别人脸图片的高层特征向量h′_f；

步骤T2)将待识别人脸图片由二维的图结构形式转化为向量的形式，再对向量进行归一化，得到图片的原始特征向量；输入重建网络提取原始特征向量的低层特征向量l′_f；

步骤T3)将高层特征向量h′_f和低层特征向量l′_f输入联合判决网络，进行表情判决，输出判决结果r′：

r′＝sgmx(w₁·h′_f+w₂·l′_f×β+b)

其中，上述公式中的第一权值矩阵w₁、第二权值矩阵w₂、β和b为训练好的联合判决网络参数，r′表示表情识别的判决结果；sigmx()表示利用sigmoid函数对输入矩阵中每一个元素进行激活。

基于上述方法构建的深层网络模型，本发明还提供了人脸表情的识别系统，所述系统包含：

高层特征向量提取模块，用于基于卷积神经网络提取待识别人脸图片的高层特征向量h′_f；

低层特征向量提取模块，用于将待识别人脸图片由二维的图结构形式转化为向量的形式，再对向量进行归一化，得到图片的原始特征向量；输入重建网络提取原始特征向量的低层特征向量l′_f；

表情判决模块，用于将高层特征向量h′_f和低层特征向量l′_f输入如下的判决公式，进行表情判决，输出判决结果：

r＝sgmx(w₁·h′_f+w₂·l′_f×β+b)

其中，上述公式中的第一权值矩阵w₁、第二权值矩阵w₂、β和b为训练好的联合判决网络参数，r表示表情识别的判决结果，sigmx()表示利用sigmoid函数对输入矩阵中每一个元素进行激活。

与传统的“手工”确定特征描述子的方法相比，本发明的技术优势在于：

本发明提供的深层网络能够“自动”学习人脸的特征，并且学习到的特征具有分层结构，这样的特征对数据本身有着更本质的刻画，所以最终使用这样的特征进行分类和回归估计时的效果也更好。进一步，与现有的深度学习的方法相比，本发明的深层网络不仅能学习到人脸的高层抽象特征，同时学习了人脸的低层全局特征，结合两种全方位、多层次的描述表示人脸，这样最终的分类和回归估计时，本发明的方法比只提取了单独的高层特征的现有深度学习的方法要更好。本发明这种基于多特征的深度学习的方法在应用于人脸分析领域时，不仅具有极强的学习能力，还有极强的泛化能力。在测试公共数据集的高质量标准人脸图片，质量较低的网络人脸图片以及监控设备采集的实际人脸图片时，都取得了超过现有技术的性能。故本发明能够满足实际人脸分析应用的需要。

附图说明

图1为本发明的深层网络模型的分层网络结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的描述。

深层网络模型的构建方法，所述方法包含：

步骤S1)建立用于表情识别的深层网络模型，并对深层网络模型的参数进行初始化；

如图1所示，所述深层网络模型包括：用于提取图片高层特征的卷积神经网络，用于提取图片低层特征的重建网络和用于判决人脸表情的联合判决网络；

所述步骤S1)具体包括：

步骤S1-1)采用3层卷积层C₁，C₂和C₃，以及3层下采样层S₁，S₂和S₃的组合建立卷积神经网络，层与层之间采用全连接；对卷积神经网络中的参数集{CS}进行初始化；

步骤S1-2)建立重建网络，重建网络基于人工神经网络原理搭建，共L层；每一层的神经元输出可看作是特征向量，下一层的神经元对上一层输出的向量进行重新编码，进行重新表示和描述后再输出，层与层之间采取全连接的方式，每一个神经元采用sigmoid函数进行激活；对重建网络中的参数集{LN}进行初始化；

步骤S1-3)建立联合判决网络，输入层为卷积神经网络的输出层和重建网络的输出层组成的联合表决层；联合判决网络包含两层：联合表决层和输出层，两层之间采用全连接方式；

其中，表示联合表决层第k个神经元的输出，表示联合表决层第k个神经元与输出层第i个神经元的连接权值，为对应偏置；选取输出层输出概率最大的神经元所对应的类别作为输入人脸图片的判决结果。

步骤S2)将所有的训练图片划分为若干组；

将所有T张训练图片随机划分为若干组，且每B张一组(B要能够整除T)，共“T/B”组。

步骤S3)将每组图片依次输入深层网络模型，基于梯度下降法对深层网络网络模型中的参数进行训练，每输入一组图片就进行一次网络参数调整，得到该组图片训练出的深层网络模型参数；具体包括：

高层特征提取部分得到的高层特征图经过扁平化处理后可以被转化为向量形式。假设高层特征提取最后得到了G张q×q大小的特征图，那么转化为向量后可得到一个G×q×q维高层特征向量；

步骤S3-2)将每张训练图片由二维的图结构形式转化为向量的形式，再对向量进行归一化，得到每张训练图片的原始特征向量；将每张训练图片的原始特征向量输入重建网络，得到图片的低层特征向量l_f；

将每张图片的原始特征向量连接到重建网络以获得低层特征向量。原始特征向量首先连接至重建网络的H₁层，H₁层含有h₁个神经单元，假设输入图片大小为N×N,那么人脸原始特征向量为N×N维，经过H₁层后变为h₁维特征向量。然后接着连接至H₂层，H₂层含有h₂个神经单元，那么特征向量进一步变为h₂维。以此类推，根据实际需要，最后连接至H_n层，得到一个h_n维的特征向量。层与层之间的连接用数学公式表达为：

a^l+1＝sigmx(W^l·a^l+b^l) (2)

其中，sigmx()表示利用sigmoid函数对输入向量中每一个元素进行激活，a^l+1及a^l分别表示第(l+1)层和第l层的输出的特征向量，W^l为连接第(l+1)层和第l层之间神经元的权值矩阵，b^l表示第l层的偏置矩阵。

这个h_n维的特征向量即是重建网络的输出，也即重建特征向量。重建特征向量剔除了人脸原始特征向量中对分类无效的冗余信息，减少了部分噪声干扰，能够较好的刻画人脸的低层和全局特征。

r＝sgmx(w₁·h_f+w₂·l_f×β+b) (4)

其中，r表示联合判决网络输出的判决结果，sigmx()表示利用sigmoid函数对输入矩阵中每一个元素进行激活；w₁表示联合判决网络输出层与卷积神经网络的输出层相连的权值矩阵，即第一权值矩阵；w₂表示联合判决网络输出层与重建网络的输出层相连的权值矩阵，即第二权值矩阵；b表示输出层偏置矩阵。

联合表决层中含有(G×q×q+h_n)个神经元，对高层特征向量和重建特征向量进行融合，形成一种多特征结构形式的向量。联合表决层的输出为多特征结构的(G×q×q+h_n)维特征向量。

考虑到两种特征对最后结果的影响，在表示低层特征的重建特征向量中加入一个调节权重β，0≤β≤1，进行调节，低层特征对最终结果的判定的影响得到一定程度的抑制。则最终网络输出的判决结果为：

r＝sgmx(w₁·h_f+w₂·l_f×β+b) (4)

人工神经网络的基本理论分为网络的设计和网络中参数的训练两部分。当设计好网络的结构后(即获得上述高层特征、低层特征、及判决公式)，需要训练确定网络中每一个参数的值(即确定w₁、w₂、b和β的值，以及卷积层和下采样层中的参数的值，人工神经网络中L层中的各神经元的参数的值)，然后才能使用该网络对待识别的人脸图片进行实际的分类和回归等应用。参数调整以组为单位进行，即每输入一组图片后，根据该组图片的训练误差对网络参数进行一次调整。

模型参数w₁、w₂和b的训练方法为：

计算输出层的误差，计算公式如下：

其中，MSE表示判决结果o与实际样本标签(表示样本类别，此处为表情编号)矩阵Y之间的均方误差，MSE为矩阵表示；Y为该组输入样本的标签矩阵；o为该组图片中的每个图片的网络输出的判决结果r组成的矩阵，“||||₂”表示矩阵之间对应元素求平方差后的矩阵表示。

利用输出层误差计算出公式(4)中的参数w₁，w₂，b以及β对于最终的误差函数J(W,b；β)的梯度，利用梯度下降原理更新上述参数w₁，w₂，b以及β的值；

误差函数J(W,b；β)的矩阵形式即为MSE；其中W为w₁和w₂组成的联合权重，为此，需计算输出层的灵敏度：

其中，Od表示输出层灵敏度的矩阵形式。其中f′(o)表示对输出函数求导，激活函数采用sigmoid函数，其导数形式为f′(x)＝f(x)(1-f(x))。根据灵敏度采用如下3个公式可进一步求出参数w₁，w₂以及偏置b的值，即对w₁，w₂以及偏置b进行更新：

其中，(w₁)_new表示在每一次的误差反向传播时更新后的第一权值矩阵w₁的值,(w₁)_old对应更新前的第一权值矩阵w₁的值；α表示网络的学习率，本发明采取变学习率策略训练，即α的取值初始化为一个较大的值，然后随训练迭代次数的增加而逐渐减小，保证整个网络的收敛性。

(w₂)_old对应更新前的第二权值矩阵w₂的值。

更新参数β的具体过程如下：

由于β是一个实数，采取梯度下降法更新β的更新公式如下：

误差函数对β求偏导的式子可由链式规则进一步化为：

总之利用误差反向传播算法，可完成公式(4)中的网络参数w₁，w₂，b以及β的更新。整个网络中还包括卷积层中的参数，下采样层中的参数以及L层人工神经网络中的参数需要通过训练确定它们的值。所使用方法仍然是误差反向传播算法。继续将误差MSE向前传播，此时联合表决层一部分与高层特征提取部分相连，一部分与重建网络相连，那么MSE分为两部分误差，分别在这两个模块中继续向前传播。在高层特征提取部分的误差反向传播过程中，直接采用现有深度学习技术中的卷积层和下采样层误差反向传播更新参数的方法，这样就完成了一组图片的参数训练过程，接着输入第二组图片训练时，以第一组图片确定的网络参数w₁，w₂，b和β的值，以及{CS}和{LN}的值计算判决结果o，然后重复误差反向传播过程，更新网络中w₁，w₂，b和β值，以及{CS}和{LN}的值。

步骤S4)将得到的深层网络模型参数作为模型的初始值；重新将所有T张训练图片随机划分为若干组，仍然是每B张一组，共“T/B”组；每次都是随机划分，确保每次划分后每一组的图片与上一次都不相同，转入步骤S3)；反复进行该过程，直至所有训练出的模型参数与模型参数的初始值相比不再发生变化，所述深层网络模型构建完毕。

基于上述方法构建的深层网络模型，本发明还提供了人脸表情识别方法，所述方法包含：

骤T1)基于卷积神经网络提取待识别人脸图片的高层特征向量h′_f；

r′＝sgmx(w₁·h′_f+w₂·l′_f×β+b)

其中，上述公式中的第一权值矩阵w₁、第二权值矩阵w₂、β和b为训练好的联合判决网络参数，r′表示表情识别的判决结果。

基于上述方法构建的深层网络模型，本发明还提供了人脸表情识别系统，所述系统包括：

r′＝sgmx(w₁·h′_f+w₂·l′_f×β+b)

本系统能够有效提高人脸图片的表情分类的准确率，同时系统具有较强的泛化能力，能在低质量的网络图片和摄像头实际采集的图片上表现出良好的性能。

上述技术方案中的黑体的变量表示矩阵。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.深层网络模型的构建方法，所述方法包含：

步骤S2)将所有的训练图片划分为N个组；

2.根据权利要求1所述的深层网络模型的构建方法，其特征在于，所述步骤S1)具体包括：

<mrow> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>s</mi> <mi>g</mi> <mi>m</mi> <mrow> <mo>(</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msubsup> <mi>x</mi> <mi>k</mi> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>i</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

3.根据权利要求2所述的深层网络模型的构建方法，其特征在于，所述步骤S3)中具体包括：

r＝sgmx(w₁·h_f+w₂·l_f×β+b) (4)

4.根据权利要求3所述的深层网络模型的构建方法，其特征在于，所述步骤S3-4)中模型参数{CS}、{LN}的训练算法为人工神经网络的误差反向传播更新参数算法。

5.根据权利要求3所述的深层网络模型的构建方法，其特征在于，所述步骤S3-4)中模型参数w₁、w₂和b的训练过程为：

计算输出层的误差，计算公式如下：

其中，MSE表示该组图片的判决结果o与该组图片实际样本标签矩阵Y之间的均方误差，MSE为矩阵表示；Y为该组输入样本的标签矩阵；o为该组图片中的每个图片的网络输出的判决结果r组成的矩阵，“|| ||₂”表示矩阵之间对应元素求平方差后的矩阵表示；

计算输出层的灵敏度：

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <msub> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mrow> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msub> <mo>-</mo> <mi>&alpha;</mi> <mo>&times;</mo> <msub> <mi>&Delta;w</mi> <mn>1</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&Delta;w</mi> <mn>1</mn> </msub> <mo>=</mo> <mi>O</mi> <mi>d</mi> <mo>&CenterDot;</mo> <msub> <mi>h</mi> <mi>f</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <msub> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mrow> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msub> <mo>-</mo> <mi>&alpha;</mi> <mo>&times;</mo> <msub> <mi>&Delta;w</mi> <mn>2</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&Delta;w</mi> <mn>2</mn> </msub> <mo>=</mo> <mi>O</mi> <mi>d</mi> <mo>&CenterDot;</mo> <msub> <mi>l</mi> <mi>f</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

(w₂)_old对应更新前的第二权值矩阵w₂的值。

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mrow> <mo>(</mo> <mi>b</mi> <mo>)</mo> </mrow> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <msub> <mrow> <mo>(</mo> <mi>b</mi> <mo>)</mo> </mrow> <mrow> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msub> <mo>-</mo> <mi>&alpha;</mi> <mo>&times;</mo> <mi>&Delta;</mi> <mi>b</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>&Delta;</mi> <mi>b</mi> <mo>=</mo> <mi>O</mi> <mi>d</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

6.根据权利要求5所述的深层网络模型的构建方法，其特征在于，所述步骤S3-4)中参数β的训练过程为：

由于β是一个实数，采取梯度下降法更新β的更新公式如下：

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&beta;</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>&beta;</mi> <mrow> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msub> <mo>-</mo> <mi>&alpha;</mi> <mo>&CenterDot;</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>;</mo> <mi>&beta;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>&beta;</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <msub> <mi>&beta;</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&beta;</mi> <mrow> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msub> <mo>&le;</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>;</mo> <mi>&beta;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>&beta;</mi> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>J</mi> </mrow> <mrow> <mo>&part;</mo> <mi>o</mi> </mrow> </mfrac> <mo>&CenterDot;</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>o</mi> </mrow> <mrow> <mo>&part;</mo> <mi>&beta;</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

β与矩阵(w₂·l_f)相乘可看作一个与矩阵相同行列数的矩阵A与矩阵(w₂·l_f)点乘，其中A中元素值全都为β；这样，公式(11)最终可化为：

7.人脸表情的识别方法，基于权利要求1-6之一的方法构建的深层网络模型实现，所述方法包含：

r′＝sgmx(w₁·h′_f+w₂·l′_f×β+b)

8.人脸表情的识别系统，基于权利要求1-6之一的方法构建的深层网络模型实现，所述系统包含：

r′＝sgmx(w₁·h′_f+w₂·l′_f×β+b)

其中，上述公式中的第一权值矩阵w₁、第二权值矩阵w₂、β和b为训练好的联合判决网络参数，r′表示表情识别的判决结果，sigmx()表示利用sigmoid函数对输入矩阵中每一个元素进行激活。