CN108280400A

CN108280400A - 一种基于深度残差网络的表情识别方法

Info

Publication number: CN108280400A
Application number: CN201711445494.4A
Authority: CN
Inventors: 陈云华; 杜进
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2018-07-13

Abstract

本发明涉及一种基于深度残差网络的表情识别方法，对深度残差网络中常规的激活函数ReLU进行替换，换成一种具有生物真实性的激活函数Noisy Softplus，使得改进后的深度残差网络可在普通计算机上对表情数据训练，然后将训练优化好的网络模型部署在类脑计算硬件上，进行表情识别任务。本发明与传统手工提取特征的方法相比，极大地提高了识别率，且不受人脸表情拍摄环境的限制，建立起来的网络模型能够适应于各类问题，具有很好的普适性。与普通深度残差网络相比，又具有较高识别率，极低功耗和极低的响应时间。随着计算机硬件的成熟，可逐渐部署到可穿戴设备，手持设备等低功耗的电子设备上。

Description

一种基于深度残差网络的表情识别方法

技术领域

本发明涉及神经网络识别的技术领域，尤其涉及到一种基于深度残差网络的表情识别方法。

背景技术

面部表情是人类用来表达感情，传递内心世界的重要途径，在社会和人际交往中显得尤为重要。随着社会的发展，人脸表情识别技术在人机交互，安全，汽车等领域发挥着巨大的作用。例如在犯罪侦查系统中，可以通过表情识别技术分析嫌疑人的心理活动等。

目前的表情识别提取特征方法主要是手工提取特征和通过构建深度神经网络进行自动学习提取特征两类方法。相对于手工提取特征方法，深度神经网络可以提取到更加高级的特征，识别效果更明显。这种方法可以做到输入原始图像，经过网络的自动训练，就能输出我们想要的结果，目前已经广泛的应用于工业界，但是深度神经网络参数过多，训练时间和运行时间过长，能量消耗过大也是制约其发展的瓶颈。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度残差网络的表情识别方法。该方法对深度残差网络中常规的激活函数ReLU进行替换，换成一种具有生物真实性的激活函数Noisy Softplus，使得改进后的深度残差网络可在普通计算机上对表情数据训练，然后将训练优化好的网络模型部署在类脑计算硬件上，进行识别任务，以达到低功耗，低响应的效果。

为实现上述目的，本发明所提供的技术方案为：包括以下步骤：

S1、根据实际需要进行表情数据制作；

S2、根据步骤S1制作好的表情数据库进行网络搭建，把常用激活函数替换成具有生物真实性的Noisy Softplus函数；

S3、在步骤S2搭建好的网络上进行模型训练，训练出最优模型；

S4、将步骤S3训练出的最优模型部署在对应的类脑计算硬件上进行表情识别；

进一步地，步骤S1中，表情数据制作包括数据采集和数据标注；其中，数据采集时，根据实际需要直接对现实的人进行表情数据采集或者在网络上获取公开的人脸表情数据库；所述数据标注为对每一个数据进行标签使区分该数据的所属分类

进一步地，数据可任意增加光照、清晰度、姿态、遮挡的影响，增加数据的鲁棒性。

进一步地，步骤S2搭建的网络为深度残差网络，包括输入层、隐藏层以及输出层；

其中，隐藏层包括两个连续进行的操作：

先进行输入值与参数进行连接映射计算：Z^[l]＝W^[l]X+b^[l]；

l代表第l层，X代表每一个隐藏层的输入向量，W,b为网络中的连接参数；

然后进行非线性激活：A^[l]＝g(Z^[l])，g代表非线性激活；

上一层输出向量A作为下一层的输入向量X，l个隐藏层即进行l个上述操作；

然后让两个或两个以上的隐藏层形成一个堆叠层，在这个堆叠层上添加一个快捷连接；该快捷连接就是这个堆叠层的输入跳过堆叠层直接连接到堆叠层的输出位置，从而形成了一个残差块；带有残差块的深度神经网络即为深度残差网络；

深度残差网络通常情况下使用ReLU作为激活函数；本方案把ReLU激活函数替换成一个具有生物真实性的激活函数Noisy Softplus，其表达式为：

常量k为尺度因子，控制曲线形状，σ用于控制噪声强弱，其表达式：

通过在深度残差网络中引入Noisy Softplus激活函数，使网络具有了生物真实性。

进一步地，步骤S3模型训练过程为：先对输入数据进行归一化和参数初始化，然后开始自动的进行正向传播和反向传播以更新参数W,b，获得最优的模型；

对输入数据进行归一化和参数初始化的具体为：

对输入的表情图片进行归一化，考虑到σ²必须为正数，则归一化的结果也要为正数；归一化即对每个像素值除以255，把每个像素值映射到0到1的范围；

深度残差网络中的参数W按照高斯分布进行随机初始化，参数b初始化为零；

网络模型的训练过程是通过正向传播求出代价函数，然后反向传播更新梯度。

先通过正向传播：

数据进入网络中的隐藏层后，首先进行对X进行连接映射：Z＝W^TX+b；紧接着进行Noisy Softplus激活运算：A＝g(Z，σ)，将A当成下一个隐藏层的输入X进行相似的计算，最后一层输出的A等于然后根据交叉熵函数计算出代价函数：

M表示数据样本个数；

根据梯度下降法进行反向传播：

对前向传播求得的代价函数通过链式法则进行求偏导，求得每一层参数W,b的微分dW，db，然后通过公式：

W＝W-αdW，b＝b-αdb

更新网络参数W，b，α表示学习率，根据训练情况自行设置。

与现有技术相比，本方案原理如下：

对深度残差网络中常规的激活函数ReLU进行替换，换成一种具有生物真实性的激活函数Noisy Softplus，使得改进后的深度残差网络可在普通计算机上对表情数据训练，然后将训练优化好的网络模型部署在类脑计算硬件上，进行表情识别任务。

与现有技术相比，本方案优点如下：

基于改进深度残差网络进行表情识别与传统手工提取特征的方法相比，极大地提高了识别率，且不受人脸表情拍摄环境的限制，建立起来的网络模型能够适应于各类问题，具有很好的普适性。基于改进深度残差网络进行表情识别的方法与普通深度残差网络相比，又具有较高识别率，极低功耗和极低的响应时间。随着计算机硬件的成熟，可逐渐部署到可穿戴设备，手持设备等低功耗的电子设备上。

附图说明

图1为本发明一种基于深度残差网络的表情识别方法的流程图；

图2为本发明一种结合情境信息的个性化餐厅推荐方法中具有l层的深度残差网络的模型训练结构图；

图3为Noisy Softplus激活函数的实现过程。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

参见附图1所示，本实施例所述的一种基于深度残差网络的表情识别方法，包括以下步骤：

S1、根据实际需要进行表情数据制作：

表情数据制作包括数据采集和数据标注；其中，数据采集时，根据实际需要直接对现实的人进行表情数据采集或者在网络上获取公开的人脸表情数据库；数据标注为对每一个数据进行标签使区分该数据的所属分类。

数据可任意增加光照、清晰度、姿态、遮挡的影响，增加数据的鲁棒性。

S2、根据步骤S1制作好的表情数据库进行网络搭建，把常用激活函数替换成具有生物真实性的Noisy Softplus函数：

搭建的网络为深度残差网络，包括输入层、隐藏层以及输出层；

其中，隐藏层包括两个连续进行的操作：

先进行输入值与参数进行连接映射计算：Z^[l]＝W^[l]X+b^[l]；

然后采用非线性激活函数Noisy Softplus对映射后的值进行非线性激活；

非线性激活函数Noisy Softplus的计算公式如下：

常量k为尺度因子，控制曲线形状，σ用于控制噪声强弱，其表达式为：

S3、在步骤S2搭建好的网络上进行模型训练，训练出最优模型，具体步骤如下：

首先对输入的表情图片进行归一化，即对每个像素值除以255，把每个像素值映射到0到1的范围；

然后深度残差网络中的参数W按照高斯分布进行随机初始化，参数b初始化为零；

再之如图2所示，进行正向传播和反向传播以更新参数W,b，获得最优的模型；

其中，正向传播：

输入数据X归一化到(0,1)后进入网络中的隐藏层1，隐藏层1首先进行参数连接计算：Z＝W^TX+b；接着进行Noisy Softplus激活运算：A＝g(Z，σ)，具体过程如图2所示，即在某一个隐藏层中，输入向量X与参数W,b通过线性连接得到Z，即Z＝W^TX+b，同时，通过X与W计算出σ，即然后进行Noisy Softplus激活，即A作为隐藏层2的输入X，进行类似的计算；在隐藏层1和隐藏层2增加了一个快捷连接组成了一个残差块，即隐藏层1的输入直接连接到隐藏层2的输出；后面的隐藏层也是按照类似的方法构建出残差块，形成完整的残差网络；最后一层输出的A等于

由预测值和实际值y根据公式：

计算出代价函数，M表示数据样本个数；

反向传播：

根据链式法则对J(W,B)求导，计算出关于W，b的偏导数得到W，b在每一个隐藏层上的微分。然后根据公式W＝W-αdW，b＝b-αdb对W，b进行更新。

本实施例对深度残差网络中常规的激活函数ReLU进行替换，换成一种具有生物真实性的激活函数Noisy Softplus，使得改进后的深度残差网络可在普通计算机上对表情数据训练，然后将训练优化好的网络模型部署在类脑计算硬件上，进行表情识别任务。

本实施例与传统手工提取特征的方法相比，极大地提高了识别率，且不受人脸表情拍摄环境的限制，建立起来的网络模型能够适应于各类问题，具有很好的普适性。与普通深度残差网络相比，又具有较高识别率，极低功耗和极低的响应时间。随着计算机硬件的成熟，可逐渐部署到可穿戴设备，手持设备等低功耗的电子设备上。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于深度残差网络的表情识别方法，其特征在于：包括以下步骤：

S1、根据实际需要进行表情数据制作；

所述步骤S2搭建的网络为深度残差网络，包括输入层、隐藏层以及输出层；

其中，隐藏层包括两个连续进行的操作：

先进行输入值与参数进行连接映射计算：Z^[l]＝W^[l]X+b^[l]；

非线性激活函数Noisy Softplus的计算公式如下：

2.根据权利要求1所述的一种基于深度残差网络的表情识别方法，其特征在于：所述步骤S1中，表情数据制作包括数据采集和数据标注；其中，数据采集时，根据实际需要直接对现实的人进行表情数据采集或者在网络上获取公开的人脸表情数据库；所述数据标注为对每一个数据进行标签使区分该数据的所属分类。

3.根据权利要求2所述的一种基于深度残差网络的表情识别方法，其特征在于：所述数据可任意增加光照、清晰度、姿态、遮挡的影响。

4.根据权利要求1所述的一种基于深度残差网络的表情识别方法，其特征在于：所述步骤S3模型训练过程为：先对输入数据进行归一化和参数初始化，然后进行正向传播和反向传播以更新参数W,b，获得最优的模型；

所述正向传播和反向传播更新参数W,b具体过程如下：

所述正向传播进入隐藏层后，对输入值X进行线性连接映射得到Z,同时计算出σ，然后对Z进行Noisy Softplus激活运算，得到向量A，作为下一个隐藏层的输入向量，直到计算出最后一层的向量A等于预测值最后根据预测值和实际值y计算代价函数J(W,B)；

所述反向传播包括根据链式法则对代价函数J(W,B)求偏导，然后计算出求得每一层参数W,b的微分dW，db，最后通过公式：W＝W-αdW,b＝b-αdb对更新网络权重W，b，α表示学习率。