CN111950389B

CN111950389B - 一种基于轻量级网络的深度二值特征人脸表情识别方法

Info

Publication number: CN111950389B
Application number: CN202010713146.6A
Authority: CN
Inventors: 周丽芳; 刘俊林; 李伟生; 徐天宇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2022-07-01
Anticipated expiration: 2040-07-22
Also published as: CN111950389A

Abstract

本发明请求保护一种基于轻量级网络的深度二值特征人脸表情识别方法，属于模式识别技术领域。所述方法主要包括以下步骤：首先，构建一套将参数二值化的卷积神经网络框架，将二值卷积模式植入每层残差网络层中，形成双向决策网络模型；然后，对输入网络的图像进行基于像素梯度的LBP动态半径特征提取，构建具有Huffman权重的LBP权重图谱和具有Huffman权重的LBP二值图谱；再将LBP权重图谱、LBP二值图谱与原始图像作为BRCNN网络的多输入特征，构建深度二值特征；最后，将深度二值特征级联后进行分类。本发明极大减少了网络训练时的参数量，降低了网络的计算代价；增强了特征的表达能力，提升了本方法在人脸表情识别的鲁棒性和速率。

Description

一种基于轻量级网络的深度二值特征人脸表情识别方法

技术领域

本发明属于计算机模式识别技术领域，具体地说，是一种人脸表情识别方法。

背景技术

在计算机视觉发展历史中，深度学习已经成为当下最热门的解决计算机视觉问题的手段之一；卷积神经网络也成为了深度学习的经典技术之一。从LeNet和AlexNet网络的出现推进了深度学习的发展，再到VGGNet、ResNet、InceptionNet等更深、更宽的卷积神经网络把提取的图像特征向更精准、更高效的方向发展。但是，神经网络一味地扩深、扩宽并不能直接有效地提高视觉任务的精度和效率，反而会加大设备运行的负担。如何设计“又快又好”的轻量网络，成为了当下基于卷积神经网络的视觉任务的研究重点。

计算机视觉任务在卷积神经网络设计方向正朝着轻量化、高效化、精准化的方向发展。尤其对于人脸识别任务来说，传统的CNN更多地是关注全局特征，对面部的所有区域都一视同仁，但人脸面部局部区域存在性别、皮肤和纹理变化等一些差异，而对于人脸表情识别(Facial Expression Recognition，FER)任务来说，人脸面部表情与面部的局部区域高度相关，导致在FER中增加了一些扰乱的特征因素。单从设计卷积神经网络的宽度、深度等方面提取全局特征无法直接有效地改变这些干扰因素，反而会加重计算代价；而从传统特征算子的方法设计中找到与深度网络特征的结合之处，从局部区域兼顾全局区域，是解决人脸表情识别视觉任务的重要突破口。

基于全局的特征提取方法对人脸面部表情局部区域的变化不敏感，相比之下，局部的特征提取方法作用在图像的一些关键区域上，对局部表情变化带来的纹理变化有所关注。局部二值模式(Local Binary Patterns，LBP)是具有代表性的局部特征提取算子，LBP算子通过设定中心像素的采样半径和采样数量，并用直方图统计的方式来记录局部区域的征信息，它对小于范围内的面部纹理都具有一定的鲁棒性。但是LBP算子通常是使用手工设定的固定采样半径进邻域像素采样，这限制了对表情变化的局部纹理区域采样范围的选择，影响特征信息提取的准确性；同时，LBP在计算过程中忽略了对对比度信息的评估，有时会造成重要纹理信息的丢失。如何设计一个适用于面部表情的LBP特征提取算子，是完成从传统特征算子的方法设计中找到与深度网络特征的结合的关键一步。

在设计传统特征算子方法与深度网络特征的结合时，通常利用卷积神经网络配合光流特征、Gabor特征、图像梯度等特征图工作，能较好地提升性能。采用非深度学习方法提取特征，然后输入到网络模型中，使网络注意到关键特征，从而提高了识别率。还有研究学者通过捕捉多个人脸子区域的全局和局部特征来增强网络模型的学习能力；同时将各子网的加权预测得分进行汇总，得到最终的高精度预测结果。但如何在传统特征算子方法与深度网络特征的结合的人脸表情识别任务中达到训练速度快，识别精度高的阶段，依旧是个难点。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于轻量级网络的深度二值特征人脸表情识别方法。本发明的技术方案如下：

一种基于轻量级网络的深度二值特征人脸表情识别方法，其包括以下步骤：

101、对每张输入图像X_l进行基于像素梯度的LBP局部二值模式动态半径采样，l∈image_sum，image_sum为图像的总数量，基于像素梯度即采用Sobel算子提取梯度信息，使得每个像素动态获取不同的LBP采样半径区域；

102、在步骤101的基础上，将采样半径内的邻域像素提取Huffman编码，将Huffman编码对应像素邻域位进行赋值权重，得到具有Huffman权重的LBP权重图谱，同时利用像素梯度信息得到LBP特征值图谱；

103、利用ResNet网络层残差特性和LBCNN网络的精简特性，构建二值残差卷积神经网络框架BRCNN，在步骤102的基础上，将原始图像、原始图像对应的LBP权重图谱、原始图像对应的LBP特征值图谱这三个特征作为BRCNN网络的输入，三个特征通过每一层网络后进行特征融合，残差结构使得每层网络执行特征融合操作，得到的特征信息通过全连接层后，得到网络输出的分类结果；统计网络输出的分类概率，求最大概率值对应的分类结果，得到最终的识别结果。

进一步的，所述步骤101基于像素梯度的LBP动态半径采样步骤具体包括：

A1、利用Sobel算子提取每张图像的像素梯度值，将得到的梯度值组成梯度矩阵，并与每一张图像的像素点一一对应；

B1、利用混合高斯模型GMM对步骤A1中得到的梯度矩阵进行动态分类,根据像素平均梯度值进行划分；

C1、利用B1中得到的a类的梯度集，其中a＝{a₁,a₂,a₃...a_n}，n为a的个数，每个类集合对应LBP的一个半径采样区域R，其中R＝{R₁,R₂,R₃...R_n}，n与a的个数一一对应，从而得到每个梯度值一一对应的像素点的LBP采样半径。

进一步的，所述步骤B1根据像素平均梯度值进行划分，具体包括：

眼角、鼻子和嘴巴在内的图像纹理区域变化丰富的地方像素梯度变化频率快，覆盖区域较窄；脸颊、额头和下额在内的图像纹理区域变化平滑的地方像素梯度变化频率慢，覆盖区域较宽；因此，将矩阵内的梯度值按照设定阈值β动态分为a类，其中阈值β的求取方法为：

其中

是梯度矩阵的均值，x为梯度矩阵的实值，通过判定实值与均值之间的关系，使得大梯度值对应GMM模型提取纹理丰富区域的关键特征，小梯度值对应GMM模型提取纹理平滑区域的关键特征。

进一步的，所述步骤102中具有Huffman权重的LBP权重图谱和LBP特征值图谱，其求取方法为：

A2、设每张图像像素处于中心像素时的灰度值为g_c，采样半径由步骤C1得到，为R，因此每一个g_c都对应一个采样半径R_c，其中R_c∈R，分别求取每个中心像素周围像素g_p与中心像素g_c的像素差值：

g_p-g_c(p＝0,1,...,t-1) (2)

其中t表示中心像素在采样半径R_c下的周围像素采样个数；p表示周围采样像素个数；

B2、根据周围像素g_p与中心像素g_c的像素差值可得到正负值序列，将正值和负值序列的绝对值序列进行Huffman编码，其中正负值序列保持和原采样长度一致，采样长度为采样个数t，正值序列中负值用0值占位替代，反之负值序列同样处理：

其中t表示周围像素g_p的个数，po⁺,ne^-表示正负值序列，

分别表示正值序列、负值序列中对应周围像素g_p与中心像素g_c的像素差为正或为负值的差值，序列长度也为t，和原采样长度保持一致；

C2、通过计算正负值序列中每个中心像素与邻域像素差值的Huffman编码，记编码长度为length(v)，求取正负值对比度权值，并得到合并的正负权值序列：

其中

序列长度相等，

表示正值序列po⁺和负值序列ne^-中对应的值，序列长度由t决定，

分别表示正值序列po⁺和负值序列ne^-对应求得的带权正值序列和带权负值序列，带权正值序列中负值用0值占位替代，反之带权负值序列同样处理，因此合并的正负带权值序列可由公式(6)得出：

D2、根据公式(7)，求取具有Huffman权重的LBP权重图谱：

其中R_c为中心像素的采样半径，ceil()表示对中心像素的Huffman权重基于采样半径求取均值，R_c和w_sum不同使得每个中心像素的LBP权重都不同；

E2、通过步骤A1，利用Sobel算子计算得到输入图像的像素梯度值集合为G,G＝{g₁,g₂,...,g_n}，n为图像像素点的数量，可求得平均梯度：

利用像素点梯度与平均梯度的关系，将中心像素进行二值化：

其中G_i∈G，t为中心像素的采样个数，通过将邻域像素梯度值与中心像素的梯度值的对比，设计出二值化函数；基于梯度的LBP特征值图谱由公式(10)表示为：

其中R为采样半径，T为采样个数，T＝t，通过对中心像素求得LBP权重w_sum()和二值s()，得到LBP特征值图谱。

进一步的，所述步骤103中BRCNN网络框架的设计和表情识别步骤如下：

A3、利用ResNet网络的结构框架，将整个网络框架拆分单层分布的结构，在单层结构中，将传统的卷积操作替换为非训练的二值卷积操作，得到BDM二值差分矩阵；

B3、将BDM二值差分矩阵通过1×1可学习权重的卷积操作，得到具有二值属性的卷积特征矩阵映射，即BFM二值特征矩阵；

C3、同时将原始图像也作为网络层的输入，进行传统的卷积操作，使得到的卷积输出Conv_out与BFM二值特征矩阵达到相同的通道数，然后将Conv_out与BFM作为双特征输入到下一层网络中；

D3、利用每层双特征卷积的模式，得到

其中n为网络层数，m为第i层重复卷积叠加运算的次数；

E3、通过n层网络得到的

双特征信息在全连接层进行级联，形成新的特征NF，将全连接特征NF通过Softmax函数，得到分类目标的概率矩阵：

其中c为多类的类别个数，V_j表示第j类对应的概率值，通过S(j)_NF～c可以得到每个类别对应概率值；

F3、得到的S(j)_NF～c类别概率值序列为S，其中S＝{S_NF1,S_NF2,...,S_NFc}，c为多类的类别个数，通过one-hot编码的最大值求解，得到该输出的最大概率类：

Out_b＝(max(S,length(c)))_one-hot,(b∈g) (12)

其中length(c)为c的长度，即是类别个数，g为输入图像的数量，求得S概率序列中的最大概率值，将该值对应的序列位置用one-hot编码表示；

G3、原始输入图像对应的类别标签集合为label_all，其中label_all＝{l₁,l₂,...,l_g}，通过将标签l_b与对应的网络输出Out_b之间的one-hot编码对比，b∈g，即可确认预测分类是否正确；

H3、记录对比正确的次数acc_true和对比的总次数acc_total，利用正确次数除总次数，即可得到分类结果的识别率。

本发明的优点及有益效果如下：

本发明的创新主要是步骤101、102和103。

步骤101的创新点在于采用了基于像素梯度信息来动态分配LBP算子中心像素的采样半径。人脸像素的梯度信息可以反映人脸图像局部区域的表情纹理信息；包括人脸眼角、鼻子和嘴巴在内的图像纹理区域变化丰富的地方像素梯度值较大，变化频率快，覆盖区域较窄；包括脸颊、额头和下颚在内的图像纹理区域变化平滑的地方像素梯度值较小，变化频率慢，覆盖区域较宽；而传统LBP算子的中心像素采样半径是人为设定的固定值，这样采用固定采样半径采样时就不能自适应地将人脸纹理局部区的关键信息采样完整；而采用基于像素梯度信息来动态分配LBP算子中心像素的采样半径，可以有效且自适应地采样到不同大小的关键人脸局部纹理区域，使得基于像素梯度信息的LBP动态采样提取到更加精准的二值特征，用于步骤102中得到基于像素梯度的LBP特征值图谱，并用于步骤103中，形成深度二值特征，从而提高识别精度。

步骤102的创新点在于利用像素梯度的鉴别信息得到LBP特征值矩阵图。传统LBP算子的二值化计算方式为中心像素与采样领域像素作差再进行二值判断；而人脸局部区域的像素梯度值变化频率与人脸像素值变化频率不完全相同，为了将人脸局部纹理区域的像素梯度变换频率与LBP算子二值化同步，利用步骤101的梯度信息，基于像素梯度得到LBP二值特征计算方式为中心像素的梯度值与采样邻域的像素梯度值作差再进行二值判断，得到基于梯度鉴别信息的LBP特征，用于形成步骤103中的LBP特征值图谱，从而提高识别精度。

步骤103的创新点在于构建了二值残差卷积神经网络框架BRCNN，并将原始图像、原始图像对应的LBP权重图谱、原始图像对应的LBP特征值图谱这三个特征作为BRCNN网络的输入，形成了深度二值特征。基于深度卷积神经网络的人脸表情识别视觉任务中，网络训练收敛速度慢、计算资源占用高；设计了一套网络正向传播时参数二值模式的网络框架BRCNN，用于网络训练时产生较少的参数，与传统的CNN相比，网络模型更小，计算参数更少，训练时效更优，实时性更强，具有更好的泛化能力，适用于不同的应用场景下；同时利用深度二值特征，融合了深度特征的深层语义信息和传统特征的纹理信息，使得特征表达更加鲁棒，从而提高识别精度。综上所述，可使BRCNN网络框架变得训练高效，识别效果优异。

本发明主要针对目前流行的基于深度卷积神经网络的人脸表情识别视觉任务中，网络训练收敛速度慢、计算资源占用高、人脸面部表情纹理信息表达不充分的问题；设计了一种网络结构轻量、计算资源占用低、传统纹理特征与深度卷积特征融合的深度二值特征人脸表情识别方法。在网络结构设计阶段，利用ResNet网络层残差特性和LBCNN网络的精简特性，设计了一套网络正向传播时参数二值模式的网络框架BRCNN，用于网络训练时产生较少的参数；与传统的CNN相比，网络模型更小，训练时效更优，实时性更强，具有更好的泛化能力，适用于不同的应用场景下。在深度二值特征设计阶段，研究了面部区域像素梯度与传统特征算子LBP提取特征之间的关系，发现人脸局部区域的表情纹理信息可以利用梯度的反馈，动态地得到LBP采样半径，从而更有效的提取局部区域的纹理特征，再根据Huffman编码进行权值重分配，以达到更加精准的特征提取；通过提取的LBP权重特征和LBP二值特征作为BRCNN的每层网络的特征输入，与网络的原始输入作为融合特征，形成深度二值特征，增强面部表情纹理提取的鲁棒性。本方法获得了较好的识别效果。

附图说明

图1是本发明提供优选实施例基于轻量网络的特征融合下的人脸表情识别方法网络框架；

图2是二值卷积网络层设计流程图；

图3是基于像素梯度的纹理信息对比图；

图4是基于像素梯度的动态半径LBP特征提取流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明实施例基于轻量多层的二值-传统复合卷积神经网络实现的，其中传统特征的提取任务在网络执行前，深度特征提取在网络训练时进行，每层网络的输出都是传统特征与深度特征的融合作为下一层网络的输入。

下面结合附图，对本发明作进一步说明：

如附图1所示，一种基于轻量网络的特征融合下的人脸表情识别方法的网络框架的设计流程包括以下步骤：

1)、利用ResNet网络层残差特性，如附图1上半部所示，构建ResNet网络的正向传播框架；

2)、利用LBCNN网络的精简特性，如附图1下半部所示，将LBCNN网络的二值思路引入卷积网络之中，将传统卷积核替换为二值(1和-1)卷积核，并通过一次传统卷积操作后输出特征矩阵Feature_B；

3)、在步骤1)的基础上，将上半部的传统网络层经过标准卷积操作后，将输出特征Feature_C与2)步骤中得到的特征矩阵Feature_B进行级联融合，作为下一网络层的输入；

4)、再通过最后一层网络层后，将融合特征池化、级联、全连接操作后，进行特征层面的分类，得到人脸表情的分类预测结果。

所述的一种基于轻量网络的特征融合下的人脸表情识别方法的网络框架(BinaryResidual Convolutional Neural Network，BRCNN)，用于网络训练时产生较少的参数。与传统的CNN相比，网络模型更小，训练时效更优，实时性更强，具有更好的泛化能力，适用于不同的应用场景下。

进一步的，BRCNN网络框架的轻量和训练速率快主要体现在二值卷积的设计，具体的二值网络层设计的具体流程如附图2所示，具体实施步骤如下：

1)、首先利用不参与训练的二值卷矩阵积对网络输入进行二值卷积操作，二值卷积核为不参与训练的二值参数(+1或-1)，可以得到差分特征矩阵(Difference Map，DM)；

2)、将得到的DM通过大小为1×1卷积核的传统卷积操作，用于在网络中学习少量并关键的参数，得到特征矩阵Feature_B；

3)、将得到的Feature_B与附图1的BRCNN网络框架的输出Feature_C进行特征级联融合，形成深度二值特征，作为下一层网络的输入。

进一步的，BRCNN网络框架的输入是由原人脸表情图像特征与通过基于像素梯度的动态采样半径LBP特征组成，其中基于像素梯度的采样方法如附图3所示，具体实施步骤如下：

1)、将原始输入图像基于像素值梯度，通过Soebl算子提取人脸图像边缘轮廓，并得到像素梯度矩阵G，G＝{g₁,g₂,...,g_n},n为像素点个数；

2)、选取人脸关键区域块，眼睛、鼻子、嘴角区域组成关键区域图A，A＝{a_eye,a_mouse,a_nose}；选取脸颊额头等平滑区域组成图B，B＝{b_cheek,b_forehead,b_chin}；

3)、通过细粒度观察图A、B子区域中的梯度信息，纹理关键区域(眼睛、鼻子、嘴角等)的梯度值普遍大于平滑区域(脸颊、额头等)的梯度值，且关键区域梯度值变化频率较快，变化覆盖范围较窄；

4)、根据梯度区域A、B的梯度值变化快慢和梯度值变化覆盖范围，利用混合高斯模型GMM进行聚类，将梯度矩阵G内的梯度值按照设定阈值β动态分为a类，其中阈值β的求取方法为：

其中

是梯度矩阵的均值，x为梯度矩阵的实值。通过判定实值与均值之间的关系，使得大梯度值对应GMM模型提取纹理丰富区域的关键特征(例如：眼睛、鼻子、嘴角等关键纹理区域丰富)，小梯度值对应GMM模型提取纹理平滑区域的关键特征(例如：大部分脸庞、额头等平滑纹理区域)。

进一步的，根据GMM算法得到的聚类信息，得到每个像素的采样半径R后，基于像素梯度的动态采样半径LBP特征提取流程如附图4所示，具体实施步骤如下：

1)、得到的a类的梯度集，其中a＝{a₁,a₂,a₃...a_n}，n为a的个数。每个类集合对应LBP的一个半径采样区域R，其中R＝{R₁,R₂,R₃...R_n}，n与a的个数一一对应。从而得到每个梯度值一一对应的像素点的LBP采样半径；

2)、根据每个中心像素对应的采样半径R，可以得到多尺度的LBP局部采样区域；

3)、将通过动态半径R采样，得到中心像素与邻域像素作差的正负值序列，将正值和负值序列的绝对值序列进行Huffman编码，其中正负值序列保持和原采样长度一致(采样长度为采样个数t)，正值序列中的负值用0值占位替代，反之负值序列同样处理：

其中t表示周围像素g_p的个数，po⁺,ne^-表示正负值序列，序列长度也为t，和原采样长度保持一致；

4)、通过计算正负值序列中每个中心像素与领域像素差值的Huffman编码，记编码长度为length(v)，求取正负值对比度权值，并得到合并的正负权值序列：

其中

序列长度相等，由t决定，正负值对应位置为占位值0，因此合并的正负权值序列可由公式(5)得出：

到得一个中心像素的正负值序列权重w_sum后，根据公式(6)求得具有Huffman权重的LBP权重图谱：

5)、利用Sobel算子计算得到输入图像的像素梯度值集合为G,G＝{g₁,g₂,...,g_n}，n为图像像素点的数量，可求得平均梯度：

其中G_i∈G，t为中心像素的采样个数，通过将邻域像素梯度值与中心像素的梯度值的对比，设计出二值化函数；基于梯度的LBP特征值图谱由公式(9)表示为：

其中R为采样半径，T为采样个数(T＝t)，通过对中心像素求得LBP权重w_sum()和二值s()，得到LBP特征值图谱。

6)、将得到的LBP权重图谱和LBP二值特征图谱作为BRCNN网络的特征输入。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。