CN112801040A

CN112801040A - 嵌入高阶信息的轻量级无约束人脸表情识别方法及系统

Info

Publication number: CN112801040A
Application number: CN202110249304.1A
Authority: CN
Inventors: 钟福金; 周睿丽
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-05-14
Anticipated expiration: 2041-03-08
Also published as: CN112801040B

Abstract

本发明涉及无约束人脸表情识别领域，特别涉及一种嵌入高阶信息的轻量级无约束人脸表情识别方法及系统，所述方法包括对输入的数据进行预处理以及图像增强，并输入到轻量级特征提取网络中，提取出人脸表情图像的深层特征图；将深层特征图输入二阶有效通道注意力模块的输入，统计深层表情特征的二阶信息并捕获跨通道特征间的相互依赖关系；使用交叉熵损失和中心损失联合优化网络模型；将待测的人脸表情图像输入到训练好的网络模型中，分类器根据人脸表情特征输出最终预测表情类别；本发明的网络模型具有较少的参数量，较低的显存需求和计算量，并且没有使用额外的数据预训练模型，精度较高，相关产品的适用性较强。

Description

嵌入高阶信息的轻量级无约束人脸表情识别方法及系统

技术领域

本发明涉及无约束人脸表情识别领域，特别涉及一种嵌入高阶信息的轻量级无约束人脸表情识别方法及系统。

背景技术

人脸表情(Facial expression)是指通过眼部肌肉、脸颊肌肉和嘴部肌肉的变化而表现出的各种情绪。其中，眼部和嘴部附近的肌肉群是构成人脸表情最丰富的部分，它们是人类传达情绪的最强大、最自然，也是最普遍的信号之一。由于其在心理学、医学、公共安全以及商业领域中的重要性，人们已经对人脸表情识别进行了大量的研究。由于无约束人脸表情图像具有很多不确定性因素(光照变化、头部姿态、身份偏差和遮挡)，导致类间差异较小，而类内差异较大，从而使得无约束人脸表情识别面临较大挑战。

现有技术中，卷积神经网络在无约束人脸表情识别上的应用取得了较大的提升，其准确率已远高于非深度学习方法。但现有的基于卷积神经网络的无约束人脸表情识别方法较侧重于网络结构的设计，忽视了对网络学习到的通道间深层特征相关性的研究，从而阻碍神经网络提取表达力较强的特征；并且，现有方法存在着计算量和参数量过大的问题，过于庞大的网络模型不利于移动端的部署也难以满足市场的需求。因此，如何实现兼顾计算量和表情细节特征的提取，是亟待解决的重要问题。

发明内容

为解决上述问题，本发明提供一种嵌入高阶信息的轻量级无约束人脸表情识别方法及系统，所述方法具体包括以下步骤：

输入带有表情标签的人脸图像集合作为数据集，并对人脸图像数据集进行预处理以及数据增强；

将预处理后的人脸表情图像输入到轻量级特征提取网络中，提取出人脸表情图像的深层特征图；

将所述深层特征图作为二阶有效通道注意力模块的输入，统计深层表情特征的二阶信息并捕获跨通道特征间的相互依赖关系，进而学习到高阶表情信息的特征表示；

使用交叉熵损失和中心损失联合优化网络模型，其进行迭代训练至收敛，保存训练好的卷积神经网络模型；

将待测的人脸表情图像输入到训练好的网络模型中，分类器根据人脸表情特征输出最终预测表情类别。

进一步的，轻量级特征提取网络包括Stem模块和Slight-OSA模块，将数据输入到Stem模块，Stem模块的输出与3个Slight-OSA模块通过池化操作进行级联，最后一个Slight-OSA模块输出的数据即为轻量级特征提取网络提取的特征。

进一步的，Stem模块包括两个3×3卷积操作；Slight-OSA模块将输入通过4个卷积层N1进行级联，并将输入与四个卷积层N1的输出数据进行拼接，拼接的数据通过卷积层N2提取特征，作为该Slight-OSA模块的输出。

进一步的，卷积层N1依次包括3×3卷积操作、批归一化操作和非线性修正激活，卷积层N2依次包括1×1卷积操作、批归一化操作和非线性修正激活。

进一步的，二阶有效通道注意力模块包括协方差池化层和有效通道注意力，协方差池化层用于根据深层特征图计算出通道描述符向量，有效通道注意力用于根据通道描述符向量计算出其注意力权重向量，并将得到的注意力权重向量与深层特征图相乘得到注意力特征图。

进一步的，构建协方差池化层的过程包括以下步骤：

将深层特征图压缩成一个m×c的特征矩阵，并通过计算该特征矩阵的协方差矩阵；

对协方差矩阵进行归一化操作；

将得到的归一化协方差矩阵通过全局协方差池化计算得出通道描述符向量；

其中，c为通道数；m＝wh，w和h分别为深层特征图的宽和高。

进一步的，对协方差矩阵进行归一化操作包括：

通过矩阵的特征值分解公式来求解协方差矩阵的平方根；

采用迭代矩阵平方根归一化方法加速协方差矩阵平方根的计算；

设置迭代次数，将得到的协方差矩阵作为初始值，利用牛顿-舒尔茨迭代公式对协方差矩阵的平方根进行迭代更新，直到协方差矩阵的特征值收敛；

将收敛的协方差矩阵除以该该矩阵的迹进行进一步收敛处理；

对协方差矩阵进行补偿，得到归一化协方差矩阵。

本发明还提出一种基于二阶有效通道注意力网络的无约束人脸表情识别系统，包括图像获取模块、数据预处理模块、数据增强模块、神经网络模块以及输出模块，其中：

图像获取模块用于输入数据集，获取待测人脸表情图像；

数据预处理模块用于对人脸图像信息或待测人脸图像进行人脸检测和人脸对齐操作；

数据增强模块用于按照随机裁剪、随机水平翻转以及在(-10°,10°)范围内旋转操作对训练集进行扩展；

神经网络模块包括轻量级特征提取网络、二阶有效通道注意力模块形成的卷积神经网络，其中轻量级特征提取网络用于提取输入特征的深层特征，二阶有效通道注意力模块用于根据深层特征获取注意力特征。

本发明的有益技术效果：

(1)本发明具有速度快、精度高的效果，能够对任意输入的人脸图像进行准确的表情预测。

(2)本发明设计一种新颖注意力机制，即二阶有效通道注意力(SECA)，将通道注意力和二阶信息结合，捕捉人脸表情局部区域微小变形的同时，获取不同通道级特征间的相关信息，从而使网络提取到表达力更强的特征，克服了现有无约束人脸表情识别方法中存在的缺陷。

(3)本发明提出用于无约束人脸表情识别的二阶有效通道注意力网络(SECA-Net)，该网络可以学习到与人脸局部区域变形高度相关的表情特征，同时具有较少的参数量、较低的显存需求和计算量。SECA-Net是一个通用的框架，可以推广到类似的分类任务上。

附图说明

图1为本发明实施例提供的一种基于二阶有效通道注意力网络的无约束人脸表情识别方法流程图；

图2为本发明实施例的Slight-OSA模块示意图；

图3为本发明实施例的二阶有效通道注意力(SECA)模块示意图；

图4为本发明实施例的训练流程示意图；

图5为本发明实施例的一种二阶有效通道注意力网络(SECA-Net)的结构示意图；

图6为本发明实施例的一个应用效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种嵌入高阶信息的轻量级无约束人脸表情识别方法，如图1所示，具体包括以下步骤：

在本实施例中，本发明所采用的数据集为RAF-DB无约束人脸表情数据集，该数据集包含有29672张从互联网上采集的人脸表情图像，其中训练集和测试集分别有12271张和3068张人脸图像，这些图像经过人工众包标记和评估，包括6种基本表情(生气、厌恶、害怕、开心、中性、悲伤、惊讶)和中性表情。

对RAF-DB数据集进行预处理的过程中，本实施例中采用多任务卷积神经网络(Multi-task Cascaded Convolutional Networks，MTCNN)对原始采集的人脸图像进行人脸检测，通过眼睛中心、鼻尖和上唇坐标进行关键点对齐，并将处理后的图片统一裁剪为100×100大小，对候选训练集进行随机裁剪90×90、随机水平翻转和在(-10°，10°)范围内旋转的数据扩增操作，以增强后续卷积神经网络模型的泛化能力。

将数据增强后的训练样本图像依次输送至本发明提出的轻量级特征提取网络Slight-VoVNet-27中，通过提取深层特征将其作为接下来注意力分支模块的输入特征图。

具体地，Slight-VoVNet-27网络由Slight-OSA模块组成，Slight-OSA模块如图2所示，将输入通过4个卷积层N1进行级联，并将输入与四个卷积层N1的输出数据进行拼接，拼接的数据通过卷积层N2提取特征，作为该Slight-OSA模块的输出，该模块只在最后一层聚集前面所有层的输出特征，在降低特征冗余度的同时减少模型参数量并降低内存访问成本。具体地，N1和N2分别表示卷积层(卷积→批归一化→非线性修正激活)：Conv3×3-BN-ReLU和Conv1×1-BN-ReLU，

表示聚集前面所有层特征的特征图映射，

指将聚合后的特征图通过N2得到具有不同感受野的特征图。c₁(c),w和h分别表示特征图的通道数、宽和高。Slight-VoVNet-27的具体网络组成见表1，该网络包括Stem模块和Slight-OSA模块，将数据输入到Stem模块，Stem模块的输出与3个Slight-OSA模块通过池化操作进行级联，最后一个Slight-OSA模块输出的数据即为轻量级特征提取网络提取的特征。其中，每一个conv层包括的操作顺序为：卷积→批归一化→非线性修正激活，即Conv-BN-ReLU，表中未特别标注步长的地方默认步长(stride)为1，concat为通道间的特征图连接操作。将一张人脸表情图像3×90×90输入到Slight-VoVNet-27网络中，最后输出512×5×5大小的特征图。

表1 Slight-VoVNet-27网络

在提取深层特征图后，为了统计其高阶信息并捕获跨通道特征的相关性，将其输入到本发明提出的二阶有效通道注意力模块中，以学习到表达力更强的表情特征。

本发明的核心在于本发明所设计的二阶有效通道注意力(SECA)模块，如图3所示。该模块首先利用协方差池化层统计深层特征的二阶信息(图3中虚线框部分)，然后使用有效通道注意力捕获局部跨通道的信息交互进而获得通道注意力向量，最后将通道注意力向量和Slight-VoVNet-27输出的深层特征图进行乘积操作输出最终的注意力特征图。

在本实施例中，SECA模块是协方差池化层和有效通道注意力构成，其中构建协方差池化层的过程包括以下步骤：

首先，计算协方差矩阵。Slight-VoVNet-27的最后一个卷积层输出大小为c×w×h的特征图F_agg＝[f₁，...，f_c]，c为通道数，f_c表示通道c输出的宽为w、高为h的特征图。将上述大小的特征图F_agg压缩成一个m×c(m＝wh)的特征矩阵X，然后通过如下公式计算协方差矩阵S进行二阶信息的统计(2^nd-order Statistics)：

其中，

I和1分别为m×m的单位矩阵和值全为1的矩阵。协方差矩阵S的大小为c×c，该矩阵的第i行表示第i个通道的特征图与其他剩余通道特征图之间的依赖关系。

其次，对协方差矩阵进行归一化。由于协方差归一化操作可以获得判别力较强的特征，将对上述操作得到的协方差矩阵进行归一化。具体地，协方差矩阵是一个对称的半正定矩阵，因此可通过矩阵的特征值分解公式来求解S的平方根：

S＝UΛU^T；

其中，U是一个正交矩阵，Λ＝diag(λ₁,...,λ_c)是对角矩阵，λ_i(i＝1,...,c)是按递减顺序排列的矩阵S的特征值。然后，将协方差归一化操作通过以下公式转换为求解协方差矩阵S特征值的平方根：

Y²＝S；

然而，由于在GPU上不能快速实现矩阵的特征值分解操作，故采用迭代矩阵平方根归一化(iSQRT-COV)方法加速协方差归一化的计算。令Y₀＝S,Z₀＝I,k＝1,...,N，N代表迭代次数，然后按照如下牛顿-舒尔茨迭代公式更新：

通过一定次数的迭代，Y_k和Z_k将分别二次收敛于Y和Y^-1。上述公式只涉及到矩阵的乘积操作，故该方法适合在GPU上并行实现。在具体实现过程中，可通过设置一定的迭代次数求得近似解，后续实验中将迭代次数N设置为5。

牛顿-舒尔茨迭代方法仅是局部收敛，可如下公式保证其收敛性：

其中，协方差矩阵S的迹

上述公式中涉及到除以S迹的操作，该操作会改变S的大小，因此，在牛顿-舒尔茨迭代之后，通过以下公式将迹的值补偿回来从而得到最终归一化的协方差矩阵

最后，进行全局协方差池化。将前述操作得到的归一化协方差矩阵

通过全局协方差池化(Global Convariance Pooling,GCP)计算得出通道描述符向量

y_c表示第c个通道的协方差，其中通道描述符向量z的第d维元素z_d计算公式如下：

其中，H_GCP(·)代表全局协方差池化函数，y_d(i)表示第d维元素的第i个通道。与全局平均池化相比较而言，全局协方差池化对网络学习到的深层特征进行二阶信息的统计，使网络能捕捉到人脸表情区域的微小变化。

在本实施例中，构建有效通道注意力的过程包括以下步骤：

为充分利用协方差池化层中聚合特征的相互依赖关系，SECA将采用一个门控机制，使用sigmoid函数实现一个较为简单地门控函数：

其中，f(·)是sigmoid函数，

表示卷积核为k的一维卷积，

表示注意力权重向量。卷积核k的物理意义为局部跨通道交互的覆盖率，即有多少邻居特征点参与一个通道的注意力预测，后续实验中将核大小设置为k＝7。

最终，由上述公式得到的注意力权重向量M和深层特征图F_agg可得出注意力特征图F_att，公式如下：

其中，

表示元素级的乘积操作。

将上述神经网络模型进行交叉熵损失和中心损失联合优化，通过反向传播最小化损失函数，对神经网络进行迭代训练，所述中心损失表示如下：

其中，

表示类别为y_i(第i个样本所属类别)的类中心特征向量。最终，联合使用中心损失L_C和Softmax损失L_S优化网络模型，联合损失函数公式如下：

L＝L_S+λL_C；

其中，变量λ∈[0,1]平衡两个损失。

使用SGD优化器进行训练调节，经过多轮训练后，神经网络趋于稳定，迭代过程结束，得到训练好的卷积神经网络模型，其中训练过程如图4所示，包括以下步骤：

获取图像数据集后，对人脸图像进行预处理；

构建出二阶有效通道注意力网络模型，即本发明所构建出的卷积神经网络模型；

使用数据集训练网络，并进行多次迭代；

将网络输出的结果与该人脸图像所对应的真实表情标签进行损失求解，直至损失趋于稳定。

此时，结束训练并输出训练好的卷积神经网络模型。

训练完成的卷积神经网络如图5所示。

使用训练好的神经网络模型时，将包含人脸的图像输入到训练好的神经网络模型中，训练好的神经网络模型根据事先得到的权重参数，计算该样本的预测表情标签。

本发明还提供一种基于二阶有效通道注意力网络的无约束人脸表情识别系统，包括图像获取模块、数据预处理模块、数据增强模块、神经网络模块以及输出模块，其中：

图像获取模块用于输入数据集，获取待测人脸表情图像；

轻量级特征提取网络(Slight-VoVNet-27)中核心模块是Slight-OSA，该模块只在最后一层聚集前面所有层的输出特征，在降低特征冗余度的同时减少模型参数量并降低内存访问成本，因此Slight-VoVNet-27具有较少的参数量、较低的显存需求和计算量。

二阶有效通道注意力模块由通道注意力分支和协方差池化层组成，通道注意力分支予以统计人脸表情特征图的通道特征间的相关性。此外，加入协方差池化层，进行表情深层特征的二阶信息统计，旨在学习人脸表情微小变化的局部区域特征，有助于网络模型提取到更具判别性的表情特征。

图6是本发明的人脸表情识别图，输入最左边的原始人脸图片后，根据人脸关键点检测对人脸进行检测、对齐凸显出人脸图像的表情特征；将处理好的图片输入到二阶有效通道注意力网络中进行特征提取及人脸表情识别。可以看出提取了人脸图像的深层特征后对其进行二阶信息的统计以及捕获跨通道特征间的交互信息，可以预测出人脸所对应的表情类别为悲伤。

可以理解的是，本发明的一种基于二阶有效通道注意力网络的无约束人脸表情识别方法及系统的部分特征可以相互引用。本领域常规技术人员可以根据本发明实施例进行相应的理解和实施，本发明不再一一赘述。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.嵌入高阶信息的轻量级无约束人脸表情识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的嵌入高阶信息的轻量级无约束人脸表情识别方法，其特征在于，轻量级特征提取网络包括Stem模块和Slight-OSA模块，将数据输入到Stem模块，Stem模块的输出与3个Slight-OSA模块通过池化操作进行级联，最后一个Slight-OSA模块输出经过池化后的数据即为轻量级特征提取网络提取的特征。

3.根据权利要求2所述的基于二阶有效通道注意力网络的无约束人脸表情识别方法，其特征在于，Stem模块包括两个3×3卷积操作；Slight-OSA模块将输入通过4个卷积层N1进行级联，并将输入与四个卷积层N1的输出数据进行拼接，拼接的数据通过卷积层N2提取特征，作为该Slight-OSA模块的输出。

4.根据权利要求3所述的基于二阶有效通道注意力网络的无约束人脸表情识别方法，其特征在于，卷积层N1依次包括3×3卷积操作、批归一化操作和非线性修正激活，卷积层N2依次包括1×1卷积操作、批归一化操作和非线性修正激活。

5.根据权利要求1所述的嵌入高阶信息的轻量级无约束人脸表情识别方法，其特征在于，二阶有效通道注意力模块包括协方差池化层和有效通道注意力，协方差池化层用于根据深层特征图计算出通道描述符向量，有效通道注意力用于根据通道描述符向量计算出其注意力权重向量，并将得到的注意力权重向量与深层特征图相乘得到注意力特征图。

6.根据权利要求4所述的嵌入高阶信息的轻量级无约束人脸表情识别方法，其特征在于，构建协方差池化层的过程包括以下步骤：

对协方差矩阵进行归一化操作；

其中，c为通道数；m＝wh，w和h分别为深层特征图的宽和高。

7.根据权利要求5所述的嵌入高阶信息的轻量级无约束人脸表情识别方法，其特征在于，对协方差矩阵进行归一化操作包括：

通过矩阵的特征值分解公式来求解协方差矩阵的平方根；

将收敛的协方差矩阵除以该矩阵的迹进行进一步收敛处理；

对协方差矩阵进行补偿，得到归一化协方差矩阵。

8.根据权利要求4所述的嵌入高阶信息的轻量级无约束人脸表情识别方法，其特征在于，根据通道描述符向量计算出其注意力权重向量包括：