CN112966661A

CN112966661A - 一种基于稀疏特征重用的人脸特征提取网络的构建方法

Info

Publication number: CN112966661A
Application number: CN202110346477.5A
Authority: CN
Inventors: 李春国; 胡超; 杨绿溪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-15

Abstract

本发明公开了一种基于稀疏特征重用的人脸特征提取网络的构建方法，基于稀疏特征重用、混合特征融合、中心—高斯池化三个创新点，构建了一个适用于人脸特征提取的卷积神经网络。该卷积神经网络适用于各类基于深度神经网络的人脸识别算法中的特征提取操作，可以准确提取到人脸部分的低级视觉特征和高级语义特征。在公开数据集上的实验表明，本发明具有计算量小、参数量小、人脸特征提取能力强等特点，并且在类如图像分类等更一般场景中也有较强的特征提取能力。

Description

一种基于稀疏特征重用的人脸特征提取网络的构建方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于稀疏特征重用的人脸特征提取网络的构建方法。

背景技术

自从20世纪90年代以来，人脸识别技术就一直是计算机视觉领域的一个热点研究问题，在交通、安防、民生等领域应用广泛。在一个完整的人脸识别任务中往往包含了四个子任务：人脸检测，人脸对齐，特征提取，特征分类。其中以特征提取最为关键。当前主流的人脸识别算法往往以深度卷积神经网络为特征提取网络，并在网络训练过程中施加分类监督。然而，由于当前高性能的特征提取网络往往是基于ImageNet数据集研发，虽然适用于大规模图像分类任务，但是具有参数量大、计算量大等缺点，这往往无法满足经常需要部署到移动硬件平台的人脸识别算法的要求。因此，需要进一步研究适用于人脸识别这一特定场景且计算高效的网络结构，以提升人脸识别算法的性能和移动端部署能力。

近年来，国内外学者提出了许多新颖的卷积神经网络设计思路，这些思路主要包括残差连接，自学习结构和密集连接等。以这三者为基础的代表性网络分别是ResNet，Inception和DenseNet网络。ResNet网络通过残差连接的方式解决了单纯堆叠网络层所带来的网络性能退化问题，残差块的引入使得被残差块所连接的部分网络只需要进行难度更低的残差学习，这大大提升了网络对复杂数据的拟合能力。使用残差连接设计的网络虽然可以通过大幅度加深网络的速度来达到更好的性能，但是以逐像素相加的方式进行残差连接会带来一定程度的信息损失。Inception网络通过自学习结构的方式解决了网络设计过程中如何设计卷积核大小这一问题，对同一级别的特征采用不同大小的卷积核并行学习，每一种类型的卷积核具体学到的信息让网络自行分配，这在提升了网络性能的同时也减轻了算法研究人员的超参数设置压力。使用自学习结构设计的网络虽然可以通过大幅度加宽网络的宽度来达到更好的性能，但是存在参数量大的缺点。DenseNet网络通过密集连接的方式解决了单一特征无法全面描述物体信息这一问题，特征之间的密集连接使得深层的特征在具有丰富的语义信息的同时也包含了一定的低级信息，如边缘、颜色、纹理等信息，使用这些混合的信息更能表达物体的全貌。同时，由于DenseNet采用了不同密集块之间使用相同的特征通道数这一设计，使得网络的参数量大幅度减少。使用密集连接设计的网络虽然具有较小的参数量和较高的性能，但是在网络训练和推理过程中的频繁IO操作会带来网络收敛缓慢、推理时间长等缺点。

发明内容

本发明目的在于提供一种基于稀疏特征重用的人脸特征提取网络的构建方法,以解决上述不同类型的特征提取网络存在技术问题。

为解决上述技术问题，本发明具体的技术方案如下：

一种基于稀疏特征重用的人脸特征提取网络的构建方法，包含以下步骤：

步骤1、构建单个基本单元块，具体过程如下：

步骤1.1、由3×3卷积组提取特征；

步骤1.2、在第一组和最后一组3×3卷积组输出的特征之间采用逐元素相加和按通道级连的方式进行特征融合，达到特征重用的目的；

步骤1.3、使用1×1卷积组对特征融合后得到的特征进行通道信息整合；

步骤1.4、使用SE Block对通道整合后的特征进行深层通道重要性重组；

步骤1.5、使用单位恒等映射进行基本单元块残差学习；

步骤2、将多个基本单元块堆叠在一起，不同的基本单元块堆叠可以同时得到丰富的低级视觉特征和高级语义特征；

步骤3、在不同的基本单元块之间添加3×3卷积组和池化层，使用3×3卷积组对不同深度的基本单元块所提取到的特征进行整合，以便浅层特征平滑过度到深层特征，使用池化层对冗余的特征进行去除，并对特征整体进行降维；

步骤4、在最后一个基本单元块后接中心-高斯池化，即对高斯池化中选择的强响应点以池化中心为原点进行高斯加权；

步骤5、使用公开数据集对网络进行训练，并且在训练时关注损失函数的变化和不同训练轮数时训练集和验证集上的准确率，在网络达到收敛时停止训练，防止欠拟合和过拟合；

步骤6、将收敛的网络在测试数据集上进行测试；

步骤7、根据分类准确率和人脸识别准确率分析比较特征提取能力。

进一步的，步骤1.2中所述特征融合方式为最后2组3×3卷积组输出的特征之间采用逐元素相加的方式进行特征融合，除最后2组外其他3×3卷积组输出的特征之间采用按通道级连的方式。

进一步的，步骤1.4中SE Block采用一层全连接层并将平均池化改为最大值池化，以减少信息缺失。

进一步的，在训练数据集上进行训练的步骤包括使用MegaFace人脸识别数据集进行训练以验证人脸特征提取能力；使用ImageNet图像分类数据集进行训练以验证在一般场景下的特征提取能力。

进一步的，测试步骤包括在LFW数据集上进行测试以验证人脸特征提取能力；在ImageNet数据集上进行测试以验证在一般场景下的特征提取能力。

进一步的，步骤7中所述分析比较特征提取能力的步骤包括在ImageNet数据集上，使用Top-1测试错误率和Top-5测试错误率比较分类网络的性能；在LFW数据集上，使用识别准确率比较人脸识别算法的性能。

本发明具有以下优点：

本发明基于稀疏特征重用、混合特征融合、中心-高斯池化三个创新点构建，适用于各类基于深度神经网络的人脸识别算法中的特征提取操作，可以准确提取到人脸部分的低级视觉特征和高级语义特征。并且在公开数据集上的实验表明，本发明具有计算量小、参数量小、人脸特征提取能力强等特点，并且在类如图像分类等一般场景中也有较强的特征提取能力。

附图说明

图1为本发明单个基本单元块的内部结构示意图；

图2为本发明改进后的SE Block的内部结构示意图；

图3为常规中心池化示意图；

图4为本发明中心-高斯池化示意图；

图5为网络测试错误率与计算量关系图；

图6为网络测试错误率与参数量关系图；

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于稀疏特征重用的人脸特征提取网络的构建方法做进一步详细的描述。

本发明包含以下步骤：

步骤1：构建单个基本单元块。图1给出了本发明中构建的单个基本单元块的内部结构图，其中SFR Block即为基本单元块。基本单元块是本发明的基本组成单元，在本发明中起到提取不同深度的语义信息的作用。浅层的基本单元块所提取到的特征具有较小的通道数，含有丰富的低级视觉特征，如颜色、形状、空间位置等；深层的基本单元块所提取到的特征具有较大的通道数，含有丰富的语义信息。

构建单个基本单元块包括如下步骤：

步骤1.1：由3×3卷积组提取特征。

步骤1.2：在第一组和最后一组3×3卷积组输出的特征之间采用逐元素相加或者按通道级连进行特征融合，达到特征重用的目的。

步骤1.3：使用1×1卷积组对特征融合后得到的特征进行通道信息整合。

步骤1.4：使用SE Block对通道整合后的特征进行深层通道重要性重组。

步骤1.5：使用单位恒等映射进行基本单元块残差学习。

如图1所示，其中的C₃表示3×3的卷积组，用于提取特征，其组成为“Conv+ReLu+BN”；其中C₁表示1×1的卷积组，用于整合不同通道的信息并降维，其组成为“Conv+BN+ReLU”；其中SE表示本发明所改进后的SE Block，用于对特征每个通道施加注意力。常规的SE Block中有两层全连接层，一层用于降维，一层用于升维。本发明为了减少信息缺失，将第一层全连接层删除并将平均池化改为最大值池化。改进后的SE Block结构由图2给出，其中F_max(·)表示最大值池化，F_C(·)表示全连接层，F(·)表示按通道相乘。本发明采用混合特征融合的方式进行特征融合，即不同特征提取卷积组之间的特征融合部分以逐元素相加的方式进行，部分以按通道级连的方式进行，具体的比例为最后两个基本单元块中的特征融合采用逐元素相加的方式，其他的基本单元块中的特征融合采用按通道级连的方式。

步骤2：将多个基本单元块堆叠在一起。不同的基本单元块堆叠可以同时得到丰富的低级视觉特征和高级语义特征，这些特征对后续的任务具有非常重要的作用。

步骤3：不同的基本单元块之间添加3×3卷积组和池化层，最后一个基本单元块后接中心-高斯池化。基于“物体中心视觉特征强，边缘视觉特征弱”这一理念，中心池化被广泛用于提取物体的强视觉特征。常规中心池化的操作较为简单，假设单层特征图为X＝(x_ij)_m×n，中心池化后变为Y＝(y_ij)_m×n，其中y_ij＝max(x_i1,x_i2,…,x_in)+max(x_1j,x_2j,…,x_mj)。图3给出了这种中心池化存在的普遍问题，点Q不在物体内部，但是经过中心池化后具有较高的响应，此时点Q会为网络引入无效特征。为了解决这一问题，本发明采用中心-高斯池化进行强视觉特征提取。具体的，对高斯池化中选择的强响应点以池化中心为原点进行高斯加权，这样可以解决传统中心池化存在的问题。中心-高斯池化的具体流程由图4给出，在实际操作过程中，可以用不同大小的二维高斯模版离散化高斯加权的过程。可以发现，中心-高斯池化在提取人脸的强视觉特征时有独特的优势：人脸区域具有不规则的形状，且对于特征提取网络而言，其输入图像已经经过人脸检测网络处理，人脸位置基本处于图像中心。在这种情况下，中心-高斯池化既可以提取到人脸中心的特征，又能避开如耳垂以下等非人脸区域的干扰。综上所述，本发明结构图如表1所示。

表1本发明结构

步骤4：将本发明在训练数据集上进行训练，直到网络收敛。为了验证本发明的人脸特征提取能力，使用MegaFace人脸识别数据集进行训练。为了验证本发明在一般场景下的特征提取能力，使用ImageNet图像分类数据集进行训练。

步骤5：将收敛的网络在测试数据集上进行测试。为了验证本发明的人脸特征提取能力，使用训练好的本发明在LFW数据集上进行测试。为了验证本发明在一般场景下的特征提取能力，使用训练好的本发明在ImageNet数据集上进行测试。

步骤6：根据特定的指标，分析比较本发明的特征提取能力。在ImageNet数据集上，使用Top-1测试错误率和Top-5测试错误率比较分类网络的性能。表2给出了DenseNet，ResNet和本发明在ImageNet数据集上的Top-1错误率和Top-5错误率，表中SFRNet即为本发明。可以发现，本发明在Top-1和Top-5错误率上均大幅度优于ResNet，小幅度优于DenseNet。这说明了本发明在一般的图像分类任务中也具有较强的特征提取能力。图5和图6分别给出了不同网络的测试错误率和网络计算量和参数量的关系。可以发现本发明在测试错误率低的同时具有最小的计算量和参数量。在LFW数据集上，使用识别准确率比较人脸识别算法的性能。表3给出了LFW数据集上，使用ResNet、DenseNet、本发明三种不同特征提取网络的不同人脸识别算法的识别准确率，表中SFRNet即为本发明。可以发现，使用本发明作为特征提取网络的人脸识别算法具有最高的识别准确率。这说明了本发明具有较强的人脸特征提取能力。

表2 ImageNet数据集上Top-1和Top-5测试错误率(％)

表3 LFW数据集上三种人脸识别算法的识别准确率(％)

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于稀疏特征重用的人脸特征提取网络的构建方法，其特征在于，包含以下步骤：

步骤1、构建单个基本单元块，具体过程如下：

步骤1.1、由3×3卷积组提取特征；

步骤1.5、使用单位恒等映射进行基本单元块残差学习；

步骤6、将收敛的网络在测试数据集上进行测试；

2.根据权利要求1所述的基于稀疏特征重用的人脸特征提取网络的构建方法，其特征在于，步骤1.2中所述特征融合方式为最后2组3×3卷积组输出的特征之间采用逐元素相加的方式进行特征融合，除最后2组外其他3×3卷积组输出的特征之间采用按通道级连的方式进行特征融合。

3.根据权利要求2所述的基于稀疏特征重用的人脸特征提取网络的构建方法，其特征在于，步骤1.4中所述SE Block采用一层全连接层并将平均池化改为最大值池化，以减少信息缺失。

4.根据权利要求3所述的基于稀疏特征重用的人脸特征提取网络的构建方法，其特征在于，所述在训练数据集上进行训练的步骤包括使用MegaFace人脸识别数据集进行训练以验证人脸特征提取能力；使用ImageNet图像分类数据集进行训练以验证在一般场景下的特征提取能力。

5.根据权利要求4所述的基于稀疏特征重用的人脸特征提取网络的构建方法，其特征在于，所述测试步骤包括在LFW数据集上进行测试以验证人脸特征提取能力；在ImageNet数据集上进行测试以验证在一般场景下的特征提取能力。

6.根据权利要求5所述的基于稀疏特征重用的人脸特征提取网络的构建方法，其特征在于，步骤7中所述分析比较特征提取能力的步骤包括在ImageNet数据集上，使用Top-1测试错误率和Top-5测试错误率比较分类网络的性能；在LFW数据集上，使用识别准确率比较人脸识别算法的性能。