CN112528830A

CN112528830A - 一种结合迁移学习的轻量级cnn口罩人脸姿态分类方法

Info

Publication number: CN112528830A
Application number: CN202011416799.4A
Authority: CN
Inventors: 陈森楸; 刘文波; 张弓
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-19

Abstract

本发明公开了一种结合迁移学习的轻量级CNN口罩人脸姿态分类方法，首先，构建真实口罩人脸姿态数据集和半仿真口罩人脸姿态数据集，并将真实口罩人脸姿态数据集划分训练集和测试集；其次，构建轻量级卷积神经网络模型；然后对半仿真数据集对构建的网络模型进行预训练，得到预训练的轻量级卷积神经网络模型；然后用口罩人脸姿态训练集，以更低的学习率和更少的迭代次数进行模型再训练，训练得到最终的轻量级卷积神经网络模型；最后将待测试的人脸姿态图像输入到训练好的网络模型中，得到相应姿态的概率输出，从而估计出人脸姿态。本发明实现了口罩人脸姿态分类，在降低模型参数量和计算复杂度的同时保持较高的模型准确率。

Description

一种结合迁移学习的轻量级CNN口罩人脸姿态分类方法

技术领域

本发明属于计算机视觉领域，具体涉及一种结合迁移学习的轻量级CNN口罩人脸姿态分类方法。

背景技术

随着计算机视觉技术的不断发展，人脸姿态估计技术被广泛应用于疲劳驾驶监测、人机交互、动机检测等领域且成为了关键技术之一。自新型冠状病毒(COVID-19)爆发以来，出行佩戴口罩成为了疫情防控的重要措施之一。在新的需求下，实现口罩遮挡的人脸姿态估计具有重要的现实意义。

人脸姿态估计方法分为基于模型的方法和基于表观的方法，当人脸受到遮挡、光照、噪声等干扰时基于模型的方法将会失效。基于表观的方法实则为构建图像空间与姿态空间的映射关系，但是该方法的性能取决于提取的特征及分类模型性能的好坏。近年来基于卷积神经网络的人脸信息提取技术不断进步，卷积神经网络被成功应用于人脸姿态估计并不断取得进展。卷积神经网络具有出色的特征提取能力及分类性能，其已在低光照、非限制性场景、遮挡等环境下实现了人脸姿态估计。因此将应用卷积神经网络来解决口罩遮挡的人脸姿态估计。

为了不断地提高模型的准确率，传统卷积神经网络不断被加深或者加宽，准确率提升的同时也带来了复杂的模型结构和较高的计算复杂度，导致姿态分类的实时性不佳且计算、存储资源消耗大。然而人脸姿态估计通常是计算机视觉及智能分析技术的中间环节之一，其姿态分析结果用于后续的分析决策。所以，轻量、简洁且高效的人脸姿态估计模型将会被更好地应用和推广。此外在疫情下暂时无法实现大规模的人脸采集，不足量的数据导致无法使用常规方法训练模型。在缺乏口罩人脸姿态数据的条件下，采用一种有效的训练方法也成为了关键。

发明内容

发明目的：本发明提出一种结合迁移学习的轻量级CNN口罩人脸姿态分类方法，在降低模型参数量和计算复杂度的同时保持较高的模型准确率，提升口罩人脸姿态分类效率。

技术方案：本发明所述的一种结合迁移学习的轻量级CNN口罩人脸姿态分类方法，包括以下步骤：

(1)构建真实口罩人脸姿态数据集和半仿真口罩人脸姿态数据集，并将真实口罩人脸姿态数据集划分训练集和测试集；

(2)构建轻量级卷积神经网络模型；所述网络模型包括2个改进的深度可分离卷积模块、3个标准深度可分离卷积模块、5个改进的SE注意力模块、5个自适应最大值池化层、1个GAP层及1个1×1点卷积层；

(3)采用步骤(1)中的半仿真数据集对步骤(2)构建的网络模型进行预训练，得到预训练的轻量级卷积神经网络模型；

(4)将经过步骤(3)获取的网络模型迁移至步骤(1)中的口罩人脸姿态训练集，以更低的学习率和更少的迭代次数进行模型再训练，训练得到最终的轻量级卷积神经网络模型；

(5)将待测试的人脸姿态图像输入步骤(4)获取的网络模型，得到相应姿态的概率输出，从而估计出人脸姿态。

进一步地，步骤(1)所述的口罩人脸姿态包括Yaw方向上的7个姿态类别，分别为Yaw方向上-67°、-45°、-22°、0°、+22°、+45°、+67°。

进一步地，步骤(2)所述的改进深度可分离卷积模块为将深度卷积和点卷积之间的ReLU函数替换为Linear函数。

进一步地，步骤(2)所述的改进的SE注意力模块工作过程如下：利用全局均值池化、全局最大值池化来压缩通道特征图，将压缩后的两个向量送入由两层全连接层组成的bottleneck结构的子网络进行激励操作，获得调整权重，其中两层全连接层之间的激活函数为ReLU函数；将激励后的值送入sigmoid激活函数中得到注意力权重，公式如下：

s_c＝σ(W₂ReLU(W₁z₁)+W₂ReLU(W₁z₂))

＝σ(W₂ReLU(W₁Maxpool(F))+W₂ReLU(W₁Avgpool(F))) (1)

其中，

C为通道数，r为bottleneck结构的缩放系数，σ为sigmoid激活函数，F为输入的特征图，s_c为调整后的权值。

进一步地，步骤(2)所述的2个改进的深度可分离卷积模块中，第1个改进的深度可分离卷积模块中的深度卷积为3×3×3，点卷积为12×1×1；第2个改进的深度可分离卷积模块中的深度卷积为12×3×3，点卷积为32×1×1，自适应最大值池化层为32×32。

进一步地，步骤(2)所述的3个标准深度可分离卷积模块中，第1个标准深度可分离卷积模块中的深度卷积为32×3×3，点卷积为64×1×1，自适应最大值池化层为16×16；第2个标准深度可分离卷积模块中的深度卷积为64×3×3，点卷积为256×1×1，自适应最大值池化层为8×8；第3个标准深度可分离卷积模块中的深度卷积为256×3×3，点卷积为512×1×1，自适应最大值池化层为4×4。

有益效果：与现有技术相比，本发明的有益效果：1、本发明提出的轻量级CNN口罩人脸姿态分类模型具有较少的参数量和较低的计算复杂度，模型参数量和计算复杂度仅为0.72M和16.46MFLOPs；2、本发明的模型具有紧凑轻量的结构和较高的准确率，在模型性能和参数量及计算复杂度之间取得了较好的平衡；3、本发明通过构建与真实口罩人脸姿态数据具有相似数据分布的半仿真口罩人脸姿态数据作为预训练的源域，将少量真实口罩人脸姿态数据作为目标域，采用迁移学习的方法有效地训练了网络模型；4、本发明提出的结合迁移学习的轻量级CNN口罩人脸姿态分类方法在缺乏海量真实口罩人脸姿态数据的条件下，以较轻的模型体量和较快的计算速度实现了口罩人脸姿态分类，具有较好的实时性且最终分类准确率能到达90％以上。

附图说明

图1是本发明的流程图；

图2是数据集样例展示图；

图3是数据增强示例图；

图4是改进深度可分离卷积结构图；

图5是深度可分离卷积改进实验结果曲线图；

图6是改进的SE模块框架图；

图7是替换后的分类器；

图8是轻量级卷积神经网络模型结构图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

如图1所示，本发明所述的一种结合迁移学习的轻量级CNN口罩人脸姿态分类方法，具体包括以下步骤：

步骤1：构建真实口罩人脸姿态数据集和半仿真口罩人脸姿态数据集，并将真实口罩人脸姿态数据集划分训练和测试样本部分。

用于制作半仿真数据的基础数据集为CAS-PEAL-R1数据集中的Yaw方向姿态子集，每一个人脸包含7种姿态，分别为-67°、-45°、-22°、0°、+22°、+45°、+67°。所构建的半仿真口罩数据集为在CAS-PEAL公开人脸姿态数据集的基础上与经过适当形变、旋转、缩放处理的多种类型口罩图像相叠加制作而成。半仿真数据全部作为训练样本，真实数据的70％用于训练，30％用于测试。

真实数据集包含的1040名人脸图像广泛涵盖了不同类型的眼睛形态、眉毛形态及发型形态等，提供了在口罩遮挡后未遮挡部分丰富的样本多样性。为了提高模型的泛化能力及模型的鲁棒性，考虑到口罩形状、大小及佩戴方式的不同，本发明通过选取4种不同口罩、适当缩放口罩图像尺寸、适当旋转口罩图像以及适当扭曲口罩图像来丰富口罩样本。选取的4种口罩分别为常见的1种KN95口罩和3种医用外科口罩(医用外科口罩使用最为广泛)。然后将口罩图像分别进行缩放为原图的0.9倍和0.8倍；将口罩图像以图像中心旋转-10°、-5°、5°、10°；将图像适当进行扭曲变形等操作。最后随机将变换后的口罩图像与基础人脸图像进行叠加。构造的数据集为1040个人在Yaw方向上7种姿态下的戴口罩人脸，共7280张图片。此外采集了57个人在相应姿态下的戴口罩图像，采集的人脸保持与半仿真数据集中的姿态一致。其次考虑到戴眼镜的人群，所以构造的真实数据集中包括有眼镜人脸和无眼镜的人脸。所构造的真实数据集每个类别包括114张图片，共有798张图片。所构造的半仿真数据集和真实数据集的部分样本实例如图2所示，第一行为半仿真样本，第二行为真实样本。

在送入网络训练之前需要对数据进行预处理，采用了亮度变换、加噪声、模糊等方式，其中噪声为椒盐噪声和均值为0，方差为0.002的高斯噪声；亮度变换为原来的0.5倍和1倍；图像模糊采用均值模糊滤波器处理。效果如图3所示，因考虑到姿态判向和图像的方向有关系，所以不进行旋转处理。

步骤2：构建轻量级卷积神经网络模型，该网络包括2个改进的深度可分离卷积模块、3个标准深度可分离卷积模块、5个改进的SE(Squeeze-and-Excitation)注意力模块、5个自适应最大值池化层、1个GAP(Global Average Pooling)层及1个1×1点卷积层。

改进的深度可分离卷积为将深度卷积和点卷积之间的ReLU函数替换为Linear函数。改进SE注意力模块为利用全局均值池化、全局最大值池化来压缩通道特征图，然后将压缩后的两个向量送入由两层全连接层组成的bottleneck结构的子网络进行激励操作，获得调整权重，其中两层全连接层之间的激活函数为ReLU函数。最后将激励后的值送入sigmoid激活函数中得到注意力权重，公式如下：

s_c＝σ(W₂ReLU(W₁z₁)+W₂ReLU(W₁z₂))

＝σ(W₂ReLU(W₁Maxpool(F))+W₂ReLU(W₁Avgpool(F))) (1)

其中，

本发明所设计的轻量级CNN口罩人脸姿态分类模型采用深度可分离卷积构建，其计算量为：

T2＝M×C×C×D×D+M×N×D×D (2)

其中，M为输入特征图的通道数，N输出特征图通道数，D为特征图的尺寸(边长)，C为卷积核的尺寸。

标准深度可分离卷积包含了深度卷积、点卷积层、BN(Batch Normalization)层和ReLU激活层。在经过卷积和BN层之后需要经过ReLU激活层，表达式为：

f(X)＝max(X,0) (3)

其中f(X)为ReLU函数，X为该层输入特征。

使用ReLU函数可以防止梯度消失，稀疏网络参数，缓解过拟合现象。但当输入为负值时输出为0，此时对应神经元就会失活。对于高维特征采用ReLU激活函数可以起到稀疏作用，缓解过拟合问题。但对低维特征使用ReLU激活函数时，由于特征图通道数较少，使用ReLU激活函数会导致大量有用信息丢失，反而影响模型性能。本发明将前两个深度可分离卷积的ReLU函数换为Linear函数，而高层沿用标准深度可分离卷积。在保证不增加参数量的同时避免了标准深度卷积在浅层丢失信息的问题，结构如图4所示。所设计的网络包含了5个卷积块，实验从浅到深逐层改进深度可分离卷积。图5展示了网络准确率的变化，可以看出改进前两个深度可分离卷积，同时后三个卷积块为标准深度可分离卷积能到达最佳的效果。

此外通过嵌入较少参数量的SE注意力模块来提升模型性能，并且对挤压阶段补充全局最大值池化来丰富通道信息。从而在激励阶段能够学习到更完备的注意力权值，更好地对特征图调整，改进SE注意力模块如图6所示。

如表1所示，准确率较未嵌入SE模块的网络提升了6.34％，较嵌入标准SE模块的网络提升了2.09％。SE模块作为一个独立于主干网络的组件，对比未嵌入注意力模块的网络，仅以0.04M的参数量和0.53MFLOPs的牺牲，有效地提升了网络的性能。

表1改进SE模块实验结果

全连接层通常作为卷积神经网络的分类器，全连接网络的作用是将最后一层卷积得到的特征图拉伸成一维向量进行计算。但全连接层参数过多，容易造成网络过拟合，通常也是网络参数最为集中的部分。本发明通过采用GAP层结合1×1的点卷积来替换全连接层，分类器如图7所示。将最后一层的特征图利用GAP层压缩为1×1×n(n为输出通道数)，然后利用1×1的点卷积将特征图降维至1×1×7，对应7个人脸姿态。前两个为改进深度可分离卷积，后三个为标准深度可分离卷积，其中在每个卷积块后都接如SE注意力模块对特征图进行调整。最后利用GAP结合1×1点卷积进行分类。

如图8所示，本实施方式轻量级卷积神经网络模型的具体构建为首先将输入图片统一调整为128×128，将其送入第1个改进的深度可分离卷积模块中。该模块中的深度卷积为3×3×3，点卷积为12×1×1。并将卷积结果送入第1个自适应最大值池化层中进行降采样操作，该池化层为64×64。紧接着将上一步得到的特征图送入第1个改进的SE模块中进行调整，得到经过注意力机制加权后的特征图。后续将特征图依次输入到第2、3、4、5改进深度可分离卷积模块、自适应最大值池化层和改进的SE模块中。第2个改进的深度可分离卷积模块中的深度卷积为12×3×3，点卷积为32×1×1，自适应最大值池化层为32×32。第1个标准深度可分离卷积模块中的深度卷积为32×3×3，点卷积为64×1×1，自适应最大值池化层为16×16；第2个标准深度可分离卷积模块中的深度卷积为64×3×3，点卷积为256×1×1，自适应最大值池化层为8×8；第3个标准深度可分离卷积模块中的深度卷积为256×3×3，点卷积为512×1×1，自适应最大值池化层为4×4。然后将最后一个SE模块输出的特征图送入由GAP层和1×1的卷积层形成的分类器中，并将输出结果送入Softmax层中计算得到最终的姿态类别结果。

构建的轻量级卷积神经网络分类器部分由1个GAP层和与1个1×1的卷积层组合而成。首先将最后一个卷积层输出的特征图压缩为1×1×n(n为输出特征图的通道数)，然后利用1×1的点卷积将GAP层的结果降维至1×1×m(m为目标类别数)，即与分类目标数一致。丢弃全连接层并采用GAP层和点卷积替代，进一步大幅降低了参数量和计算复杂度。

步骤3：将步骤2中构建的模型在步骤1中的半仿真数据集上进行预训练，得到预训练的轻量级卷积神经网络模型；然后将获得的预训练模型迁移至步骤1中的真实数据集训练样本部分，以更低的学习率和更少的迭代次数进行模型再训练，训练得到最终的轻量级卷积神经网络模型。

本发明所述的一种结合迁移学习的轻量级CNN口罩人脸姿态分类方法的网络训练和测试具体过程如下：首先将构建好的网络模型在半仿真数据集上做预训练。预训练过程的具体参数设置为：采取随机梯度下降法作为训练算法，动量设置为0.9，权重衰减设置为0.0005，训练迭代次数设置为50；初始学习率设置为0.005；批大小为16，损失函数选择交叉熵函数。接着将预训练模型不冻结参数，直接迁移至真实数据集的训练样本部分做微调训练。再训练的学习率为0.001，迭代次数为10且其他参数保持不变。最后将训练完成的模型在真实口罩人脸姿态数据集中的测试样本部分进行测试。

将待测试的人脸姿态图像输入到的训练、测试完成的模型，得到相应姿态的概率输出，从而估计出人脸姿态。

为了验证本发明模型的有效性，实验选取了AlexNet、VGG16、ResNet50三种经典的传统卷积神经网络模型及SqueezeNet、MobileNetV1、MobileNetV2、ShuffleNetV1、ShuffleNetV2五种优秀的轻量级卷积神经网络模型作比较。在相同数据集、相同实验环境、相同深度学习框架下完成，实验结果如表2所示。

表2本发明模型与其他模型对比实验结果

从实验结果可看出，本发明所提模型的准确率相较于ResNet50和VGG16两个传统网络有小幅下降，但是在参数量和计算复杂度上相较传统网络大幅下降。相比于经典轻量级卷积神经网络，本发明所提算法具有较小的参数量和计算复杂度，同时具有较高的准确率。本发明所设计的网络轻量且高效，包含0.72M的参数量和16.46M的FLOPs，仅用319.24s就完成了模型的收敛且达到了95.60％的准确率。

Claims

1.一种结合迁移学习的轻量级CNN口罩人脸姿态分类方法，其特征在于,包括以下步骤：

2.根据权利要求1所述的结合迁移学习的轻量级CNN口罩人脸姿态分类方法，其特征在于，步骤(1)所述的口罩人脸姿态包括Yaw方向上的7个姿态类别，分别为Yaw方向上-67°、-45°、-22°、0°、+22°、+45°、+67°。

3.根据权利要求1所述的结合迁移学习的轻量级CNN口罩人脸姿态分类方法，其特征在于，步骤(2)所述的改进深度可分离卷积模块为将深度卷积和点卷积之间的ReLU函数替换为Linear函数。

4.根据权利要求1所述的结合迁移学习的轻量级CNN口罩人脸姿态分类方法，其特征在于，步骤(2)所述的改进的SE注意力模块工作过程如下：利用全局均值池化、全局最大值池化来压缩通道特征图，将压缩后的两个向量送入由两层全连接层组成的bottleneck结构的子网络进行激励操作，获得调整权重，其中两层全连接层之间的激活函数为ReLU函数；将激励后的值送入sigmoid激活函数中得到注意力权重，公式如下：

s_c＝σ(W₂ReLU(W₁z₁)+W₂ReLU(W₁z₂))

＝σ(W₂ReLU(W₁Maxpool(F))+W₂ReLU(W₁Avgpool(F))) (1)

其中，

5.根据权利要求1所述的结合迁移学习的轻量级CNN口罩人脸姿态分类方法，其特征在于，步骤(2)所述的2个改进的深度可分离卷积模块中，第1个改进的深度可分离卷积模块中的深度卷积为3×3×3，点卷积为12×1×1；第2个改进的深度可分离卷积模块中的深度卷积为12×3×3，点卷积为32×1×1，自适应最大值池化层为32×32。

6.根据权利要求1所述的结合迁移学习的轻量级CNN口罩人脸姿态分类方法，其特征在于，步骤(2)所述的3个标准深度可分离卷积模块中，第1个标准深度可分离卷积模块中的深度卷积为32×3×3，点卷积为64×1×1，自适应最大值池化层为16×16；第2个标准深度可分离卷积模块中的深度卷积为64×3×3，点卷积为256×1×1，自适应最大值池化层为8×8；第3个标准深度可分离卷积模块中的深度卷积为256×3×3，点卷积为512×1×1，自适应最大值池化层为4×4。