CN112818969A

CN112818969A - 一种基于知识蒸馏的人脸姿态估计方法及系统

Info

Publication number: CN112818969A
Application number: CN202110418010.7A
Authority: CN
Inventors: 李华蓉; 蔡娜娜; 郑鹏; 李峰岳; 王康
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-05-18
Anticipated expiration: 2041-04-19
Also published as: CN112818969B

Abstract

本发明涉及一种基于知识蒸馏的人脸姿态估计方法及系统，能够在保证准确度的前提下，应用特征蒸馏方法对人脸姿态估计模型进行压缩，特征蒸馏后的模型参数量少，对人脸姿态的推理速度更快，降低了资源消耗，解决了人脸姿态估计应用深层网络结构资源消耗多、浅层网络准确率低的问题，同时根据当前应用场景需求，提高对大角度、模糊以及戴口罩人脸图像的姿态估计准确度，提高了模型的鲁棒性，提升了模型的人脸姿态角度预测效果，实际应用中，对于复杂场景下人脸姿态角度预测结果更加准确，以ResNet18的基础网络实现了超过ResNet50网络结构的预测效果。

Description

一种基于知识蒸馏的人脸姿态估计方法及系统

技术领域

本发明涉及一种基于知识蒸馏的人脸姿态估计方法，属于人脸图像识别技术领域。

背景技术

在人脸对齐、人脸跟踪、人脸识别等研究工作中，人脸姿态角度具有重要的影响，姿态估计在很多面部分析任务中是必不可少的一部分。人脸姿态估计是指计算出人脸或头部在三维空间的具体方向，欧拉角(Yaw, Pitch, Roll)是一种常用的人脸姿态表示。

目前人脸姿态估计方法主要分为两种：一种是由面部关键点以及图像到三维坐标的对应关系计算获得，姿态结果取决于关键点检测是否准确，且依赖于标准的头部模型和相机参数矩阵；另一种是根据人脸图像回归三维姿态欧拉角，不需要检测关键点的过程。随着深度学习网络和公开数据集的不断提出，根据图像特征回归角度的方法也是目前较为常用的人脸姿态估计方法，它对不同场景的姿态角度估计具有较强的鲁棒性。

在实际场景中，存在大量遮挡、模糊和侧脸的情况，图像中面部关键点坐标难以精准检测，由关键点获得的姿态角度可能存在较大误差，而本次使用一种无需关键点的姿态角度回归方法，更能适用于复杂场景下的姿态估计问题。

目前人脸姿态估计方法存在着以下缺陷：

1）深层网络结构复杂，参数量大

在人脸姿态估计的众多方法中，无需关键点检测的HopeNet方法获得了相对准确的姿态评估效果，它采用Resnet50作为特征提取的骨干网络。由于模型参数量大，在推理阶段，计算资源占用较多，推理速度还有待提升。

2）浅层网络模型预测姿态角度误差较大

在实际应用场景中，既要保证姿态评估结果的准确，又要要求模型推理速度快，减少计算资源占用。采用一些相对简单的特征提取网络，则会影响到姿态评估效果，增大角度误差。

3）对大角度姿态、模糊以及戴口罩的图像姿态估计误差较大

人脸姿态的训练数据大多使用300W或300W-LP公开数据集，对大角度、模糊图像姿态估计误差较大，且在当前应用场景中，对带口罩的人脸姿态估计结果鲁棒性较差。

发明内容

本发明所要解决的技术问题是提供一种基于知识蒸馏的人脸姿态估计方法，采用全新逻辑设计，能够在保证准确度的前提下，有效进行模型压缩，降低资源消耗。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于知识蒸馏的人脸姿态估计方法，用于实现目标分类网络对图像人脸姿态的估计，针对目标分类网络中最后全连接层，替换为三个分别对应偏航角方向、俯仰角方向、翻滚角方向的分支全连接层，各分支全连接层的输入端共同对接目标分类网络中最后一级特征提取模块的输出端，并且各分支全连接层分别对接一个分支分类层，构建学生分类网络；

基于学生分类网络，执行如下步骤A至步骤E，获得人脸姿态估计模型；以及应用人脸姿态估计模型，执行步骤

至步骤

，针对目标人脸图像中的人脸姿态实现估计；

步骤A. 收集预设数量的人脸姿态样本图像，并确定各幅人脸姿态样本图像中人脸分别对应偏航角方向、俯仰角方向、翻滚角方向的真实角度值，然后进入步骤B；

步骤B. 选择结构大于学生分类网络结构的教师初始分类网络；然后以人脸姿态样本图像为输入，人脸姿态样本图像中人脸分别对应偏航角方向、俯仰角方向、翻滚角方向上预设所划分各角度区间的概率为输出，针对教师初始分类网络进行训练，获得教师分类网络，然后进入步骤C；

步骤C. 以学生分类网络中各级特征提取模块中最后归一化层输出特征分别与教师分类网络中对应特征提取模块中最后归一化层输出特征之间特征距离

，构建特征蒸馏损失函数

；并且以学生分类网络中各分支全连接层的输出，结合人脸姿态样本图像中人脸分别对应偏航角方向、俯仰角方向、翻滚角方向的真实角度值所对应的角度区间，构建角度分类损失

；以及基于学生分类网络输出人脸分别对应偏航角方向、俯仰角方向、翻滚角方向上预设所划分各角度区间的概率，通过各角度区间类别概率计算数学期望，获得各方向上对应角度连续值作为预测角度，构建角度回归损失

；然后进入步骤D，其中，

，

表示学生分类网络中特征提取模块的数量；

步骤D. 按如下公式：

；

；

；

构建分别对应偏航角方向、俯仰角方向、翻滚角方向的损失函数

，然后进入步骤E；其中，

和

分别为预设损失权重系数，

、

、

分别为学生分类网络中分别对应偏航角方向、俯仰角方向、翻滚角方向的分支全连接层的输出值，

分别为人脸姿态分别对应偏航角方向、俯仰角方向、翻滚角方向的真实角度所对应的区间类别，

分别为基于学生分类网络所获对应偏航角方向、俯仰角方向、翻滚角方向的预测角度连续值，

分别为人脸姿态对应偏航角方向、俯仰角方向、翻滚角方向的真实角度值；

步骤E. 以人脸姿态样本图像同时输入教师分类网络与学生分类网络，人脸姿态样本图像中人脸分别对应偏航角方向、俯仰角方向、翻滚角方向上预设所划分各角度区间的概率为输出，结合分别对应偏航角方向、俯仰角方向、翻滚角方向的损失函数

，针对学生分类网络进行训练，获得人脸姿态估计模型；

步骤

. 应用人脸姿态估计模型，针对目标人脸图像进行处理，获得目标人脸图像中人脸姿态分别对应偏航角方向、俯仰角方向、翻滚角方向上预设所划分各角度区间的概率，然后进入步骤

；

步骤

. 根据目标人脸图像中人脸姿态分别对应偏航角方向、俯仰角方向、翻滚角方向上预设所划分各角度区间的概率，通过各角度区间类别概率计算数学期望，获得各方向上对应角度连续值作为预测角度，即目标人脸图像中人脸姿态分别对应偏航角方向、俯仰角方向、翻滚角方向的预测角度，实现对图像人脸姿态中人脸姿态的估计。

作为本发明的一种优选技术方案：所述步骤A中，还包括分别针对各幅人脸姿态样本图像，采用预设数据增广方式、以及预设图像增强方式，获得人脸姿态样本图像所对应的各幅变换样本图像，并建立该各幅变换样本图像分别与该人脸姿态样本图像中人脸分别对应偏航角方向、俯仰角方向、翻滚角方向的真实角度值的对应关系，再将该各幅变换样本图像作为各幅人脸姿态样本图像；然后进入步骤B。

作为本发明的一种优选技术方案：所述预设数据增广方式为人脸框外扩处理、以及采用3D旋转人脸的方法生成大角度的人脸图像，所述预设图像增强方式包括图像水平翻转、图像模糊。

作为本发明的一种优选技术方案：所述各特征距离

的获得过程中，首先调整学生分类网络中各级特征提取模块中最后归一化层输出特征所对应特征通道数、与教师分类网络中对应特征提取模块中最后归一化层输出特征所对应特征通道数一致，然后获得学生分类网络中各级特征提取模块中最后归一化层输出特征分别与教师分类网络中对应特征提取模块中最后归一化层输出特征之间特征距离

。

作为本发明的一种优选技术方案：所述各特征距离

的获得过程中，首先教师分类网络中各级特征提取模块中最后归一化层输出特征分别经用于保留正特征、且抑制负特征的margin ReLU模块，获得各教师待比较特征；学生分类网络中各级特征提取模块中最后归一化层输出特征分别依次对接经过1x1卷积回归层与归一化层，获得特征通道数与教师分类网络中对应特征提取模块中最后归一化层输出特征所对应特征通道数一致的各学生待比较特征；然后获得学生分类网络中各学生待比较特征分别与教师分类网络中各对应教师待比较特征之间特征距离

。

作为本发明的一种优选技术方案：所述各特征距离

按如下公式获得；

其中，

分别表示学生分类网络、教师分类网络分别所对应人脸姿态样本统一尺寸后的宽、高、通道数，

表示学生分类网络中特征提取模块中最后归一化层所输出图像经统一尺寸后中第

位置特征，

表示教师分类网络中特征提取模块中最后归一化层所输出图像经统一尺寸后中第

位置特征，

。

作为本发明的一种优选技术方案：所述步骤D中，基于各特征距离

，按加权法构建特征蒸馏损失函数

，其中，学生分类网络与教师初始分类网中自输入端至输出端方向，各级特征提取模块所对应权重依次增大。

作为本发明的一种优选技术方案：所述目标分类网络为残差网络，则教师分类网络与学生分类网络分别均包含四级残差模块，分别构成各级特征提取模块，并按如下公式：

构建特征蒸馏损失函数

，其中，

依次表示学生分类网络中自输入端至输出端方向各级特征提取模块分别与教师分类网络中对应特征提取模块中最后归一化层输出特征之间特征距离，

依次表示学生分类网络与教师初始分类网中自输入端至输出端方向各级特征提取模块分别所对应权重。

作为本发明的一种优选技术方案：所述偏航角方向、俯仰角方向、翻滚角方向上，分别均按每3度作为一个角度区间，分隔出第0个至第65个角度区间，即偏航角方向、俯仰角方向、翻滚角方向上分别对应66个角度区间；

所述

分别按如下公式获得：

；

；

；

其中，

表示对应偏航角方向、俯仰角方向、翻滚角方向上各角度区间的顺序序号，

表示学生分类网络中对应偏航角方向、俯仰角方向、翻滚角方向上的分类层函数。

与上述所设计基于知识蒸馏的人脸姿态估计方法相对应，本发明进一步设计了一种基于知识蒸馏的人脸姿态估计方法的系统，包括特征提取模块、特征蒸馏模块、角度回归模块、角度损失模块、角度估计模块；

所述教师分类网络与学生分类网络构成特征提取模块；

特征蒸馏模块位于教师分类网络与学生分类网络之间，用于实现教师分类网络与学生分类网络之间特征蒸馏损失函数

的获得；

角度回归模块由学生分类网络中各分支分类层、以及所述步骤

的操作构成；

角度损失模块用于根据特征蒸馏损失函数

、角度分类损失

、角度回归损失

，实现分别对应偏航角方向、俯仰角方向、翻滚角方向的损失函数

的计算；

角度估计模块由人脸姿态估计模型、以及所述步骤

的操作构成。

本发明所述一种基于知识蒸馏的人脸姿态估计方法，采用以上技术方案与现有技术相比，具有以下技术效果：

本发明所设计一种基于知识蒸馏的人脸姿态估计方法，能够在保证准确度的前提下，应用特征蒸馏方法对人脸姿态估计模型进行压缩，特征蒸馏后的模型参数量少，对人脸姿态的推理速度更快，降低了资源消耗，解决了人脸姿态估计应用深层网络结构资源消耗多、浅层网络准确率低的问题，同时根据当前应用场景需求，提高对大角度、模糊以及戴口罩人脸图像的姿态估计准确度，提高了模型的鲁棒性，提升了模型的人脸姿态角度预测效果，实际应用中，对于复杂场景下人脸姿态角度预测结果更加准确，以ResNet18的基础网络实现了超过ResNet50网络结构的预测效果。

附图说明

图1是本发明所设计基于知识蒸馏的人脸姿态估计方法及系统的架构图；

图2是本发明所设计中特征蒸馏应用示意图；

图3是本发明所设计中margin ReLU方法应用示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明设计了一种基于知识蒸馏的人脸姿态估计方法，如图1所示，用于实现目标分类网络对图像人脸姿态的估计，针对目标分类网络中最后全连接层，替换为三个分别对应偏航角方向yaw、俯仰角方向pitch、翻滚角方向roll的分支全连接层，各分支全连接层的输入端共同对接目标分类网络中最后一级特征提取模块的输出端，并且各分支全连接层分别对接一个分支分类层，构建学生分类网络，如此能够对三个方向角度结果进行独立的损失计算。

基于学生分类网络，执行如下步骤A至步骤E，获得人脸姿态估计模型。

步骤A. 收集预设数量的人脸姿态样本图像，并确定各幅人脸姿态样本图像中人脸分别对应偏航角方向、俯仰角方向、翻滚角方向的真实角度值，然后进入步骤B。

实际应用当中，上述步骤A中，还包括分别针对各幅人脸姿态样本图像，采用预设数据增广方式、以及预设图像增强方式，获得人脸姿态样本图像所对应的各幅变换样本图像，并建立该各幅变换样本图像分别与该人脸姿态样本图像中人脸分别对应偏航角方向、俯仰角方向、翻滚角方向的真实角度值的对应关系，再将该各幅变换样本图像作为各幅人脸姿态样本图像；然后进入步骤B。

这里在应用中，所述预设数据增广方式为人脸框外扩处理、以及采用3D旋转人脸的方法生成大角度的人脸图像，诸如对大角度姿态、模糊和戴口罩的人脸图像训练样本进行数据增广处理，裁剪方式为选取人脸框最长边的1.4倍并外扩处理为正方形的人脸图像。

为了提高模型对不同场景下的鲁棒性，将训练数据进行随机增强，所述预设图像增强方式包括图像水平翻转、图像模糊。

步骤B. 选择结构大于学生分类网络结构的教师初始分类网络；然后以人脸姿态样本图像为输入，人脸姿态样本图像中人脸分别对应偏航角方向、俯仰角方向、翻滚角方向上预设所划分各角度区间的概率为输出，针对教师初始分类网络进行训练，获得教师分类网络，然后进入步骤C。

实际应用当中，诸如目标分类网络选择Resnet18网络，教师初始分类网络基于Resnet50网络，对应结构大于学生分类网络结构，即选择了相对于学生网络更加复杂，且具有较好性能和泛化能力的教师初始分类网络。

，构建特征蒸馏损失函数

；然后进入步骤D，其中，

，

表示学生分类网络中特征提取模块的数量。

上述步骤C中关于各特征距离

。

具体来讲，各特征距离

的获得过程中，如图2所示，首先教师分类网络中各级特征提取模块中最后归一化层输出特征分别经用于保留正特征、且抑制负特征的margin ReLU模块，获得各教师待比较特征；学生分类网络中各级特征提取模块中最后归一化层输出特征分别依次对接经过1x1卷积回归层与归一化层，获得特征通道数与教师分类网络中对应特征提取模块中最后归一化层输出特征所对应特征通道数一致的各学生待比较特征；然后获得学生分类网络中各学生待比较特征分别与教师分类网络中各对应教师待比较特征之间特征距离

。

实际应用中，基于ResNet50与ResNet18，当输入为224x224尺寸时，教师网络及学生网络的蒸馏特征尺度如下表1所示：

表1

如表中所示，ResNet50与ResNet18因其网络结构差异，在4个阶段layer群组的残差网络输出的特征通道相差4倍，单通道的特征图尺度相同。针对两者的非对称结构特征，将对学生网络蒸馏特征进行结构转换。

特征转换的目的是使得教师网络和学生网络的对应特征转换为易于学习的结构。

教师特征转换部分采用margin ReLU方法，保留特征为正的信息，且抑制负的特征，不会造成教师网络的特征丢失。

如图3所示，

，其中，m为小于0的负值边界，为教师特征的转换方法margin ReLU函数。

学生网络转换方法为先后经过1x1的卷积回归和BN层，转换为与教师网络具有相同的特征通道数的学生网络蒸馏特征。

并且在实际的计算中，各特征距离

按如下公式获得；

其中，

位置特征，

位置特征，

。

步骤D. 按如下公式：

；

；

；

，然后进入步骤E；其中，

和

分别为预设损失权重系数，

、

、

分别为人脸姿态对应偏航角方向、俯仰角方向、翻滚角方向的真实角度值。

关于上述步骤D中的特征蒸馏损失函数

，实际应用中，具体基于各特征距离

，按加权法构建特征蒸馏损失函数

当上述设计应用到实际当中，诸如目标分类网络为残差网络，则教师分类网络与学生分类网络分别均包含四级残差模块，分别构成各级特征提取模块，并按如下公式：

构建特征蒸馏损失函数

，其中，

并且在实际实施应用中，

偏航角方向、俯仰角方向、翻滚角方向上，分别均按每3度作为一个角度区间，分隔出第0个至第65个角度区间，即偏航角方向、俯仰角方向、翻滚角方向上分别对应66个角度区间；

所述

分别按如下公式获得：

；

；

；

其中，

，针对学生分类网络进行训练，获得人脸姿态估计模型。

基于人脸姿态估计模型的获得，应用人脸姿态估计模型，执行步骤

至步骤

，针对目标人脸图像中的人脸姿态实现估计。

步骤

。

步骤

当将上述所设计基于知识蒸馏的人脸姿态估计方法，应用于具体的实际当中时，设计了执行此方法的系统，如图1所示，具体包括特征提取模块、特征蒸馏模块、角度回归模块、角度损失模块、角度估计模块。

所述教师分类网络与学生分类网络构成特征提取模块。

的获得。

的操作构成。

角度损失模块用于根据特征蒸馏损失函数

、角度分类损失

、角度回归损失

的计算。

角度估计模块由人脸姿态估计模型、以及所述步骤

的操作构成。

将本发明所设计基于知识蒸馏的人脸姿态估计方法及系统，应用于实际当中，测试表明，设计相对于原模型推理速度更快，计算资源更少，模型性能更好，推理结果更加准确，并且实际应用中，实现人脸姿态模型从ResNet50到ResNet18基础网络结构的模型压缩和效果提升；特征蒸馏部分由教师特征激活函数、学生特征变换网络和特征蒸馏损失函数组成，使用margin ReLU作为教师特征激活函数，在教师网络特征迁移过程中，不会造成ResNet50的特征信息丢失。

并且对学生网络ResNet18和学生特征变换网络采用不同的参数优化方法和学习率，在训练过程中，模型收敛效果更好。在网络的角度损失计算部分，联合特征蒸馏损失、角度分类损失以及角度回归损失，使得ResNet18的角度预测结果更加拟合于ResNet50。采用多重损失方法监督模型中三个角度的FC层的输出，并在训练过程中，为角度回归损失和特征蒸馏损失选择合适的权重系数，平衡联合损失计算结果。

除公开训练集外，还采取半监督学习方法使用教师模型对大角度、模糊和戴口罩样本进行姿态角度预测，并经过人工筛选作为代理标签，增强模型在复杂场景下人脸姿态估计的鲁棒性。

并且在实际应用中，在特征提取网络部分，除以采用Resnet基础网络，还可以尝试MobileNet等其它轻量级网络结构进行特征蒸馏。

除了把图像特征当作一个整体进行分类计算外，还有一种方法是采用细粒度分类，更加关注空间上的联系，比如采用FSA-Net作为特征学习网络，同样可以达到比较准确的姿态估计效果。

上述技术方案所设计基于知识蒸馏的人脸姿态估计方法，能够在保证准确度的前提下，应用特征蒸馏方法对人脸姿态估计模型进行压缩，特征蒸馏后的模型参数量少，对人脸姿态的推理速度更快，降低了资源消耗，解决了人脸姿态估计应用深层网络结构资源消耗多、浅层网络准确率低的问题，同时根据当前应用场景需求，提高对大角度、模糊以及戴口罩人脸图像的姿态估计准确度，提高了模型的鲁棒性，提升了模型的人脸姿态角度预测效果，实际应用中，对于复杂场景下人脸姿态角度预测结果更加准确，以ResNet18的基础网络实现了超过ResNet50网络结构的预测效果。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于知识蒸馏的人脸姿态估计方法，用于实现目标分类网络对图像人脸姿态的估计，其特征在于：针对目标分类网络中最后全连接层，替换为三个分别对应偏航角方向、俯仰角方向、翻滚角方向的分支全连接层，各分支全连接层的输入端共同对接目标分类网络中最后一级特征提取模块的输出端，并且各分支全连接层分别对接一个分支分类层，构建学生分类网络；

至步骤

，针对目标人脸图像中的人脸姿态实现估计；

，构建特征蒸馏损失函数

；然后进入步骤D，其中，

，

表示学生分类网络中特征提取模块的数量；

步骤D. 按如下公式：

；

；

；

，然后进入步骤E；其中，

和

分别为预设损失权重系数，

、

、

，针对学生分类网络进行训练，获得人脸姿态估计模型；

步骤

；

步骤

2.根据权利要求1所述一种基于知识蒸馏的人脸姿态估计方法，其特征在于：所述步骤A中，还包括分别针对各幅人脸姿态样本图像，采用预设数据增广方式、以及预设图像增强方式，获得人脸姿态样本图像所对应的各幅变换样本图像，并建立该各幅变换样本图像分别与该人脸姿态样本图像中人脸分别对应偏航角方向、俯仰角方向、翻滚角方向的真实角度值的对应关系，再将该各幅变换样本图像作为各幅人脸姿态样本图像；然后进入步骤B。

3.根据权利要求2所述一种基于知识蒸馏的人脸姿态估计方法，其特征在于：所述预设数据增广方式为人脸框外扩处理、以及采用3D旋转人脸的方法生成大角度的人脸图像，所述预设图像增强方式包括图像水平翻转、图像模糊。

4.根据权利要求1所述一种基于知识蒸馏的人脸姿态估计方法，其特征在于：所述各特征距离