CN115147899A

CN115147899A - 基于标签分布和有监督空间变换网络的头部姿态估计方法

Info

Publication number: CN115147899A
Application number: CN202210758704.XA
Authority: CN
Inventors: 徐鲁辉; 甘炎灵; 夏海英; 刘干
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-04

Abstract

本发明公开了一种基于标签分布和有监督空间变换网络的头部姿态估计方法，包括如下步骤：步骤1，数据预处理；步骤2，构建有监督的空间变换网络模块；步骤3，将步骤2搭建的空间变换网络模块添加到的轻量化网络MobileNetV3中，得到改进MobileNetV3的网络结构；步骤4，网络的损失函数设计；步骤5：头部姿态估计评价指标设计。这种方法可以更好的发挥各自任务分支的优势，方便有效，易于实际应用，还可以实现对头部姿态的快速、准确估计，鲁棒性强。

Description

基于标签分布和有监督空间变换网络的头部姿态估计方法

技术领域

本发明属于模式识别领域，具体是一种基于标签分布和有监督空间变换网络的头部姿态估计方法。

背景技术

头部姿态是人类一种重要的非语言沟通方式，它传达人的内心状态和行为模式的丰富信息。当前，头部姿态估计已经成为人工智能领域中的基础技术，在视线检测、社会关系估计、意图估计、智能控制等应用中起着重要作用。随着智能化进程的加快，头部姿态估计技术开始受到越来越广泛的关注。头部姿态由人的头部在三维空间中的运动变化产生，相应的角度标签具有连续的特性。所谓头部姿态估计，指计算机利用算法或模型对输入的头部图像进行自动化处理和分析，从而判断出人的头部在三维空间中的姿态，即pitch，yaw，roll三种角度，分别代表上下、左右、平面内三个维度上转动的角度。从实际应用中来看，在这三个维度上的角度中，估计pitch和yaw角度相对于roll角度来说应用更为广泛，且相对较难。传统的头部姿态估计技术往往基于先验模型，比如PnP模型、形状模型等。比如，吴彰鹏等在公开号为CN113901884A的中国专利中，设计的头部姿态估计方法先获取轮廓特征点信息，然后和预设的人脸形状模板匹配，将匹配度最高的模板的姿态信息作为人脸图像的估计角度。杨帆等在公开号为CN114360031A以及王臣豪等在公开号为CN113569653A的中国专利中，都是以关键点信息作为人脸的表示，完成头部姿态估计模型的建立和优化。上述技术首先要检测面部特征点，然而，面部特征点检测本身是一个困难的任务，特别是在头部转动角度过大时，面部特征点甚至会缺失。因此，在特征点检测技术基础上进行头部姿态估计会具有很大的局限性，且鲁棒性差。当前，也发展了很多基于深度学习的先进技术。比如，苏生等在公开号为CN114220158A的中国专利中，设计了融合多尺度特征的多任务网络。该方法在低层网络中提取轮廓特征，在高层网络中提取眼睛和嘴巴的特征，最后融合多尺度的特征进行回归预测。然而，这些基于深度架构的方法通常使用硬标签作为监督信息来驱动模型学习人头部姿态的判断能力。硬标签作为离散的标注信息，无法描述头部姿态的连续特性，使用其作为监督会限制模型的学习能力。并且上述方法均未考虑到roll、pitch和yaw三个角度估计任务的难度兼容性问题，未采取相应的措施来充分探索与利用这一特性以实现头部姿态估计性能的提升。本发明提出基于标签分布和有监督空间变换网络的头部姿态估计方法，避免了基于面部特征点方法的缺点，采用深度学习网络实现输入图像到头部姿态的端到端估计，并且从应用层面上综合考虑roll角度和另外两个角度之间的关系，设计的网络通过引入空间变换模块，可实现roll角度和另外两个角度之间的渐进解耦。对于roll角度，采用回归任务学习；对于pitch和yaw角度，采用基于标签分布的分类任务来监督。最终，可以有效兼容不同角度估计任务的难度差异，同时充分发挥和利用各任务分支的优势，来促进总体任务的性能提升。

发明内容

本发明的目的是针对现有技术中存在的不足，而提供一种基于标签分布和有监督空间变换网络的头部姿态估计方法。这种方法可以更好的发挥各自任务分支的优势，方便有效，易于实际应用，还可以实现对头部姿态的快速、准确估计，鲁棒性强。

实现本发明目的的技术方案是：

基于标签分布和有监督空间变换网络的头部姿态估计方法，包括如下步骤：

步骤1，数据预处理：选取包含头部姿态标签的公共数据集，通过人脸检测器将公共数据集中每一张图像中的头部区域裁剪出来，然后把公共数据集划分为训练集和测试集，分别用于头部姿态估计模型的优化学习和性能评估，为训练集中的每个头部姿态角度构造标签分布，使用构造的标签分布作为数据集标签，用作头部姿态估计模型的监督信息，标签分布构造详细过程如下：考虑到头部姿态角度具有连续性，相邻头部姿态的角度越相似，距离越远的头部姿态的角度差距越大，使用高斯分布函数来描述头部姿态角度，使用二维高斯分布构造pitch和yaw姿态角度的标签分布，给定一个元组

其中x表示一幅图像或者一个特征矢量，

表示对应的头部姿态，该样本对应的标签分布通过下面的高斯分布函数来确定：

其中∑是协方差矩阵，Z是标准化因子，以确保

通常将∑设置为

其中τ表示头部姿态的离散化粒度；

步骤2，构建有监督的空间变换网络模块：空间变换网络模块包含两部分，第一部分为定位网络，用于学习相似变换参数，定位网络中的参数是空间变换网络需要训练的参数Θ，使用头部姿态的标签roll角度来监督该部分的训练；第二部分就是网格生成器与采样器，有了第一部分学习到的变换参数，网格生成器进行基于预测的roll角度的空间变换，以输出特征图的所有坐标点为自变量，以Θ为参数做一个矩阵运算来实现空间变换，找到与其对应的输入特征图上的坐标点，网格生成器的计算公式如下：

其中x_i和y_i表示第i幅特征图中像素的位置，上标s表示输入特征图，上标t表示输出特征图，相似变换操作包含有旋转、平移和缩放，其对应的变换矩阵为：

其中，θ为旋转角度，t_x和t_y为平移矢量，a是缩放尺度，因此空间变换网络模块中的变换公式为：

采样器实现像素的插值，公式如下：

其中，U是输入特征图，V是输出特征图，C是通道数，k为插值操作；

步骤3，将步骤2搭建的空间变换网络模块添加到的轻量化网络MobileNetV3中，得到改进MobileNetV3的网络结构：MobileNetV3结构主要由深度可分离卷积组成，并且还包含SE(Squeeze-and-Excitation)模块，三个空间变换网络模块被逐层添加到MobileNetV3网络中，分别位于第一个卷积块前面、第一个卷积块的后面和最后一个卷积块的前面，以实现渐进式的面内旋转，改进后的网络输入为人脸图像、输出为姿态对应的标签分布，其中图像和特征图经过空间变换网络模块后，对应的尺寸不会发生变化，空间变换网络对图像和特征图进行面内旋转角度的修正，进行不同估计难度任务间的解耦，使网络兼容不同难度的估计任务，将训练集输入到改进的MobileNetV3网络中进行训练，得到一个精确的头部姿态估计模型，头部姿态估计模型具有轻量化的优点，方便部署，可以兼顾到性能和效率；

步骤4，网络的损失函数设计：标签分布描述头部姿态的连续特性，使用其作为监督信息，提升头部姿态估计模型的优化能力，获得更加鲁棒的头部姿态估计结果，使用KL散度来度量两个分布的相似性，定义如下：

其中，l是标签分布长度，d_j是真实分布中的第j个值，p_j是对应预测分布中的第j个值，两个分布越相似，KL散度值越小，反之亦然，两个分布之间的KL散度看作是单个样本对应的损失函数，将该公式扩展到批量大小的训练样本，对应的KL损失函数为：

同时使用标签中的roll角度来监督空间变换网络模块的训练，实现相似变换矩阵的学习，使用的损失函数是均方误差损失MSE，通过空间变换网络模块学习到的相似变换矩阵

求得旋转的角度θ，求解θ的公式如下：

因此，对于组合三个空间变换网络模块的渐进式的面内旋转，MSE损失为：

其中，n表示训练样本的数量，θ_i是第i个样本的标签roll角度值，

和

分别表示第一个空间变换模块、第二个空间变换模块以及第三个空间变换模块的预测输出值；

综上所述，头部姿态估计模型的总损失函数设计为：

L＝L_KL+L_roll；

步骤5：头部姿态估计评价指标设计：采用平均绝对误差来度量头部姿态估计性能，计算如下：

其中N为待评价的图像数量，即测试集图像数量，y_i和

分别表示真实的和预测的头部姿态。

本技术方案采用深度学习网络实现输入图像到头部姿态的端到端估计，避免了基于面部特征点方法鲁棒性差的缺点，本技术方案构造了可以描述头部姿态连续特性的标签分布作为标签信息，有监督的空间变换网络，可以解除roll角度和另外两个角度之间的耦合关系，提供不同难度估计任务之间兼容性问题的解决方法，从而充分发挥和利用各个任务分支的优势。在进行解耦时，本技术方案在网络的不同层次引入三个空间变换网络模块，实现渐进式的解耦，此外，本技术方案使用轻量化的深度学习网络，方便部署，可以有效兼顾到性能和效率。

使用轻量化网络MobileNetV3，方便有效，易于实际应用，可以实现速对头部姿态的快速、准确估计。

这种方法可以更好的发挥各自任务分支的优势，方便有效，易于实际应用，还可以实现对头部姿态的快速、准确估计，鲁棒性强。

附图说明

图1是实施例中裁剪的头部区域图像和构造的标签分布示意图；

图2a是实施例中有监督空间变换网络模块示意图；

图2b是实施例中输入图片经空间变换网络处理后的结果示例图；

图3是实施例中利用空间变换网络改进的MobileNetV3网络结构图。

具体实施方式

下面结合附图及具体实施例对发明作进一步的详细描述，但不是对本发明的限定。

实施例：

步骤1，数据预处理：选取包含头部姿态标签的公共数据集，通过人脸检测器MTCNN将公共数据集中每一张图像中的头部区域裁剪出来，归一化为224x224大小，然后把公共数据集划分为训练集和测试集，分别用于头部姿态估计模型的优化学习和性能评估，为每个头部姿态角度构造标签分布，如图1所示，使用构造的标签分布作为数据集标签，用作头部姿态估计模型的监督信息，标签分布构造详细过程如下：考虑到头部姿态角度具有连续性，相邻头部姿态的角度越相似，距离越远的头部姿态的角度差距越大，使用高斯分布函数来描述头部姿态角度，使用二维高斯分布构造pitch和yaw姿态角度的标签分布，给定一个元组

其中x表示一幅图像或者一个特征矢量，

其中∑是协方差矩阵，Z是标准化因子，以确保

将∑设置为

其中τ表示头部姿态的离散化粒度，本实中根据数据集的特性将τ设置为15。；

步骤2，构建有监督的空间变换网络模块：如图2a所示，原始的空间变换网络使用生成仿射变换进行设计，本例改进性地使用了有监督的相似变换来设计，空间变换网络模块包含两部分，第一部分为定位网络，用于学习相似变换参数，定位网络中的参数是空间变换网络需要训练的参数Θ，使用头部姿态的标签roll角度来监督该部分的训练；第二部分就是网格生成器与采样器，有了第一部分学习到的变换参数，网格生成器进行基于预测的roll角度的空间变换，以输出特征图的所有坐标点为自变量，以Θ为参数做一个矩阵运算来实现空间变换，找到与其对应的输入特征图上的坐标点，网格生成器的计算公式如下：

采样器实现像素的插值，公式如下：

其中，U是输入特征图，V是输出特征图，C是通道数，k为插值操作，本例采用双线性插值操作，示例如图2b所示；

步骤3，将步骤2搭建的空间变换网络模块添加到的轻量化网络MobileNetV3中，得到改进MobileNetV3的网络结构，如图3所示：MobileNetV3结构主要由深度可分离卷积组成，并且还包含SE模块，三个空间变换网络模块被逐层添加到MobileNetV3网络中，分别位于第一个卷积块前面、第一个卷积块的后面和最后一个卷积块的前面，以实现渐进式的面内旋转，三个空间变换网络模块的输入图像的尺寸分别是224×224×3、112×112×16和7×7×96，改进后的网络输入为人脸图像、输出为姿态对应的标签分布，其中图像和特征图经过空间变换网络模块后，对应的尺寸不会发生变化，空间变换网络对图像和特征图进行面内旋转角度的修正，进行不同估计难度任务间的解耦，使网络兼容不同难度的估计任务，将训练集输入到搭建的网络中进行训练，得到一个精确的头部姿态估计模型，本例头部姿态估计模型的训练环境为：Linux系统、python3.7、内存为32G的GPU以及Pytorch深度学习框架；

求得旋转的角度θ，求解θ的公式如下：

和

综上所述，头部姿态估计模型的总损失函数设计为：

L＝L_KL+L_roll；

其中N为待评价的图像数量，y_i和

分别表示真实的和预测的头部姿态。

Claims

1.基于标签分布和有监督空间变换网络的头部姿态估计方法，其特征在于，包括如下步骤：

其中x表示一幅图像或者一个特征矢量，

其中∑是协方差矩阵，Z是标准化因子，以确保

将∑设置为

其中τ表示头部姿态的离散化粒度；

采样器实现像素的插值，公式如下：

步骤3，将步骤2搭建的空间变换网络模块添加到的轻量化网络MobileNetV3中，得到改进MobileNetV3的网络结构：MobileNetV3结构主要由深度可分离卷积组成，并且还包含SE模块，，三个空间变换网络模块被逐层添加到MobileNetV3网络中，分别位于第一个卷积块前面、第一个卷积块的后面和最后一个卷积块的前面，以实现渐进式的面内旋转，改进后的网络输入为人脸图像、输出为姿态对应的标签分布，其中图像和特征图经过空间变换网络模块后，对应的尺寸不会发生变化，空间变换网络对图像和特征图进行面内旋转角度的修正，进行不同估计难度任务间的解耦，使网络兼容不同难度的估计任务，将训练集输入到改进的MobileNetV3网络中进行训练，得到一个精确的头部姿态估计模型；

求得旋转的角度θ，求解θ的公式如下：

和

综上所述，头部姿态估计模型的总损失函数设计为：

L＝L_KL+L_roll；

其中N为待评价的图像数量，即测试集图像数量，y_i和

分别表示真实的和预测的头部姿态。