CN110246181B

CN110246181B - 基于锚点的姿态估计模型训练方法、姿态估计方法和系统

Info

Publication number: CN110246181B
Application number: CN201910443496.2A
Authority: CN
Inventors: 肖阳; 张博深; 熊拂; 曹治国
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2021-02-26
Anticipated expiration: 2039-05-24
Also published as: CN110246181A

Abstract

本发明公开了一种基于锚点的姿态估计模型训练方法、姿态估计方法和系统，属于数字图像处理和机器学习的交叉技术领域，其中训练方法包括：构建姿态估计模型，采集包含目标的多个样本图像；提取每个样本图像中的目标并对目标进行线性插值得到样本子图，在样本子图上以固定间距设置多个锚点后输入姿态估计模型进行训练，得到训练好的姿态估计模型。利用训练好的姿态估计模型可以对包含目标的图像进行姿态估计。本发明使用密集设置锚点的方式来对关键点进行坐标预测，能够取得比传统方法更为精确的预测结果的同时大幅降低计算量，取得更快的预测速度。同时本发明鲁棒性强，泛化性能好，准确率不受场景的影响。

Description

基于锚点的姿态估计模型训练方法、姿态估计方法和系统

技术领域

本发明属于数字图像处理和机器学习的交叉技术领域，更具体地，涉及一种基于锚点的姿态估计模型训练方法、姿态估计方法和系统。

背景技术

随着计算机视觉技术的发展，针对深度图以及RGB图的姿态估计技术快速发展。姿态估计在人机交互、增强现实、人体行为分析、医疗康复、游戏等领域中都被作为基础技术被广泛应用。下面介绍目前常用的姿态估计算法：

(1)基于非深度学习的方法

基于非深度学的姿态估计算法主要包括两个步骤，即手工设计特征的提取以及坐标回归。2012年，Shotton等人在CVPR的论文里面提出，对原始图像提取差分特征并训练随机森林分类器对目标的不同关键点区域进行逐像素预测，然后使用Mean shift的聚类方法对全图进行逐像素的聚类得到每一个关键点的坐标位置。受到这一工作的启发，很多基于树的回归方法被相继提出，包括随机行走树、霍夫森林等。这些方法的一个特点是最后的预测结果高度依赖于前面阶段手工设计的特征准确性，针对不同的输入图像，比如深度图和RGB图，这些手工特征适应性就受到很大限制。

(2)基于深度学习的方法

基于深度学习的方法可以以端到端的形式来对特征进行学习，目前主流的基于深度学习的做法主要包括两个主要研究方向：第一个是通过对卷积神经网络提取到的特征进行全局的关键点坐标回归，即学习一种输入图像到输出关键点坐标的非线性映射。这种方法的优点是预测速度快，仅包含图片预处理以及卷积神经网络前向传播这两个过程，但是这种方法的主要问题是这种高维度的非线性映射关系非常容易过拟合到有限的训练数据中去，导致泛化测试误差较大，泛化性能差。第二种做法是使用全卷积神经网络(FCN)的网络结构，针对每一个关键点预测一张对应的置信度图，最后通过寻找置信度上面响应最大的位置作为关键点的最终预测位置。这种方法将关键点坐标的稀疏预测问题转换为一个置信度图的密集预测任务，这样做的优点是可以为神经网络的训练提供更为鲁棒的监督信号，同时置信度图对一些小范围的扰动具有抵抗性。但是这种做法目前存在的一个普通问题是全卷积神经网络中存在的反卷积结构较为耗时，并且模型的尺寸会变得比较大，这就限制了它在现实场景中的应用，实时性往往得不到满足，难以进行部署。

综上所述，目前关键点预测的任务还存在泛化性能差、模型复杂度高、时间复杂度高等问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于锚点的姿态估计模型训练方法、姿态估计方法和系统，由此解决现有技术存在泛化性能差、模型复杂度高、时间复杂度高的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于锚点的姿态估计模型训练方法，包括如下步骤：

构建包含特征提取层和预测器的姿态估计模型，采集包含目标的多个样本图像；

提取每个样本图像中的目标并对目标进行线性插值得到样本子图，在样本子图上以固定间距设置多个锚点后利用特征提取层进行特征提取，得到样本特征；

利用预测器对样本特征进行预测，得到样本子图中每个锚点相对于目标关键点的像素坐标偏移量、深度值和置信度，利用置信度对像素坐标偏移量和深度值进行加权得到样本图像中目标关键点信息；

以样本图像中目标关键点信息的回归损失以及锚点的环绕损失最小为目的训练姿态估计模型，得到训练好的姿态估计模型。

进一步地，在样本子图上以固定间距设置多个锚点的具体实现方式为：

在样本子图的X轴和Y轴两个方向上以固定间距K设置多个锚点，K的取值范围为1个像素～10个像素。

进一步地，获取样本图像中目标关键点信息的具体实现方式为：

利用预测器对样本特征进行预测，得到样本子图中每个锚点相对于目标关键点的像素坐标偏移量O_j(a)、深度值D_j(a)和置信度P_j(a)；

对所有锚点A的置信度P_j(a)进行归一化处理，归一化的函数为：

其中，

为归一化后的置信度，e为常数；

利用归一化后的置信度对像素坐标偏移量和深度值进行加权得到样本图像中目标关键点信息：

所述样本图像中目标关键点信息包括样本图像中目标关键点的像素坐标

和深度值

进一步地，样本图像中目标关键点信息的回归损失为：

其中，

和

分别表示样本图像中目标关键点在相机坐标系下的偏移量标注和世界坐标系下的深度值标注；α表示权衡相机坐标系下和世界坐标系下产生的损失的权重；J表示样本图像中所有目标关键点的集合，j表示样本图像中某个目标关键点，L₁为样本图像中目标关键点信息的回归损失，L_τ1为相机坐标系下的平滑函数，L_τ2为世界坐标系下的平滑函数。

进一步地，α的取值范围是0.1～10。

进一步地，锚点的环绕损失为：

其中，L₂为锚点的环绕损失。

进一步地，姿态估计模型在训练时，使用权重λ来平衡两项损失样本图像中目标关键点信息的回归损失以及锚点的环绕损失，所述训练时的损失函数为：

L＝λL₁+L₂

其中，λ的取值范围为0.5～10。

按照本发明的另一方面，提供了一种基于锚点的姿态估计方法，包括：

对于待估计的包含目标的图像，提取图像中的目标并对目标进行线性插值得到子图，在子图上以固定间距设置多个锚点后利用姿态估计模型估计得到图像中目标关键点的像素坐标；

所述姿态估计模型通过一种基于锚点的姿态估计模型训练方法训练得到。

进一步地，姿态估计方法还包括：

采集待估计的包含目标的图像，获取采集时的相机参数；

利用相机参数将图像中目标关键点的像素坐标投影到世界坐标系下，得到图像中目标关键点的坐标。

按照本发明的另一方面，提供了一种基于锚点的姿态估计系统，其特征在于，包括：

训练模块，用于使用一种基于锚点的姿态估计模型训练方法训练得到姿态估计模型；

估计模块，用于采集待估计的包含目标的图像，获取采集时的相机参数，对于待估计的包含目标的图像，提取图像中的目标并对目标进行线性插值得到子图，在子图上以固定间距设置多个锚点后利用姿态估计模型估计得到图像中目标关键点的像素坐标，利用相机参数将图像中目标关键点的像素坐标投影到世界坐标系下，得到图像中目标关键点的坐标。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明使用密集设置锚点的方式来对关键点进行坐标预测，能够取得比传统方法更为精确的预测结果的同时大幅降低计算量，取得更快的预测速度。同时本发明鲁棒性强，泛化性能好，准确率不受场景的影响。

(2)本发明利用预测器对样本特征进行预测，得到样本子图中每个锚点相对于目标关键点的像素坐标偏移量、深度值和置信度，利用置信度对像素坐标偏移量和深度值进行加权得到样本图像中目标关键点信息；使用的锚点投票机制，采用了集成学习的思想，相较于传统方法，可以取得更好的泛化性能。

(3)本发明提出利用样本图像中目标关键点信息的回归损失以及锚点的环绕损失训练，训练得到的姿态估计模型具有更好的准确性和泛化性。目标关键点信息的回归损失可以很好的控制锚点权重的分布，使得权重较大的锚点均匀的分布在关键点周围区域，达到多角度预测的目的，很好的增强了模型的预测鲁棒性。锚点环绕损失函数，可以使得锚点的权重分布更加均匀，取得更好的预测效果。本发明训练方法是以端到端的形式进行训练，无需额外处理原始标注数据，相较于现有方法，拥有更加简洁的特点。

(4)本发明姿态估计方法可以利用姿态估计模型估计得到图像中目标关键点的像素坐标，也可以得到世界坐标系下图像中目标关键点的坐标。说明本发明可以对目标的3D空间坐标以及2D像素坐标进行预测。

附图说明

图1是本发明实施例提供的一种基于锚点的姿态估计模型训练方法的流程图；

图2是本发明实施例提供的姿态估计方法的具体示意图；

图3是本发明实施例提供的基于锚点对关键点进行投票预测的示意图；

图4是本发明实施例提供的像素偏移量预测分支以及深度值预测分支的模型结构图；

图5是本发明实施例提供的锚点置信度预测分支的模型结构图；

图6(a)是本发明实施例提供的深度图第一种手势姿态下的关键点预测结果图；

图6(b)是本发明实施例提供的深度图第二种手势姿态下的关键点预测结果图；

图6(c)是本发明实施例提供的深度图第三种手势姿态下的关键点预测结果图；

图6(d)是本发明实施例提供的深度图第四种手势姿态下的关键点预测结果图；

图6(e)是本发明实施例提供的深度图第五种手势姿态下的关键点预测结果图；

图6(f)是本发明实施例提供的深度图第六种手势姿态下的关键点预测结果图；

图7(a)是本发明实施例提供的深度图第一种人体姿态下的关键点预测结果图；

图7(b)是本发明实施例提供的深度图第二种人体姿态下的关键点预测结果图；

图7(c)是本发明实施例提供的深度图第三种人体姿态下的关键点预测结果图；

图7(d)是本发明实施例提供的深度图第四种人体姿态下的关键点预测结果图；

图7(e)是本发明实施例提供的深度图第五种人体姿态下的关键点预测结果图；

图7(f)是本发明实施例提供的深度图第六种人体姿态下的关键点预测结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于锚点的姿态估计模型训练方法，包括如下步骤：

如图2所示，当目标为手部时，目标关键点为关节点。本发明中特征提取层为骨干网络，使用在大型图像分类数据上面预训练过的神经网络模型(比如ResNet)作为骨干网络；修改骨干网络的结构，减少原始骨干网络的下采样倍数；通过将原始骨干网络的最后两个卷积层的步距由2修改为1，以达到减小下采样次数、增大特征图尺寸的效果。

本发明中预测器包括像素偏移量预测分支、深度值预测分支和锚点置信度分支。对于最终用于输出锚点预测量的不同分支，进行多个尺度的特征图输出：对于像素偏移量以及深度值两个分支使用更深的回归特征进行预测，对于可靠锚点置信度分支则使用相对较浅的公共特征进行提取。

如图3所示，在样本子图上以固定间距设置多个锚点的具体实现方式为：

在样本子图的X轴和Y轴两个方向上以固定间距K设置多个锚点，K的取值范围为1个像素～10个像素，优选地，K为4个像素。

如图4所示，像素偏移量分支对于每一个锚点a自身位置S(a)相较于每一个关键点j的像素坐标系中的偏移量O_j(a)进行预测。针对分辨率大小为(W/16，H/16)的回归特征图(输入图像大小为(W，H))，使用5个3*3的卷积层将特征维度由256维(图4中“d”表示“维度”)变为(16*K*2)维，其中K表示所有关键点的数量；

深度值预测分支对于每一个锚点a相较于每一个关键点j的深度值D_j(a)进行预测，针对分辨率大小为(W/16，H/16)的回归特征图(输入图像大小为(W，H))，使用5个3*3的卷积层将特征维度由256维(图4中“d”表示“维度”)变为(16*K*1维，其中K表示所有关键点的数量。如果姿态估计任务只是2D的平面关键点坐标位置预测，则可以移除这一分支；

如图5所示，锚点置信度预测分支对于每一个锚点a相较于每一个关键点j的置信度P_j(a)进行预测，其目的在于增加可靠的锚点的权重，针对分辨率大小为(W/16，H/16)的公共特征图(输入图像大小为(W，H))，使用5个3*3的卷积层将特征维度由256维(图4中“d”表示“维度”)变为(16*K*1维，其中K表示所有关键点的数量。

其中，

为归一化后的置信度，e为常数；

和深度值

进一步地，样本图像中目标关键点信息的回归损失为：

其中，

和

进一步地，α的取值范围是0.1～10。

进一步地，锚点的环绕损失为：

其中，L₂为锚点的环绕损失。

L＝λL₁+L₂

其中，λ的取值范围为0.5～10。

一种基于锚点的姿态估计方法，包括：

进一步地，姿态估计方法还包括：

采集待估计的包含目标的图像，获取采集时的相机参数；

图6(a)是本发明实施例提供的深度图第一种手势姿态下的关键点预测结果图，图6(b)是本发明实施例提供的深度图第二种手势姿态下的关键点预测结果图，图6(c)是本发明实施例提供的深度图第三种手势姿态下的关键点预测结果图，图6(d)是本发明实施例提供的深度图第四种手势姿态下的关键点预测结果图，图6(e)是本发明实施例提供的深度图第五种手势姿态下的关键点预测结果图，图6(f)是本发明实施例提供的深度图第六种手势姿态下的关键点预测结果图。可以看出，当目标为手部，使用本发明方法进行估计得到的关键点坐标与原始图像一致，本发明方法预测效果很好。

图7(a)是本发明实施例提供的深度图第一种人体姿态下的关键点预测结果图，图7(b)是本发明实施例提供的深度图第二种人体姿态下的关键点预测结果图，图7(c)是本发明实施例提供的深度图第三种人体姿态下的关键点预测结果图，图7(d)是本发明实施例提供的深度图第四种人体姿态下的关键点预测结果图，图7(e)是本发明实施例提供的深度图第五种人体姿态下的关键点预测结果图，图7(f)是本发明实施例提供的深度图第六种人体姿态下的关键点预测结果图。可以看出，当目标为人体，使用本发明方法进行估计得到的关键点坐标与原始图像一致，本发明方法预测效果很好。

本发明中目标可以是人体躯干、手部、车、椅子等，包含目标的图像可以是深度图或者RGB图，这说明本发明的适用性广泛。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。