CN112149590A

CN112149590A - 一种手部关键点检测方法

Info

Publication number: CN112149590A
Application number: CN202011043087.2A
Authority: CN
Inventors: 卢丽; 黄俊洁; 闫超; 胡二建
Original assignee: Henan Weihu Intelligent Technology Co ltd
Current assignee: Henan Weihu Intelligent Technology Co ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2020-12-29

Abstract

本申请公开了一种手部关键点检测方法，包括以下步骤：S1获取手部的图像，搭建的手部关键点检测网络模型；S2标注S1中手部的图像，生成真实热力图标签；S3处理后的手部图像数据输入到搭建的手部关键点检测网络模型中进行训练，利用损失函数计算预测结果和真实值之间的损失值，然后用优化器进行优化，迭代到损失值收敛；将预测热力图中概率值最大的点作为关键点，绘制检测可视化图；S1中搭建的手部关键点检测网络模型中使用最大值反池化层来提高特征图的分辨率。

Description

一种手部关键点检测方法

技术领域

本发明涉及一种手部关键点检测方法。

背景技术

手部关键点技术主要分为两大类：基于RGB图像的手部关键点检测和三维手部关键点估计。前者在技术发展早期，主要通过颜色滤波器分割出手部以达到检测的目的，但是这类方法依赖肤色，当手部处于复杂的场景中的时候检测效果较差，后期基于RGB图像的手部关键点检测技术随着计算机视觉技术的发展逐渐偏向于基于深度卷积神经网络的方法，通过构建卷积神经网络框架对手部关键点进行检测。后者技术的任务目标是定位到一帧深度图像中手部关键点的三维坐标，多数用于虚拟沉浸式游戏、交互机器人等等，主要分为两种方法：一种是基于模型的方法，该方法是将深度图像和预先定义的三维手部模型进行匹配；另外一种是以数据为驱动的方法，这类方法是用合适的机器学习模型直接从训练数据中学习手部姿态，其中基于深度学习的技术是最为典型的数据驱动方法。然而，三维手部关键点估计技术需要使用深度相机采集深度图像作为数据，也因此存在获取数据麻烦、设备昂贵的缺点，应用场景上存在局限性，相反，基于RGB图像的手部关键点检测方法数据采集简洁，有着更加广泛的应用前景。

目前，使用RGB图像作为数据的基于深度学习的手部关键点检测方法会因手部的姿态、尺度多变而出现大量误检，与此同时，也因为网络模型用于关键点检测的热力图是多次下采样之后得到的，分辨率不够高，缺失部分位置细节信息，导致关键点定位不准，存在偏差。因此，急需提出一种提升检测精度、减弱模型尺度敏感性的神经网络构建方法，获取更高分辨率的关键点预测热力图，提升定位精度，并且让特征学习到更多尺度的信息，增强模型的尺度不变性。

发明内容

针对上述问题，本发明的目的在于提供一种手部关键点检测方法，包括以下步骤：

S1获取手部的图像，搭建的手部关键点检测网络模型；

S2标注S1中手部的图像，生成真实热力图标签；

S3处理后的手部图像数据输入到搭建的手部关键点检测网络模型中进行训练，利用损失函数计算预测结果和真实值之间的损失值，然后用优化器进行优化，迭代到损失值收敛；将预测热力图中概率值最大的点作为关键点，绘制检测可视化图；

S1中搭建的手部关键点检测网络模型中使用最大值反池化层来提高特征图的分辨率。

进一步，S2标注S1中手部的图像，生成真实热力图标签包括将手部图像按比例分成训练集和测试集，并根据样本的关键点标注信息，利用二维高斯核生成真实热力图标签。

进一步，S2中利用二维高斯核生成真实热力图标签，其中二维高斯核公式如下：

其中，(x，y)为关键点的位置坐标，σ参数为标准差。

进一步，所述S1中搭建的手部关键点检测网络模型，包括：从前至后将卷积层、批归一化层、修正线性单元按设计的残差结构封装成瓶颈卷积模块；从前至后将卷积层、批归一化层、修正线性单元层按一定规则堆叠构成基础卷积模块；从前至后将基础卷积模块、卷积层、批归一化层、上采样层、修正线性单元层预先设计的结构依次堆叠构成高分辨率特征金字塔；从前至后将卷积层、批归一化层、修正线性单元层、瓶颈卷积模块、高分辨率特征金字塔、特征拼接层预先设定的组合方式依次搭建，完成网络模型的主干网络部分。

进一步，S3中利用损失函数计算预测结果和真实值之间的损失值，具体是利用L1损失函数计算预测结果和真实值之间的损失值，L1损失函数计算公式如下：

其中，y为真实热力图上某点是关键点的概率值，

为预测热力图中某点是关键点的概率值，i是用来表示热力图上点的索引。

进一步，所述的优化器采用自适应矩估计优化器，设置初始化学习率为 0.001。

进一步，所述的高分辨率特征金字塔的输入为下采样4倍大小为128、通道数为32的特征块，输出为大小为256、通道数为64的特征块，其结构中利用步长为2的卷积层减低特征分辨率。

进一步，所述的上采样层采用最大值反池化层，其中池化核设为 [1，2，2，1]，池化步长设为[1，2，2，1]。

进一步，所述的主干网络采用的卷积层卷积核大小都为3×3。

进一步，S3中搭建的手部关键点检测网络模型中进行训练，设定相关超参数，所述的相关超参数将批处理大小设为256，最后由卷积层输出21张热力图，批归一化层的动量参数设为0.95，总迭代次数设为100000。

与现有技术相比，本发明具有以下有益效果:

(1)本发明提出了使用最大值反池化层来提高特征图的分辨率的方法。其具体做法是根据池化核大小和步长保留原本的特征信息，其他特征点填补0，达到放大特征图的目的。该方法能在只增加少许计算量的情况下，增大特征图的分辨率，解决因分辨率不够造成关键点定位出错的问题。

(2)本发明提出了在手部关键点检测领域使用高分辨率特征金字塔，从网络结构中较高分辨率的特征图开始，将不同分辨率、不同尺度的特征图进行互补融合，提高特征信息的尺度不变性，并在网络训练的整个过程中都保持高分辨率的特征图，使得手部关键点的预测热力图定位更加精准，更加贴近应用场景。

附图说明

为了更清楚地说明本发明实施的算法方案，下面将对实施中所需使用的附图作简单介绍，应当理解，以下附图仅展示了本发明的某些实施例，因此不应被看作是对保护范围的限定，对于本领域算法人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例中整体网络结构示意图。

图2为本申请实施例中瓶颈卷积模块示意图。

图3为本申请实施例中基础卷积模块示意图。

图4为本申请实施例中高分辨率特征金字塔结构示意图。

图5为本申请实施例中检测效果示意图。

具体实施方式

一种手部关键点检测方法，包括以下步骤：

S1获取手部的图像，搭建的手部关键点检测网络模型；

S2标注S1中手部的图像，生成真实热力图标签；

S1中搭建的手部关键点检测网络模型中使用最大值反池化层来提高特征图的分辨率。使用最大值反池化层来提高特征图的分辨率的方法。其具体做法是根据池化核大小和步长保留原本的特征信息，其他特征点填补0，达到放大特征图的目的。该方法能在只增加少许计算量的情况下，增大特征图的分辨率，解决因分辨率不够造成关键点定位出错的问题。

具体的，S2标注S1中手部的图像，生成真实热力图标签包括将手部图像按比例分成训练集和测试集，并根据样本的关键点标注信息，利用二维高斯核生成真实热力图标签。

具体的，S2中利用二维高斯核生成真实热力图标签，其中二维高斯核公式如下：

公式中(x，y)为关键点的位置坐标，σ参数为标准差，是通过关键点与其他点之间分布关系计算出的值，也可以直接预先设定。生成21张分辨率为 128x128的热力图，组成128x128x21大小的真实热力图张量，其中真实热力图的分辨率需与网络模型输入的预测热力图分辨保持一致。每张真实热力图上每个点的取值范围是0-1，只有关键点位置的取值为1。

具体的，所述S1中搭建的手部关键点检测网络模型，包括：从前至后将卷积层、批归一化层、修正线性单元按设计的残差结构封装成瓶颈卷积模块；从前至后将卷积层、批归一化层、修正线性单元层按一定规则堆叠构成基础卷积模块；从前至后将基础卷积模块、卷积层、批归一化层、上采样层、修正线性单元层预先设计的结构依次堆叠构成高分辨率特征金字塔；从前至后将卷积层、批归一化层、修正线性单元层、瓶颈卷积模块、高分辨率特征金字塔、特征拼接层预先设定的组合方式依次搭建，完成网络模型的主干网络部分。高分辨率特征金字塔与传统的特征金字塔不同，传统金字塔大多数都是从比较小的特征分辨率开始构建的，如特征金字塔网络算法(Feature Pyramid Network，FPN)是从输入样本的分辨率的特征图开始通过自底向上、自顶向下以及横向连接方向进行特征信息融合，算法中利用上采样操作逐步将特征的分辨率恢复到，这种做法只能粗糙的保留细节信息，不能满足手部关键点检测任务。而本发明中构建的高分辨率特征金字塔从输入样本的分辨率的特征图开始，这是主干网络中最高分辨率的特征图，而且在特征金字塔中一直保持高分辨率，这样大程度的保存了特征图的位置细节信息，并且在高分辨率特征金字塔最后添加上采样操作进一步扩大特征图的分辨率，解决因分辨率不够造成关键点定位出错的问题。其次，大多数特征金字塔采用反卷积层对特征图进行上采样，而本发明中使用最大值反池化层进行上采样，能在只增加少许计算量的情况下，增大特征图的分辨率。在手部关键点检测领域使用高分辨率特征金字塔，从网络结构中较高分辨率的特征图开始，将不同分辨率、不同尺度的特征图进行互补融合，提高特征信息的尺度不变性，并在网络训练的整个过程中都保持高分辨率的特征图，使得手部关键点的预测热力图定位更加精准，更加贴近应用场景。

具体的，所述的优化器采用自适应矩估计优化器，设置初始化学习率为0.001。

具体的，所述的高分辨率特征金字塔的输入为下采样4倍大小为128、通道数为32的特征块，输出为大小为256、通道数为64的特征块，其结构中利用步长为2的卷积层减低特征分辨率。

具体的，所述的上采样层采用最大值反池化层，其中池化核设为 [1，2，2，1]，池化步长设为[1，2，2，1]。

具体的，所述的主干网络采用的卷积层卷积核大小都为3×3。

具体的，S3中搭建的手部关键点检测网络模型中进行训练，设定相关超参数，所述的相关超参数将批处理大小设为256，最后由卷积层输出21张热力图，批归一化层的动量参数设为0.95，总迭代次数设为100000。

目前，利用RGB图像作为数据的基于深度学习的手部关键点检测技术还存在许多挑战，一个是实际场景中目标有尺度多变的问题，大多数检测方法会牺牲部分大目标的精度来提高小目标的精度，另外一个问题是用于关键点检测的热力图的分辨率还是不够高。为了克服这些缺点，如图1至图5所示，本实施例通过搭建基于高分辨率特征金字塔的手部关键点检测网络模型，从

比例的分辨率特征开始融合生成更高分辨率的热力图，提高对小尺度手部的检测精度，增强模型的尺度不变性。

图2为搭建封装的瓶颈卷积模块，主要由卷积层、批归一化层、修正线性单元层组成。图3为高分辨率特征金字塔使用基础卷积模块，结构上与瓶颈卷积模块相似。其作用是通过增加扩展系数，调整卷积层的通道数，从而控制特征块的宽度，达到平衡模型计算量和精确度的目的。瓶颈卷积模块分为两个分支，一个分支主要是先使用卷积核大小为1×1的卷积层对输入的高维度特征进行升维，再用卷积核大小为3×3的卷积层提高特征块的语义信息，然后利用带有扩展系数的卷积层增大特征块宽度，另外一个分支使用卷积层和批归一化层将输入特征块升维，最后将两个分支处理得到的特征块相加，增加特征的表达能力，减弱进行卷积操作时信息丢失的程度。基础卷积模块通过设定扩展系数等于1，变为普通的残差模块，能在增加网络模型深度的前提下防止网络退化。

图4为本实施例构建的高分辨率特征金字塔。大多数传统的特征金字塔算法的输入特征的分辨率都比较小，而高分辨率特征金字塔输入的特征分辨率是从原图的

分辨率开始的，是主干网络中最高分辨率的特征，结构中采用最大值反池化层进行上采样，比使用反卷积的网络，一定程度上减少了模型计算量和参数量。其结构中利用步长为2的卷积层减低特征分辨率，提高特征块的语义信息表达能力。因此，低分辨率特征块具有丰富语义信息，高分辨率特征块保留空间细节信息，通过将低分辨率特征块上采样与高分辨率特征块相加融合，实现特征信息互补，达到多分辨率特征融合的目的。

图1为本实施例搭建的完整网络结构，从前至后将卷积层、批归一化层、修正线性单元按设计的残差结构封装成瓶颈卷积模块；从前至后将卷积层、批归一化层、修正线性单元层按一定规则堆叠构成基础卷积模块；从前至后将基础卷积模块、卷积层、批归一化层、上采样层、修正线性单元层预先设计的结构依次堆叠构成高分辨率特征金字塔；从前至后将卷积层、批归一化层、修正线性单元层、瓶颈卷积模块、高分辨率特征金字塔、特征拼接层预先设定的组合方式依次搭建，完成网络模型的主干网络部分。具体的，S3中利用损失函数计算预测结果和真实值之间的损失值，利用L1损失函数计算预测结果和真实值之间的损失值，然后用优化器进行优化，重复计算，直到损失值收敛。L1损失函数计算公式如下：

该公式用于预测热力图和真实热力图之间的损失值计算，y为真实热力图上某点是关键点的概率值，

为预测热力图中某点是关键点的概率值， i是用来表示热力图上点的索引。网络模型预测会输出21张热力图，用于预测手部上21个关键点。

将高分辨率特征金字塔引入网络模型中，提高了因离摄像头较远造成尺度较小的手部的检测，并且没有牺牲大尺度目标的精度，增强了尺度不变性。根据本发明提出的实施步骤在少量标注的公开手部关键点数据集上训练模型，并对实际场景中采集的手部图像进行测试。图5为部分测试效果图，由实验结果可得，利用本发明提出的手部关键点检测方法大大提高了关键点的定位精度，而且让特征学习到更多多尺度的信息，增强了小尺度目标的检测，提高模型的尺度不变性。

上述实施例仅为本发明的优选实施例，并非对本发明保护范围的限制，但凡采用本发明的设计原理，以及在此基础上进行非创造性劳动而作出的变化，均应属于本发明的保护范围之内。

Claims

1.一种手部关键点检测方法，其特征在于，包括以下步骤：

S1获取手部的图像，搭建的手部关键点检测网络模型；

S2标注S1中手部的图像，生成真实热力图标签；

2.根据权利要求1所述的一种手部关键点检测方法，其特征在于，S2标注S1中手部的图像，生成真实热力图标签包括将手部图像按比例分成训练集和测试集，并根据样本的关键点标注信息，利用二维高斯核生成真实热力图标签。

3.根据权利要求2所述的一种手部关键点检测方法，其特征在于，

S2中利用二维高斯核生成真实热力图标签，其中二维高斯核公式如下：

其中，(x，y)为关键点的位置坐标，σ参数为标准差。

4.根据权利要求1所述的一种手部关键点检测方法，其特征在于，所述S1中搭建的手部关键点检测网络模型，包括：从前至后将卷积层、批归一化层、修正线性单元按设计的残差结构封装成瓶颈卷积模块；从前至后将卷积层、批归一化层、修正线性单元层按一定规则堆叠构成基础卷积模块；从前至后将基础卷积模块、卷积层、批归一化层、上采样层、修正线性单元层预先设计的结构依次堆叠构成高分辨率特征金字塔；从前至后将卷积层、批归一化层、修正线性单元层、瓶颈卷积模块、高分辨率特征金字塔、特征拼接层预先设定的组合方式依次搭建，完成网络模型的主干网络部分。

5.根据权利要求1所述的一种手部关键点检测方法，其特征在于，

S3中利用损失函数计算预测结果和真实值之间的损失值，具体是利用L1损失函数计算预测结果和真实值之间的损失值，L1损失函数计算公式如下：

其中，y为真实热力图上某点是关键点的概率值，

6.根据权利要求1所述的一种手部关键点检测方法，其特征在于，

所述的优化器采用自适应矩估计优化器，设置初始化学习率为0.001。

7.根据权利要求4所述的一种手部关键点检测方法，其特征在于，

所述的高分辨率特征金字塔的输入为下采样4倍大小为128、通道数为32的特征块，输出为大小为256、通道数为64的特征块，其结构中利用步长为2的卷积层减低特征分辨率。

8.根据权利要求1所述的一种手部关键点检测方法，其特征在于，

所述的上采样层采用最大值反池化层，其中池化核设为[1，2，2，1]，池化步长设为[1，2，2，1]。

9.根据权利要求4所述的一种手部关键点检测方法，其特征在于，

所述的主干网络采用的卷积层卷积核大小都为3×3。

10.根据权利要求1所述的一种手部关键点检测方法，其特征在于，S3中搭建的手部关键点检测网络模型中进行训练，设定相关超参数，所述的相关超参数将批处理大小设为256，最后由卷积层输出21张热力图，批归一化层的动量参数设为0.95，总迭代次数设为100000。