CN111027407B

CN111027407B - 针对遮挡情况的彩色图像手部姿态估计方法

Info

Publication number: CN111027407B
Application number: CN201911132726.XA
Authority: CN
Inventors: 王雁刚; 张宝文
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2023-04-07
Anticipated expiration: 2039-11-19
Also published as: CN111027407A

Abstract

本发明公开了一种针对遮挡情况的彩色图像手部姿态估计方法，包括：使用参数化模型生成手部姿；生成每个关键点对应的热图，并随机选取部分热图置零；将关键点热图输入关键点编码器中，得到卷积特征图并输入到关键点解码器，对关键点解码器输出监督；将数据集中的彩色图像输入图像编码器，并仅对可见关键点的位置进行标注和生成热图，不可见关键点的热图置零输入关键点编码器；使用关键点编码器的输出监督图像编码器的输出，将待测的彩色图像输入图像编码器，输出得到卷积特征图并输入到关键点解码器中，得到图像中手部关键点热图，使用NMS算法得到手部关键点位置。本发明可同时预测可见关键点与被遮挡关键点，可应用于需要检测手部关键位置的场合。

Description

针对遮挡情况的彩色图像手部姿态估计方法

技术领域

本发明涉及针对遮挡情况的彩色图像手部姿态估计方法，属于计算机视觉的技术领域。

背景技术

实时手部姿态估计估计是关节检测领域中的重要问题，它也是很多实际应用中的重要步骤，例如人机交互、虚拟现实、增强现实等。随着近些年来深度神经网络的发展，越来越多的研究者试图从彩色图像中估计手部姿态。即使这样，由于图像表现内容的歧义、手部自遮挡以及手部运动的灵活性，手部姿态估计问题仍然存在很多挑战。

到目前为止，手部姿态估计已经取得了很多的研究成果。由于被遮挡的关键点在数据集中难以标注，标注被遮挡手部关键点的数据集十分有限。对于部分手部关键点遮挡的情况，神经网络很难对遮挡的关键点位置进行预测。

发明内容

本发明所要解决的技术问题在于，在训练数据集仅标注可见关键点的情况下，训练出可以同时检测被遮挡和未遮挡手部关键点的神经网络，提供一种针对遮挡情况的彩色图像手部姿态估计方法。

本发明具体采用以下技术方案解决上述技术问题：

针对遮挡情况的彩色图像手部姿态估计方法，包括以下步骤：

步骤1、使用参数化模型生成手部姿态，以得到用于训练的二维手部关键点位置；

步骤2、根据二维手部关键点位置生成每个关键点对应的热图，并随机选取部分关键点对应的热图置零；

步骤3、将包含置零热图的所有关键点热图输入关键点编码器中，得到卷积特征图；

步骤4、将关键点编码器输出的卷积特征图输入到关键点解码器中，以使用关键点对应的热图对关键点解码器输出进行监督，迭代更新关键点编码器与关键点解码器的神经网络参数；

步骤5、将数据集中的彩色图像输入图像编码器，并仅对可见关键点的位置进行标注；

步骤6、将彩色图像标注的可见关键点标注生成热图，将彩色图像中不可见关键点的热图置零，一并输入关键点编码器，输出得到对应的高维空间特征图；

步骤7、使用关键点编码器输出的高维空间特征图监督图像编码器的输出，在图像编码器的输出与关键点编码器的输出之间计算损失，迭代更新图像编码器的神经网络参数；

步骤8、将待测的彩色图像输入步骤7经监督后的图像编码器，输出得到待测的彩色图像的卷积特征图；

步骤9、将待测的彩色图像的卷积特征图输入到关键点解码器中，解码得到待测的彩色图像中手部关键点的热图；

步骤10、对待测的彩色图像中手部关键点的热图使用非极大值抑制NMS算法，得到手部关键点位置。

进一步地，作为本发明的一种优选技术方案：所述步骤1中参数化模型使用MANO模型，通过在一定范围内随机对其形状参数与姿态参数赋值，从而随机生成手部姿态。

进一步地，作为本发明的一种优选技术方案：所述步骤7中使用L2损失作为计算损失函数，通过链式法则计算出神经网络中训练参数对于损失的梯度，并根据梯度对神经网络参数进行更新。

本发明采用上述技术方案，能产生如下技术效果：

本发明的针对遮挡情况的彩色图像手部姿态估计方法，本发明从彩色图像中预测手部二维关键点位置，可同时预测可见关键点与被遮挡关键点，可应用于需要检测手部关键的位置的场合；本发明设计网络结构为三部分：关键点编码器，关键点解码器，图像编码器。在训练网络时，将关键点编码器与关键点解码器连接，共同训练。并用关键点编码器输出的特征图监督图像编码器输出的特征图，从而训练图像编码器。在测试时将图像编码器的输出作为关键点解码器的输入，实现从待测的彩色图像预测关键点。测试时神经网络实现可见关键点与不可见关键点同时预测且不增加额外开销。

此外，对不可见关键点进行标注难度较大，本发明训练网络时使用的数据集不需要对不可见关键点进行标注，降低了对数据集的要求；本发明的使用环境不需要限制在实验室内，室外环境也可以直接使用。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明实施例一的神经网络训练流程图。

图2是本发明实施例一的神经网络测试流程图。

图3是本发明实施例一的神经网络结构示意图。

图4是本发明实施例一中手部关键点编号的示意图。

图5是本发明实施例一中训练所用数据集的示意图。

图6是本发明实施例一采集的手部图像示意图。

图7是本发明实施例一手部关键点检测效果的示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1所示，为本发明实施例的神经网络训练流程图，图2为本发明实施例的神经网络测试流程图。图3为本发明实施例中神经网络的结构示意图。下面将详细解释流程图中的每个步骤。

本发明提出的一种针对遮挡情况的彩色图像手部姿态估计方法，基于的网络训练时整体结构如图3所示，包括的具体步骤如图1和2所示，具体如下：

步骤1、使用参数化模型生成手部姿态，以得到用于训练的二维手部关键点位置。

该步骤1中参数化模型使用了MANO模型，通过在一定范围内随机对其形状参数与姿态参数赋值，从而随机生成手部姿态。确定了参数后可以从MANO模型中读出手部关键点的三维空间位置，按照透视投影将关键点位置投影在二维图像中，并对二维图像上的关键点位置进行随机的平移和缩放，即得到用于训练的二维关键点位置。需要说明的是，此步骤并不局限于使用MANO模型，任何能够生成三维手部姿态并获取三维关键点位置方法，都可以被采用。

步骤2、根据二维手部关键点位置生成每个关键点对应的热图，并随机选取部分关键点对应的热图置零；热图置零后，对应的关键点位置对于神经网络来说是不可见的，也就相当于认为遮挡了关键点。

在关键点检测问题中，常用热图表示输入图像中关键点位置。此步骤通过根据每个关键点的位置生成对应的热图。本实施例中，手部存在21个关键点，如图4所示，因此热图的数量为21张。为了模仿真实数据中部分关键点不可见的情况，此步骤随机将部分关键点对应的热图像素值置为0。

步骤3、将包含置零热图的所有关键点热图输入关键点编码器中，得到卷积特征图。

该步骤中，关键点编码器对热图进行特征提取，得到卷积特征图。该卷积特征图可看作关键点编码器与关键点解码器组成的神经网络之中的隐变量，不对其进行监督。卷积特征图的尺度被设计为512×4×4。在本发明中，关键点编码器，图像编码器与关键点解码器均大量使用残差模块，该模块有利于增加神经网络的深度，提高网络检测的精度。

步骤4、将关键点编码器输出的卷积特征图输入到关键点解码器中，以使用关键点对应的热图对关键点解码器输出进行监督，迭代更新关键点编码器与关键点解码器的神经网络参数。

该步骤中，从关键点编码器输出的卷积特征图被送入关键点解码器中。使用关键点对应的热图对解码器的输出进行监督，所有用于监督的关键点热图均未被置零。使用L2损失作为损失函数。计算损失函数后，会对关键点编码器与关键点解码器的参数进行更新，从而使得关键点编码器与关键点解码器组成的网络可以将被置零的热图复原，该网络具有预测被遮挡关键点的能力。

本发明的步骤1到步骤4可看作对关键点编码器与关键点解码器组成的神经网络进行训练，网络的输入输出均为关键点热图。输入时，因部分关键点被遮挡所以对应热图置零，输出为预测的全部关键点热图，因此用于监督神经网络的热图无需置零。

步骤5、将数据集中的彩色图像输入图像编码器，并仅对可见关键点的位置进行标注。

为了得到检测彩色图像中手部关键点的网络，还需要训练图像编码器，编码器的输入为数据集中的彩色图像，如图5所示，每一张彩色图像都对应一组二维关键点位置。并仅对可见关键点的位置进行了标注。

步骤6、将彩色图像标注的可见关键点标注生成热图，将彩色图像中不可见关键点的热图置零，一并输入关键点编码器，输出得到对应的高维空间特征图。

步骤7、使用关键点编码器的输出的高维空间特征图监督图像编码器的输出，在图像编码器的输出与关键点编码器的输出之间计算损失，迭代更新图像编码器的神经网络参数；

本实施例中优选使用L2损失作为损失函数，通过链式法则计算出神经网络中训练参数对于损失的梯度，根据梯度对神经网络参数进行更新。

此步骤中，仅对图像编码器的参数进行更新，从而使图像编码器输出的卷积特征图与关键点编码器输出的高维空间特征图尽可能接近，实现特征图的共享。

步骤8、获取待测的彩色图像，如图6所示，将待测的彩色图像输入步骤7经监督后的图像编码器，输出得到待测的彩色图像的卷积特征图。

步骤9、将待测的彩色图像的卷积特征图输入到关键点解码器中，解码得到待测的彩色图像中手部关键点的热图。

若关键点编码器输出的卷积特征图输入至关键点解码器中，关键点解码器可以还原未遮挡的关键点并对遮挡的关键点进行预测。在训练阶段，图像编码器的输出特征图被关键点编码器的输出特征图监督，使二者的输出特征图尽可能一致，因此关键点解码器可以对图像编码器输出的特征图进行解码，从而得到待测的彩色图像中手部关键点的热图。

步骤10、对关键点解码器输出的待测的彩色图像中手部关键点的热图，使用非极大值抑制NMS算法即可得到手部关键点位置，获得的手部关键点检测结果如图7所示。

综上，本发明的方法，训练网络时使用的数据集不需要对不可见关键点进行标注，降低了对数据集的要求；在测试时将图像编码器的输出作为关键点解码器的输入，实现从彩色图像预测关键点。测试时神经网络实现可见关键点与不可见关键点同时预测且不增加额外开销；从彩色图像中预测手部二维关键点位置，可同时预测可见关键点与被遮挡关键点，可应用于需要检测手部关键的位置的场合。

本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.针对遮挡情况的彩色图像手部姿态估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述针对遮挡情况的彩色图像手部姿态估计方法，其特征在于：所述步骤1中参数化模型使用MANO模型，通过在一定范围内随机对其形状参数与姿态参数赋值，从而随机生成手部姿态。

3.根据权利要求1所述针对遮挡情况的彩色图像手部姿态估计方法，其特征在于：所述步骤7中使用L2损失作为计算损失函数，通过链式法则计算出神经网络中训练参数对于损失的梯度，并根据梯度对神经网络参数进行更新。