CN109299685A

CN109299685A - 用于人体关节3d坐标估计的推断网络及其方法

Info

Publication number: CN109299685A
Application number: CN201811071839.9A
Authority: CN
Inventors: 李帅; 孟文明; 于洋; 付延生
Original assignee: Qingdao Research Institute Of Beihang University
Current assignee: Qingdao Research Institute Of Beihang University
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2019-02-01

Abstract

本发明所述用于人体关节3D坐标估计的推断网络及其方法，将3D坐标估计作为离散化的3D空间姿态推断的关键点定位问题，并不直接回归关节3D坐标(x，y，z)而是训练CNN来预测该体积中每个关节的每个体素的可能性，从而形成一个3D的热力图，以期提高对于人体姿态估计的3D坐标数据准确性、降低直接回归关节点任务的非线性程度、提高学习效果。所述的推断网络是一种具有以n(n≥2)阶沙漏网络(Hourglass)为中心、m级(m≥2)级联的模型结构。

Description

用于人体关节3D坐标估计的推断网络及其方法

技术领域

本发明涉及一种用于人体关节3D坐标估计的推断网络及其方法，属于虚拟现实技术领域。

背景技术

人体的3D姿态估计，是将人体的若干个关节(例如头部，肩部，肘部等)的3D位置精确地估算出来。由于失去了深度信息，从RGB的视频流中估计人体的3D关节点的位置是计算机视觉领域的一个很大挑战。

随着卷积神经网络(Convolutional Neural Networks，以下简称CNN)技术的发展，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

目前越来越多的计算机视觉方面的任务使用CNN来解决，现阶段基于深度学习的从RGB视频流中进行人体3D姿态估计的方法分为2个阶段：第一阶段，使用目标检测的深度学习框架从每一个帧的RGB图像中进行人体的目标检测，得到人体的边界框。之后将一个包含待估计的人体的图像剪切出来；第二阶段，将一个包含待检测人体的图像送入该阶段的网络中进行人体3D关节点的推断，最终得到人体中指定关节点的3D坐标。上述第二阶段的人体3D姿态估计的部分，主流的方法采用两步进行解决。即，首先，使用一个2D姿态估计的网络对输入图像进行人体2D姿态(不包含深度坐标)的推断；之后，根据2D姿态估计的结果进行3D姿态的推断，比如使用最邻近的方法在数据库中找到和2D姿态估计最为接近的3D姿态最为最后的预测结果等方法。

上述现有技术存在的缺陷是，在3D姿态估计阶段采用两段式的设计。在进行2D姿态估计的时候，网络不直接回归关节点的2D坐标，而是对于每一个关节点回归一个w*h的热力图来表示该关节点的2维平面的分布概率。如后附图1所示，正方形为输入的图像，使用沙漏形状的结构表示神经网络，长条方块部分表示的就是人体关节点的2D的热力图。从2D的关节点热力图可以直接得到关节点的坐标，即小圆形表示的结果。大圆形部分指的是人体的3D的关节点坐标。此类“非端到端”的设计会带来两个弊端：一是，会出现误差的累积。将一个任务拆分为两个阶段进行，每个阶段产生的误差会累积，在最终的结果表现上会造成更大的误差。二是，这种解决方案中，3D姿态估计的表现完全取决于2D的结果，这会使得丢失一部分信息。因为在进行2D姿态估计的时候，产生出来的中间结果也是十分有用的，这些中间的特征图在进行3D结果推断的时候可以起到辅助的作用。而现有技术使用的方法没有充分利用中间特征，造成最终的3D推断结果出现较大的误差。

有鉴于此，特提出本专利申请。

发明内容

本发明所述用于人体关节3D坐标估计的推断网络及其方法，其目的在于解决上述现有技术存在的问题而将3D坐标估计作为离散化的3D空间姿态推断的关键点定位问题，并不直接回归关节3D坐标(x，y，z)而是训练CNN来预测该体积中每个关节的每个体素的可能性，从而形成一个3D的热力图，以期提高对于人体姿态估计的3D坐标数据准确性、降低直接回归关节点任务的非线性程度、提高学习效果。

为实现上述发明目的，所述用于人体关节3D坐标估计的推断网络，是一种具有以n(n≥2)阶沙漏网络(Hourglass)为中心、m级(m≥2)级联的模型结构。

其中，一级推断网络，包括依次串联的卷积层、初级模块(Residual)、1/2池化层、3个连续的初级模块(Residual)、n阶沙漏网络(Hourglass)、2个连续的线性模块(linear)、卷积层；

所述m级推断网络是在(m-1)级推断网络的基础上并联一层跳级路，该跳级路依次串联有n阶沙漏网络(Hourglass)、2个连续的线性模块(linear)、卷积层；

在m级推断网络的跳级路中，n阶沙漏网络(Hourglass)的输入数据包括经串接和相加融合后的以下3组数据，即(m-1)级推断网络中n阶沙漏网络(Hourglass)的输入数据和输出数据、以及(m-1)级推断网络的输出数据。

基于上述推断网络的结构，本申请将多个网络组件堆叠在一起而不受维度问题的影响。在n阶沙漏网络(Hourglass)中，相邻两个阶段的推断过程，后一个阶段的输入不仅有上一个阶段的结果，还包含了上一个阶段的中间特征结果，这就使得网络推断的依据较为丰富，推断的结果更加全面，直接提升了最终的推断精度。

基于上述“端到端”结构的深度神经网络，其可去除误差的累积效应，同时通过此类体素表示方法可使用完全卷积的神经网络架构进行推断。与使用全连接层进行坐标回归或者姿态分类的推断结构相比较，上述全卷积的推断网络，使得网络的参数更少、计算量更小，效率更高，更重要的是预测的精度更好。

针对沙漏网络(Hourglass)的进一步优化与补充方案是，一阶沙漏网络(Hourglass)包括以下并联的结构：

上半路具有M输入通道和N输出通道的若干个初级模块；

下半路具有串联的降采样1/2池化层、若干个初级模块、升采样最近邻插值模块；

n(n≥2)阶沙漏网络具有以下结构：

将(n-1)阶沙漏网络下半路的任一初级模块替换为(n-1)阶沙漏网络，其他的上、下半路结构与(n-1)阶沙漏网络相同。

具体地，上半路将M个通道的数据提取得到N通道的数据。在串联的若干个初级模块中，两个相邻的初级模块，后一个初级模块的输入通道数总是等于前一个初级模块的输出通道数。

下半路同样将M个通道的数据提取得到N通道的数据，不同的是在原本输入一半的尺寸上进行的，即串联有降采样1/2池化层、初级模块和升采样最近邻插值模块。

在n阶沙漏网络中，是将(n-1)阶沙漏网络(Hourglass)下半路中的初级模块替换为(n-1)阶沙漏网络，通过将该初级模块替换为一个新的沙漏网络，将n-1阶沙漏网络扩增为n阶沙漏网络。

针对所应用的核心与基础内容的初级模块(Residual)，有如下优选方案：

所述的初级模块(Residual)，具有M通道输入和N通道输出。其包括有以下并联的结构：

第一行为卷积路，由三个核尺度不同的卷积层串联构成；

第二行为跳级路，包含一个核尺度为1、输入与输出通道数相同的卷积层。

基于相同的设计构思，在应用上述用于人体关节3D坐标估计的推断网络的基础上，本申请还同时实现了一种新的用于人体关节3D坐标估计的推断方法。

具体地，包括以下实施步骤：

(1)将视频流的每一帧图像送入YOLO目标检测网络中，进行人体的边界框检测，并在原图像中将人体所在的边界框剪切出来；

(2)将在上一步得到的边界框图像送入所述的推断网络中，输入为H*W*3的图像，进行人体关节3D坐标态估计，得到推断结果输出为h*w*K的热力图。

上述YOLO(You Only Look Once，以下简称YOLO)目标检测，是一个可以一次性预测多个Box位置和类别的卷积神经网络，其能够实现端到端的、实时的目标检测和识别。

优选地，采用的YOLO目标检测网络版本为2.0。

综上内容，用于人体关节3D坐标估计的推断网络及其方法具有以下优点：

1、有效地降低了从“特征空间”到“3D姿态空间”学习任务的非线性程度，实现了一种科学的表示方法与学习方法。

2、实现了一种进行人体3D姿态估计的“端到端”的深度学习网络，进行人体关节点3D推断过程中避免了累积误差的产生。

3、实现最大化地利用神经网络的中间特征，将不同尺度、维度的特征结合起来，产生出最佳的推断效果。

4、直接减小了计算量，使得最终的推断效果达到实时性的要求，实用性较强。

附图说明

图1是现有技术中两段式推断方法示意图；

图2是本申请所述体积表示方式生成热力图的示意；

图3是本申请所述由粗到细预测方案的示意图；

图4是所述初级模块(Residual)的结构示意图；

图5是一阶沙漏网络(Hourglass)的结构示意图；

图6是二阶沙漏网络(Hourglass)的结构示意图；

图7是一级推断网络的结构示意图；

图8是二级推断网络的结构示意图；

具体实施方式

下面结合附图和实施示例对本发明作进一步详细地描述。

如图1所示，现有技术在3D姿态估计过程中采用两段式设计，即先估计人体的2D坐标，之后在采用其他方法完成2D关节点到3D的推断。

在进行2D姿态估计的时候，网络不直接回归关节点的2D坐标，而是对于每一个关节点回归一个w*h的热力图来表示该关节点的2维平面的分布概率。

这种非端到端的现有技术既会出现误差的累积，又未充分地利用中间特征而造成最终的3D推断结果出现较大的误差。

实施例1，如图2所示，为充分利用CNN在3D人体姿势估计的价值，本申请将3D姿态估计作为离散化3D空间中的关键点定位问题。

在人体2D姿态估计当中，对于神经网络的输出结构进行迭代处理，在多个处理阶段产生预测。这些中间的预测结果，会逐渐完善以产生更加准确的估计结果。

“沙漏网络”就是这种设计结构，其采用级联的方案多次预测结果，逐步修正结果。

在本申请的3D姿态估计中，设计出一种由“粗”到“精”的预测方案。

假如对于具有16个关节点的64×64×64的最高3D分辨率，需要估计多于400万个体素的可能性。为了解决分辨率较大的问题，本申请所采用的预测方案，是在网络预测的早期预测一个较为低分辨率的z维度结果作为网络的输出。准确地说，即可使用每个关节点尺寸为64×64×d的目标，其中d通常取集合{1，2，4，8，16，32，64}中的值。

具体地，如图3所示，将多个网络组件堆叠在一起而不受维度问题的影响。

直观上来说，在网络的早期阶段是一个较为简单的预测任务。在之后，网络的复杂性会逐步增加。这会推迟较为困难的决策，直到最后的处理阶段，所有的可用信息都经过处理和整理，这样进行最后的决策精度是非常有用的。

在’沙漏网络’网络中相邻的两个阶段的推断过程中，后一个阶段的输入不仅有上一个阶段的结果，还包含了上一个阶段的中间特征结果，这就使得网络的推断的依据较为丰富，推断的结果更加的全面，提升了最终的推断精度。

本申请所述用于人体关节3D坐标估计的推断方法，包括有以下实施步骤：

其中，采用的YOLO目标检测网络版本为2.0。

在上述第(1)步骤中，YOLO目标检测网络V2.0使用了一个新的分类网络作为特征提取部分。比如，类似于VGG，使用了较多的3*3卷积核，在每一次池化操作后把通道数翻倍。也可借鉴network in network的设计构思，使用全局平均池化(global averagepooling)，把1*1的卷积核置于3*3的卷积核之间，用来压缩特征。另外，也可采用batchnormalization稳定模型训练，最终得出的基础模型就是Darknet-19。如以表1所示，在表中包含有19个卷积层、5个最大值池化层(maxpooling layers)。

在上述第(2)步骤中，采用由“粗”到“精”的体素表达模型，以进行人体3D姿态估计。

如图4所示，所述的初级模块(Residual Module)，是一个具有M通道的特征图，输出的是一个具有N通道的特征图。

第一行为卷积路，由三个核尺度不同的卷积层，圆角矩形表示为一个卷积操作，其中的文字写明了该卷积操作的参数，共分为3行，分别是输入特征的通道数，卷积核的尺寸以及输出特征的通道数；

第二行为跳级路，只包含一个核尺度为1的卷积层；跳级路的输入输出通道数相同，这一路为单位映射。

所有卷积层的步长为1，pading为0，不改变数据长和宽尺寸，只对数据深度(channel)进行变更。

上述初级模块(Residual Module)，可由两个参数控制：输入深度M和输出深度N，实现对任意尺寸图像的操作。

初级模块(Residual Module)，提取了较高层次的特征(卷积路)，同时保留了原有层次的信息(跳级路)，其可以看做是一个保尺寸的高级“卷积”层。

沙漏网络(Hourglass)是本申请推断网络的核心部件，由若干个初级模块(Residual)组成。

如图5所示，一阶沙漏网络(Hourglass)的输入是M通道的特征图，输出是N通道的特征图。其上半路包含3个串联的初级模块(Residual)，两个相邻的初级模块中，后一个初级模块的输入通道数总是等于前一个初级模块的输出通道数，以逐步提取更深层次特征。

下半路同样将M个通道的数据提取得到N通道的数据，不同的是在原本输入一半的尺寸上进行的。具有串联的降采样1/2池化层、5个初级模块、升采样最近邻插值模块。

具体地，上半路在原尺度进行，下半路经历了先降采样(带有/2字样的矩形)再升采样(带有*2的矩形)的过程。

其中，降采样模块使用最大池化，升采样模块使用最近邻插值。

一阶沙漏网络(Hourglass)，通过将输入的M通道的特征图分成两路处理。其中一个支路，是在原始的尺度上进行；另外一路，是在一个较低尺度上进行，最后在各自的支路上处理完毕之后进行融合。使得神经网络具有较高的识别和表达能力，能够对不同尺度的特征信息进行较好的甄选，以便提取到影响最终结果的本质特征。

如图6所示，二阶沙漏网络(Hourglass)，是一阶沙漏网络(Hourglass)的虚线框部分替换成一个一阶沙漏网络(输入通道256，输出通道N)。

即二阶沙漏网络(Hourglass)，是将一阶沙漏网络(Hourglass)的下半路中的第4个初级模块替换为一阶沙漏网络(Hourglass)。

在二阶沙漏网络(Hourglass)中，下半路组成了两次降采样，再两次升采样的过程。

二阶沙漏网络(Hourglass)，在降采样的支路上进行了最大相对于原始数据尺寸为1/4的降采样，相对于一阶沙漏网络(Hourglass)更加凸显了尺度信息的差异性。

为了进一步增加综合不同尺度的信息，本申请可采取n阶沙漏网络(Hourglass)，即经历最多n次的降采样，而每次降采样之前，分出上半路保留原尺度信息；每次升采样之后，和上一个尺度的数据相加；两次降采样之间，使用三个初级模块提取特征；在两次相加之间，使用一个初级模块(Residual)提取特征。即n阶沙漏网络(Hourglass)，可提取从原始尺度到1/2ⁿ尺度的中间特征。

n(n≥2)阶沙漏网络，是将(n-1)阶沙漏网络下半路的一个初级模块替换为(n-1)阶沙漏网络，其他的上、下半路结构与(n-1)阶沙漏网络相同。

对于n阶与(n-1)阶沙漏网络来说，下半路被替换的初级模块位置可以相同，也可以不相同。在本实施例中，n阶与(n-1)阶沙漏网络的下半路被替换的初级模块均是第4个。

本申请所述的推断网络，以n阶沙漏网络(Hourglass)为中心，可从输入的RGB图像预测K个人体关节点的热力图，输入为H*W*3的图像，输出为h*w*K的热力图。

如图7所示的一级推断网络，输入的图像大小是256*256*3的，先经过一个7*7，步长为2的卷积层，输出为64通道；之后，经过一个初级模块(Residual)，输出为128通道；紧跟着一个1/2池化层；最后连续进行3个初级模块(Residual)，输出的特征图大小为64*64*256。

在一级推断网络中，对n阶沙漏网络的输出，经过两个卷积核大小为1*1，步长为1的卷积层操作(图8中标注为，即线性模块linear)，得到64*64*256的特征图；最后经过一个卷积核大小为1*1，步长为1的卷积层操作，就得到了最终输出，即即K个关节点的热力图。

如图8所示的二级推断网络，重复了一级推断网络的后半部结构。具体地，

第二个n阶沙漏网络的输入包含以下三路：

第一个n阶沙漏网络的输入数据,第一个n阶沙漏网络的的输出数据、以及上述一级推断网络的最终预测结果；

这三路数据通过串接和相加进行融合，它们的尺度不同，将不同层次的特征融合起来，输入到下一阶段的网络，从而能够增加整体推断的精度。

理论上来说，我们可以使用m级n阶沙漏网络进行级联，来作为最终的推断网络模型。其中，m的选择根据选用何种尺寸的体素表达来决定，我们给出m的合理范围在1到6之间。

在上述用于人体关节3D坐标估计的推断网络及其方法中，为改善网络结构本申请提出3D人体姿态的体积表示方式。

人体对象周围的体积在每个维度上均匀离散化。对于每个关节点，可创建一个大小为w*h*d的体积。在本申请中，深度方向的分辨率即d的选择是64。如果想要更加精细的深度估计，可以选用更加大的深度分辨率。

一个简单的做法是对于m个阶段的每个沙漏网络(Hourglass)关节点的输出热力图深度分辨率都选用d，但是这样做会造成比较大的计算开销，需要采用一种由粗到精的预测方法。

在第i阶段(1<＝i<＝m)的输出关节点的热力图的尺寸为w*h*d⁽ⁱ⁾,在我们的方法中第i阶段的输出关节点的热力图深度分辨率d⁽ⁱ⁾为d/2^(m-i)。举一个具体的例子来说，假设深度分辨率最大为64，那么在第1-6阶段的输出的深度分辨率分别为2,4,8,16,32,64。此类方法的优点有，一是这样可以大幅度的减少网络的参数和计算量，做到效率的提升；二是在网络的前期阶段，只要网络在关节点的深度预测上作出一个大概范围的推断，对于更加精确的深度信息推断在后期进行，并且在网络的第m阶段也就是最后一阶段达到最高的深度分辨率的输出，即此时达到了最为精准的推断。

在后期进行较为精准的推断是合理的，因为网络前期提取的特征可能不够精准，随着网络的加深，网络提取的特征得到了综合，此时的特征用来进行最终的精确推断是合理的。这就是，上述由粗到精估计方法对于提升精确度最突出的优点。

如用表示关节n在体素(i，j，k)中的预测可能性。为了训练这个网络，Groundtruth也是以体积形式提供的。每个关节的Groundtruth是一个三维高斯的体积分布，三维网格中关节点n在(x，y，z)处的Groundtruth使用如下公式计算：

在本申请中，可将σ＝2。

在训练过程中，使用均方误差损失作为损失函数。具体地，

上述函数的输出结果是三维的，即w×h×dN。

每个关节3D网格中具有最大响应的体素被选为该关节的3D位置。因为3D的结果不方便使用图像化的方法去表示，因此借用如以下表2所示的2D的网络输出，以说明如何根据网络的输出的某个关节点的热力图(Heatmap)来得到最终的预测坐标。

0.0	0.0	0.0	0.0	0.0
					0.0	0.1	0.2	0.3	0.25
0.0	0.15	0.25	0.8	0.6
					0.0	0.22	0.31	0.55	0.4
0.0	0.0	0.0	0.0	0.0

在上表中，一个5×5的2D热力图(Heatmap)，可以看到位于第3行第4列的响应值为0.8，该值是所有位置响应值中的最大值。

因此，该2D热力图(Heatmap)对应的关节点的位置(x，y)为(4，3)。对于一个3D的大小为w×h×d的热力图(Heatmap)，可以使用同样的方法得到最大响应值对应的坐标(x，y，z)，其中x，y，z分别满足，1＜＝x＜＝w，1＜＝y＜＝h，1＜＝z＜＝d。

综上，使用了YOLO的快速目标检测算法，对视频的每一帧进行高效率的人体检测，并且送到人体关节点检测网络中进行检测，在关节点检测网络中采用了一个由粗到精的预测结果，减少了计算量，提高了速度，最终达到实时性的人体关节点的检测。

在关节点的检测网络中使用了体素的表达方法，能够量化以人体为中心的坐标以便进行关节点的检测，达到了更好的精度。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种用于人体关节3D坐标估计的推断网络，其特征在于：具有以n(n≥2)阶沙漏网络(Hourglass)为中心、m级(m≥2)级联的模型结构；

一级推断网络，包括依次串联的卷积层、初级模块(Residual)、1/2池化层、3个连续的初级模块(Residual)、n阶沙漏网络(Hourglass)、2个连续的线性模块(linear)、卷积层；

2.根据权利要求1所述的用于人体关节3D坐标估计的推断网络，其特征在于：

一阶沙漏网络包括以下并联的结构，

上半路具有M输入通道和N输出通道的若干个初级模块；

所述的n(n≥2)阶沙漏网络，是将(n-1)阶沙漏网络下半路的任一初级模块替换为(n-1)阶沙漏网络。

3.根据权利要求2所述的用于人体关节3D坐标估计的推断网络，其特征在于：所述的初级模块，具有M通道输入和N通道输出；

初级模块包括以下并联的结构，

第一行为卷积路，由三个核尺度不同的卷积层串联构成；

4.如权利要求1至3所述用于人体关节3D坐标估计的推断网络的推断方法，其特征在于：包括以下实施步骤，

5.根据权利要求4所述的用于人体关节3D坐标估计的推断方法，其特征在于：采用的YOLO目标检测网络版本为2.0。