CN110008915B

CN110008915B - 基于掩码-rcnn进行稠密人体姿态估计的系统及方法

Info

Publication number: CN110008915B
Application number: CN201910289577.1A
Authority: CN
Inventors: 高联丽; 黄梓杰; 宋井宽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2023-02-03
Anticipated expiration: 2039-04-11
Also published as: CN110008915A

Abstract

本发明涉及人体姿态估计技术，其公开了一种基于掩码‑RCNN进行稠密人体姿态估计的系统及方法，解决传统技术在实例分割时，存在的由于目标检测框包含多个目标而无法精准进行稠密人体姿态估计的问题。本发明中的系统包括：目标检测模块，用于获取精确的目标检测框；语义分割模块，用于对目标检测框的检测对象进行语义分割，获得语义分割掩码；实例分割模块，用于对语义分割掩码进行处理获得人体实例分割掩码；稠密姿态估计模块，用于建立RGB图像与3D人体表面模型的关系，并输出人体部件索引和3D模型上的UV坐标，从而将RGB图像上的纹理信息映射到3D人体表面模型上。本发明适用于各种场景下的稠密人体姿态估计。

Description

基于掩码-RCNN进行稠密人体姿态估计的系统及方法

技术领域

本发明涉及人体姿态估计技术，具体涉及一种基于掩码-RCNN进行稠密人体姿态估计的系统及方法。

背景技术

在对图片中的人体个体级别分析方面，较早的方法如Vitruvian-Manifold[1]通过深度图的方式对人体进行姿态估计，而目前最新的方法则采用掩码-RCNN[2]作为基本框架，将其生成的目标检测框作为输入进行进一步分割以及稠密像素点估计，如DensePose[3]。

然而在自然环境下，对于实例分割来说，目标检测框并不能完全准确地检测有且仅有一个目标，因为自然环境下的图片包含各种复杂情况，这使得目标检测框总是会包含多个目标，其中这些目标有的很小，有的重叠在一起，有的背景十分复杂，有的大小比例各不相同。

因此，传统技术存在着目标检测框包含多个目标无法精准进行稠密人体姿态估计的问题。

参考文献：

[1]Taylor J,Shotton J,Sharp T,et al.The Vitruvian Manifold:InferringDense Correspondences for One-Shot Human Pose Estimation[C]//IEEE ComputerVision and Pattern Recognition.IEEE,2012.

[2]He K,Gkioxari G,Dollar P,et al.Mask R-CNN.[J].IEEE Transactions onPattern Analysis&Machine Intelligence,2017,PP(99):1-1.

[3]Güler R A,Neverova N,Kokkinos I.DensePose:Dense Human PoseEstimation In The Wild[J].2018.

[4]Lin T Y,Dollár,Piotr,Girshick R,et al.Feature Pyramid Networks forObject Detection[J].2016.

[5]Ren S,He K,Girshick R,et al.Faster R-CNN:towards real-time objectdetection with region proposal networks[J].2015.

[6]Newell A,Yang K,Jia D.Stacked Hourglass Networks for Human PoseEstimation[J].2016.

[7]Güler,R1za Alp,Trigeorgis G,Antonakos E,et al.DenseReg:FullyConvolutional Dense Shape Regression In-the-Wild[J].2016.

发明内容

本发明所要解决的技术问题是：提供一种基于掩码-RCNN进行稠密人体姿态估计的系统及方法，解决传统技术在实例分割时，存在的由于目标检测框包含多个目标而无法精准进行稠密人体姿态估计的问题。

本发明解决上述技术问题所采用的技术方案是：

基于掩码-RCNN进行稠密人体姿态估计的系统，包括：

目标检测模块，用于获取精确的目标检测框，其包括两个串行的均包括1024个通道的全连接层以及紧接的两个并行的分别包括2个通道的和8个通道的全连接层；

语义分割模块，用于对目标检测框的检测对象进行语义分割，获得语义分割掩码，其包括用于产生一个特征图的4个连续的3*3卷积层以及用于对产生的特征图进行线性上采样的两个4*4反卷积层，在两个4*4反卷积层后还连接有用于调整上采样得到的热力图的通道数的维度分别为3*3和1*1的两个卷积层；

实例分割模块，用于对语义分割掩码进行处理获得人体实例分割掩码，其包括4个连续的3*3卷积层以及紧接的上采样模块，所述上采样模块包括两个4*4反卷积层；

稠密姿态估计模块，用于建立RGB图像与3D人体表面模型的关系，并输出人体部件索引和3D人体表面模型上的UV坐标，从而将RGB图像上的纹理信息映射到3D人体表面模型上；其包括8个串行的3*3卷积层以及3个并行的输出部件，所述3个并行的输出部件分别用于输出3D人体部件的索引，3D人体部件上的U坐标和V坐标。

作为进一步优化，所述目标检测模块以小特征图作为输入，所述小特征图的获取方法为：

采用特征金字塔网络结构作为基本网络，从输入图片中提取出一个特征图，输入到感兴趣区排列池化层中，通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图。

作为进一步优化，所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括：在感兴趣区映射到特征图后，将候选区域分割成n*n个单元，在每个单元上固定4个点，分别用双线性插值计算出每个点的位置，然后再进行最大池化操作。

作为进一步优化，所述目标检测模块，在训练时分别使用一个像素级别的交叉熵损失函数用于对人的分类以及使用一个Smooth L1Loss函数(平滑的L1损失函数)用于目标检测框的回归计算。

作为进一步优化，所述语义分割模块，在训练时通过定义语义分割损失函数通过将图片中所有的人当成前景来对整个网络进行中继监督，最后输出语义分割掩码。

作为进一步优化，所述实例分割模块，在训练时分别最小化两个像素级别的交叉熵函数损失函数得到语义分割掩码和实例分割掩码，其中实例分割损失函数把语义分割掩码中指定的人当成前景，其他人当成背景，分别生成人体实例分割掩码。

作为进一步优化，所述稠密姿态估计模块，在训练时使用像素级交叉熵损失函数进行部件分类来得到3D人体部件索引，并训练两个平滑的Smooth L1Loss函数得到U坐标和V坐标。

此外，本发明还提供了一种应用于上述系统中的基于掩码-RCNN进行稠密人体姿态估计的方法，其包括以下步骤：

a.从输入图片中提取出一个特征图，输入到感兴趣区排列池化层中，通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图；

b.将所述低维度的小特征图输入至目标检测模块，获取精确的目标检测框；

c.语义分割模块对目标检测框的检测对象进行语义分割，获得语义分割掩码；

d.实例分割模块对语义分割掩码进行处理获得人体实例分割掩码；

e.稠密姿态估计模块建立RGB图像与3D人体表面模型的关系，并输出人体部件索引和3D模型上的UV坐标，然后将人体实例分割掩码和人体部件索引以及UV坐标进行结合获得3D人体表面模型的表面坐标。

作为进一步优化，步骤a中，所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括：在感兴趣区映射到特征图后，将候选区域分割成n*n个单元，在每个单元上固定4个点，分别用双线性插值计算出每个点的位置，然后再进行最大池化操作。

作为进一步优化，步骤e中，所述稠密姿态估计模块建立RGB图像与3D人体表面模型的关系，并输出人体部件索引和3D模型上的UV坐标具体包括：

将人体结构分为24个独立的部件，并使用局部二维坐标系对每个部件进行参数化：首先，将一个像素点归类为背景或者24个3D人体部件中的一个，进行初步粗略的像素点位置估计；然后，利用两个Smooth L1Loss函数回归得到每个部件中像素点的确切UV坐标，如果像素点在某个人体部件中，则仅考虑该部件的回归损失。

本发明的有益效果是：

(1)在原始DensePose-RCNN结构基础上运用了级联思想，有效地建立了一个RGB图像与3D人体表面模型的关系，并输出人体部件索引和3D模型上的UV坐标。这样就能将RGB图像上的纹理信息准确地映射到3D人体模型上，增加3D物体的真实感。

(2)结合语义分割模块和实例分割模块的结果，利用中继监督的思想有效地解决了多人同框的问题，从而提高检测精度，即使输入图片包含各种复杂的场景以及比例跨度大的目标，本发明依然能通过结合人体实例级别的细节信息，改善最终整体准确率甚至是小目标准确率。

附图说明

图1为本发明实施例中的网络结构框图。

具体实施方式

本发明旨在提供一种基于掩码-RCNN进行稠密人体姿态估计的系统及方法，解决传统技术在实例分割时，存在的由于目标检测框包含多个目标而无法精准进行稠密人体姿态估计的问题。其基本思想是通过在稠密人体姿态估计-RCNN基本框架的基础上，采用级联的思想增加一个全卷积层的结构，对得到的目标检测框进行中继监督，通过有效地从一个目标检测框中分割多个目标来解决多人同框的问题，以实现稠密人体姿态估计。

实施例：

本实施例中的基于掩码-RCNN进行稠密人体姿态估计的系统，包括：目标检测模块、语义分割模块、实例分割模块和稠密姿态估计模块；具体的，

目标检测模块，用于获取精确的目标检测框，其包括两个串行的通道数为1024的全连接层以及紧接的两个并行的通道数分别为2和8的全连接层；

稠密姿态估计模块，用于建立RGB图像与3D人体表面模型的关系，并输出人体部件索引和3D模型上的UV坐标，从而将RGB图像上的纹理信息映射到3D人体表面模型上；其包括8个串行的3*3卷积层以及3个并行的输出部件，所述3个并行的输出部件分别用于输出3D人体部件的索引，3D人体部件上的U坐标和V坐标。

应用上述系统实现稠密人体姿态估计的所采用的网络结构如图1所示，首先，特征金字塔网络结构[4](FCN)作为本发明的基本网络，被用于从输入图片中提取出一个特征图，被提取的特征图包含一些来自输入图片不同比例大小目标的细节信息。接着特征图将被输入到感兴趣区排列(RoIAlign)池化层中[2]。传统的感兴趣区池化(RoIPooling)操作[5]是根据候选框的位置坐标在特征图中将对应区域池化成固定尺寸的特征图，该操作会进行两次浮点数取整的量化过程，而对于小目标检测，这一过程会造成一定的误差。而本发明在RoIAlign层通过移除所有粗略的量化过程并使用双线性插值的方法获取坐标为浮点数的像素点上的数值，最终提取出一个小特征图如维度为7*7，具体做法是：在感兴趣区映射到特征图后，不再对浮点数边缘进行四舍五入。而是将候选区域分割成n*n个单元，在每个单元上固定4个点，分别用双线性插值计算出每个点的位置，然后再进行最大池化操作，这样就达到了输入与输出之间像素级别上的一一对应。

得到的小特征图将被输入至目标检测模块(如图1中的a)。该模块有两个串行的通道数为1024的全连接层以及紧接着两个并行的通道数分别为2和8的全连接层，使目标检测框更精准。该模块分别使用了一个像素级别的交叉熵损失函数用于对人的分类以及一个Smooth L1Loss函数用于目标检测框的回归计算。

得到精准的目标检测框后，输入到语义分割模块(如图1中的b)。该模块包含4个连续的3*3卷积层产生一个特征图和一个上采样模块，上采样模块包含两个4*4反卷积层将产生的特征图进行线性地上采样以及最后为了调整上采样得到的热力图的通道数，在反卷积层后再连接的两个卷积层(维度分别为3*3和1*1)。在训练该模块时，我们定义语义分割损失函数通过将图片中所有的人当成前景来对整个网络进行中继监督[6]，最后输出语义分割掩码。

然后实例分割模块(如图1中的c)通过将语义分割掩码进一步处理得到实例分割掩码。对于人体姿态预测，语义分割掩码是一个必不可少的中间过程，而实例分割可以被看做是分割由粗略到精细的过程。同样该模块也含有4个连续的3*3卷积层和一个上采样模块。在训练该模块时，我们分别最小化两个像素级别的交叉熵函数损失函数得到语义分割掩码和实例分割掩码，其中实例分割损失函数把语义分割掩码中指定的人当成前景，其他人当成背景，分别生成人体实例分割掩码。

借鉴DenseReg[7]网络结构，稠密姿态估计模块(如图1中的d)包含8个串行的3*3卷积层以及3个并行的输出部件，最后将分别输出3个值：3D人体部件的索引(I)，3D人体部件上的U坐标和V坐标，每个部件都含有1个反卷积层和1个双线性插值层。该模块通过把经过精细调整后的候选框特征图(维度为14*14)作为输入，直接建立一个RGB图像上像素点与3D人体表面模型的联系。最后，该模块把实例分割掩码和得到的IUV坐标结合到一起，得到最终的3D表面坐标。为了训练该模块，我们使用像素级交叉熵损失函数进行部件分类来得到3D人体部件索引，以及训练两个Smooth L1Loss函数得到U坐标和V坐标。

由于人体结构复杂，我们将人体结构分为24个独立的部件，并使用局部二维坐标系对每个部件进行参数化。具体步骤是：第一，该模块通过将一个像素点归类为背景或者24个3D人体部件中的一个，进行初步粗略的像素点位置估计；第二，利用两个Smooth L1Loss回归得到每个部件中像素点的确切UV坐标。如果像素点在某个人体部件中，则仅考虑该部件的回归损失。

利用上述网络结构，本实施例实现基于掩码-RCNN进行稠密人体姿态估计的方法包括以下步骤：

1.从输入图片中提取出一个特征图，输入到感兴趣区排列池化层中，通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图；

2.将所述低维度的小特征图输入至目标检测模块，获取精确的目标检测框；

3.语义分割模块对目标检测框的检测对象进行语义分割，获得语义分割掩码；

4.实例分割模块对语义分割掩码进行处理获得人体实例分割掩码；

5.稠密姿态估计模块建立RGB图像与3D人体表面模型的关系，并输出人体部件索引和3D模型上的UV坐标，然后将人体实例分割掩码和人体部件索引以及UV坐标进行结合获得3D人体表面模型的表面坐标。

由此，我们解决了现有方法存在的目标检测框包含多个目标而无法精准进行点估计的技术问题，有效地实现由二维(RGB)图像上的点映射到三维(3D)人体表面模型。

Claims

1.基于掩码-RCNN进行稠密人体姿态估计的系统，其特征在于，包括：

稠密姿态估计模块，用于建立RGB图像与3D人体表面模型的关系，并输出3D人体部件索引和3D人体表面模型上的UV坐标，从而将RGB图像上的纹理信息映射到3D人体表面模型上；其包括8个串行的3*3卷积层以及3个并行的输出部件，所述3个并行的输出部件分别用于输出3D人体部件的索引，3D人体部件上的U坐标和V坐标；

所述语义分割模块，在训练时通过定义语义分割损失函数通过将图片中所有的人当成前景来对整个网络进行中继监督，最后输出语义分割掩码；

所述实例分割模块，在训练时分别最小化两个像素级别的交叉熵函数损失函数得到语义分割掩码和实例分割掩码，其中实例分割损失函数把语义分割掩码中指定的人当成前景，其他人当成背景，分别生成人体实例分割掩码。

2.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统，其特征在于，

所述目标检测模块以小特征图作为输入，所述小特征图的获取方法为：

3.如权利要求2所述的基于掩码-RCNN进行稠密人体姿态估计的系统，其特征在于，

所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括：在感兴趣区映射到特征图后，将候选区域分割成n*n个单元，在每个单元上固定4个点，分别用双线性插值计算出每个点的位置，然后再进行最大池化操作。

4.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统，其特征在于，

所述目标检测模块，在训练时分别使用一个像素级别的交叉熵损失函数用于对人的分类以及使用一个Smooth L1 Loss函数用于目标检测框的回归计算。

5.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统，其特征在于，

所述稠密姿态估计模块，在训练时使用像素级交叉熵损失函数进行部件分类来得到3D人体部件索引，并训练两个Smooth L1 Loss函数得到U坐标和V坐标。

6.基于掩码-RCNN进行稠密人体姿态估计的方法，应用于如权利要求1-5任意一项所述的系统中，其特征在于，包括以下步骤：

7.如权利要求6所述的基于掩码-RCNN进行稠密人体姿态估计的方法，其特征在于，

步骤a中，所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括：在感兴趣区映射到特征图后，将候选区域分割成n*n个单元，在每个单元上固定4个点，分别用双线性插值计算出每个点的位置，然后再进行最大池化操作。

8.如权利要求6所述的基于掩码-RCNN进行稠密人体姿态估计的方法，其特征在于，

步骤e中，所述稠密姿态估计模块建立RGB图像与3D人体表面模型的关系，并输出人体部件索引和3D模型上的UV坐标具体包括：

将人体结构分为24个独立的部件，并使用局部二维坐标系对每个部件进行参数化：首先，将一个像素点归类为背景或者24个3D人体部件中的一个，进行初步粗略的像素点位置估计；然后，利用两个Smooth L1 Loss函数回归得到每个部件中像素点的确切UV坐标，如果像素点在某个人体部件中，则仅考虑该部件的回归损失。