CN109543549B

CN109543549B - 用于多人姿态估计的图像数据处理方法及装置、移动端设备、服务器

Info

Publication number: CN109543549B
Application number: CN201811258778.7A
Authority: CN
Inventors: 关梓暄; 张默
Original assignee: Beijing Moshanghua Technology Co ltd
Current assignee: Beijing Moshanghua Technology Co ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2021-09-07
Anticipated expiration: 2038-10-26
Also published as: CN109543549A

Abstract

本申请公开了一种用于多人姿态估计的图像数据处理方法及装置、移动端、服务器端。该方法包括输入待检测图片；以及根据预设姿态估计网络估计所述待检测图片中多人姿态，输出人体关键点位置预测结果，其中，在所述预设姿态估计网络中的骨干网络ResNet残差网络结构替换为MobileNet网络结构。本申请解决了深度学习领域训练速度慢的技术问题。本申请使用轻量级网络的骨干网络，能够缩小模型、减少训练时间以及提升检测速度。此外，本申请可适用于安防监控、手势操控等网络实时性要求较高的领域中。

Description

用于多人姿态估计的图像数据处理方法及装置、移动端设备、服务器

技术领域

本申请涉及计算机视觉领域，具体而言，涉及一种用于多人姿态估计的图像数据处理方法及装置。

背景技术

随着计算机视觉的快速发展，姿态检测和姿态估计领域已经有了很大的进展，很多关键点检测和姿态检测都是基于已知的人体框检测和深层次背景网络，进而在准确率上有很大提升。

作为姿态检测的人体关键点检测，未来的目的是达到实时并进行跟踪的，无论在嵌入式设备还是在服务器端，效率是与准确率同样重要的评价指标。申请人发现，目前网络或模型的运行速度和准确率无法兼顾，缺少加速现有深度学习任务的训练速度以及预测速度的有效途径。进一步，无法保证网络或模型的准确率。

针对相关技术中深度学习领域训练速度慢的问题，目前尚未提出有效的解决方案。

申请内容

本申请的主要目的在于提供一种用于多人姿态估计的图像数据处理方法及装置，以解决深度学习领域训练速度慢的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种用于多人姿态估计的图像数据处理方法。

根据本申请的用于多人姿态估计的图像数据处理方法包括：输入待检测图片；以及根据预设姿态估计网络估计所述待检测图片中多人姿态，输出人体关键点位置预测结果，其中，在所述预设姿态估计网络中的骨干网络ResNet残差网络结构替换为MobileNet网络结构。

进一步地，在所述预设姿态估计网络中的骨干网络ResNet残差网络结构替换为MobileNet网络结构包括：将原有的一个卷积单元中的卷积层，批归一化层，修正线性单元替换为：包含3*3深度分离卷积层，批归一化层，修正线性单元，1*1卷积层，批归一化层，修正线性单元的Mobile模块。

进一步地，所述预设姿态估计网络中还包括：将MobileNet网络结构作为骨干网络之后依次输入GlobalNet以及RefineNet。

进一步地，在所述GlobalNet中生成关键点的热力图，组合成特征金字塔，以定位简单的可见关键点；以及在RefineNet中接收了来自所有金字塔层的特征信息，堆叠不同的mobile模块，通过上采样和连接层把整合后形成困难的重叠关键点的热力图。

进一步地，在所述预设姿态估计网络中还包括：网络训练过程，所述网络训练过程包括：使用预设ImageNet数据集预训练MobileNet网络结构；使用预设数据集中关键点数据训练预设姿态估计网络；其中，预设数据集包括：图片中人体位置以及各关键点具体位置。

为了实现上述目的，根据本申请的另一方面，提供了一种用于多人姿态估计的图像数据处理装置。

根据本申请的用于多人姿态估计的图像数据处理装置包括：输入模块，用于输入待检测图片；以及处理模块，用于根据预设姿态估计网络估计所述待检测图片中多人姿态，输出人体关键点位置预测结果，其中，在所述预设姿态估计网络中的骨干网络ResNet残差网络结构替换为MobileNet网络结构。

进一步地，在所述处理模块中还用于，将原有的一个卷积单元中的卷积层，批归一化层，修正线性单元替换为：包含3*3深度分离卷积层，批归一化层，修正线性单元，1*1卷积层，批归一化层，修正线性单元的Mobile模块。

进一步地，在所述处理模块中还用于，将MobileNet网络结构作为骨干网络之后依次输入GlobalNet以及RefineNet。

为了实现上述目的，根据本申请的又一方面，还提供了一种移动端设备，其特征在于，包括所述的图像数据处理装置。

为了实现上述目的，根据本申请的再一方面，提供了一种服务器，包括所述的图像数据处理装置。

在本申请实施例中，采用在所述预设姿态估计网络中的骨干网络ResNet残差网络结构替换为MobileNet网络结构的方式，通过输入待检测图片，达到了根据预设姿态估计网络估计所述待检测图片中多人姿态，输出人体关键点位置预测结果的目的，从而实现了使用轻量级网络的骨干网络缩小模型、减少训练时间以及提升检测速度的技术效果，进而解决了深度学习领域训练速度慢的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的用于多人姿态估计的图像数据处理方法示意图；

图2是根据本申请实施例的用于多人姿态估计的图像数据处理方法示意图；

图3是根据本申请实施例的MobileNet网络结构设计思路示意图；以及

图4是现有技术中卷积层的计算量示意图；

图5是MobileNet网络结构的计算量示意图；

图6是根据本申请实施例的MCPN网络训练部分示意图；以及

图7是根据本申请实施例的MCPN网络检测部分示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请使用轻量级的Mobilenet骨干网络，实现了网络的加速，且保证准确率。具体检测测试结果的准确率在67.4％，单卡12GPU可以达到批数量大于等于24，运行速度约109毫秒每张图。同时，在移动端以及服务器端等多种平台都可以流畅运行，对应网络运行速度提高。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S102至步骤S104：

步骤S102，输入待检测图片；

通过待检测图片中的中包含的多人人体进行人体框裁剪，可以假定裁剪区域之内只包含一个人体。

步骤S104，根据预设姿态估计网络估计所述待检测图片中多人姿态，输出人体关键点位置预测结果。

具体地，首先用检测器生成一组边界框，框出图中的人体，然后用预设姿态估计网络在每个人体边界框中定位关键点。

需要注意的是，在本申请中在所述预设姿态估计网络中的骨干网络ResNet残差网络结构替换为MobileNet网络结构。通过替换原始用于多人姿态估计的级联金字塔网络CPN中的ResNet结构，使用MobileNet结构，可以在参数量和计算量都有所节省。Mobilenet结构的核心是把卷积拆分为Depthwise+Pointwise两部分，形成mobile模块。

通过上述网络，很好的解决了模型训练时需要大Batch和预测时运行速度慢的问题，同时保证了准确率。

从以上的描述中，可以看出，本申请实现了如下技术效果：

根据本申请实施例，作为本实施例中的优选，在所述预设姿态估计网络中的骨干网络ResNet残差网络结构替换为MobileNet网络结构包括：将原有的一个卷积单元中的卷积层，批归一化层，修正线性单元替换为：包含3*3深度分离卷积层，批归一化层，修正线性单元，1*1卷积层，批归一化层，修正线性单元的Mobile模块。

具体地，普通卷积的一层单元结构按顺序包括：卷积层，批归一化层(BatchNorm,BN)，修正线性单元(Rectified Linear Unit,ReLU)。而Mobilenet网络比如以Mobilenetv1为例，其结构的3D卷积，按顺序包括：3*3深度分离卷积层(Depthwise)，批归一化层，修正线性单元，1*1卷积层(Pointwise)，批归一化层，修正线性单元。

根据本申请实施例，作为本实施例中的优选，所述预设姿态估计网络中还包括：将MobileNet网络结构作为骨干网络之后依次输入GlobalNet以及RefineNet。在本申请中的用于多人姿态估计的图像数据处理方法中保留了用于多人姿态估计的级联金字塔网络CPN的两个阶段：GlobalNet和RefineNet先易后难的方法，优化得到本申请中可用于人体关键点检测的全新网络，Mobilenet Cascade Pyramid Network(MCPN)。

根据本申请实施例，作为本实施例中的优选，在所述GlobalNet中生成关键点的热力图，组合成特征金字塔，以定位简单的可见关键点；以及在RefineNet中接收了来自所有金字塔层的特征信息，堆叠不同的mobile模块，通过上采样和连接层把整合后形成困难的重叠关键点的热力图。

在预设姿态估计网络中设计多尺度生成特征图具体为：在GlobalNet把不同卷积特征conv2～5的最后残差块分别表示为C2,C3,C4,C5，并在其上应用3×3卷积滤波器生成关键点的热力图，组合成特征金字塔，有效定位简单的可见关键点。进一步，在RefineNet接收了来自所有金字塔层的特征信息，堆叠不同的mobile模块,通过上采样和连接层把这些信息整合起来，形成困难的重叠关键点的热力图。

根据本申请实施例，作为本实施例中的优选，在所述预设姿态估计网络中还包括：网络训练过程，所述网络训练过程包括：使用预设ImageNet数据集预训练MobileNet网络结构；使用预设数据集中关键点数据训练预设姿态估计网络；其中，预设数据集包括：图片中人体位置以及各关键点具体位置。

具体地，在骨干网络预训练时可以使用ImageNet数据集进行预训练，对COCO2017关键点数据进行训练。

需要注意的是，本申请中的骨干网络预训练和预设姿态估计网络采用的数据集并不限于上述，本领域技术人员可以根据实际使用场景进行选择。

还需要注意的是，需要针对具体的任务的数据集进行微调训练，数据集不限，需要包括图片中人体位置，各关键点具体位置。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述用于多人姿态估计的图像数据处理方法的装置，如图2所示，该装置包括：输入模块10，用于输入待检测图片；以及处理模块20，用于根据预设姿态估计网络估计所述待检测图片中多人姿态，输出人体关键点位置预测结果，其中，在所述预设姿态估计网络中的骨干网络ResNet残差网络结构替换为MobileNet网络结构。

在本申请实施例的输入模块10中通过待检测图片中的中包含的多人人体进行人体框裁剪，可以假定裁剪区域之内只包含一个人体。

在本申请实施例的处理模块20中具体地，首先用检测器生成一组边界框，框出图中的人体，然后用预设姿态估计网络在每个人体边界框中定位关键点。

根据本申请实施例，作为本实施例中的优选，所述处理模块20中还用于，将原有的一个卷积单元中的卷积层，批归一化层，修正线性单元替换为：包含3*3深度分离卷积层，批归一化层，修正线性单元，1*1卷积层，批归一化层，修正线性单元的Mobile模块。

根据本申请实施例，作为本实施例中的优选，所述处理模块20中还用于，将MobileNet网络结构作为骨干网络之后依次输入GlobalNet以及RefineNet。

在本申请中的用于多人姿态估计的图像数据处理方法中保留了用于多人姿态估计的级联金字塔网络CPN的两个阶段：GlobalNet和RefineNet先易后难的方法，优化得到本申请中可用于人体关键点检测的全新网络，Mobilenet Cascade Pyramid Network(MCPN)。

此外，在本申请中还提供了移动端设备包括所述的图像数据处理装置。其实现原理和有益效果如上所述，不再进行赘述。本申请提供的移动端上运行上述处理装置，由于采用轻量级骨干网络，可以大大加速训练速度，且保证准确率67.4％，单卡12G GPU可以达到批数量大于等于24，运行速度约109毫秒每张图。

此外，在本申请中还提供了服务器包括所述的图像数据处理装置。其实现原理和有益效果如上所述，不再进行赘述。本申请提供的服务器端上运行上述处理装置，由于采用轻量级骨干网络，可以大大加速训练速度，且保证准确率67.4％，单卡12G GPU可以达到批数量大于等于24，运行速度约109毫秒每张图。

请参考图3至图7，本申请的实现原理如下：

对于如下的场景：比如训练一个基于Resnet101的深度学习任务，单卡GPU 12G显存训练，需要数周时间，虽然之前提出了Batch Normalization的方法可以加速训练，然而很多训练任务无法支持大的批数量，同时，完成训练的模型，运行速度有限，对于安防监控，手势操控等对实时性要求高的系统来说，这无法达到要求；尤其在CPU上，大网络如Resnet50/101/152的运行时间可达数秒，无法达到实时。所以加速现有深度学习任务的训练和预测速度。

把多人姿态估计的级联金字塔网络CPN图像特征提取骨干网络的ResNet101替换为当下较为轻量级的网络，经测试MobileNet在移动端CPU上的表现性能良好。同时保留了原CPN两个阶段：GlobalNet和RefineNet先易后难的方法，优化后可以得到本申请用于人体关键点检测的全新网络，Mobilenet Cascade Pyramid Network(MCPN)。本申请的轻量级骨干网络，对于上述的同样场景中，可以大大加速训练速度，且保证准确率67.4％，单卡12GGPU可以达到批数量大于等于24，运行速度约109毫秒每张图，同时，在移动端，服务器端等多种平台都可以流畅运行，对应网络运行速度可以提高将近10倍。

本申请分为骨干网络结构设计，多尺度生成特征图结构设计，损失函数设计，训练阶段和检测五个部分。MobileNet结构以Mobilenet v1为例。

步骤一：

主干网络结构设计。本申请替换了原版CPN中的ResNet结构，使用MobileNet结构，该结构在参数量和计算量都有所节省。

如图3所示，Mobilenet v1核心是把卷积拆分为Depthwise+Pointwise两部分，形成mobile模块。

如图4所示，具体地，在普通卷积的一层单元结构按顺序包括：卷积层，批归一化层(BatchNorm,BN)，修正线性单元(Rectified Linear Unit，ReLU)。假设输入特征图大小为Sf x Sf x IN，经过一次卷积，输出的特征图大小为Sf xSf x OUT，传统的卷积操作，其卷积核K的大小为：Sk x Sk x IN x OUT，其中Sf是特征图的尺寸，Sk是卷积核的尺寸，IN是输入特征图的通道数，OUT是输出特征图的通道数，一次卷积操作的过程如下：IN个Sk x Sk个卷积核与IN个输入特征图做卷积，得到的结果相加，得到一张输出特征图，同理，一共OUT次操作，得到OUT个输出特征图，用公式表示这个过程如下：

根据公式，可以计算出传统卷积层的计算量为：

Sk x Sk x IN x OUT x Sf x Sf

参数量为：

Sk x Sk x IN x OUT

如图5所示，Mobilenet v1结构的3D卷积，按顺序包括：3*3深度分离卷积层(Depthwise)，批归一化层，修正线性单元，1*1卷积层(Pointwise)，批归一化层，修正线性单元。首先Depthwise部分：其卷积核K的大小为：Sk x Skx IN，卷积核只跟对应通道的输入特征图做卷积，得到输出特征图，所以输出的特征图大小为Sf x Sf x IN，用公式表示这个过程如下：

根据公式，可以计算出深度分离卷积的计算量为：

Sk x Sk x IN x Sf x Sf

参数量为：

Sk x Sk x IN

然后Pointwise部分：1x1卷积层的卷积核大小为1x 1x IN x OUT，操作跟传统卷积一致，计算量为1x 1x IN x OUT x Sf x Sf，参数量为1x 1x IN xOUT。

综上，Mobile模块总的计算量为：Sk x Sk x IN x Sf x Sf+1x 1x IN x OUTx Sfx Sf＝(Sk x Sk+OUT)x IN x Sf x Sf，参数量：Sk x Sk x IN+1x 1x INx OUT＝(Sk x Sk+OUT)x IN，相比传统卷积，计算量是(Sk x Sk+OUT)/Sk x Sk x OUT＝1/OUT+1/(Sk xSk)，参数量是(Sk x Sk+OUT)/Sk x Sk xOUT＝1/OUT+1/(Sk x Sk)，在计算量和参数量都有所减少。

步骤二：

多尺度生成特征图结构设计。

通过在GlobalNet把不同卷积特征conv2～5的最后残差块分别表示为C2,C3,C4,C5(现有CPN残差网络得到)，并在其上应用3×3卷积滤波器生成关键点的热力图，组合成特征金字塔，有效定位简单的可见关键点。

通过在RefineNet接收了来自所有金字塔层的特征信息，堆叠不同的mobile模块,通过上采样和连接层把这些信息整合起来，形成困难的重叠关键点的热力图。

步骤三：

损失函数设计。

通过与真实点的高斯2d滤波热图相比，在GlobalNet的简单点L1损失与RefineNet的困难点L1损失之和作为总损失。具体的与CPN，此处不再进行赘述。

步骤四，

训练部分：

如图6所示，输入图片后图片预处理后得到人体框检测；根据人体框得到裁剪图片(预置的是一框一人)；将预训练模型权重输入到Mobilenet骨干网络进行骨干网络的训练。同时同时预设数据集输入Mobilenet骨干网络，GlobalNet以及RefineNet。计算Globalloss损耗以及Refine loss损耗。

首先使用行人检测框架，先检测出行人候选框。然后使用本申请中MCPN轻量网络对每一个检测出来的行人候选框进行人体关键点的回归，进而输出最终结果。

具体地，本申请主干网络预训练使用ImageNet数据集进行预训练，对COCO2017关键点数据进行训练，输入图片大小为384*288，模型调整每个人体检测框固定高宽像素256x192，批大小24。针对具体的任务的数据集进行微调训练，数据集不限，需要包括图片中人体位置，各关键点具体位置，输入大小为384*288，初始学习率为5e-4。

步骤五，

检测部分：

如图7所示，输入图片后图片预处理后得到人体框检测；输入MCPN网络中，检测关键位置组合再映射Map回原图；之后根据损失定义每组关键点总得分，根据一框一人取得最高分的组合，最终可以得到人体关键点位置。

具体地，按照自上而下的方式估计多人姿态，首先通过ResNeXt人体框检测器生成人体proposals预测集；对于每个proposal预测，假定其裁剪区域之内只包含一个人体，然后再由姿态估计网络给出最后的预测。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于多人姿态估计的图像数据处理方法，其特征在于，包括：

建立预设姿态估计网络；包括：替换原始用于多人姿态估计的级联金字塔网络中的骨干网络ResNet残差网络结构为MobileNet网络结构；将MobileNet网络结构作为骨干网络之后依次输入GlobalNet以及RefineNet；通过在GlobalNet把不同卷积特征conv2～5的最后残差块分别表示为C2,C3,C4,C5，并在其上应用3×3卷积滤波器生成关键点的热力图，组合成特征金字塔，以定位简单的可见关键点；通过在RefineNet接收了来自所有金字塔层的特征信息，堆叠不同的mobile模块,通过上采样和连接层把这些信息整合起来，形成困难的重叠关键点的热力图；

其中，所述MobileNet网络结构包括Mobile模块，所述Mobile模块包括：将原有的一个卷积单元中的卷积层，批归一化层，修正线性单元替换为：包含3*3深度分离卷积层，批归一化层，修正线性单元，1*1卷积层，批归一化层，修正线性单元；

建立损失函数；包括：通过与真实点的高斯2d滤波热图相比，在GlobalNet的简单点L1损失与RefineNet的困难点L1损失之和作为总损失；

对所述预设姿态估计网络进行训练；包括：输入图片后图片预处理后得到人体框检测；根据人体框得到裁剪图片，所述裁剪图片预设为一框一人；将预训练模型权重输入到Mobilenet骨干网络进行骨干网络的训练；同时裁剪图片输入Mobilenet骨干网络，GlobalNet以及RefineNet后，计算Global loss损耗以及Refine loss损耗；

输入待检测图片；根据所述预设姿态估计网络估计所述待检测图片中多人姿态，输出人体关键点位置预测结果；包括：对图片预处理后得到人体框检测；输入所述预设姿态估计网络中，检测关键位置组合，再映射Map回原图；之后根据损失定义每组关键点总得分，根据一框一人取得最高分的组合，最终得到人体关键点位置。

2.根据权利要求1所述的图像数据处理方法，其特征在于，在所述预设姿态估计网络中还包括：网络训练过程，

所述网络训练过程包括：使用预设ImageNet数据集预训练MobileNet网络结构；

使用预设数据集中关键点数据训练预设姿态估计网络；

其中，预设数据集包括：图片中人体位置以及各关键点具体位置。

3.一种用于多人姿态估计的图像数据处理装置，其特征在于，包括：

输入模块，用于输入待检测图片；处理模块，用于根据所述预设姿态估计网络估计所述待检测图片中多人姿态，输出人体关键点位置预测结果；包括：对图片预处理后得到人体框检测；输入所述预设姿态估计网络中，检测关键位置组合，再映射Map回原图；之后根据损失定义每组关键点总得分，根据一框一人取得最高分的组合，最终得到人体关键点位置。

4.一种移动端设备，其特征在于，包括如权利要求3所述的图像数据处理装置。

5.一种服务器，其特征在于，包括如权利要求3所述的图像数据处理装置。