CN112381045A

CN112381045A - 一种面向物联网移动端设备的轻量级人体姿态识别方法

Info

Publication number: CN112381045A
Application number: CN202011374295.0A
Authority: CN
Inventors: 徐弘升; 陆继翔; 杨志宏; 陈天宇; 徐康
Original assignee: Nari Technology Co Ltd
Current assignee: Nari Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-19

Abstract

本发明公开了一种面向物联网移动端设备的轻量级人体姿态识别方法，方法中采用轻量化神经网络技术对当前高效但复杂的网络结构进行解析，综合考量了姿态识别精度和计算复杂度，可以在手机等计算资源有限的移动设备上运行姿态识别神经网络。该技术基本保留了原始模型的精度，而轻量化之后的模型参数数量相比原始的参数数量下降了85％。本发明可以在硬件资源有限，比如计算资源受限的移动物联网设备上进行人体姿态识别，在基本保持精度的同时有效地解决了参数数量巨大的姿态识别神经网络模型在实际生活中难以运用的问题。

Description

一种面向物联网移动端设备的轻量级人体姿态识别方法

技术领域

本发明涉及一种基于人工智能的计算机视觉识别方法，尤其涉及一种面向物联网移动端设备的轻量级人体姿态识别方法。

背景技术

近十年来，人体姿态识别一直是计算机视觉领域一项十分活跃的研究课题。人体姿态识别作为理解图像或视频中人物行为动作的基础，受到了很多学者的广泛关注。人体姿态识别的目标是从视觉信息(RGB图像或视频)中定位出人体的关节点，比如，手腕，手肘，肩膀，膝盖等等，然后将这些关节点解析为人体姿态。人体姿态识别本质上是人体关节点检测，人体姿态骨架是一组人体关节坐标，将坐标组合起来就可以描述人的姿态。骨架的每个坐标都被称为关节点或关键点。人体姿态识别领域有许多的应用场景，比如，行为识别、人机交互、虚拟现实、智能安防等等。移动端设备具有很多的视觉应用场景，比如，道路车辆监测、农林场景检测、行人姿态跟踪、行人异常行为检测等等。因此，面向移动端的人体姿态识别十分具有研究价值和工业应用价值。

传统的姿态识别方法依赖物体的外观特征，比如，纹理、边缘、颜色、轮廓或者手工标注的局部特征。因此，传统的姿态识别方法只能获取图像的浅层特征，如图像边缘梯度等特征。此外，还需要大量人工进行特征提取工程，也无法有效获取图像深层语义信息。卷积神经网络(Convolutional Neural Networks，CNN)可以有效地解决这两个问题。CNN通过卷积核自动提取图像特征，随着网络层次加深，不仅在浅层网络提取了图像的浅层特征，而且在高层网络可以提取图像深层次语义信息。

姿态识别神经网络模型可以通过更深的网络层次提取深度全局特征，极大地提高姿态识别模型的精度，比如OpenPose模型。但是，随之也带来了计算复杂度巨幅增长的问题。物联网设备比如移动设备为了便携性，基本上只有十分有限的计算资源和存储资源。另一方面，精度表现良好的模型往往参数量巨大，严重依赖高性能的GPU，难以在移动端等物联网设备上运行，给人工智能的应用落地带来了很大挑战。因此，面向移动端的轻量级姿态识别神经网络技术是迫切需求的。

发明内容

发明目的：针对以上问题，本发明提出一种面向物联网移动端设备的轻量级人体姿态识别方法，能够在硬件资源有限，比如计算资源受限的移动物联网设备上进行人体姿态识别，在基本保持精度的同时有效地解决了参数数量巨大的姿态识别神经网络模型在实际生活中难以运用的问题。

技术方案：本发明所采用的技术方案是一种面向物联网移动端设备的轻量级人体姿态识别方法，包括以下步骤：

步骤一：输入三通道的RGB图像；

步骤二：对于输入的图像，基于OpenPose框架，采用改进的MobileNet网络作为骨干网络进行初步的特征提取，改进的MobileNet网络生成输入图像的特征图；所述改进的MobileNet网络包括：(1)采用空洞卷积代替原OpenPose框架下每一层的标准卷积以获取更大的感受野，(2)在相邻的卷积层引入残差连接模块，增加特征图中的图像特征信息并提高特征图的鲁棒性；

步骤三：对于步骤二获取的特征图，采用自底向上的方式进行姿态识别；在姿态识别过程中，将关节检测和关节解析指导两个计算分支合并，采用两个不同通道数目的1×1卷积来得到所述关节检测和关节解析指导两个输出；

步骤四：对于获取的关节检测的置信图和用于关节解析的关节亲密度进行强化，在强化阶段，采用多尺度特征图融合技术；

步骤五：将步骤四生成的最终关节检测置信图和关节亲密度解析置信图结合，生成多人人体姿势。

步骤三所述的姿态识别过程中，采用一个1×1卷积核、两个3×3卷积核来代替原OpenPose框架姿态识别分支中7×7的卷积核。步骤三中所述自底向上的方式是指对图像中所有人首先进行关节检测，然后将在关节的基础上进行关节解析，属于同一个人的关节解析识别为该人的姿势。

步骤四中所述多尺度特征图融合技术包括深层语义特征和浅层细节特征；其中所述深层语义特征，包括图像中目标位置信息以及图像中目标类别信息的特征分析。

有益效果：本发明提供了一种可以在硬件资源有效的移动物联网设备上进行人体姿态识别的轻量化模型，相比当前参数量庞大的网络模型，本发明提出的模型在基本保持精度的同时有效地解决了神经网络模型参数数量巨大而在实际生活中难以运用的问题。

附图说明

图1是人体18个关节点示意图；

图2是现有的OpenPose的框架图；

图3是人体关节点置信图；

图4是人体关节解析置信图；

图5是(a)测试图片以及(b)从测试图片中检测到的全部人体关节图；

图6是人体不同姿势的关节解析图(a)手前臂水平和(b)手前臂垂直；

图7是人体姿势演示图；

图8是发明输出结果图，包括(a)最终的人体姿势；(b)最终的人体关节；(c)最终的人体关节在x轴上的表示图和(d)最终的人体关节在y轴上的表示图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的面向物联网移动端设备的轻量级人体姿态识别方法，提供了一种可以在硬件资源有限的移动物联网设备上进行人体姿态识别的轻量化模型，该方法的整体流程介绍如下。

步骤一：输入的是三通道的RGB图像img，图像宽度记为w，图像高度记为h，图像尺寸为h×w×3；

步骤二：OpenPose模型的原始框架如图2所示。对于输入的图像img，相比原先OpenPose采用VGG19作为骨干网，本方法采用一个改进后的MobileNet的骨干网，进行初步的特征提取。改进后的MobileNet网络生成输入图像img的特征图fm。MobileNet相比VGG19网络更为轻量，同时为了提高精度，方法对MobileNet进行了改进。改进后的MobileNet相比原先的MobileNet，采用了空洞卷积来代替原先每一层的标准卷积，以获取更大的感受野，在参数基本不变的同时保证网络可以尽量捕捉关节之间的空间关联。此外，为了使获得的特征图更加具有鲁棒性和含有更多的图像特征信息，对于MobileNet骨干网，本发明在相邻的卷积层引入了残差连接模块。残差连接模块的引入并不会引进额外的参数，因此，基本不会带来计算量的增长。

步骤三：对于步骤二获取的特征图fm，将采用自底向上的方式进行姿态识别。为了应对模型处理姿势的速度要求，自底向上的方式相比自顶向下的方式更优。自底向上的方式即对图像中所有人首先进行关节检测，人体关节点信息如图1所示。然后，将在关节的基础上进行关节解析，属于同一个人的关节解析识别为该人的姿势。自顶向下的方式是首先进行人体检测，将人体逐个分开，然后，对单个人体进行姿态识别工作。相比自底向上的方式，自顶向下的方式更加依赖计算资源。图3和图4分别为人体关节点置信图和关节解析置信图，越亮的地方表示置信度越高。

在借助特征图fm对图中所有人进行关节检测的同时，还需要为下一步的关节解析提供指导。原始OpenPose首先将输入特征图并行处理，输出两个分支。分支一负责关节检测，对图中所有可能的关节位置进行识别，生成各个关节检测的置信图。分支二负责为关节解析提供指导，生成关节之间的亲密度。亲密度越高，表示越有可能是属于同一个人的不同关节。考虑到两个分支结构一致，只有输出不同，本发明采取的轻量化操作是合并这两个分支，即采用两个不同通道数目的1×1卷积来得到原先两个分支的输出。而不是像原架构(如图2所示)由两个分支分别计算得到两个输出。此外，相比原先分支采用7×7的卷积核，轻量化模型采用一个1×1卷积核，两个3×3卷积核来代替。为解决感受野减小的问题，3×3卷积核采用空洞为2的空洞卷积来保证足够大的感受野。图5和图6分别表示检测到的全部人体关节点和左胳膊的关节解析置信图。

步骤四：在经过步骤三之后，可以得到关节检测的置信图和用于关节解析的关节亲密度。但是，往往需要进行多个强化阶段来获取精准的姿态，提高模型性能。相比原始ODenPose后续采用5个强化阶段，轻量化操作是采取较少的强化阶段。因为，通过对各个强化阶段带来的性能提升和计算量增幅，更多的强化阶段带来的收益并不合适，后期的强化阶段带来的提升十分有限而伴随GFlOPs显著增大。在强化阶段，本发明采用了多尺度特征图融合技术。目的是增强强化阶段特征图的鲁棒性，使得模型可以更加有效地接收不同尺度的特征信息，包括深层语义特征和浅层细节特征。本实施例中深层语义特征引入图像中目标位置信息和图像中目标类别信息的特征分析。多尺度特征图融合也并没有引入额外的参数，因此也不会带来计算量的额外增长。

本发明在骨干网改进的MobileNet之后，仅采用一个初始阶段和一个依照步骤五的改进强化阶段来保证模型的轻量化，而且基本保持了模型的精度。

步骤五：将步骤四生成的最终关节检测置信图和关节亲密度解析置信图结合，进行多人人体姿势生成。图7表示最终的多人人体姿势，不同的颜色表示不同的关节部位。图8表示模型最终的输出，分别是最终的人体姿势，最终的人体关节，最终的人体关节在x和y轴上的表示图。

Claims

1.一种面向物联网移动端设备的轻量级人体姿态识别方法，其特征在于，包括以下步骤：

步骤一：输入三通道的RGB图像；

2.根据权利要求1所述的面向物联网移动端设备的轻量级人体姿态识别方法，其特征在于：步骤三所述的姿态识别过程中，采用一个1×1卷积核、两个3×3卷积核来代替原OpenPose框架姿态识别分支中7×7的卷积核。

3.根据权利要求1所述的面向物联网移动端设备的轻量级人体姿态识别方法，其特征在于：步骤三中所述自底向上的方式是指对图像中所有人首先进行关节检测，然后将在关节的基础上进行关节解析，属于同一个人的关节解析识别为该人的姿势。

4.根据权利要求1所述的面向物联网移动端设备的轻量级人体姿态识别方法，其特征在于：步骤四中所述多尺度特征图融合技术是指特征分析包括深层语义特征和浅层细节特征。

5.根据权利要求4所述的面向物联网移动端设备的轻量级人体姿态识别方法，其特征在于：所述深层语义特征，包括图像中目标位置信息以及图像中目标类别信息的特征分析。