CN113947784A

CN113947784A - 一种轻量级的实时人体姿态估计方法

Info

Publication number: CN113947784A
Application number: CN202111265907.7A
Authority: CN
Inventors: 吴文平; 高岚; 谢梓溪
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-18

Abstract

本发明公开了一种轻量级的实时人体姿态估计方法，加载训练数据COCO或者MPII等数据集，通过数据增强方法生成训练数据Heatmap特征图和关键点；分别训练Heatmap预测模块和回归预测模块；裁剪模型结构，去掉Heatmap预测模块，保留回归预测模块，直接预测人体关键点。本发明针对传统模型结构复杂，难以满足实时处理的问题，采用轻量级网络MobilenetV2重构Hourglass网络模型作为主干网络进行预测，可在嵌入式设备上进行实时推理；增加回归模块预测方法，直接预测人体关键点，有效降低CPU和内存占用，可满足实际应用的需求。

Description

一种轻量级的实时人体姿态估计方法

技术领域

本发明涉及计算机视觉技术领域，具体的说，是一种轻量级的实时人体姿态估计方法。

背景技术

人体姿态估计是计算机视觉领域的重要问题之一，旨在从图像中估计人体的若干关键点。现有技术中人体姿态估计方法存在的问题有：1.模型结构往往比较复杂，模型推理时间长，计算量大，难以满足嵌入式端实时处理的要求，典型如CPM，Hourglass等模型；2.传统方法基本都采用Heatmap进行关键点预测，需要进行CPU后处理计算，其耗时代价和消耗内存都相对太大，难以满足电视端等嵌入式设备CPU占用要求。

发明内容

本发明的目的在于提供一种轻量级的实时人体姿态估计方法，用于解决现有技术中人体姿态估计方法不满足实时处理要求以及占用CPU和内存较大的问题。

本发明通过下述技术方案解决上述问题：

一种轻量级的实时人体姿态估计方法，包括：

步骤S1、加载数据集，并通过数据增强方法生成训练数据；

步骤S2、依照沙漏网络模型Hourglass堆叠网络构建原始的编解码模块，将Hourglass的基本网络单元残差模块替换为轻量级网络MobilenetV2中的反残差模块，形成轻量级编解码模块；轻量级编解码模块包括轻量级编码模块和轻量级解码模块，轻量级编码模块用于在图像上提取人体关键点特征，轻量级解码模块用于为轻量级编码模块提取的人体关键点恢复图像空间位置信息并输出Heatmap特征图；轻量级编码模块的输出层后面连接轻量级回归模块，轻量级回归模块的输入为轻量级编码模块的输出结果，输出为人体关键点预测坐标；

步骤S3、分别训练轻量级编解码模块和轻量级回归模块，具体为：

训练轻量级编解码模块，输入为训练数据中的图像，输出Heatmap特征图，采用均方误差MSE损失函数loss预测，待loss下降并保持稳定时，停止训练；

冻结轻量级编解码模块参数，仅训练轻量级回归模块参数，输入为训练数据中的图像，输出为人体关键点预测坐标，采用均方误差MSE损失函数loss预测，待loss下降并保持稳定时，停止训练；

步骤S4、裁剪模型，去掉轻量级解码模块，保留轻量级回归模块；

步骤S5、采用轻量级回归模块直接预测人体关键点。

本发明采用轻量级网络重构原始网络，有效提高了模型的推理速度，满足基于嵌入式端如电视的实时人体姿态估计。相比传统Heatmap预测方法需要进行后处理计算CPU和内存占用高的问题，本发明采用裁剪后的轻量级回归模型直接预测人体关键点，实现了人体关键点的直接回归预测，有效降低CPU和内存占用。

轻量级回归模块采用与轻量级编码模块相同的结构，且在最后层新增一个卷积层用于回归预测人体关键点，中间层连接方式与原始的编解码模块相同。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明针对传统模型结构复杂，难以满足实时处理的问题，采用轻量级网络MobilenetV2重构Hourglass网络模型作为主干网络进行预测，模型足够轻量，可在嵌入式设备上进行实时推理；其次针对Heatmap预测方法需要进行后处理计算，CPU和内存占用高的问题，提出了增加回归模块预测方法，直接预测人体关键点，有效降低CPU和内存占用，可满足实际应用的需求。

(2)本发明实现了基于电视嵌入式端的实时人体姿态估计方法，采用轻量级网络重构原始网络，有效提高了模型的推理速度，可以满足实际应用的实时推理。

附图说明

图1为沙漏网络模型Hourglass的结构图；

图2为ResNet残差模块替换为MobilenetV2反残差模块的示意图；

图3为本发明的轻量级编解码模块和轻量级回归模块的结构图；

图4为本发明的流程图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例：

结合附图4所示，一种轻量级的实时人体姿态估计方法，包括以下步骤：

步骤1、加载训练数据COCO或者MPII等数据集，输入RGB图片大小为256*192*3。

步骤2、通过数据增强方法生成训练数据：Heatmap特征图大小为64*48*17，人体关键点坐标为(x,y,cls)*17,其中(px,py)为关键点坐标，cls为关键点置信度。

步骤3、模型主干网络借鉴Hourglass堆叠网络如图1所示，构建相同的编解码模块结构。将原始模型的基本网络单元ResNet残差模块，替换为轻量级网络MobilenetV2中的反残差模块，如图2所示，使其网络参数量相比原始网络大幅度下降，形成轻量级编解码模型结构。

步骤4、轻量级编解码模型块包括轻量级编码模块和轻量级解码模块，轻量级编码模块主要在图像上进行人体关键点特征提取，其输入图片大小为256*192*3，输出特征图大小为8*6*256。轻量级解码模块为人体关键点恢复图像空间位置信息，其输入为轻量级编码模块C1-C6各层输出结果，如图3所示，输出为Heatmap特征图大小为64*48*17。

步骤5、轻量级编码模块C1-C4输出层后面，新增加轻量级回归模块用于回归预测人体关键点，如图3所示，其输入为轻量级编码模块C1-C4各层输出结果，输出为人体关键点预测坐标(px,py,pcls)*17，其中(px,py)为关键点预测坐标，cls为关键点预测置信度，其中轻量级回归模块C1d-C4d与轻量级编码模块C1-C4层相同，C4d层新接卷积层C8用于回归预测人体关键点，C1d-C4d分别于C1-C4各层相连接，连接方式与原始编解码网络相同。

步骤6、首先训练轻量级编解码模块，训练时其输入图片大小为256*192*3，输出Heatmap特征图大小为64*48*17，采用MSE均方误差损失函数，待训练loss下降并保持稳定时，停止训练，此时轻量级回归模块不参与训练。

步骤7、训练轻量级编解码模块完成后，冻结轻量级编解码模块参数，只进行轻量级回归模块参数训练，梯度不反向传播，训练时输入图片大小为256*192*3，输出为人体关键点预测坐标(px,py,pcls)*17，采用MSE均方误差损失函数，待训练loss下降并保持稳定时，停止训练。

步骤8、最后部署时裁剪模型结构，去掉轻量级解码模块Heatmap预测，保留轻量级回归模块预测。

步骤9、采用轻量级回归模块直接预测人体关键点。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种轻量级的实时人体姿态估计方法，其特征在于，包括：

步骤S1、加载数据集，并通过数据增强方法生成训练数据；

步骤S5、采用轻量级回归模块直接预测人体关键点。

2.根据权利要求1所述的一种轻量级的实时人体姿态估计方法，其特征在于，轻量级回归模块采用与轻量级编码模块相同的结构，且在最后层新增一个卷积层用于回归预测人体关键点，中间层连接方式与原始的编解码模块相同。