CN114140828B

CN114140828B - 一种实时轻量级2d人体姿态估计方法

Info

Publication number: CN114140828B
Application number: CN202111477999.5A
Authority: CN
Inventors: 耿国华; 李启航; 冯龙; 王雨; 赵燕婷; 武浩东; 周蓬勃; 刘阳洋
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2024-02-02
Anticipated expiration: 2041-12-06
Also published as: CN114140828A

Abstract

本发明公开了一种实时轻量级2D人体姿态估计方法：首先提取视频帧图像，消除图像中的高斯噪声，然后通过融入注意力机制的目标检测算法检测图像中的目标人物位置，再通过改进的轻量级OpenPose模型提取人体骨骼关节点坐标，后利用贝塞尔曲线得到关节运动轨迹，同时使用轨迹相似性度量算法计算得到关节间的距离数组，最后利用线性变换分类器对获取的关节点坐标进行分类，从而快速准确地识别出人物的姿态；本发明工作高效，更具实时性，以较低的设备成本运行，并以较低的计算量处理骨架数据，对噪声的干扰具有很强的鲁棒性，使人体姿态估计方法更具准确性、及时性以及在复杂的环境背景下表现更佳，消除了光线和阴影对人体姿态估计的影响。

Description

一种实时轻量级2D人体姿态估计方法

技术领域

本发明属于计算机图形处理技术领域，具体涉及一种实时轻量级2D人体姿态估计方法。

背景技术

秦腔“形成于秦，精进于汉，昌明于唐，完整于元，成熟于明，广播于清，几经演变，蔚为大观答”，是相当古老的剧种，堪称中国戏曲的鼻祖。旧时，在中国西北辽阔的大地乃至西域国家，秦腔曾是老百姓最为喜爱和掌握的艺术形式。它简单灵活、轻松幽默、亲切随和，富有浓郁的地域特色和乡土气息。然而随着现代经济高速发展，互联网快速普及，国民大众的娱乐方式发生了变化。秦腔原始的娱乐性功能被削弱，受众群体老龄化，面临着生存和发展的危机。

通过对摄像头生成的视频流逐帧提取图像，采用基于OpenPose改进的方法对视频流中的人物进行实时人体姿态估计，以此用来进行实时人机交互，让人们可以边看秦腔戏曲视频边跟着学，极大地推动了秦腔文化的发展，以更加现代化的方式让人们重拾对传统戏剧的兴趣，体会秦腔这一传统中华文化的深厚艺术积累和丰富的人文内涵。

目前，2D人体姿态估计是一个热门的研究课题，涵盖了广泛的应用范围。人们已经尝试了许多方法来定位身体部位的解剖关键点。Myers等人使用带有八个摄像头的运动捕捉系统研究了100名高尔夫球手挥杆时的臀部和躯干运动。Fujimori等人开发了一套可穿戴套装可以用全身的触觉传感器和一个运动传感器来捕捉运动，以此来估计其方向。Evans等人使用电磁运动捕捉系统来估计三维高尔夫挥杆运动。Liu等人提出了一个康复系统，并使用Kinect相机的骨骼定位模块从深度图像中捕获3D数据摄像机从深度图像中捕获3D数据，从单个图片中获得静态手势。这些传统的人体姿态识别方法缺乏准确性和即时性，并且在复杂的环境背景下表现不佳。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种实时轻量级2D人体姿态估计方法，具有较高的实时性，以较低的设备成本运行，并以较低的计算量处理骨架数据，工作高效，同时对噪声的干扰具有很强的鲁棒性。

为了实现上述目的，本发明采用以下技术方案予以实现：

一种实时轻量级2D人体姿态估计方法，包括以下步骤：

步骤1：对视频流提取出的视频帧图像进行预处理：以中心点为基准，将图像统一缩放裁剪；

步骤2：对步骤1得到的视频帧图像进行平滑处理，并抑制图像中的高斯噪声；

步骤3：将Senet通道注意力机制融入到目标检测算法中，对步骤2得到的图像进行目标检测；

步骤4：在原始的OpenPose模型网络中，用深度可分离卷积为核心的Mobilenet网络替换VGG19；

步骤5：通过改进的OpenPose模型提取人体骨骼关节点坐标；

步骤6：将步骤5获得的人体骨骼关节点坐标通过贝塞尔曲线得到关节运动轨迹，并使用轨迹相似性度量算法得到关节间的距离数组；

步骤7：利用线性变换分类器对步骤6获取的关节点坐标进行分类，判断人物的行为姿态。

本发明还具有以下技术特征：

优选的，所述的步骤1中将图像统一缩放裁剪为512×512mm大小。

优选的，所述的步骤2中使用高斯滤波器抑制图像中的高斯噪声。

优选的，所述的步骤3中将Senet通道注意力机制融入到Tiny_YOLOv3目标检测算法中，对步骤2得到的图像进行目标检测。

优选的，所述的步骤4中用深度可分离卷积为核心的Mobilenet网络替换OpenPose网络结构中的VGG19，同时采用residual结构的3个3×3的卷积替换一个7×7卷积。

进一步的，采用深度可分离卷积的形式对每一个3×3卷积继续改进。

进一步的，步骤4所述的深度可分离卷积由深度卷积和点卷积组成；

假设输入图像大小为D₁×D₁×M，卷积核大小为D_K×D_K×M，输出图像大小为D₀×D₀×N，则传统卷积的参数量为：

W_stand＝(D_K×D_K×M)×N (1)

其中，W_stand表示的传统卷积的参数量，D_K×D_K代表卷积核的长、宽，D₁×D₁和D₀×D₀分别代表输入图像和输出图像的长和宽，M和N代表图像的深度；

而深度卷积的卷积核尺寸大小为(D_K，D_K，1)，共有M个，点卷积的卷积核尺寸大小为(1，1，M)，共有N个，则深度卷积和点卷积的参数量为：

W_depthwise＝(D_K×D_K×1)×M (2)

W_pointwise＝(1×1×M)×N (3)

其中W_depthwise表示深度卷积的参数量，W_pointwise表示点卷积的参数量；

因此，深度可分离卷积参数量为：

W_D＝W_depthwise+W_pointwise

＝(D_K×D_K×1)×M+(1×1×M)×N (4)

其中，W_D表示的是深度可分离卷积参数量；

所以，深度可分离卷积参数量与传统卷积参数量的参数之比为：

其中η表示的是深度可分离卷积参数量与传统卷积参数量的参数之比，W_D表示的是深度可分离卷积参数量，W_stand表示的传统卷积的参数量，N代表输出图像的深度，代表卷积核大小的平方。

本发明与现有技术相比，具有如下技术效果：

本发明是一种实时轻量级2D人体姿态估计方法，首先通过高斯滤波消除图像中的高斯噪声，然后通过融入注意力机制的目标检测算法检测图像中的目标人物位置，再将检测后的图像通过改进的OpenPose模型提取人体骨骼关节点坐标，通过贝塞尔曲线得到关节运动轨迹和轨迹相似性度量算法得到关节间的距离数组，最后利用线性变换分类器对获取的关节点坐标进行分类，从而快速准确地识别出人物的姿态活动；

本发明方法使系统工作高效，具有较高的实时性，以较低的设备成本运行，并以较低的计算量处理骨架数据，同时对噪声的干扰具有很强的鲁棒性，提高了人体姿态估计方法的准确性、及时性，实现在复杂的环境背景下有效提取，消除了光线和阴影对人体姿态估计的影响。

附图说明

图1是提取到的视频帧图像；

图2是高斯滤波器处理后的视频帧图像；

图3是融入SEBlock的Tiny_YOLOv3的网络结构图；

图4是目标检测结果图；

图5是采用residual结构改进7×7卷积核的网络结构图；

图6是采用深度可分离卷积改进3×3卷积核的网络结构图；

图7是使用改进的OpenPose提取的骨骼关节点；

图8是OpenPose所能识别的关节点；

图9是通过贝塞尔曲线和轨迹相似性度量算法得到的关节轨迹；

图10是人体姿态估计图；

图11是方法总体框架。

具体实施方式

以下结合实施例对本发明的具体内容做进一步详细解释说明。

本发明提供了一种实时轻量级2D人体姿态估计方法，具体包括以下步骤：

步骤1：对视频流提取出的视频逐帧图像进行预处理：以中心点为基准，将图像统一缩放裁剪为512×512mm大小，如图1是得到的视频帧图像；

步骤2：对步骤1得到的视频帧图像进行平滑处理，通过使用高斯滤波器抑制图像中的高斯噪声，如图2是使用高斯滤波器处理后的视频帧图像；

步骤3：将Senet通道注意力机制融入到Tiny_YOLOv3目标检测算法中，对步骤2得到的图像进行目标检测，如图3是融入注意力机制的Tiny_YOLOv3网络结构，图4是目标检测结果图；

步骤4：在原始的OpenPose模型网络中，用深度可分离卷积为核心的Mobilenet网络替换VGG19，同时采用residual结构的3个3×3的卷积替换一个7×7卷积；采用residual结构改进7×7卷积核如图5所示。同时，采用深度可分离卷积的形式对每一个3×3卷积继续改进，如图6所示。

深度可分离卷积由深度卷积和点卷积组成。假设输入图像大小为D₁×D₁×M，卷积核大小为D_K×D_K×M，输出图像大小为D₀×D₀×N，则传统卷积的参数量为：

W_stand＝(D_K×D_K×M)×N (1)

其中，W_stand表示的传统卷积的参数量，D_K×D_K代表卷积核的长、宽，D₁×D₁和D₀×D₀分别代表输入图像和输出图像的长和宽，M和N代表图像的深度。

而深度卷积的卷积核尺寸大小为(D_K，D_K，1)，共有M个卷积核，点卷积的卷积核尺寸大小为(1,1，M)，共有N个，则深度卷积和点卷积的参数量为：

W_depthwise＝(D_K×D_K×1)×M (2)

W_pointwise＝(1×1×M)×N (3)

其中，W_depthwise表示深度卷积的参数量，W_pointwise表示点卷积的参数量。

因此，深度可分离卷积参数量为：

W_D＝W_depthwise+W_pointwise

＝(D_K×D_K×1)×M+(1×1×M)×N (4)

其中，W_D表示的是深度可分离卷积参数量。

其中，η表示的是深度可分离卷积参数量与传统卷积参数量的参数之比，W_D表示的是深度可分离卷积参数量，W_stand表示的传统卷积的参数量，N代表输出图像的深度，代表卷积核大小的平方。

步骤5：通过改进的OpenPose模型提取人体骨骼关节点坐标。识别结果如图7所示。OpenPose所能识别的关节点如图8所示。

步骤6：将步骤5获得的人体骨骼关节点坐标通过贝塞尔曲线得到关节运动轨迹，并使用轨迹相似性度量算法得到关节间的距离数组。计算结果如图9所示。

步骤7：利用线性变换分类器对步骤6计算得到的关节间的距离数组进行分类，判断人物的姿态活动。分类结果如图10所示。整体框架如图11所示。

Claims

1.一种实时轻量级2D人体姿态估计方法，其特征在于，包括以下步骤：

步骤3：将Senet通道注意力机制融入到Tiny_YOLOv3目标检测算法中，对步骤2得到的图像进行目标检测；

步骤4：在原始的OpenPose模型网络中，用深度可分离卷积为核心的Mobilenet网络替换OpenPose网络结构中VGG19，同时采用residual结构的3个3×3的卷积替换一个7×7卷积；

采用深度可分离卷积的形式对每一个3×3卷积继续改进；

所述的深度可分离卷积由深度卷积和点卷积组成；

W_stand＝(D_K×D_K×M)×N (1)

W_depthwise＝(D_K×D_K×1)×M (2)

W_pointwise＝(1×1×M)×N (3)

因此，深度可分离卷积参数量为：

W_D＝W_depthwise+W_pointwise

＝(D_K×D_K×1)×M+(1×1×M)×N (4)

其中，W_D表示的是深度可分离卷积参数量；

其中η表示的是深度可分离卷积参数量与传统卷积参数量的参数之比，W_D表示的是深度可分离卷积参数量，W_stand表示的传统卷积的参数量，N代表输出图像的深度，代表卷积核大小的平方；

步骤5：通过改进的OpenPose模型提取人体骨骼关节点坐标；

2.根据权利要求1所述的实时轻量级2D人体姿态估计方法，其特征在于：所述的步骤1中将图像统一缩放裁剪为512×512mm大小。

3.根据权利要求1所述的实时轻量级2D人体姿态估计方法，其特征在于：所述的步骤2中使用高斯滤波器抑制图像中的高斯噪声。