CN114140828B - 一种实时轻量级2d人体姿态估计方法 - Google Patents
一种实时轻量级2d人体姿态估计方法 Download PDFInfo
- Publication number
- CN114140828B CN114140828B CN202111477999.5A CN202111477999A CN114140828B CN 114140828 B CN114140828 B CN 114140828B CN 202111477999 A CN202111477999 A CN 202111477999A CN 114140828 B CN114140828 B CN 114140828B
- Authority
- CN
- China
- Prior art keywords
- convolution
- parameters
- depth
- image
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 238000005259 measurement Methods 0.000 claims abstract description 5
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 230000006872 improvement Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 230000033001 locomotion Effects 0.000 abstract description 8
- 238000004364 calculation method Methods 0.000 abstract description 4
- 210000000988 bone and bone Anatomy 0.000 abstract description 3
- 230000008030 elimination Effects 0.000 abstract description 2
- 238000003379 elimination reaction Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种实时轻量级2D人体姿态估计方法:首先提取视频帧图像,消除图像中的高斯噪声,然后通过融入注意力机制的目标检测算法检测图像中的目标人物位置,再通过改进的轻量级OpenPose模型提取人体骨骼关节点坐标,后利用贝塞尔曲线得到关节运动轨迹,同时使用轨迹相似性度量算法计算得到关节间的距离数组,最后利用线性变换分类器对获取的关节点坐标进行分类,从而快速准确地识别出人物的姿态;本发明工作高效,更具实时性,以较低的设备成本运行,并以较低的计算量处理骨架数据,对噪声的干扰具有很强的鲁棒性,使人体姿态估计方法更具准确性、及时性以及在复杂的环境背景下表现更佳,消除了光线和阴影对人体姿态估计的影响。
Description
技术领域
本发明属于计算机图形处理技术领域,具体涉及一种实时轻量级2D人体姿态估计方法。
背景技术
秦腔“形成于秦,精进于汉,昌明于唐,完整于元,成熟于明,广播于清,几经演变,蔚为大观答”,是相当古老的剧种,堪称中国戏曲的鼻祖。旧时,在中国西北辽阔的大地乃至西域国家,秦腔曾是老百姓最为喜爱和掌握的艺术形式。它简单灵活、轻松幽默、亲切随和,富有浓郁的地域特色和乡土气息。然而随着现代经济高速发展,互联网快速普及,国民大众的娱乐方式发生了变化。秦腔原始的娱乐性功能被削弱,受众群体老龄化,面临着生存和发展的危机。
通过对摄像头生成的视频流逐帧提取图像,采用基于OpenPose改进的方法对视频流中的人物进行实时人体姿态估计,以此用来进行实时人机交互,让人们可以边看秦腔戏曲视频边跟着学,极大地推动了秦腔文化的发展,以更加现代化的方式让人们重拾对传统戏剧的兴趣,体会秦腔这一传统中华文化的深厚艺术积累和丰富的人文内涵。
目前,2D人体姿态估计是一个热门的研究课题,涵盖了广泛的应用范围。人们已经尝试了许多方法来定位身体部位的解剖关键点。Myers等人使用带有八个摄像头的运动捕捉系统研究了100名高尔夫球手挥杆时的臀部和躯干运动。Fujimori等人开发了一套可穿戴套装可以用全身的触觉传感器和一个运动传感器来捕捉运动,以此来估计其方向。Evans等人使用电磁运动捕捉系统来估计三维高尔夫挥杆运动。Liu等人提出了一个康复系统,并使用Kinect相机的骨骼定位模块从深度图像中捕获3D数据摄像机从深度图像中捕获3D数据,从单个图片中获得静态手势。这些传统的人体姿态识别方法缺乏准确性和即时性,并且在复杂的环境背景下表现不佳。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种实时轻量级2D人体姿态估计方法,具有较高的实时性,以较低的设备成本运行,并以较低的计算量处理骨架数据,工作高效,同时对噪声的干扰具有很强的鲁棒性。
为了实现上述目的,本发明采用以下技术方案予以实现:
一种实时轻量级2D人体姿态估计方法,包括以下步骤:
步骤1:对视频流提取出的视频帧图像进行预处理:以中心点为基准,将图像统一缩放裁剪;
步骤2:对步骤1得到的视频帧图像进行平滑处理,并抑制图像中的高斯噪声;
步骤3:将Senet通道注意力机制融入到目标检测算法中,对步骤2得到的图像进行目标检测;
步骤4:在原始的OpenPose模型网络中,用深度可分离卷积为核心的Mobilenet网络替换VGG19;
步骤5:通过改进的OpenPose模型提取人体骨骼关节点坐标;
步骤6:将步骤5获得的人体骨骼关节点坐标通过贝塞尔曲线得到关节运动轨迹,并使用轨迹相似性度量算法得到关节间的距离数组;
步骤7:利用线性变换分类器对步骤6获取的关节点坐标进行分类,判断人物的行为姿态。
本发明还具有以下技术特征:
优选的,所述的步骤1中将图像统一缩放裁剪为512×512mm大小。
优选的,所述的步骤2中使用高斯滤波器抑制图像中的高斯噪声。
优选的,所述的步骤3中将Senet通道注意力机制融入到Tiny_YOLOv3目标检测算法中,对步骤2得到的图像进行目标检测。
优选的,所述的步骤4中用深度可分离卷积为核心的Mobilenet网络替换OpenPose网络结构中的VGG19,同时采用residual结构的3个3×3的卷积替换一个7×7卷积。
进一步的,采用深度可分离卷积的形式对每一个3×3卷积继续改进。
进一步的,步骤4所述的深度可分离卷积由深度卷积和点卷积组成;
假设输入图像大小为D1×D1×M,卷积核大小为DK×DK×M,输出图像大小为D0×D0×N,则传统卷积的参数量为:
Wstand=(DK×DK×M)×N (1)
其中,Wstand表示的传统卷积的参数量,DK×DK代表卷积核的长、宽,D1×D1和D0×D0分别代表输入图像和输出图像的长和宽,M和N代表图像的深度;
而深度卷积的卷积核尺寸大小为(DK,DK,1),共有M个,点卷积的卷积核尺寸大小为(1,1,M),共有N个,则深度卷积和点卷积的参数量为:
Wdepthwise=(DK×DK×1)×M (2)
Wpointwise=(1×1×M)×N (3)
其中Wdepthwise表示深度卷积的参数量,Wpointwise表示点卷积的参数量;
因此,深度可分离卷积参数量为:
WD=Wdepthwise+Wpointwise
=(DK×DK×1)×M+(1×1×M)×N (4)
其中,WD表示的是深度可分离卷积参数量;
所以,深度可分离卷积参数量与传统卷积参数量的参数之比为:
其中η表示的是深度可分离卷积参数量与传统卷积参数量的参数之比,WD表示的是深度可分离卷积参数量,Wstand表示的传统卷积的参数量,N代表输出图像的深度,代表卷积核大小的平方。
本发明与现有技术相比,具有如下技术效果:
本发明是一种实时轻量级2D人体姿态估计方法,首先通过高斯滤波消除图像中的高斯噪声,然后通过融入注意力机制的目标检测算法检测图像中的目标人物位置,再将检测后的图像通过改进的OpenPose模型提取人体骨骼关节点坐标,通过贝塞尔曲线得到关节运动轨迹和轨迹相似性度量算法得到关节间的距离数组,最后利用线性变换分类器对获取的关节点坐标进行分类,从而快速准确地识别出人物的姿态活动;
本发明方法使系统工作高效,具有较高的实时性,以较低的设备成本运行,并以较低的计算量处理骨架数据,同时对噪声的干扰具有很强的鲁棒性,提高了人体姿态估计方法的准确性、及时性,实现在复杂的环境背景下有效提取,消除了光线和阴影对人体姿态估计的影响。
附图说明
图1是提取到的视频帧图像;
图2是高斯滤波器处理后的视频帧图像;
图3是融入SEBlock的Tiny_YOLOv3的网络结构图;
图4是目标检测结果图;
图5是采用residual结构改进7×7卷积核的网络结构图;
图6是采用深度可分离卷积改进3×3卷积核的网络结构图;
图7是使用改进的OpenPose提取的骨骼关节点;
图8是OpenPose所能识别的关节点;
图9是通过贝塞尔曲线和轨迹相似性度量算法得到的关节轨迹;
图10是人体姿态估计图;
图11是方法总体框架。
具体实施方式
以下结合实施例对本发明的具体内容做进一步详细解释说明。
本发明提供了一种实时轻量级2D人体姿态估计方法,具体包括以下步骤:
步骤1:对视频流提取出的视频逐帧图像进行预处理:以中心点为基准,将图像统一缩放裁剪为512×512mm大小,如图1是得到的视频帧图像;
步骤2:对步骤1得到的视频帧图像进行平滑处理,通过使用高斯滤波器抑制图像中的高斯噪声,如图2是使用高斯滤波器处理后的视频帧图像;
步骤3:将Senet通道注意力机制融入到Tiny_YOLOv3目标检测算法中,对步骤2得到的图像进行目标检测,如图3是融入注意力机制的Tiny_YOLOv3网络结构,图4是目标检测结果图;
步骤4:在原始的OpenPose模型网络中,用深度可分离卷积为核心的Mobilenet网络替换VGG19,同时采用residual结构的3个3×3的卷积替换一个7×7卷积;采用residual结构改进7×7卷积核如图5所示。同时,采用深度可分离卷积的形式对每一个3×3卷积继续改进,如图6所示。
深度可分离卷积由深度卷积和点卷积组成。假设输入图像大小为D1×D1×M,卷积核大小为DK×DK×M,输出图像大小为D0×D0×N,则传统卷积的参数量为:
Wstand=(DK×DK×M)×N (1)
其中,Wstand表示的传统卷积的参数量,DK×DK代表卷积核的长、宽,D1×D1和D0×D0分别代表输入图像和输出图像的长和宽,M和N代表图像的深度。
而深度卷积的卷积核尺寸大小为(DK,DK,1),共有M个卷积核,点卷积的卷积核尺寸大小为(1,1,M),共有N个,则深度卷积和点卷积的参数量为:
Wdepthwise=(DK×DK×1)×M (2)
Wpointwise=(1×1×M)×N (3)
其中,Wdepthwise表示深度卷积的参数量,Wpointwise表示点卷积的参数量。
因此,深度可分离卷积参数量为:
WD=Wdepthwise+Wpointwise
=(DK×DK×1)×M+(1×1×M)×N (4)
其中,WD表示的是深度可分离卷积参数量。
所以,深度可分离卷积参数量与传统卷积参数量的参数之比为:
其中,η表示的是深度可分离卷积参数量与传统卷积参数量的参数之比,WD表示的是深度可分离卷积参数量,Wstand表示的传统卷积的参数量,N代表输出图像的深度,代表卷积核大小的平方。
步骤5:通过改进的OpenPose模型提取人体骨骼关节点坐标。识别结果如图7所示。OpenPose所能识别的关节点如图8所示。
步骤6:将步骤5获得的人体骨骼关节点坐标通过贝塞尔曲线得到关节运动轨迹,并使用轨迹相似性度量算法得到关节间的距离数组。计算结果如图9所示。
步骤7:利用线性变换分类器对步骤6计算得到的关节间的距离数组进行分类,判断人物的姿态活动。分类结果如图10所示。整体框架如图11所示。
Claims (3)
1.一种实时轻量级2D人体姿态估计方法,其特征在于,包括以下步骤:
步骤1:对视频流提取出的视频帧图像进行预处理:以中心点为基准,将图像统一缩放裁剪;
步骤2:对步骤1得到的视频帧图像进行平滑处理,并抑制图像中的高斯噪声;
步骤3:将Senet通道注意力机制融入到Tiny_YOLOv3目标检测算法中,对步骤2得到的图像进行目标检测;
步骤4:在原始的OpenPose模型网络中,用深度可分离卷积为核心的Mobilenet网络替换OpenPose网络结构中VGG19,同时采用residual结构的3个3×3的卷积替换一个7×7卷积;
采用深度可分离卷积的形式对每一个3×3卷积继续改进;
所述的深度可分离卷积由深度卷积和点卷积组成;
假设输入图像大小为D1×D1×M,卷积核大小为DK×DK×M,输出图像大小为D0×D0×N,则传统卷积的参数量为:
Wstand=(DK×DK×M)×N (1)
其中,Wstand表示的传统卷积的参数量,DK×DK代表卷积核的长、宽,D1×D1和D0×D0分别代表输入图像和输出图像的长和宽,M和N代表图像的深度;
而深度卷积的卷积核尺寸大小为(DK,DK,1),共有M个,点卷积的卷积核尺寸大小为(1,1,M),共有N个,则深度卷积和点卷积的参数量为:
Wdepthwise=(DK×DK×1)×M (2)
Wpointwise=(1×1×M)×N (3)
其中Wdepthwise表示深度卷积的参数量,Wpointwise表示点卷积的参数量;
因此,深度可分离卷积参数量为:
WD=Wdepthwise+Wpointwise
=(DK×DK×1)×M+(1×1×M)×N (4)
其中,WD表示的是深度可分离卷积参数量;
所以,深度可分离卷积参数量与传统卷积参数量的参数之比为:
其中η表示的是深度可分离卷积参数量与传统卷积参数量的参数之比,WD表示的是深度可分离卷积参数量,Wstand表示的传统卷积的参数量,N代表输出图像的深度,代表卷积核大小的平方;
步骤5:通过改进的OpenPose模型提取人体骨骼关节点坐标;
步骤6:将步骤5获得的人体骨骼关节点坐标通过贝塞尔曲线得到关节运动轨迹,并使用轨迹相似性度量算法得到关节间的距离数组;
步骤7:利用线性变换分类器对步骤6获取的关节点坐标进行分类,判断人物的行为姿态。
2.根据权利要求1所述的实时轻量级2D人体姿态估计方法,其特征在于:所述的步骤1中将图像统一缩放裁剪为512×512mm大小。
3.根据权利要求1所述的实时轻量级2D人体姿态估计方法,其特征在于:所述的步骤2中使用高斯滤波器抑制图像中的高斯噪声。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111477999.5A CN114140828B (zh) | 2021-12-06 | 2021-12-06 | 一种实时轻量级2d人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111477999.5A CN114140828B (zh) | 2021-12-06 | 2021-12-06 | 一种实时轻量级2d人体姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114140828A CN114140828A (zh) | 2022-03-04 |
CN114140828B true CN114140828B (zh) | 2024-02-02 |
Family
ID=80384285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111477999.5A Active CN114140828B (zh) | 2021-12-06 | 2021-12-06 | 一种实时轻量级2d人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114140828B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116434127B (zh) * | 2023-06-14 | 2023-11-07 | 季华实验室 | 人体姿态估计方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN110969124A (zh) * | 2019-12-02 | 2020-04-07 | 重庆邮电大学 | 基于轻量级多分支网络的二维人体姿态估计方法及系统 |
CN111695457A (zh) * | 2020-05-28 | 2020-09-22 | 浙江工商大学 | 一种基于弱监督机制的人体姿态估计方法 |
CN112101318A (zh) * | 2020-11-17 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 基于神经网络模型的图像处理方法、装置、设备及介质 |
CN112131985A (zh) * | 2020-09-11 | 2020-12-25 | 同济人工智能研究院(苏州)有限公司 | 一种基于OpenPose改进的实时轻量人体姿态估计方法 |
-
2021
- 2021-12-06 CN CN202111477999.5A patent/CN114140828B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN110969124A (zh) * | 2019-12-02 | 2020-04-07 | 重庆邮电大学 | 基于轻量级多分支网络的二维人体姿态估计方法及系统 |
CN111695457A (zh) * | 2020-05-28 | 2020-09-22 | 浙江工商大学 | 一种基于弱监督机制的人体姿态估计方法 |
CN112131985A (zh) * | 2020-09-11 | 2020-12-25 | 同济人工智能研究院(苏州)有限公司 | 一种基于OpenPose改进的实时轻量人体姿态估计方法 |
CN112101318A (zh) * | 2020-11-17 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 基于神经网络模型的图像处理方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
基于深度图像的实时多人体姿态估计;肖贤鹏;刘理想;胡莉;张华;;传感器与微系统(06);全文 * |
轻量级双路卷积神经网络与帧间信息推理的人体姿态估计;陈昱昆;汪正祥;于莲芝;;小型微型计算机系统(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114140828A (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766842B (zh) | 一种手势识别方法及其应用 | |
CN108171133B (zh) | 一种基于特征协方差矩阵的动态手势识别方法 | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
CN109117753B (zh) | 部位识别方法、装置、终端及存储介质 | |
Yargıç et al. | A lip reading application on MS Kinect camera | |
CN104821010A (zh) | 基于双目视觉的人手三维信息实时提取方法及系统 | |
CN111415318B (zh) | 基于拼图任务的无监督相关滤波目标跟踪方法及系统 | |
CN101339661A (zh) | 一种基于手持设备运动检测的实时人机交互方法和系统 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN111723687A (zh) | 基于神经网路的人体动作识别方法和装置 | |
CN114140828B (zh) | 一种实时轻量级2d人体姿态估计方法 | |
CN111832517A (zh) | 基于门控卷积的低清人脸关键点检测方法 | |
CN113378799A (zh) | 基于目标检测和姿态检测框架的行为识别方法及系统 | |
CN116630495B (zh) | 基于aigc算法的虚拟数字人模型规划系统 | |
Singh | Recognizing hand gestures for human computer interaction | |
CN110163489B (zh) | 一种戒毒运动锻炼成效评价方法 | |
CN109635764A (zh) | 一种基于多特征线性时序编码的人体行为识别方法及系统 | |
Ye et al. | Human motion analysis based on extraction of skeleton and dynamic time warping algorithm using RGBD camera | |
CN111652023B (zh) | 嘴型的调整、直播方法、装置、电子设备和存储介质 | |
CN114548224A (zh) | 一种用于强交互人体运动的2d人体位姿生成方法及装置 | |
CN112069943A (zh) | 基于自顶向下框架的在线多人姿态估计与跟踪方法 | |
CN114463817B (zh) | 一种轻量级的基于2d视频的人脸表情驱动方法和系统 | |
US20230252814A1 (en) | Method and apparatus for extracting human objects from video and estimating pose thereof | |
CN116386089B (zh) | 运动场景下人体姿态估计方法、装置、设备及存储介质 | |
KR102591082B1 (ko) | 딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |