CN115171149B - 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法 - Google Patents
基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法 Download PDFInfo
- Publication number
- CN115171149B CN115171149B CN202210651204.6A CN202210651204A CN115171149B CN 115171149 B CN115171149 B CN 115171149B CN 202210651204 A CN202210651204 A CN 202210651204A CN 115171149 B CN115171149 B CN 115171149B
- Authority
- CN
- China
- Prior art keywords
- bone key
- key point
- loss function
- bone
- key points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 125
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 66
- 238000012549 training Methods 0.000 claims description 37
- 238000009826 distribution Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000013459 approach Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,通过图像采集模块模块对图像进行采集,将采集的图像经过核心计算单元发送至轻量级神经网络算法模块;所述该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络,采集的图像首先进入ShuffleNetV2骨干网络进行计算,所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成;将所述基础骨干网络输出一系列卷积特征图作为关键点回归模块的输入,先通过池化层,再分别通过4个FC层,其中,FC1输出3D骨骼关键点的坐标信息,FC2输出3D骨骼关键点的得分信息,FC3输出2D骨骼关键点的的坐标信息,FC4输出2D骨骼关键点的得分信息,以此完成对3D骨骼关键点和2D骨骼关键点识别。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法。
背景技术
人体2D/3D骨骼关键点识别技术作为计算机视觉的基础任务之一,是一个非常重要的研究领域。其目标初始是从给的的传感器(摄像头,红外线等设备)输入中获取人体骨骼信息,近年来随着深度学习在图形分类、目标检测等许多计算机任务中表现出了良好的性能,人体2D/3D骨骼关键点识别也通过采用深度学习技术获得快速的发展。人体2D/3D骨骼关键点识别技术可以应用于许多应用领域,在电影和动画中各种生动形象的数字人物的产生离不开对人体动作的的捕捉。低成本和精准的人体动作捕捉系统可以更好的促进数字娱乐产业的发展。虚拟现实是一种非常有前途的技术,可以应用于教育和娱乐。通过对人体2D/3D骨骼关键点识别,可以进一步获得人与虚拟现实世界的关系,增强交互体验。人机交互中人体2D/3D骨骼关键点识别对于计算机和机器人能更好的理解人身份、位置、和行为是很重要的。以人体的姿势,计算机和机器人可以以一种简单的方式执行命令,使个过程更加智能。人体2D/3D骨骼关键点识别技术的用途很多样,对于更精细的需求以及实际落地时,往往对人体2D/3D骨骼关键点识别的精度、速度、计算量等需求较大。现有基于深度学习的2D骨骼关键点识别的新算法大多是基于高斯热图输出的方式,存在着其要求的输出特征图很大、算法训练和推理速度慢的问题。在低成本硬件平台上难以实时运行,需要搭配高成本的硬件(如GPU或高端摄像头)才能达到实时。
现有基于深度学习的3D骨骼关键点识别的新算法较为流行的是基于2D关键点的基础上或是基于高斯热图输出的方式,由于前者方式为二阶段模型,后者方式需要渲染高斯热图,两个方式都会导致推理速度慢,在实际落地项目中会造成又慢又消耗内存的情况,而导致无法使用的问题。
除了使用单目RBG图像外,越来越多的传感器被应用于3D骨骼关键点识别的研究,常见的有深度相机、雷达等。如Kinect深度相机,一个色彩感知摄像头和一个红外摄像头用于测量图像深度,可以测量场景中物体到相机的距离,用于重建三维人体模型以此获得3D3D骨骼关键点信息。但这种方式无疑会增加硬件成本,因此若是基于单目RBG图像方式对3D骨骼关键点识别将能大幅度降低硬件成本。
目前的最新的2D骨骼关键点识别算法大致可分两种方式,一种是基于热图的方式在二维骨骼关键点识别领域占据了主导位置,另一种是基于回归的方式,但是相关的研究较少。基于热图的方式,由于热图输出的值为整数,不同于坐标回归输出是浮点数,不会丢失精度,因此通过热图得到坐标放大回原图时,会承受不可避免的量化误差。对于3D骨骼关键点识别,基于热图的方式,可将热图扩展到三维空间上,但在三维热图上为了防止量化误差,不可避免地需要一个相对高分辨率的热图。因此也就自然而然的导致模型需要很大的计算量和内存开销。若是基于热图的方式模型同时对人体2D/3D骨骼关键点识别,由于热图输出是需要高度定制化的,2D骨骼关键点识别必须是二维热图输出,3D骨骼关键点识别必须是三维热图输出,这会导致模型的计算量和内存开销的需求会大幅度的提升。
发明内容
传统的骨骼关键点算法在几何先验的基础上基于模版匹配的思路来进行,精确性较差。而现有的基于深度学习的骨骼关键点识别算法由于硬件性能的限制,在低成本硬件平台上(如移动端手机、平板)的识别速度较慢,算法联动应用会造成应用卡顿、丢帧等情况,非常影响用户体验。当前发明基于一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,针对以上提到的问题,该设计方法可以实现在低成本硬件平台上,满足较高精度、快速并且人体2D/3D骨骼关键点能同时实时识别的需求。
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,所述识别方法包括:
步骤1,通过图像采集模块模块对图像进行采集,将采集的图像经过核心计算单元发送至轻量级神经网络算法模块;
步骤2,所述该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络,采集的图像首先进入ShuffleNetV2骨干网络进行计算,所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成;
步骤3,将所述基础骨干网络输出一系列卷积特征图作为关键点回归模块的输入,先通过池化层,再分别通过4个FC层,其中,FC1输出3D骨骼关键点的坐标信息,FC2输出3D骨骼关键点的得分信息,FC3输出2D骨骼关键点的的坐标信息,FC4输出2D骨骼关键点的得分信息,以此完成对3D骨骼关键点和2D骨骼关键点识别。
更进一步地,所述步骤2中的所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成进一步包括:其中卷积层conv1层经过24组3x3的卷积核(步长为2),卷积层conv5经过1024组1x1的卷积核(步长为1);池化层Maxpool1大小均为3x3,步长为2;ShuffleV2Block层结构统一,将输入通道的特征图分为两个分支,左边分支不做任何操作,右边的分支由连续的1x1卷积核和3x3卷积连接组成,两个分支用concat操作进行合并,紧接进行通道混洗(channel shuffle),左边分支由连续的3x3卷积核和1x1卷积连接组成。
更进一步地,所述步骤3进一步包括:为了对回归结果的概率分布进行监督,添加2个标准化流模块进行辅助训练,其中,标准化流模块结构统一,标准化流模块1辅助回归3D骨骼关键点,标准化流模块2辅助回归2D骨骼关键点。
更进一步地,所述标准化流模块能将基本的简单分布转换为任意的的复杂分布,在模型训练过程中,回归模块会拟合出简单分布的输出值,通过标准化流模块对拟合出来的结果值进行变换,让变换后的结果更接近目标的分布P。
更进一步地,所述标准化流模块的损失函数Lmle设置为如公式1:
其中,φ为标准化流模型的可学习参数,μg为数据的骨骼关键点坐标,为回归模块预测出来的骨骼关键点坐标,/>为回归模块预测出来的骨骼关键点得分。
更进一步地,在模型训练的过程中损失函数的选择往往是基于对数据分布的假设,如果假设数据分布是服从高斯分布,那么选择使用L2损失函数,若假设为拉普拉斯分布,则选择使用L1损失函数。
更进一步地,在模型训练过程中2D/3D骨骼关键点识别都选择使用L1损失函数,结合标准化流模块的损失函数Lmle,2D/3D骨骼关键点的训练损失函数Lkpt定义如公式3:
L1损失函数定义如公式2:
L2损失函数定义如公式3:
Lkpt损失函数定义如公式4:
Lkpt=L1+Lmle
公式4
更进一步地,训练策略为模型同时对3D骨骼关键点和2D骨骼关键点学习,其中,3D骨骼关键点与2D骨骼关键点存在一定视角上的转换,所有的物体都具有三维空间的坐标信息,在模型学习过程中,二维图像表示成规律的格子,具有细致的纹理和丰富的颜色信息,而三维信息具有丰富的形状和几何信息。
更进一步地,训练2D骨骼关键点分支作为预训练模型,有助于稳定2D骨骼关键点的识别,设计总损失函数为2D骨骼关键点损失函数与3D骨骼关键点损失函数按不同的权重比例合并,设置2D骨骼关键点损失函数的权重系数为α,3D骨骼关键点损失函数的权重系数为(1-α),用已训练2D骨骼关键点分支作为预训练模型的条件下,增加3D骨骼关键点损失函数的权重系数,让模型训练过程中更偏向对3D骨骼关键点的学习,提高模型对3D骨骼关键点识别的性能;
其中,总损失函数Lall定义为公式5:
Lall=αL2D+(1-α)L3D
公式5
其中,L2D为2D骨骼关键点损失函数,L3D为3D骨骼关键点损失函数,Lall为模型训练的总损失函数,α为2D骨骼关键点损失函数的权重系数,(1-α)为3D骨骼关键点损失函数的权重系数。
更进一步地,基于稳定的2D骨骼关键点识别的条件下,引导模型对3D骨骼关键点识别的学习,使模型学习的过程中损失函数能更快的收缩
本发明于现有技术相比,有益效果为:本发明主要面向于移动端/嵌入式设备的基于单目RGB图像回归方式的人体2D/3D骨骼关键点同时识别的算法。由于不需要高分辨率热图,因此模型的输出特征图可以很小,因此对于计算成本和内存开销的需求会大幅度的减低。由于基于回归方式,没有量化误差的问题。模型同时人体2D/3D骨骼关键点进行识别,2D骨骼关键点与3D骨骼关键点存在一定视角上的转换,二维图像表示成规律的格子,具有细致的纹理和丰富的颜色信息,而三维信息具有丰富的形状和几何信息,因此二者是具有互补性的,有利于模型学习三维和二维的骨骼关键点的识别。采用轻量级的深度学习算法并采用坐标系回归,硬件仅需采用CPU和单目摄像头,即可同时完成对人体2D/3D骨骼关键点的低成本实时识别,无需GPU或高端摄像头(如kinect),对实际项目落地时能提供极大的帮助,并且大幅度地降低硬件成本。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1是本发明的单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法的核心模块图;
图2是本发明一实施例中的轻量级神经网络算法的结构图;
图3是本发明一实施例中的轻量级神经网络算法的的分支的结构图;
图4是本发明一实施例中的轻量级神经网络算法的的另一分支的结构图;
图5是本发明一实施例中的关键点回归模块的结构图。
具体实施方式
实施例一
在本实施例中,基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法的核心模块如图1所示,其中包括图像采集模块、核心计算单元、轻量级神经网络算法模块、关键点回归模块,并结合一定的训练策略。其中图像采集模块采用任意单目摄像头,核心计算单元采用移动端CPU。本发明的核心设计为轻量级神经网络算法模块和关键点回归模块,采用这两个模块用来保证本系统在低成本硬件上的实时性能,其中在关键点回归模块内嵌入标准化流模块,在实际训练过程中标准化流模块辅助模型提升模型的性能,但在测试过程中不参与模型的推理过程,因此可以在没有任何开销的情况下对回归模型的性能有显著的提升。
一、轻量级神经网络算法模块:
该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络,其结构如图2所示。输入图像首先进入ShuffleNetV2骨干网络进行计算,该ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成。其中卷积层conv1层经过24组3x3的卷积核(步长为2),卷积层conv5经过1024组1x1的卷积核(步长为1);池化层Maxpool1大小均为3x3,步长为2;ShuffleV2Block层结构统一,其结构如图3与图4所示,如图3所示,将输入通道的特征图分为两个分支,左边分支不做任何操作,右边的分支由连续的1x1卷积核和3x3卷积连接组成,两个分支用concat操作进行合并,紧接进行通道混洗(channelshuffle)。如图4所示,与图3结构大致一致,在左边分支由连续的3x3卷积核和1x1卷积连接组成。
二、关键点回归模块:
将该骨干网络输出一系列卷积特征图作为输入,先通过池化层,再分别通过4个FC层。FC1输出3D骨骼关键点的坐标信息,FC2输出3D骨骼关键点的得分信息,FC3输出2D骨骼关键点的的坐标信息,FC4输出2D骨骼关键点的得分信息。为了对回归结果的概率分布进行监督,其中添加2个标准化流模块进行辅助训练。标准化流模块结构统一,标准化流模块1辅助回归3D骨骼关键点,标准化流模块2辅助回归2D骨骼关键点。其结构如图5所示。
标准化流模块能将一些基本的简单分布转换为任意的的复杂分布,理论来说只要变换足够复杂,那么可以拟合出任意的目标分布。在实际的训练过程中,本实施例使用的就是神经网络,因此神经网络理论上是可以接近任意的函数,因此在标准化流模型的一系列复杂转换可以通过叠加在FC层实现的。在模型训练过程中,回归模块会拟合出简单分布的输出值,通过标准化流模块对拟合出来的结果值进行变换,让变换后的结果更接近目标的分布P。
那么该标准化流模块的损失函数Lmle可以设置为如公式1
其中φ为标准化流模型的可学习参数,μg为数据的骨骼关键点坐标,为回归模块预测出来的骨骼关键点坐标,/>为回归模块预测出来的骨骼关键点得分。
在模型训练的过程中损失函数的选择往往是基于对数据分布的假设,如果假设数据分布是服从高斯分布,那么选择使用L2损失函数,若假设为拉普拉斯分布,则选择使用L1损失函数。
由于中心极限定理的保证,任何大量的数据集是趋于高斯分布的。但是对于骨骼关键点识别人途,数据量少、需要精准的预测骨骼关键点位置,概率分布相对较为稀释的,因此假设目标分布为拉普拉斯作为先验分布可能会更好,在模型训练过程中2D/3D骨骼关键点识别都选择使用L1损失函数。结合标准化流模块的损失函数Lmle,2D/3D骨骼关键点的训练损失函数Lkpt定义如下图公式3。
L1损失函数定义如下图公式2
L2损失函数定义如下图公式3
Lkpt损失函数定义如下图公式4
Lkpt=L1+Lmle
公式4
基于热图方式,对模型的热图输出使用MSE损失函数监督,从概率的角度来说MSE损失函数是基于高斯分布假设的,这将显式的要求模型学习高斯概率分布,并且热图能够提供空间上更丰富的监督信息。对于基于回归方式,缺乏空间泛化能力并且由于缺少对概率分布的监督约束,模型训练过程中对学习的分布并不稳定,极其依赖数据。因此添加标准化流模块对模型学习目标分布进行监督,有助于提高对3D骨骼关键点和2D骨骼关键点识别的性能,并且仅在模型训练过程中使用标准化流模块辅助模型的回归模块训练,在测试过程中标准化流模块将不参与模型的推理过程,因此可以在不增加模型的推理速度的同时提升模型对2D/3D骨骼关键点识别的性能。
三、训练策略:
模型同时对3D骨骼关键点和2D骨骼关键点学习。3D骨骼关键点与2D骨骼关键点存在一定视角上的转换,所有的物体都具有三维空间的坐标信息,在模型学习过程中,二维图像表示成规律的格子,具有细致的纹理和丰富的颜色信息,而三维信息具有丰富的形状和几何信息,因此二者是具有互补性的。模型同时对3D骨骼关键点和2D骨骼关键点学习,能将二者的优点充分结合在一起,两者相辅相成有助于提高对3D骨骼关键点和2D骨骼关键点识别的性能以及鲁棒性。
在实际训练过程中,先训练2D骨骼关键点分支作为预训练模型,有助于稳定2D骨骼关键点的识别。设计总损失函数为2D骨骼关键点损失函数与3D骨骼关键点损失函数按不同的权重比例合并,设置2D骨骼关键点损失函数的权重系数为α,3D骨骼关键点损失函数的权重系数为(1-α),用已训练2D骨骼关键点分支作为预训练模型的条件下,可以增加3D骨骼关键点损失函数的权重系数,让模型训练过程中更偏向对3D骨骼关键点的学习,提高模型对3D骨骼关键点识别的性能。
总损失函数Lall定义如下图公式5
Lall=αL2D+(1-α)L3D
公式5
其中L2D为2D骨骼关键点损失函数,L3D为3D骨骼关键点损失函数,Lall为模型训练的总损失函数,α为2D骨骼关键点损失函数的权重系数,(1-α)为3D骨骼关键点损失函数的权重系数。
由于在基于稳定的2D骨骼关键点识别的条件下,引导模型对3D骨骼关键点识别的学习,使模型学习的过程中损失函数能更快的收缩。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (2)
1.一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,所述识别方法包括:
步骤1,通过图像采集模块对图像进行采集,将采集的图像经过核心计算单元发送至轻量级神经网络算法模块;
步骤2,所述轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络,采集的图像首先进入ShuffleNetV2骨干网络进行计算,所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成,其中,所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成进一步包括:其中卷积层conv1层经过24组3x3的卷积核,卷积层conv5经过1024组1x1的卷积核;池化层Maxpool1大小均为3x3,步长为2;ShuffleV2Block层结构统一,将输入通道的特征图分为两个分支,左边分支不做任何操作,右边的分支由连续的1x1卷积核和3x3卷积连接组成,两个分支用concat操作进行合并,紧接进行通道混洗,左边分支由连续的3x3卷积核和1x1卷积连接组成;
步骤3,将所述基础骨干网络输出的一系列卷积特征图作为关键点回归模块的输入,先通过池化层,再分别通过4个FC层,其中,FC1输出3D骨骼关键点的坐标信息,FC2输出3D骨骼关键点的得分信息,FC3输出2D骨骼关键点的坐标信息,FC4输出2D骨骼关键点的得分信息,以此完成对3D骨骼关键点和2D骨骼关键点识别,对回归结果的概率分布进行监督,添加2个标准化流模块进行辅助训练,其中,标准化流模块结构统一,第一标准化流模块辅助回归3D骨骼关键点,第二标准化流模块辅助回归2D骨骼关键点,其中所述标准化流模块能将基本的简单分布转换为任意的复杂分布,在模型训练过程中,回归模块会拟合出简单分布的输出值,通过标准化流模块对拟合出来的结果值进行变换,让变换后的结果更接近目标的分布P,以及所述标准化流模块的损失函数Lmle设置为:其中,/>为标准化流模块的可学习参数,μg为采集的图像数据的骨骼关键点坐标,/>为回归模块预测出来的骨骼关键点坐标,/>为回归模块预测出来的骨骼关键点得分,其中,在模型训练过程中2D/3D骨骼关键点识别都选择使用L1损失函数,L1损失函数定义为:结合标准化流模块的损失函数Lmle,2D/3D骨骼关键点的训练损失函数Lkpt定义为:Lkpt=L1+Lmle,训练策略为模型同时对3D骨骼关键点和2D骨骼关键点学习,其中,3D骨骼关键点与2D骨骼关键点存在视角上的转换,所有的物体都具有三维空间的坐标信息,在模型学习过程中,二维图像表示成规律的格子,具有细致的纹理和丰富的颜色信息,而三维信息具有丰富的形状和几何信息;训练2D骨骼关键点分支作为预训练模型,有助于稳定2D骨骼关键点的识别,设计总损失函数为2D骨骼关键点损失函数与3D骨骼关键点损失函数按不同的权重比例合并,设置2D骨骼关键点损失函数的权重系数为α,3D骨骼关键点损失函数的权重系数为(1-α),用已训练2D骨骼关键点分支作为预训练模型的条件下,增加3D骨骼关键点损失函数的权重系数,让模型训练过程中更偏向对3D骨骼关键点的学习,提高模型对3D骨骼关键点识别的性能;其中,总损失函数Lall定义为:Lall=αL2D+(1-α)L3D,其中,L2D为2D骨骼关键点损失函数,L3D为3D骨骼关键点损失函数,Lall为模型训练的总损失函数,α为2D骨骼关键点损失函数的权重系数,(1-α)为3D骨骼关键点损失函数的权重系数。
2.如权利要求1所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,基于稳定的2D骨骼关键点识别的条件下,引导模型对3D骨骼关键点识别的学习,使模型学习的过程中损失函数能更快的收缩。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210651204.6A CN115171149B (zh) | 2022-06-09 | 2022-06-09 | 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210651204.6A CN115171149B (zh) | 2022-06-09 | 2022-06-09 | 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115171149A CN115171149A (zh) | 2022-10-11 |
CN115171149B true CN115171149B (zh) | 2023-12-05 |
Family
ID=83486023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210651204.6A Active CN115171149B (zh) | 2022-06-09 | 2022-06-09 | 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115171149B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953839B (zh) * | 2022-12-26 | 2024-04-12 | 广州紫为云科技有限公司 | 一种基于循环架构与关键点回归的实时2d手势估计方法 |
CN115719518B (zh) * | 2023-01-10 | 2023-06-20 | 浙江壹体科技有限公司 | 一种基于嵌入式平台的行为识别方法、系统、设备及介质 |
CN116340807B (zh) * | 2023-01-10 | 2024-02-13 | 中国人民解放军国防科技大学 | 宽带频谱信号检测与分类网络 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019106123A1 (de) * | 2018-03-12 | 2019-09-12 | Nvidia Corporation | Dreidimensionale (3D) Posenschätzung von Seiten einer monokularen Kamera |
KR102041906B1 (ko) * | 2019-03-06 | 2019-11-07 | 주식회사 에프앤디파트너스 | 안면피부촬영장치를 통해 촬영된 영상 이미지를 활용하여 피부질환을 판별하는 인공지능 기반의 안면 피부질환 판별용 api 엔진 |
CN111079570A (zh) * | 2019-11-29 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
WO2020199693A1 (zh) * | 2019-03-29 | 2020-10-08 | 中国科学院深圳先进技术研究院 | 一种大姿态下的人脸识别方法、装置及设备 |
CN112287866A (zh) * | 2020-11-10 | 2021-01-29 | 上海依图网络科技有限公司 | 一种基于人体关键点的人体动作识别方法及装置 |
CN112767478A (zh) * | 2021-01-08 | 2021-05-07 | 北京航空航天大学 | 一种基于表观指导的六自由度位姿估计方法 |
CN112949506A (zh) * | 2021-03-05 | 2021-06-11 | 广州紫为云科技有限公司 | 一种低成本实时骨骼关键点识别方法和装置 |
WO2022009279A1 (ja) * | 2020-07-06 | 2022-01-13 | 日本電気株式会社 | 画像選択装置、画像選択方法、及びプログラム |
CN114519868A (zh) * | 2022-02-22 | 2022-05-20 | 广东新王牌智能信息技术有限公司 | 一种基于坐标系回归的实时骨骼关键点识别方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205462A (zh) * | 2015-09-18 | 2015-12-30 | 北京百度网讯科技有限公司 | 一种拍照提示方法及装置 |
CN111260774B (zh) * | 2020-01-20 | 2023-06-23 | 北京百度网讯科技有限公司 | 生成3d关节点回归模型的方法和装置 |
-
2022
- 2022-06-09 CN CN202210651204.6A patent/CN115171149B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019106123A1 (de) * | 2018-03-12 | 2019-09-12 | Nvidia Corporation | Dreidimensionale (3D) Posenschätzung von Seiten einer monokularen Kamera |
KR102041906B1 (ko) * | 2019-03-06 | 2019-11-07 | 주식회사 에프앤디파트너스 | 안면피부촬영장치를 통해 촬영된 영상 이미지를 활용하여 피부질환을 판별하는 인공지능 기반의 안면 피부질환 판별용 api 엔진 |
WO2020199693A1 (zh) * | 2019-03-29 | 2020-10-08 | 中国科学院深圳先进技术研究院 | 一种大姿态下的人脸识别方法、装置及设备 |
CN111079570A (zh) * | 2019-11-29 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
WO2022009279A1 (ja) * | 2020-07-06 | 2022-01-13 | 日本電気株式会社 | 画像選択装置、画像選択方法、及びプログラム |
CN112287866A (zh) * | 2020-11-10 | 2021-01-29 | 上海依图网络科技有限公司 | 一种基于人体关键点的人体动作识别方法及装置 |
CN112767478A (zh) * | 2021-01-08 | 2021-05-07 | 北京航空航天大学 | 一种基于表观指导的六自由度位姿估计方法 |
CN112949506A (zh) * | 2021-03-05 | 2021-06-11 | 广州紫为云科技有限公司 | 一种低成本实时骨骼关键点识别方法和装置 |
CN114519868A (zh) * | 2022-02-22 | 2022-05-20 | 广东新王牌智能信息技术有限公司 | 一种基于坐标系回归的实时骨骼关键点识别方法及系统 |
Non-Patent Citations (5)
Title |
---|
AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection;Zongdai Liu et al.;《arxiv》;第1-11页 * |
E2EK: End-to-End Regression Network Based on Keypoint for 6D Pose Estimation;Shifeng Lin et al.;《IEEE Robotics and Automation Letters》;第7卷;第6526-6533页 * |
Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep Learning Perspective;Wu Liu et al.;《arxiv》;第1-28页 * |
多特征融合的级联回归人脸对齐方法研究;傅杰 等;《江苏科技大学学报(自然科学版)》;第34卷;54-59 * |
多特征融合的级联回归人脸对齐方法研究;傅杰;黄树成;;江苏科技大学学报(自然科学版)(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115171149A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115171149B (zh) | 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法 | |
WO2021129064A9 (zh) | 姿态获取方法、关键点坐标定位模型的训练方法和装置 | |
CN112446398B (zh) | 图像分类方法以及装置 | |
CN109902548B (zh) | 一种对象属性识别方法、装置、计算设备及系统 | |
CN110246181B (zh) | 基于锚点的姿态估计模型训练方法、姿态估计方法和系统 | |
CN112862874B (zh) | 点云数据匹配方法、装置、电子设备及计算机存储介质 | |
Qu et al. | A fast face recognition system based on deep learning | |
CN111738261A (zh) | 基于位姿估计和校正的单图像机器人无序目标抓取方法 | |
CN110363817B (zh) | 目标位姿估计方法、电子设备和介质 | |
CN110619638A (zh) | 一种基于卷积块注意模块的多模态融合显著性检测方法 | |
CN111160375A (zh) | 三维关键点预测及深度学习模型训练方法、装置及设备 | |
CN111709268B (zh) | 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置 | |
CN114529982B (zh) | 基于流式注意力的轻量级人体姿态估计方法及系统 | |
US20220262093A1 (en) | Object detection method and system, and non-transitory computer-readable medium | |
WO2021109118A1 (en) | Object re-identification using pose part based models | |
CN114219855A (zh) | 点云法向量的估计方法、装置、计算机设备和存储介质 | |
CN111104911A (zh) | 一种基于大数据训练的行人重识别方法及装置 | |
CN114241597A (zh) | 一种姿态识别方法及其相关设备 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN116486233A (zh) | 一种多光谱双流网络的目标检测方法 | |
CN114792401A (zh) | 行为识别模型的训练方法、装置、设备及存储介质 | |
CN116883961A (zh) | 一种目标感知方法以及装置 | |
CN116246343A (zh) | 轻量化的人体行为识别方法及装置 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
CN116264016A (zh) | 一种轻量的实时人脸检测和头部姿态估计方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |