CN115171149A - 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法 - Google Patents

基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法 Download PDF

Info

Publication number
CN115171149A
CN115171149A CN202210651204.6A CN202210651204A CN115171149A CN 115171149 A CN115171149 A CN 115171149A CN 202210651204 A CN202210651204 A CN 202210651204A CN 115171149 A CN115171149 A CN 115171149A
Authority
CN
China
Prior art keywords
loss function
key point
key points
bone
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210651204.6A
Other languages
English (en)
Other versions
CN115171149B (zh
Inventor
李观喜
梁倬华
赵乾
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ziweiyun Technology Co ltd
Original Assignee
Guangzhou Ziweiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ziweiyun Technology Co ltd filed Critical Guangzhou Ziweiyun Technology Co ltd
Priority to CN202210651204.6A priority Critical patent/CN115171149B/zh
Publication of CN115171149A publication Critical patent/CN115171149A/zh
Application granted granted Critical
Publication of CN115171149B publication Critical patent/CN115171149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,通过图像采集模块模块对图像进行采集,将采集的图像经过核心计算单元发送至轻量级神经网络算法模块;所述该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络,采集的图像首先进入ShuffleNetV2骨干网络进行计算,所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成;将所述基础骨干网络输出一系列卷积特征图作为关键点回归模块的输入,先通过池化层,再分别通过4个FC层,其中,FC1输出3D骨骼关键点的坐标信息,FC2输出3D骨骼关键点的得分信息,FC3输出2D骨骼关键点的的坐标信息,FC4输出2D骨骼关键点的得分信息,以此完成对3D骨骼关键点和2D骨骼关键点识别。

Description

基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法。
背景技术
人体2D/3D骨骼关键点识别技术作为计算机视觉的基础任务之一,是一个非常重要的研究领域。其目标初始是从给的的传感器(摄像头,红外线等设备)输入中获取人体骨骼信息,近年来随着深度学习在图形分类、目标检测等许多计算机任务中表现出了良好的性能,人体2D/3D骨骼关键点识别也通过采用深度学习技术获得快速的发展。人体2D/3D骨骼关键点识别技术可以应用于许多应用领域,在电影和动画中各种生动形象的数字人物的产生离不开对人体动作的的捕捉。低成本和精准的人体动作捕捉系统可以更好的促进数字娱乐产业的发展。虚拟现实是一种非常有前途的技术,可以应用于教育和娱乐。通过对人体2D/3D骨骼关键点识别,可以进一步获得人与虚拟现实世界的关系,增强交互体验。人机交互中人体2D/3D骨骼关键点识别对于计算机和机器人能更好的理解人身份、位置、和行为是很重要的。以人体的姿势,计算机和机器人可以以一种简单的方式执行命令,使个过程更加智能。人体2D/3D骨骼关键点识别技术的用途很多样,对于更精细的需求以及实际落地时,往往对人体2D/3D骨骼关键点识别的精度、速度、计算量等需求较大。现有基于深度学习的2D骨骼关键点识别的新算法大多是基于高斯热图输出的方式,存在着其要求的输出特征图很大、算法训练和推理速度慢的问题。在低成本硬件平台上难以实时运行,需要搭配高成本的硬件(如GPU或高端摄像头)才能达到实时。
现有基于深度学习的3D骨骼关键点识别的新算法较为流行的是基于2D关键点的基础上或是基于高斯热图输出的方式,由于前者方式为二阶段模型,后者方式需要渲染高斯热图,两个方式都会导致推理速度慢,在实际落地项目中会造成又慢又消耗内存的情况,而导致无法使用的问题。
除了使用单目RBG图像外,越来越多的传感器被应用于3D骨骼关键点识别的研究,常见的有深度相机、雷达等。如Kinect深度相机,一个色彩感知摄像头和一个红外摄像头用于测量图像深度,可以测量场景中物体到相机的距离,用于重建三维人体模型以此获得3D3D骨骼关键点信息。但这种方式无疑会增加硬件成本,因此若是基于单目RBG图像方式对3D骨骼关键点识别将能大幅度降低硬件成本。
目前的最新的2D骨骼关键点识别算法大致可分两种方式,一种是基于热图的方式在二维骨骼关键点识别领域占据了主导位置,另一种是基于回归的方式,但是相关的研究较少。基于热图的方式,由于热图输出的值为整数,不同于坐标回归输出是浮点数,不会丢失精度,因此通过热图得到坐标放大回原图时,会承受不可避免的量化误差。对于3D骨骼关键点识别,基于热图的方式,可将热图扩展到三维空间上,但在三维热图上为了防止量化误差,不可避免地需要一个相对高分辨率的热图。因此也就自然而然的导致模型需要很大的计算量和内存开销。若是基于热图的方式模型同时对人体2D/3D骨骼关键点识别,由于热图输出是需要高度定制化的,2D骨骼关键点识别必须是二维热图输出,3D骨骼关键点识别必须是三维热图输出,这会导致模型的计算量和内存开销的需求会大幅度的提升。
发明内容
传统的骨骼关键点算法在几何先验的基础上基于模版匹配的思路来进行,精确性较差。而现有的基于深度学习的骨骼关键点识别算法由于硬件性能的限制,在低成本硬件平台上(如移动端手机、平板)的识别速度较慢,算法联动应用会造成应用卡顿、丢帧等情况,非常影响用户体验。当前发明基于一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,针对以上提到的问题,该设计方法可以实现在低成本硬件平台上,满足较高精度、快速并且人体2D/3D骨骼关键点能同时实时识别的需求。
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,所述识别方法包括:
步骤1,通过图像采集模块模块对图像进行采集,将采集的图像经过核心计算单元发送至轻量级神经网络算法模块;
步骤2,所述该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络,采集的图像首先进入ShuffleNetV2骨干网络进行计算,所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成;
步骤3,将所述基础骨干网络输出一系列卷积特征图作为关键点回归模块的输入,先通过池化层,再分别通过4个FC层,其中,FC1输出3D骨骼关键点的坐标信息,FC2输出3D骨骼关键点的得分信息,FC3输出2D骨骼关键点的的坐标信息,FC4输出2D骨骼关键点的得分信息,以此完成对3D骨骼关键点和2D骨骼关键点识别。
更进一步地,所述步骤2中的所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成进一步包括:其中卷积层conv1层经过24组3x3的卷积核(步长为2),卷积层conv5经过1024组1x1的卷积核(步长为1);池化层Maxpool1大小均为3x3,步长为2;ShuffleV2Block层结构统一,将输入通道的特征图分为两个分支,左边分支不做任何操作,右边的分支由连续的1x1卷积核和3x3卷积连接组成,两个分支用concat操作进行合并,紧接进行通道混洗(channel shuffle),左边分支由连续的3x3卷积核和1x1卷积连接组成。
更进一步地,所述步骤3进一步包括:为了对回归结果的概率分布进行监督,添加2个标准化流模块进行辅助训练,其中,标准化流模块结构统一,标准化流模块1辅助回归3D骨骼关键点,标准化流模块2辅助回归2D骨骼关键点。
更进一步地,所述标准化流模块能将基本的简单分布转换为任意的的复杂分布,在模型训练过程中,回归模块会拟合出简单分布的输出值,通过标准化流模块对拟合出来的结果值进行变换,让变换后的结果更接近目标的分布P。
更进一步地,所述标准化流模块的损失函数Lmle设置为如公式1:
Figure BDA0003686192960000031
其中,φ为标准化流模型的可学习参数,μg为数据的骨骼关键点坐标,
Figure BDA0003686192960000032
为回归模块预测出来的骨骼关键点坐标,
Figure BDA0003686192960000033
为回归模块预测出来的骨骼关键点得分。
更进一步地,在模型训练的过程中损失函数的选择往往是基于对数据分布的假设,如果假设数据分布是服从高斯分布,那么选择使用L2损失函数,若假设为拉普拉斯分布,则选择使用L1损失函数。
更进一步地,在模型训练过程中2D/3D骨骼关键点识别都选择使用L1损失函数,结合标准化流模块的损失函数Lmle,2D/3D骨骼关键点的训练损失函数Lkpt定义如公式3:
L1损失函数定义如公式2:
Figure BDA0003686192960000041
L2损失函数定义如公式3:
Figure BDA0003686192960000042
Lkpt损失函数定义如公式4:
Lkpt=L1+Lmle
公式4
更进一步地,训练策略为模型同时对3D骨骼关键点和2D骨骼关键点学习,其中,3D骨骼关键点与2D骨骼关键点存在一定视角上的转换,所有的物体都具有三维空间的坐标信息,在模型学习过程中,二维图像表示成规律的格子,具有细致的纹理和丰富的颜色信息,而三维信息具有丰富的形状和几何信息。
更进一步地,训练2D骨骼关键点分支作为预训练模型,有助于稳定2D骨骼关键点的识别,设计总损失函数为2D骨骼关键点损失函数与3D骨骼关键点损失函数按不同的权重比例合并,设置2D骨骼关键点损失函数的权重系数为α,3D骨骼关键点损失函数的权重系数为(1-α),用已训练2D骨骼关键点分支作为预训练模型的条件下,增加3D骨骼关键点损失函数的权重系数,让模型训练过程中更偏向对3D骨骼关键点的学习,提高模型对3D骨骼关键点识别的性能;
其中,总损失函数Lall定义为公式5:
Lall=αL2D+(1-α)L3D
公式5
其中,L2D为2D骨骼关键点损失函数,L3D为3D骨骼关键点损失函数,Lall为模型训练的总损失函数,α为2D骨骼关键点损失函数的权重系数,(1-α)为3D骨骼关键点损失函数的权重系数。
更进一步地,基于稳定的2D骨骼关键点识别的条件下,引导模型对3D骨骼关键点识别的学习,使模型学习的过程中损失函数能更快的收缩
本发明于现有技术相比,有益效果为:本发明主要面向于移动端/嵌入式设备的基于单目RGB图像回归方式的人体2D/3D骨骼关键点同时识别的算法。由于不需要高分辨率热图,因此模型的输出特征图可以很小,因此对于计算成本和内存开销的需求会大幅度的减低。由于基于回归方式,没有量化误差的问题。模型同时人体2D/3D骨骼关键点进行识别,2D骨骼关键点与3D骨骼关键点存在一定视角上的转换,二维图像表示成规律的格子,具有细致的纹理和丰富的颜色信息,而三维信息具有丰富的形状和几何信息,因此二者是具有互补性的,有利于模型学习三维和二维的骨骼关键点的识别。采用轻量级的深度学习算法并采用坐标系回归,硬件仅需采用CPU和单目摄像头,即可同时完成对人体2D/3D骨骼关键点的低成本实时识别,无需GPU或高端摄像头(如kinect),对实际项目落地时能提供极大的帮助,并且大幅度地降低硬件成本。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1是本发明的单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法的核心模块图;
图2是本发明一实施例中的轻量级神经网络算法的结构图;
图3是本发明一实施例中的轻量级神经网络算法的的分支的结构图;
图4是本发明一实施例中的轻量级神经网络算法的的另一分支的结构图;
图5是本发明一实施例中的关键点回归模块的结构图。
具体实施方式
实施例一
在本实施例中,基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法的核心模块如图1所示,其中包括图像采集模块、核心计算单元、轻量级神经网络算法模块、关键点回归模块,并结合一定的训练策略。其中图像采集模块采用任意单目摄像头,核心计算单元采用移动端CPU。本发明的核心设计为轻量级神经网络算法模块和关键点回归模块,采用这两个模块用来保证本系统在低成本硬件上的实时性能,其中在关键点回归模块内嵌入标准化流模块,在实际训练过程中标准化流模块辅助模型提升模型的性能,但在测试过程中不参与模型的推理过程,因此可以在没有任何开销的情况下对回归模型的性能有显著的提升。
一、轻量级神经网络算法模块:
该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络,其结构如图2所示。输入图像首先进入ShuffleNetV2骨干网络进行计算,该ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成。其中卷积层conv1层经过24组3x3的卷积核(步长为2),卷积层conv5经过1024组1x1的卷积核(步长为1);池化层Maxpool1大小均为3x3,步长为2;ShuffleV2Block层结构统一,其结构如图3与图4所示,如图3所示,将输入通道的特征图分为两个分支,左边分支不做任何操作,右边的分支由连续的1x1卷积核和3x3卷积连接组成,两个分支用concat操作进行合并,紧接进行通道混洗(channelshuffle)。如图4所示,与图3结构大致一致,在左边分支由连续的3x3卷积核和1x1卷积连接组成。
二、关键点回归模块:
将该骨干网络输出一系列卷积特征图作为输入,先通过池化层,再分别通过4个FC层。FC1输出3D骨骼关键点的坐标信息,FC2输出3D骨骼关键点的得分信息,FC3输出2D骨骼关键点的的坐标信息,FC4输出2D骨骼关键点的得分信息。为了对回归结果的概率分布进行监督,其中添加2个标准化流模块进行辅助训练。标准化流模块结构统一,标准化流模块1辅助回归3D骨骼关键点,标准化流模块2辅助回归2D骨骼关键点。其结构如图5所示。
标准化流模块能将一些基本的简单分布转换为任意的的复杂分布,理论来说只要变换足够复杂,那么可以拟合出任意的目标分布。在实际的训练过程中,本实施例使用的就是神经网络,因此神经网络理论上是可以接近任意的函数,因此在标准化流模型的一系列复杂转换可以通过叠加在FC层实现的。在模型训练过程中,回归模块会拟合出简单分布的输出值,通过标准化流模块对拟合出来的结果值进行变换,让变换后的结果更接近目标的分布P。
那么该标准化流模块的损失函数Lmle可以设置为如公式1
Figure BDA0003686192960000071
其中φ为标准化流模型的可学习参数,μg为数据的骨骼关键点坐标,
Figure BDA0003686192960000072
为回归模块预测出来的骨骼关键点坐标,
Figure BDA0003686192960000073
为回归模块预测出来的骨骼关键点得分。
在模型训练的过程中损失函数的选择往往是基于对数据分布的假设,如果假设数据分布是服从高斯分布,那么选择使用L2损失函数,若假设为拉普拉斯分布,则选择使用L1损失函数。
由于中心极限定理的保证,任何大量的数据集是趋于高斯分布的。但是对于骨骼关键点识别人途,数据量少、需要精准的预测骨骼关键点位置,概率分布相对较为稀释的,因此假设目标分布为拉普拉斯作为先验分布可能会更好,在模型训练过程中2D/3D骨骼关键点识别都选择使用L1损失函数。结合标准化流模块的损失函数Lmle,2D/3D骨骼关键点的训练损失函数Lkpt定义如下图公式3。
L1损失函数定义如下图公式2
Figure BDA0003686192960000074
L2损失函数定义如下图公式3
Figure BDA0003686192960000075
Lkpt损失函数定义如下图公式4
Lkpt=L1+Lmle
公式4
基于热图方式,对模型的热图输出使用MSE损失函数监督,从概率的角度来说MSE损失函数是基于高斯分布假设的,这将显式的要求模型学习高斯概率分布,并且热图能够提供空间上更丰富的监督信息。对于基于回归方式,缺乏空间泛化能力并且由于缺少对概率分布的监督约束,模型训练过程中对学习的分布并不稳定,极其依赖数据。因此添加标准化流模块对模型学习目标分布进行监督,有助于提高对3D骨骼关键点和2D骨骼关键点识别的性能,并且仅在模型训练过程中使用标准化流模块辅助模型的回归模块训练,在测试过程中标准化流模块将不参与模型的推理过程,因此可以在不增加模型的推理速度的同时提升模型对2D/3D骨骼关键点识别的性能。
三、训练策略:
模型同时对3D骨骼关键点和2D骨骼关键点学习。3D骨骼关键点与2D骨骼关键点存在一定视角上的转换,所有的物体都具有三维空间的坐标信息,在模型学习过程中,二维图像表示成规律的格子,具有细致的纹理和丰富的颜色信息,而三维信息具有丰富的形状和几何信息,因此二者是具有互补性的。模型同时对3D骨骼关键点和2D骨骼关键点学习,能将二者的优点充分结合在一起,两者相辅相成有助于提高对3D骨骼关键点和2D骨骼关键点识别的性能以及鲁棒性。
在实际训练过程中,先训练2D骨骼关键点分支作为预训练模型,有助于稳定2D骨骼关键点的识别。设计总损失函数为2D骨骼关键点损失函数与3D骨骼关键点损失函数按不同的权重比例合并,设置2D骨骼关键点损失函数的权重系数为α,3D骨骼关键点损失函数的权重系数为(1-α),用已训练2D骨骼关键点分支作为预训练模型的条件下,可以增加3D骨骼关键点损失函数的权重系数,让模型训练过程中更偏向对3D骨骼关键点的学习,提高模型对3D骨骼关键点识别的性能。
总损失函数Lall定义如下图公式5
Lall=αL2D+(1-α)L3D
公式5
其中L2D为2D骨骼关键点损失函数,L3D为3D骨骼关键点损失函数,Lall为模型训练的总损失函数,α为2D骨骼关键点损失函数的权重系数,(1-α)为3D骨骼关键点损失函数的权重系数。
由于在基于稳定的2D骨骼关键点识别的条件下,引导模型对3D骨骼关键点识别的学习,使模型学习的过程中损失函数能更快的收缩。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,所述识别方法包括:
步骤1,通过图像采集模块模块对图像进行采集,将采集的图像经过核心计算单元发送至轻量级神经网络算法模块;
步骤2,所述该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络,采集的图像首先进入ShuffleNetV2骨干网络进行计算,所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成;
步骤3,将所述基础骨干网络输出一系列卷积特征图作为关键点回归模块的输入,先通过池化层,再分别通过4个FC层,其中,FC1输出3D骨骼关键点的坐标信息,FC2输出3D骨骼关键点的得分信息,FC3输出2D骨骼关键点的的坐标信息,FC4输出2D骨骼关键点的得分信息,以此完成对3D骨骼关键点和2D骨骼关键点识别。
2.如权利要求1所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,所述步骤2中的所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成进一步包括:其中卷积层conv1层经过24组3x3的卷积核,卷积层conv5经过1024组1x1的卷积核;池化层Maxpool1大小均为3x3,步长为2;ShuffleV2Block层结构统一,将输入通道的特征图分为两个分支,左边分支不做任何操作,右边的分支由连续的1x1卷积核和3x3卷积连接组成,两个分支用concat操作进行合并,紧接进行通道混洗,左边分支由连续的3x3卷积核和1x1卷积连接组成。
3.如权利要求1所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,所述步骤3进一步包括:为了对回归结果的概率分布进行监督,添加2个标准化流模块进行辅助训练,其中,标准化流模块结构统一,标准化流模块1辅助回归3D骨骼关键点,标准化流模块2辅助回归2D骨骼关键点。
4.如权利要求3所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,所述标准化流模块能将基本的简单分布转换为任意的的复杂分布,在模型训练过程中,回归模块会拟合出简单分布的输出值,通过标准化流模块对拟合出来的结果值进行变换,让变换后的结果更接近目标的分布P。
5.如权利要求4所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,所述标准化流模块的损失函数Lmle设置为如公式1:
Figure FDA0003686192950000021
其中,φ为标准化流模型的可学习参数,μg为数据的骨骼关键点坐标,
Figure FDA0003686192950000022
为回归模块预测出来的骨骼关键点坐标,
Figure FDA0003686192950000023
为回归模块预测出来的骨骼关键点得分。
6.如权利要求5所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,在模型训练的过程中损失函数的选择往往是基于对数据分布的假设,如果假设数据分布是服从高斯分布,那么选择使用L2损失函数,若假设为拉普拉斯分布,则选择使用L1损失函数。
7.如权利要求6所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,在模型训练过程中2D/3D骨骼关键点识别都选择使用L1损失函数,结合标准化流模块的损失函数Lmle,2D/3D骨骼关键点的训练损失函数Lkpt定义如公式3:
L1损失函数定义如公式2:
Figure FDA0003686192950000024
L2损失函数定义如公式3:
Figure FDA0003686192950000025
Lkpt损失函数定义如公式4:
Lkpt=L1+Lmle 公式4。
8.如权利要求7所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,训练策略为模型同时对3D骨骼关键点和2D骨骼关键点学习,其中,3D骨骼关键点与2D骨骼关键点存在一定视角上的转换,所有的物体都具有三维空间的坐标信息,在模型学习过程中,二维图像表示成规律的格子,具有细致的纹理和丰富的颜色信息,而三维信息具有丰富的形状和几何信息。
9.如权利要求8所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,训练2D骨骼关键点分支作为预训练模型,有助于稳定2D骨骼关键点的识别,设计总损失函数为2D骨骼关键点损失函数与3D骨骼关键点损失函数按不同的权重比例合并,设置2D骨骼关键点损失函数的权重系数为α,3D骨骼关键点损失函数的权重系数为(1-α),用已训练2D骨骼关键点分支作为预训练模型的条件下,增加3D骨骼关键点损失函数的权重系数,让模型训练过程中更偏向对3D骨骼关键点的学习,提高模型对3D骨骼关键点识别的性能;
其中,总损失函数Lall定义为公式5:
Lall=αL2D+(1-α)L3D 公式5
其中,L2D为2D骨骼关键点损失函数,L3D为3D骨骼关键点损失函数,Lall为模型训练的总损失函数,α为2D骨骼关键点损失函数的权重系数,(1-α)为3D骨骼关键点损失函数的权重系数。
10.如权利要求9所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,基于稳定的2D骨骼关键点识别的条件下,引导模型对3D骨骼关键点识别的学习,使模型学习的过程中损失函数能更快的收缩。
CN202210651204.6A 2022-06-09 2022-06-09 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法 Active CN115171149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210651204.6A CN115171149B (zh) 2022-06-09 2022-06-09 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210651204.6A CN115171149B (zh) 2022-06-09 2022-06-09 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法

Publications (2)

Publication Number Publication Date
CN115171149A true CN115171149A (zh) 2022-10-11
CN115171149B CN115171149B (zh) 2023-12-05

Family

ID=83486023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210651204.6A Active CN115171149B (zh) 2022-06-09 2022-06-09 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法

Country Status (1)

Country Link
CN (1) CN115171149B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115719518A (zh) * 2023-01-10 2023-02-28 浙江壹体科技有限公司 一种基于嵌入式平台的行为识别方法、系统、设备及介质
CN115953839A (zh) * 2022-12-26 2023-04-11 广州紫为云科技有限公司 一种基于循环架构与坐标系回归的实时2d手势估计方法
CN116340807A (zh) * 2023-01-10 2023-06-27 中国人民解放军国防科技大学 宽带频谱信号检测与分类网络
CN117542102A (zh) * 2023-12-08 2024-02-09 广州紫为云科技有限公司 一种基于单目rgb图像的多任务脸部表情识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180007259A1 (en) * 2015-09-18 2018-01-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Photo-taking prompting method and apparatus, an apparatus and non-volatile computer storage medium
DE102019106123A1 (de) * 2018-03-12 2019-09-12 Nvidia Corporation Dreidimensionale (3D) Posenschätzung von Seiten einer monokularen Kamera
KR102041906B1 (ko) * 2019-03-06 2019-11-07 주식회사 에프앤디파트너스 안면피부촬영장치를 통해 촬영된 영상 이미지를 활용하여 피부질환을 판별하는 인공지능 기반의 안면 피부질환 판별용 api 엔진
CN111079570A (zh) * 2019-11-29 2020-04-28 北京奇艺世纪科技有限公司 一种人体关键点识别方法、装置及电子设备
WO2020199693A1 (zh) * 2019-03-29 2020-10-08 中国科学院深圳先进技术研究院 一种大姿态下的人脸识别方法、装置及设备
CN112287866A (zh) * 2020-11-10 2021-01-29 上海依图网络科技有限公司 一种基于人体关键点的人体动作识别方法及装置
CN112767478A (zh) * 2021-01-08 2021-05-07 北京航空航天大学 一种基于表观指导的六自由度位姿估计方法
CN112949506A (zh) * 2021-03-05 2021-06-11 广州紫为云科技有限公司 一种低成本实时骨骼关键点识别方法和装置
KR20210093795A (ko) * 2020-01-20 2021-07-28 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 3d 관절 점 회귀 모델의 생성 방법 및 장치
WO2022009279A1 (ja) * 2020-07-06 2022-01-13 日本電気株式会社 画像選択装置、画像選択方法、及びプログラム
CN114519868A (zh) * 2022-02-22 2022-05-20 广东新王牌智能信息技术有限公司 一种基于坐标系回归的实时骨骼关键点识别方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180007259A1 (en) * 2015-09-18 2018-01-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Photo-taking prompting method and apparatus, an apparatus and non-volatile computer storage medium
DE102019106123A1 (de) * 2018-03-12 2019-09-12 Nvidia Corporation Dreidimensionale (3D) Posenschätzung von Seiten einer monokularen Kamera
KR102041906B1 (ko) * 2019-03-06 2019-11-07 주식회사 에프앤디파트너스 안면피부촬영장치를 통해 촬영된 영상 이미지를 활용하여 피부질환을 판별하는 인공지능 기반의 안면 피부질환 판별용 api 엔진
WO2020199693A1 (zh) * 2019-03-29 2020-10-08 中国科学院深圳先进技术研究院 一种大姿态下的人脸识别方法、装置及设备
CN111079570A (zh) * 2019-11-29 2020-04-28 北京奇艺世纪科技有限公司 一种人体关键点识别方法、装置及电子设备
KR20210093795A (ko) * 2020-01-20 2021-07-28 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 3d 관절 점 회귀 모델의 생성 방법 및 장치
WO2022009279A1 (ja) * 2020-07-06 2022-01-13 日本電気株式会社 画像選択装置、画像選択方法、及びプログラム
CN112287866A (zh) * 2020-11-10 2021-01-29 上海依图网络科技有限公司 一种基于人体关键点的人体动作识别方法及装置
CN112767478A (zh) * 2021-01-08 2021-05-07 北京航空航天大学 一种基于表观指导的六自由度位姿估计方法
CN112949506A (zh) * 2021-03-05 2021-06-11 广州紫为云科技有限公司 一种低成本实时骨骼关键点识别方法和装置
CN114519868A (zh) * 2022-02-22 2022-05-20 广东新王牌智能信息技术有限公司 一种基于坐标系回归的实时骨骼关键点识别方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SHIFENG LIN ET AL.: "E2EK: End-to-End Regression Network Based on Keypoint for 6D Pose Estimation", 《IEEE ROBOTICS AND AUTOMATION LETTERS》, vol. 7, pages 6526 - 6533 *
WU LIU ET AL.: "Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep Learning Perspective", 《ARXIV》, pages 1 - 28 *
ZONGDAI LIU ET AL.: "AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection", 《ARXIV》, pages 1 - 11 *
傅杰 等: "多特征融合的级联回归人脸对齐方法研究", 《江苏科技大学学报(自然科学版)》, vol. 34, pages 54 - 59 *
傅杰;黄树成;: "多特征融合的级联回归人脸对齐方法研究", 江苏科技大学学报(自然科学版), no. 03 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953839A (zh) * 2022-12-26 2023-04-11 广州紫为云科技有限公司 一种基于循环架构与坐标系回归的实时2d手势估计方法
CN115953839B (zh) * 2022-12-26 2024-04-12 广州紫为云科技有限公司 一种基于循环架构与关键点回归的实时2d手势估计方法
CN115719518A (zh) * 2023-01-10 2023-02-28 浙江壹体科技有限公司 一种基于嵌入式平台的行为识别方法、系统、设备及介质
CN116340807A (zh) * 2023-01-10 2023-06-27 中国人民解放军国防科技大学 宽带频谱信号检测与分类网络
CN116340807B (zh) * 2023-01-10 2024-02-13 中国人民解放军国防科技大学 宽带频谱信号检测与分类网络
CN117542102A (zh) * 2023-12-08 2024-02-09 广州紫为云科技有限公司 一种基于单目rgb图像的多任务脸部表情识别方法

Also Published As

Publication number Publication date
CN115171149B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
WO2021129064A9 (zh) 姿态获取方法、关键点坐标定位模型的训练方法和装置
CN115171149B (zh) 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法
Ramesh et al. Dart: distribution aware retinal transform for event-based cameras
CN109508654B (zh) 融合多任务和多尺度卷积神经网络的人脸分析方法及系统
CN108549873B (zh) 三维人脸识别方法和三维人脸识别系统
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
Zhuang et al. Semantic part segmentation method based 3D object pose estimation with RGB-D images for bin-picking
CN112862874B (zh) 点云数据匹配方法、装置、电子设备及计算机存储介质
CN109948453B (zh) 一种基于卷积神经网络的多人姿态估计方法
CN110363817B (zh) 目标位姿估计方法、电子设备和介质
CN111160375A (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN111179419A (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN113449573A (zh) 一种动态手势识别方法及设备
Wu et al. Pseudo-siamese graph matching network for textureless objects’6-d pose estimation
CN108171133A (zh) 一种基于特征协方差矩阵的动态手势识别方法
CN111709268B (zh) 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置
CN114529982B (zh) 基于流式注意力的轻量级人体姿态估计方法及系统
US20220262093A1 (en) Object detection method and system, and non-transitory computer-readable medium
Ren et al. Spatial-aware stacked regression network for real-time 3d hand pose estimation
CN114219855A (zh) 点云法向量的估计方法、装置、计算机设备和存储介质
CN114241597A (zh) 一种姿态识别方法及其相关设备
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Alcantarilla et al. Visibility learning in large-scale urban environment
Kang et al. Yolo-6d+: single shot 6d pose estimation using privileged silhouette information
CN116246343A (zh) 轻量化的人体行为识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant