CN115171149B

CN115171149B - 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法

Info

Publication number: CN115171149B
Application number: CN202210651204.6A
Authority: CN
Inventors: 李观喜; 梁倬华; 赵乾; 张磊
Original assignee: Guangzhou Ziweiyun Technology Co ltd
Current assignee: Guangzhou Ziweiyun Technology Co ltd
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2023-12-05
Anticipated expiration: 2042-06-09
Also published as: CN115171149A

Abstract

本发明公开了一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法，通过图像采集模块模块对图像进行采集，将采集的图像经过核心计算单元发送至轻量级神经网络算法模块；所述该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络，采集的图像首先进入ShuffleNetV2骨干网络进行计算，所述ShuffleNetV2骨干网络由两个卷积层，三个ShuffleV2Block层和一个最大池化层组成；将所述基础骨干网络输出一系列卷积特征图作为关键点回归模块的输入，先通过池化层，再分别通过4个FC层，其中，FC1输出3D骨骼关键点的坐标信息，FC2输出3D骨骼关键点的得分信息，FC3输出2D骨骼关键点的的坐标信息，FC4输出2D骨骼关键点的得分信息，以此完成对3D骨骼关键点和2D骨骼关键点识别。

Description

基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法。

背景技术

人体2D/3D骨骼关键点识别技术作为计算机视觉的基础任务之一，是一个非常重要的研究领域。其目标初始是从给的的传感器(摄像头，红外线等设备)输入中获取人体骨骼信息，近年来随着深度学习在图形分类、目标检测等许多计算机任务中表现出了良好的性能，人体2D/3D骨骼关键点识别也通过采用深度学习技术获得快速的发展。人体2D/3D骨骼关键点识别技术可以应用于许多应用领域，在电影和动画中各种生动形象的数字人物的产生离不开对人体动作的的捕捉。低成本和精准的人体动作捕捉系统可以更好的促进数字娱乐产业的发展。虚拟现实是一种非常有前途的技术，可以应用于教育和娱乐。通过对人体2D/3D骨骼关键点识别，可以进一步获得人与虚拟现实世界的关系，增强交互体验。人机交互中人体2D/3D骨骼关键点识别对于计算机和机器人能更好的理解人身份、位置、和行为是很重要的。以人体的姿势，计算机和机器人可以以一种简单的方式执行命令，使个过程更加智能。人体2D/3D骨骼关键点识别技术的用途很多样，对于更精细的需求以及实际落地时，往往对人体2D/3D骨骼关键点识别的精度、速度、计算量等需求较大。现有基于深度学习的2D骨骼关键点识别的新算法大多是基于高斯热图输出的方式，存在着其要求的输出特征图很大、算法训练和推理速度慢的问题。在低成本硬件平台上难以实时运行，需要搭配高成本的硬件(如GPU或高端摄像头)才能达到实时。

现有基于深度学习的3D骨骼关键点识别的新算法较为流行的是基于2D关键点的基础上或是基于高斯热图输出的方式，由于前者方式为二阶段模型，后者方式需要渲染高斯热图，两个方式都会导致推理速度慢，在实际落地项目中会造成又慢又消耗内存的情况，而导致无法使用的问题。

除了使用单目RBG图像外，越来越多的传感器被应用于3D骨骼关键点识别的研究，常见的有深度相机、雷达等。如Kinect深度相机，一个色彩感知摄像头和一个红外摄像头用于测量图像深度，可以测量场景中物体到相机的距离，用于重建三维人体模型以此获得3D3D骨骼关键点信息。但这种方式无疑会增加硬件成本，因此若是基于单目RBG图像方式对3D骨骼关键点识别将能大幅度降低硬件成本。

目前的最新的2D骨骼关键点识别算法大致可分两种方式，一种是基于热图的方式在二维骨骼关键点识别领域占据了主导位置，另一种是基于回归的方式，但是相关的研究较少。基于热图的方式，由于热图输出的值为整数，不同于坐标回归输出是浮点数，不会丢失精度，因此通过热图得到坐标放大回原图时，会承受不可避免的量化误差。对于3D骨骼关键点识别，基于热图的方式，可将热图扩展到三维空间上，但在三维热图上为了防止量化误差，不可避免地需要一个相对高分辨率的热图。因此也就自然而然的导致模型需要很大的计算量和内存开销。若是基于热图的方式模型同时对人体2D/3D骨骼关键点识别，由于热图输出是需要高度定制化的，2D骨骼关键点识别必须是二维热图输出，3D骨骼关键点识别必须是三维热图输出，这会导致模型的计算量和内存开销的需求会大幅度的提升。

发明内容

传统的骨骼关键点算法在几何先验的基础上基于模版匹配的思路来进行，精确性较差。而现有的基于深度学习的骨骼关键点识别算法由于硬件性能的限制，在低成本硬件平台上(如移动端手机、平板)的识别速度较慢，算法联动应用会造成应用卡顿、丢帧等情况，非常影响用户体验。当前发明基于一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法，针对以上提到的问题，该设计方法可以实现在低成本硬件平台上，满足较高精度、快速并且人体2D/3D骨骼关键点能同时实时识别的需求。

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法，所述识别方法包括：

步骤1，通过图像采集模块模块对图像进行采集，将采集的图像经过核心计算单元发送至轻量级神经网络算法模块；

步骤2，所述该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络，采集的图像首先进入ShuffleNetV2骨干网络进行计算，所述ShuffleNetV2骨干网络由两个卷积层，三个ShuffleV2Block层和一个最大池化层组成；

步骤3，将所述基础骨干网络输出一系列卷积特征图作为关键点回归模块的输入，先通过池化层，再分别通过4个FC层，其中，FC1输出3D骨骼关键点的坐标信息，FC2输出3D骨骼关键点的得分信息，FC3输出2D骨骼关键点的的坐标信息，FC4输出2D骨骼关键点的得分信息，以此完成对3D骨骼关键点和2D骨骼关键点识别。

更进一步地，所述步骤2中的所述ShuffleNetV2骨干网络由两个卷积层，三个ShuffleV2Block层和一个最大池化层组成进一步包括：其中卷积层conv1层经过24组3x3的卷积核(步长为2),卷积层conv5经过1024组1x1的卷积核(步长为1)；池化层Maxpool1大小均为3x3，步长为2；ShuffleV2Block层结构统一，将输入通道的特征图分为两个分支，左边分支不做任何操作，右边的分支由连续的1x1卷积核和3x3卷积连接组成，两个分支用concat操作进行合并，紧接进行通道混洗(channel shuffle)，左边分支由连续的3x3卷积核和1x1卷积连接组成。

更进一步地，所述步骤3进一步包括：为了对回归结果的概率分布进行监督，添加2个标准化流模块进行辅助训练，其中，标准化流模块结构统一，标准化流模块1辅助回归3D骨骼关键点，标准化流模块2辅助回归2D骨骼关键点。

更进一步地，所述标准化流模块能将基本的简单分布转换为任意的的复杂分布，在模型训练过程中，回归模块会拟合出简单分布的输出值，通过标准化流模块对拟合出来的结果值进行变换，让变换后的结果更接近目标的分布P。

更进一步地，所述标准化流模块的损失函数L_mle设置为如公式1：

其中，φ为标准化流模型的可学习参数，μ_g为数据的骨骼关键点坐标，为回归模块预测出来的骨骼关键点坐标，/>为回归模块预测出来的骨骼关键点得分。

更进一步地，在模型训练的过程中损失函数的选择往往是基于对数据分布的假设，如果假设数据分布是服从高斯分布，那么选择使用L₂损失函数，若假设为拉普拉斯分布，则选择使用L₁损失函数。

更进一步地，在模型训练过程中2D/3D骨骼关键点识别都选择使用L₁损失函数，结合标准化流模块的损失函数L_mle，2D/3D骨骼关键点的训练损失函数L_kpt定义如公式3：

L₁损失函数定义如公式2：

L₂损失函数定义如公式3：

L_kpt损失函数定义如公式4：

L_kpt＝L₁+L_mle

公式4

更进一步地，训练策略为模型同时对3D骨骼关键点和2D骨骼关键点学习，其中，3D骨骼关键点与2D骨骼关键点存在一定视角上的转换，所有的物体都具有三维空间的坐标信息，在模型学习过程中，二维图像表示成规律的格子，具有细致的纹理和丰富的颜色信息，而三维信息具有丰富的形状和几何信息。

更进一步地，训练2D骨骼关键点分支作为预训练模型，有助于稳定2D骨骼关键点的识别，设计总损失函数为2D骨骼关键点损失函数与3D骨骼关键点损失函数按不同的权重比例合并，设置2D骨骼关键点损失函数的权重系数为α，3D骨骼关键点损失函数的权重系数为(1-α)，用已训练2D骨骼关键点分支作为预训练模型的条件下，增加3D骨骼关键点损失函数的权重系数，让模型训练过程中更偏向对3D骨骼关键点的学习，提高模型对3D骨骼关键点识别的性能；

其中，总损失函数L_all定义为公式5：

L_all＝αL_2D+(1-α)L_3D

公式5

其中，L_2D为2D骨骼关键点损失函数，L_3D为3D骨骼关键点损失函数，L_all为模型训练的总损失函数，α为2D骨骼关键点损失函数的权重系数，(1-α)为3D骨骼关键点损失函数的权重系数。

更进一步地，基于稳定的2D骨骼关键点识别的条件下，引导模型对3D骨骼关键点识别的学习，使模型学习的过程中损失函数能更快的收缩

本发明于现有技术相比，有益效果为：本发明主要面向于移动端/嵌入式设备的基于单目RGB图像回归方式的人体2D/3D骨骼关键点同时识别的算法。由于不需要高分辨率热图，因此模型的输出特征图可以很小，因此对于计算成本和内存开销的需求会大幅度的减低。由于基于回归方式，没有量化误差的问题。模型同时人体2D/3D骨骼关键点进行识别，2D骨骼关键点与3D骨骼关键点存在一定视角上的转换，二维图像表示成规律的格子，具有细致的纹理和丰富的颜色信息，而三维信息具有丰富的形状和几何信息，因此二者是具有互补性的，有利于模型学习三维和二维的骨骼关键点的识别。采用轻量级的深度学习算法并采用坐标系回归，硬件仅需采用CPU和单目摄像头，即可同时完成对人体2D/3D骨骼关键点的低成本实时识别，无需GPU或高端摄像头(如kinect)，对实际项目落地时能提供极大的帮助，并且大幅度地降低硬件成本。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法的核心模块图；

图2是本发明一实施例中的轻量级神经网络算法的结构图；

图3是本发明一实施例中的轻量级神经网络算法的的分支的结构图；

图4是本发明一实施例中的轻量级神经网络算法的的另一分支的结构图；

图5是本发明一实施例中的关键点回归模块的结构图。

具体实施方式

实施例一

在本实施例中，基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法的核心模块如图1所示，其中包括图像采集模块、核心计算单元、轻量级神经网络算法模块、关键点回归模块，并结合一定的训练策略。其中图像采集模块采用任意单目摄像头，核心计算单元采用移动端CPU。本发明的核心设计为轻量级神经网络算法模块和关键点回归模块，采用这两个模块用来保证本系统在低成本硬件上的实时性能，其中在关键点回归模块内嵌入标准化流模块，在实际训练过程中标准化流模块辅助模型提升模型的性能，但在测试过程中不参与模型的推理过程，因此可以在没有任何开销的情况下对回归模型的性能有显著的提升。

一、轻量级神经网络算法模块：

该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络，其结构如图2所示。输入图像首先进入ShuffleNetV2骨干网络进行计算，该ShuffleNetV2骨干网络由两个卷积层，三个ShuffleV2Block层和一个最大池化层组成。其中卷积层conv1层经过24组3x3的卷积核(步长为2),卷积层conv5经过1024组1x1的卷积核(步长为1)；池化层Maxpool1大小均为3x3，步长为2；ShuffleV2Block层结构统一，其结构如图3与图4所示，如图3所示，将输入通道的特征图分为两个分支，左边分支不做任何操作，右边的分支由连续的1x1卷积核和3x3卷积连接组成，两个分支用concat操作进行合并，紧接进行通道混洗(channelshuffle)。如图4所示，与图3结构大致一致，在左边分支由连续的3x3卷积核和1x1卷积连接组成。

二、关键点回归模块：

将该骨干网络输出一系列卷积特征图作为输入，先通过池化层，再分别通过4个FC层。FC1输出3D骨骼关键点的坐标信息，FC2输出3D骨骼关键点的得分信息，FC3输出2D骨骼关键点的的坐标信息，FC4输出2D骨骼关键点的得分信息。为了对回归结果的概率分布进行监督，其中添加2个标准化流模块进行辅助训练。标准化流模块结构统一，标准化流模块1辅助回归3D骨骼关键点，标准化流模块2辅助回归2D骨骼关键点。其结构如图5所示。

标准化流模块能将一些基本的简单分布转换为任意的的复杂分布，理论来说只要变换足够复杂，那么可以拟合出任意的目标分布。在实际的训练过程中，本实施例使用的就是神经网络，因此神经网络理论上是可以接近任意的函数，因此在标准化流模型的一系列复杂转换可以通过叠加在FC层实现的。在模型训练过程中，回归模块会拟合出简单分布的输出值，通过标准化流模块对拟合出来的结果值进行变换，让变换后的结果更接近目标的分布P。

那么该标准化流模块的损失函数L_mle可以设置为如公式1

其中φ为标准化流模型的可学习参数，μ_g为数据的骨骼关键点坐标，为回归模块预测出来的骨骼关键点坐标，/>为回归模块预测出来的骨骼关键点得分。

在模型训练的过程中损失函数的选择往往是基于对数据分布的假设，如果假设数据分布是服从高斯分布，那么选择使用L₂损失函数，若假设为拉普拉斯分布，则选择使用L₁损失函数。

由于中心极限定理的保证，任何大量的数据集是趋于高斯分布的。但是对于骨骼关键点识别人途，数据量少、需要精准的预测骨骼关键点位置，概率分布相对较为稀释的，因此假设目标分布为拉普拉斯作为先验分布可能会更好，在模型训练过程中2D/3D骨骼关键点识别都选择使用L₁损失函数。结合标准化流模块的损失函数L_mle，2D/3D骨骼关键点的训练损失函数L_kpt定义如下图公式3。

L₁损失函数定义如下图公式2

L₂损失函数定义如下图公式3

L_kpt损失函数定义如下图公式4

L_kpt＝L₁+L_mle

公式4

基于热图方式，对模型的热图输出使用MSE损失函数监督，从概率的角度来说MSE损失函数是基于高斯分布假设的，这将显式的要求模型学习高斯概率分布，并且热图能够提供空间上更丰富的监督信息。对于基于回归方式，缺乏空间泛化能力并且由于缺少对概率分布的监督约束，模型训练过程中对学习的分布并不稳定，极其依赖数据。因此添加标准化流模块对模型学习目标分布进行监督，有助于提高对3D骨骼关键点和2D骨骼关键点识别的性能，并且仅在模型训练过程中使用标准化流模块辅助模型的回归模块训练，在测试过程中标准化流模块将不参与模型的推理过程，因此可以在不增加模型的推理速度的同时提升模型对2D/3D骨骼关键点识别的性能。

三、训练策略：

模型同时对3D骨骼关键点和2D骨骼关键点学习。3D骨骼关键点与2D骨骼关键点存在一定视角上的转换，所有的物体都具有三维空间的坐标信息，在模型学习过程中，二维图像表示成规律的格子，具有细致的纹理和丰富的颜色信息，而三维信息具有丰富的形状和几何信息，因此二者是具有互补性的。模型同时对3D骨骼关键点和2D骨骼关键点学习，能将二者的优点充分结合在一起，两者相辅相成有助于提高对3D骨骼关键点和2D骨骼关键点识别的性能以及鲁棒性。

在实际训练过程中，先训练2D骨骼关键点分支作为预训练模型，有助于稳定2D骨骼关键点的识别。设计总损失函数为2D骨骼关键点损失函数与3D骨骼关键点损失函数按不同的权重比例合并，设置2D骨骼关键点损失函数的权重系数为α，3D骨骼关键点损失函数的权重系数为(1-α)，用已训练2D骨骼关键点分支作为预训练模型的条件下，可以增加3D骨骼关键点损失函数的权重系数，让模型训练过程中更偏向对3D骨骼关键点的学习，提高模型对3D骨骼关键点识别的性能。

总损失函数L_all定义如下图公式5

L_all＝αL_2D+(1-α)L_3D

公式5

其中L_2D为2D骨骼关键点损失函数，L_3D为3D骨骼关键点损失函数，L_all为模型训练的总损失函数，α为2D骨骼关键点损失函数的权重系数，(1-α)为3D骨骼关键点损失函数的权重系数。

由于在基于稳定的2D骨骼关键点识别的条件下，引导模型对3D骨骼关键点识别的学习，使模型学习的过程中损失函数能更快的收缩。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法，其特征在于，所述识别方法包括：

步骤1，通过图像采集模块对图像进行采集，将采集的图像经过核心计算单元发送至轻量级神经网络算法模块；

步骤2，所述轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络，采集的图像首先进入ShuffleNetV2骨干网络进行计算，所述ShuffleNetV2骨干网络由两个卷积层，三个ShuffleV2Block层和一个最大池化层组成，其中，所述ShuffleNetV2骨干网络由两个卷积层，三个ShuffleV2Block层和一个最大池化层组成进一步包括：其中卷积层conv1层经过24组3x3的卷积核,卷积层conv5经过1024组1x1的卷积核；池化层Maxpool1大小均为3x3，步长为2；ShuffleV2Block层结构统一，将输入通道的特征图分为两个分支，左边分支不做任何操作，右边的分支由连续的1x1卷积核和3x3卷积连接组成，两个分支用concat操作进行合并，紧接进行通道混洗，左边分支由连续的3x3卷积核和1x1卷积连接组成；

步骤3，将所述基础骨干网络输出的一系列卷积特征图作为关键点回归模块的输入，先通过池化层，再分别通过4个FC层，其中，FC1输出3D骨骼关键点的坐标信息，FC2输出3D骨骼关键点的得分信息，FC3输出2D骨骼关键点的坐标信息，FC4输出2D骨骼关键点的得分信息，以此完成对3D骨骼关键点和2D骨骼关键点识别，对回归结果的概率分布进行监督，添加2个标准化流模块进行辅助训练，其中，标准化流模块结构统一，第一标准化流模块辅助回归3D骨骼关键点，第二标准化流模块辅助回归2D骨骼关键点，其中所述标准化流模块能将基本的简单分布转换为任意的复杂分布，在模型训练过程中，回归模块会拟合出简单分布的输出值，通过标准化流模块对拟合出来的结果值进行变换，让变换后的结果更接近目标的分布P，以及所述标准化流模块的损失函数L_mle设置为：其中，/>为标准化流模块的可学习参数，μ_g为采集的图像数据的骨骼关键点坐标，/>为回归模块预测出来的骨骼关键点坐标，/>为回归模块预测出来的骨骼关键点得分，其中，在模型训练过程中2D/3D骨骼关键点识别都选择使用L₁损失函数，L₁损失函数定义为：结合标准化流模块的损失函数L_mle，2D/3D骨骼关键点的训练损失函数L_kpt定义为：L_kpt＝L₁+L_mle，训练策略为模型同时对3D骨骼关键点和2D骨骼关键点学习，其中，3D骨骼关键点与2D骨骼关键点存在视角上的转换，所有的物体都具有三维空间的坐标信息，在模型学习过程中，二维图像表示成规律的格子，具有细致的纹理和丰富的颜色信息，而三维信息具有丰富的形状和几何信息；训练2D骨骼关键点分支作为预训练模型，有助于稳定2D骨骼关键点的识别，设计总损失函数为2D骨骼关键点损失函数与3D骨骼关键点损失函数按不同的权重比例合并，设置2D骨骼关键点损失函数的权重系数为α，3D骨骼关键点损失函数的权重系数为(1-α)，用已训练2D骨骼关键点分支作为预训练模型的条件下，增加3D骨骼关键点损失函数的权重系数，让模型训练过程中更偏向对3D骨骼关键点的学习，提高模型对3D骨骼关键点识别的性能；其中，总损失函数L_all定义为：L_all＝αL_2D+(1-α)L_3D，其中，L_2D为2D骨骼关键点损失函数，L_3D为3D骨骼关键点损失函数，L_all为模型训练的总损失函数，α为2D骨骼关键点损失函数的权重系数，(1-α)为3D骨骼关键点损失函数的权重系数。

2.如权利要求1所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法，其特征在于，基于稳定的2D骨骼关键点识别的条件下，引导模型对3D骨骼关键点识别的学习，使模型学习的过程中损失函数能更快的收缩。