CN117132651A

CN117132651A - 一种融合彩色图像和深度图像的三维人体姿态估计方法

Info

Publication number: CN117132651A
Application number: CN202311090679.3A
Authority: CN
Inventors: 孙宁; 王宇
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-11-28

Abstract

本发明属于三维人体姿态估计技术领域，尤其为一种融合彩色图像和深度图像的三维人体姿态估计方法，该方法包括以下步骤，步骤一、将RGB‑D数据集拆分为彩色图像数据集和深度图像数据集，分别作为深度图像处理模块和彩色图像处理模块的两个输入；步骤二、对输入的深度图像做图像预处理和深度图像体素化处理；步骤三、将输入的彩色图像送入二维人体关键点检测模块，彩色图像经过卷积神经网络提取低级特征。本方法用基于Transformer网络检测彩色图像中的人体关键点并输出关键点热图，引入了相对位置编码对网络进行了改进，提高了姿态估计网络的性能，为三维人体姿态估计提供精准数据输入。

Description

一种融合彩色图像和深度图像的三维人体姿态估计方法

技术领域

本发明涉及三维人体姿态估计技术领域，具体为一种融合彩色图像和深度图像的三维人体姿态估计方法。

背景技术

作为机器学习研究的子领域，人体姿态估计近几年的发展格外迅速，逐步进入大众视野，不同于传统检测方法中的手动标记的方法，基于深度学习模型的人体姿态估计是一种自解释方法，其对输入信息进行自动特征提取。同时，网络模型的表达能力会因网络堆叠数量的增加而呈指数增长，正是由于深度学习模型操作过程相对简单且对特征的表示能力强大，很多研究领域都将其广泛应用，并得到了特别好的效果。

三维人体姿态估计任务是指从输入图像中提取特征并预测人体关节点的三维空间坐标，其在基于彩色图像的人体姿态估计上加入了对深度信息的估计，人们可以利用其来定位人体关节点用在人类行为理解、医学物理疗法、运动分析、智能监控、人机交互等领域，当前在预测三维人体姿态的模型中，根据输入数据的不同可分为几类，现阶段比较流行的是输入视频数据的训练模型进行三维人体姿态估计，引入时序图像序列作为网络输入，目的是解决在输入单张单目图像会出现人体遮挡现象造成预测结果不精准的问题，方法只要是在进行预测的过程中加入时间维度上的特征。但是显而易见，这类方法不仅是在输入时多加入了一个维度的信息，在网络训练过程中数据也会呈指数型增加，一味的追求精准度，没有考虑训练成本的问题。

另一类方法主要是基于图像作为输入进行网络训练和三维人体姿态估计。在只输入彩色图像的人体姿态估计方法中已经有许多比较成功的研究成果。但是由于彩色图像反映的是颜色及纹理信息，在不借助标记工具的情况下，很难从单一的彩色图像中直接获得人体的深度信息；并且彩色图像受光照、阴影等环境变化影响较大，在光照较强或较弱的环境下，估计效果明显减弱，甚至姿态估计无法正常进行；再者，受人体关节自由度大的影响，在图像中出现的人体遮挡问题也是准确估计三维人体姿态的一大难点。

同样有许多学者在围绕单一深度图像进行三维人体姿态估计开展算法研究，因为与彩色图像相比，深度图像记录的是目标物体离相机之间的空间距离信息，具有颜色无关性，使得该图像不受光照变化等环境因素干扰，可在一定程度上应对在彩色图像上遇到的挑战。但是这类方法一般使用模型老旧，并且使用的数据单一，缺乏人体信息，不能解决大多数的现有问题，基本无法达到现有模型的精度。

当前主流的基于单张彩色图像与深度图像融合的方法如Template based HumanPose and Shape Estimation from a Single RGB-D Image通过最小化目标函数实现拟合二维和三维关节点的参数体模型，可以理解为利用彩色图像计算人体二维关键点，再利用深度图像进行公式化的调整坐标计算人体关键点在三维空间中的位置。然而，这种方法明显的不足是利用公式计算三维坐标所受局限性大，在识别不同场景下的人体时泛化能力弱，而且使用传统网络训练会因卷积层数过多导致训练数据过大和误差。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种融合彩色图像和深度图像的三维人体姿态估计方法，解决了上述背景技术中所提出的问题。

(二)技术方案

本发明为了实现上述目的具体采用以下技术方案：

一种融合彩色图像和深度图像的三维人体姿态估计方法，该方法包括以下步骤，

步骤一、将RGB-D数据集拆分为彩色图像数据集和深度图像数据集，分别作为深度图像处理模块和彩色图像处理模块的两个输入；

步骤二、对输入的深度图像做图像预处理和深度图像体素化处理；

步骤三、将输入的彩色图像送入二维人体关键点检测模块，彩色图像经过卷积神经网络提取低级特征；

步骤四、将步骤二中的体素网格信息与步骤三中的二维关键点热图信息融合作为三维卷积网络的输入；

步骤五、将步骤四中的信息输入到三维关键点预测网络，在网络的处理过程中，使用一系列的三维卷积层对体素网格和二维得分图进行特征提取。

进一步地，所述步骤一中，利用OpenCV库将RGB-D数据集拆分为彩色图像数据集和深度图像数据集用于训练。

进一步地，所述步骤二中，利用双边滤波对深度图像去噪，确定体素分辨率并创建体素空间，遍历整个深度图像后，获得整个深度图像体素块的体素网格。

进一步地，所述步骤三中，二维人体关键点检测模块由三个部分组成：一个CNN主干网络，用于提取低级图像特征；一个Transformer编码器，用于捕获跨位置的特征向量之间的远程空间交互；一个head用来输出预测的关键点热图，在Transfomer编码器中添加相对位置编码，与输入相加后得到新的特征向量，迫使网络中的浅层更加关注局部信息，帮助网络更好地处理序列数据中的位置关系。

进一步地，所述步骤四中，将二维人体关键点热图沿Z轴平铺，热图信息作为得分图，与体素网格结合，得到一个包含二维人体关键点得分图的体素网格。

进一步地，所述步骤五中，三维关键点预测网络利用3D CNN网络架构，网络学习体素网格和分数图中的空间关系和关键点的概率分布，最后输出人体关键点的三维坐标，此处利用密集连接的思想对三维卷积网络进行改进，将每层的所有特征图都连接到下一层的特征图中，特征图之间使用级联操作进行相加。

(三)有益效果

与现有技术相比，本发明提供了一种融合彩色图像和深度图像的三维人体姿态估计方法，具备以下有益效果：

本方法用基于Transformer网络检测彩色图像中的人体关键点并输出关键点热图，引入了相对位置编码对网络进行了改进，提高了姿态估计网络的性能，为三维人体姿态估计提供精准数据输入。

本方法采用密集网络特征信息重用的思想改进了3D CNN网络，有利于缓解由于人体三维体素块信息丢失导致预测关节位置不精准的问题。

附图说明

图1是本发明的融合深度图像和彩色图像的三维人体姿态估计的流程图；

图2是本发明在二维关键点热图检测模块的Transformer编码器网络结构图；

图3是本发明对Transformer编码器网络的注意力层加入的相对位置编码结构图；

图4是本发明三维卷积网络和其中引入的密集网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1-4所示，本发明一个实施例提出的一种融合彩色图像和深度图像的三维人体姿态估计方法，该方法包括以下步骤，

具体的，如图1所示，包含以下步骤，并按照以下步骤依次执行：

具体的，利用OpenCV库读取数据集中的RGB-D图像对，将彩色图像与深度图像分离，得到互相对应的彩色图像和深度图像；

步骤二、对输入的深度图像做图像预处理和深度图像体素化处理。

对深度图像做初步滤波处理去除噪音；

具体的，读取深度图像，利用双边滤波处理深度图像中的高频噪音和低频噪音，结合空间距离和像素值相似性进行加权平均，保留边缘信息的同时实现图像平滑化；

确定体素分辨率并创建体素空间，遍历整个深度图像后，获得包含整个深度图像体素块的体素网格；

具体的，在对处理后的深度图像体素化时，考虑到计算资源和算法的运行效率，选择体素网格的大小为32×32×32，选择分辨率为3cm；根据相机内参和深度值，将深度图像中的每个像素点转化为相应的三维坐标，这一步使用公式：

w＝d·K^-1·p

其中w是三维坐标，d是深度值，K是相机内参矩阵，p是像素坐标。

根据体素网格的大小和分辨率，将点云中的点映射到对应的体素；如果某个体素中至少有一个点落在其中，将该体素的值设为1；否则设为0。

具体的，如图2，读取RGB图像，输入到二维关键点检测网络，利用ResNet卷积神经网络架构作为骨干网络，在ResNet的前向传播过程中，选择前几层的输出作为低级特征，这些特征包含图像的基本信息。

特征向量送入Transformer编码器，利用注意力机制的特性，允许模型根据输入特征的相关性分配不同的权重，使得更相关的位置对之间具有较高的相似度，从而增加它们之间的关注度；最后输出人体每个关键点的热图；

具体的，将特征图平展为特征序列即L个d维向量；特征序列作为Transformer编码器的输入，在编码器中经过N个注意力层和前馈网络；在注意力层中，特征序列分别与权重矩阵相乘，得到查询矩阵Q、键矩阵K和值矩阵V。

进一步的，在Transformer网络中添加相对位置编码，相对编码独立于输出，与输入相加以获得编码后的新的特征向量，重新编码后的特征向量被送入到Transformer网络中，迫使网络中的浅层更加关注局部信息，帮助网络更好地处理序列数据中的位置关系，从而提高二维关键点检测网络的性能。

具体的，如图3，在此处用上下文模式的相对位置编码调节Q和K之间的相对位置关系，计算出相似矩阵，帮助模型更好地理解关键点之间的相对位置关系，通过此步骤计算得到相似度分数，再经过Soft-max操作得到注意力权重矩阵，最后与值矩阵V相乘得到最终的加权求和结果，此结果即为注意力层的输出，具体公式为：

其中B为相对位置编码矩阵。

在注意力计算之后，输出特征向量通过前馈网络进行非线性变换和映射，利用ReLU函数作为激活函数，以提取更复杂的特征表示。

为了减轻信息损失和梯度消失的问题，在每个自注意力层和前馈网络后应用残差连接和层归一化操作，将输入特征向量与经过变换的特征向量相加，并进行归一化处理。

整个过程会通过多个自注意力层和前馈网络的叠加进行多层次的特征编码和表征学习，特别的，利用最后一个注意力层充当聚合器，形成预测关键点热图中的最大激活，最后网络利用一个head输出人体关键点热图。

步骤四、将步骤二中的体素网格信息与步骤三中的二维关键点热图信息融合作为三维卷积网络的输入：

具体的，将步骤三输出的人体关键点热图沿Z轴平铺，使其与体素网格具有相同的空间维度，平铺后每个体素在Z轴方向上都有对应的二维分数图；根据预测的二维关键点和深度图像进行反投影，得到关键点在三维空间中的位置，截取包含人体的人体体素网格V，将此体素网格V与二维得分图S_2D同时作为三维关键点预测网络的输入。

步骤五、将步骤四中的信息输入到三维关键点预测网络，在网络的处理过程中，使用一系列的三维卷积层对体素网格和二维得分图进行特征提取；具体的，三维关键点预测网络使用3D CNN架构，为一个编码器解码器架构，将步骤四中的体素网格V与平铺的二维得分图S_2D作为三维人体姿态估计网络的输入，通过一系列三维卷积进行处理，估计得分体积与二维得分图S_2D类似，在三维空间中表示对应关键点的可能性，通过卷积操作，网络能够学习到体素网格和分数图中的空间关系和关键点的概率分布，最后输出人体关键点的三维坐标。

进一步的，如图4，在进行编码过程中使用密集连接改进三维卷积网络，将每层的所有特征图都连接到下一层的特征图中，特征图之间使用级联操作进行相加，实现特征共享，弥补特征向量在三维卷积网络中的信息丢失。

本发明是一种融合了彩色图像和深度图像的三维人体姿态估计方法，利用热图与体素网格结合的思想融合彩色图像和深度图像；在二维人体姿态估计部分利用相对位置编码，有效地捕捉关节点之间的空间关系；在三维人体姿态估计部分采用密集网络提升位姿细节，充分利用了彩色图像丰富的纹理信息和深度图像准确的空间信息，进而提高了性能，本发明在各种应用场景下都具备更高的应用潜力，可以为现实中的广泛应用提供新的思路和方法。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合彩色图像和深度图像的三维人体姿态估计方法，其特征在于：该方法包括以下步骤，

2.根据权利要求1所述的一种融合彩色图像和深度图像的三维人体姿态估计方法，其特征在于：所述步骤一中，利用OpenCV库将RGB-D数据集拆分为彩色图像数据集和深度图像数据集用于训练。

3.根据权利要求1所述的一种融合彩色图像和深度图像的三维人体姿态估计方法，其特征在于：所述步骤二中，利用双边滤波对深度图像去噪，确定体素分辨率并创建体素空间，遍历整个深度图像后，获得整个深度图像体素块的体素网格。

4.根据权利要求1所述的一种融合彩色图像和深度图像的三维人体姿态估计方法，其特征在于：所述步骤三中，二维人体关键点检测模块由三个部分组成：一个CNN主干网络，用于提取低级图像特征；一个Transformer编码器，用于捕获跨位置的特征向量之间的远程空间交互；一个head用来输出预测的关键点热图，在Transfomer编码器中添加相对位置编码，与输入相加后得到新的特征向量，迫使网络中的浅层更加关注局部信息，帮助网络更好地处理序列数据中的位置关系。

5.根据权利要求1所述的一种融合彩色图像和深度图像的三维人体姿态估计方法，其特征在于：所述步骤四中，将二维人体关键点热图沿Z轴平铺，热图信息作为得分图，与体素网格结合，得到一个包含二维人体关键点得分图的体素网格。

6.根据权利要求1所述的一种融合彩色图像和深度图像的三维人体姿态估计方法，其特征在于：所述步骤五中，三维关键点预测网络利用3D CNN网络架构，网络学习体素网格和分数图中的空间关系和关键点的概率分布，最后输出人体关键点的三维坐标，此处利用密集连接的思想对三维卷积网络进行改进，将每层的所有特征图都连接到下一层的特征图中，特征图之间使用级联操作进行相加。