CN116630545A

CN116630545A - 一种面向多视角rgb图像数据融合的三维人体重建方法

Info

Publication number: CN116630545A
Application number: CN202310651903.5A
Authority: CN
Inventors: 叶琦; 徐至; 张建; 高龙; 孙军; 陈安军; 杨秦敏
Original assignee: Zhejiang University ZJU; Shandong Lingong Construction Machinery Co Ltd
Current assignee: Zhejiang University ZJU; Shandong Lingong Construction Machinery Co Ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-08-22

Abstract

本发明公开了一种面向多视角RGB图像数据融合的三维人体重建方法，包括训练过程和重建过程，训练过程为：S1、在原始多视角图像数据中裁剪得到仅包含感兴趣的身体部位区域；S2、对不同视角的图像数据分别进行全局特征和局部特征的提取；S3、全局整合各视角图像数据的全局特征，融合得到全局特征向量；S4、将步骤S3中得到的全局特征向量和步骤S2中得到的各视角图像数据的局部特征输入到融合Transformer网络结构中，得到粗糙网格，对粗糙网格上采样得到重建的三维人体网格，将损失函数应用于重建的网格以约束顶点和关节，从而完成训练。重建过程与训练过程类似。本发明方法适用于各种需要使用多视角图像融合数据的场景。

Description

一种面向多视角RGB图像数据融合的三维人体重建方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及一种面向多视角RGB图像数据融合的三维人体重建方法。

背景技术

三维人体重建方法可以作为三维感知方法的一部分，因为人体是三维世界中的主要元素之一。人体的位置、形状、姿态和动作等信息对于很多应用都是非常重要的，比如虚拟现实、智能监控、医学诊断等领域。通过三维人体重建方法，可以从图像、视频、深度相机等传感器数据中获取人体的三维位置、形状和运动信息，从而实现对人体的三维感知。

传感器技术和深度学习的最新进展使得三维人体重建方法取得了重大进展。然而，大多数现有方法都依赖于单视角RGB图像。由于缺乏深度信息，且可能存在遮挡，因此基于单视角RGB图像的三维人体重建缺乏可靠性。

发明内容

本发明主要是解决现有技术所存在的只能基于单视角图像进行三维人体重建、可靠性不足等的技术问题，提供一种具有较高可靠性的面向多视角RGB图像数据融合的三维人体重建方法。

本发明针对上述技术问题主要是通过下述技术方案得以解决的：一种面向多视角RGB图像数据融合的三维人体重建方法，包括训练过程和重建过程，所述训练过程具体为：

S1、在原始多视角图像数据中裁剪得到仅包含感兴趣的身体部位区域；训练时裁剪对象为训练集中的原始多视角图像数据；原始多视角图像数据为包含骨骼真值的数据，训练集包含三维人体网格的真实值；

S2、对不同视角的图像数据分别进行全局特征和局部特征的提取；

S3、全局整合各视角图像数据的全局特征，融合得到全局特征向量；

S4、将步骤S3中得到的全局特征向量和步骤S2中得到的各视角图像数据的局部特征输入到融合Transformer网络结构中，得到粗糙网格，对粗糙网格上采样得到重建的三维人体网格，将损失函数应用于重建的三维人体网格以约束顶点和关节点，从而完成训练；

所述重建过程具体为：

依照步骤S1到步骤S3对重建集中的原始多视角图像数据进行裁剪、全局特征和局部特征提取以及融合得到全局特征向量，然后将全局特征向量和局部特征输入到训练后的融合Transformer网络结构并对输出的粗糙网格上采样，得到重建的三维人体网格。

作为优选，所述步骤S4中，损失函数为：

式中，n为样本数量，y_i为人体三维网格的真实值，f(x_i)为人体三维网格的预测值。损失函数可以避免梯度爆炸的问题。

作为优选，所述步骤S1具体为：

使用边界框算法标注裁剪图像数据中人体网格关节点的真实值，得到仅包含目标身体部位区域；裁剪后得到的数据集为D={I_i},i=1,…,M，M为视角的数量，I_i∈ℝ^224×224×3是裁取出目标身体部分在视角i下的RGB图像。

边界框算法采用常规的bounding box算法，可以依据骨骼真值自动完成对图像数据的标注和裁剪，空心字母ℝ表示域。

作为优选，所述步骤S2具体为：

S201、使用HRNet网络从RGB图像I_i中提取梯度特征L_i∈ℝ^n×m和全局特征G_i∈ℝ²⁰⁴⁸，其中n为梯度特征L_i的通道数，m为梯度特征L_i的特征维度；

S202、将梯度特征L_i输入多层感知器，获得局部特征。多层感知器为MLP网络。

作为优选，所述步骤S3具体为：

S301、将各视角的全局特征G_i输入到具有三层注意力机制的第一transformer结构，对所有输出结果进行和运算，得到初步全局特征向量；

S302、对SMPL-X模型进行降采样，SMPL-X模型由初始化的人体模板的22个固定关节点位置和10475个固定顶点位置构成，将10475个固定顶点精简为655个，得到由22个固定关节点和655个精简顶点构成的模板，将此模板中关节和顶点三维坐标与整合全局特征相拼接，得到全局特征向量G^T。

本发明带来的实质性效果是，提出一种多视角RGB图像数据融合下的三维人体重建方法，可以实现对三维人体模型的准确重建，克服了传统方法单视角图像的局限性，获得更加可靠的结果，适用于多视角下的三维人体重建。

附图说明

图1是本发明的一种训练过程流程图；

图2是本发明的一种人体重建网络模型结构示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：如图2所示为面向多视角RGB图像数据融合的三维人体重建方法的网络模型结构示意图。本结构旨在有效地利用全局和局部级别的多视角RGB图像信息来预测人体网格信息。算法具体流程如下所示，给定多视角RGB图像信息，每个视角RGB图像的全局特征和局部特征首先分别由相应的主干提取。接下来，全局集成模块第一transformer将所有视角RGB图像的全局特征合并为一个全局特征，并将降采样后的SMPL-X模板嵌入其中得到全局特征向量。然后，将所有全局特征和局部特征标记化为多层融合转换器的输入，用来动态融合所有模态的信息并直接回归到三维人体关节点和粗糙网格顶点的坐标。由于Transformer对任意数量的输入都具有适应性，全局集成模块和多层融合转换器模块可以自适应地处理任何输入特征组合，包括仅输入单视角图像数据的情况。最后使用多层感知器将粗糙网格顶点上采样到完整的SMPL-X网格顶点。具体方法如下：

一种面向多视角RGB图像数据融合的三维人体重建方法，包括训练过程和重建过程，如图1所示，所述训练过程具体为：

所述重建过程具体为：

所述步骤S4中，损失函数为：

本方案训练时针对每个场景选择训练集和测试集，为了更好地激发模型对各个模态的潜力，其中训练集随机分成多个部分。

所述步骤S1具体为：

边界框算法采用常规的bounding box算法，可以依据骨骼真值自动完成对图像数据的标注和裁剪。

所述步骤S2具体为：

所述步骤S3具体为：

实际重建时，先利用融合Transformer网络结构从任意视角RGB图像生成的全局和局部特征中选择信息性标记特征来动态融合信息，即融合Transformer网络在关注有效特征并限制不需要的特征的同时，采用关节点/顶点查询G^T和视角标记之间的交叉注意（cross attention），以融合多视角图像输入的相关信息，其中G^T由全局特征生成，视角标记由局部特征生成。

然后使用多层感知器实现的线性投影网络对上一步得到的粗糙网格上采样，得到最终重建出的人体网格，以便对人体姿态、形状等特征进行进一步分析和处理。

本发明采用以下技术手段以减轻由于RGB或深度信息的不足而导致的特征退化：在融合Transformer中使用多头注意力机制来混合两种不同嵌入序列，对输入的不同视角的RGB图像数据进行特征提取，以提高人体重建的准确性和鲁棒性；同时，通过使用多头注意力机制，使其能够适应在极端条件下的数据融合需求，例如低光照、噪声等情况下的图像融合。

综合比较来说，本发明方法，即对面向多视角RGB图像数据融合需求的三维人体重建方法来说，在人体重建的研究领域对于其他现有的重建方法来说结果方面的优势明显，可以考虑用于需要多视角图像数据融合的其他任务。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了局部特征、全局特征、顶点等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种面向多视角RGB图像数据融合的三维人体重建方法，其特征在于，包括训练过程和重建过程，所述训练过程具体为：

S1、在原始多视角图像数据中裁剪得到仅包含感兴趣的身体部位区域；训练时裁剪对象为训练集中的原始多视角图像数据；

所述重建过程具体为：

2.根据权利要求1所述的一种面向多视角RGB图像数据融合的三维人体重建方法，其特征在于，所述步骤S4中，损失函数为：

式中，n为样本数量，y_i为人体三维网格的真实值，f(x_i)为人体三维网格的预测值。

3.根据权利要求1或2所述的一种面向多视角RGB图像数据融合的三维人体重建方法，其特征在于，所述步骤S1具体为：

4.根据权利要求3所述的一种面向多视角RGB图像数据融合的三维人体重建方法，其特征在于，所述步骤S2具体为：

S202、将梯度特征L_i输入多层感知器，获得局部特征。

5.根据权利要求4所述的一种面向多视角RGB图像数据融合的三维人体重建方法，其特征在于，所述步骤S3具体为：

S301、将各视角的全局特征G_i输入到具有三层注意力机制的第一transformer结构，对所有输出结果进行和运算，得到整合全局特征；