CN116797733A

CN116797733A - 实时三维物体动态重建方法

Info

Publication number: CN116797733A
Application number: CN202310742865.4A
Authority: CN
Inventors: 宋鸿展; 谢晓华; 彭勃
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-22

Abstract

本发明公开了实时三维物体动态重建方法，属于物体动态重建方法技术领域，包括准备三维物体数据集和特征点回归模型训练，深度学习网络模型获取单张图片，基于单张图片信息深度学习网络模型输出三维物体网格以及在二维图像平面上投影的地标，采用PnP算法获取三维物体网络和二维图像平面上投影的地标信息输出六自由度姿态参数得到三维物体重建模型。

Description

实时三维物体动态重建方法

技术领域

本发明涉及一种物体动态重建方法，特别是涉及实时三维物体动态重建方法，属于物体动态重建方法技术领域。

背景技术

现有的三维物体重建方法包括传统三维重建算法和深度学习重建算法，其中基于模板的形状技术(Shape from Template)可用于解决单幅图像和可变形三维物体模型的实时三维重建问题。

其他的方法一部分问题在于很难进行实时应用，Shape from Template(SFT)输入区域单个图像，3D物体模型是已知的，而物体是可变形的，图像是模型在某种未知变形后拍摄的照片，问题是找到模型与图像以及深度之间的对应关系。

经典SFT方法形成了现有工作的绝大多数，首先从解耦方法入手，将配准和重构作为独立的问题进行求解，该方法的主要优点是简单、问题分解以及利用现有的成熟管理方法，然而，它们往往会产生次优解，因为它们没有考虑连接重建和配准的所有物理约束，而另一种方法同时计算配准和重建，使3D中的模板变形，从而使其投影与图像数据一致，一些方法使用可以在优化过程中重新估计的特征点对应。

另外现有技术中如申请号为CN110021069A-一种基于网格形变的三维模型重建方法公开的技术方案进行构建训练样本集，包括制作多个模型的离散视角图片和相应三维点云数据；设置基于图卷积神经网络的深度学习网络模型，所述基于图卷积神经网络的深度学习网络模型包括离散视角特征融合模块和网格形变模块，所述离散视角特征融合模块的输出连接搭配网格形变模块的输入；设置损失函数，基于训练样本集，对基于图卷积神经网络的深度学习网络模型进行训练；输入待重建物体的离散视角图片到训练所得网络模型，进行三维网格模型自动重建并评定精度，该方法通过对物体的离散视角图片和三维点云数据集进行学习与训练，能支持稳定、精确地对不同种类、尺寸物体进行自动的三维网格模型重建。

但上述现有技术在没有考虑到在物体距离摄像机非常近的情况下透视投影失真所带来的影响，在透视失真的情况下难以达到比较准确的重建效果，并没有考虑到物体模型特征点之间的差异性，导致最终的拟合效果不好，此外实时性能不能，难以进行三维重建的实际应用为此设计一种实时三维物体动态重建方法来解决上述问题。

发明内容

本发明的主要目的是为了提供实时三维物体动态重建方法，能够避免物体离镜头距离近时的透视失真问题，三维物体重建的准确度能够通过特征点加权进一步提升，提升三维物体重建的实时性能，实现动态重建。

本发明的目的可以通过采用如下技术方案达到：

实时三维物体动态重建方法，包括准备三维物体数据集和特征点回归模型训练，其特征在于：还包括如下步骤：

深度学习网络模型获取单张图片；

基于单张图片信息深度学习网络模型输出三维物体网格以及在二维图像平面上投影的地标；

采用PnP算法获取三维物体网络和二维图像平面上投影的地标信息输出六自由度姿态参数得到三维物体重建模型。

在准备三维物体数据集的时候通过利用公开数据集；

或3D扫描仪辅助设备收集三维物体真实3D网格模型、特征点在二维图像平面上投影的地标真实值。

对采集的三维物体数据集进行轻量化的深度学习网络进行模型训练；

其中训练过程的损失函数针对特征点进行加权。

收集三维物体真实3D网格模型、特征点在二维图像平面上投影的地标真实值具体包括确定一个由n个三维顶点和m个三角形组成3D网格模型；

同时包括n个三维顶点在世界空间中的真实坐标：

以及在二维图像平面上投影的地标真实值：

特征点回归模型训练为三维网格回归中的顶点损失和边损失以及二维图像平面投影的地标损失的总和；

其损失函数具体表示为：

L_loss＝λ_vL_v+λ_eL_e+λ_pL_p；

其中：

L_v为三维网格回归中的顶点损失，λ_v为其对应的超参数；

L_e为三维网格回归中的边损失，λ_e为其对应的超参数；

L_p为二维图像平面投影的地标损失，λ_p为其对应的超参数。

对三维网格回归中的顶点使用下面的顶点损失L_v来约束顶点的位置；

具体表示为：

其中：

n是顶点的个数；

σ_i为根据特征点重要性的预定义权重；

v_i是模型的预测值；

是真实值。

通过利用三维网格的拓扑结构，定义三维网格回归中的边损失为：

其中：

m是三维网格模型固定的拓扑结构中三角形的个数；

e_i是根据预测计算出来的边长值；

e^*则是根据真实值计算出来的边长值。

对于二维图像平面投影的地标回归使用距离损失来约束预测的地标，使二维图像平面投影的地标接近真实的预测值；

具体表示为：

其中：

n是顶点的个数；

σ_i为根据特征点重要性的预定义权重；

p_i是顶点在二维图像平面投影的预测值；

是二维图像平面投影的真实值。

深度学习网络模型获取单张图片具体包括通过输入单张RGB图形得到预测的所有的三维顶点坐标：

y_i＝(x_i，y_i，z_i)，i＝0…(n-1)；

和二维地标值：

P_i＝(x_i，y_i)，i＝0…(n-1)。

具体采用PnP算法包括已知n个三维物体网络点的坐标以及这些点的像素坐标；

求解世界坐标系到相机坐标系的旋转矩阵R和平移向量T，相机外参R，T满足的透视投影模型如下：

其中：

z_c为二维点的深度；

K为相机内参矩阵；

利用如下公式将三维物体坐标从世界坐标系V_world转换为摄像机坐标系V_camera：

V_camera＝K(V_worldR+T)

其中R，T此前透视投影模型所得的解。

本发明的有益技术效果：

本发明提供的实时三维物体动态重建方法，提出一种利用PnP算法解决三维物体重建中当物体距离过近导致透视失真问题的方法。

提出一种基于特征点加权的训练损失函数，能够使得模型有更好的重建效果。

对于现有的三维物体重建技术，本发明具有以下的优点：

能够避免物体离镜头距离近时的透视失真问题。

三维物体重建的准确度能够通过特征点加权进一步提升。

提升三维物体重建的实时性能，实现动态重建。

具体实施方式

为使本领域技术人员更加清楚和明确本发明的技术方案，下面结合实施例对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本实施例提供的实时三维物体动态重建方法，包括准备三维物体数据集和特征点回归模型训练，其特征在于：还包括如下步骤：

深度学习网络模型获取单张图片；

在本实施例中，在准备三维物体数据集的时候通过利用公开数据集；

在本实施例中，对采集的三维物体数据集进行轻量化的深度学习网络进行模型训练；

其中训练过程的损失函数针对特征点进行加权。

在本实施例中，收集三维物体真实3D网格模型、特征点在二维图像平面上投影的地标真实值具体包括确定一个由n个三维顶点和m个三角形组成3D网格模型；

同时包括n个三维顶点在世界空间中的真实坐标：

以及在二维图像平面上投影的地标真实值：

在本实施例中，特征点回归模型训练为三维网格回归中的顶点损失和边损失以及二维图像平面投影的地标损失的总和；

其损失函数具体表示为：

L_loss＝λ_vL_v+λ_eL_e+λ_pL_p；

其中：

L_v为三维网格回归中的顶点损失，λ_v为其对应的超参数；

L_e为三维网格回归中的边损失，λ_e为其对应的超参数；

L_p为二维图像平面投影的地标损失，λ_p为其对应的超参数。

在本实施例中，对三维网格回归中的顶点使用下面的顶点损失L_v来约束顶点的位置；

具体表示为：

其中：

n是顶点的个数；

σ_i为根据特征点重要性的预定义权重；

v_i是模型的预测值；

是真实值。

在本实施例中，通过利用三维网格的拓扑结构，定义三维网格回归中的边损失为：

其中：

m是三维网格模型固定的拓扑结构中三角形的个数；

e_i是根据预测计算出来的边长值；

e^*则是根据真实值计算出来的边长值。

或采用基于点云重建的算法以及基于体素的重建方法也可以实现上述计算。

在本实施例中，对于二维图像平面投影的地标回归使用距离损失来约束预测的地标，使二维图像平面投影的地标接近真实的预测值；

具体表示为：

其中：

n是顶点的个数；

σ_i为根据特征点重要性的预定义权重；

p_i是顶点在二维图像平面投影的预测值；

是二维图像平面投影的真实值。

在本实施例中，深度学习网络模型获取单张图片具体包括通过输入单张RGB图形得到预测的所有的三维顶点坐标：

y_i＝(x_i，y_i，z_i)，i＝0…(n-1)；

和二维地标值：

P_i＝(x_i，y_i)，i＝0…(n-1)。

在本实施例中，具体采用PnP算法包括已知n个三维物体网络点的坐标以及这些点的像素坐标；

其中：

z_c为二维点的深度；

K为相机内参矩阵；

V_camera＝K(V_worldR+T)

其中R，f此前透视投影模型所得的解。

经过包含200个物体的数据集测试，本发明方法的三维物体重建效果在准确度和实时性能方面优于现有的重建方法；

具体为通过选取典型物体构建三维网格网格模型，同时来利用三维扫描设备获得物体在不同摄像头距离和姿态下三维网格顶点的的真实值，同时人工标注对应顶点在二维图像平面的投影真实值值。

最终通过统计模型预测值与真实值之间的误差衡量三维重建准确度。

以上，仅为本发明进一步的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.实时三维物体动态重建方法，包括准备三维物体数据集和特征点回归模型训练，其特征在于：还包括如下步骤：

深度学习网络模型获取单张图片；

2.根据权利要求1所述的实时三维物体动态重建方法，其特征在于：在准备三维物体数据集的时候通过利用公开数据集；

3.根据权利要求1所述的实时三维物体动态重建方法，其特征在于：对采集的三维物体数据集进行轻量化的深度学习网络进行模型训练；

其中训练过程的损失函数针对特征点进行加权。

4.根据权利要求2所述的实时三维物体动态重建方法，其特征在于：收集三维物体真实3D网格模型、特征点在二维图像平面上投影的地标真实值具体包括确定一个由n个三维顶点和m个三角形组成3D网格模型；

同时包括n个三维顶点在世界空间中的真实坐标：

其中：

V_i为顶点在三维世界空间的坐标；

x_i,y_i,z_i分别为三维空间中x,y,z三个维度的值；

n为顶点的个数。

以及在二维图像平面上投影的地标真实值：

其中：

P_i为顶点在二维图像平面对应的投影坐标；

x_i,y_i分别为二维图像空间中的x,y维度的值；

n为顶点的个数。

5.根据权利要求3所述的实时三维物体动态重建方法，其特征在于：特征点回归模型训练为三维网格回归中的顶点损失和边损失以及二维图像平面投影的地标损失的总和；

其损失函数具体表示为：

L_loss＝λ_vL_v+λ_eL_e+λ_pL_p；

其中：

L_v为三维网格回归中的顶点损失，λ_v为其对应的超参数；

L_e为三维网格回归中的边损失，λ_e为其对应的超参数；

L_p为二维图像平面投影的地标损失，λ_p为其对应的超参数。

6.根据权利要求5所述的实时三维物体动态重建方法，其特征在于：对三维网格回归中的顶点使用下面的顶点损失L_v来约束顶点的位置；

具体表示为：

其中：

n是顶点的个数；

σ_i为根据特征点重要性的预定义权重；

v_i是模型的预测值；

是真实值。

7.根据权利要求5所述的实时三维物体动态重建方法，其特征在于：通过利用三维网格的拓扑结构，定义三维网格回归中的边损失为：

其中：

m是三维网格模型固定的拓扑结构中三角形的个数；

e_i是根据预测计算出来的边长值；

e^*则是根据真实值计算出来的边长值。

8.根据权利要求5所述的实时三维物体动态重建方法，其特征在于：对于二维图像平面投影的地标回归使用距离损失来约束预测的地标，使二维图像平面投影的地标接近真实的预测值；

具体表示为：

其中：

n是顶点的个数；

σ_i为根据特征点重要性的预定义权重；

p_i是顶点在二维图像平面投影的预测值；

是二维图像平面投影的真实值。

9.根据权利要求1所述的实时三维物体动态重建方法，其特征在于：深度学习网络模型获取单张图片具体包括通过输入单张RGB图形得到预测的所有的三维顶点坐标：

V_i＝(x_i,y_i,z_i),i＝0…(n-1)；

其中：

V_i为顶点在三维世界空间的坐标；

x_i,y_i,z_i分别为三维空间中x,y,z三个维度的值；

n为顶点的个数。

和二维地标值：

P_i＝(x_i,y_i),i＝0…(n-1)；

其中：

P_i为顶点在二维图像平面对应的投影坐标；

x_i,y_i分别为二维图像空间中的x,y维度的值；

n为顶点的个数。

10.根据权利要求1所述的实时三维物体动态重建方法，其特征在于：具体采用PnP算法包括已知n个三维物体网络点的坐标以及这些点的像素坐标；

求解世界坐标系到相机坐标系的旋转矩阵R和平移向量T，相机外参R,T满足的透视投影模型如下：

其中：

z_c为二维点的深度；

K为相机内参矩阵；

V_camera＝K(V_worldR+T)

其中R,T此前透视投影模型所得的解。