CN115984462B

CN115984462B - 一种单目多视角的通用物体三维建模方法

Info

Publication number: CN115984462B
Application number: CN202211633668.0A
Authority: CN
Inventors: 张磊; 李观喜; 苏鹏
Original assignee: Guangzhou Ziweiyun Technology Co ltd
Current assignee: Guangzhou Ziweiyun Technology Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2024-03-08
Anticipated expiration: 2042-12-19
Also published as: CN115984462A

Abstract

本发明提供一种单目多视角的通用物体三维建模方法，属于图形学技术领域，该单目多视角的通用物体三维建模方法包括模型采集、获取训练图像、特征提取、特征融合和三维重建推理；本发明中，为了加强单目多视角的通用物体三维建模方法的通用性，将同时对多种物体放在一起进行训练，比如：人体、一般物品和场景；通过设计一个全新的特征提取模块和特征融合模块，将三维重建算法的注意力集中在不同物体的不同视角的表面特征，忽略了它们内在的属性，减轻了任务的复杂性；采用阶段性点云上采样的数据增强方法，在训练阶段就可以跟多尺度策略相结合，在几何上的泛化性增强，从而使三维建模的精度和速度达到人们的期望。

Description

一种单目多视角的通用物体三维建模方法

技术领域

本发明属于图形学技术领域，尤其涉及一种单目多视角的通用物体三维建模方法。

背景技术

近年来，随着人工智能技术的飞速发展和元宇宙概念的兴起，人们将越来越多的注意力放在了3D视觉领域，三维建模作为这个领域的代表技术，它的需求在智能驾驶、AI医疗、虚拟现实、人机交互、游戏等产业中得到了膨胀式增长。

三维重建精度最高的方法是采用激光扫描，能保留物体表面99％以上的纹理细节，但受设备昂贵、扫描速度偏慢、适配性有限等因素影响，通用性不大；相对来说，基于视频或图像的三维建模是研究的主流，传统图形学方式主要是利用同一个点在不同视角图片中的视差，计算出真实点的深度，从而恢复出真实物体的表面特征，然而在精度和速度上很难达到人们的期望；与传统方式相比，三维建模和深度学习的结合，不管在速度上，还是在准确率上都远远超过传统方法，但在建模物体的通用性上比较受限。

因此，发明一种单目多视角的通用物体三维建模方法显得非常必要。

发明内容

为了解决上述技术问题，本发明提供一种单目多视角的通用物体三维建模方法，包括以下步骤：

S101，模型采集：用多个结构光相机对不同物体进行采集建模，多个结构光相机设置在物体的不同角度；

S102，获取训练图像：利用S101中采集到的各种数据模型，将其渲染到不同的偏航角度，将同一个物体生成出不同偏航角度的图片和对应的背景掩膜，并将不同姿态下的相机参数进行保存；

S103，特征提取：对S102中得到的同一个物体的不同角度的图片依据掩膜除去背景，按照一定的角度间隔随机选取N张图片，分辨率保持在512*512，送入同一个网络中进行特征提取，并保证计算得到特征图的尺寸跟原图的尺寸一致；在原物体的三维空间中随机采样，并保证在物体模型空间内的点和在物体模型空间外的点数量相等，分别生成对应的点云标签：1和0；将采样的3D点云和上一步保存的相机参数，通过正交投影计算出图像坐标系下的坐标，根据x和y坐标索引获取特征图上对应的特征，然后跟z坐标值进行拼接；

S104，特征融合：将S103中得到的特征送入五层级联式的多层感知机网络中，前两层正常进行前向计算，从第三层开始将上一步前向计算的特征向量新增一个维度，该维度代表输入图片的视角数量N，进行Resize操作后在该维度上计算特征向量的均值；感知机网络最后一层的输出维度一定是1，用于表示采样的点云在物体内部的概率，跟真实的点云标签进行均方误差计算得到损失值，再进行反向传播；

S105，三维重建推理：将要重建物体的多角度RGB图片放入训练好的三维重建算法中，按照512*512*512的三维密集点云进行特征采样，计算出每个点在物体内部的概率值，利用marching-cubes算法进行三维重建。

优选的，所述S101中，模型采集时，物体为单个物体、多个物体累加或并排多个物体；其中采集的数据种类越丰富，算法训练后越容易得到物体边界特征；

其中，物体为人体、一般物品或场景。

优选的，所述S102中，偏航角度为0～360度；其中，为了加强几何特征的捕捉，让三维重建算法适应不同尺度的物体，采用阶段性点云上采样的数据增强方法，该阶段性点云上采样的数据增强方法的具体步骤如下：

S1021，预设几个变化系数，用来对预先建好的模型等比例增大或缩小，以增大为例，假设变化系数为2，随机在模型中选择一个面，该面由三个顶点A、B、C构成，取顶点A作为初始点，边AB和AC的长度延长两倍且夹角不变，获得新的顶点B1和C1，得到由顶点A、B1、C1组成的面，取代原有的面，以此类推将顶点A涉及到的所有的面都进行扩增替换；

S1022，将顶点B1、C1，按照点A的方式依次进行操作；

S1023，将模型的几何表面积增大了8倍，由小物体变成了大物体。

优选的，所述S103中，采用点数量在5000～8000范围内随机取值。

优选的，所述S1023中，变化系数越多，由同一个模型扩展得到的不同尺寸的新模型越丰富。

优选的，所述S105中，训练好的三维重建算法为所述S101～S104所得到的结果。

与现有技术相比，本发明具有如下有益效果：

本发明中，为了加强单目多视角的通用物体三维建模方法的通用性，将同时对多种物体放在一起进行训练，比如：人体、一般物品和场景；通过设计一个全新的特征提取模块和特征融合模块，将三维重建算法的注意力集中在不同物体的不同视角的表面特征，忽略了它们内在的属性，减轻了任务的复杂性；采用阶段性点云上采样的数据增强方法，在训练阶段就可以跟多尺度策略相结合，在几何上的泛化性增强，从而使三维建模的精度和速度达到人们的期望；采用多个结构光相机对不同物体进行采集建模，多个结构光相机设置在物体的不同角度，既能保证模型采集的精度和速度，又能降低模型采集的成本，且能适用于多种物体的多角度扫描，适配性较好。

附图说明

图1是本发明的流程框图。

图2是本发明的数据增强方法的流程框图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如后。

以下结合附图对本发明做进一步描述：

实施例：

如附图1至附图2所示

本发明提供一种单目多视角的通用物体三维建模方法，包括以下步骤：

S103，特征提取：对S102中得到的同一个物体的不同角度的图片依据掩膜除去背景，按照一定的角度间隔随机选取N张图片，分辨率保持在512*512，送入同一个网络中进行特征提取，并保证计算得到特征图的尺寸跟原图的尺寸一致；在原物体的三维空间中随机采样，并保证在物体模型空间内的点和在物体模型空间外的点数量相等，分别生成对应的点云标签：1和0；将采样的3D点云和上一步保存的相机参数，通过正交投影计算出图像坐标系下的坐标，根据x和y坐标索引获取特征图上对应的特征，然后跟z坐标值进行拼接；具体公式如下：

f_view＝f_c(F(x_img),Z(X))

其中，X表示3D点云中任意一点，fview表示在任意视角下该点提取到的特征值，ximg表示输入图片，F表示特征提取网络，Z表示正交投影操作，fc表示特征拼接操作；

S104，特征融合：将S103中得到的特征送入五层级联式的多层感知机网络中，前两层正常进行前向计算，从第三层开始将上一步前向计算的特征向量新增一个维度，该维度代表输入图片的视角数量N，进行Resize操作后在该维度上计算特征向量的均值；感知机网络最后一层的输出维度一定是1，用于表示采样的点云在物体内部的概率，跟真实的点云标签进行均方误差计算得到损失值，再进行反向传播，这就是整体网络训练流程；具体公式如下：

其中，s表示随机采样点的数量，i表示点的索引，fview表示单视角任意点的特征，mean表示均值操作，Mlp表示多层感知机网络，GT*(Xi)表示3D点真实的标签值，L表示损失值。

本实施例中，S101中，模型采集时，物体为单个物体、多个物体累加或并排多个物体；其中采集的数据种类越丰富，算法训练后越容易得到物体边界特征；其中，物体为人体、一般物品或场景；S102中，偏航角度为0～360度；

为了加强单目多视角的通用物体三维建模方法的通用性，将同时对多种物体放在一起进行训练，比如：人体、一般物品和场景；通过设计一个全新的特征提取模块和特征融合模块，将三维重建算法的注意力集中在不同物体的不同视角的表面特征，忽略了它们内在的属性，减轻了任务的复杂性；

其中，为了加强几何特征的捕捉，让三维重建算法适应不同尺度的物体，采用阶段性点云上采样的数据增强方法；

该阶段性点云上采样的数据增强方法的具体步骤如下：

S1022，将顶点B1、C1，按照点A的方式依次进行操作；

其中，变化系数越多，由同一个模型扩展得到的不同尺寸的新模型越丰富；采用阶段性点云上采样的数据增强方法，在训练阶段就可以跟多尺度策略相结合，在几何上的泛化性增强，从而使三维建模的精度和速度达到人们的期望。

本实施例中，S103中，采用点数量在5000～8000范围内随机取值；S105中，训练好的三维重建算法为S101～S104所得到的结果。

本发明中，为了加强单目多视角的通用物体三维建模方法的通用性，将同时对多种物体放在一起进行训练，比如：人体、一般物品和场景；通过设计一个全新的特征提取模块和特征融合模块，将三维重建算法的注意力集中在不同物体的不同视角的表面特征，忽略了它们内在的属性，减轻了任务的复杂性；采用阶段性点云上采样的数据增强方法，在训练阶段就可以跟多尺度策略相结合，在几何上的泛化性增强，从而使三维建模的精度和速度达到人们的期望。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种单目多视角的通用物体三维建模方法，其特征在于：包括以下步骤：

f_view＝f_c(F(x_img)，Z(X))

S104，特征融合：将S103中得到的特征送入五层级联式的多层感知机网络中，前两层正常进行前向计算，从第三层开始将上一步前向计算的特征向量新增一个维度，该维度代表输入图片的视角数量N，进行Resize操作后在该维度上计算特征向量的均值；感知机网络最后一层的输出维度一定是1，用于表示采样的点云在物体内部的概率，跟真实的点云标签进行均方误差计算得到损失值，再进行反向传播；具体公式如下：

其中，s表示随机采样点的数量，i表示点的索引，fview表示单视角任意点的特征，mean表示均值操作，Mlp表示多层感知机网络，GT*(Xi)表示3D点真实的标签值，L表示损失值；

2.如权利要求1所述的单目多视角的通用物体三维建模方法，其特征在于：所述S101中，模型采集时，物体为单个物体、多个物体累加或并排多个物体；其中采集的数据种类越丰富，算法训练后越容易得到物体边界特征；

其中，物体为人体、一般物品或场景。

3.如权利要求1所述的单目多视角的通用物体三维建模方法，其特征在于：所述S102中，偏航角度为0～360度；

其中，为了加强几何特征的捕捉，让三维重建算法适应不同尺度的物体，采用阶段性点云上采样的数据增强方法，该阶段性点云上采样的数据增强方法的具体步骤如下：

S1021，预设几个变化系数，用来对预先建好的模型等比例增大或缩小，增大时，变化系数为2，随机在模型中选择一个面，该面由三个顶点A、B、C构成，取顶点A作为初始点，边AB和AC的长度延长两倍且夹角不变，获得新的顶点B1和C1，得到由顶点A、B1、C1组成的面，取代原有的面，以此类推将顶点A涉及到的所有的面都进行扩增替换；

S1022，将顶点B1、C1，按照点A的方式依次进行操作；

4.如权利要求1所述的单目多视角的通用物体三维建模方法，其特征在于：所述S103中，采用点数量在5000～8000范围内随机取值。

5.如权利要求3所述的单目多视角的通用物体三维建模方法，其特征在于：所述S1023中，变化系数越多，由同一个模型扩展得到的不同尺寸的新模型越丰富。

6.如权利要求1所述的单目多视角的通用物体三维建模方法，其特征在于：所述S105中，训练好的三维重建算法为所述S101～S104所得到的结果。