CN114049434A

CN114049434A - 一种基于全卷积神经网络的3d建模方法及系统

Info

Publication number: CN114049434A
Application number: CN202111302798.1A
Authority: CN
Inventors: 潘泽文; 许轶博; 李佳斌; 范宏伟
Original assignee: Chengdu Aitneng Electric Technology Co ltd
Current assignee: Chengdu Aitneng Electric Technology Co ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-15

Abstract

本发明公开了一种基于全卷积神经网络的3D建模方法及系统，通过设备采集目标对象的图像数据，并在采集时获取不同时刻设备的位置信息数据，构建全卷积神经网络模型，输入图像数据及对应的位置信息数据，获得图像数据每个位置的RGB值和像素密度，并根据RGB值和像素密度对图像数据进行渲染，模型训练时，基于图像数据与渲染结果计算每个位置的L2损失以及全图的感知损失函数，再将两损失结合作为总体损失函数，训练模型。本发明通过使用整张图像和设备位置信息数据作为输入，同时对每个像素点进行训练神经辐射场，极大低提升了模型处理速度，同时基于物体整体的感知损失函数结合可微损失，提升了图像中物体的3D建模精度。

Description

一种基于全卷积神经网络的3D建模方法及系统

技术领域

本发明涉及3D场景建模技术领域，特别涉及一种基于全卷积神经网络的3D场景建模方法及系统。

背景技术

“3D建模”通俗来讲就是通过虚拟三维空间构建出具有三维数据的模型，建模的准确性、效率与建模时的基础数据以及分析处理，存在密切关系，当前3D建模通常会采用超声波、X光等技术直接获取实体的结构数据，根据对得到的三维结构数据直接构建三维数据模型，然而这种方式具有较高的设备成本，且具有一定的局限性；还有种方式是通过获取大量2D的平面数据，通过后期的分析处理，搭建三维模型。

例如专利申请文件，公开号为CN113099208A，名称为：基于神经辐射场的动态人体自由视点视频生成方法和装置，公开了通过拍摄3D物体的各个角度的图像；提取图像中每个像素点的相机参数；利用多层神经网络从不同角度的照片中学习物体的3D建模信息；输入给定视角，利用渲染的方式生成该视角下的图像。

该方法存在如下缺点：

1、模型采用的多层神经网络，是对单个像素点进行渲染，整体图像的渲染为每个像素渲染时间的累计，因而模型训练效率低，且渲染过程耗时极长，当面对分辨率较高的图像是，效率更低，耗时更久。

2、模型对每个像素点仅采用单个像素的RPG的差作为损失函数进行训练，导致相邻像素间有差异，当原始图像分辨率高时，由训练好的模型所重构的3D场景生成的不同视角图像较为模糊，清晰度不高。

发明内容

为解决上述技术问题，本发明提供了一种基于全卷积神经网络的3D场景建模方法及系统，采用全卷积神经网络结构，通过使用整张图像和设备位置信息数据作为输入，同时对每个像素点进行训练神经辐射场。无需对像素逐个进行计算，能够同时处理整张图像，极大低提升了模型处理速度，同时在原有损失函数的基础上，同步新增了基于物体整体的感知损失函数，提升了图像中物体的3D建模精度。

本发明提供了一种基于全卷积神经网络的3D建模方法，具体技术方案如下：

S1：采集目标对象的图像数据进行预处理，构建数据集，同时在采集数据时获取不同采集时刻设备的位置信息数据，所述位置信息数据包括设备的姿态信息和位置信息；

S2：构建网络模型并训练，输入所述图像数据M对应的所述位置信息数据，得到所述图像数据每个位置的RGB值和像素密度；

S3：根据图像数据M每个位置的所述RGB值和像素密度，对所述图像数据进行渲染，得到渲染结果，渲染过程中采用随机采样的方式计算像素的积分过程，具体公式如下：

其中，I(r)为摄像机视线r上的所有像素的累积颜色值，n为该视线上的采样点个数，l₁为视线穿过物体的距离摄像机的近端边界，l_n为视线穿过物体的距离摄像机的远端边界，W(l_i)为从l₁到l_n的累积密度值，I(r,l_i)为视线r上的采样点l_i处的图像像素颜色值，σ(r,l_i)为r上的采样点t处的密度值。

进一步的，数据采集通过图像采集设备以不同角度获取目标对象的图像或者通过采集设备获取目标对象的视频数据，不同的目标对象最终获取的不同角度图像数量不同。

进一步的，获取目标对象的图像时，围绕所述目标对象等间距获取各角度图像。

进一步的，所述网络模型采用全卷积神经网络FCN，由卷积层、全连接层、激活层、池化层、归一化层构成，卷积层采用尺寸为1的卷积核。

进一步的，网络模型的训练通过计算渲染结果与原所述图像数据的差异，得到总体损失函数，具体过程如下：

通过所述图像数据M与渲染结果I计算每个对应位置像素点的L2损失；

将所述图像数据M与渲染结果I输入到感知损失提取网络模型中，获取对应物体的隐藏特征，并计算二者的损失函数；

将图像整体的感知损失与所述L2损失结合得到所述总体损失函数；

根据总体损失函数进行反向传播优化模型参数，经过设定轮次的迭代或损失值降低到设定的阈值时，完成模型训练。

本发明还提供了一种基于全卷积神经网络的3D建模系统，所述系统包括，数据采集与处理模块、神经辐射场模块、渲染模块和损失函数模块；

所述数据采集与处理模块用于采集目标对象的图像数据或视频数据，并对图像数据或从视频数据中抽取的图像帧数据进行标准化处理，得到数据集，同时记录图像对应的设备位置信息数据；

所述神经辐射场模块和所述数据采集与处理模块连接，存储全卷积神经网络模型算法，接收输入的图像数据以及位置信息数据，输出图像像素的RBG和密度；

所述渲染模块与所述神经辐射场模块连接，存储渲染算法，接收图像像素的RBG和密度，输出渲染图像；

所述损失函数模块连接所述渲染模块和所述数据采集与处理模块，接收所述渲染图像和原图像数据，并执行存储上述的总体损失函数的计算逻辑。

本发明的有益效果如下：

1、通过使用整张图像和采集设备参数作为输入，同时对每个像素点进行训练神经辐射场，极大低提升了模型处理速度。

2、通过图像数据和渲染结果计算每个对应位置像素点的损失，并通过感知损失提取网络获取对应物体的隐藏特征，利用L2损失计算感知损失，将得到的感知损失与L2损失结合，得到总体损失作为模型损失函数，提升了图像中物体的3D建模精度。

附图说明

图1为本发明方法的流程示意图；

图2为本发明系统的结构示意图。

具体实施方式

在下面的描述中对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

实施例1

本发明的实施例1提供了一种基于全卷积神经网络的3D建模方法，如图2所示，方法包括如下步骤：

本实施例中，数据采集通过图像采集设备以不同角度获取目标对象的图像或者通过采集设备获取目标对象的视频数据，不同的目标对象最终获取的不同角度图像数量不同，不同拍摄角度的图像越多，则3D物体建模会更精准，根据不同物体调整图像的拍摄数量；

本实施例中，围绕目标物体等间距拍摄数百张图像，或通过摄像机录制物体视频进行后期提取处理，得到图像数据；

在拍摄的同时记录下相机相对物体的角度及位置信息；记相机旋转信息为

位置信息为

同时对位置信息进行标准化，使用标准化后的位置信息

和相机相对物体的旋转信息R_c作为输入信息。

所述网络模型采用全卷积神经网络FCN，由卷积层、全连接层、激活层、池化层、归一化层构成，卷积层采用尺寸为1的卷积核。

输入的整张图的位置信息和相机姿态经过网络间的权重系数的变换，得到在某一相机姿态(视角)下的图像每个位置的RGB值以及密度，分别记为I和σ；像素的颜色I即为光线沿摄像机拍摄角度方向经过的所有像素的累积，r为相机的拍摄角度，l为3D场内的像素与相机的距离，l_s为最近距离，l_e为最远距离。则在相机姿态为r时的图像为：

其中，W(l)为光线从l_s到l_e这一段路径上的所有像素的累积密度；在模型实际训练过程中，根据采样点密集度选取不同采样方式来近似像素积分过程。

S3：根据图像数据M每个位置的所述RGB值和像素密度，对所述图像数据进行渲染，得到渲染结果，本实施例渲染过程中采用随机采样的方式计算像素的积分过程，具体公式如下：

其中，I(r)为摄像机视线r上的所有像素的累积颜色值，n为该视线上的采样点个数，l₁为视线穿过物体的距离摄像机的近端边界，l_n为视线穿过物体的距离摄像机的远端边界，W(l_i)为从l₁到l_n的累积密度值，I(r,l_i)为视线r上的采样点l_i处的图像像素颜色值，σ(r,l_i)为r上的采样点l处的密度值。

网络模型的训练通过计算渲染结果与原所述图像数据的差异，得到总体损失函数，具体过程如下：

通过所述图像数据M与渲染结果I计算每个对应位置像素点(i,j)的L2损失，如下：

_c(i,j)＝||M_i,j(r)-I_i,j(r)||²

将所述图像数据M与渲染结果I输入到感知损失提取网络模型中，获取对应物体的隐藏特征，并计算两者的损失函数，如下：

L_J＝‖J(M)-J(I)‖

将图像整体的感知损失与所述每个像素的L2损失结合得到所述总体损失函数，公式如下：

L＝w₁L_J+w₂L_C

其中w₁，w₂是每个损失函数的权重系数，权重系数根据情况进行手动设置。

实施例2

本发明的实施例2提供了一种基于全卷积神经网络的3D建模系统，如图1所示，所述系统包括，数据采集与处理模块、神经辐射场模块、渲染模块和损失函数模块；

所述损失函数模块连接所述渲染模块和所述数据采集与处理模块，接收所述渲染图像和原图像数据，并执行总体损失函数的计算逻辑。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种基于全卷积神经网络的3D建模方法，其特征在于，方法包括如下：

2.根据权利要求1所述的3D建模方法，其特征在于，数据采集通过图像采集设备以不同角度获取目标对象的图像或者通过采集设备获取目标对象的视频数据，不同的目标对象最终获取的不同角度图像数量不同。

3.根据权利要求2所述的3D建模方法，其特征在于，获取目标对象的图像时，围绕所述目标对象等间距获取各角度图像。

4.根据权利要求1所述的3D建模方法，其特征在于，所述网络模型采用全卷积神经网络FCN，由卷积层、全连接层、激活层、池化层、归一化层构成，卷积层采用尺寸为1的卷积核。

5.根据权利要求1-4任一所述的3D建模方法，其特征在于，网络模型的训练通过计算渲染结果与原所述图像数据的差异，得到总体损失函数，具体过程如下：

6.一种基于全卷积神经网络的3D建模系统，其特征在于，所述系统包括，数据采集与处理模块、神经辐射场模块、渲染模块和损失函数模块；

所述损失函数模块连接所述渲染模块和所述数据采集与处理模块，接收所述渲染图像和原图像数据，并执行存储的权利要求5所述的总体损失函数的计算逻辑。