CN114049434A - 一种基于全卷积神经网络的3d建模方法及系统 - Google Patents
一种基于全卷积神经网络的3d建模方法及系统 Download PDFInfo
- Publication number
- CN114049434A CN114049434A CN202111302798.1A CN202111302798A CN114049434A CN 114049434 A CN114049434 A CN 114049434A CN 202111302798 A CN202111302798 A CN 202111302798A CN 114049434 A CN114049434 A CN 114049434A
- Authority
- CN
- China
- Prior art keywords
- data
- image
- image data
- rendering
- position information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于全卷积神经网络的3D建模方法及系统,通过设备采集目标对象的图像数据,并在采集时获取不同时刻设备的位置信息数据,构建全卷积神经网络模型,输入图像数据及对应的位置信息数据,获得图像数据每个位置的RGB值和像素密度,并根据RGB值和像素密度对图像数据进行渲染,模型训练时,基于图像数据与渲染结果计算每个位置的L2损失以及全图的感知损失函数,再将两损失结合作为总体损失函数,训练模型。本发明通过使用整张图像和设备位置信息数据作为输入,同时对每个像素点进行训练神经辐射场,极大低提升了模型处理速度,同时基于物体整体的感知损失函数结合可微损失,提升了图像中物体的3D建模精度。
Description
技术领域
本发明涉及3D场景建模技术领域,特别涉及一种基于全卷积神经网络的3D场景建模方法及系统。
背景技术
“3D建模”通俗来讲就是通过虚拟三维空间构建出具有三维数据的模型,建模的准确性、效率与建模时的基础数据以及分析处理,存在密切关系,当前3D建模通常会采用超声波、X光等技术直接获取实体的结构数据,根据对得到的三维结构数据直接构建三维数据模型,然而这种方式具有较高的设备成本,且具有一定的局限性;还有种方式是通过获取大量2D的平面数据,通过后期的分析处理,搭建三维模型。
例如专利申请文件,公开号为CN113099208A,名称为:基于神经辐射场的动态人体自由视点视频生成方法和装置,公开了通过拍摄3D物体的各个角度的图像;提取图像中每个像素点的相机参数;利用多层神经网络从不同角度的照片中学习物体的3D建模信息;输入给定视角,利用渲染的方式生成该视角下的图像。
该方法存在如下缺点:
1、模型采用的多层神经网络,是对单个像素点进行渲染,整体图像的渲染为每个像素渲染时间的累计,因而模型训练效率低,且渲染过程耗时极长,当面对分辨率较高的图像是,效率更低,耗时更久。
2、模型对每个像素点仅采用单个像素的RPG的差作为损失函数进行训练,导致相邻像素间有差异,当原始图像分辨率高时,由训练好的模型所重构的3D场景生成的不同视角图像较为模糊,清晰度不高。
发明内容
为解决上述技术问题,本发明提供了一种基于全卷积神经网络的3D场景建模方法及系统,采用全卷积神经网络结构,通过使用整张图像和设备位置信息数据作为输入,同时对每个像素点进行训练神经辐射场。无需对像素逐个进行计算,能够同时处理整张图像,极大低提升了模型处理速度,同时在原有损失函数的基础上,同步新增了基于物体整体的感知损失函数,提升了图像中物体的3D建模精度。
本发明提供了一种基于全卷积神经网络的3D建模方法,具体技术方案如下:
S1:采集目标对象的图像数据进行预处理,构建数据集,同时在采集数据时获取不同采集时刻设备的位置信息数据,所述位置信息数据包括设备的姿态信息和位置信息;
S2:构建网络模型并训练,输入所述图像数据M对应的所述位置信息数据,得到所述图像数据每个位置的RGB值和像素密度;
S3:根据图像数据M每个位置的所述RGB值和像素密度,对所述图像数据进行渲染,得到渲染结果,渲染过程中采用随机采样的方式计算像素的积分过程,具体公式如下:
其中,I(r)为摄像机视线r上的所有像素的累积颜色值,n为该视线上的采样点个数,l1为视线穿过物体的距离摄像机的近端边界,ln为视线穿过物体的距离摄像机的远端边界,W(li)为从l1到ln的累积密度值,I(r,li)为视线r上的采样点li处的图像像素颜色值,σ(r,li)为r上的采样点t处的密度值。
进一步的,数据采集通过图像采集设备以不同角度获取目标对象的图像或者通过采集设备获取目标对象的视频数据,不同的目标对象最终获取的不同角度图像数量不同。
进一步的,获取目标对象的图像时,围绕所述目标对象等间距获取各角度图像。
进一步的,所述网络模型采用全卷积神经网络FCN,由卷积层、全连接层、激活层、池化层、归一化层构成,卷积层采用尺寸为1的卷积核。
进一步的,网络模型的训练通过计算渲染结果与原所述图像数据的差异,得到总体损失函数,具体过程如下:
通过所述图像数据M与渲染结果I计算每个对应位置像素点的L2损失;
将所述图像数据M与渲染结果I输入到感知损失提取网络模型中,获取对应物体的隐藏特征,并计算二者的损失函数;
将图像整体的感知损失与所述L2损失结合得到所述总体损失函数;
根据总体损失函数进行反向传播优化模型参数,经过设定轮次的迭代或损失值降低到设定的阈值时,完成模型训练。
本发明还提供了一种基于全卷积神经网络的3D建模系统,所述系统包括,数据采集与处理模块、神经辐射场模块、渲染模块和损失函数模块;
所述数据采集与处理模块用于采集目标对象的图像数据或视频数据,并对图像数据或从视频数据中抽取的图像帧数据进行标准化处理,得到数据集,同时记录图像对应的设备位置信息数据;
所述神经辐射场模块和所述数据采集与处理模块连接,存储全卷积神经网络模型算法,接收输入的图像数据以及位置信息数据,输出图像像素的RBG和密度;
所述渲染模块与所述神经辐射场模块连接,存储渲染算法,接收图像像素的RBG和密度,输出渲染图像;
所述损失函数模块连接所述渲染模块和所述数据采集与处理模块,接收所述渲染图像和原图像数据,并执行存储上述的总体损失函数的计算逻辑。
本发明的有益效果如下:
1、通过使用整张图像和采集设备参数作为输入,同时对每个像素点进行训练神经辐射场,极大低提升了模型处理速度。
2、通过图像数据和渲染结果计算每个对应位置像素点的损失,并通过感知损失提取网络获取对应物体的隐藏特征,利用L2损失计算感知损失,将得到的感知损失与L2损失结合,得到总体损失作为模型损失函数,提升了图像中物体的3D建模精度。
附图说明
图1为本发明方法的流程示意图;
图2为本发明系统的结构示意图。
具体实施方式
在下面的描述中对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。
实施例1
本发明的实施例1提供了一种基于全卷积神经网络的3D建模方法,如图2所示,方法包括如下步骤:
S1:采集目标对象的图像数据进行预处理,构建数据集,同时在采集数据时获取不同采集时刻设备的位置信息数据,所述位置信息数据包括设备的姿态信息和位置信息;
本实施例中,数据采集通过图像采集设备以不同角度获取目标对象的图像或者通过采集设备获取目标对象的视频数据,不同的目标对象最终获取的不同角度图像数量不同,不同拍摄角度的图像越多,则3D物体建模会更精准,根据不同物体调整图像的拍摄数量;
本实施例中,围绕目标物体等间距拍摄数百张图像,或通过摄像机录制物体视频进行后期提取处理,得到图像数据;
S2:构建网络模型并训练,输入所述图像数据M对应的所述位置信息数据,得到所述图像数据每个位置的RGB值和像素密度;
所述网络模型采用全卷积神经网络FCN,由卷积层、全连接层、激活层、池化层、归一化层构成,卷积层采用尺寸为1的卷积核。
输入的整张图的位置信息和相机姿态经过网络间的权重系数的变换,得到在某一相机姿态(视角)下的图像每个位置的RGB值以及密度,分别记为I和σ;像素的颜色I即为光线沿摄像机拍摄角度方向经过的所有像素的累积,r为相机的拍摄角度,l为3D场内的像素与相机的距离,ls为最近距离,le为最远距离。则在相机姿态为r时的图像为:
其中,W(l)为光线从ls到le这一段路径上的所有像素的累积密度;在模型实际训练过程中,根据采样点密集度选取不同采样方式来近似像素积分过程。
S3:根据图像数据M每个位置的所述RGB值和像素密度,对所述图像数据进行渲染,得到渲染结果,本实施例渲染过程中采用随机采样的方式计算像素的积分过程,具体公式如下:
其中,I(r)为摄像机视线r上的所有像素的累积颜色值,n为该视线上的采样点个数,l1为视线穿过物体的距离摄像机的近端边界,ln为视线穿过物体的距离摄像机的远端边界,W(li)为从l1到ln的累积密度值,I(r,li)为视线r上的采样点li处的图像像素颜色值,σ(r,li)为r上的采样点l处的密度值。
网络模型的训练通过计算渲染结果与原所述图像数据的差异,得到总体损失函数,具体过程如下:
通过所述图像数据M与渲染结果I计算每个对应位置像素点(i,j)的L2损失,如下:
c(i,j)=||Mi,j(r)-Ii,j(r)||2
将所述图像数据M与渲染结果I输入到感知损失提取网络模型中,获取对应物体的隐藏特征,并计算两者的损失函数,如下:
LJ=‖J(M)-J(I)‖
将图像整体的感知损失与所述每个像素的L2损失结合得到所述总体损失函数,公式如下:
L=w1LJ+w2LC
其中w1,w2是每个损失函数的权重系数,权重系数根据情况进行手动设置。
根据总体损失函数进行反向传播优化模型参数,经过设定轮次的迭代或损失值降低到设定的阈值时,完成模型训练。
实施例2
本发明的实施例2提供了一种基于全卷积神经网络的3D建模系统,如图1所示,所述系统包括,数据采集与处理模块、神经辐射场模块、渲染模块和损失函数模块;
所述数据采集与处理模块用于采集目标对象的图像数据或视频数据,并对图像数据或从视频数据中抽取的图像帧数据进行标准化处理,得到数据集,同时记录图像对应的设备位置信息数据;
所述神经辐射场模块和所述数据采集与处理模块连接,存储全卷积神经网络模型算法,接收输入的图像数据以及位置信息数据,输出图像像素的RBG和密度;
所述渲染模块与所述神经辐射场模块连接,存储渲染算法,接收图像像素的RBG和密度,输出渲染图像;
所述损失函数模块连接所述渲染模块和所述数据采集与处理模块,接收所述渲染图像和原图像数据,并执行总体损失函数的计算逻辑。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
Claims (6)
1.一种基于全卷积神经网络的3D建模方法,其特征在于,方法包括如下:
S1:采集目标对象的图像数据进行预处理,构建数据集,同时在采集数据时获取不同采集时刻设备的位置信息数据,所述位置信息数据包括设备的姿态信息和位置信息;
S2:构建网络模型并训练,输入所述图像数据M对应的所述位置信息数据,得到所述图像数据每个位置的RGB值和像素密度;
S3:根据图像数据M每个位置的所述RGB值和像素密度,对所述图像数据进行渲染,得到渲染结果,渲染过程中采用随机采样的方式计算像素的积分过程,具体公式如下:
其中,I(r)为摄像机视线r上的所有像素的累积颜色值,n为该视线上的采样点个数,l1为视线穿过物体的距离摄像机的近端边界,ln为视线穿过物体的距离摄像机的远端边界,W(li)为从l1到ln的累积密度值,I(r,li)为视线r上的采样点li处的图像像素颜色值,σ(r,li)为r上的采样点t处的密度值。
2.根据权利要求1所述的3D建模方法,其特征在于,数据采集通过图像采集设备以不同角度获取目标对象的图像或者通过采集设备获取目标对象的视频数据,不同的目标对象最终获取的不同角度图像数量不同。
3.根据权利要求2所述的3D建模方法,其特征在于,获取目标对象的图像时,围绕所述目标对象等间距获取各角度图像。
4.根据权利要求1所述的3D建模方法,其特征在于,所述网络模型采用全卷积神经网络FCN,由卷积层、全连接层、激活层、池化层、归一化层构成,卷积层采用尺寸为1的卷积核。
5.根据权利要求1-4任一所述的3D建模方法,其特征在于,网络模型的训练通过计算渲染结果与原所述图像数据的差异,得到总体损失函数,具体过程如下:
通过所述图像数据M与渲染结果I计算每个对应位置像素点的L2损失;
将所述图像数据M与渲染结果I输入到感知损失提取网络模型中,获取对应物体的隐藏特征,并计算二者的损失函数;
将图像整体的感知损失与所述L2损失结合得到所述总体损失函数;
根据总体损失函数进行反向传播优化模型参数,经过设定轮次的迭代或损失值降低到设定的阈值时,完成模型训练。
6.一种基于全卷积神经网络的3D建模系统,其特征在于,所述系统包括,数据采集与处理模块、神经辐射场模块、渲染模块和损失函数模块;
所述数据采集与处理模块用于采集目标对象的图像数据或视频数据,并对图像数据或从视频数据中抽取的图像帧数据进行标准化处理,得到数据集,同时记录图像对应的设备位置信息数据;
所述神经辐射场模块和所述数据采集与处理模块连接,存储全卷积神经网络模型算法,接收输入的图像数据以及位置信息数据,输出图像像素的RBG和密度;
所述渲染模块与所述神经辐射场模块连接,存储渲染算法,接收图像像素的RBG和密度,输出渲染图像;
所述损失函数模块连接所述渲染模块和所述数据采集与处理模块,接收所述渲染图像和原图像数据,并执行存储的权利要求5所述的总体损失函数的计算逻辑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111302798.1A CN114049434A (zh) | 2021-11-05 | 2021-11-05 | 一种基于全卷积神经网络的3d建模方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111302798.1A CN114049434A (zh) | 2021-11-05 | 2021-11-05 | 一种基于全卷积神经网络的3d建模方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049434A true CN114049434A (zh) | 2022-02-15 |
Family
ID=80207314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111302798.1A Pending CN114049434A (zh) | 2021-11-05 | 2021-11-05 | 一种基于全卷积神经网络的3d建模方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049434A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666564A (zh) * | 2022-03-23 | 2022-06-24 | 南京邮电大学 | 一种基于隐式神经场景表示进行虚拟视点图像合成的方法 |
CN115035252A (zh) * | 2022-06-20 | 2022-09-09 | 北京市燃气集团有限责任公司 | 一种基于神经辐射场的燃气厂站三维重建方法及装置 |
CN116012517A (zh) * | 2023-02-02 | 2023-04-25 | 北京数原数字化城市研究中心 | 一种正则化的图像渲染方法及装置 |
WO2023228211A1 (en) * | 2022-05-26 | 2023-11-30 | Soul Vision Creations Private Limited | Real-time rendering of image content generated using implicit rendering |
WO2024007182A1 (zh) * | 2022-07-06 | 2024-01-11 | 北京原创力科技有限公司 | 静态NeRF模型与动态NeRF模型融合的视频渲染方法及系统 |
-
2021
- 2021-11-05 CN CN202111302798.1A patent/CN114049434A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666564A (zh) * | 2022-03-23 | 2022-06-24 | 南京邮电大学 | 一种基于隐式神经场景表示进行虚拟视点图像合成的方法 |
CN114666564B (zh) * | 2022-03-23 | 2024-03-01 | 南京邮电大学 | 一种基于隐式神经场景表示进行虚拟视点图像合成的方法 |
WO2023228211A1 (en) * | 2022-05-26 | 2023-11-30 | Soul Vision Creations Private Limited | Real-time rendering of image content generated using implicit rendering |
CN115035252A (zh) * | 2022-06-20 | 2022-09-09 | 北京市燃气集团有限责任公司 | 一种基于神经辐射场的燃气厂站三维重建方法及装置 |
WO2024007182A1 (zh) * | 2022-07-06 | 2024-01-11 | 北京原创力科技有限公司 | 静态NeRF模型与动态NeRF模型融合的视频渲染方法及系统 |
CN116012517A (zh) * | 2023-02-02 | 2023-04-25 | 北京数原数字化城市研究中心 | 一种正则化的图像渲染方法及装置 |
CN116012517B (zh) * | 2023-02-02 | 2023-08-08 | 北京数原数字化城市研究中心 | 一种正则化的图像渲染方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255831B (zh) | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 | |
CN114049434A (zh) | 一种基于全卷积神经网络的3d建模方法及系统 | |
CN108648161B (zh) | 非对称核卷积神经网络的双目视觉障碍物检测系统及方法 | |
CN110517306B (zh) | 一种基于深度学习的双目深度视觉估计的方法和系统 | |
CN111819568A (zh) | 人脸旋转图像的生成方法及装置 | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
CN110243390B (zh) | 位姿的确定方法、装置及里程计 | |
CN113421328B (zh) | 一种三维人体虚拟化重建方法及装置 | |
CN114863037B (zh) | 基于单手机的人体三维建模数据采集与重建方法及系统 | |
CN113723317B (zh) | 3d人脸的重建方法、装置、电子设备和存储介质 | |
CN114581571A (zh) | 基于imu和前向变形场的单目人体重建方法及装置 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN110889868B (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 | |
Ubina et al. | Intelligent underwater stereo camera design for fish metric estimation using reliable object matching | |
CN106909904B (zh) | 一种基于可学习形变场的人脸正面化方法 | |
CN108830890B (zh) | 一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法 | |
CN111862278A (zh) | 一种动画获得方法、装置、电子设备及存储介质 | |
CN113538682B (zh) | 模型训练、头部重建方法、电子设备及存储介质 | |
CN113065506B (zh) | 一种人体姿态识别方法及系统 | |
CN112927348B (zh) | 一种基于多视点rgbd相机高分辨率人体三维重建方法 | |
CN112102504A (zh) | 一种基于混合现实的三维场景和二维图像混合方法 | |
CN116912393A (zh) | 人脸重建方法、装置、电子设备及可读存储介质 | |
CN116863069A (zh) | 三维光场人脸内容生成方法、电子设备及存储介质 | |
US20220157016A1 (en) | System and method for automatically reconstructing 3d model of an object using machine learning model | |
CN115409949A (zh) | 模型训练方法、视角图像生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |