CN117152326A - 一种基于神经辐射场的风格化图像生成方法、装置和设备 - Google Patents

一种基于神经辐射场的风格化图像生成方法、装置和设备 Download PDF

Info

Publication number
CN117152326A
CN117152326A CN202311002666.6A CN202311002666A CN117152326A CN 117152326 A CN117152326 A CN 117152326A CN 202311002666 A CN202311002666 A CN 202311002666A CN 117152326 A CN117152326 A CN 117152326A
Authority
CN
China
Prior art keywords
stylized
image
radiation field
training
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311002666.6A
Other languages
English (en)
Inventor
林琳
徐小光
郑虎男
李滨
刘彬
张佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Meihang Technology Co ltd
Original Assignee
Shenyang Meihang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Meihang Technology Co ltd filed Critical Shenyang Meihang Technology Co ltd
Priority to CN202311002666.6A priority Critical patent/CN117152326A/zh
Publication of CN117152326A publication Critical patent/CN117152326A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/02Non-photorealistic rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于神经辐射场的风格化图像生成方法、装置和设备,该生成方法包括:基于目标的多角度图像进行位姿估计,以确定相机方位角参数;将多角度图像和相机方位角参数输入至预先训练好的神经辐射场模型中进行三维模型重建,以得到目标的三维神经辐射场;基于目标的三维神经辐射场进行体渲染,以得到目标的风格化图像;其中,预先训练好的神经辐射场模型是基于神经辐射场模型和风格化转换模型共同训练得到的。该方法避免了基于原始多角度图像直接风格化转换生成的风格化图像失真或与原始图像过于接近,无法表现三维图像风格化特性的弊端;同时,增强了风格化图像生成过程的可控性。

Description

一种基于神经辐射场的风格化图像生成方法、装置和设备
技术领域
本发明涉及地理信息及三维重建技术领域,特别涉及一种基于神经辐射场的风格化图像生成方法、装置和设备。
背景技术
智能化时代带来了更高级的用户体验和娱乐方式,人们的需求从最初的安全性、舒适性逐渐转变为对娱乐性和自我认同的追求。随着智能化的发展,汽车行业也在不断进行多方面智能化的革新。例如在汽车导航技术领域中,现在的导航地图也能够实现2D地图到3D地图的切换,3D地图模式既增强了真实性,同时提高用户使用感受。
传统的三维重建方式通常需要大量的图像输入,估计的相机参数,进行点云重建和物体表面的纹理映射等多个步骤。近年来,深度学习逐渐应用到计算机视觉的各个领域,三维重建也逐渐与深度学习方法相结合,无需复杂的相机校准或者提供参数,通过编解码的方式,实现重建。Diffusion扩散生成模型是一种新兴的重要的AI生成式模型,用于生成与训练数据相似分布的数据,能够实现图像的风格转换。
发明内容
为了增强风格化图像的可控性以及增加选择空间,本发明实施例中提供了一种基于神经辐射场的风格化图像生成方法、装置和设备。
第一方面,本发明实施例提供了一种基于神经辐射场的风格化图像生成方法,可以包括:
基于目标的多角度图像进行位姿估计,以确定相机方位角参数;
将所述多角度图像和所述相机方位角参数输入至预先训练好的神经辐射场模型中进行三维模型重建,以得到所述目标的三维神经辐射场;
基于所述目标的三维神经辐射场进行体渲染,以得到所述目标的风格化图像;
其中,所述预先训练好的神经辐射场模型是基于神经辐射场模型和风格化转换模型共同训练得到的。
可选的,所述预先训练好的神经辐射场模型是通过下述步骤预先训练的:
获取训练样本集,所述训练样本集中的每个样本包括目标的多角度图像;
用所述训练样本集中的每个样本的多角度图像和所述多角度图像对应的相机方位角参数作为输入训练所述神经辐射场模型,其中所述神经辐射场模型输出三维神经辐射场;
基于所述三维神经辐射场经体渲染得到二维渲染图像,以基于所述二维渲染图像进行风格化转换得到多张训练目标的风格化图像;
基于所述目标的多角度图像、所述二维渲染图像和所述训练目标的风格化图像,确定所述神经辐射场模型的总损失;
基于所述神经辐射场模型的总损失调整所述神经辐射场模型的模型参数,直至所述神经辐射场模型收敛。
可选的,基于所述目标的多角度图像、所述二维渲染图像和所述训练目标的风格化图像,确定所述神经辐射场模型的总损失,可以包括:
基于所述目标的多角度图像和所述二维渲染图像,确定所述目标的多角度图像和所述二维渲染图像之间的渲染损失;
基于所述二维渲染图像和所述训练目标的风格化图像,确定所述二维渲染图像和所述训练目标的风格化图像之间的风格化损失;
基于所述渲染损失和所述风格化损失确定所述神经辐射场模型的总损失。
可选的,所述基于所述二维渲染图像和所述训练目标的风格化图像,确定所述二维渲染图像和所述训练目标的风格化图像之间的风格化损失,可以包括:
分别对多张所述训练目标的风格化图像进行灰度化处理;
分别确定灰度化处理后的所述训练目标的风格化图像和所述二维渲染图像的像素分布概率;
基于所述像素分布概率分别确定所述训练目标的风格化图像与所述二维渲染图像的相似度值;
基于所述相似度值筛选出满足风格化阈值要求的至少一张所述训练目标的风格化图像;
基于满足风格化阈值要求的至少一张所述训练目标的风格化图像,与所述二维渲染图像确定所述风格化损失。
可选的,所述基于满足风格化阈值要求的至少一张所述训练目标的风格化图像,与所述二维渲染图像确定所述风格化损失,可以包括:
分别提取满足风格化阈值要求的至少一张所述训练目标的风格化图像和所述二维渲染图像的hog特征;
基于所述hog特征确定所述风格化损失。
可选的,所述基于所述渲染损失和所述风格化损失确定所述神经辐射场模型的总损失,可以包括:
基于所述目标风格化图像与所述目标的多角度图像的差异程度,设定所述渲染损失和/或所述风格化损失的权重值;
基于所述渲染损失、所述渲染损失对应的权重值、所述风格化损失和所述风格化损失对应的权重值,确定所述神经辐射场模型的模型总体损失。
可选的,所述基于所述二维渲染图像进行风格化转换以得到多张训练目标的风格化图像,可以包括:
将所述二维渲染图像输入至预先训练好的扩散生成模型中,以得到所述目标的风格化图像。
第二方面,本发明实施例提供了一种神经辐射场模型的训练方法,可以包括:
获取训练样本集,所述训练样本集中的每个样本包括目标的多角度图像;
用所述训练样本集中的每个样本的多角度图像和所述多角度图像对应的相机方位角参数作为输入训练所述神经辐射场模型,其中所述神经辐射场模型输出三维神经辐射场;
基于所述三维神经辐射场经体渲染得到二维渲染图像,以基于所述二维渲染图像进行风格化转换得到多张训练目标的风格化图像;
基于所述目标的多角度图像、所述二维渲染图像和所述训练目标的风格化图像,确定所述神经辐射场模型的总损失;
基于所述神经辐射场模型的总损失调整所述神经辐射场模型的模型参数,直至所述神经辐射场模型收敛。
第三方面,本发明实施例提供了一种导航地图中风格化地图要素的展示方法,可以包括:
根据第一方面所述的基于神经辐射场的风格化图像生成方法生成所述导航地图中的风格化地图要素;
基于所述导航地图中的位置矢量信息,加载所述风格化地图要素,以将所述风格化地图要素展示在所述导航地图中。
第四方面,本发明实施例提供了一种基于神经辐射场的风格化图像生成装置,可以包括:
估计模块,用于基于目标的多角度图像进行位姿估计,以确定相机方位角参数;
重建模块,用于将所述多角度图像和所述相机方位角参数输入至预先训练好的神经辐射场模型中进行三维模型重建,以得到所述目标的三维神经辐射场;
渲染模块,用于基于所述目标的三维神经辐射场进行体渲染,以得到所述目标的风格化图像;
其中,所述预先训练好的神经辐射场模型是基于神经辐射场模型和风格化转换模型共同训练得到的。
第五方面,本发明实施例提供了一种神经辐射场模型的训练装置,可以包括:
获取模块,用于获取训练样本集,所述训练样本集中的每个样本包括目标的多角度图像;
训练模块,用于用所述训练样本集中的每个样本的多角度图像和所述多角度图像对应的相机方位角参数作为输入训练所述神经辐射场模型,其中所述神经辐射场模型输出三维神经辐射场;
转换模块,用于基于所述三维神经辐射场经体渲染得到二维渲染图像,以基于所述二维渲染图像进行风格化转换得到多张训练目标的风格化图像;
确定模块,用于基于所述目标的多角度图像、所述二维渲染图像和所述训练目标的风格化图像,确定所述神经辐射场模型的总损失;
调整模块,用于基于所述神经辐射场模型的总损失调整所述神经辐射场模型的模型参数,直至所述神经辐射场模型收敛。
第六方面,本发明实施例提供了一种导航地图中风格化地图要素的展示装置,可以包括:
展示模块,用于基于所述导航地图中的位置矢量信息,加载所述风格化地图要素,以将所述风格化地图要素展示在所述导航地图中;
其中,所述导航地图中的风格化地图要素是根据第一方面所述的基于神经辐射场的风格化图像生成方法生成的。
第七方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的基于神经辐射场的风格化图像生成方法,或实现如第二方面所述的神经辐射场模型的训练方法,或实现如第三方面所述的导航地图中风格化地图要素的展示方法。
第八方面,本发明实施例提供了一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的基于神经辐射场的风格化图像生成方法,或实现如第二方面所述的神经辐射场模型的训练方法,或实现如第三方面所述的导航地图中风格化地图要素的展示方法。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供了一种基于神经辐射场的风格化图像生成方法、装置和设备,该方法通过基于神经辐射场模型进行三维模型重建得到目标的三维神经辐射场,并基于三维神经辐射场进行体渲染后得到风格化图像。该方法避免了基于原始多角度图像直接风格化转换生成的风格化图像失真或与原始图像过于接近,无法表现三维图像风格化特性的弊端;同时,增强了风格化图像生成过程的可控性。
进一步的,本实施例中的神经辐射场模型的训练方法通过渲染损失和风格化损失对神经辐射场模型的模型参数进行调整,以达到所需要的风格化图像,对于风格化转换结果可控性更强,避免了反复实验和挑选的弊端。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中提供的神经辐射场模型的训练方法的流程图之一;
图2为本发明实施例中提供的神经辐射场模型的训练方法的流程图之二;
图3为本发明实施例中提供的NeRF神经辐射场模型架构之一;
图4为本发明实施例中提供的NeRF神经辐射场模型架构之二;
图5为步骤S14具体实现流程图;
图6为本发明实施例中提供的风格化损失确定的流程示意图;
图7为本发明实施例中提供的像素分布概率示意图;
图8为本发明实施例中提供的神经辐射场模型的训练装置的结构示意图;
图9为本发明实施例提供的基于神经辐射场的风格化图像生成方法的流程图;
图10为本发明实施例提供的基于神经辐射场的风格化图像生成装置的结构示意图;
图11为本发明实施例提供的地图要素风格化后的示例。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
发明人发现,现有的扩散生成模型(例如,Diffusion扩散模型)有个共有的缺点,其生成的结果灵活度较高,导致图像风格变化跨度较大,风格失真且需要进行反复实验和挑选才能够得到目标风格化的图像。鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于神经辐射场的风格化图像生成方法、装置和设备。需要说明的是,本发明实施例中的风格化图像包括但不限于:二次元、赛博朋克、写实等风格。
实施例一
本发明实施例一中提供了一种神经辐射场模型的训练方法,参照图1和图2所示,该方法可以包括以下步骤:
步骤S11、获取训练样本集,训练样本集中的每个样本包括目标的多角度图像。
本步骤中的上述目标可以是任何目标物体,例如在导航地图领域中,可以是地图数据中的一个POI,具体可以是一个建筑物、一个信号塔或者是一颗植被等,本发明实施例对此并不作具体限定。上述目标的多角度图像可以是自行拍摄的,也可以是从网络等其他渠道获取到的,本实施例对此也不作具体限定。
步骤S12、用训练样本集中的每个样本的多角度图像和多角度图像对应的相机方位角参数作为输入训练神经辐射场模型,其中神经辐射场模型输出三维神经辐射场。
本步骤在执行之前,由于要实现对目标的风格化3D重建,因此对目标的多角度图像中的每个图像的相机方位角参数进行估计,本发明实施例中可以使用colmap工具通过图像间的特征点匹配算法估计出相机姿态,进而获得该角度图像对应的相机方位角参数。
需要说明的是,本实施例中的上述要训练的神经辐射场模型为初始神经辐射场模型,模型中包括的神经网络层中的模型参数为初始参数。
本实施例中上述神经辐射场模型(Neural Radiance Field,简称NeRF)可以参照图3和图4所示,NERF神经辐射场模型包括Net_1和Net_2两个神经网络,模型运行实现的过程如下:输入的不同角度图像分别会根据图像像素点通过矩阵化可得到相机中心,以及图像上每一个像素点的连线构成连续的光线;为了方便计算和求解,将连续的光线进行离散采样,例如将采样区间均匀分段(可理解为相机中心点到像素点的线段),每个段内部进行均匀采样,将离散采样点(64个采样点)转换为世界坐标系中的采样点,结合相机方位角参数,生成RGB颜色和体密度的3D模型(三维神经辐射场)。在此需要说明的是,本实施例中的NERF神经辐射场模型输出为连续的“三维神经辐射场”,即三维场景中每个像素点的颜色和密度的函数。结合图3所示,NeRF输入为待重建目标的多角度图像,经过坐标系转换,得到世界坐标系中的离散采样点。采样点经过神经网络Net_1计算特征映射,得到sigma体密度(不透明度,取值范围0-1)和256维特征;使用colmap估计的相机方位角参数d,结合神经网络Net_1计算输出的256维特征,进入神经网络Net_2,生成所有3D点的RGB颜色。参照图4所示,x离散采样点(64个采样点)经过神经网络Net_1之后生成中间特征feature和体密度sigma;d为相机方位角参数,与feature结合,进入神经网络Net_2之后生成RGB颜色。本实施例中图3和图4均是对上述神经辐射场模型架构中的神经网络层进行了描述,以解释数据流的处理过程。
步骤S13、基于三维神经辐射场经体渲染得到二维渲染图像,以基于二维渲染图像进行风格化转换得到多张训练目标的风格化图像。
本步骤首先将三维神经辐射场进行体渲染以得到二维渲染图像,在进行体渲染时使用现有的技术即可。本实施例中,体渲染得到的二维渲染图像的数量与输入至该神经辐射场模型的多角度图像的数量一致,若样本集中有10张多角度图像,此处渲染得到10张二维渲染图像。
本步骤中将二维渲染图像进行风格化转换,可以是将二维渲染图像输入至预先训练好的扩散生成模型中,以得到目标的风格化图像。本实施例中该扩散生成模型是用已经训练好的,无需在训练的风格换转换模型,例如Diffusion风格化模型。
需要说明的是,以Diffusion风格化模型为例说明,该模型经过特殊的风格化训练,在反向传播时无需修正或调整Diffusion风格化模型的模型参数,假设该Diffusion风格化模型生成的结果图像(风格化图像)为image_p,后续会确定该风格化图像与二维渲染图像之间的风格化损失,以对训练的神经辐射场模型进行反馈。
步骤S14、基于目标的多角度图像、二维渲染图像和训练目标的风格化图像,确定神经辐射场模型的总损失。
参照图2和图5所示,确定神经辐射场模型的总损失的过程如下:
步骤S141、基于目标的多角度图像和二维渲染图像,确定目标的多角度图像和二维渲染图像之间的渲染损失。本步骤中确定的渲染损失能够进行反向传播优化神经辐射场模型,能够使得重建的3D模型更接近于原始的多角度图片,以在调整图片风格化效果时不至于过于失真。
本步骤中将原始的目标的多角度图像和经过体渲染之后的二维渲染图像之间的关联来计算渲染损失,记为lossrender计算如下:
其中,n表示图像中总体像素个数,yi表示输入图像(多角度图像)的某个像素值,表示二维渲染图像的像素值。
步骤S142、基于二维渲染图像和训练目标的风格化图像,确定二维渲染图像和训练目标的风格化图像之间的风格化损失。本步骤中,风格化损失同样用于优化要训练的神经辐射场模型,使得该神经辐射场模型经过训练之后带有风格化属性,以在进行3D重建时输出的三维神经辐射场具备风格化效果,经三维神经辐射场体渲染得到的二维渲染图像最终实现风格化展现效果。
参照图6所示,本步骤在具体实施时,例如每次生成10张风格化的图像结果。第一步,分别对多张训练目标的风格化图像进行灰度化处理;即,针对每一张风格化图像image_p,进行灰度化处理(RGB三通道彩色图转换成Gray单通道灰度图);第二步,分别确定灰度化处理后的训练目标的风格化图像和二维渲染图像的像素分布概率;即,灰度化后的像素计算(统计0-255像素分布)、计算像素概率(各像素在图像中的占比),详见图7,因此获得10组概率值;第三步,基于像素分布概率分别确定训练目标的风格化图像与二维渲染图像的相似度值;第四步,基于相似度值筛选出满足风格化阈值要求的至少一张训练目标的风格化图像;例如,选出中间的4张(相似度高与风格化前的图片较为相似,相似度低与风格化前的图片差异较大)图像作为风格化结果,参与风格化损失计算;第五步,基于满足风格化阈值要求的至少一张训练目标的风格化图像,与二维渲染图像确定风格化损失。
第五步在具体实施时,首先分别提取满足风格化阈值要求的至少一张训练目标的风格化图像和二维渲染图像的hog特征;然后基于hog特征确定风格化损失。其中,hog特征能够很好地表征目标边缘梯度信息,例如取四张风格化图像,分别提取风格化图像灰度图的hog特征,以及提取输入图像(二维渲染图像)的hog特征,以获得数据分布结果。分别计算风格化图像与输入二维渲染图像的hog特征分布损失,通过loss损失约束,可以尽量保留原图像的结构信息,与像素级别的损失函数计算操作相比,hog特征计算损失,能够在不损失精度的前提下提高网络的效率,保持结构上的一致性。
具体技术公式如下:
其中,yi表示输入二维渲染图像的hog特征,n表示hog特征的维度,ai,bi,ci,di分别表示四张风格化图像的hog特征。
步骤S143、基于渲染损失和风格化损失确定神经辐射场模型的总损失。
本步骤在具体实施时,首先基于目标风格化图像与目标的多角度图像的差异程度,设定渲染损失和/或风格化损失的权重值;两权重和为1,在[0,1]范围内自行调节,控制风格化程度;如果需要风格化的结果占比大一些,就将风格化的权重wstyle设置大一些的值;如果需要与原始图像更接近,就将wrender值设置大一些。然后,基于渲染损失、渲染损失对应的权重值、风格化损失和风格化损失对应的权重值,确定神经辐射场模型的模型总体损失。
本发明实施例中通过分别计算了原始输入图像与渲染图像之间的损失lossrender,和二维渲染图像与风格化图像之间的风格化损失lossstyle。结合两种误差,分别为两种误差添加权重wrender和wstyle,计算模型总体损失:
losstotal=lossrender*wrender+lossstyle*wstyle
步骤S15、基于神经辐射场模型的总损失调整神经辐射场模型的模型参数,直至神经辐射场模型收敛。本步骤通过将渲染损失和风格化损失相结合优化NeRF神经辐射场模型中的模型参数,增强了生成的风格化3D模型(神经辐射场模型)的可控性,即生成的风格化3D模型不至于太夸张,也不至于添加的风格化元素效果太少,以达到平衡可控的效果。
本发明实施例通过上述训练方法,可以训练出各种不同风格化的神经辐射场模型,将不同风格的模型可以预置于云端,方便用户使用。进一步的,本实施例中的神经辐射场模型的训练方法通过渲染损失和风格化损失对神经辐射场模型的模型参数进行调整,以达到所需要的风格化图像,对于风格化转换结果可控性更强,避免了反复实验和挑选的弊端。
基于同一发明构思,本发明实施例中还提供了一种神经辐射场模型的训练装置,参照图8所示,该装置可以包括:获取模块81、训练模块82、转换模块83、确定模块84和调整模块85,其工作原理如下:
获取模块81用于获取训练样本集,所述训练样本集中的每个样本包括目标的多角度图像;
训练模块82用于用所述训练样本集中的每个样本的多角度图像和所述多角度图像对应的相机方位角参数作为输入训练所述神经辐射场模型,其中所述神经辐射场模型输出三维神经辐射场;
转换模块83用于基于所述三维神经辐射场经体渲染得到二维渲染图像,以基于所述二维渲染图像进行风格化转换得到多张训练目标的风格化图像;
确定模块84用于基于所述目标的多角度图像、所述二维渲染图像和所述训练目标的风格化图像,确定所述神经辐射场模型的总损失;
调整模块85用于基于所述神经辐射场模型的总损失调整所述神经辐射场模型的模型参数,直至所述神经辐射场模型收敛。
在一个可选的实施例中,确定模块84具体用于:
基于所述目标的多角度图像和所述二维渲染图像,确定所述目标的多角度图像和所述二维渲染图像之间的渲染损失;
基于所述二维渲染图像和所述训练目标的风格化图像,确定所述二维渲染图像和所述训练目标的风格化图像之间的风格化损失;
基于所述渲染损失和所述风格化损失确定所述神经辐射场模型的总损失。
在另一个可选的实施例中,确定模块84还具体用于:
分别对多张所述训练目标的风格化图像进行灰度化处理;
分别确定灰度化处理后的所述训练目标的风格化图像和所述二维渲染图像的像素分布概率;
基于所述像素分布概率分别确定所述训练目标的风格化图像与所述二维渲染图像的相似度值;
基于所述相似度值筛选出满足风格化阈值要求的至少一张所述训练目标的风格化图像;
基于满足风格化阈值要求的至少一张所述训练目标的风格化图像,与所述二维渲染图像确定所述风格化损失。
在另一个可选的实施例中,确定模块84还具体用于:分别提取满足风格化阈值要求的至少一张所述训练目标的风格化图像和所述二维渲染图像的hog特征;基于所述hog特征确定所述风格化损失。
在另一个可选的实施例中,确定模块84还具体用于:基于所述目标风格化图像与所述目标的多角度图像的差异程度,设定所述渲染损失和/或所述风格化损失的权重值;基于所述渲染损失、所述渲染损失对应的权重值、所述风格化损失和所述风格化损失对应的权重值,确定所述神经辐射场模型的模型总体损失。
在另一个可选的实施例中,转换模块83具体用于:将所述二维渲染图像输入至预先训练好的扩散生成模型中,以得到所述目标的风格化图像。
基于同一发明构思,本发明实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述神经辐射场模型的训练方法。
基于同一发明构思,本发明实施例中还提供了一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述神经辐射场模型的训练方法。
本发明实施例中的上述装置、客户端、介质、相关设备所解决问题的原理与前述方法相似,因此其实施可以参见前述方法的实施,重复之处不再赘述。
实施例二
本发明实施例提供了一种基于神经辐射场的风格化图像生成方法,参照图9所示,该方法可以包括以下步骤:
步骤S91、基于目标的多角度图像进行位姿估计,以确定相机方位角参数。
步骤S92、将多角度图像和相机方位角参数输入至预先训练好的神经辐射场模型中进行三维模型重建,以得到目标的三维神经辐射场。其中,预先训练好的神经辐射场模型是基于神经辐射场模型和风格化转换模型共同训练得到的。
需要说明的是,在模型训练过程中,上述神经辐射场模型可以是初始化的神经辐射场模型,也可以是经过其他训练的模型,经过再训练得到本发明实施例中所需要的训练好的神经辐射场模型;而本实施例中的风格化转换模型只是参与到模型训练中,并未对该风格换转换模型中的模型参数进行改进。在此还需要说明的是,本实施例中的上述预先训练好的神经辐射场模型可以是采用实施例一中的方法训练得到的。
步骤S93、基于目标的三维神经辐射场进行体渲染,以得到目标的风格化图像。
本发明实施例中提供的上述基于神经辐射场的风格化图像生成方法,避免了基于原始多角度图像直接风格化转换生成的风格化图像失真或与原始图像过于接近,无法表现三维图像风格化特性的弊端;同时,增强了风格化图像生成过程的可控性。在具体实施时,用户可以基于风格化图像的使用场景和/或用户偏好,确定进行风格化转换的神经辐射场模型的类型,以生成相应使用场景和/或用户偏好的风格化图像。
本发明实施例中的相关效果和具体说明,可以参照上述实施例一中的相关描述,本发明实施例在此不再赘述。
基于同一发明构思,本发明实施例中提供了一种基于神经辐射场的风格化图像生成装置,参照图10所示,该装置可以包括:估计模块101、重建模块102和渲染模块103,其工作原理如下:
估计模块101用于基于目标的多角度图像进行位姿估计,以确定相机方位角参数。
重建模块102用于将所述多角度图像和所述相机方位角参数输入至预先训练好的神经辐射场模型中进行三维模型重建,以得到所述目标的三维神经辐射场;其中,所述预先训练好的神经辐射场模型是基于神经辐射场模型和风格化转换模型共同训练得到的。
渲染模块103用于基于所述目标的三维神经辐射场进行体渲染,以得到所述目标的风格化图像。
基于同一发明构思,本发明实施例中提供了一种导航地图中风格化地图要素的展示方法,该方法可以包括:
首先,根据上述基于神经辐射场的风格化图像生成方法生成导航地图中的风格化地图要素;然后,基于导航地图中的位置矢量信息,加载风格化地图要素,以将风格化地图要素展示在导航地图中。
需要说明的是,本实施例中若在导航地图中展示的图像为3D图像,上述风格化地图要素需要先进行三维转换,以生成三维风格化仿真图像,以加载到导航地图中进行展示。
本发明实施例中导航地图中风格化地图要素的展示方法可以是基于场景和用户喜好,在车载导航3D地图中的楼体风格化展现方案。该方案能够丰富3D地图的主题和内容,带给用户更高级的观感。同时不需要提供相机的姿态参数进行三维重建。例如,在上班的场景中,3D地图的场景模式自动切换为写实风格;在休闲场景下,根据用户喜好推荐朋克风格等。通过分别重建风格化楼体,将重建的3D模型(训练好的神经辐射场)预置到云端,当切换风格时,根据当前用户界面中的楼体分布,结合地图中的位置矢量信息,直接替换相应位置的风格化楼体模型,以实现不同风格地图要素的展示。参照图11所示,将左侧地图中的东方明珠进行风格化,生成右侧的赛博朋克风格的东方明珠,并按照矢量位置替换到地图中以展示,实现了风格化展示的效果。
基于同一发明构思,本发明实施例中还提供了一种导航地图中风格化地图要素的展示装置,可以包括:展示模块,用于基于所述导航地图中的位置矢量信息,加载所述风格化地图要素,以将所述风格化地图要素展示在所述导航地图中;其中,所述导航地图中的风格化地图要素是上述基于神经辐射场的风格化图像生成方法生成的。
基于同一发明构思,本发明实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于神经辐射场的风格化图像生成方法,或实现上述导航地图中风格化地图要素的展示方法。
基于同一发明构思,本发明实施例中还提供了一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于神经辐射场的风格化图像生成方法,或实现上述导航地图中风格化地图要素的展示方法。
本发明实施例中的上述装置、客户端、介质、相关设备所解决问题的原理与前述方法相似,因此其实施可以参见前述方法的实施,重复之处不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种基于神经辐射场的风格化图像生成方法,其特征在于,包括:
基于目标的多角度图像进行位姿估计,以确定相机方位角参数;
将所述多角度图像和所述相机方位角参数输入至预先训练好的神经辐射场模型中进行三维模型重建,以得到所述目标的三维神经辐射场;
基于所述目标的三维神经辐射场进行体渲染,以得到所述目标的风格化图像;
其中,所述预先训练好的神经辐射场模型是基于神经辐射场模型和风格化转换模型共同训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述预先训练好的神经辐射场模型是通过下述步骤预先训练的:
获取训练样本集,所述训练样本集中的每个样本包括目标的多角度图像;
用所述训练样本集中的每个样本的多角度图像和所述多角度图像对应的相机方位角参数作为输入训练所述神经辐射场模型,其中所述神经辐射场模型输出三维神经辐射场;
基于所述三维神经辐射场经体渲染得到二维渲染图像,以基于所述二维渲染图像进行风格化转换得到多张训练目标的风格化图像;
基于所述目标的多角度图像、所述二维渲染图像和所述训练目标的风格化图像,确定所述神经辐射场模型的总损失;
基于所述神经辐射场模型的总损失调整所述神经辐射场模型的模型参数,直至所述神经辐射场模型收敛。
3.根据权利要求2所述的方法,其特征在于,基于所述目标的多角度图像、所述二维渲染图像和所述训练目标的风格化图像,确定所述神经辐射场模型的总损失,包括:
基于所述目标的多角度图像和所述二维渲染图像,确定所述目标的多角度图像和所述二维渲染图像之间的渲染损失;
基于所述二维渲染图像和所述训练目标的风格化图像,确定所述二维渲染图像和所述训练目标的风格化图像之间的风格化损失;
基于所述渲染损失和所述风格化损失确定所述神经辐射场模型的总损失。
4.根据权利要求3所述的方法,其特征在于,所述基于所述二维渲染图像和所述训练目标的风格化图像,确定所述二维渲染图像和所述训练目标的风格化图像之间的风格化损失,包括:
分别对多张所述训练目标的风格化图像进行灰度化处理;
分别确定灰度化处理后的所述训练目标的风格化图像和所述二维渲染图像的像素分布概率;
基于所述像素分布概率分别确定所述训练目标的风格化图像与所述二维渲染图像的相似度值;
基于所述相似度值筛选出满足风格化阈值要求的至少一张所述训练目标的风格化图像;
基于满足风格化阈值要求的至少一张所述训练目标的风格化图像,与所述二维渲染图像确定所述风格化损失。
5.根据权利要求4所述的方法,其特征在于,所述基于满足风格化阈值要求的至少一张所述训练目标的风格化图像,与所述二维渲染图像确定所述风格化损失,包括:
分别提取满足风格化阈值要求的至少一张所述训练目标的风格化图像和所述二维渲染图像的hog特征;
基于所述hog特征确定所述风格化损失。
6.根据权利要求3所述的方法,其特征在于,所述基于所述渲染损失和所述风格化损失确定所述神经辐射场模型的总损失,包括:
基于所述目标风格化图像与所述目标的多角度图像的差异程度,设定所述渲染损失和/或所述风格化损失的权重值;
基于所述渲染损失、所述渲染损失对应的权重值、所述风格化损失和所述风格化损失对应的权重值,确定所述神经辐射场模型的模型总体损失。
7.根据权利要求2~6中任一项所述的方法,其特征在于,所述基于所述二维渲染图像进行风格化转换以得到多张训练目标的风格化图像,包括:
将所述二维渲染图像输入至预先训练好的扩散生成模型中,以得到所述目标的风格化图像。
8.一种神经辐射场模型的训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集中的每个样本包括目标的多角度图像;
用所述训练样本集中的每个样本的多角度图像和所述多角度图像对应的相机方位角参数作为输入训练所述神经辐射场模型,其中所述神经辐射场模型输出三维神经辐射场;
基于所述三维神经辐射场经体渲染得到二维渲染图像,以基于所述二维渲染图像进行风格化转换得到多张训练目标的风格化图像;
基于所述目标的多角度图像、所述二维渲染图像和所述训练目标的风格化图像,确定所述神经辐射场模型的总损失;
基于所述神经辐射场模型的总损失调整所述神经辐射场模型的模型参数,直至所述神经辐射场模型收敛。
9.一种导航地图中风格化地图要素的展示方法,其特征在于,包括:
根据权利要求1~7中任一项所述的基于神经辐射场的风格化图像生成方法生成所述导航地图中的风格化地图要素;
基于所述导航地图中的位置矢量信息,加载所述风格化地图要素,以将所述风格化地图要素展示在所述导航地图中。
10.一种基于神经辐射场的风格化图像生成装置,其特征在于,包括:
估计模块,用于基于目标的多角度图像进行位姿估计,以确定相机方位角参数;
重建模块,用于将所述多角度图像和所述相机方位角参数输入至预先训练好的神经辐射场模型中进行三维模型重建,以得到所述目标的三维神经辐射场;
渲染模块,用于基于所述目标的三维神经辐射场进行体渲染,以得到所述目标的风格化图像;
其中,所述预先训练好的神经辐射场模型是基于神经辐射场模型和风格化转换模型共同训练得到的。
11.一种神经辐射场模型的训练装置,其特征在于,包括:
获取模块,用于获取训练样本集,所述训练样本集中的每个样本包括目标的多角度图像;
训练模块,用于用所述训练样本集中的每个样本的多角度图像和所述多角度图像对应的相机方位角参数作为输入训练所述神经辐射场模型,其中所述神经辐射场模型输出三维神经辐射场;
转换模块,用于基于所述三维神经辐射场经体渲染得到二维渲染图像,以基于所述二维渲染图像进行风格化转换得到多张训练目标的风格化图像;
确定模块,用于基于所述目标的多角度图像、所述二维渲染图像和所述训练目标的风格化图像,确定所述神经辐射场模型的总损失;
调整模块,用于基于所述神经辐射场模型的总损失调整所述神经辐射场模型的模型参数,直至所述神经辐射场模型收敛。
12.一种导航地图中风格化地图要素的展示装置,其特征在于,包括:
展示模块,用于基于所述导航地图中的位置矢量信息,加载所述风格化地图要素,以将所述风格化地图要素展示在所述导航地图中;
其中,所述导航地图中的风格化地图要素是根据权利要求1~7中任一项所述的基于神经辐射场的风格化图像生成方法生成的。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7中任一项所述的基于神经辐射场的风格化图像生成方法,或实现如权利要求8所述的神经辐射场模型的训练方法,或实现如权利要求9所述的导航地图中风格化地图要素的展示方法。
14.一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的基于神经辐射场的风格化图像生成方法,或实现如权利要求8所述的神经辐射场模型的训练方法,或实现如权利要求9所述的导航地图中风格化地图要素的展示方法。
CN202311002666.6A 2023-08-09 2023-08-09 一种基于神经辐射场的风格化图像生成方法、装置和设备 Pending CN117152326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311002666.6A CN117152326A (zh) 2023-08-09 2023-08-09 一种基于神经辐射场的风格化图像生成方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311002666.6A CN117152326A (zh) 2023-08-09 2023-08-09 一种基于神经辐射场的风格化图像生成方法、装置和设备

Publications (1)

Publication Number Publication Date
CN117152326A true CN117152326A (zh) 2023-12-01

Family

ID=88883346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311002666.6A Pending CN117152326A (zh) 2023-08-09 2023-08-09 一种基于神经辐射场的风格化图像生成方法、装置和设备

Country Status (1)

Country Link
CN (1) CN117152326A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541732A (zh) * 2024-01-09 2024-02-09 成都信息工程大学 一种文本引导的神经辐射场建筑物场景风格化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541732A (zh) * 2024-01-09 2024-02-09 成都信息工程大学 一种文本引导的神经辐射场建筑物场景风格化方法

Similar Documents

Publication Publication Date Title
CN109255831B (zh) 基于多任务学习的单视图人脸三维重建及纹理生成的方法
US11055828B2 (en) Video inpainting with deep internal learning
KR101199475B1 (ko) 3차원 모델 생성 방법 및 장치
CN111542861A (zh) 利用深度外观模型渲染化身的系统和方法
CN110246209B (zh) 图像处理方法及装置
US10818043B1 (en) Texture interpolation using neural networks
JP2023545200A (ja) パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体
CN111988593B (zh) 一种基于深度残差优化的立体图像颜色校正方法及系统
CN112950769A (zh) 三维人体重建方法、装置、设备及存储介质
Wang et al. Rewriting geometric rules of a GAN.
CN117152326A (zh) 一种基于神经辐射场的风格化图像生成方法、装置和设备
CN116977522A (zh) 三维模型的渲染方法、装置、计算机设备和存储介质
CN116416376A (zh) 一种三维头发的重建方法、系统、电子设备及存储介质
Dundar et al. Fine detailed texture learning for 3d meshes with generative models
CN115049556A (zh) 一种基于StyleGAN的人脸图像修复方法
CN116721210A (zh) 基于神经有符号距离场的实时高效三维重建方法及装置
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
CN117501313A (zh) 基于深度神经网络的毛发渲染系统
Jiang et al. A neural refinement network for single image view synthesis
CN117315153A (zh) 一种协同光场与占用场的人体重建与渲染方法及装置
CN117197627A (zh) 一种基于高阶退化模型的多模态图像融合方法
CN110322548B (zh) 一种基于几何图像参数化的三维网格模型生成方法
Guénard et al. Reconstructing plants in 3D from a single image using analysis-by-synthesis
CN116385577A (zh) 虚拟视点图像生成方法及装置
CN114882158B (zh) 基于注意力机制的nerf优化的方法、装置、设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination