CN116012517A - 一种正则化的图像渲染方法及装置 - Google Patents

一种正则化的图像渲染方法及装置 Download PDF

Info

Publication number
CN116012517A
CN116012517A CN202310052552.6A CN202310052552A CN116012517A CN 116012517 A CN116012517 A CN 116012517A CN 202310052552 A CN202310052552 A CN 202310052552A CN 116012517 A CN116012517 A CN 116012517A
Authority
CN
China
Prior art keywords
scene
loss function
module
scene image
image sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310052552.6A
Other languages
English (en)
Other versions
CN116012517B (zh
Inventor
赵飞飞
刘祥德
于金波
周嵘
年晓玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Digital City Research Center
Original Assignee
Beijing Digital City Research Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Digital City Research Center filed Critical Beijing Digital City Research Center
Priority to CN202310052552.6A priority Critical patent/CN116012517B/zh
Publication of CN116012517A publication Critical patent/CN116012517A/zh
Application granted granted Critical
Publication of CN116012517B publication Critical patent/CN116012517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

一种正则化的图像渲染方法及装置,涉及计算机图形学技术领域。该方法包括:获取场景图像序列;获取场景图像序列的对应场景中的坐标点的位置信息;将坐标点的位置信息输入至神经网络模型进行训练,以得到采样点的颜色,神经网络模型的总损失函数与颜色损失函数、正则化损失函数、散度损失函数有关;对采样点的颜色积分,以得到新视角图像渲染结果。由此,经过在神经辐射场中进行正则化调优训练,可以得到鲁棒性良好的泛化模型,能够提高图像渲染的精确程度。

Description

一种正则化的图像渲染方法及装置
技术领域
本申请涉及计算机图形学技术领域,特别是涉及一种正则化的图像渲染方法及装置。
背景技术
三维场景的新视角图像渲染技术是计算机视觉领域和计算机图形学领域的重要研究方向,有助于虚拟体验真实场景、实现沉浸式通信、改善游戏和娱乐体验等。
目前,可以将拍摄场景图像序列的相机参数输入至神经辐射场(NeRF)进行训练,从而高质量地表示三维场景,并通过体渲染的图形学方法,合成得到高精度的图像渲染结果。
然而,一方面,使用相机拍摄场景图像序列或场景视频时容易出现相机运动模糊、失焦模糊、光照不均匀等问题,导致图像渲染质量下降;另一方面,如果输入至神经辐射场的图像视角过多,不仅会导致神经辐射场模型训练速度降低,还可能在渲染新视角图像时产生漂浮物的伪影或背景塌陷等,同样导致图像渲染质量下降。
发明内容
本申请提供了一种正则化的图像渲染方法及装置,能够在减少输入图像视角数量的同时,提高图像渲染的质量。
本申请公开了如下技术方案:
第一方面,本申请公开了一种正则化的图像渲染方法,所述方法包括:
获取场景图像序列;
获取所述场景图像序列的对应场景中的坐标点的位置信息;
将所述坐标点的位置信息输入至神经网络模型进行训练,以得到采样点的颜色,所述神经网络模型的总损失函数与颜色损失函数、正则化损失函数、散度损失函数有关;
对所述采样点的颜色积分,以得到新视角图像渲染结果。
优选的,所述总损失函数的公式具体如下:
Ltotal=Lrgbstep1*Lregstep2*Ljs
其中,Ltotal是总损失函数,Lrgb是颜色损失函数,αstep1是第一损失权重,Lreg是正则化损失函数,αstep2是第二损失权重,Ljs是散度损失函数。
优选的,所述颜色损失函数的公式具体如下:
Figure BDA0004058869240000021
其中,Lrgb是颜色损失函数,x是所述坐标点沿着视角方向发射的颜色值。
优选的,所述正则化损失函数的公式具体如下:
Figure BDA0004058869240000022
其中,Lreg是正则化损失函数,ci是第一采样点到相机的距离,cj是第二采样点到相机的距离,ci+1是光线上位于所述第一采样点后一个单位长度的采样点到相机的距离,cj+1是光线上位于所述第二采样点后一个单位长度的采样点到相机的距离,wi是所述第一采样点的神经网络模型权重,wj是所述第二采样点的神经网络模型权重。
优选的,所述获取场景图像序列,包括:
获取原始场景图像序列;
将所述原始场景图像序列中的场景图像依次输入至神经网络模型中,以获取所述场景图像的特征值;
判断任意两个所述特征值之间的欧氏距离是否小于第一预设阈值;
若是,则删除所述两个所述特征值中的任意一个特征值对应的场景图像,以获取第一轮筛选后的场景图像序列;
对所述第一轮筛选后的场景图像序列中的场景图像进行质量评估;
判断所述场景图像的质量是否小于第二预设阈值;
若是,则删除所述场景图像,以获取第二轮筛选后的场景图像序列。
优选的,所述获取所述场景图像序列的对应场景中的坐标点的位置信息,包括:
基于所述场景图像序列,通过运动结构恢复方法获取所述场景图像序列的对应场景中的坐标点的位置信息。
第二方面,本申请公开了一种正则化的图像渲染装置,所述装置包括:序列模块、位置模块、训练模块、渲染模块;
所述序列模块,用于获取场景图像序列;
所述位置模块,用于获取所述场景图像序列的对应场景中的坐标点的位置信息;
所述训练模块,用于将所述坐标点的位置信息输入至神经网络模型进行训练,以得到采样点的颜色,所述神经网络模型的总损失函数与颜色损失函数、正则化损失函数、散度损失函数有关;
所述渲染模块,用于对所述采样点的颜色积分,以得到新视角图像渲染结果。
优选的,所述总损失函数的公式具体如下:
Ltotal=Lrgbstep1*Lregstep2*Ljs
其中,Ltotal是总损失函数,Lrgb是颜色损失函数,αstep1是第一损失权重,Lreg是正则化损失函数,αstep2是第二损失权重,Ljs是散度损失函数。
优选的,所述序列模块具体包括:第一获取模块、第二获取模块、第一判断模块、第一删除模块、质量评估模块、第二判断模块、第二删除模块;
所述第一获取模块,用于获取原始场景图像序列;
所述第二获取模块,用于将所述原始场景图像序列中的场景图像依次输入至神经网络模型中,以获取所述场景图像的特征值;
所述第一判断模块,用于判断任意两个所述特征值之间的欧氏距离是否小于第一预设阈值;
所述第一删除模块,用于若是,则删除所述两个所述特征值中的任意一个特征值对应的场景图像,以获取第一轮筛选后的场景图像序列;
所述质量评估模块,用于对所述第一轮筛选后的场景图像序列中的场景图像进行质量评估;
所述第二判断模块,用于判断所述场景图像的质量是否小于第二预设阈值;
所述第二删除模块,用于若是,则删除所述场景图像,以获取第二轮筛选后的场景图像序列。
优选的,所述位置模块具体用于:
基于所述场景图像序列,通过运动结构恢复方法获取所述场景图像序列的对应场景中的坐标点的位置信息。
相较于现有技术,本申请具有以下有益效果:
本申请提供一种正则化的图像渲染方法及装置,基于获取的对场景拍摄的场景图像序列,获取场景图像序列的对应场景中的坐标点的位置信息,并将该位置信息输入至基于正则化方法调整后的神经网络模型进行训练,以获取优化后的采样点颜色信息。随后,对优化后的采样点颜色信息进行积分,以得到新视角图像渲染结果。由此,经过在神经辐射场中进行正则化调优训练,可以得到鲁棒性良好的泛化模型,能够提高图像渲染的精确程度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于稀疏正则化的图像渲染方法流程图;
图2为本申请实施例提供的一种基于稀疏正则化的图像渲染装置示意图。
具体实施方式
下面先对本申请所涉及的技术术语进行介绍。
运动结构恢复(Structure from motion,SFM),即给出多幅图像及其图像特征的一个稀疏对应集合,从而估计3D点的位置,这个求解过程通常涉及3D几何(结构)和摄像机姿态(运动)的同时估计。
三维场景的新视角图像渲染技术是一直是计算机图形学领域的重要研究方向,其定义为从针对某一场景拍摄的一系列图像或者一段视频中,可以合成新颖的视角图像,有助于虚拟体验真实场景、实现沉浸式通信、改善游戏和娱乐体验等。
目前,可以将拍摄场景图像序列的相机参数输入至神经辐射场(NeRF)进行训练,从而高质量地表示三维场景,并通过体渲染的图形学方法,合成得到高精度的图像渲染结果。
然而,虽然神经辐射场已经得到了迅速的发展,但仍有其不足之处。一方面,使用相机拍摄场景图像序列或场景视频时容易出现相机运动模糊、失焦模糊、光照不均匀等问题,导致图像渲染质量下降;另一方面,如果输入至神经辐射场的图像视角过多,不仅会导致神经辐射场模型训练速度降低,还可能在渲染新视角图像时产生漂浮物的伪影或背景塌陷等,同样导致图像渲染质量下降。
针对上述缺陷,本申请提供了一种正则化的图像渲染方法及装置。基于获取的对场景拍摄的场景图像序列,获取场景图像序列的对应场景中的坐标点的位置信息,并将该位置信息输入至基于正则化方法调整后的神经网络模型进行训练,以获取优化后的采样点颜色信息。随后,对优化后的采样点颜色信息进行积分,以得到新视角图像渲染结果。由此,经过在神经辐射场中进行正则化调优训练,可以得到鲁棒性良好的泛化模型,能够提高图像渲染的精确程度。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的一种正则化的图像渲染方法流程图。该方法包括:
S101:获取场景图像序列。
场景图片序列可以是对场景视频进行抽帧处理后拆分形成的图像帧序列,也可以是两张及以上的场景图像组成的序列。对于具体的场景图像序列,本申请不做限定。
场景图像序列中包含的所有场景图像均为同一个场景的不同角度的图像。对于具体的场景图像个数,本申请不做限定。可以理解的是,该场景图像可以是RGB图像,也可以是其他格式的图像,对于具体的图像格式,本申请不做限定。
在一些可能的实施方式中,可以针对需要进行新视角图像渲染的场景或物体,使用相机拍摄视频后,利用OpenCV软件对该视频进行视频抽帧处理,例如可以选取间隔5帧的图像作为关键帧图像,并以关键帧图像序列作为场景图像序列。需要说明的是,还可以是选取间隔3帧、10帧及其他帧数的图像作为关键帧图像,对于具体的帧数,本申请不做限定。
在另一些可能的实施方式中,也可以针对需要进行新视角图像渲染的场景或物体,使用相机拍摄两张及以上的照片,并以上述照片作为场景图像序列。需要说明的是,该照片可以是一系列不同方位的电子设备同时进行拍摄的照片,也可以是单个电子设备进行移动拍摄的照片,对于具体的拍摄方法,本申请不做限定。
S102:对场景图像序列中的图像进行筛选,得到筛选后的图像序列。
由于相机拍摄照片或视频时可能存在运动模糊、失焦模糊等问题,因此可以对场景图像序列进行预处理操作,从而对场景图像序列中的图像进行筛选,得到筛选后的图像序列。
在一些可能的实施方式中,可以首先将S101步骤中获取的场景图像序列中的场景图像依次输入至神经网络模型中,以提取每张场景图像的特征值。随后,判断依次判断每两张场景图像的特征值之间的欧氏距离是否小于第一预设阈值。若是,则对场景图像序列中欧氏距离小于第一预设阈值的图像进行删除,以准确去除相似度高的照片。
在另一些可能的实施方式中,也可以首先将S101步骤中获取的场景图像序列中的场景图像基于哈希算法进行图像特征和暴力搜索匹配,并将场景图像序列中相似度值达到或超过第二预设阈值的图像进行删除,以准确去除相似度高的照片。需要说明的是,该第二预设阈值可以是85%,也可以是80%、90%等,对于具体的第二预设阈值,本申请不做限定。可以理解的是,可以将整张场景图像基于哈希算法进行匹配,也可以先将整张场景图像进行分割后,将分割后的场景图像分别基于哈希算法进行匹配。需要说明的是,可以将整张场景图片切割为4张,也可以是8张等,对于具体的切割数量,本申请不做限定。
在去除相似度高的照片后,可以再使用拉普拉斯变换进行遍历操作,以对图像质量进行评估,并将上述图像序列中的阈值小于第三预设阈值的图像再次删除,以准确去除清晰度差的照片。需要说明的是,该第三预设阈值可以是100,也可以是90、95等,是实际测试过程中由本领域技术人员设定的,对于具体的第三预设阈值,本申请不做限定。
S103:保存筛选后的图像序列。
在一些可能的实施方式中,可以按照“img_%06d.jpg”格式对S102步骤中得到的筛选后的图像序列进行保存。例如,该筛选后的图像序列的名称可以是“img_000003.jpg”,还可以是其他名称,对于具体的名称,本申请不做限定。
S104:基于筛选后的图像序列,获取相机参数。
相机参数可以分为相机内参和相机外参。相机内参可以表征相机的固定参数,是一个3×3的矩阵,相机外参可以表征当前相机旋转和和位置相对于世界坐标系的参数,是一个4×4的矩阵。
在一些具体的实施方式中,可以基于S103步骤中保存的筛选后的图像序列,也可以直接基于S102步骤中的筛选后的图像序列,通过SFM的三维重建解决方案Colmap方法,对图像序列中的场景或物体进行稀疏重建。在稀疏重建的特征匹配过程中,可以使用顺序匹配策略获取相机的相机参数。该相机参数包含了图像中的所有坐标点在空间中的5D位置信息(3D空间位置和2D观看方向),即图像中坐标点的位置信息x=(x,y,z)以及从相机看向该坐标点的视角方向
Figure BDA0004058869240000071
其中,SFM可以通过给出多幅图像及其图像特征的一个稀疏对应集合,从而估计图像中坐标点的位置。Colmap方法是一种通用的SFM和多视图立体(MVS)管道的方法,它为有序和无序图像集合的重建提供了广泛的功能。
需要说明的是,该相机参数可以是通过SFM中的Colmap方法自动获取,也可以是外界直接输入的。如果可以外界直接输入相机参数,则可以跳过S104步骤的获取相机参数的步骤,对于相机参数的具体获取方法,本申请不做限定。
S105:将相机参数输入至神经网络模型进行训练。
神经网络模型可以是神经辐射场中网络结构为ResNet-50的卷积神经网络模型(Convolutional Neural Network,CNN),也可以是其他结构的网络模型。对于具体的网络结构模型,本申请不做限定。
在一些具体的实施方式中,可以将相机参数中的5D位置信息,即图像中坐标点的位置信息x=(x,y,z)以及从相机看向该坐标点的视角方向
Figure BDA0004058869240000082
输入至神经辐射场的神经网络模型中,以输出图像中坐标点的颜色c和体积密度σ。体积密度可以简单理解为当前坐标点的位置的不透明度,不透明度越高,其颜色占的比重越大。该神经网络模型的输入与输出过程可以基于如下公式(1)体现:
Fθ:(x,d)→(c,σ)  (1)
其中,x是坐标点的位置信息、d是从相机看向坐标点的视角方向、c是坐标点沿着视角方向d发射出去的颜色、σ是坐标点的体积密度。
在一些可能的实现方式中,由于神经辐射场的神经网络模型可能会出现几何形状估计错误、产生孔洞或漂浮物的伪影等问题,因此可以基于正则化的方法,通过总损失函数对神经网络权重、采样的坐标点(即采样点)和光线进行约束的方式,对神经辐射场的神经网络模型进行调整,以获取优化后的神经网络模型后,再将相机参数输入至优化后的神经网络模型中进行训练。
其中,采样点是从相机位置沿着经过某一坐标点的视角方向发出的一条射线上的点,可以表征场景图像中物体所处的位置。由于场景的复杂性,因此可以设置多个采样点。需要说明的是,具体的采样点个数可以由本领域技术人员自行设定,也可以基于场景的实际情况设定,可以是5个,也可以是10个、20个等,对于具体的采样点个数,本申请不做限定。
在一种可能的实现方式中,上述总损失函数的公式可以具体如下公式(2):
Ltotal=Lrgbstep1*Lregstep2*Ljs  (2)
其中,Ltotal是总损失函数、Lrgb是颜色损失函数、αstep1是第一损失权重、Lreg是正则化损失函数、αstep2是第二损失权重、Ljs是散度损失函数。
在一种可能的实现方式中,颜色损失函数Lrgb可以采用smothL1(x)函数表示。Lrgb的函数可以具体如下公式(3):
Figure BDA0004058869240000081
其中,Lrgb是颜色损失函数、x是坐标点沿着视角方向发射的颜色值。
在一种可能的实现方式中,αstep1的函数可以具体如下公式(4):
Figure BDA0004058869240000091
其中,αstep1是第一损失权重、global_step是全局的步长、step_size是间隔。
第一损失权重αstep1的默认初始值是本领域技术人员设置好的,可以是0.02,也可以是其他值,对于具体的第一损失权重值,本申请不做限定。该第一损失权重可以在训练过程中,按照神经网络模型训练步长,从而进行自动调整,以避免过拟合。间隔step_size的初始值也是本领域技术人员设置好的,可以是5000,也可以是其他值,对于具体的间隔大小,本申请不做限定。而global_step是在调整神经网络模型时进行叠加而成的。
在一种可能的实现方式中,正则化损失函数Lreg的函数可以具体如下公式(5):
Figure BDA0004058869240000092
其中,Lreg是正则化损失函数,ci是第一采样点到相机的距离,cj是第二采样点到相机的距离,ci+1是光线上位于第一采样点后一个单位长度的采样点到相机的距离,cj+1是光线上位于第二采样点后一个单位长度的采样点到相机的距离,wi是第一采样点的神经网络模型权重,wj是第二采样点的神经网络模型权重。
基于上述公式,可以对神经网络权重和采样的坐标点(即采样点)进行约束,从而达到使重建的场景沿单个光线的采样点紧凑,并在附近的光线上保持一致,降低渲染过程中噪点,提高图像清晰度的效果。
在一种可能的实现方式中,αstep2的函数可以具体如下公式(6):
Figure BDA0004058869240000093
其中,αstep2是第二损失权重、global_step是全局的步长、step_size是间隔。
第二损失权重αstep2的默认初始值是本领域技术人员设置好的,可以是0.01,也可以是其他值,对于具体的第二损失权重值,本申请不做限定,该第二损失权重可以在训练过程中,按照神经网络模型训练步长,从而进行自动调整,以避免过拟合。间隔step_size的初始值也是本领域技术人员设置好的,可以是8000,也可以是其他值,对于具体的间隔大小,本申请不做限定。而global_step是在调整神经网络模型时进行叠加而成的。
在一种可能的实现方式中,散度损失函数Ljs的函数可以具体为如下公式(7)、(8):
Figure BDA0004058869240000101
Figure BDA0004058869240000102
其中,Ljs是散度损失函数、P(ri)是归一化函数、ri(i=1,…,N)是射线中的采样点、
Figure BDA0004058869240000103
是对采样点ri扰动后的观察点、r是从相机发射向采样点ri处的射线、σi是采样点ri处的观测密度,δi是采样点ri处的采样间隔。具体的,扰动指的对从相机发射向采样点ri处的射线进行随机的、范围在-3°至+3°的转动。
上述散度损失函数Ljs度量了P(r)和
Figure BDA0004058869240000104
分布的相似度,其取值是0到1之间,可以达到确保相近观察点邻域中光线的一致密度分布的效果。
S106:对神经网络模型中的采样点进行积分,以得到新视角图像渲染结果。
将相机参数输入至神经网络模型后,可以得到图像中每个坐标点所对应的一条穿过物体空间的射线以及射线上的优化后的采样点。在一些可能的实现方式中,可以基于体渲染的方法,对射线上的所有采样点的颜色进行积分,以得到该坐标点的颜色值,并得到新视角图像渲染结果。
本申请提供了一种正则化的图像渲染方法。首先对相机拍摄的视频文件进行抽帧、筛选等预处理操作,再基于预处理过后的图像序列获取相机参数后,将相机参数输入至基于正则化方法调整后的神经网络模型进行训练,以获取优化后的采样点颜色信息。随后,对优化后的采样点颜色信息进行积分,得到新视角图像渲染结果。由此,经过对视频文件的预处理,以及在神经辐射场中进行正则化调优训练,可以得到鲁棒性良好的泛化模型,能够提高图像渲染的精确程度。
需要说明的是,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
参见图2,该图为本申请实施例提供的一种正则化的图像渲染装置,该正则化的图像渲染装置200包括:序列模块201、位置模块202、训练模块203、渲染模块204。
序列模块201用于获取场景图像序列。
位置模块202用于获取场景图像序列的对应场景中的坐标点的位置信息。
训练模块203用于将坐标点的位置信息输入至神经网络模型进行训练,以得到采样点的颜色,神经网络模型的总损失函数与颜色损失函数、正则化损失函数、散度损失函数有关。
渲染模块204用于对采样点的颜色积分,以得到新视角图像渲染结果。
在一些具体的实现方式中,上述总损失函数的公式具体如下公式(9):
Ltotal=Lrgbstep1*Lregstep2*Ljs  (9)
其中,Ltotal是总损失函数,Lrgb是颜色损失函数,αstep1是第一损失权重,Lreg是正则化损失函数,αstep2是第二损失权重,Ljs是散度损失函数。
在一些具体的实现方式中,上述序列模块201具体包括:第一获取模块、第二获取模块、第一判断模块、第一删除模块、质量评估模块、第二判断模块、第二删除模块。
第一获取模块用于获取原始场景图像序列。
第二获取模块用于将原始场景图像序列中的场景图像依次输入至神经网络模型中,以获取场景图像的特征值。
第一判断模块用于判断任意两个特征值之间的欧氏距离是否小于第一预设阈值。
第一删除模块用于若是,则删除两个特征值中的任意一个特征值对应的场景图像,以获取第一轮筛选后的场景图像序列。
质量评估模块用于对第一轮筛选后的场景图像序列中的场景图像进行质量评估。
第二判断模块用于判断场景图像的质量是否小于第二预设阈值。
第二删除模块用于若是,则删除场景图像,以获取第二轮筛选后的场景图像序列。
在一些具体的实现方式中,位置模块202具体用于基于场景图像序列,通过运动结构恢复方法获取场景图像序列的对应场景中的坐标点的位置信息。
本申请提供了一种正则化的图像渲染装置。首先对相机拍摄的视频文件进行抽帧、筛选等预处理操作,再基于预处理过后的图像序列获取相机参数后,将相机参数输入至基于正则化方法调整后的神经网络模型进行训练,以获取优化后的采样点颜色信息。随后,对优化后的采样点颜色信息进行积分,得到新视角图像渲染结果。由此,经过对视频文件的预处理,以及在神经辐射场中进行正则化调优训练,可以得到鲁棒性良好的泛化模型,能够提高图像渲染的精确程度。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种正则化的图像渲染方法,其特征在于,所述方法包括:
获取场景图像序列;
获取所述场景图像序列的对应场景中的坐标点的位置信息;
将所述坐标点的位置信息输入至神经网络模型进行训练,以得到采样点的颜色,所述神经网络模型的总损失函数与颜色损失函数、正则化损失函数、散度损失函数有关;
对所述采样点的颜色积分,以得到新视角图像渲染结果。
2.根据权利要求1所述的方法,其特征在于,所述总损失函数的公式具体如下:
Ltotal=Lrgbstep1*Lregstep2*Ljs
其中,Ltotal是总损失函数,Lrgb是颜色损失函数,αstep1是第一损失权重,Lreg是正则化损失函数,αstep2是第二损失权重,Ljs是散度损失函数。
3.根据权利要求1所述的方法,其特征在于,所述颜色损失函数的公式具体如下:
Figure FDA0004058869230000011
其中,Lrgb是颜色损失函数,x是所述坐标点沿着视角方向发射的颜色值。
4.根据权利要求1所述的方法,其特征在于,所述正则化损失函数的公式具体如下:
Figure FDA0004058869230000012
其中,Lreg是正则化损失函数,ci是第一采样点到相机的距离,cj是第二采样点到相机的距离,ci+1是光线上位于所述第一采样点后一个单位长度的采样点到相机的距离,cj+1是光线上位于所述第二采样点后一个单位长度的采样点到相机的距离,wi是所述第一采样点的神经网络模型权重,wj是所述第二采样点的神经网络模型权重。
5.根据权利要求1所述的方法,其特征在于,所述获取场景图像序列,包括:
获取原始场景图像序列;
将所述原始场景图像序列中的场景图像依次输入至神经网络模型中,以获取所述场景图像的特征值;
判断任意两个所述特征值之间的欧氏距离是否小于第一预设阈值;
若是,则删除所述两个所述特征值中的任意一个特征值对应的场景图像,以获取第一轮筛选后的场景图像序列;
对所述第一轮筛选后的场景图像序列中的场景图像进行质量评估;
判断所述场景图像的质量是否小于第二预设阈值;
若是,则删除所述场景图像,以获取第二轮筛选后的场景图像序列。
6.根据权利要求1所述的方法,其特征在于,所述获取所述场景图像序列的对应场景中的坐标点的位置信息,包括:
基于所述场景图像序列,通过运动结构恢复方法获取所述场景图像序列的对应场景中的坐标点的位置信息。
7.一种正则化的图像渲染装置,其特征在于,所述装置包括:序列模块、位置模块、训练模块、渲染模块;
所述序列模块,用于获取场景图像序列;
所述位置模块,用于获取所述场景图像序列的对应场景中的坐标点的位置信息;
所述训练模块,用于将所述坐标点的位置信息输入至神经网络模型进行训练,以得到采样点的颜色,所述神经网络模型的总损失函数与颜色损失函数、正则化损失函数、散度损失函数有关;
所述渲染模块,用于对所述采样点的颜色积分,以得到新视角图像渲染结果。
8.根据权利要求7所述的装置,其特征在于,所述总损失函数的公式具体如下:
Ltotal=Lrgbstep1*Lregstep2*Ljs
其中,Ltotal是总损失函数,Lrgb是颜色损失函数,αstep1是第一损失权重,Lreg是正则化损失函数,αstep2是第二损失权重,Ljs是散度损失函数。
9.根据权利要求7所述的装置,其特征在于,所述序列模块具体包括:第一获取模块、第二获取模块、第一判断模块、第一删除模块、质量评估模块、第二判断模块、第二删除模块;
所述第一获取模块,用于获取原始场景图像序列;
所述第二获取模块,用于将所述原始场景图像序列中的场景图像依次输入至神经网络模型中,以获取所述场景图像的特征值;
所述第一判断模块,用于判断任意两个所述特征值之间的欧氏距离是否小于第一预设阈值;
所述第一删除模块,用于若是,则删除所述两个所述特征值中的任意一个特征值对应的场景图像,以获取第一轮筛选后的场景图像序列;
所述质量评估模块,用于对所述第一轮筛选后的场景图像序列中的场景图像进行质量评估;
所述第二判断模块,用于判断所述场景图像的质量是否小于第二预设阈值;
所述第二删除模块,用于若是,则删除所述场景图像,以获取第二轮筛选后的场景图像序列。
10.根据权利要求7所述的装置,其特征在于,所述位置模块具体用于:
基于所述场景图像序列,通过运动结构恢复方法获取所述场景图像序列的对应场景中的坐标点的位置信息。
CN202310052552.6A 2023-02-02 2023-02-02 一种正则化的图像渲染方法及装置 Active CN116012517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310052552.6A CN116012517B (zh) 2023-02-02 2023-02-02 一种正则化的图像渲染方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310052552.6A CN116012517B (zh) 2023-02-02 2023-02-02 一种正则化的图像渲染方法及装置

Publications (2)

Publication Number Publication Date
CN116012517A true CN116012517A (zh) 2023-04-25
CN116012517B CN116012517B (zh) 2023-08-08

Family

ID=86035615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310052552.6A Active CN116012517B (zh) 2023-02-02 2023-02-02 一种正则化的图像渲染方法及装置

Country Status (1)

Country Link
CN (1) CN116012517B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681839A (zh) * 2023-08-02 2023-09-01 深圳市森歌数据技术有限公司 一种基于改进NeRF的实景三维目标重建与单体化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889851A (zh) * 2018-09-11 2020-03-17 苹果公司 针对深度和视差估计的语义分割的稳健用途
US20200151509A1 (en) * 2018-11-12 2020-05-14 Adobe Inc. Learning to estimate high-dynamic range outdoor lighting parameters
CN113822977A (zh) * 2021-06-28 2021-12-21 腾讯科技(深圳)有限公司 图像渲染方法、装置、设备以及存储介质
CN113902768A (zh) * 2021-10-11 2022-01-07 浙江博采传媒有限公司 一种基于可微渲染的三维人脸模型边缘优化方法及系统
CN114049434A (zh) * 2021-11-05 2022-02-15 成都艾特能电气科技有限责任公司 一种基于全卷积神经网络的3d建模方法及系统
CN115063595A (zh) * 2022-06-30 2022-09-16 华中科技大学苏州脑空间信息研究院 一种散斑噪声图像处理装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889851A (zh) * 2018-09-11 2020-03-17 苹果公司 针对深度和视差估计的语义分割的稳健用途
US20200151509A1 (en) * 2018-11-12 2020-05-14 Adobe Inc. Learning to estimate high-dynamic range outdoor lighting parameters
CN113822977A (zh) * 2021-06-28 2021-12-21 腾讯科技(深圳)有限公司 图像渲染方法、装置、设备以及存储介质
CN113902768A (zh) * 2021-10-11 2022-01-07 浙江博采传媒有限公司 一种基于可微渲染的三维人脸模型边缘优化方法及系统
CN114049434A (zh) * 2021-11-05 2022-02-15 成都艾特能电气科技有限责任公司 一种基于全卷积神经网络的3d建模方法及系统
CN115063595A (zh) * 2022-06-30 2022-09-16 华中科技大学苏州脑空间信息研究院 一种散斑噪声图像处理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘志;潘晓彬;: "基于渲染图像角度结构特征的三维模型检索方法", 计算机科学, no. 2 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681839A (zh) * 2023-08-02 2023-09-01 深圳市森歌数据技术有限公司 一种基于改进NeRF的实景三维目标重建与单体化方法
CN116681839B (zh) * 2023-08-02 2024-02-23 深圳市森歌数据技术有限公司 一种基于改进NeRF的实景三维目标重建与单体化方法

Also Published As

Publication number Publication date
CN116012517B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
Wronski et al. Handheld multi-frame super-resolution
US10944960B2 (en) Free-viewpoint video generating method and free-viewpoint video generating system
CN111462206B (zh) 一种基于卷积神经网络的单目结构光深度成像方法
CN112434709B (zh) 基于无人机实时稠密三维点云和dsm的航测方法及系统
US20130083966A1 (en) Match, Expand, and Filter Technique for Multi-View Stereopsis
CN108648264B (zh) 基于运动恢复的水下场景重建方法及存储介质
US10645364B2 (en) Dynamic calibration of multi-camera systems using multiple multi-view image frames
CN109416727A (zh) 一种人脸图像中眼镜去除方法及装置
CN108073857A (zh) 动态视觉传感器dvs事件处理的方法及装置
CN109118544B (zh) 基于透视变换的合成孔径成像方法
CN106683174B (zh) 双目视觉系统的三维重建方法、装置及双目视觉系统
CN110276831B (zh) 三维模型的建构方法和装置、设备、计算机可读存储介质
CN116012517B (zh) 一种正则化的图像渲染方法及装置
CN115035235A (zh) 三维重建方法及装置
CN112200854B (zh) 一种基于视频图像的叶类蔬菜三维表型测量方法
CN110910456A (zh) 基于Harris角点互信息匹配的立体相机动态标定算法
Conde et al. Lens-to-lens bokeh effect transformation. NTIRE 2023 challenge report
CN108234826A (zh) 图像处理方法及装置
CN114998507A (zh) 一种基于自监督学习的光度立体三维重建方法
CN113034666B (zh) 一种基于金字塔视差优化代价计算的立体匹配方法
CN114119987A (zh) 基于卷积神经网络的特征提取和描述子生成方法及系统
CN116433822B (zh) 一种神经辐射场训练方法、装置、设备及介质
CN112465984A (zh) 一种基于双层过滤的单目相机序列图像三维重构方法
KR101913623B1 (ko) 촬영 이미지를 이용한 3차원 광고 생성 방법
CN113628125B (zh) 基于空间视差先验网络的多幅红外图像增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant