CN114666564A - 一种基于隐式神经场景表示进行虚拟视点图像合成的方法 - Google Patents

一种基于隐式神经场景表示进行虚拟视点图像合成的方法 Download PDF

Info

Publication number
CN114666564A
CN114666564A CN202210288938.2A CN202210288938A CN114666564A CN 114666564 A CN114666564 A CN 114666564A CN 202210288938 A CN202210288938 A CN 202210288938A CN 114666564 A CN114666564 A CN 114666564A
Authority
CN
China
Prior art keywords
image data
virtual viewpoint
training
network
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210288938.2A
Other languages
English (en)
Other versions
CN114666564B (zh
Inventor
霍智勇
郭权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210288938.2A priority Critical patent/CN114666564B/zh
Publication of CN114666564A publication Critical patent/CN114666564A/zh
Application granted granted Critical
Publication of CN114666564B publication Critical patent/CN114666564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/207Image signal generators using stereoscopic image cameras using a single 2D image sensor
    • H04N13/221Image signal generators using stereoscopic image cameras using a single 2D image sensor using the relative movement between cameras and objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/293Generating mixed stereoscopic images; Generating mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种在多视图立体跨视图损失的基础上利用隐式神经场景表示进行虚拟视点图像合成的方法,适用于计算机视觉领域。本方法包括:获取需产生虚拟视点的图像数据集;对训练图像数据集进行预处理,在预处理阶段基于特征匹配算法Sift对输入的训练图像数据集进行特征点提取和匹配;将获得的训练图像数据和所提取特征点信息经处理后输入多层感知器网络中进行训练;将测试图像数据输入训练好的多层感知器网络,后通过体渲染得到测试的渲染图像;基于训练好的多层感知器网络生成虚拟视点图像。由此通过减少神经网络在训练拟合场景表示时的数据量,及结合图像深度信息进行集中采样,能提高神经场景表示的运算速度与性能,生成高质量虚拟视点图像。

Description

一种基于隐式神经场景表示进行虚拟视点图像合成的方法
技术领域
本发明涉及一种在多视图立体跨视图损失的基础上利用隐式神经场景表示来实现虚拟视点图像的合成和漫游的方法,适用于计算机视觉领域。
背景技术
随着科技的发展和生活水平的不断提高,全景视频、交互式视频、自由视点视频等不同于传统二维视频的新视频方式逐渐进入大众的视野。目前所谓的自由视点视频生成方式大多是在场景内设置多台摄像机同时进行拍摄工作,效率较低。并且在一般的环境下,大范围的场景里不可能在任意视点都放置摄像机进行拍摄,因此通过少量的输入视点图像来合成任意位置的虚拟视点图像是图像处理的一个研究热点。
虚拟视点的图像合成是指使用一组给定的输入图像从新的视点来渲染一个场景的问题。目前进行虚拟视点图像合成的主要方法有:基于光场表示、基于多平面场景表示的虚拟视点图像合成技术和基于隐式函数的神经场景表示的虚拟视点图像合成技术。在基于光场表示的虚拟视点图像合成方法中,光场是使用摄像机阵列对场景进行采样,利用全光函数来描述场景中的光场,然后再进行新视点的渲染,其中光场的生成需要密集的摄像机阵列,成本较高,并且所能生成的虚拟视点范围也有限;基于多平面场景表示的虚拟视点图像合成技术则是利用多层平面图像MPI,按照神经网络所估计的图像深度信息对图像进行分层,将该分层表示通过仿射变换到虚拟视点,最后使用α合成来合成虚拟视点的图像,其中MPI只能在窄基线的视点条件下产生虚拟视点,实用性不强,并且如果虚拟视点的很大一部分没有被观测的数据所覆盖,那该方法可能会出现伪影和孔洞;在基于隐式函数的神经场景表示的虚拟视点图像合成技术中,隐式表示是使用网络的权重来存储场景的信息,之后利用体渲染对虚拟视点的图像进行渲染,其在合成效率上明显优于基于光场和MPI的图像合成方法,并且可适应摄像机架设的宽窄基线的情况。但隐式神经场景表示在训练和渲染方面速度很慢,有必要对网络的训练速度加快做进一步地改进。
发明内容
针对上述存在的问题,本发明提供了一种在多视图立体跨视图损失的基础上基于隐式神经场景表示进行虚拟视点图像合成的方法,通过利用多视图之间的特征点匹配关系减少神经网络在训练拟合场景表示时所需要的数据量,同时利用图像的深度信息优化三维空间中的采样点分布,从而加快网络的训练速度,生成高质量的虚拟视点图像。
本发明为解决上述技术问题采用的技术方案如下:
一种基于隐式神经场景表示进行虚拟视点图像合成的方法,包括如下步骤:
步骤1:获取需要产生虚拟视点的训练图像数据集和测试图像数据集;
步骤2:利用colmap工具将步骤1中得到的训练图像数据集进行预处理,在预处理阶段基于特征匹配算法Sift对输入的训练图像数据集进行特征点的提取和匹配;
步骤3:将步骤1获得的训练图像数据和步骤2所提取的特征点信息经过处理后输入多层感知器网络中进行训练,并通过体渲染计算训练图像数据的渲染颜色值;
步骤4:将测试图像数据输入训练好的多层感知器网络,得到网络的输出值后,通过体渲染得到测试的渲染图像;
步骤5:基于训练好的多层感知器网络生成虚拟视点的图像。
进一步的,步骤1所述训练图像数据集为摄像机拍摄的大型场景数据集或只拥有单一对象的场景;所述测试图像数据集是不参与网络训练的一部分训练图像数据集,用于对训练完成的网络进行测试。为实现隐式的神经场景表示,承担表示结构的神经网络需要多次训练来迭代,并且需要针对不同的场景来实现虚拟视点图像的合成。
进一步的,步骤2中所述预处理操作是指通过Colmap工具从输入的训练图像数据集中计算每张图像对应的摄像机的内外参数以及场景的最大、最小边界;基于特征匹配算法Sift提取图像之间的特征点,同时Colmap工具将计算场景的稀疏点云,上述基于特征匹配算法Sift所提取的图像之间的特征点对应于稀疏点云中的点。
进一步的,所述步骤2还包括利用MiDas深度估计算法估计每张训练图像对应的深度值。
进一步的,所述步骤3中对所获取的训练图像数据和提取的特征点信息的处理过程具体如下:
步骤3-1:计算从摄像机位置向二维成像平面投射到三维空间的射线;
步骤3-2:结合深度估计值在步骤3-1所获取的射线上进行集中采样来获取多层感知器网络的输入值。通过结合已处理好的数据集中的深度信息,可将采样点集中于场景中对象的表面附近,减少对空的空间中的采样点数量;
步骤3-3:对已获取的多层感知器网络的输入值进行位置编码,然后将编码后的采样点和深度值连接后送入多层感知器中进行学习;同时射线的方向向量d也需要进行位置编码。
步骤3中所述多层感知器包括两部分的全连接层,每部分包含四层全连接层,每个连接层包括256个通道和一个ReLU激活函数;当数据送入多层感知器经过四层的全连接层后,然后将得到的256维张量连同编码完的数据送入剩余的四层全连接层,最终多层感知器的输出值与编码完的方向向量连接,最后输出一维的体积密度σ;所述多层感知器的输出值和编码后的射线方向向量γ(d)连接后经过128通道的全连接层后,输出颜色值c。
所述步骤4中体渲染的公式如下:
Figure BDA0003560938520000041
其中
Figure BDA0003560938520000042
其中c表示每个采样点的颜色值,σ表示每个采样点的体积密度值,tn和tf分别表示射线上采样的最近点和最远点,r(t)表示射线,d表示射线的方向向量,T(t)表示所有采样点累积的透射率,即采样点的权重值。
进一步的,利用MSE损失来计算相邻图像的特征点之间的颜色均方误差:
Figure BDA0003560938520000051
其中
Figure BDA0003560938520000052
Figure BDA0003560938520000053
分别为第i张图和第i+1张图的特征点经过网络后再进行体渲染的颜色值;
除了图像的特征点匹配之外,还需要对图像中原有的像素点计算MSE损失,将采样的像素点经过计算射线采样以及位置编码后送入多层感知器,经过体渲染后得到的颜色值与真实颜色值之间计算均方误差:
Figure BDA0003560938520000054
其中C(r)为采样点的真实颜色值。
因此,最终的损失函数为
Figure BDA0003560938520000055
其中特征点损失函数相对于真实颜色损失函数的权重为0.1。
一种运行上述基于隐式神经场景表示进行虚拟视点图像合成方法的装置,包括:
图像获取模块,用于获取需要产生虚拟视点的训练图像数据集;
预处理模块,用于进行特征点的提取和匹配以及计算摄像机参数;
继续处理模块,用于获取多层感知器网络的输入值;
训练模块,用于利用渲染图像得到的颜色值训练多层感知器网络;
虚拟视点合成模块,用于通过训练好的多层感知器网络生成指定虚拟视点的图像。
本发明的技术方案能产生以下的技术效果:
本发明通过利用多视图之间的特征点匹配关系减少神经网络在训练拟合场景表示时所需要的数据量,以及结合图像的深度信息进行集中采样的方法,可以优化三维空间采样点的分布,达到提高神经场景表示的运算速度与性能的目的;通过利用位置编码对采样点的深度信息进行高维映射,可以合成已有视点间的任意位置的虚拟视点的高质量图像;同时本发明提供的多图像对的特征点损失函数,能有效的对网络进行监督学习。
附图说明
图1为本发明的基于隐式神经场景表示进行虚拟视点图像合成方法示意图;
图2为本发明实施的多层感知器网络结构的框图;
图3为本发明的依据图像的深度进行射线采样的采样点分布示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及对应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
如图1所示,本实施例中,基于隐式神经场景表示进行虚拟视点图像合成的方法包括如下步骤:
S1、获取用作训练图像和测试图像的数据集。
本例中数据集包括摄像机拍摄的大型场景数据集,该大型场景数据集需拍摄30张左右的图像以满足构建神经场景表示的需求,拍摄视觉需覆盖场景各个角落;对摄像机的拍摄轨迹形式不限,包括线形,弧形、方形、圆形、椭圆形,蝶形等,优先考虑相机处于同一水平线。
本例中数据集还可包括只拥有单一对象的场景,该场景拍摄的图像需处于同一集线水平,需要摄像15张左右的图像以满足构建神经场景表示的需求。
测试图像的获取则是从训练图像数据集中,每隔8张抽取一张图像作为测试图像,组成测试图像数据集。
S2、利用Colmap工具将S1中得到的训练图像数据集进行预处理,在预处理阶段基于特征匹配算法Sift对输入的训练图像数据集进行特征点的提取和匹配。
本实施例通过Colmap工具从输入的数据集中计算每张图像对应的摄像机的内外参数以及场景的最大和最小边界,摄像机外参包括摄像机的旋转矩阵和平移向量,内参包括摄像机的焦距以及成像平面的主点。基于特征匹配算法Sift提取图像之间的特征点,同时Colmap会计算场景的稀疏点云,所述基于特征匹配算法Sift提取的图像之间的特征点对应于上述稀疏点云中的点,因此本实施例在预处理阶段需要计算每张图像与旁边图像的共同特征点,通过其在点云中的共同映射来查找并存储特征点的像素坐标。
另外地,在对训练图像数据集进行预处理阶段,使用MiDaS深度估计的Transformer网络方法提取每张输入图像的深度信息,即每张图像对应的深度图。
S3、处理所获取的训练图像数据和已提取的特征点信息后,将其输入到多层感知器网络中进行训练,并通过体渲染计算训练图像数据的渲染颜色值。
其中,对所述所获取的训练图像数据和已提取的特征点信息的处理过程如下:
S3-1、计算从摄像机位置向二维成像平面投射到三维空间的射线。
随机选择输入数据集中的一张图像,从该图像随机采样1024个像素点(包括512个特征点和512个随机采样的像素点),利用空间仿射变换将二维平面的像素点进行空间映射到三维空间,映射的过程是像素坐标(u,v)到相机空间坐标系(Xc,Yc,Zc),再由相机坐标系经过3D旋转和平移转换到世界坐标系(Xw,Yw,Zw),该坐标即为射线的方向向量rayd,摄像机位置即摄像机外参中的平移向量则为射线的起始点rayo:
Figure BDA0003560938520000081
式中,C为摄像机的内参矩阵,R为外参矩阵,(Tx,Ty,Tz)为摄像机的平移向量,fx和fy为摄像机的焦距。
S3-2、结合步骤S2获取的深度估计值在步骤S3-1所获取的射线上进行集中采样以获取多层感知器网络的输入值。
获取步骤S3-1中所述1024个像素点所对应的深度值dep,将其归一化到区间[0,1],对于每一个像素点的深度值,利用高斯分布函数,以dep为均值,取0.1~0.5为方差,计算基于像素点深度值的高斯分布函数,定义如下:
N(μ,σ2)=N(dep,σ2)
在高斯分布函数中取128个值,得到每个值的分布概率,计算128个值的概率分布函数pdf,通过pdf计算其累积分布函数CDF,再通过CDF在[0,1]区间内采样128个一维点zvals,此时的128个采样点的分布趋近于像素点的深度值,如图3所示。以rayo为起点,rayd为方向向量,将上述的128个一维点zvals带入,以点向式的方法计算每个像素点对应的射线上的128个三维采样点,定义如下:
p=rayo+rayd*zvals
S3-3、对获取的三维采样点和一维的深度信息进行位置编码,然后将编码后的采样点和深度值连接后送入多层感知器中进行学习。
所述位置编码的定义如下:
γ(p)=[sin(20p),cos(20p),…,sin(2L-1p),cos(2L-1p)]T
其中L为编码的到高维空间的维数;编码后的采样点和深度值分别为γ(p),γ(dep),然后将其连接后送入多层感知器中进行学习,同时射线的方向向量也需要进行位置编码,即γ(d)。
本实施例中多层感知器网络的网络结构如图2所示,包括两部分的全连接层,每部分包含四层全连接层,每个连接层包括256个通道和一个ReLU激活函数;多层感知器网络的输入经过四层的全连接层后,然后将得到的256维张量连同编码完的数据送入剩余的四层全连接层,最终多层感知器的输出值与编码完的方向向量连接,最后输出一维的体积密度σ;所述多层感知器的输出值和编码后的射线方向向量γ(d)连接后经过128通道的全连接层后,输出颜色值c。
本实施例中利用体渲染来对射线上采样点的颜色值和体积密度进行积分,以计算每条射线上的最终颜色值。
本实施例中所述体渲染的公式如下:
Figure BDA0003560938520000101
其中
Figure BDA0003560938520000102
式中c表示每个采样点的颜色值,σ表示每个采样点的体积密度值,tn和tf分别表示射线上采样的最近点和最远点,r(t)表示射线,d表示射线的方向向量,T(t)表示所有采样点累积的透射率,即采样点的权重值。
本实施例提出的在基于多视图立体的跨视图特征点匹配损失,利用了图像之间匹配的特征点在空间中对应的相同点的特性,将相邻图像的特征点经过射线采样以及位置编码后送入多层感知器,最终经过体渲染所得到的颜色值相同,利用MSE损失来计算两幅图像的特征点之间的颜色均方误差:
Figure BDA0003560938520000103
式中
Figure BDA0003560938520000104
Figure BDA0003560938520000105
分别为第i张图和第i+1张图的特征点经过网络后再进行体渲染的颜色值;
除了图像的特征点匹配之外,还需要对图像中原有的像素点计算MSE损失,将采样的像素点经过计算射线采样以及位置编码后送入多层感知器,经过体渲染后得到的颜色值,与真实颜色值之间计算均方误差:
Figure BDA0003560938520000111
式中C(r)为采样点的真实颜色值。
最终的loss为
Figure BDA0003560938520000112
Figure BDA0003560938520000113
的和:
Figure BDA0003560938520000114
其中特征点损失函数相对于真实颜色损失函数的权重为0.1。
S4、将测试图像数据集输入训练好的多层感知器网络,得到网络的输出值后,通过体渲染得到测试的渲染图像。
S5、基于训练好的多层感知器网络生成虚拟视点的图像。
首先在已有视点的基础上,利用摄像机的内外参数,计算视点之间的虚拟视点的摄像机参数。然后将虚拟视点位置图的图像的所有像素点计算其对应的射线,并在射线上进行采样,将采样点经过位置编码后送入网络,得到每个采样点的颜色值和体积密度。最后利用体渲染方法来渲染每条射线的最终颜色,即每个像素点的颜色,也就得到虚拟视点位置的最终图像。
本实施例还提供一种基于隐式神经场景表示进行虚拟视点图像合成的装置,包括图像获取模块、预处理模块、继续处理模块、训练模块和虚拟视点合成模块。
其中图像获取模块用于获取需要产生虚拟视点的训练图像数据集;预处理模块用于进行特征点的提取和匹配以及计算摄像机参数;继续处理模块用于获取多层感知器网络的输入值;训练模块用于利用渲染图像得到的颜色值训练多层感知器网络;虚拟视点合成模块用于通过训练好的多层感知器网络生成指定虚拟视点的图像。
综上,本发明提出了一种在多视图立体跨视图损失的基础上利用隐式神经场景表示来实现虚拟视点图像的合成和漫游的方法,以稀疏的输入视点图像进行虚拟视点图像合成为目标,利用图像之间的特征点匹配以及图像的深度信息,经过隐式的神经场景表示来对场景内容进行拟合,本发明提出的视图损失函数能有效的对网络进行监督学习,并且在虚拟视点图像的合成效率以及结构大小上要明显优于传统的网格模型、点云等显示场景表示。
上述仅为本发明的优选实施例,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

Claims (9)

1.一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,包括如下步骤:
步骤1:获取需要产生虚拟视点的训练图像数据集和测试图像数据集;
步骤2:利用colmap工具将步骤1中得到的训练图像数据集进行预处理,在预处理阶段基于特征匹配算法Sift对输入的训练图像数据集进行特征点的提取和匹配;
步骤3:将步骤1获得的训练图像数据和步骤2所提取的特征点信息经过处理后输入多层感知器网络中进行训练,并通过体渲染计算训练图像数据的渲染颜色值;
步骤4:将测试图像数据输入训练好的多层感知器网络,得到网络的输出值后,通过体渲染得到测试的渲染图像;
步骤5:基于训练好的多层感知器网络生成虚拟视点的图像。
2.根据权利要求1所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,步骤1所述训练图像数据集为摄像机拍摄的大型场景数据集或只拥有单一对象的场景。
3.根据权利要求1所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,步骤2中所述预处理操作是指通过Colmap工具从输入的训练图像数据集中计算每张图像对应的摄像机的内外参数以及场景的最大、最小边界;同时Colmap工具将计算场景的稀疏点云,基于特征匹配算法Sift提取图像之间的特征点,该特征点对应于稀疏点云中的点。
4.根据权利要求3所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,所述步骤2还包括利用MiDas深度估计算法估计每张训练图像对应的深度值。
5.根据权利要求4所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,步骤3中所述对已获取的训练图像数据和提取的特征点信息的具体处理过程如下:
步骤3-1:计算从摄像机位置向二维成像平面投射到三维空间的射线;
步骤3-2:结合步骤2所获取的深度估计值在步骤3-1所获取的射线上进行集中采样来获取多层感知器网络的输入值;
步骤3-3:对已获取的多层感知器网络的输入值进行位置编码,然后将编码后的采样点和深度值连接后送入多层感知器中进行学习;同时射线的方向向量d也需进行位置编码。
6.根据权利要求1-5任一项所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,步骤3中所述多层感知器包括两部分的全连接层,每部分包含四层全连接层,每个连接层包括256个通道和一个ReLU激活函数;当数据送入多层感知器经过四层的全连接层后,然后将得到的256维张量连同编码完的数据送入剩余的四层全连接层,最终多层感知器的输出值与编码完的方向向量连接,最后输出一维的体积密度σ;所述多层感知器的输出值和编码后的射线方向向量γ(d)连接后经过128通道的全连接层,输出颜色值c。
7.根据权利要求6所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,所述体渲染的公式如下:
Figure FDA0003560938510000031
其中
Figure FDA0003560938510000032
其中c表示每个采样点的颜色值,σ表示每个采样点的体积密度值,tn和tf分别表示射线上采样的最近点和最远点,r(t)表示射线,d表示射线的方向向量,T(t)表示所有采样点累积的透射率,即采样点的权重值。
8.根据权利要求1所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,整体网络的最终损失函数由特征点损失函数
Figure FDA0003560938510000033
和真实颜色值损失函数
Figure FDA0003560938510000034
两部分组成;
所述特征点损失函数
Figure FDA0003560938510000035
利用MSE损失来计算相邻图像的特征点之间的颜色均方误差:
Figure FDA0003560938510000036
其中
Figure FDA0003560938510000037
Figure FDA0003560938510000038
分别为第i张图和第i+1张图的特征点经过网络后再进行体渲染的颜色值;
所述真实颜色值损失函数
Figure FDA0003560938510000039
为:
Figure FDA00035609385100000310
其中,
Figure FDA00035609385100000311
为采样的像素点经过计算射线采样以及位置编码后送入多层感知器,经过体渲染后得到的颜色值;C(r)为采样点的真实颜色值。
因此,最终的损失函数为:
Figure FDA0003560938510000041
其中特征点损失函数相对于真实颜色损失函数的权重为0.1。
9.一种运行权利要求1-8所述的基于隐式神经场景表示进行虚拟视点图像合成方法的装置,其特征在于,包括:
图像获取模块,用于获取需要产生虚拟视点的训练图像数据集;
预处理模块,用于进行特征点的提取和匹配以及计算摄像机参数;
继续处理模块,用于获取多层感知器网络的输入值;
训练模块,用于利用渲染图像得到的颜色值训练多层感知器网络;虚拟视点合成模块,用于通过训练好的多层感知器网络生成指定虚拟视点的图像。
CN202210288938.2A 2022-03-23 2022-03-23 一种基于隐式神经场景表示进行虚拟视点图像合成的方法 Active CN114666564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210288938.2A CN114666564B (zh) 2022-03-23 2022-03-23 一种基于隐式神经场景表示进行虚拟视点图像合成的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210288938.2A CN114666564B (zh) 2022-03-23 2022-03-23 一种基于隐式神经场景表示进行虚拟视点图像合成的方法

Publications (2)

Publication Number Publication Date
CN114666564A true CN114666564A (zh) 2022-06-24
CN114666564B CN114666564B (zh) 2024-03-01

Family

ID=82031063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210288938.2A Active CN114666564B (zh) 2022-03-23 2022-03-23 一种基于隐式神经场景表示进行虚拟视点图像合成的方法

Country Status (1)

Country Link
CN (1) CN114666564B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100360A (zh) * 2022-07-28 2022-09-23 中国电信股份有限公司 图像生成方法及装置、存储介质和电子设备
CN115375884A (zh) * 2022-08-03 2022-11-22 北京微视威信息科技有限公司 自由视点合成的模型生成方法、图像绘制方法及电子设备
CN115439388A (zh) * 2022-11-08 2022-12-06 杭州倚澜科技有限公司 基于多层神经表面表达的自由视点图像合成方法
CN115953520A (zh) * 2023-03-10 2023-04-11 浪潮电子信息产业股份有限公司 一种虚拟场景的记录回放方法、装置、电子设备及介质
CN116012449A (zh) * 2023-02-02 2023-04-25 北京数原数字化城市研究中心 一种基于深度信息的图像渲染方法及装置
CN116206066A (zh) * 2023-04-25 2023-06-02 阿里巴巴达摩院(杭州)科技有限公司 基于场景重建生成视频的方法、存储介质和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014022036A1 (en) * 2012-08-02 2014-02-06 Qualcomm Incorporated Fast 3-d point cloud generation on mobile devices
CN107507277A (zh) * 2017-07-31 2017-12-22 北京康邦科技有限公司 三维点云重构方法和装置、服务器及可读存储介质
WO2018222495A1 (en) * 2017-05-31 2018-12-06 Verizon Patent And Licensing Inc. Methods and systems for rendering virtual reality content based on two-dimensional ("2d") captured imagery of a three-dimensional ("3d") scene
WO2021093584A1 (zh) * 2019-11-13 2021-05-20 南京大学 基于深度卷积神经网络的自由视点视频生成及交互方法
US20210264659A1 (en) * 2020-02-24 2021-08-26 Adobe Inc. Learning hybrid (surface-based and volume-based) shape representation
CN114049434A (zh) * 2021-11-05 2022-02-15 成都艾特能电气科技有限责任公司 一种基于全卷积神经网络的3d建模方法及系统
CN114119849A (zh) * 2022-01-24 2022-03-01 阿里巴巴(中国)有限公司 三维场景渲染方法、设备以及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014022036A1 (en) * 2012-08-02 2014-02-06 Qualcomm Incorporated Fast 3-d point cloud generation on mobile devices
WO2018222495A1 (en) * 2017-05-31 2018-12-06 Verizon Patent And Licensing Inc. Methods and systems for rendering virtual reality content based on two-dimensional ("2d") captured imagery of a three-dimensional ("3d") scene
CN107507277A (zh) * 2017-07-31 2017-12-22 北京康邦科技有限公司 三维点云重构方法和装置、服务器及可读存储介质
WO2021093584A1 (zh) * 2019-11-13 2021-05-20 南京大学 基于深度卷积神经网络的自由视点视频生成及交互方法
US20210264659A1 (en) * 2020-02-24 2021-08-26 Adobe Inc. Learning hybrid (surface-based and volume-based) shape representation
CN114049434A (zh) * 2021-11-05 2022-02-15 成都艾特能电气科技有限责任公司 一种基于全卷积神经网络的3d建模方法及系统
CN114119849A (zh) * 2022-01-24 2022-03-01 阿里巴巴(中国)有限公司 三维场景渲染方法、设备以及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BEN MILDENHALL 等: "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis", COMPUTER VISION – ECCV 2020 *
常远 等: "基于神经辐射场的视点合成算法综述", 《图学学报》, vol. 42, no. 3 *
江雷;: "基于深度信息虚拟视点生成", 现代计算机(专业版), no. 03 *
霍智勇: "自由视点视频深度图估计的关键技术研究", 博士论文电子期刊 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100360A (zh) * 2022-07-28 2022-09-23 中国电信股份有限公司 图像生成方法及装置、存储介质和电子设备
CN115100360B (zh) * 2022-07-28 2023-12-01 中国电信股份有限公司 图像生成方法及装置、存储介质和电子设备
CN115375884A (zh) * 2022-08-03 2022-11-22 北京微视威信息科技有限公司 自由视点合成的模型生成方法、图像绘制方法及电子设备
CN115375884B (zh) * 2022-08-03 2023-05-30 北京微视威信息科技有限公司 自由视点合成的模型生成方法、图像绘制方法及电子设备
CN115439388A (zh) * 2022-11-08 2022-12-06 杭州倚澜科技有限公司 基于多层神经表面表达的自由视点图像合成方法
CN115439388B (zh) * 2022-11-08 2024-02-06 杭州倚澜科技有限公司 基于多层神经表面表达的自由视点图像合成方法
CN116012449A (zh) * 2023-02-02 2023-04-25 北京数原数字化城市研究中心 一种基于深度信息的图像渲染方法及装置
CN115953520A (zh) * 2023-03-10 2023-04-11 浪潮电子信息产业股份有限公司 一种虚拟场景的记录回放方法、装置、电子设备及介质
CN116206066A (zh) * 2023-04-25 2023-06-02 阿里巴巴达摩院(杭州)科技有限公司 基于场景重建生成视频的方法、存储介质和系统
CN116206066B (zh) * 2023-04-25 2023-09-12 阿里巴巴达摩院(杭州)科技有限公司 基于场景重建生成视频的方法、存储介质和系统

Also Published As

Publication number Publication date
CN114666564B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
CN114666564B (zh) 一种基于隐式神经场景表示进行虚拟视点图像合成的方法
CN114004941B (zh) 一种基于神经辐射场的室内场景三维重建系统及方法
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN110458939B (zh) 基于视角生成的室内场景建模方法
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
CN111899328B (zh) 一种基于rgb数据与生成对抗网络的点云三维重建方法
CN103345736A (zh) 一种虚拟视点绘制方法
CN111951368B (zh) 一种点云、体素和多视图融合的深度学习方法
CN113221647A (zh) 一种融合点云局部特征的6d位姿估计方法
WO2022198684A1 (en) Methods and systems for training quantized neural radiance field
CN116958437A (zh) 融合注意力机制的多视图重建方法及系统
Xu et al. Three dimentional reconstruction of large cultural heritage objects based on uav video and tls data
CN112489198A (zh) 一种基于对抗学习的三维重建系统及其方法
CN116958420A (zh) 一种数字人教师三维人脸的高精度建模方法
CN116778063A (zh) 一种基于特征纹理网格和哈希编码的快速虚拟视点合成方法及装置
KR20230150867A (ko) 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측
CN113065506B (zh) 一种人体姿态识别方法及系统
CN117501313A (zh) 基于深度神经网络的毛发渲染系统
CN112686202A (zh) 一种基于3d重建的人头识别方法及系统
CN116912393A (zh) 人脸重建方法、装置、电子设备及可读存储介质
CN114935316B (zh) 基于光学跟踪与单目视觉的标准深度图像生成方法
CN113920270B (zh) 一种基于多视角全景的布局重建方法及其系统
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
Zhang et al. A Portable Multiscopic Camera for Novel View and Time Synthesis in Dynamic Scenes
Jäger et al. A comparative Neural Radiance Field (NeRF) 3D analysis of camera poses from HoloLens trajectories and Structure from Motion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant