CN114627223A - 一种自由视点视频合成方法、装置、电子设备及存储介质 - Google Patents
一种自由视点视频合成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114627223A CN114627223A CN202210211781.3A CN202210211781A CN114627223A CN 114627223 A CN114627223 A CN 114627223A CN 202210211781 A CN202210211781 A CN 202210211781A CN 114627223 A CN114627223 A CN 114627223A
- Authority
- CN
- China
- Prior art keywords
- voxel
- video
- latent
- point
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Generation (AREA)
Abstract
本发明涉及一种自由视点视频合成方法、装置、电子设备及存储介质。本发明所述的自由视点视频合成方法包括:获取待合成的视频,视频包括带有深度和颜色的体素;针对每个体素,聚合8个顶点的体素嵌入,得到体素内部查询点的表示;使用潜码嵌入去代表不同时间帧学习到的体素内部查询点的表示,得到可变形的潜码网络;将可变形的潜码网络输入稀疏卷积网络,得到稠密潜码;根据稠密潜码,构建基于多层感知机的神经辐射场;将每一个体素点的三维位置、视点方向输入神经辐射场的多层感知器网络模型,得到每一个体素的颜色和密度;对神经辐射场进行神经渲染,得到自由视点下的视频。本发明所述的方法,用体素隐式表示场景内容,实现自由视点视图的合成。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种自由视点视频合成方法、装置、电子设备及存储介质。
背景技术
图像和视频是人类获取信息的重要手段之一。随着以图像和视频为核心的数字技术的发展,三维(Three-Dimension,3D)可视化视频、监控等服务应用的普及,三维立体多媒体服务比传统二维更能引起用户的关注,让用户拥有身临其境的体验。在3D视频技术中,人们利用双目或多目摄像头从不同角度对同一场景进行拍摄,然后再利用计算机视觉技术形成立体视频。但无论是传统二维视频还是三维视频,观看者都只能依赖摄像头的摆放位置从某一个角度获取视频信息。为了改变这种被动的信息接收方式,人们提出多视点视频(Multi-View Video)技术,可在设备终端选择想要的观看角度和位置,为了实现这种技术,需要在被拍摄场景周围对应视点位置布置摄像采集设备。随着数字视频技术的发展,从具有两个视点的视频发展到多视点视频,再以此为基础发展到自由视点视频(FreeViewpoint Video,FVV)技术,其中自由视点视频技术的沉浸式体验最强,用户可不受视点数量选择的限制,在任意一个角度观看视频。
FVV技术应用十分广泛,如体育赛事的直播(击剑和舞蹈等)以及三维沉浸式课堂等,应用前景广阔,但它的普及仍面临诸多困难。为了获得任意视点的视频,传统的方法是在被观测物体周围视点放置多个摄像设备,产生的数据也成倍增长,现有硬件设备显然无法满足在任意视点观看视频的要求。为了减轻数据存储和网络传输的压力,依靠虚拟视点合成技术,即通过已采集的视频数据合成未知视点下同一场景的视频,可以减少摄像采集设备的数量。如何提高自由视点下场景视频的质量、提高渲染效率仍是一项具有挑战性的任务。
合成新视点的过程也是对场景进行建模的过程,神经辐射场(Neural RadianceField,NeRF),其核心就是一种神经隐式表示方法。如图1所示,用一个全连接神经网络来拟合出一个连续的体素表示。这个全连接网络输入想要的位置(x,y,z),以及观看的角度(θ,),输出该位置的颜色(r,g,b)和该点的透明度(σ),即给出同一个场景的多个不同位置的图片和相应的相机位置,用一整个多层感知器(多层感知机,Multilayer Perceptron)网络渲染出该场景在任意角度下的图片。
因NeRF需要独立优化每个场景的表示,沿每条视图射线的过度评估造成了高昂计算成本和大量计算时间,并且NeRF不适用于隐式表示动态场景,如果直接输入动态视频,合成新视图时会因时间不一致导致场景中物体发生遮挡,产生大量模糊的新视图。
发明内容
基于此,本发明的目的在于,提供一种自由视点视频合成方法、装置、电子设备及存储介质,构建可变形网络潜码,在不同时间帧,记录场景纹理、运动信息,共享场景表示,跨时间传播场景内容,使得观众获取场景信息不受限于摄像头的摆放位置,实现自由视点视图的合成。
第一方面,本发明提供一种自由视点视频合成方法,包括以下步骤:
获取待合成的视频,其中所述视频由RGB-D视频帧组成,所述RGB-D视频帧包括带有深度和颜色的体素;
针对每个体素,聚合所述体素的8个顶点的体素嵌入,得到所述体素内部查询点的表示;
针对所述体素内部查询点的表示,使用潜码嵌入去代表不同时间帧学习到的体素内部查询点的表示,得到不同时间帧上的潜码嵌入组合成的可变形的潜码网络;
将所述可变形的潜码网络输入稀疏卷积网络,得到将可变形潜码网络中稀疏的潜码扩散到附近的3D空间形成的稠密潜码;
根据所述稠密潜码,构建基于多层感知机的神经辐射场;
将每一个体素点的三维位置、视点方向输入所述神经辐射场的多层感知器网络模型,得到每一个体素的颜色和密度;
对所述神经辐射场进行神经渲染,得到自由视点下的视频。
进一步地,对所述神经辐射场进行神经渲染,包括:
针对每一个体素点,根据体素数据经过隐式场映射该点的颜色c和密度σ,通过体绘制技术渲染该体素对应二维像素点的颜色;
使用体绘制技术,沿着光线在非空区域中进行密集采样,渲染出不同三维位置下对应场景外观和几何信息,得到自由视点下的视频。
进一步地,针对每个体素,聚合所述体素的8个顶点的体素嵌入,得到所述体素内部查询点的表示,包括:
针对每个体素的8个顶点,利用三线性插值方法形成特征表示嵌入;
聚合所述8个顶点的特征表示嵌入,得到体素内部查询点的表示。
进一步地,所述稀疏卷积网络包括顺次连接的三层;
每一层包括顺次连接的稀疏卷积层、批归一化层和重归一化层。
进一步地,所述基于多层感知机的神经辐射场,包括多个多层感知机;
每个多层感知机单独处理所述多层感知机对应的部分场景。
进一步地,将每一个体素点的三维位置、视点方向输入所述神经辐射场的多层感知器网络模型,得到每一个体素的颜色,包括:
使用以下公式,计算帧t中体素点x处的颜色:
ct(x)=Mc(ψ(x,z,St),γd(d),γx(x),Lt)
其中,ct(x)为帧t中体素点x处的颜色,Mc表示两层MLP网络,ψ(x,Z,St)为所述体素点x的潜码,St代表可变形潜码网络的参数,Z表示经过稀疏变换的稠密潜码;γd和γx分别是用于观察方向和空间位置的位置编码函数,Lt表示潜码嵌入。
进一步地,将每一个体素点的三维位置、视点方向输入所述神经辐射场的多层感知器网络模型,得到每一个体素的密度,包括:
使用以下公式,计算帧t中体素点x处的密度:
σt(x)=Mσ(ψ(x,Z,St))
其中,σt(x)为帧t中体素点x处的密度,Mσ表示四层MLP网络,ψ(x,Z,St)为所述体素点x的潜码,St代表可变形潜码网络的参数,Z表示经过稀疏变换的稠密潜码。
第二方面,本发明还提供一种自由视点视频合成装置,包括:
视频获取模块,用于获取待合成的视频,其中所述视频由RGB-D视频帧组成,所述RGB-D视频帧包括带有深度和颜色的体素;
查询点的表示计算模块,用于针对每个体素,聚合所述体素的8个顶点的体素嵌入,得到所述体素内部查询点的表示;
潜码网络获取模块,用于针对所述体素内部查询点的表示,使用潜码嵌入去代表不同时间帧学习到的体素内部查询点的表示,得到不同时间帧上的潜码嵌入组合成的可变形的潜码网络;
稠密潜码获取模块,用于将所述可变形的潜码网络输入稀疏卷积网络,得到将可变形潜码网络中稀疏的潜码扩散到附近的3D空间形成的稠密潜码;
神经辐射场构建模块,用于根据所述稠密潜码,构建基于多层感知机的神经辐射场;
体素信息计算模块,用于将每一个体素点的三维位置、视点方向输入所述神经辐射场的多层感知器网络模型,得到每一个体素的颜色和密度;
神经渲染模块,用于对所述神经辐射场进行神经渲染,得到自由视点下的视频。
第三方面,本发明还提供一种电子设备,其特征在于,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如本发明第一方面任一所述的一种自由视点视频合成方法的步骤。
第四方面,本发明还提供一种计算机可读存储介质,其特征在于:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面任一所述的一种自由视点视频合成方法的步骤。
本发明提供的一种自由视点视频合成方法、装置、电子设备及存储介质,可以令点光源交汇处的过渡颜色不再只为单调的一种颜色,而是融合了交叉处多种光源的混合颜色,将光源交叉处的多种光的颜色混合,提高了场景最终的着色效果。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为基于多层感知机的网络架构的示意图;
图2为本发明提供的一种自由视点视频合成方法的流程示意图;
图3为本发明使用的基于MLP的隐式神经辐射场场景模型框架图;
图4为本发明所使用的稀疏卷积网络的结构示意图;
图5为一个实施例中,光线与场景相交示意图;
图6为本发明提供的一种自由视点视频合成装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在一个具体的实施例中,本发明提供的一种自由视点视频合成方法,通过以三个手持商品级RGB-D传感器——Microsoft Azure Kinect获取的多视角下的动态场景视频作为输入,采用以下方法来高效合成自由视点下的场景视频。
通过NeRF可知,在输入视图密集的情况下,学习静态三维场景的隐式神经表示可获得较高的视图合成质量。如果直接将动态视频输入静态NeRF模型学习场景表示,学习到的新视图会变得模糊。
在实现本发明提供的一种自由视点视频合成方法之前,需要对三台Kinect设备进行校准,配置传感器参数以便在设备之间获取一致的结果。利用Nikolaos Zioulis等人所在团队发明的Volumetric Capture多传感器捕获系统记录捕获的RGB-D帧,生成三个不同视角下带有深度和颜色的体素或者点云数据。
基于上述硬件设备,针对背景技术中的问题,本申请实施例提供一种自由视点视频合成方法,如图2所示,该方法包括以下步骤:
S01:获取待合成的视频,其中所述视频由RGB-D视频帧组成,所述RGB-D视频帧包括带有深度和颜色的体素。
体素是数据在三维空间分割上的最小单位,类似于像素是二维空间的最小单位,体素是用固定大小的立方体块作为最小单元。
S02:针对每个体素,聚合所述体素的8个顶点的体素嵌入,得到所述体素内部查询点的表示。
在一个优选的实施例中,利用Kinect设备捕获的场景RGB-D序列通过多传感器捕获系统转换成包含场景信息的体素数据集合,每个体素都有八个顶点,对这八个顶点利用三线性插值方法形成特征表示嵌入,通过聚合这八个顶点的特征表示嵌入来获得体素内部查询点的表示。
三线性插值是在三维离散采样数据的张量积网格上进行线性插值的方法。这个张量积网格可能在每一维度上都有任意不重叠的网格点,但并不是三角化的有限元分析网格。这种方法通过网格上数据点在局部的矩形棱柱上线性地近似计算点(x,y,z)的值。
S03:针对所述体素内部查询点的表示,使用潜码嵌入去代表不同时间帧学习到的体素内部查询点的表示,得到不同时间帧上的潜码嵌入组合成的可变形的潜码网络。
优选的,潜码是表示场景多维像素点的另一种更简单的表示形式,用潜码嵌入Lt去代表不同时间帧学习到的体素内部查询点的表示,不同时间帧上的潜码嵌入组合成一个可变形的潜码网络(z1,z2.....zt)。
S04:将所述可变形的潜码网络输入稀疏卷积网络,得到将可变形潜码网络中稀疏的潜码扩散到附近的3D空间形成的稠密潜码。
由于潜码在三维空间中是相对稀疏的,直接插入潜码会导致大部分三维点的矢量为零,因此利用稀疏卷积网络架构处理稀疏的潜码,将可变形潜码网络中稀疏的潜码扩散到附近的3D空间形成更加稠密的潜码,经过处理后每一时间帧t上稠密的潜码分别表示不同的神经辐射场,同时任一视频帧处的稠密潜码还可映射到其他视频帧,从而隐式场便能整合共享不同视频帧处的观察结果。
优选的,如图4所示,本发明所使用的稀疏卷积网络一共三层,每一层由稀疏卷积、批归一化和重归一化三部分组成,可以高效处理输入的潜码。
S05:根据所述稠密潜码,构建基于多层感知机的神经辐射场。
优选的,所述基于多层感知机的神经辐射场,包括多个多层感知机;每个多层感知机单独处理所述多层感知机对应的部分场景。
光线通过辐射场时,NeRF需要查询MLP数百万次,严重拖慢了渲染进度。因此,本发明的设置中,没有用一个大的MLP表示整个场景,而是分解成若干个更小、评估更快的MLP,每个单独的MLP只需要处理部分场景。通过这种方式与进一步的优化相结合,渲染速度比原来的NeRF模型更快,而不会产生较高的存储成本。
S06:将每一个体素点的三维位置、视点方向输入所述神经辐射场的多层感知器网络模型,得到每一个体素的颜色和密度。
优选的,如图3所示,将3D空间中每一个体素数据包含的空间位置、视点方向及潜码嵌入输入隐式场。
对于隐式场中的任意体素数据,在每一个时间帧t,体素点x处的体积密度被预测为关于潜码的函数ψ(x,Z,St)。
优选的,使用以下公式,计算帧t中体素点x处的密度:
σt(x)=Mσ(ψ(x,Z,St))
其中,σt(x)为帧t中体素点x处的密度,Mσ表示四层MLP网络,ψ(x,Z,St)为所述体素点x的潜码,St代表可变形潜码网络的参数,Z表示经过稀疏变换的稠密潜码。
将潜码ψ(x,Z,St)和观察方向d作为颜色回归的输入,为了对与位置相关的入射光进行建模,颜色模型还将空间位置x作为输入。观察到影响场景外观的时变因素,如二次照明和自遮挡,因此,为每个视频帧t分配一个潜在嵌入Lt来编码随时间变化的因素。即对于帧t,x处的颜色被预测为潜码观察方向d、空间位置x和潜在嵌入Lt的函数。
优选的,使用以下公式,计算帧t中体素点x处的颜色:
ct(x)=Mc(ψ(x,z,St),γd(d),γx(x),Lt)
其中,ct(x)为帧t中体素点x处的颜色,Mc表示两层MLP网络,ψ(x,Z,St)为所述体素点x的潜码,St代表可变形潜码网络的参数,Z表示经过稀疏变换的稠密潜码;γd和γx分别是用于观察方向和空间位置的位置编码函数,Lt表示潜码嵌入。
S07:对所述神经辐射场进行神经渲染,得到自由视点下的视频。
在一个优选的实施例中,针对每一个体素点,根据体素数据经过隐式场映射该点的颜色c和密度σ,通过体绘制技术渲染该体素对应二维像素点的颜色。使用体绘制技术,沿着光线在非空区域中进行密集采样,渲染出不同三维位置下对应场景外观和几何信息,得到自由视点下的视频。
与NeRF渲染整个空间的神经隐式表示相比,本发明的渲染效率更高,因为它避免了空区域中的体素点的渲染并且提前终止了光线行进。
优选的,渲染分两步进行:
①光线-体素相交
光线r与场景相交如图5所示。体素数据经过隐式场映射该点的颜色c和密度σ,通过体绘制技术渲染该体素对应二维像素点的颜色。通常对与体素点相交的光线应用数值求积方程来计算像素点颜色。其中,因体素的立方体结构特性,在体素点外部设置一个包围盒,对每条光线应用轴对齐边界盒相交测试(AABBtest),它通过比较光线原点到体素六个边界平面中每个平面的距离来检查光线是否与体素相交。对相交的光线,该体素点对应的像素点的颜色计算公式为:
②在体素内行进光线
体绘制需要沿着光线在非空区域中进行密集采样才能实现高质量的渲染。在整个空间的均匀采样点进行密集评估是低效的,因为空白区域经常进行不必要的测试。本发明使用基于稀疏体素的拒绝采样创建一组查询点,能够在相同的评估成本下进行更密集的抽样。
对于实体表面,所提出的体绘制会沿光线分散表面颜色,这意味着需要在表面进行许多不必要的累加步骤才能使累积透明度T(t)达到0。因此,在一个优选的实施例中,设定特定阈值,当累积透明度降至阈值以下时,停止求值可以显著加快渲染过程,而不会导致质量明显下降。
本发明提供的一种自由视点视频合成方法,通过对着色器里面计算光照的代码进行修改,将光源交叉处的多种光的颜色混合,提高了场景最终的着色效果。
本申请实施例还提供一种自由视点视频合成装置,如图6所示,该自由视点视频合成装置400包括:
视频获取模块401,用于获取待合成的视频,其中所述视频由RGB-D视频帧组成,所述RGB-D视频帧包括带有深度和颜色的体素;
查询点的表示计算模块402,用于针对每个体素,聚合所述体素的8个顶点的体素嵌入,得到所述体素内部查询点的表示;
潜码网络获取模块403,用于针对所述体素内部查询点的表示,使用潜码嵌入去代表不同时间帧学习到的体素内部查询点的表示,得到不同时间帧上的潜码嵌入组合成的可变形的潜码网络;
稠密潜码获取模块404,用于将所述可变形的潜码网络输入稀疏卷积网络,得到将可变形潜码网络中稀疏的潜码扩散到附近的3D空间形成的稠密潜码;
神经辐射场构建模块405,用于根据所述稠密潜码,构建基于多层感知机的神经辐射场;
体素信息计算模块406,用于将每一个体素点的三维位置、视点方向输入所述神经辐射场的多层感知器网络模型,得到每一个体素的颜色和密度;
神经渲染模块407,用于对所述神经辐射场进行神经渲染,得到自由视点下的视频。
优选的,神经渲染模块包括:
颜色渲染单元,用于针对每一个体素点,根据体素数据经过隐式场映射该点的颜色c和密度σ,通过体绘制技术渲染该体素对应二维像素点的颜色;
场景渲染单元,用于使用体绘制技术,沿着光线在非空区域中进行密集采样,渲染出不同三维位置下对应场景外观和几何信息,得到自由视点下的视频。
优选的,查询点的表示计算模块包括:
特征表示嵌入计算单元,用于针对每个体素的8个顶点,利用三线性插值方法形成特征表示嵌入;
聚合单元,用于聚合所述8个顶点的特征表示嵌入,得到体素内部查询点的表示。
优选的,所述稀疏卷积网络包括顺次连接的三层;
每一层包括顺次连接的稀疏卷积层、批归一化层和重归一化层。
优选的,所述基于多层感知机的神经辐射场,包括多个多层感知机;
每个多层感知机单独处理所述多层感知机对应的部分场景。
优选的,体素信息计算模块包括颜色计算单元,用于使用以下公式,计算帧t中体素点x处的颜色:
ct(x)=Mc(ψ(x,z,St),γd(d),γx(x),Lt)
其中,ct(x)为帧t中体素点x处的颜色,Mc表示两层MLP网络,ψ(x,Z,St)为所述体素点x的潜码,St代表可变形潜码网络的参数,Z表示经过稀疏变换的稠密潜码;γd和γx分别是用于观察方向和空间位置的位置编码函数,Lt表示潜码嵌入。
优选的,体素信息计算模块包括密度计算单元,用于使用以下公式,计算帧t中体素点x处的密度:
σt(x)=Mσ(ψ(x,Z,St))
其中,σt(x)为帧t中体素点x处的密度,Mσ表示四层MLP网络,ψ(x,Z,St)为所述体素点x的潜码,St代表可变形潜码网络的参数,Z表示经过稀疏变换的稠密潜码。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种电子设备,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如前所述的一种自由视点视频合成方法的步骤。
对于设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例还提供一种计算机可读存储介质,
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的一种自由视点视频合成方法的步骤。
计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(R A M)、只读存储器(RO M)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
基于传统自由视点合成技术需要依托高质量高成本的密集视频采集设备阵列,适用范围有限,成本高昂。本发明提供的一种自由视点视频合成方法、装置、电子设备及存储介质,提出RGB-D视频采集设备,价格亲民,普通科研工作者容易获取,并且体型小巧,方便携带,场景适用性高。
与基于NeRF静态场景的视点合成技术相比,本发明提供的一种自由视点视频合成方法、装置、电子设备及存储介质,将动态场景视频序列作为输入,不局限于特定的某个视角范围,实现自由视点视图的合成,并在传统渲染方法上,跳过不必要的光线采样,提高渲染效率。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种自由视点视频合成方法,其特征在于,包括以下步骤:
获取待合成的视频,其中所述视频由RGB-D视频帧组成,所述RGB-D视频帧包括带有深度和颜色的体素;
针对每个体素,聚合所述体素的8个顶点的体素嵌入,得到所述体素内部查询点的表示;
针对所述体素内部查询点的表示,使用潜码嵌入去代表不同时间帧学习到的体素内部查询点的表示,得到不同时间帧上的潜码嵌入组合成的可变形的潜码网络;
将所述可变形的潜码网络输入稀疏卷积网络,得到将可变形潜码网络中稀疏的潜码扩散到附近的3D空间形成的稠密潜码;
根据所述稠密潜码,构建基于多层感知机的神经辐射场;
将每一个体素点的三维位置、视点方向输入所述神经辐射场的多层感知器网络模型,得到每一个体素的颜色和密度;
对所述神经辐射场进行神经渲染,得到自由视点下的视频。
2.根据权利要求1所述的一种自由视点视频合成方法,其特征在于,对所述神经辐射场进行神经渲染,包括:
针对每一个体素点,根据体素数据经过隐式场映射该点的颜色c和密度σ,通过体绘制技术渲染该体素对应二维像素点的颜色;
使用体绘制技术,沿着光线在非空区域中进行密集采样,渲染出不同三维位置下对应场景外观和几何信息,得到自由视点下的视频。
3.根据权利要求1所述的一种自由视点视频合成方法,其特征在于,针对每个体素,聚合所述体素的8个顶点的体素嵌入,得到所述体素内部查询点的表示,包括:
针对每个体素的8个顶点,利用三线性插值方法形成特征表示嵌入;
聚合所述8个顶点的特征表示嵌入,得到体素内部查询点的表示。
4.根据权利要求1所述的一种自由视点视频合成方法,其特征在于:
所述稀疏卷积网络包括顺次连接的三层;
每一层包括顺次连接的稀疏卷积层、批归一化层和重归一化层。
5.根据权利要求1所述的一种自由视点视频合成方法,其特征在于:
所述基于多层感知机的神经辐射场,包括多个多层感知机;
每个多层感知机单独处理所述多层感知机对应的部分场景。
6.根据权利要求1所述的一种自由视点视频合成方法,其特征在于,将每一个体素点的三维位置、视点方向输入所述神经辐射场的多层感知器网络模型,得到每一个体素的颜色,包括:
使用以下公式,计算帧t中体素点x处的颜色:
ct(x)=Mc(ψ(x,z,St),γd(d),γx(x),Lt)
其中,ct(x)为帧t中体素点x处的颜色,Mc表示两层MLP网络,ψ(x,Z,St)为所述体素点x的潜码,St代表可变形潜码网络的参数,Z表示经过稀疏变换的稠密潜码;γd和γx分别是用于观察方向和空间位置的位置编码函数,Lt表示潜码嵌入。
7.根据权利要求1所述的一种自由视点视频合成方法,其特征在于,将每一个体素点的三维位置、视点方向输入所述神经辐射场的多层感知器网络模型,得到每一个体素的密度,包括:
使用以下公式,计算帧t中体素点x处的密度:
σt(x)=Mσ(ψ(x,Z,St))
其中,σt(x)为帧t中体素点x处的密度,Mσ表示四层MLP网络,ψ(x,Z,St)为所述体素点x的潜码,St代表可变形潜码网络的参数,Z表示经过稀疏变换的稠密潜码。
8.一种自由视点视频合成装置,其特征在于,包括:
视频获取模块,用于获取待合成的视频,其中所述视频由RGB-D视频帧组成,所述RGB-D视频帧包括带有深度和颜色的体素;
查询点的表示计算模块,用于针对每个体素,聚合所述体素的8个顶点的体素嵌入,得到所述体素内部查询点的表示;
潜码网络获取模块,用于针对所述体素内部查询点的表示,使用潜码嵌入去代表不同时间帧学习到的体素内部查询点的表示,得到不同时间帧上的潜码嵌入组合成的可变形的潜码网络;
稠密潜码获取模块,用于将所述可变形的潜码网络输入稀疏卷积网络,得到将可变形潜码网络中稀疏的潜码扩散到附近的3D空间形成的稠密潜码;
神经辐射场构建模块,用于根据所述稠密潜码,构建基于多层感知机的神经辐射场;
体素信息计算模块,用于将每一个体素点的三维位置、视点方向输入所述神经辐射场的多层感知器网络模型,得到每一个体素的颜色和密度;
神经渲染模块,用于对所述神经辐射场进行神经渲染,得到自由视点下的视频。
9.一种电子设备,其特征在于,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一所述的一种自由视点视频合成方法的步骤。
10.一种计算机可读存储介质,其特征在于:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一所述的一种自由视点视频合成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210211781.3A CN114627223A (zh) | 2022-03-04 | 2022-03-04 | 一种自由视点视频合成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210211781.3A CN114627223A (zh) | 2022-03-04 | 2022-03-04 | 一种自由视点视频合成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114627223A true CN114627223A (zh) | 2022-06-14 |
Family
ID=81900280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210211781.3A Pending CN114627223A (zh) | 2022-03-04 | 2022-03-04 | 一种自由视点视频合成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114627223A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115439388A (zh) * | 2022-11-08 | 2022-12-06 | 杭州倚澜科技有限公司 | 基于多层神经表面表达的自由视点图像合成方法 |
CN115588108A (zh) * | 2022-11-02 | 2023-01-10 | 上海人工智能创新中心 | 一种生成序列影像的方法、电子设备及介质 |
CN115909015A (zh) * | 2023-02-15 | 2023-04-04 | 苏州浪潮智能科技有限公司 | 一种可形变神经辐射场网络的构建方法和装置 |
CN117036581A (zh) * | 2023-10-09 | 2023-11-10 | 易方信息科技股份有限公司 | 基于二维神经渲染的体渲染方法、系统、设备及介质 |
WO2024031251A1 (zh) * | 2022-08-08 | 2024-02-15 | 北京原创力科技有限公司 | 在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法及系统 |
WO2024055211A1 (zh) * | 2022-09-14 | 2024-03-21 | 北京原创力科技有限公司 | 基于NeRF多景层结合的三维视频重建方法及系统 |
-
2022
- 2022-03-04 CN CN202210211781.3A patent/CN114627223A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024031251A1 (zh) * | 2022-08-08 | 2024-02-15 | 北京原创力科技有限公司 | 在NeRF三维场景重建中嵌入2D/3D视频的体积渲染方法及系统 |
WO2024055211A1 (zh) * | 2022-09-14 | 2024-03-21 | 北京原创力科技有限公司 | 基于NeRF多景层结合的三维视频重建方法及系统 |
CN115588108A (zh) * | 2022-11-02 | 2023-01-10 | 上海人工智能创新中心 | 一种生成序列影像的方法、电子设备及介质 |
CN115588108B (zh) * | 2022-11-02 | 2024-05-14 | 上海人工智能创新中心 | 一种生成序列影像的方法、电子设备及介质 |
CN115439388A (zh) * | 2022-11-08 | 2022-12-06 | 杭州倚澜科技有限公司 | 基于多层神经表面表达的自由视点图像合成方法 |
CN115439388B (zh) * | 2022-11-08 | 2024-02-06 | 杭州倚澜科技有限公司 | 基于多层神经表面表达的自由视点图像合成方法 |
CN115909015A (zh) * | 2023-02-15 | 2023-04-04 | 苏州浪潮智能科技有限公司 | 一种可形变神经辐射场网络的构建方法和装置 |
CN115909015B (zh) * | 2023-02-15 | 2023-05-30 | 苏州浪潮智能科技有限公司 | 一种可形变神经辐射场网络的构建方法和装置 |
CN117036581A (zh) * | 2023-10-09 | 2023-11-10 | 易方信息科技股份有限公司 | 基于二维神经渲染的体渲染方法、系统、设备及介质 |
CN117036581B (zh) * | 2023-10-09 | 2024-02-13 | 易方信息科技股份有限公司 | 基于二维神经渲染的体渲染方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114627223A (zh) | 一种自由视点视频合成方法、装置、电子设备及存储介质 | |
Kubota et al. | Multiview imaging and 3DTV | |
Sturm et al. | Camera models and fundamental concepts used in geometric computer vision | |
CN101356546B (zh) | 图像高分辨率化装置、方法及系统 | |
Yu et al. | Real‐time depth of field rendering via dynamic light field generation and filtering | |
Smolic et al. | Development of MPEG standards for 3D and free viewpoint video | |
CN108475327A (zh) | 三维采集与渲染 | |
Lin et al. | Deep multi depth panoramas for view synthesis | |
Magnor et al. | Video-based rendering | |
Richardt et al. | Capture, reconstruction, and representation of the visual real world for virtual reality | |
US20100158482A1 (en) | Method for processing a video data set | |
Hornung et al. | Interactive pixel‐accurate free viewpoint rendering from images with silhouette aware sampling | |
Park et al. | Viewpoint vector rendering for efficient elemental image generation | |
Waschbüsch et al. | 3d video billboard clouds | |
Evers‐Senne et al. | Image based interactive rendering with view dependent geometry | |
Fachada et al. | Chapter View Synthesis Tool for VR Immersive Video | |
Marton et al. | A real-time coarse-to-fine multiview capture system for all-in-focus rendering on a light-field display | |
Lucas et al. | 3D Video: From Capture to Diffusion | |
KR101163020B1 (ko) | 3차원 모델을 스케일링하는 방법 및 스케일링 유닛 | |
Salvador et al. | Multi-view video representation based on fast Monte Carlo surface reconstruction | |
Courteaux et al. | Silvr: a synthetic immersive large-volume plenoptic dataset | |
Almatrouk et al. | A New Raw Holoscopic Image Simulator and Data Generation | |
Andersson et al. | Efficient multi-view ray tracing using edge detection and shader reuse | |
Eljadid et al. | New 3D Holoscopic Images Content Format | |
Kremer et al. | Sail: Semantic analysis of information in light fields: Results from synthetic and real-world data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |