CN115359173A - 虚拟多视点视频生成方法、装置、电子设备和存储介质 - Google Patents

虚拟多视点视频生成方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115359173A
CN115359173A CN202210774786.7A CN202210774786A CN115359173A CN 115359173 A CN115359173 A CN 115359173A CN 202210774786 A CN202210774786 A CN 202210774786A CN 115359173 A CN115359173 A CN 115359173A
Authority
CN
China
Prior art keywords
virtual
sparse
viewpoint image
determining
view video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210774786.7A
Other languages
English (en)
Inventor
颜玢玢
聂炜欣
张梓源
史浩君
韩蒂
陈硕
桑新柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210774786.7A priority Critical patent/CN115359173A/zh
Publication of CN115359173A publication Critical patent/CN115359173A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/55Radiosity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种虚拟多视点视频生成方法、装置、电子设备和存储介质,涉及计算机视觉技术领域,所述方法包括:接收终端设备发送的稀疏视点图像;基于稀疏视点图像,确定终端设备的位姿信息;对稀疏视点图像进行光线采样,并基于终端设备的位姿信息,确定采样点的坐标信息;将采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张虚拟新视点图像,确定虚拟多视点视频,其中,神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成。本发明可实现任意视角下虚拟新视点图像的生成,并合成虚拟多视点视频,且有效降低终端设备的计算量。

Description

虚拟多视点视频生成方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种虚拟多视点视频生成方法、装置、电子设备和存储介质。
背景技术
目前,3D显示以其可显示三维立体内容、可视角度广、传达信息直观、场景逼真等优势,广泛应用于教育、娱乐等领域,在提高学生学习效率和用户的视觉体验方面有显著成效。然而,由于3D内容制作技术的限制,当前3D显示所需要的片源制作困难。因此,如何快速生成3D内容,成为当前学术界和工业界亟需解决的问题。
现有技术中,3D内容的生成主要通过以下两种方式:
(1)、通过3D软件建模,如Blender、Maya等软件,手工建模场景或任务的三维模型,填充对应的纹理等信息,但是上述3D软件需要专业3D建模人员操作完成,建模结果的好坏取决于建模人员的技术和经验;同时,建模过程较为复杂,生成的3D内容不够真实;
(2)、通过多相机阵列光场采集,多路相机同时采集捕捉场景内容,并利用重建算法生成场景的3D模型,然而,对于多相机阵列光场采集技术,则需要使用多个摄像机同时摄取场景内容,导致数据处理量大,且对设备要求较高;同时,在实际场景搭建中,很难保证相机之间的夹角足够窄,从而导致由采集的图像还原出的三维立体视角不够连续。
发明内容
本发明提供一种虚拟多视点视频生成方法、装置、电子设备和存储介质,用以解决现有技术中建模专业要求高、数据处理量大的缺陷,实现任意视角下虚拟新视点图像的生成,并合成虚拟多视点视频,且有效降低终端设备的计算量。
本发明提供一种虚拟多视点视频生成方法,包括:
接收终端设备发送的稀疏视点图像;
基于所述稀疏视点图像,确定终端设备的位姿信息;
对所述稀疏视点图像进行光线采样,并基于所述终端设备的位姿信息,确定采样点的坐标信息;
将所述采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张所述虚拟新视点图像,确定虚拟多视点视频,其中,所述神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成。
根据本发明提供的虚拟多视点视频生成方法,所述对所述稀疏视点图像进行光线采样,并基于所述终端设备的位姿信息,确定采样点的坐标信息,包括:
在所述稀疏视点图像的视锥范围内进行光线采样,结合利用COLMAP算法所确定的终端设备的位姿信息和内参,确定采样光线上每个采样点的坐标信息。
根据本发明提供的虚拟多视点视频生成方法,所述每个采样点的坐标信息,包括5D坐标,所述5D坐标包括3D位置坐标和2D视角方向坐标。
根据本发明提供的虚拟多视点视频生成方法,所述将所述采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张所述虚拟新视点图像,确定虚拟多视点视频,其中,所述神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成,包括:
将编码的所述3D位置坐标输入神经辐射场模型的第一阶段网络,在确定每个采样点处的体密度值的同时输入编码的2D方向坐标,基于积分粗略预测,输出每个采样点处的第一RGB预测值,其中,所述神经辐射场模型的第一阶段网络中加入跳跃连接网络,所述跳跃连接网络用于实现第一阶段网络快速、稳定的收敛;
基于所述体密度值进行重采样,并将重采样前后采样点的坐标信息输入神经辐射场模型的第二阶段网络进行精细预测,输出每个采样点的第二RGB预测值,其中,所述体密度值用于确定重采样的采样点的位置信息;
根据光线积分,确定光线对应的所述稀疏视点图像平面坐标处的真实RGB值;
基于所述第一RGB预测值、第二RGB预测值和真实RGB值,确定神经辐射场模型的损失函数;
基于所述损失函数的反向传播,更新神经辐射场模型的网络参数,并确定虚拟新视点图像;
基于多张所述虚拟新视点图像,确定虚拟多视点视频。
根据本发明提供的虚拟多视点视频生成方法,所述终端设备的位姿信息包括终端设备的旋转向量和平移向量。
根据本发明提供的虚拟多视点视频生成方法,还包括:
将虚拟多视点视频进行编码,并将编码的虚拟多视点视频发送至终端设备,所述终端设备用于采集并编码所述稀疏视点图像,并将编码的所述稀疏视点图像进行发送;所述终端设备用于接收并解码所述虚拟多视点视频,并显示解码后的所述虚拟多视点视频。
本发明还提供一种虚拟多视点视频生成装置,包括:
接收模块,用于接收终端设备发送的稀疏视点图像;
确定模块,用于基于所述稀疏视点图像,确定终端设备的位姿信息;
采样模块,用于对所述稀疏视点图像进行光线采样,并基于所述终端设备的位姿信息,确定采样点的坐标信息;
输出模块,用于将所述采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张所述虚拟新视点图像,确定虚拟多视点视频,其中,所述神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成。
根据本发明提供的虚拟多视点视频生成装置,还包括:
发送模块,用于将虚拟多视点视频进行编码,并将编码的虚拟多视点视频发送至终端设备。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述虚拟多视点视频生成方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述虚拟多视点视频生成方法。
本发明提供的虚拟多视点视频生成方法、装置、电子设备和存储介质,通过终端设备拍摄稀疏视点图像,采集方便、灵活,不受时间、地点限制,降低对采集设备的要求;同时,通过光线采样,结合终端设备的位姿信息确定采样点的坐标信息,并将采样点的坐标信息输入神经辐射场模型NeRF内,将坐标信息映射至颜色空间,进一步合成任意视角的虚拟新视点图像,并基于多张任意视角的虚拟新视点图像,合成虚拟多视点视频,仅需较少数量的稀疏视点图像,即可生成任意视角下的虚拟新视点图像,节省终端设备存储空间,提高虚拟新视点图像的鲁棒性,且进一步扩大使用范围。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的虚拟多视点视频生成方法的流程示意图之一;
图2是本发明提供的虚拟多视点视频生成方法的流程示意图之二;
图3是本发明提供的虚拟多视点视频生成方法的流程示意图之三;
图4是本发明提供的稀疏视点图像之一;
图5是本发明提供的稀疏视点图像之二;
图6是本发明提供的虚拟新视点图像之一;
图7是本发明提供的虚拟新视点图像之二;
图8是本发明提供的虚拟多视点视频生成装置的结构示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图7描述本发明的虚拟多视点视频生成方法。
图1是本发明提供的虚拟多视点视频生成方法的流程示意图之一,如图1所示,该方法包括:
步骤110、接收终端设备发送的稀疏视点图像。
为了避免现有技术中采用多相机阵列广场采集稀疏视点图像时,对设备过高的要求,本发明中,采用具有拍摄功能的终端设备作为稀疏视点图像的采集设备,在不限时间、场景的情况,灵活拍摄少量稀疏视点图像,编码后发送至服务器端进行虚拟新视点图像和虚拟多视点视频的生成,既节省了终端设备的存储空间,又有效减低了终端设备的计算量,灵活控制视频的生成效果。此外,终端设备还可以接收虚拟新视点图像和虚拟多视点视频,并进行解码、显示。
可选地,上述终端设备可以为手机、平板电脑等移动终端,且该移动终端具有拍摄功能,上述终端设备的系统包括但不限于:安卓系统、华为鸿蒙系统。
可选地,上述终端设备的发送方法和接收方法可以采用无线传输方法,包括但不限于:5G移动通信传输、4G移动通信传输、WiFi传输,以确保稀疏视点图像快速传输至服务器端。
此外,图2是本发明提供的虚拟多视点视频生成方法的流程示意图之二,如图2所示,终端设备和服务器端之间还可以设置传输端,终端设备可以将编码的稀疏视点图像发送至传输端,并通过传输端转发至服务器端,服务器端可以将生成的虚拟多视点视频编码后发送至传输端,并通过传输端发送至终端设备进行解码显示,其中,传输端用于对图像编码进行数据的上行和下行操作,传输端可采用H.264/H.265视频压缩标准,来实现数据快速、鲁棒、稳定的传输。
步骤120、基于稀疏视点图像,确定终端设备的位姿信息。
具体地,由于稀疏视点图像的拍摄视角不同,即终端设备的位姿信息不同,本发明中,利用COLMAP算法,基于稀疏视点图像,反向确定终端设备在不同视角下的外参和内参,其中,外参即为终端的位姿信息,COLMAP算法是一种通用的运动结构(SFM)和多视图立体(MVS)管道,能够实现有序和无序图像序列的相机姿态标定以及场景内容重建。
可选地,终端设备的位姿信息包括终端设备的旋转向量R和平移向量T。
步骤130、对稀疏视点图像进行光线采样,并基于终端设备的位姿信息,确定采样点的坐标信息。
具体地,对接收的稀疏视点图像进行光线采样,且光线所处坐标系与稀疏视点图像坐标系保持一致,即基于稀疏视点图像的每个像素点向空间发射光线,在每条光线上进行采样,进一步获取每个采样点的坐标信息。
可选地,每个采样点的坐标信息的获取方法包括:
在稀疏视点图像的视锥范围内进行光线采样,结合利用COLMAP算法所确定的终端设备的位姿信息和内参,确定采样光线上每个采样点的坐标信息。
具体地,通过COLMAP算法,计算终端设备的内参和外参,在稀疏视点图像的视锥范围内进行光线采样,光线为经过终端设备的相机光心和稀疏视点图像上像素的一条射线,进一步获取该光线上每个采样点的坐标信息。
可选地,每个采样点的坐标信息,包括5D坐标,5D坐标包括3D位置坐标和2D视角方向坐标。
具体地,光线采样上,每个采样点可以采用5D坐标表示,其中,5D坐标包括3D位置坐标p=(x,y,z)和2D视角方向坐标
Figure BDA0003726411820000071
即,5D坐标可表示为
Figure BDA0003726411820000072
具体地,2D视角方向坐标
Figure BDA0003726411820000073
为终端设备相机坐标下的每个光线坐标值,即,为终端设备相机坐标下的每个光线的x轴和y轴坐标,z轴坐标为-1,计算公式如式(1)所示:
Figure BDA0003726411820000081
其中,K表示终端设备内相机内参矩阵,W表示图像分辨率的宽度,w表示在图像分辨率的宽度W范围内取值,H表示图像分辨率的高度,h表示在图像分辨率的高度H范围内取值。根据每个终端设备得到的方向坐标值,经相机坐标系转化为世界坐标,输入到神经辐射场模型的第一阶段网络中,来粗略预测每个采样点处对应的第一预测RGB值。
可选地,上述光线采样可以包括均匀随机采样,即,均匀随机采样可确保即使在同一条光线上,采样点也不会相同,尽可能避免因采样点的频率而限制神经辐射场模型NeRF的分辨率。
步骤140、将所述采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张所述虚拟新视点图像,确定虚拟多视点视频,其中,所述神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成。
具体地,由于3D建模过程较为复杂,建模专业性要求较高,且建模人员的技术直接影响建模效果,为了避免复杂建模,且扩大使用范围,本发明中采用神经辐射场(NeuralRadiance Fields,NeRF)算法中的MLP神经网络去隐式表征学习输入的稀疏视点图像,采用光线积分的方式渲染合成任意视角的虚拟新视点图像,进一步合成虚拟多视点视频。
可选地,虚拟多视点视频的生成方法包括:
将编码的3D位置坐标输入神经辐射场模型的第一阶段网络,在确定每个采样点处的体密度值的同时输入编码的2D方向坐标,基于积分粗略预测,输出每个采样点处的第一RGB预测值,其中,神经辐射场模型的第一阶段网络中加入跳跃连接网络,跳跃连接网络用于实现第一阶段网络快速、稳定的收敛;
基于体密度值进行重采样,并将重采样前后采样点的坐标信息输入神经辐射场模型的第二阶段网络进行精细预测,输出每个采样点的第二RGB预测值,其中,体密度值用于确定重采样的采样点的位置信息;
根据光线积分,确定光线对应的所述稀疏视点图像平面坐标处的真实RGB值;
基于第一RGB预测值、第二RGB预测值和真实RGB值,确定神经辐射场模型的损失函数;
基于损失函数的反向传播,更新神经辐射场模型的网络参数,并确定虚拟新视点图像;
基于多张虚拟新视点图像,确定虚拟多视点视频。
具体地,神经辐射场模型NeRF用于通过二阶段全连接神经网络Fθ完成坐标信息至颜色空间的映射,Fθ:(p,d)→(c,σ),即,神经辐射场模型NeRF主要是对RGB值进行渲染,RGB值主要由光线的波长决定,光线透过稀疏视点图像时波长会发生变化,即颜色值会发生变化,其中,c表示光线采样点处对应的RGB值,σ表示光线采样点出对应的体密度值。
基于上述原理,将3D位置坐标p=(x,y,z)进行位置编码后输入第一阶段网络中,第一阶段网络中加入跳跃连接网络以实现网络快速、稳定的收敛。在第一阶段网络计算出采样点处的体密度值σ的同时,向第一阶段网络输入编码后的2D视角方向坐标
Figure BDA0003726411820000091
第一阶段网络进行粗略积分预测,并输出采样点处的第一RGB预测值;之后,根据体密度值进行光线重采样,即,根据体密度值确定光线重采样的采样点的位置;之后将重采样的采样点的坐标信息和重采样前的采样点的坐标信息输入第二阶段网络,进行精细积分预测,并输出采样点处的第二RGB预测值。神经辐射场模型通过积分预测每条光线对应的RGB值的表达式如式(2)所示:
Figure BDA0003726411820000101
其中,
Figure BDA0003726411820000102
表示网络预测输出的光线对应稀疏视点图像平面坐标处的RGB值,N表示每条光线上的采样点数,δi=ti+1-ti,且表示相邻采样点之间的距离,Ti表示光线所经过空间内容前后的遮挡关系,i表示第i条光线,且i为非负整数。
可选地,基于第一RGB预测值、第二RGB预测值和真实RGB值来计算损失函数,损失函数可以为第一RGB预测值、第二RGB预测值和真实RGB值的均方差,通过损失函数进行反向传播,来更新第一阶段网络和第二阶段网络的参数,使得进行积分预测出的RGB值更精准。损失函数的计算公式如式(3)所示:
Figure BDA0003726411820000103
其中,
Figure BDA0003726411820000104
表示第一阶段网络预测输出的第一RGB预测值,
Figure BDA0003726411820000105
表示第二阶段网络预测输出的第二RGB预测值,C(r)表示真实RGB值。
可选地,在神经辐射场模型NeRF的参数更新后,对稀疏视点图像中的每个像素点进行光线采样,预测每个像素点的RGB值,获得虚拟新视点图像。经过多次循环后,生成多张虚拟新视点图像,且基于多张虚拟新视点图像,生成虚拟多视点视频。
可选地,为了提高神经辐射场模型NeRF的预测精度,并降低计算量,本发明中采用二阶段全连接神经网络,分别进行粗略积分预测和精细积分预测,使得粗略积分预测输出的体密度值转化为概率分布,并依据概率分布进行光线重采样,第二阶段网络再根据重采样前后的采样点的坐标信息进行精细采样,且损失函数也采用第一RGB预测值、第二RGB预测值和真实RGB值的均方差形式,在没有采样点分布的先验的情况下,实现一个由粗到细的训练过程,进而提高神经辐射场模型NeRF的预测精度,降低计算量。
可选地,神经辐射场模型NeRF的第一阶段网络和第二阶段网络可以为全连接神经网络MLP(Multilayer Perceptron)。
可选地,虚拟多视点视频的播放方法包括:
将虚拟多视点视频进行编码,并将编码的虚拟多视点视频发送至终端设备,终端设备用于采集并编码稀疏视点图像,并将编码的稀疏视点图像进行发送;终端设备用于接收并解码虚拟多视点视频,并显示解码后的虚拟多视点视频。
可选地,图4和图5为本发明提供的稀疏视点图像,图6和图7为本发明提供的虚拟新视点图像,如图4至图7所示,基于终端设备拍摄的少量稀疏视点图像,可快速清晰地生成不同视角处的虚拟新视角图像。与本发明同类的产品是IPhone12的场景重建,IPhone12中,通过在手机端安装高精度的激光雷达来实现自然场景下的重建,但该技术方案需要在手机端添加深度相机,且实际应用中激光雷达重建出的场景模型往往存在空洞和较大噪声。而本发明提供的虚拟新视点图像则可以生成高质量、高清晰的任意视角下的场景图像,且生成速度较高。
本发明提供的虚拟多视点视频生成方法,通过终端设备拍摄稀疏视点图像,采集方便、灵活,不受时间、地点限制,降低对采集设备的要求;同时,通过光线采样,结合终端设备的位姿信息确定采样点的坐标信息,并将采样点的坐标信息输入神经辐射场模型NeRF内,将坐标信息映射至颜色空间,进一步合成任意视角的虚拟新视点图像,并基于多张任意视角的虚拟新视点图像,合成虚拟多视点视频,仅需较少数量的稀疏视点图像,即可生成任意视角下的虚拟新视点图像,节省终端设备存储空间,提高虚拟新视点图像的鲁棒性,且进一步扩大使用范围。
下面对本发明提供的虚拟多视点视频生成装置进行描述,下文描述的虚拟多视点视频生成装置与上文描述的虚拟多视点视频生成方法可相互对应参照。
图8是本发明提供的虚拟多视点视频生成装置的结构示意图,如图8所示,该虚拟多视点视频生成装置200包括:接收模块201、确定模块202、采样模块203、输出模块204,其中:
接收模块201,用于接收终端设备发送的稀疏视点图像;
确定模块202,用于基于稀疏视点图像,确定终端设备的位姿信息;
采样模块203,用于对稀疏视点图像进行光线采样,并基于终端设备的位姿信息,确定采样点的坐标信息;
输出模块204,用于将采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张虚拟新视点图像,确定虚拟多视点视频,其中,神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成。
本发明提供的虚拟多视点视频生成装置,通过终端设备拍摄稀疏视点图像,采集方便、灵活,不受时间、地点限制,降低对采集设备的要求;同时,通过光线采样,结合终端设备的位姿信息确定采样点的坐标信息,并将采样点的坐标信息输入神经辐射场模型NeRF内,将坐标信息映射至颜色空间,进一步合成任意视角的虚拟新视点图像,并基于多张任意视角的虚拟新视点图像,合成虚拟多视点视频,仅需较少数量的稀疏视点图像,即可生成任意视角下的虚拟新视点图像,节省终端设备存储空间,提高虚拟新视点图像的鲁棒性,且进一步扩大使用范围。
可选地,确定模块202,具体用于:
确定终端设备的位姿信息,且终端设备的位姿信息包括终端设备的旋转向量和平移向量
可选地,采样模块203,具体用于:
在所述稀疏视点图像的视锥范围内进行光线采样,结合利用COLMAP算法所确定的终端设备的位姿信息和内参,确定采样光线上每个采样点的坐标信息。
可选地,采样模块203,具体用于:
光线采样上每个采样点的坐标信息,包括5D坐标,5D坐标包括3D位置坐标和2D视角方向坐标。
可选地,输出模块204,具体用于:
将编码的3D位置坐标输入神经辐射场模型的第一阶段网络,在确定每个采样点处的体密度值的同时输入编码的2D方向坐标,基于积分粗略预测,输出每个采样点处的第一RGB预测值,其中,神经辐射场模型的第一阶段网络中加入跳跃连接网络,跳跃连接网络用于实现第一阶段网络快速、稳定的收敛;
基于体密度值进行重采样,并将重采样前后采样点的坐标信息输入神经辐射场模型的第二阶段网络进行精细预测,输出每个采样点的第二RGB预测值,其中,体密度值用于确定重采样的采样点的位置信息;
根据光线积分,确定光线对应的稀疏视点图像平面坐标处的真实RGB值;
基于第一RGB预测值、第二RGB预测值和真实RGB值,确定神经辐射场模型的损失函数;
基于损失函数的反向传播,更新神经辐射场模型的网络参数,并确定虚拟新视点图像;
基于多张虚拟新视点图像,确定虚拟多视点视频。
可选地,该虚拟多视点视频生成装置,还包括:
发送模块205,用于将虚拟多视点视频进行编码,并将编码的虚拟多视点视频发送至终端设备。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备300可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行虚拟多视点视频生成方法,该方法包括:
接收终端设备发送的稀疏视点图像;
基于稀疏视点图像,确定终端设备的位姿信息;
对稀疏视点图像进行光线采样,并基于终端设备的位姿信息,确定采样点的坐标信息;
将采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张虚拟新视点图像,确定虚拟多视点视频,其中,神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,计算机程序被处理器执行时,计算机能够执行上述各方法所提供的虚拟多视点视频生成方法,该方法包括:
接收终端设备发送的稀疏视点图像;
基于稀疏视点图像,确定终端设备的位姿信息;
对稀疏视点图像进行光线采样,并基于终端设备的位姿信息,确定采样点的坐标信息;
将采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张虚拟新视点图像,确定虚拟多视点视频,其中,神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的虚拟多视点视频生成方法,该方法包括:
接收终端设备发送的稀疏视点图像;
基于稀疏视点图像,确定终端设备的位姿信息;
对稀疏视点图像进行光线采样,并基于终端设备的位姿信息,确定采样点的坐标信息;
将采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张虚拟新视点图像,确定虚拟多视点视频,其中,神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种虚拟多视点视频生成方法,其特征在于,包括:
接收终端设备发送的稀疏视点图像;
基于所述稀疏视点图像,确定终端设备的位姿信息;
对所述稀疏视点图像进行光线采样,并基于所述终端设备的位姿信息,确定采样点的坐标信息;
将所述采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张所述虚拟新视点图像,确定虚拟多视点视频,其中,所述神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成。
2.根据权利要求1所述的虚拟多视点视频生成方法,其特征在于,所述对所述稀疏视点图像进行光线采样,并基于所述终端设备的位姿信息,确定采样点的坐标信息,包括:
在所述稀疏视点图像的视锥范围内进行光线采样,结合利用COLMAP算法所确定的终端设备的位姿信息和内参,确定采样光线上每个采样点的坐标信息。
3.根据权利要求2所述的虚拟多视点视频生成方法,其特征在于,所述每个采样点的坐标信息,包括5D坐标,所述5D坐标包括3D位置坐标和2D视角方向坐标。
4.根据权利要求3所述的虚拟多视点视频生成方法,其特征在于,所述将所述采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张所述虚拟新视点图像,确定虚拟多视点视频,其中,所述神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成,包括:
将编码的所述3D位置坐标输入神经辐射场模型的第一阶段网络,在确定每个采样点处的体密度值的同时输入编码的2D方向坐标,基于积分粗略预测,输出每个采样点处的第一RGB预测值,其中,所述神经辐射场模型的第一阶段网络中加入跳跃连接网络,所述跳跃连接网络用于实现第一阶段网络快速、稳定的收敛;
基于所述体密度值进行重采样,并将重采样前后采样点的坐标信息输入神经辐射场模型的第二阶段网络进行精细预测,输出每个采样点的第二RGB预测值,其中,所述体密度值用于确定重采样的采样点的位置信息;
根据光线积分,确定光线对应的所述稀疏视点图像平面坐标处的真实RGB值;
基于所述第一RGB预测值、第二RGB预测值和真实RGB值,确定神经辐射场模型的损失函数;
基于所述损失函数的反向传播,更新神经辐射场模型的网络参数,并确定虚拟新视点图像;
基于多张所述虚拟新视点图像,确定虚拟多视点视频。
5.根据权利要求1所述的虚拟多视点视频生成方法,其特征在于,所述终端设备的位姿信息包括终端设备的旋转向量和平移向量。
6.根据权利要求1至5中任一项所述的虚拟多视点视频生成方法,其特征在于,还包括:
将虚拟多视点视频进行编码,并将编码的虚拟多视点视频发送至终端设备,所述终端设备用于采集并编码所述稀疏视点图像,并将编码的所述稀疏视点图像进行发送;所述终端设备用于接收并解码所述虚拟多视点视频,并显示解码后的所述虚拟多视点视频。
7.一种虚拟多视点视频生成装置,其特征在于,包括:
接收模块,用于接收终端设备发送的稀疏视点图像;
确定模块,用于基于所述稀疏视点图像,确定终端设备的位姿信息;
采样模块,用于对所述稀疏视点图像进行光线采样,并基于所述终端设备的位姿信息,确定采样点的坐标信息;
输出模块,用于将所述采样点的坐标信息输入神经辐射场模型,输出虚拟新视点图像,并基于多张所述虚拟新视点图像,确定虚拟多视点视频,其中,所述神经辐射场模型用于进行稀疏视点图像的坐标信息至颜色空间的映射和虚拟新视点图像的生成。
8.根据权利要求7所述的虚拟多视点视频生成装置,其特征在于,还包括:
发送模块,用于将虚拟多视点视频进行编码,并将编码的虚拟多视点视频发送至终端设备。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述虚拟多视点视频生成方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述虚拟多视点视频生成方法。
CN202210774786.7A 2022-07-01 2022-07-01 虚拟多视点视频生成方法、装置、电子设备和存储介质 Pending CN115359173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210774786.7A CN115359173A (zh) 2022-07-01 2022-07-01 虚拟多视点视频生成方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210774786.7A CN115359173A (zh) 2022-07-01 2022-07-01 虚拟多视点视频生成方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115359173A true CN115359173A (zh) 2022-11-18

Family

ID=84030283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210774786.7A Pending CN115359173A (zh) 2022-07-01 2022-07-01 虚拟多视点视频生成方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115359173A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503536A (zh) * 2023-06-27 2023-07-28 深圳臻像科技有限公司 一种基于场景分层的光场渲染方法
CN116805354A (zh) * 2023-08-23 2023-09-26 山东黄河三角洲国家级自然保护区管理委员会 一种基于神经辐射场的珍稀鸟类三维模型重构方法与装置
CN117765171A (zh) * 2023-12-12 2024-03-26 之江实验室 一种三维模型重建的方法、装置、存储介质及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503536A (zh) * 2023-06-27 2023-07-28 深圳臻像科技有限公司 一种基于场景分层的光场渲染方法
CN116503536B (zh) * 2023-06-27 2024-04-05 深圳臻像科技有限公司 一种基于场景分层的光场渲染方法
CN116805354A (zh) * 2023-08-23 2023-09-26 山东黄河三角洲国家级自然保护区管理委员会 一种基于神经辐射场的珍稀鸟类三维模型重构方法与装置
CN116805354B (zh) * 2023-08-23 2023-12-29 中国林业科学研究院森林生态环境与自然保护研究所(国家林业和草原局世界自然遗产保护研究中心) 一种基于神经辐射场的珍稀鸟类三维模型重构方法与装置
CN117765171A (zh) * 2023-12-12 2024-03-26 之江实验室 一种三维模型重建的方法、装置、存储介质及电子设备
CN117765171B (zh) * 2023-12-12 2024-07-23 之江实验室 一种三维模型重建的方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN108335322B (zh) 深度估计方法和装置、电子设备、程序和介质
US10540818B2 (en) Stereo image generation and interactive playback
CN115359173A (zh) 虚拟多视点视频生成方法、装置、电子设备和存储介质
US10499033B2 (en) Apparatus, a method and a computer program for coding and rendering volumetric video
KR20190105011A (ko) 몰입형 비디오 포맷을 위한 방법, 장치 및 스트림
JP2019534606A (ja) ライトフィールドデータを使用して場面を表す点群を再構築するための方法および装置
KR20170132669A (ko) 몰입형 비디오 포맷을 위한 방법, 장치 및 스트림
CN110246146B (zh) 基于多次深度图像渲染的全视差光场内容生成方法及装置
CN112189345B (zh) 用于编码或解码表示3d场景的数据的方法、设备或介质
CN115690382B (zh) 深度学习模型的训练方法、生成全景图的方法和装置
US9514569B2 (en) Method and apparatus for converting two-dimensional image into three-dimensional image
KR20190046850A (ko) 몰입형 비디오 포맷을 위한 방법, 장치 및 스트림
CN113989432A (zh) 3d影像的重构方法、装置、电子设备及存储介质
CN111612878B (zh) 将静态照片制作成三维效果视频的方法及装置
CN111340866A (zh) 深度图像生成方法、装置及存储介质
JP7371691B2 (ja) ホモグラフィ変換を使用した点群符号化
CN112017228A (zh) 一种对物体三维重建的方法及相关设备
WO2022205755A1 (zh) 纹理生成方法、装置、设备及存储介质
CN112927273A (zh) 三维视频的处理方法、设备及存储介质
CN115661403A (zh) 显式辐射场的处理方法、设备和存储介质
CN115953476A (zh) 基于可泛化神经辐射场的人体自由视角合成方法
CN114429531A (zh) 虚拟视点图像的生成方法及装置
JP7440546B2 (ja) ポイントクラウドデータ処理装置及び方法
US20230119830A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
CN115082636A (zh) 基于混合高斯网络的单图像三维重建方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination