CN117376540A - 一种基于深度图的虚拟视角合成方法和装置 - Google Patents
一种基于深度图的虚拟视角合成方法和装置 Download PDFInfo
- Publication number
- CN117376540A CN117376540A CN202210767235.8A CN202210767235A CN117376540A CN 117376540 A CN117376540 A CN 117376540A CN 202210767235 A CN202210767235 A CN 202210767235A CN 117376540 A CN117376540 A CN 117376540A
- Authority
- CN
- China
- Prior art keywords
- view
- normal vector
- virtual
- viewpoint
- depth map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 7
- 230000000007 visual effect Effects 0.000 title abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 70
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 25
- 238000003786 synthesis reaction Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 9
- 238000012805 post-processing Methods 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 34
- 238000002156 mixing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 18
- 230000002194 synthesizing effect Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 238000005286 illumination Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/156—Mixing image signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请提供了一种基于深度图的虚拟视角合成方法和装置。涉及深度图像处理技术领域。其中方法包括:将多个深度图像中的各个点分别计算得到各点对应的法向量信息,根据法向量信息,利用深度图和相机参数将输入视图向虚拟视图进行映射,最后将多个虚拟视图进行融合得到合成视图。通过本申请提供的方法能够得到视觉效果更好的合成视图,避免虚拟视图背向的图像区域的混入造成合成视图的质量影响。
Description
技术领域
本申请涉及通信领域,更具体的,涉及一种深度图的虚拟视角合成的方法和装置。
背景技术
近年来,随着信息技术和计算机视觉的发展,传统的提供单一观看视角的播放方式,已经难以满足当代消费者对于更自由的观看视角的需求,因此3D图像和视频逐渐成为研究的热点,第五代(5th Generation,5G)系统的超高宽带和低时延特性使得超高清图像、视频的实时交互成为可能。“自由视角”是使用一个或多个视角的图像/视频作为输入,输出多个新视角的图像,允许用户在一定范围内交互式地选择观看位置和方向。其在体育转播、沉浸式影视娱乐、安防等领域有着广泛的应用。当前“自由视角”技术存在计算量大、对原始深度信息依赖大等问题,造成输出的虚拟视角图像存在边缘误差或存在空洞等。
发明内容
本申请提供一种基于深度图的虚拟视角合成方法和装置,能够利用法向量引入视图合成中的映射和融合过程,从而避免背向面片的混入,明显提升合成视图的准确度和效果。
第一方面,提供了一种基于深度图的虚拟视角合成方法,包括:获取目标场景的第一视点的纹理图、深度图和相机参数;基于所述第一视点的深度图,获取法向量信息;根据所述法向量信息、所述深度图、所述纹理图和所述相机参数,得到所述第一视点的虚拟视图;基于所述第一视点的虚拟视图,得到合成视图。
根据本申请提供的图像处理的方法,通过引入法向量到虚拟视角合成过程中,利用法向量来避免合成过程中混入背向点/面导致的瑕疵,提升合成视图的合成质量。
结合第一方面,在第一方面的某些实现方式中,仅根据所述第一视点的深度图获得所述法向量信息;或
根据所述第一视点深度图和除所述第一视点外的其他所有视点的深度图获得所述法向量信息。
仅根据所述第一视点的深度图获得所述法向量信息,所述法向量信息此时即为所述第一视点的法向量信息。这样保障了对某一视点的虚拟视图计算的快速实现。
根据所述第一视点深度图和除第一视点外的其他所有视点的深度图获得所述法向量信息,此时所述法向量信息为所有视点所构成的整体的法向量信息,得到该法向量信息所需要的计算量要更大,然而却带来了更好的准确匹配度。
在一种可能的实现方式中,利用所述深度图、所述法向量和所述相机参数,将所述纹理图向虚拟视图进行映射以得到所述第一视点的虚拟视图。
在一种可能的实现方式中,基于所述第一视点的虚拟视图、除所述第一视点外的其他所有视点的虚拟视图以及所述法向量信息,得到所述合成视图。
在一种可能的实现方式中,基于所述第一视点的虚拟视图、除所述第一视点外的其他所有视点的虚拟视图、所述映射的中间量信息以及所述法向量信息,得到所述合成视图。
在一种可能的实现方式中,基于所述法向量信息对所述第一视点的虚拟视图、所述其他所有视点的虚拟视图进行加权处理得到所述合成视图。
在一种可能的实现方式中,基于所述法向量信息对所述合成视图进行后处理,得到输出视图。引入法向量信息进行后处理使得合成算法支持光照/阴影等三维编辑操作,提升合成视图的可编辑性和合成质量。
第二方面,提供了一种基于深度图的虚拟视角合成装置,包括:获得模块,用于获取目标场景的第一视点的纹理图、深度图和相机参数;确定模块,用于基于所述第一视点的深度图,获取法向量信息;根据所述法向量信息、所述深度图、所述纹理图和所述相机参数,得到所述第一视点的虚拟视图;基于所述第一视点的虚拟视图,得到合成视图。
上述获得模块、确定模块的进一步实现功能可以参考第一方面或者第一方面的任意一种实现方式,此处不再赘述。
在一种可能的实现方式中,所述应用装置还包括更新模块,用于基于所述法向量信息对所述合成视图进行后处理,得到输出视图。
第三方面,本申请提供一种非瞬时性计算机可读存储介质,包括程序代码,当其由计算机设备执行时,用于执行上述第一方面及第一方面任一项、上述第二方面及第二方面任一项所述的方法。
第四方面,本申请提供一种计算机程序产品,包括程序代码,当其在计算机或处理器上执行时,用于执行上述第一方面及第一方面任一项、上述第二方面及第二方面任一项所述的方法。
第五方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行第一方面中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面中的方法。
第六方面,提供一种电子设备,该电子设备包括上述第二方面的虚拟视角合成装置。
附图及以下说明中将详细描述一个或多个实施例。其它特征、目的和优点在说明、附图以及权利要求中是显而易见的。
附图说明
下面对本申请实施例用到的附图进行介绍。
图1是本申请基于深度图的虚拟视角合成技术系统框图。
图2是本申请基于深度图的虚拟视角合成技术又一系统架构框图。
图3是本申请基于深度图的虚拟视角合成技术又一系统架构框图。
图4是本申请人体虚拟视角图像合成示意图。
图5是本申请实施例提供的虚拟视角合成流程示意图。
图6示出了虚拟视角合成实现框架示意图。
图7示出了法向量计算过程示意图。
图8示出了相机与法向量之间角夹角示意图。
图9示出了输入相机与虚拟相机之间角度差异示意图。
图10示出了输入相机与虚拟相机之间距离差异示意图。
图11示出了本申请实施例提供的一种虚拟视角合成装置的结构示意图。
图12示出了本申请实施例提供的另一种虚拟视角合成装置的结构示意图。
图13示出了本申请实施例提供的再一种虚拟视角合成装置的结构示意图。
图14示出了本申请实施例提供的又一种虚拟视角合成装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。其中,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。因此装置与方法的实施可以相互参见,重复之处不再赘述。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。
图1示出本申请可以适用的基于深度图的虚拟视角合成技术系统架构的示意图,该架构中包括采集端、处理端、传输端以及显示端。
图1中,采集端、处理端、显示端均可部署于电子设备中,电子设备可以理解为手机、摄像机、手机、平板电脑、笔记本电脑、电视、车载设备、物联网设备等,本申请在此不具体限定。此外,还要说明的是,图1中示意的采集端、处理端、传输端以及显示端仅1个,但是,在实际应用时,视频处理场景中可能包括多个采集端、处理端、传输端以及显示端,本申请在此不具体限定。其中采集端可以为多相机采集系统,负责原始数据的采集/同步等。处理端可以为数据处理系统,负责原始数据的加工处理,包括:前景分割、深度信息预测、优化等。传输端包括编解码与传输系统,负责将数据传输到显示端。显示端为合成与现实系统,负责在终端设备如屏幕、VR/AR眼镜等合成虚拟视角并现实。
图2示出本申请又一可以适用的基于深度图的虚拟视角合成技术系统架构的示意图,该架构中包括采集端以及显示端。为了更加清楚示意本申请视频处理场景,图2示意的架构中的采集端包括:相机模组,同步盒,数据处理服务器以及数据收发模块。相机模组,例如摄像机、照相机等采集视频数据或图像数据后,在通过同步盒进行同步之后的采集数据输入到数据处理服务器进行处理(计算法向量信息,映射虚拟图、视图合成以及合成视图的后处理等)以得到合成视图或输出视图数据,数据收发模块将合成视图或输出视图数据发送至显示端,显示端包括:数据收发模块、客户端以及人脸跟踪相机模组,客户端设备(显示屏,头戴式眼镜等)实时显示虚拟视角图像,同时用户的视角信息通过人脸跟踪相机模组实时捕获并传回采集端。
需要说明的是,在实际应用时,数据处理服务器可以是本地服务器或者云端,或者可以将数据处理服务器中的参数上传到云端中,进行存储,以备实际应用时,直接从云端获取调整参数,调整数据处理服务器,其中,云端可以理解为云服务器等。
另外,采集端中的数据收发模块以及显示端中的数据收发模块之间可通过有线传输数据,还可通过无线传输数据,本申请在此不具体限定。此外,为了便于后续数据传输,可以将合成视图或输出视图数据压缩为码流保存,以便直接传输给其他设备。
图3示意了另一种基于深度图的虚拟视角合成技术系统架构示意图,采集端和显示端可以集成在一个系统模块中,且不只一个系统模块,系统模块之间可以进行数据(图像、参数、音频等数据)的传输。
此外,还要说明的是,如图4所示,虚拟视角合成技术系统架构可以应用于1)生成自由视角视频,支持用户从任意视角观看比赛或演出等;2)实现实时三维视频通话功能,为用户带来身临其境的通话体验;3)实时VR内容生成等,本申请在此不具体限定多媒体数据处理场景,这些场景也均可以应用在图1-3所示的系统架构中。
本申请中,“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。以及,除非有相反的说明,本申请实施例提及“第一”、“第二”等序数词是用于对多个对象进行区分,不用于限定多个对象的顺序、时序、优先级或者重要程度。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
现有虚拟视图技术主要包括:VSRS(View Synthesis Reference Software,VSRS)和RVS(Reference View Synthesis,RVS),为了便于对本申请实施例的理解,下面对这些技术进行简略介绍。
一、VSRS
MPEG组织推出的VSRS软件为一经典的基于深度图来合成虚拟视角的技术方案。
该方案的过程为:首先,该方案利用已知的相机参数(包括相机内参和外参),以及各个输入视角的深度图,由输入视角向虚拟合成视角进行映射(Warping),从而得到虚拟视角下的深度图以及输入视角与虚拟视图之间的像素映射关系;然后,利用该映射关系,将输入视角的纹理图(如RGB图)映射到虚拟视角,得到各输入视图(如纹理图、深度图等)对应的虚拟视图;最后,将所有的虚拟视图进行融合(Blending),融合系数通过虚拟视角与输入视角间的距离关系以及各输入视角的深度值计算得到,从而生成最终的合成视图。
二、RVS
VSRS采用基于“像素到像素”的方式由输入视图向虚拟视图映射,而RVS采用“三角面片到三角面片”的方式,将输入视图向虚拟视图进行映射。具体地,RVS对于输入视图的相邻像素(每三个相邻像素),结合各像素的深度信息,得到一系列三维空间中的三角面片,然后将所有的三角面片,利用输入视角和虚拟视角的参数信息,由输入视图向虚拟视图进行渲染投影,从而得到各输入视图对应的虚拟视图。RVS在视图融合(Blending)过程中采用高频和低频分离的方式。对于图像中的高频区域,采用赢者通吃的方式,挑选各输入视角对应的虚拟视图中最合适的输入视图对应的渲染值作为相应区域的合成结果;而对于图像中的低频区域,采用融合的方式,基于各三角面片投影到虚拟视图的形状和大小以及深度值,计算权重系数,从而对各个输入视图对应的虚拟视图进行融合。
图5是本申请实施例提供的虚拟视角合成的方法的一例,如图5所示,该方法100包括:
S110,获取目标场景的第一视点的纹理图、深度图和相机参数。
多个同步的相机模组拍摄目标场景或对象的纹理图和深度图,所述相机模组为RGBD相机或基于TOF、红外、视觉等采集设备。
需要说明的是,如图6所示,在离线过程对采集系统的各相机进行内外参标定。
S120,基于所述第一视点的深度图,获取法向量信息。
一种可能的实现方式,是仅根据任一视点的深度图获取法向量信息,此时法向量信息为所述任一视点所对应的法向量信息。
一种可能的实现方式,根据所有视点(包括所述第一视点)的深度图获取法向量信息,此时法向量信息为所有视点的法向量信息。
如图7所示,根据输入的深度图,将纹理图中的场景进行三角面片化,并计算各三角面片的法向量信息。其计算过程如下:
首先,将纹理图中相邻的4个像素以统一的方式划分为两个三角形,如图11所示,像素p00=(u00,v00),p01=(u01,v01),p10=(u10,v10),p11=(u11,v11)被划分为p00-p10-p11和p00-p01-p11两个三角形。
然后,根据公式1(其中u,v为像素水平、竖直坐标,fx,fy为水平、竖直方向的相机焦距,cx,cy为水平、竖直方向的光心坐标),对于每个三角形,根据相机参数和深度图中相应位置的深度值,可计算得到每个纹理图像素对应的三维点坐标。以三角形p00-p10-p11为例,其对应的三维空间中的三角面片坐标为P00-P10-P11,其中P00=(x00,y00,z00),P10=(x10,y10,z10),P11=(x11,y11,z11)。
最后,对于每个三维空间中的三角面片,计算该面片的法向量方向,以三角面片P00-P10-P11为例,根据公式2,可得其法向量n。
其中x为叉积操作
一种可能的实现方式,法向量还可由点云计算得到。具体地,首先,根据多个输入视图的深度图和各相机参数(包含相机内参和相机外参)得到三维空间的点云;然后,对点云上的每个点进行法向量求解。根据点云计算法向量的方法包括:Delaunay/Voronoibased methods,mollification based methods,基于回归的方法,基于统计学的方法,基于神经网络的方法和基于分割的方法等。
S130,根据所述法向量信息、所述深度图、所述纹理图和所述相机参数,得到所述第一视点的虚拟视图。
计算各输入相机视角到虚拟视角的视角转换关系;然后,根据视角转换关系,利用输入视角对应的深度图,将输入视角捕获的纹理图(如RGB图)向虚拟视图映射。
利用法向量信息来把背离相机的面片给筛选出来,然后使得把筛选出来的面片进行去除,在融合的过程中,利用法向量信息和虚拟视角之间的关系,对不同的投射到虚拟视角同样位置的不同输入视角的面片通过加权来融合。融合过程中的权重是基于各视角面片的法向量与虚拟视角的夹角关系来决定。
一种可能的实现方式,具体地,如对于输入视图(纹理图、深度图)中某三角面片的一个三维顶点P=(x,y,z),利用输入视角到虚拟视角的外参(旋转量R和平移量T),得到虚拟视角下的三维顶点P’=(x’,y’,z’)(如公式3所示);然后,利用虚拟相机参数(包括焦距f’x,f’y,光心c’x,c’y),得到该三角面片投影到虚拟视图的二维坐标值。这样,从输入视图到虚拟视图就建立了纹理图坐标的映射关系。
P'=R·P+T 公式3
在得到输入视图到虚拟视图的对应关系后,可利用法向量信息和深度信息,进行映射,得到输入视图对应的虚拟视图,其过程如下:
首先,为虚拟视图的每一像素点,筛选合适的三角面片进行投影。具体地,对于所有输入视图对应的所有三角面片,去除所有法向量方向背离虚拟视角的三角面片,仅利用剩余三角面片进行投影。
其次,根据公式5,计算每一个三角面片的投影质量系数Q(0<=Q<=1)。
Q=max(0,T-max(|p′11-p′00|,|p′01-p′11|,|p′00-p′01|))/T 公式5
其中p’为三角面片在虚拟视图中的投影的二维像素坐标,T为阈值系数(如可设为10)。只利用投影质量系数大于某一质量阈值(如0.5)的三角面片进行虚拟视图映射。
最后,利用所有符合1)和2)条件的三角面片从输入视图向虚拟视图投影(根据公式3和公式4)。对于虚拟视图的某一像素点,其被N个输入视图的三角面片的投影覆盖。若N=0,则该像素点为空白区域,将其设置固定背景像素值;若N=1,则该像素点被1个三角面片的投影覆盖,则直接利用该三角面片投影,并插值计算该像素点的像素值;若N>=2,则该像素点被多余1个三角面片的投影覆盖,比较所有三角面片投影带该像素点的深度值,将具有最小值的三角面片进行投影,并插值计算出该像素点的像素值。
S140,基于所述第一视点的虚拟视图,得到合成视图。
一种可能的实现方式,利用法向量信息,以及映射过程中的三角面片的质量信息,可以将输入视图对应的虚拟视图进行融合,其具体过程如下:
一种可能的实现方式,对于所有输入视图对应的虚拟视图,根据公式六(其中α为权重系数,可设为0.5,thresh_normal为法向量阈值系数,可设为0.2),利用虚拟视图每一像素点的深度值和质量系数进行像素值的融合。
其中/>
另一种可能的实现方式,利用法向量信息,以及映射过程中的三角面片和各相机(包括真实相机和虚拟相机)的位置信息,可根据公式七,对虚拟视图的每一像素点的像素值进行融合。
其中
其中Differenceangle代表各输入相机与虚拟相机之间在三角面片中心处P的角度差异(如下图2所示),Differencedistance代表各输入相机与虚拟相机之间在三角面片中心处P的距离差异(如下图3所示),Differencenormal代表各输入相机与虚拟相机在三角面片中心处P的法向量夹角差异,f1、f2、f3为三个差异项相应的权重,Threshangle、Threshdistance、Threshnormal为三个差异项相应的阈值。各差异项的含义如图8-10所示。图8中,α1,α2,α3和αv分别为相应(输入或虚拟)相机与点P的法向量(即PN方向)之间的夹角。图9中,β1,β2,β3分别为相应输入相机与虚拟相机之间在点P处的角度差异。图10中,Distance1,Distance2,Distance3分别为相应输入相机与虚拟相机之间在点P处的距离差异。
S150,基于所述合成视图进行后处理。
其中,S150步骤为可选步骤,该步骤中,根据输入视图向虚拟视图映射过程所得到的法向量信息,可对合成的虚拟视图添加光照、阴影的后处理。具体地,设置好光源位置、强度、颜色等信息,在映射过程中,利用三角面片原始颜色信息,计算环境光照值;利用三角面片的位置和光源的位置信息,计算漫反射光照值;利用三角面片的法向量信息、光源位置以及虚拟视角位置,计算镜面光照值,从而实现添加光照的效果。
一种可能的实现方式,考虑虚拟视角下每个面片反射光的强度,则需要知道虚拟视角面片的朝向和光源的位置,然后根据面片的法向量信息,光源位置和虚拟视角来确定光照强度。
下面将结合图7,详细描述本申请装置的实施例。应理解,方法实施例的描述与装置实施例的描述相互对应,因此,未详细描述的部分可以参见前面方法实施例。
图11是本申请实施例提供的一种基于深度图的虚拟视角合成装置600的示意性框图。该训练处理装置600可以通过软件、硬件或者两者的结合实现成为装置中的部分或者全部。
该虚拟视角合成装置600包括:获取模块610、确定模块620以及可选的更新模块630,其中:
获取模块610,用于获取目标场景的第一视点的纹理图、深度图和相机参数。
确定模块620,用于基于所述第一视点的深度图,获取法向量信息;根据所述法向量信息、所述深度图、所述纹理图和所述相机参数,得到第一视点的虚拟视图;基于所述第一视点的虚拟视图,得到合成视图。
更新模块630,用于基于所述法向量信息对所述合成视图进行后处理,得到输出视图。
在实际应用时,上述图11示意的虚拟视角合成装置600,可能还对应有另一虚拟视角合成装置,采用集成的单元的情况下,图12示出了本申请实施例中所涉及的另一虚拟视角合成装置的可能的示例性框图。如图12所示,虚拟视角合成装置700可以包括:收发单元701以及解码单元702。虚拟视角合成装置700具体各个单元之间如何连接在此不具体限定,可直接连接也可通过其他单元连接,还可能均位于同一处理器中,通过处理器中不同的芯片模组实现各个单元对应的功能,还可能位于不同的处理器中,通过不同的处理器来实现各个单元对应的功能,本申请在此不具体限定。
其中,收发单元701可用于接收多媒体数据流,如:图像/视频码流;解码单元702可用于对多媒体数据流进行处理得到合成视图或输出视图数据。本申请在此不具体限定解码单元702如何执行处理操作。
如图13所示,为本申请还提供的一种数据处理装置800。数据处理装置800可以是芯片或芯片系统。该数据处理装置可以位于上述任一方法实施例所涉及的设备中,例如图11中示例的虚拟视角合成装置或图12中示例的虚拟视角合成装置等,以执行该设备所对应的动作。
可选的,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
数据处理装置800包括处理器810,该处理器810中可用于实现图11中的确定模块620、更新模块630,还可用于实现上述附图12中的解码单元702,具体如何部署本申请在此不具体限定,各个单元的功能可均通过处理器810来实现,还可通过处理器来调用云端的服务器来实现,本申请在此不具体限定。
处理器810,用于执行存储器820中存储的计算机程序,以实现上述任一方法实施例中各个设备的动作。
虚拟视角合成装置800还可以包括存储器820,用于存储计算机程序,例如,图11中获取模块610、620、630采用的参数等,还可能是图12中解码单元702中的解码参数等,本申请在此不具体限定。
可选地,存储器820和处理器810之间耦合。耦合是装置、单元或模块之间的间接耦合或通信连接,可以是电性,机械或其它的形式,用于装置、单元或模块之间的信息交互。可选的,存储器820与处理器810集成在一起。
其中,处理器810和存储器820均可以为一个或多个,不予限制。
可选的,在实际应用中,数据处理装置800中可以包括收发器830,也可不包括收发器830,图中以虚线框来示意,数据处理装置800可以通过收发器830和其它设备进行信息交互。收发器830可以是电路、总线、收发器或者其它任意可以用于进行信息交互的装置。其中,收发器830可以用于实现图12中收发单元701接收多媒体数据流的功能。
本申请实施例中不限定上述收发器830、处理器810以及存储器820之间的具体连接介质。本申请实施例在图13中以存储器820、处理器810以及收发器830之间通过总线连接,总线在图13中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。在本申请实施例中,处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实施或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
在本申请实施例中,存储器可以是非易失性存储器,比如硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)等,还可以是易失性存储器(volatilememory),例如随机存取存储器(random-access memory,RAM)。存储器还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器还可以是电路或者其它任意能够实施存储功能的装置,用于存储计算机程序、程序指令和/或数据。
基于以上实施例,参见图14,本申请实施例还提供另一种数据处理装置900,包括:接口电路910和逻辑电路920;接口电路910,可以理解为输入输出接口,可用于执行上述任一方法实施例中各个设备的收发步骤,其中,接口电路910相当于用于实现上述图12中的收单单元701,用于接收到多媒体数据流;逻辑电路920可用于运行代码或指令以执行上述任一实施例中各个设备执行的方法,其中,逻辑电路920相当于用于实现上述图11中的获取模块610、确定模块620、更新模块630的功能,或者实现上述图12中解码单元702的功能,不再赘述。
基于以上实施例,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有指令,当所述指令被执行时,使上述任一方法实施例中各个设备执行的方法被实施,例如,使得图5所示实施例中电子设备执行的方法被实施。该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
基于以上实施例,本申请实施例提供一种数据处理系统,该数据系统包括上述任一方法实施例中提及的数据处理装置,可用于执行上述任一方法实施例中各个设备执行的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理装置的处理器以产生一个机器,使得通过计算机或其他可编程数据处理装置的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程图像处理装置上,使得在计算机或其他可编程装置上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程装置上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (16)
1.一种基于深度图的虚拟视角合成方法,其特征在于,包括:
获取目标场景的第一视点的纹理图、深度图和相机参数;
基于所述第一视点的深度图,获取法向量信息;
根据所述法向量信息、所述深度图、所述纹理图和所述相机参数,得到所述第一视点的虚拟视图;
基于所述第一视点的虚拟视图,得到合成视图。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一视点的深度图,获取法向量信息,包括:
仅根据所述第一视点的深度图获得所述法向量信息;或
根据所述第一视点深度图和除所述第一视点外的其他所有视点的深度图获得所述法向量信息。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述法向量信息、所述深度图、所述纹理图和所述相机参数,得到所述第一视点的虚拟视图,包括:
利用所述深度图、所述法向量和所述相机参数,将所述纹理图进行映射以得到所述第一视点的虚拟视图。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于所述第一视点的虚拟视图,得到合成视图,包括:
基于所述第一视点的虚拟视图、除所述第一视点外的其他所有视点的虚拟视图以及所述法向量信息,得到所述合成视图。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述映射的中间量信息,得到所述合成视图。
6.根据权利要求1-5中任一项所述的方法,其特征在于,基于所述法向量信息对所述第一视点的虚拟视图、所述其他所有视点的虚拟视图进行加权处理得到所述合成视图。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
基于所述法向量信息对所述合成视图进行后处理,得到输出视图。
8.一种基于深度图的虚拟视角合成装置,其特征在于,包括:
获得模块,用于获取目标场景的第一视点的纹理图、深度图和相机参数;
确定模块,用于基于所述第一视点的深度图,获取法向量信息;根据所述法向量信息、所述深度图、所述纹理图和所述相机参数,得到所述第一视点的虚拟视图;基于所述第一视点的虚拟视图,得到合成视图。
9.根据权利要求8中所述的装置,其特征在于,所述基于所述第一视点的深度图,获取法向量信息,包括:
仅根据所述第一视点的深度图获得所述法向量信息;或
根据所述第一视点深度图和除所述第一视点外的其他所有视点的深度图获得所述法向量信息。
10.根据权利要求8或9所述的装置,其特征在于,所述根据所述法向量信息、所述深度图、所述纹理图和所述相机参数,得到所述第一视点的虚拟视图,包括:
利用所述深度图、所述法向量和所述相机参数,将所述纹理图进行映射以得到所述第一视点的虚拟视图。
11.根据权利要求8-10中任一项所述的装置,其特征在于,所述基于所述第一视点的虚拟视图,得到合成视图,包括:
基于所述第一视点的虚拟视图、除所述第一视点外的其他所有视点的虚拟视图以及所述法向量信息,得到所述合成视图。
12.根据权利要求11所述的装置,其特征在于,还包括:
基于所述映射的中间量信息,得到所述合成视图。
13.根据权利要求8-12中任一项所述的装置,其特征在于,基于所述法向量信息对所述第一视点的虚拟视图、所述其他所有视点的虚拟视图进行加权处理得到所述合成视图。
14.根据权利要求8-13中任一项所述的装置,其特征在于,还包括:
更新模块,用于基于所述法向量信息对所述合成视图进行后处理,得到输出视图。
15.一种计算机设备,其特征在于,包括:处理器和存储器,所述存储器用于存储程序,所述处理器用于从存储器中调用并运行所述程序以执行权利要求1至14中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,包括计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行权利要求1至14中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210767235.8A CN117376540A (zh) | 2022-06-30 | 2022-06-30 | 一种基于深度图的虚拟视角合成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210767235.8A CN117376540A (zh) | 2022-06-30 | 2022-06-30 | 一种基于深度图的虚拟视角合成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117376540A true CN117376540A (zh) | 2024-01-09 |
Family
ID=89395169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210767235.8A Pending CN117376540A (zh) | 2022-06-30 | 2022-06-30 | 一种基于深度图的虚拟视角合成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117376540A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953165A (zh) * | 2024-03-26 | 2024-04-30 | 合肥工业大学 | 基于神经辐射场的人脸新视图合成方法和系统 |
-
2022
- 2022-06-30 CN CN202210767235.8A patent/CN117376540A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953165A (zh) * | 2024-03-26 | 2024-04-30 | 合肥工业大学 | 基于神经辐射场的人脸新视图合成方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10600233B2 (en) | Parameterizing 3D scenes for volumetric viewing | |
US11210838B2 (en) | Fusing, texturing, and rendering views of dynamic three-dimensional models | |
CN106375748B (zh) | 立体虚拟现实全景视图拼接方法、装置及电子设备 | |
CN110675506B (zh) | 实现多路视频融合的三维增强现实的系统、方法及设备 | |
JP7277372B2 (ja) | 三次元モデル符号化装置、三次元モデル復号装置、三次元モデル符号化方法、および、三次元モデル復号方法 | |
CN108648257B (zh) | 全景画面的获取方法、装置、存储介质及电子装置 | |
JP7007348B2 (ja) | 画像処理装置 | |
US20130321396A1 (en) | Multi-input free viewpoint video processing pipeline | |
JP2010045776A (ja) | 映像レンダリングの方法およびシステム、そのためのコンピュータプログラム製品 | |
US11503267B2 (en) | Image processing device, content processing device, content processing system, and image processing method | |
TW201921921A (zh) | 基於紋理圖與網格之3d影像資訊的處理 | |
JP7191079B2 (ja) | シーンのタイル化3次元画像表現を生成する装置及び方法 | |
EP3396635A2 (en) | A method and technical equipment for encoding media content | |
CN112738495B (zh) | 虚拟视点图像生成方法、系统、电子设备及存储介质 | |
CN110869980A (zh) | 用于将内容分发和呈现为球形视频和3d资产组合的系统和方法 | |
WO2019198501A1 (ja) | 画像処理装置、画像処理方法、プログラム、および画像伝送システム | |
JP6965439B2 (ja) | 基準画像生成装置、表示画像生成装置、基準画像生成方法、および表示画像生成方法 | |
JPH11175762A (ja) | 光環境計測装置とそれを利用した仮想画像への陰影付与装置及び方法 | |
CN114051734A (zh) | 一种解码三维场景的方法和装置 | |
CN117376540A (zh) | 一种基于深度图的虚拟视角合成方法和装置 | |
WO2022024780A1 (ja) | 情報処理装置、情報処理方法、映像配信方法及び情報処理システム | |
CN118196135A (zh) | 图像处理方法、装置、存储介质、设备及程序产品 | |
EP3564905A1 (en) | Conversion of a volumetric object in a 3d scene into a simpler representation model | |
JP2014164497A (ja) | 画像処理装置、画像処理方法及びプログラム | |
Alain et al. | Introduction to immersive video technologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |