CN117999787A - 多视图视频数据的呈现 - Google Patents
多视图视频数据的呈现 Download PDFInfo
- Publication number
- CN117999787A CN117999787A CN202280064307.0A CN202280064307A CN117999787A CN 117999787 A CN117999787 A CN 117999787A CN 202280064307 A CN202280064307 A CN 202280064307A CN 117999787 A CN117999787 A CN 117999787A
- Authority
- CN
- China
- Prior art keywords
- source view
- source
- sequence
- images
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000009877 rendering Methods 0.000 claims abstract description 10
- 230000008859 change Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000004091 panning Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/139—Format conversion, e.g. of frame-rate or size
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/189—Recording image signals; Reproducing recorded image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/587—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
一种用于呈现场景的多视图视频数据的方法。所述方法包括:以源视图帧速率获得所述场景的一个或多个源视图图像序列;并且以源视图深度帧速率获得所述场景的一个或多个源视图深度分量序列。所述源视图深度帧速率低于所述源视图图像帧速率。获得在源视图回放模式与内插回放模式之间的选择,其中,如果选择所述内插回放模式,则基于来自所述源视图图像序列中的一个或多个源视图图像序列的一幅或多幅源视图图像并基于来自至少一个源视图深度分量序列的一个或多个对应的源视图深度分量来生成所述场景的内插图像。将所述内插图像输出到显示器。如果选择所述源视图回放模式,则将源视图图像序列输出到所述显示器。
Description
技术领域
本发明涉及多视图视频数据的呈现。特别地,本发明涉及使用相对较低的计算资源来呈现多视图视频数据。
背景领域
多相机视频捕捉和视点内插允许诸如增强现实(AR)和虚拟现实(VR)之类的应用。通常会尽可能快地执行必要的计算(例如,校准、深度估计和视图合成),以便实现将事件实况流传输到具有交互式3D环视效果的AR/VR头显和手机。
然而,就带宽和计算基础设施而言,对许多(例如>8个)相机同时进行实时深度估计目前非常昂贵。因此,基于多视角视频数据的应用很难进入市场。
US2010/045678A1公开了通过基于对一组捕捉点的选择而捕捉一组图像来捕捉图像数据,其中,至少一些捕捉点以基本恒定或基本平滑变化的平均密度分布在第一二维区域上。
发明内容
本发明由权利要求来限定。
根据本发明的一个方面的示例,提供了一种用于呈现场景的多视图视频数据的方法,所述方法包括:
以源视图帧速率获得所述场景的一个或多个源视图图像序列;
以源视图深度帧速率获得所述场景的一个或多个源视图深度分量序列,其中,所述源视图深度帧速率低于所述源视图图像帧速率;并且
获得在源视图回放模式与内插回放模式之间的选择,其中,所述方法还包括:
如果选择所述内插回放模式,则执行以下操作:
基于来自所述源视图图像序列中的一个或多个源视图图像序列的一幅或多幅源视图图像并基于来自至少一个源视图深度分量序列的一个或多个对应的源视图深度分量来生成所述场景的内插图像;并且
将所述内插图像输出到显示器,并且
如果选择所述源视图回放模式,则将源视图图像序列输出到所述显示器。
由于生成多视图视频需要源视图(纹理)图像和源视图深度分量(即,深度分量),因此多视图视频生成常常需要处理和/或传输大量数据。与源视图图像序列相比以更低的帧速率获得深度分量序列使得能够减少生成深度分量和/或传输深度分量所需的处理资源。
源视图图像序列可以是场景的一个或多个常规二维视频。源视图图像序列中的至少两个源视图图像序列可以从不同的相机获得,其中,相机在场景中具有不同的位置(即,姿态)。源帧速率是获得源视图图像序列的图像的速率(即,每秒获得多少幅图像)。帧速率可以被确定为相继的帧之间的时间间隔的倒数。也就是说,如果时间间隔为Δt,则帧速率能够被确定为1/Δt。较高的帧速率与较短的帧间间隔相关联;较低的帧速率与较长的帧间间隔相关联。
深度分量序列可以是基于深度帧速率在时间上分离的场景的深度图序列。深度图可以通过例如对来自源视图图像序列的源视图图像对执行深度估计来获得。深度帧速率是获得深度分量的速率(例如,每秒获得多少幅深度图)。深度帧速率可以是恒定的(例如,1fps)或可变的(例如,基于场景中是否有重要事件发生)。
获得深度分量序列可以包括获得深度视频,其中,深度视频是场景的深度分量序列,每个深度分量是在不同时间获得的。换句话说,深度视频等同于视频,但是深度视频的每一帧都是深度分量而不是图像。
深度分量和源视图图像可以具有与它们被拍摄的时间相对应的时间戳。
源视图图像序列可以是源视频,其中,每幅源视图图像是源视频的一帧。与源视图图像相对应的深度分量是在源视图图像的预定义时间内获得的深度分量,其中,预定义时间由深度帧速率和/或源视图帧速率来定义。例如,与源视图图像相对应的深度分量可以是在与源视图图像的获得时间相似的时间获得的深度分量,其中,深度分量的时间戳与源分量的时间戳之间的时间差小于例如1/dfr(其中,dfr是深度帧速率)或1/sfr(其中,sfr是源帧速率)。
可以基于目标视点来生成内插图像。每幅源视图图像和深度分量可以分别对应于源视点和深度视点。内插图像的生成可以基于所有最新源视图图像和所有对应的深度分量。替代地,在选择使用哪幅源视图图像和哪些深度分量时,可以考虑源视点和深度视点。
例如,可以基于与目标视点的姿态接近度对源视点和深度视点进行排名,并且多个排名靠前的(即,最接近的)视点可以用于生成内插图像。
对源视图回放模式或内插回放模式的选择可以由用户、控制器来完成或者(例如通过使用事件检测算法)自动完成。
选择源视图回放模式将输出源视图图像序列中的一幅源视图图像(或者多幅源视图图像,例如两个屏幕)。用户能够从(一个或多个)源视频中选择他们想要观看的内容(即,在源视图回放模式中输出哪些源视频)。用户能够在回放期间在源视图图像序列之间切换,以便切换视点。
选择内插回放模式将输出场景的内插图像(例如,沉浸式视频的帧)。内插图像是基于源视图和深度分量获得的(例如,生成和渲染6DoF多视图数据),并且可以使得用户能够以源视图图像序列之间的视点虚拟地在场景周围移动。
所述方法还可以包括:将所述源视图图像序列中的一个或多个源视图图像序列至少缓存中间时间段,其中,所述中间时间段至少是最新可用的源视图图像与用于生成内插图像的所述源视图深度分量之间的时间差。
如果所述选择从所述内插回放模式改变为所述源视图回放模式,则所述方法还包括:基于所述内插图像的目标视点和所述源视图图像序列中的每一幅源视图图像的源视点来从所述源视图图像序列中选择最接近的视图图像序列;输出与所述最接近的视图图像序列相对应的缓存的图像序列;并且在输出所述缓存的图像序列之后,输出所述最接近的视图图像序列。
缓存是将数据存储在高速缓冲存储器中的过程。高速缓冲存储器是一个临时存储区域。中间时间段至少与源视图图像序列中的最新可用的图像与深度分量序列中的最新可用的深度分量之间的时间段一样长。
每个源视图图像序列可以具有由用于获得该序列的相机定义的对应视点。然而,与内插图像相对应的目标视点由在特定时间观看的场景区域来定义。
例如,如果使用较早的深度分量来生成内插图像,则中间时间段可能比最新可用的源视图图像与深度分量之间的时间差更长。中间时间段可以是最新可用的源视图图像与用于生成最新内插图像的最新深度分量之间的时间差。
最接近的视频(即,最接近的图像序列)是其视点最接近6DoF视频中的用户的当前视点的源视频。与最接近的视频相对应的缓存的源视频可以以加速的帧速率输出,其中,帧间时间已经减少了(例如从30fps到60fps)。可以示出加速版本,直到用户已经赶上了源视频的最新可用的帧为止。
源视图图像序列可以以降低的帧速率缓存,其中,降低的帧速率低于源帧速率。
所述方法还可以包括:在事件时间时获得对事件的指示;并且基于所述选择从所述内插回放模式改变为所述源视图回放模式来输出所述源视图图像序列中的从在所述事件时间之前拍摄的源视图图像开始的一幅源视图图像。
例如,在播放足球比赛期间,可能会出现进球。进球(即,事件)可以由控制器或自动事件检测算法来指示。事件时间是进球(即,事件)发生时的时间。因此,当改变为源视图回放模式时,用户能够看到进球发生,即使它发生在切换到源视图回放模式之前也是如此。
所述源视图帧速率可以至少为20帧/秒,即,20fps,并且其中,所述源视图深度帧速率可以至多为10fps。优选地,源帧速率至少为30fps。更优选地,源帧速率是50fps或60fps。
在一些实例中,深度帧速率可能低至1fps或更低。深度帧速率将可能取决于(例如,在服务器、用户设备或这两者的组合处的)可用于生成深度视频的处理能力。
所述方法还可以包括:接收所述内插图像的目标视点;基于所述目标视点来识别一个或多个最接近的源视图图像序列;并且识别与所述最接近的源视图图像序列相对应的最新可用的源视图深度分量,其中,生成所述场景的所述内插图像基于所述最接近的源视图图像序列和所识别的源视图深度分量。
例如,在一些实例中,最新可用的深度分量可能仅包括半个场景。这可能是因为最新深度分量仅包括半个场景的深度信息。如果处理系统不能在深度帧速率给定的时间内生成所有可能的深度图,就可能发生这种情况。因此,先前的(较早的)深度分量(具有必要的场景部分)能够用于生成和输出第二内插图像,使得用户能够在内插图像中观看到整个场景,即使它晚了一帧(或多帧)也是如此。
最接近的源视图图像序列可以基于该序列中在该场景内具有与目标视点相似的姿态的源视点来识别。目标视点可以由在该场景中具有虚拟姿态(位置和取向)的虚拟相机来定义。类似地,源视点至少部分由该场景中的相机的位置来定义。因此,能够基于具有与目标视点的姿态最相似的姿态的相机来识别最接近的序列。
在一些情况下,所有可用的源视图图像都可以用于内插图像的合成,其中,每幅源视图图像可以根据光线角度差和其他度量得到不同的加权。
接收所述源视图图像序列可以包括:接收包括缩放的源视图图像序列的编码图集,其中,所述缩放的源视图图像序列具有比所述源视图图像序列低的像素分辨率;对所述编码图集进行解码;并且对所述缩放的源视图图像序列执行逆缩放,从而获得所述源视图图像序列。
对于源视图图像序列进行缩放将减少需要存储/传输源视图图像序列的数据量。
可以使用逆缩放算法将经缩放的源视频恢复为全分辨率源视频。
所述缩放的源视图图像序列可以包括非均匀缩放的源图像,并且所述非均匀缩放的源图像可以包括所述非均匀缩放的源图像中的一个或多个区域,所述一个或多个区域的缩放与所述非均匀缩放的源图像的其余部分的缩放不同。
对图像序列中的图像的一个或多个部分的缩放可以不同于对图像的其他部分的缩放。例如,图像序列中“不太重要”的部分(例如,播放的足球比赛中的人群)可以被下缩放,使得它们比其他部分(例如,足球比赛的运动员和场地)具有更少的像素。
缩放可以包括下采样、压缩或抽样。一般来说,缩放包括数据的减少。例如,对源视图图像的区域进行缩放可以包括降低所述区域的像素密度。
在一些示例中,非均匀缩放的源视图图像可以包括:在至少一个维度上更大程度地下采样的第一部分,以及在至少一个维度上更小程度地下采样的第二部分。所述至少一个维度可以是垂直维度。第一部分和第二部分可以是垂直相邻的部分。
获得所述源视图深度分量序列可以包括以下各项中的一项:从服务器、编码器和/或捕捉系统接收所述源视图深度分量序列;或者对所述源视图图像中的两幅或更多幅源视图图像执行深度估计。
替代地,获得所述源视图深度分量序列可以包括:从服务器、编码器和/或捕捉系统接收一个或多个部分源视图深度分量序列;并且基于所述部分源视图深度分量序列来生成所述源视图深度分量序列并对所述源视图图像中的两幅或更多幅源视图图像执行深度估计。
部分深度分量可以包括仅场景的部分的深度信息或相对较低的分辨率的深度信息。然后,通过例如客户端设备对源视图图像执行深度估计并将接收到的部分深度分量和深度估计的输出进行组合,能够将部分深度分量转换成全分辨率深度分量。
如果所述选择从所述内插回放模式改变为所述源视图回放模式,则所述方法还可以包括:基于所述内插图像的目标视点和所述源视图图像序列中的每一幅源视图图像的源视点来从所述源视图图像序列中选择最接近的视图图像序列;对所述最接近的视图图像序列的所述源视图图像进行缩放,从而使所述源视图图像中的所述场景的比例与所述内插图像中的所述场景的比例大致相同;并且输出所述最接近的视图图像序列的经缩放的源视图图像。
当从内插回放模式切换回源视图回放模式时,临时示出最接近的源视图序列的源视图图像的缩放(例如,放大或缩小)版本可能是有利的。例如,考虑到一种情况,其中,观看者在内插回放模式中将虚拟(目标)相机向前平移到场景中。切换回源视图回放模式将引起突然的视觉变化,因为它将被视为虚拟相机突然平移回源视点。因此,源视图图像能够被缩放,使得当切换模式时,以相似的大小和比例(例如,在20%的缩放范围内)将场景中的对象呈现给用户。
对源视图图像进行缩放可以包括确定图像缩放因子,所述图像缩放因子当被应用于源视图图像时将产生包含与在内插回放模式中的当前虚拟视点相比具有大致相同尺度(但不是透视)的对象的图像。然后,可以将经缩放的图像逐渐缩放回原始源视图图像。
如果在内插回放模式中用户已经“向后移动”,则对源视图图像进行下缩放以使场景的比例在切换模式时保持相似可能是有利的。在一些情况下,这可能意味着输出在边缘周围有黑色部分的在视觉上较小的图像。然而,这可能会阻止虚拟相机在切换模式时突然“放大”。
输出经缩放的源视图图像可以有利地与输出缓存的视频的加速版本相结合,使得当从内插模式切换到源视图模式时输出源视图视频的加速和缩放版本。
如果选择从所述源视图回放模式改变为所述内插回放模式,则生成所述内插图像可以包括:识别所输出的源视图图像序列在所述源视图回放模式中的缩放水平;并且以目标视点生成所述内插图像,其中,所述目标视点基于所输出的源视图图像序列的源视图视点和所述缩放水平。
所述方法还可以包括确定所述目标视点。可以通过选择与源视图视点完全相同的虚拟相机的初始视点并选择虚拟相机的焦距来确定目标视点,使得目标视点中的对象在所选择的焦距下与源视图图像中的对象成比例地看起来大致相同。例如,虚拟相机的焦距可以与对应于源视图图像的焦距相同或几乎相同。
任选地,通过在深度方向上平移初始视点来确定目标视点,使得内插图像中的前景对象与所输出的经缩放的源视图图像中的相同前景对象具有大致相同的比例。
缩放水平可以是缩放的百分比。
可以基于对象的深度(例如,根据深度分量而测量的深度)来确定平移。
前景对象是任何不是背景对象的对象,并且可以例如基于对象检测算法、深度阈值等来确定。
深度方向可以是垂直于相机的传感器(或虚拟相机的虚拟传感器)的方向。深度方向可以由相机(或虚拟相机)的取向来定义。
本发明还提供了一种包括计算机程序代码的计算机程序产品,所述计算机程序代码当在具有处理系统的计算设备上被运行时使所述处理系统执行用于呈现场景的多视图视频数据的方法的所有步骤。
本发明还提供了一种用于呈现场景的多视图视频数据的解码器系统,所述系统包括处理系统,所述处理系统被配置为:
以源视图帧速率获得所述场景的一个或多个源视图图像序列;
以源视图深度帧速率获得所述场景的一个或多个源视图深度分量序列,其中,所述源视图深度帧速率低于所述源视图图像帧速率;并且
获得在源视图回放模式与内插回放模式之间的选择,其中,所述处理系统还被配置为:
如果选择所述内插回放模式,则执行以下操作:
基于来自所述源视图图像序列中的一个或多个源视图图像序列的一幅或多幅源视图图像并基于来自至少一个源视图深度分量序列的一个或多个对应的源视图深度分量来生成所述场景的内插图像;并且
将所述内插图像输出到显示器,并且
如果选择所述源视图回放模式,则将源视图图像序列输出到所述显示器。
所述源视图帧速率可以至少为20帧/秒,即,20fps,并且其中,所述源视图深度帧速率可以至多为10fps。
所述处理系统还可以被配置为:接收所述内插图像的目标视点;基于所述目标视点来识别一个或多个最接近的源视图图像序列;并且识别与所述最接近的源视图图像序列相对应的最新可用的源视图深度分量,其中,生成所述场景的所述内插图像基于所述最接近的源视图图像序列和所识别的源视图深度分量。
参考下文描述的(一个或多个)实施例,本发明的这些方面和其他方面将变得明显。
附图说明
为了更好地理解本发明并且更清楚地示出如何将本发明付诸实践,现在将仅以示例的方式参考附图,在附图中:
图1图示了在不同时间能够从哪些姿态观看场景;并且
图2示出了用于观看多视图视频数据的方法。
具体实施方式
将参考附图来描述本发明。
应当理解,详细描述和具体示例虽然指示装置、系统和方法的示例性实施例,但是这仅用于说明的目的而并不旨在限制本发明的范围。根据以下描述、所附权利要求和附图将更好地理解本发明的装置、系统和方法的这些和其他特征、方面和优点。应当理解,这些附图仅仅是示意性的并且不是按比例绘制的。还应当理解,贯穿整个附图使用相同的附图标记来指示相同或相似的部分。
本发明是一种用于呈现场景的多视图视频数据的方法。所述方法包括:以源视图帧速率获得所述场景的一个或多个源视图图像序列;并且以源视图深度帧速率获得所述场景的一个或多个源视图深度分量序列。所述源视图深度帧速率低于所述源视图图像帧速率。获得在源视图回放模式与内插回放模式之间的选择,其中,如果选择所述内插回放模式,则基于来自所述源视图图像序列中的一个或多个源视图图像序列的一幅或多幅源视图图像并基于来自至少一个源视图深度分量序列的一个或多个对应的源视图深度分量来生成所述场景的内插图像。将所述内插图像输出到显示器。如果选择所述源视图回放模式,则将源视图图像序列输出到所述显示器。
图1图示了在不同时间能够从哪些姿态观看场景。图1示出了相对于x轴上的场景和y轴上的时间具有不同姿态的曲线图。在这个图示中,假设使用五个相机来获得场景的源视图图像序列,每个相机对应于场景中的不同姿态(因此不同视点)。点102示出了来自每个相机的最新可用的源视图图像(即,来自每个相机的源视频的最新可用帧)。粗线104示出了基于当时可用的深度数据(即,深度分量)可以生成内插图像的姿态/视点。
源视图图像序列可以是源视频。内插图像是基于源视图图像和深度分量生成的场景图像。换句话说,内插图像不是由传感器(例如,相机)捕捉的,而是基于场景的纹理和深度数据而构建/估计的。
实时观察(从左起)第三源视频的观看者可以在捕捉源视频的离散姿态的源视频(如点102所示)之间切换。当观看者想要看到场景的内插图像时,选择特定姿态/视点的、已经完成了深度处理(即,深度分量可用)的最接近的时刻(例如,t3)。
观察者能够平滑地“移动”通过与粗线104相对应的视点。对于接近的时刻(例如,t3),由于有限的处理资源(例如用于深度估计),深度分量可能仅部分可用,因此时间t3时的粗线104仅包含第二、第三和第四相机之间的视点。在这种情况下,如果观看者在时间t3时“移动”到不包括在粗线104中的目标视点(例如,第一相机与第二相机之间的视点),则处理系统可以“跳转”到能够为目标视点生成内插图像的、在时间上更早的不同时刻(例如,时间t2)。
当观看者想要从静止内插图像切换回源视图视频时,可以选择与最接近的对应视点最靠近的视频锚。因此,输出图像将看起来“对齐”到最接近的源视频锚的视点,但也可能及时跳转到最接近的源视频的当前时间。可以通过(例如以较低的帧速率)缓存每个源视频的视频来避免时间上的跳转,并且当切换回源视图回放模式时,输出缓存的视频的加速版本,使得它将赶上例如实况流(即,它将赶上点102处的最新可用帧)。
(例如在编码器系统处)用于生成深度分量的深度估计可以以固定的频率/帧速率(例如,0.1、0.5、1Hz)进行,所述固定的频率/帧速率取决于可用的计算资源。替代地,深度分量可以具有可变的频率/帧速率,所述可变的频率/帧速率可以取决于例如场景中发生的重要事件。典型地,深度分量将是深度图或深度图像。通常,深度分量包含场景中的对象的深度的信息。深度分量可以包括相对于场景中的特定姿态(即,位置和取向)(例如,深度传感器或用于估计深度分量的相机的姿态)的深度数据。
捕捉系统可以捕捉场景的源视频。捕捉系统还可以根据源视频来生成深度分量,或者替代地,捕捉系统还可以根据场景的捕捉的深度数据来生成深度分量。捕捉系统然后可以将源视频和(较低频率的)深度分量传输给客户端系统(即,解码器系统)。客户端系统然后可以生成内插图像。
可以(例如使用算法)自动检测场景中的某些重要事件,也可以由操作者手动触发场景中的某些重要事件。当从源回放模式切换到内插回放模式时,这些重要事件可以获得更高的优先级。例如,当触发事件在例如少于5秒的时移内可用时,客户端系统可以切换到该时刻,但是在时间上可能存在源自固定时间采样的更接近的可用时刻。
为了允许源视图视频之间的有效切换,捕捉系统可以预处理(例如,解除扭曲、纠正、打包和缩放)源视图视频。例如,可以将八个源视图视频一起打包在30Hz或50Hz的单个4K视频帧中。然后,客户端系统可以对经打包的视频进行解码,并且根据目标视点从视频图集中选择正确的图块并将其显示在屏幕上。
有效的视频打包有利于客户端系统进行快速、低延迟的源视图切换,从而能够在流式传输期间即时取回不同的源视频。这可以通过将多个源视频打包到单个视频帧(例如,4K)中来实现。额外的缩放能够有助于将更多视图打包到单个视频帧中。例如,对于水平运动捕捉设置,相机视图的中间区域(垂直方向)最为重要。因此,例如,非线性缩放器可以通过将图像顶部和底部的分辨率降低到1/2以下来将源视图图像的垂直像素数量减半,但是保持源视图图像中心(动作发生的地方)的分辨率不变。这种非线性缩放允许例如将八个2K视频帧打包到单个4K视频帧中。解码后,客户端系统能够对相关视点进行解包,然后还执行逆缩放以重建目标视点。这最后一步通常在解码后发生在图形处理单元(GPU)上。
如前所述,深度分量可以由捕捉系统生成。在这种场景中,捕捉系统以给定的频率存储源视图图像,根据源视图图像来估计深度分量,并且将深度分量(具有对应的元数据,例如,相关联的视频帧)发送到服务器或直接发送到客户端系统。客户端系统接收元数据并且取回经打包的原始视频和深度分量。客户端系统对源视图视频进行解码并且提取接收到其深度分量的视频帧。当切换到内插模式时,使用所存储的视频帧和深度分量来进行内插图像的新视图合成。
替代地,深度分量可以由服务器生成,其中,捕捉系统将源视图图像发送给服务器,并且服务器将源视图图像和深度分量发送给客户端系统。
深度分量也可以由客户端系统生成。当客户端系统将所选择的源视频呈现给显示器时,客户端系统可以同时计算所选择的时刻的深度分量。客户端系统一切换到内插模式,就可以使用最新完成的深度分量来进行内插视图的视图合成。
深度分量的生成也可以分布在客户端系统、捕捉系统和/或服务器之间。例如,在客户端系统包括具有相对较高处理资源的高端设备的情况下,可以在客户端系统处生成额外的深度分量,以将更多时刻添加到可从捕捉系统和/或服务器获得的时刻中。
在另一场景中,服务器可以在许多时间间隔处生成低分辨率的部分深度分量,然后客户端系统可以使用部分深度图作为起始点并且应用(有限)次数的迭代来生成最终的深度分量。
一些捕捉系统(或服务器)执行相机装备外部参数校准和场景拟合(例如,拟合地面和背景)。然后可以将经拟合的场景数据(例如,平面方程)传递给客户端系统,使得客户端系统能够(例如使用深度渲染着色器)计算深度分量。
总之,通过以比源视图视频的情况低得多的时间频率(即,帧速率)计算深度,多视图视频的实时深度估计的负担得以减轻。建议以获得源视频时的原始帧速率传输源视频。客户端系统然后可以选择以下两种模式之一:源视图回放模式,其用于观看源视频并且在这些源视频之间进行交互切换;以及内插回放模式,其在源视图之间,但是用于预定的(固定的)时刻。
图2示出了用于观看多视图视频数据的方法。在步骤202中,以源视图帧速率(即,源帧速率)获得源视图图像。在步骤204中,以源视图深度帧速率(即,深度帧速率)获得源视图深度分量(即,深度分量)。然后,输出到显示器的图像可以取决于所选择的回放模式。
如果选择内插回放模式(即,内插模式),则在步骤206中生成(在目标视点处的)内插图像,并且在步骤208中将该内插图形输出到显示器。
如果选择源视图回放模式(即,源视图模式),则该方法遵循虚线,并且在步骤210中显示源视图图像序列(即,显示源视频)。
本领域技术人员将能够容易地开发出用于执行本文描述的任何方法的处理系统。因此,流程图的每个步骤都可以表示由处理系统执行的不同动作,并且可以由处理系统的相应模块来执行。
用户能够(以内插模式)在虚拟3D场景中导航,并且基于由虚拟3D场景中的用户的姿态定义的目标视点来合成所生成的内插图像。可以限制在3D场景中的移动(例如,限制在虚拟3D场景的特定体积中的移动)。
例如,用户可以通过使用智能手机上的应用程序在虚拟3D场景中导航。触摸控制可以允许用户在虚拟3D场景中移动(即,在3D场景中平移和/或旋转虚拟相机)。该应用程序可以允许用户(从预先选择的姿态列表中)选择离散的姿态,或者该应用程序可以允许用户使用控件(例如,触摸控制)来改变(虚拟相机的)姿态。
左右滑动可以围绕虚拟3D场景水平旋转虚拟相机,而长时间触摸可以沿着光轴(即,深度方向)向前平移虚拟相机。
如果在源视图模式中,源视图被扩大/缩放(放大),这实质上相当于创建一个焦距比原始相机(其获得输出序列)更长的虚拟相机。当然,与原始源视图图像相比,放大的源视图图像将具有降低的分辨率。
当从放大的序列改变为内插模式时,可以(例如通过选择与获得源视图图像的相机具有相似姿态且具有更长焦距的虚拟相机)生成“放大”的内插图像。这实质上相当于在内插模式中改变虚拟相机的镜头。
然而,在内插模式中,(在深度方向上)向前平移而不是缩放图像对用户来说可能更自然。这类似于视频游戏中的平移方式。向前平移到场景中具有与放大类似的功能(即,扩大对象)。
当切换到内插视图时,可能需要确定虚拟相机的姿态。虚拟相机的起始姿态可以基于输出其最新源视图图像的相机的姿态。起始姿态的取向可以是源视图相机的取向。选择起始姿态的初始平移(即,虚拟3D场景中的3D坐标)可以基于场景中的前景对象的深度。
基于远处背景的尺寸相似性来选择虚拟相机平移可能并不是合适的解决方案。虚拟相机将看起来飞过所有相关的前景对象,直到背景具有与经放大的源视图图像中的外观尺寸相似的外观尺寸为止。
一种解决方案可以是选择一个或多个(例如靠近源视图图像的中心的)前景对象并且使用一个或多个所选择的前景对象的深度来向前平移虚拟相机,直到所选择的前景对象与它们在“放大”的源视图图像中的外观相比具有相似的尺寸/比例(并且优选地具有相同的尺寸/比例)为止。
虚拟相机的平移和内插图像的放大可以用于生成在场景中向前移动和/或放大场景的感觉。也可以使用这两者的组合。
内插模式中的虚拟相机的焦距可以保持恒定(例如保持在已经获得了源视图图像序列的相机的平均焦距处)。选择较大的焦距可能会降低内插图像的像素分辨率。
如上面所讨论的,该系统利用处理系统来执行数据处理。处理系统能够用软件和/或硬件以多种方式实施,从而执行所需的各种功能。处理系统通常采用一个或多个微处理器,这一个或多个微处理器可以使用软件(例如,微代码)进行编程以执行所需的功能。处理系统可以被实施为执行某些功能的专用硬件与执行其他功能的一个或多个经编程的微处理器和相关电路的组合。
可以在本公开内容的各种实施例中采用的电路的示例包括但不限于常规的微处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。
在各种实施方式中,处理系统可以与一个或多个存储介质相关联,例如,易失性和非易失性计算机存储器,例如,RAM、PROM、EPROM和EEPROM。存储介质可以用一个或多个程序进行编码,这一个或多个程序当在一个或多个处理器和/或控制器上被运行时执行所需的功能。各种存储介质可以被固定在处理器或控制器内,或者可以是可转移的,使得存储在其上的一个或多个程序能够被加载到处理系统中。
根据对附图、公开内容和所附权利要求的研究,本领域技术人员在实践所要求保护的发明时能够理解和实现所公开的实施例的变型。在权利要求中,词语“包括”并不排除其他元件或步骤,并且词语“一”或“一个”并不排除多个。
单个处理器或其他单元可以实现权利要求中记载的若干项目的功能。
某些措施被记载在互不相同的从属权利要求中这一事实并不指示不能有利地使用这些措施的组合。
计算机程序可以被存储/分布在合适的介质上,例如与其他硬件一起提供或作为其他硬件的部分而供应的光学存储介质或固态介质,但是也可以以其他形式分布,例如经由互联网或其他有线或无线电信系统进行分布。
如果权利要求书或说明书中使用了术语“适于”,应当注意,术语“适于”旨在等同于术语“被配置为”。
权利要求中的任何附图标记都不应被解释为限制范围。
Claims (15)
1.一种用于呈现场景的多视图视频数据的方法,所述方法包括:
以源视图帧速率获得(202)所述场景的一个或多个源视图图像序列;
以源视图深度帧速率获得(204)所述场景的一个或多个源视图深度分量序列,其中,所述源视图深度帧速率低于所述源视图图像帧速率;并且
获得在源视图回放模式与内插回放模式之间的选择,其中,所述方法还包括:
如果选择所述内插回放模式,则执行以下操作:
基于来自所述源视图图像序列中的一个或多个源视图图像序列的一幅或多幅源视图图像并基于来自至少一个源视图深度分量序列的一个或多个对应的源视图深度分量来生成(206)所述场景的内插图像;并且
将所述内插图像输出(208)到显示器,并且
如果选择所述源视图回放模式,则将源视图图像序列输出(210)到所述显示器。
2.根据权利要求1所述的方法,还包括:
将所述源视图图像序列中的一个或多个源视图图像序列至少缓存中间时间段,其中,所述中间时间段至少是最新可用的源视图图像与用于生成内插图像的所述源视图深度分量之间的时间差;并且
如果所述选择从所述内插回放模式改变为所述源视图回放模式,则执行以下操作:
基于所述内插图像的目标视点和所述源视图图像序列中的每一幅源视图图像的源视点来从所述源视图图像序列中选择最接近的视图图像序列;
输出与所述最接近的视图图像序列相对应的缓存的图像序列;并且
在输出所述缓存的图像序列之后,输出所述最接近的视图图像序列。
3.根据权利要求1或2中的任一项所述的方法,还包括:
在事件时间时获得对在所述场景中发生的事件的指示;并且
基于所述选择从所述内插回放模式改变为所述源视图回放模式来输出所述源视图图像序列中的从在所述事件时间之前拍摄的源视图图像开始的一幅源视图图像。
4.根据权利要求1至3中的任一项所述的方法,其中,所述源视图帧速率至少为20帧/秒,即,20fps,并且其中,所述源视图深度帧速率至多为10fps。
5.根据权利要求1至4中的任一项所述的方法,还包括:
接收所述内插图像的目标视点;
基于所述目标视点来识别一个或多个最接近的源视图图像序列;并且
识别与所述最接近的源视图图像序列相对应的最新可用的源视图深度分量,其中,生成(206)所述场景的所述内插图像基于所述最接近的源视图图像序列和所识别的源视图深度分量。
6.根据权利要求1至5中的任一项所述的方法,其中,获得(202)所述源视图图像序列包括:
接收包括缩放的源视图图像序列的编码图集,其中,所述缩放的源视图图像序列具有比所述源视图图像序列低的像素分辨率;
对所述编码图集进行解码;并且
对所述缩放的源视图图像序列执行逆缩放,从而获得所述源视图图像序列。
7.根据权利要求6所述的方法,其中,所述缩放的源视图图像序列包括非均匀缩放的源图像,并且其中,所述非均匀缩放的源图像包括所述非均匀缩放的源图像中的一个或多个区域,所述一个或多个区域的缩放与所述非均匀缩放的源图像的其余部分的缩放不同。
8.根据权利要求1至7中的任一项所述的方法,其中,获得(202)所述源视图深度分量序列包括以下各项中的一项:
从服务器、编码器和/或捕捉系统接收所述源视图深度分量序列;以及
对所述源视图图像中的两幅或更多幅源视图图像执行深度估计。
9.根据权利要求1至7中的任一项所述的方法,其中,获得(202)所述源视图深度分量序列包括:
从服务器、编码器和/或捕捉系统接收一个或多个部分源视图深度分量序列;并且
基于所述部分源视图深度分量序列来生成所述源视图深度分量序列并对所述源视图图像中的两幅或更多幅源视图图像执行深度估计。
10.根据权利要求1至9中的任一项所述的方法,其中,如果所述选择从所述内插回放模式改变为所述源视图回放模式,则所述方法还包括:
基于所述内插图像的目标视点和所述源视图图像序列中的每一幅源视图图像的源视点来从所述源视图图像序列中选择最接近的视图图像序列;
对所述最接近的视图图像序列的所述源视图图像进行缩放,从而使所述源视图图像中的所述场景的比例与所述内插图像中的所述场景的比例大致相同;并且
输出所述最接近的视图图像序列的经缩放的源视图图像。
11.根据权利要求1至10中的任一项所述的方法,其中,如果选择从所述源视图回放模式改变为所述内插回放模式,则生成(206)所述内插图像包括:
识别所输出的源视图图像序列在所述源视图回放模式中的缩放水平;并且
以目标视点生成所述内插图像,其中,所述目标视点基于所输出的源视图图像序列的源视图视点和所述缩放水平。
12.一种包括计算机程序代码的计算机程序产品,所述计算机程序代码当在具有处理系统的计算设备上被运行时使所述处理系统执行根据权利要求1至11中的任一项所述的方法的所有步骤。
13.一种用于呈现场景的多视图视频数据的解码器系统,所述系统包括处理系统,所述处理系统被配置为:
以源视图帧速率获得(202)所述场景的一个或多个源视图图像序列;
以源视图深度帧速率获得(204)所述场景的一个或多个源视图深度分量序列,其中,所述源视图深度帧速率低于所述源视图图像帧速率;并且
获得在源视图回放模式与内插回放模式之间的选择,其中,所述处理系统还被配置为:
如果选择所述内插回放模式,则执行以下操作:
基于来自所述源视图图像序列中的一个或多个源视图图像序列的一幅或多幅源视图图像并基于来自至少一个源视图深度分量序列的一个或多个对应的源视图深度分量来生成(206)所述场景的内插图像;并且
将所述内插图像输出(208)到显示器,并且
如果选择所述源视图回放模式,则将源视图图像序列输出(210)到所述显示器。
14.根据权利要求13所述的解码器系统,其中,所述处理系统还被配置为:
将所述源视图图像序列中的一个或多个源视图图像序列至少缓存中间时间段,其中,所述中间时间段至少是最新可用的源视图图像与用于生成内插图像的所述源视图深度分量之间的时间差;并且
如果所述选择从所述内插回放模式改变为所述源视图回放模式,则执行以下操作:
基于所述内插图像的目标视点和所述源视图图像序列中的每一幅源视图图像的源视点来从所述源视图图像序列中选择最接近的视图图像序列;
输出与所述最接近的视图图像序列相对应的缓存的图像序列;并且
在输出所述缓存的图像序列之后,输出所述最接近的视图图像序列。
15.根据权利要求13或14中的任一项所述的解码器系统,其中,所述处理系统还被配置为:
在事件时间时获得对在所述场景中发生的事件的指示;并且
基于所述选择从所述内插回放模式改变为所述源视图回放模式来输出所述源视图图像序列中的从在所述事件时间之前拍摄的源视图图像开始的一幅源视图图像。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21198227.7 | 2021-09-22 | ||
EP21198227.7A EP4156692A1 (en) | 2021-09-22 | 2021-09-22 | Presentation of multi-view video data |
PCT/EP2022/075329 WO2023046520A1 (en) | 2021-09-22 | 2022-09-13 | Presentation of multi-view video data |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117999787A true CN117999787A (zh) | 2024-05-07 |
Family
ID=77897565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280064307.0A Pending CN117999787A (zh) | 2021-09-22 | 2022-09-13 | 多视图视频数据的呈现 |
Country Status (5)
Country | Link |
---|---|
EP (2) | EP4156692A1 (zh) |
KR (1) | KR20240071364A (zh) |
CN (1) | CN117999787A (zh) |
TW (1) | TW202339495A (zh) |
WO (1) | WO2023046520A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8027531B2 (en) * | 2004-07-21 | 2011-09-27 | The Board Of Trustees Of The Leland Stanford Junior University | Apparatus and method for capturing a scene using staggered triggering of dense camera arrays |
GB0704319D0 (en) * | 2007-03-06 | 2007-04-11 | Areograph Ltd | Image capture and playback |
US9525858B2 (en) * | 2011-07-06 | 2016-12-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Depth or disparity map upscaling |
JP5863356B2 (ja) * | 2011-09-21 | 2016-02-16 | キヤノン株式会社 | ステレオ動画像の撮像装置、撮像方法、ステレオ動画像の表示装置、表示方法及びプログラム |
-
2021
- 2021-09-22 EP EP21198227.7A patent/EP4156692A1/en not_active Withdrawn
-
2022
- 2022-09-13 KR KR1020247004175A patent/KR20240071364A/ko unknown
- 2022-09-13 WO PCT/EP2022/075329 patent/WO2023046520A1/en active Application Filing
- 2022-09-13 EP EP22773734.3A patent/EP4406230A1/en active Pending
- 2022-09-13 CN CN202280064307.0A patent/CN117999787A/zh active Pending
- 2022-09-22 TW TW111135955A patent/TW202339495A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
KR20240071364A (ko) | 2024-05-22 |
EP4156692A1 (en) | 2023-03-29 |
WO2023046520A1 (en) | 2023-03-30 |
TW202339495A (zh) | 2023-10-01 |
EP4406230A1 (en) | 2024-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11924394B2 (en) | Methods and apparatus for receiving and/or using reduced resolution images | |
JP6410918B2 (ja) | パノラマ映像コンテンツの再生に使用するシステム及び方法 | |
US10440407B2 (en) | Adaptive control for immersive experience delivery | |
US20220210512A1 (en) | Content based stream splitting of video data | |
EP3065049A2 (en) | Interactive video display method, device, and system | |
CN112738495B (zh) | 虚拟视点图像生成方法、系统、电子设备及存储介质 | |
JP7320146B2 (ja) | ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート | |
US20230026014A1 (en) | Video processing device and manifest file for video streaming | |
US20220053222A1 (en) | Apparatus and method for generating an image data stream | |
CN110730340B (zh) | 基于镜头变换的虚拟观众席展示方法、系统及存储介质 | |
US11622099B2 (en) | Information-processing apparatus, method of processing information, and program | |
WO2018234622A1 (en) | METHOD OF DETECTING EVENTS OF INTEREST | |
EP4156692A1 (en) | Presentation of multi-view video data | |
JP2024534367A (ja) | マルチビュービデオデータの表示 | |
WO2018178510A2 (en) | Video streaming | |
EP4013059A1 (en) | Changing video tracks in immersive videos | |
EP4221234A1 (en) | Information processing device, information processing method, and information processing system | |
CN117099368A (zh) | 用于处理体积图像的系统和方法 | |
TW202310614A (zh) | 影像產生 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |