CN114208201A - 用于传输和渲染3d场景的方法、用于生成补丁的方法以及对应的设备和计算机程序 - Google Patents

用于传输和渲染3d场景的方法、用于生成补丁的方法以及对应的设备和计算机程序 Download PDF

Info

Publication number
CN114208201A
CN114208201A CN202080055215.7A CN202080055215A CN114208201A CN 114208201 A CN114208201 A CN 114208201A CN 202080055215 A CN202080055215 A CN 202080055215A CN 114208201 A CN114208201 A CN 114208201A
Authority
CN
China
Prior art keywords
patch
depth
scene
streams
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080055215.7A
Other languages
English (en)
Inventor
伊冯·勒加拉斯
沙利纳·泰比
S·特拉维特
查尔斯·萨蒙-勒加尼厄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
InterDigital VC Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital VC Holdings Inc filed Critical InterDigital VC Holdings Inc
Publication of CN114208201A publication Critical patent/CN114208201A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开公开了用于传输和渲染3D场景的方法和设备。该用于传输的方法包括:将空间分割成m个角扇区,该m个角扇区各自对应于距视口的角距离,并将该空间分割成n个深度范围;获得(11)从该3D场景的第一视图生成的至少一个第一补丁,所述至少一个第一补丁包括纹理分量和深度分量;获得(12)从该3D场景的至少一个第二视图生成的至少一个图集,所述至少一个图集通过将针对其中一个所述第二视图的在该3D场景的另一视图中不可见并且属于该m个角扇区中的同一角扇区和该n个深度范围中的同一深度范围的至少一个点生成的至少一个第二补丁打包在一起来构建,m或n中的至少一者大于或等于2,所述至少一个第二补丁包括纹理分量和深度分量,其中该至少一个第一补丁和该至少一个第二补丁中的每一者基于扇区和深度中的至少一者;生成(13)包含m′对流的第一流子集和包含m′×n′对流的第二流子集;以及将该第一流子集和该第二流子集传输(14)到该终端。

Description

用于传输和渲染3D场景的方法、用于生成补丁的方法以及对 应的设备和计算机程序
相关申请的交叉引用
本申请要求2019年7月15日提交的欧洲专利申请号19305939.1的权益,该专利申请的内容以引用方式并入本文。
技术领域
本公开涉及视频处理领域,并且更具体地涉及体积视频内容的领域。本公开提供了一种用于通过考虑至少一个基于终端的交付标准来将3D场景的表示自适应传输到终端的技术。此类自适应传输可用于增强3D场景的渲染,例如用于诸如移动或头戴式显示设备(HMD)等终端上的沉浸式渲染。
本公开可适于必须交付体积内容,特别是3DoF+视频内容的任何应用程序。
背景技术
本部分旨在介绍本领域的各个方面,这些方面可能与下文描述和/或要求保护的本公开的各个方面有关。此讨论有助于提供背景信息,以促进更好地理解本公开的各个方面。因此,应当理解,这些陈述应当从这个角度来解读,而不是承认现有技术。
沉浸式视频(也称为360°平面视频)允许用户通过围绕静止视角旋转其头部来观看自己周围的一切。旋转仅允许3个自由度(3DoF)的体验。即使3DoF视频足以满足第一次全向视频体验(例如,使用HMD设备)的要求,但3DoF视频对于期望更多自由(例如,通过体验视差)的观看者可能很快变得令人沮丧。此外,3DoF还可能导致眩晕,因为用户不仅旋转其头部,而且还向三个方向平移头部,这些平移不会在3DoF视频体验中再现。
体积视频(也称为6个自由度(6DoF)视频)是3DoF视频的替代方案。在观看6DoF视频时,除了旋转之外,用户还可以在观看的内容中平移其头部,甚至其身体,并且体验视差甚至体积。这种视频显著增加了沉浸感和对场景深度的感知,并通过在头部平移期间提供一致的视觉反馈来防止眩晕。
还提出了一种介于3DoF和6DoF之间的中间方法,称为3DoF+。这种基于视频的方法(例如,在WO2019/055389中公开)包括将体积输入信息作为颜色和深度补丁的组合进行传输。每个补丁都由原始3D场景的子部分的连续球形2D投影/映射产生。
基本上,这种分解将场景剥离/分解为:(1)中心补丁,该中心补丁包含从主中心视点可见的场景部分;和(2)外围补丁,该外围补丁嵌入有从该中心视点不可见的补充信息。
为了传输3DoF+视频内容,定义了以下两个视频帧:(1)色帧,该色帧同时携带中心补丁的纹理和外围补丁的纹理以携带视差信息;和(2)深度帧,该深度帧同时携带中心补丁的深度和外围补丁的深度以携带视差信息。
为了限制解码器上下文的数量,色帧和深度帧具有固定的大小,其对应于中心补丁的大小(例如,4K像素×2K像素)加上额外的房间大小,以便在所有360°方向上携带来自源视点的视差信息。
然而,将视差信息包装到固定大小的帧中对于没有太多隐藏对象的简单场景来说是足够的,但对于复杂场景的传输来说可能是低效的,在复杂场景中,许多隐藏对象需要大量数据用于外围视频补丁和视差信息。此外,现有技术的3DoF+技术在渲染3D场景时存在延迟。例如,当HMD用户朝一个方向快速转头时,可能会出现这种情况。根据现有技术,渲染终端在显示任何内容之前必须等待接收到色帧,并等待接收到深度帧以进行体积渲染。
发明内容
因此,需要一种新的技术来传输3D场景,该技术克服了至少一种已知技术的缺点。
根据本公开的一个方面,公开了一种用于将3D场景的表示传输到终端的方法。这种方法包括:将空间分割成m个角扇区,该m个角扇区各自对应于距视口的角距离,并且将空间分割成n个深度范围;获得从3D场景的第一视图生成的至少一个第一补丁,所述至少一个第-补丁包括纹理分量和深度分量;获得从3D场景的至少一个第二视图生成的至少一个图集,所述至少一个图集通过将针对其中一个所述第二视图的在3D场景的另一视图中不可见并且属于m个角扇区中的同一角扇区和n个深度范围中的同一深度范围的至少一个点生成的至少一个第二补丁打包在一起来构建,m或n中的至少一者大于或等于2,所述至少一个第二补丁包括纹理分量和深度分量,其中至少一个第一补丁和至少一个第二补丁中的每一者基于扇区和深度中的至少一者;根据至少一个基于终端的交付标准生成以下项:第一流子集,该第一流子集包含来自所述一个或多个第一补丁的m′对流,m′为m个角扇区的整体或子集;和第二流子集,该第二流子集包含来自所述至少一个图集的m′×n′对流,其中m′≤m且n′≤n,每对流包括用于传输纹理分量的流和用于传输深度分量的流,以及将第一流子集和第二流子集传输到终端。
根据本公开,因此可以考虑到至少一个基于终端的交付标准,仅将用于传输深度分量和纹理分量的流子集传输到终端。
更具体地,对于至少一个第二视图,可识别第二视图的在另一视图(第一视图或另一第二视图)中不可见的点(或体素),并且可确定这些点所属的深度范围和/或角扇区。因此,可将从这些点获得的可用于传输视差信息的第二补丁分组在图集中,其中每个深度范围和/或每个角扇区至少有一个图集。
以此方式,可以仅传输对终端(用户)“有用”的视差信息,而不是传输所有的视差信息。例如,可仅传输与终端用户的视点对应的视差信息,也可仅传输与距用户视点的最小深度范围对应的视差信息,尤其是在与终端的通信信道的可用带宽受到限制时。
因此,本公开的至少一个实施方案旨在解决根据现有技术的固定大小框架的问题。实际上,可仅传输有用的视差信息,从而解决复杂场景的问题或异构场景的问题,其中360°空间中某些扇区的视差信息较差,而其他扇区的视差信息量很大,这可能不适合额外的房间大小。
本公开的至少一个实施方案还旨在解决渲染中的延迟问题。实际上,只能传输有用的视差信息,从而实现快速渲染。
根据另一实施方案,公开了一种用于将3D场景的表示传输到终端的对应设备。这种设备可特别适于实现用于传输上文描述的3D场景的表示的方法。例如,这种设备为服务器。
本公开还公开了一种用于在终端上渲染3D场景的方法。这种方法包括:将空间分割成m个角扇区,该m个角扇区各自对应于距视口的角距离,并且将空间分割成n个深度范围;接收根据至少一个基于终端的交付标准生成的第一流子集和第二流子集,所述第一子集包括从至少一个第一补丁生成的m′对流并且所述第二子集包括从至少一个图集生成的m1×n′对流,每对流包括用于传输纹理分量的流和用于传输深度分量的流,m1为m个角扇区的整体或子集并且n1为n个深度范围的整体或子集,所述至少一个第一补丁从3D场景的第一视图生成并且包括纹理分量和深度分量,所述至少一个图集从3D场景的至少一个第二视图生成并且通过将针对其中一个所述第二视图的在3D场景的另一视图中不可见并且属于m个角扇区中的同一角扇区和n个深度范围中的同一深度范围的至少一个点生成的至少一个第二补丁打包在一起来构建,m或n中的至少一者大于或等于2,所述至少一个第二补丁包括纹理分量和深度分量,其中m′≤m且n′≤n,其中至少一个第一补丁和至少一个第二补丁中的每一者基于扇区和深度中的至少一者;以及从第一流子集和第二流子集构建3D场景的表示。
具体地,可实现这种方法来渲染通过如上所述的用于传输3D场景的表示的方法传输的3D场景。
如已经提及的,由于终端可仅接收“有用”视差信息,因此根据至少一个实施方案的方法允许快速渲染3D场景。
根据另一实施方案,公开了用于渲染3D场景的对应终端。这种终端(也称为用于渲染的设备)可特别适于实现用于渲染上述3D场景的方法。例如,这种设备为HMD、手机、平板电脑等。
本公开还公开了一种用于生成表示3D场景的补丁的方法。这种方法包括:从第一视图获得3D场景的第一视图;从所述第一视图生成至少一个第一补丁,所述至少一个第一补丁包括纹理分量和深度分量;从至少一个第二视点获得3D场景的至少一个第二视图;以及将3D场景空间分割成m个角扇区,该m个角扇区各自对应于距给定视口的距离,并分割成n个深度范围,其中对于所述第二视图中的至少一个第二视图,该方法进一步包括:识别第二视图的在3D场景的另一视图中不可见的至少一个点;确定所述至少一个点所属的深度范围;对于m个角扇区中的至少一个角扇区以及对于n个深度范围中的至少一个深度范围,m或n中的至少一者大于或等于2,针对属于所述角扇区和所述深度范围的点从所述第二视图生成至少一个第二补丁,所述至少一个第二补丁包括纹理分量和深度分量,其中至少一个第一补丁和至少一个第二补丁中的每一者基于扇区和深度中的至少一者;以及通过将针对属于同一角扇区和同一深度范围的点生成的第二补丁中的至少一个第二补丁打包在一起来构建至少一个图集。
具体地,可实现这种方法来生成通过如上所述的用于传输3D场景的表示的方法获得的补丁和图集。
根据第一实施方案,用于生成补丁的方法和用于传输3D场景的表示的方法可由同一设备(例如,服务器)实现。
根据第二实施方案,用于生成补丁的方法和用于传输3D场景的表示的方法可由两个不同设备实现,该两个设备可根据任何通信协议通过有线或无线进行通信。
因此,公开了根据第二实施方案的用于生成表示3D场景的补丁的对应设备。这种设备可特别适于实现用于生成表示上述3D场景的补丁的方法。
本公开的另一方面涉及可从通信网络下载和/或记录在计算机可读和/或处理器可执行的介质上的至少一种计算机程序产品,该至少一种计算机程序产品包括适于执行用于传输3D场景的表示的方法、用于渲染3D场景的方法或用于生成表示3D场景的补丁的方法的软件代码,其中软件代码适于执行上述方法的至少一个步骤。
另外,本公开的另一方面涉及一种非暂态计算机可读介质,该非暂态计算机可读介质包括记录在其上并且能够由处理器运行的计算机程序产品,该计算机程序产品包括用于实现用于传输3D场景的表示的方法、用于渲染3D场景的方法或用于生成表示先前描述的3D场景的补丁的方法的程序代码指令。
附图说明
参考附图,通过以下实施方案和执行示例将更好地理解和说明本公开,但绝不是限制性的,附图中:
图1是示出根据本公开的实施方案的用于传输3D场景的表示的方法的流程图;
图2是示出根据本公开的实施方案的用于生成表示3D场景的补丁的方法的流程图;
图3是示出根据本公开的实施方案的用于处理3D场景的方法的主要步骤的流程图;
图4示出根据现有技术的用于生成补丁的相机的位置;
图5给出根据现有技术的剥离技术生成的补丁的示例;
图6A和图6B给出根据本公开生成的补丁的示例;
图7示出深度优先表示的示例;
图8示出了扇区和深度优先表示的示例;并且
图9是根据本公开的至少一个实施方案的实现用于生成表示3D场景的补丁的方法、用于传输3D场景的表示的方法或用于渲染3D场景的方法中的至少一种方法的设备的框图。
附图中,所表示的块是纯功能实体,它们不一定对应于物理上分离的实体。即,它们可以软件、硬件的形式开发,或者在一个或多个集成电路中实现,包括一个或多个处理器。
具体实施方式
应当理解,本公开的附图和描述已简化以说明与清楚理解本公开相关的元素,同时为了清楚起见,消除了在典型的传输或渲染设备中发现的许多其他元素。
下面将讨论本公开的一般原理。
本公开提出了一种用于体积数据组织和相关联的终端相关交付模式(例如视口相关)的技术。
根据至少一个实施方案,这种技术在终端上提供渐进式渲染,从而通过交付用于即时体积渲染的第一基本元素来减少延迟。
这种技术依赖于一种新方法来构造包含视差信息(体积数据)的补丁,从而允许根据(例如,真实相机或虚拟相机的)视点和/或空间内的点位置(即,距视点,点/体素在3D场景中的位置)来构造补丁:越远越不重要。确定体积数据元素(点位置)的优先级的标准可以是深度(距视点的距离)、角扇区(距已交付视口中心的距离)或两者的组合。例如,客户端可首先下载基本平面360°渲染所需的视频信息,并根据可用吞吐量可进一步下载视差体验的改进数据。
根据至少一个实施方案,体积数据因此被组织在视频帧列表中,这些视频帧可具有相同的大小(例如,4K),但具有不同的补丁排列,从而允许渲染360°空间的每个扇区以及到源视点的每个距离(例如,近到远)。
体积数据可包含在可变补丁列表中,对于给定的空间扇区,补丁的内容分布在连续视频帧的传输上。
为了能够在优化接收数据量的同时从一个视点切换到另一视点,可将体积内容分割为具有固定持续时间的组块。服务器端存储的组块示出三级组织:每个时间间隔、每个扇区和到源视点的每个深度(即,细节水平)。由于这种方法,终端(或客户端应用程序)可按优先顺序检索数据:首先是用于平面360°渲染的必要视频信息,然后根据可用吞吐量,用于视差体验的改进数据。此数据恢复的优先级可能与场景中用户位置的接近程度成比例。这意味着只有在网络资源充足的情况下,才能使用与更多对象相对应的视频补丁和相关联元数据。
现在结合图1至图3呈现本公开的至少一个实施方案。
图1中示意性地示出由用于传输3D场景的表示的设备(例如,服务器)实现的主要步骤。根据此实施方案,服务器(10)获得(11)至少一个第一补丁,该第一补丁包括纹理分量和深度分量。此类一个或多个第一补丁(也称为主补丁或中心补丁)可由从第一视点(由真实相机或虚拟相机)捕获的3D场景的第一视图(也称为主视图或源视图)生成。该第一视图可为3D场景的投影表示。
服务器还获得(12)至少一个图集。此类一个或多个图集可由从至少一个第二视点(由真实相机或虚拟相机)获得的3D场景的至少一个第二视图生成。更具体地,对于第二视图中的一个第二视图(并且有利地对于第二视图中的每个第二视图),可生成至少一个第二补丁(也称为外围补丁)。为了减少必须传输的数据量,可仅针对第二视图的在第一视图或从另一视点捕获的第二视图中不可见的点生成此类第二补丁。考虑到对应点所属的角扇区和/或深度范围,可在图集中将此类第二补丁打包或分组在一起。以此方式,可考虑以所述视点中的一个视点为中心的若干角扇区和/或源自所述视点中的一个视点的若干深度范围,并且可由服务器构建和获得每个角扇区和/或每个深度的至少一个图集。例如,第一深度范围对应于距其中一个视点0至50cm之间的距离,第二深度范围对应于距其中一个视点50cm至1m之间的距离,第三深度范围对应于距其中一个视点1m至2m之间的距离,并且第四深度范围对应于大于2m的距离。
可以指出的是,可以同时或以任何顺序连续地实现用于获得第一补丁和获得图集的步骤。
在获得第一补丁和图集之后,服务器可根据至少一个基于终端的交付标准生成(13)以下流:(1)第一流子集,该第一流子集包含来自所述一个或多个第一补丁的m′对流;以及(2)第二流子集,该第二流子集包含来自所述一个或多个图集的m′×n′对流,其中m′≤m且n′≤n,每对流包括用于传输纹理分量的流和用于传输深度分量的流。
例如,如果服务器与终端之间的通信通道的带宽非常大,则不需要仅传输流的子集:m′可等于m并且n′可等于n。相反,如果带宽有限,m′可等于1并且n′可等于n,或者m′可等于m并且n′可等于1,或者其他组合。
然后,服务器可将第一流子集和第二流子集传输(14)或递送到终端。因此,第一补丁和第二补丁在不同的帧中传输。
例如,基于终端的交付标准可从包括以下项的组中选择:终端与服务器之间的通信信道上可用的带宽、终端用户观察到的至少一个角扇区、终端的能力以及从终端所接收的请求。
可周期性地实现和/或在所述至少一个基于终端的交付标准改变之后实现流的生成和流的传输。
以此方式,待传输到终端的流的生成可适于终端。具体地,该流的生成可随时间而改变,以使流携带的内容适应终端,并且例如适应终端用户的视点。流的生成可由服务器决定,例如在分析可用带宽之后,或者根据来自终端的请求。
根据至少一个实施方案,服务器获得从第一视图生成的所有第一补丁,以及从3D场景的所有第二视图生成的每个角扇区和每个深度范围的所有图集。
以此方式,服务器可具有3D场景的完整知识,并且可基于至少一个终端交付标准仅生成对终端有用的流。具体地,服务器可从所有第一补丁生成包含m对流的第一流集,以及从所有图集生成包含m×n对流的第二流集,每对流包括用于传输纹理分量的流和用于传输深度分量的流。
根据第一实施方案,第一补丁和第二补丁以及对应的图集可由这种服务器生成。在此第一实施方案中,用于获得(11)第一补丁和获得(12)图集的步骤可对应于用于生成第一补丁和生成图集的步骤。
根据第二实施方案,第一补丁和第二补丁以及对应的图集可由用于生成补丁的另一设备生成,然后传输到服务器。在此第二实施方案中,用于获得(11)第一补丁和获得(12)图集的步骤可对应于用于接收第一补丁和接收图集的步骤。
图2示出了根据这种第二实施方案的由用于生成补丁的设备实现的用于生成第一补丁和图集的主要步骤。根据此实施方案,用于生成补丁的这种设备(20)可包括与至少一个处理器相关联的存储器(未示出),该处理器被配置为:从第一视点获得(21)场景的第一视图;从所述第一视图生成(22)至少一个第一补丁,所述至少一个第一补丁包括纹理分量和深度分量;以及从至少一个第二视点获得(23)场景的至少一个第二视图。对于场景的至少一个第二视图(并且有利地对于每个第二视图),至少一个处理器被进一步配置为:识别(24)第二视图的在3D场景的另一视图(第一视图或另一第二视图)中不可见的至少一个点;确定(25)所述至少一个点所属的深度范围,其中对于以所述视点中的一个视点为中心的m个角扇区中的至少一个角扇区,以及对于源自所述视点中的一个视点的n个深度范围中的至少一个深度范围,m或n中的至少一者大于或等于2;针对属于所述角扇区和所述深度范围的点生成(26)至少一个第二补丁,所述至少一个第二补丁包括纹理分量和深度分量;以及通过将针对属于相同角扇区和相同深度范围的点生成的至少一个(优选地是所有)第二补丁打包在一起来构建(27)至少一个图集。
根据第一实施方案或第二实施方案,可通过将3D场景的第一视图投影到2D表示上来生成第一补丁。例如,这种2D投影可为等距柱状投影(ERP)或立方体投影,诸如目前由运动图像专家组(MPEG)开发的全向媒体格式(OMAF)标准中提出的。也可使用其他3D至2D投影表示。对于更复杂的投影,投影图片中的矩形可能映射到比角扇区更复杂的3D区域,但可有利地确保图块和点云子部分之间的一一对应。
根据至少一个实施方案,描述第一流子集和第二流子集的组织的描述数据也可从服务器传输到终端。在传输第一流子集和第二流子集之前,可在清单文件中传输这种描述数据。该描述数据可响应于来自终端的请求而在专用信道上离线传输,或者先前存储在终端中、在首次使用本公开时从服务器下载等等。
例如,所述描述数据可包括:(1)可用深度范围的数量及其值;(2)可用角扇区的数量及其位置;(3)用于第二子集的每个流的一个或多个图集的分辨率,并且图集是否在GOP中打包在一起;(4)每个GOP和第二流子集的每个流的平均比特率。该描述数据还可包括3D场景内的补丁的位置,例如以球坐标表示。终端可使用描述数据来选择和解码流并渲染3D场景。
图3中示意性地示出终端实现的用于渲染3D场景的主要步骤。根据此实施方案,终端(30)接收(31)根据至少一个基于终端的交付标准生成的第一流子集和第二流子集。
例如,基于终端的交付标准可选自包含以下项的组:与用于传输3D场景的表示的设备的通信信道上可用的带宽、终端用户观察到的至少一个角扇区、终端的能力以及终端发送的请求。
此类流子集可由图1中所示的服务器10生成。例如,终端可向服务器发送请求,以便仅接收对终端有用的视差信息。在变型形式中,服务器可分析基于终端的交付标准(例如,服务器与终端之间的通信信道或终端用户的位置/视点),并选择必须传输的流。例如,服务器可能仅提供与用户的视野相对应的补丁。
第一流子集可包括从至少一个第一补丁生成的m′对流并且第二流子集可包括从至少一个图集生成的m′×n′对流,每对流包括用于传输纹理分量的流和用于传输深度分量的流。所述至少一个第一补丁可从3D场景的第一视图生成。所述至少一个图集可从3D场景的至少一个第二视图生成并且可通过将针对其中一个所述第二视图的在3D场景的另一视图中不可见并且属于m个角扇区中的同一角扇区和n个深度范围中的同一深度范围的至少一个点生成的至少一个第二补丁打包在一起来构建,其中m′≤m且n′≤n,并且m或n中的至少一者大于或等于2。所述至少一个第一补丁和所述至少一个第二补丁可各自包括纹理分量和深度分量。
然后,终端可从第一流子集和第二流子集构建(32)并渲染3D场景的表示。
根据至少一个实施方案,第二流子集可至少包括针对源自终端用户的视点的最小深度范围而构建的图集。
根据至少一个实施方案,第二流子集可至少包括针对以终端用户的视点为中心的角扇区而构建的图集。
根据这些实施方案,终端(或终端用户)的视点可首先由终端、服务器或另一设备确定。如果由终端确定,则终端可向服务器发送请求,以便考虑到所述视点获得第二流子集。
因此,根据本公开的至少一个实施方案的产生视差补丁的方式可允许体积视频的可扩展交付,并因此允许覆盖更大的观众或改进相同传输成本的体验。
根据至少一个实施方案,这种方式可允许在具有不同带宽能力的异构网络上传输相同的3DoF+内容,因为每个终端可根据其网络特性调整从服务器检索到的视差信息的数量。
根据至少一个实施方案,这种方式还可旨在通过实现渐进式渲染以及按重要性和接收顺序显示视差信息来在设备上提供快速的首次渲染(低延迟)。
下面将描述本公开的实施方案的详细描述。
首先,将在3DoF+的上下文中讨论本公开的若干实施方案。
现在简要讨论根据现有技术生成补丁。为了解释现有技术与本公开的区别,以下给出了关于根据现有技术生成补丁的3DoF+技术的提示。
如现有技术部分所提及,已开发3DoF+以丰富具有视差的沉浸式视频体验。体积输入信息(例如,体积视频)可分解为以下若干分量:从中心点(也称为第一补丁或中心补丁)观察的360°场景的投影表示形式的颜色/深度;由头部自然位移显示的场景部分的颜色/深度补丁,也称为第二补丁或外围补丁;包含用于利用补丁的信息的元数据。
基本上,体积视频的分量可通过以下方式生成:例如通过N个360°相机的装备捕获360°场景;从N个相机捕获生成点云;引入四个虚拟相机,三个相机放置在与相机C0所在的中心观察点同心的四面体的三个顶点处,如图4所示;生成具有纹理和深度的投影表示,如从中心相机(图4上的相机C0)看到的,场景形成两个视频流C0(颜色)和D0(深度),其中此投影表示可通过任何3D至2D投影(例如等距柱状投影(ERP)或立方体投影(CMP))获得;针对先前相机看不到的点生成颜色/深度补丁的剥离过程,其中对于放置在顶点上的每个相机(图4中的相机C1、C2和C3),该过程可以迭代方式完成;将在先前步骤中生成的中心颜色/深度补丁和外围颜色/深度补丁在矩形补丁图集中打包,其中打包算法提供GOP上的补丁位置,并且相应地生成元数据;利用传统HEVC视频编解码器对图集进行编码,其中可首先分别以专用方式对深度图集和颜色图集进行羽化和量化,以足够鲁棒地编码伪影并优化总体比特率。
如图5所示,相机C0捕获的点可放置在第一补丁C0.I0、C0.I1和C0.I2中,在那里它们由相邻点收集。因此,补丁可由相邻点集定义。补丁可根据大小标准进行分割。
然后,剥离过程可交付外围补丁。如图5所示,相机Cl捕获的、相机C0未看到的点被放置在第二补丁C1.I0、C1.I1中,在那里它们由相邻点收集。对于每个相机C1、C2和C3,可迭代地实现这种过程。
然后,专用打包算法可以GOP一致的方式(在GOP/IntraPeriod内,补丁位置不变)将补丁放置在颜色图集和深度图集中。然后,可使用传统HEVC视频编解码器对图集进行编码。对于每个补丁,可提供附加元数据集,该附加元数据集指定恢复体积场景所需的信息(补丁的位置/大小、投影参数)。因此,整个流完全基于视频并与现有的视频流管道兼容。
下面将描述根据本公开生成补丁。
根据本公开,提出了一种用于根据中心视点的角扇区和/或距该角扇区的中心视点的距离来按视点生成补丁的新算法。该技术旨在根据点的位置区分点。在全局范围内,最远的点可能需要较少的纹理或深度精度。
更具体地,体积视频的分量可如前一部分中所公开的那样生成,但也可通过考虑点云的点所属的深度范围和/或角扇区来生成。
根据第一示例,来自交付第一视图的中心相机(C0)的捕获(参考图2中的21)未根据现有技术进行修改。它仍提供3D场景的投影表示,例如具有颜色和深度的等矩形表示(参考图2中的22)。
根据第二示例,来自中心相机(C0)的捕获可根据现有技术进行修改。例如,第一补丁根据它们所属的深度范围或角扇区来定义。
第二补丁通过从各种相机(例如,C1、C2和/或C3可交付第二视图)捕获点(参考图2中的23)来构建,以便显示被先前捕获掩盖的点(参考图2中的24)。应当指出的是,根据本公开的相机C0至C3可以是真实相机或虚拟相机或其组合。此外,相机的数量并不限于现有技术中公开的四个相机。
根据本公开,第二补丁可由它们所属的深度范围或角扇区来定义,而不是(或除此之外)由相邻点来定义。在此的深度可以是距中心视口(即,C0的位置)的距离,也可以是距捕获点(即C1、C2或C3的位置)的距离。关于捕获点的第二方法更相关,因为从捕获点确定的深度可能等同于用户可视化体积内容所看到的深度。以同样的方式,角扇区可以中心视口或任何捕获点为中心。
图6A和图6B示出了考虑到点的深度而生成第二补丁的两个示例,因此允许根据补丁所表示的点的深度自适应地使用补丁。在构建补丁时,会考虑此距离。补丁的所有点必须属于同一深度范围。这允许根据观察点的深度构建补丁,从而能够相应地选择它们以实现最佳交付。
根据图6A所示的第一示例,空间被划分为三个区域D0、D1、D2,该三个区域对应于距中心相机C0的三个不同深度范围(也称为距离范围)。
因此根据本公开生成了两个补丁C1.D0.I0、C1.D0.I1以及一个补丁C1.D1.I0和一个补丁C1.D2.I0(Ci表示对应的相机,Dj表示对应的深度范围,并且Ik表示所考虑的深度范围内的补丁索引),而根据图5所示的现有技术仅生成了一个补丁C1.I0和一个补丁C1.I1。
根据图6B所示的第二示例,空间被划分为三个区域D0、D1、D2,该三个区域对应于距捕获相机C1的三个不同深度范围(也称为距离范围)。
在这种情况下,根据本公开生成了五个补丁C1.D0.I0、C1.D0.I1和C1.D1.I0、C1.D1.I1和C1.D2.I0(Ci表示对应的相机,Dj表示对应的深度范围,并且Ik表示所考虑的深度范围内的补丁索引),而根据图5所示的现有技术仅生成了一个补丁C1.I0和一个补丁C1.I1。
因此,如果通过根据相邻点所属的深度范围对相邻点进行分组来定义第二补丁,则可根据本公开生成五个补丁C1.D0.I0、C1.D0.I1和C1.D1.I0、C1.D1.I1和C1.D2.I0。在变型形式中,如果第二补丁并非由相邻点定义,而是根据它们所属的深度范围或角扇区来定义,则可生成三个补丁C1.D0、C1.D1和C1.D2
当然,深度范围的数量和大小不限于图6A和图6B所示的那些。
一旦构建了补丁,则它们可能会与具有相同深度范围的其他补丁(即使深度来自另一个观察点)一起被包装到图集中。
一旦生成了每个深度和/或每个扇区的所有补丁/图集,则将它们存储在设备的存储器中以用于生成补丁,以供以后使用。
当可用吞吐量不足以交付所有内容时,根据本公开的这种每个深度和/或每个角扇区的修补可允许给予最近的体积数据或基于视口的体积数据特权。
例如,当未交付最远的补丁时,修复技术可能会限制场景中缺失部分的影响。可用吞吐量专用于最近的对象,这优化了渲染。
在播放内容之前,用于渲染的播放器/设备可实例化并可配置固定数量的视频解码器,而无需在使用期间对其进行重新配置,即使图集中的数据量可能随时间而变化。
以下描述将讨论补丁的交付。
根据本公开,还提出了一种用于交付补丁,即传输3D场景的表示的新算法。
这种传输是自适应的,并且取决于至少一个基于终端的交付标准。根据至少一个实施方案,这种补丁交付算法旨在根据可用网络和终端资源优化用户体验。
换句话说,用于传输3D场景的表示的设备可在先前由用于生成补丁的设备生成并存储的所有补丁/图集中选择待传输的一些补丁/图集。如已提及的,用于生成补丁的设备和用于传输3D场景的表示的设备可为同一设备,例如服务器。
以下公开了用于以优化比特率和播放器资源为目标的自适应体积内容交付的不同方法。
以下描述将首先讨论基于深度的补丁交付。
根据第一示例,3D场景的投影表示(第一补丁)的纹理分量和深度分量可完全从用于传输3D场景的表示的设备(例如,服务器10)交付到用于渲染3D场景的设备(例如,终端30)。
如果第一补丁是在用于生成补丁的设备中按扇区和/或按深度生成的,则它们可全部传输到服务器10,并且服务器10可连接或合并第一补丁以覆盖一个360°角扇区。
以相同的方式,如果第二补丁是在用于生成补丁的设备中按扇区和/或按深度生成的,则它们可全部传输到服务器10,并且服务器10可连接或合并第二补丁以覆盖一个360°角扇区。
在此基于深度的方法中,内容可按如下方式组织在2+(n×2)个流中:包含一对流的第一流集,以分别传送第一补丁的纹理分量和深度分量;包含n对流的第二流集,以分别传送针对与n个深度范围水平相关联的第二补丁和与图集相关联的元数据生成的n个图集的纹理分量和深度分量。
例如,第一流集可携带大小为W×H的中心补丁,其中W和H可取决于由每度像素数(PPD)定义的视觉质量。例如,4K×2K帧提供4K/360°=11每度像素数的质量。
这些图集可以图片组(GOP)的形式放在一起。对于所有流,GOP的持续时间可能相同,而不始终包含帧号。
一个清单可描述不同流的组织。
例如,清单表明:对于与深度范围d=1..n相关联的每个流,可用深度范围的数量n及其值,流携带的图集的分辨率Wd×Hd;以及对于与深度范围d=1..n相关联的每个流,对于每个GOP索引t,平均比特率Ratet,d。
图集的分辨率Wd×Hd的值可定义为例如:至少等于深度范围d的每秒补丁的平均点数(即,像素);或至少等于深度范围d的每秒补丁的最大点数(即,像素)。
在后一种情况下,每个渲染的视频帧可能恰好有一个图集帧。
如已经提及的,清单可在内容分发开始时(在相同或专用通道中)或经由任何合适的方式(如客户端(终端)对服务器的显式请求)进行离线传输。
如果没有带宽限制,则服务器可将第一流集(包含一对流)和第二流集(包含n对流)传输到终端。
在变型形式中,对于每个深度范围d,知道必要的带宽Ratet,d,终端可选择第一流子集和第二流子集。例如,如上文所讨论的,3D场景的投影表示(第一补丁)可完全交付到终端,第一流子集可与第一流集相同。第二流子集包括n′对流,其中n′≤n,待下载的图集流的数量根据至少一个基于终端的标准(诸如可用带宽或终端能力)进行选择。
可优先下载与最近深度对应的流。
渲染可与所有流的完全接收解耦,并且可在第一图集流完成后立即开始。这可允许动态渐进式渲染。第一图集流(对于d=1)带来的第一细节水平首先以最低延迟渲染,并通过接收待处理的接下来的流(对于d=2...n′)逐步完成。
在没有扇区化的情况下(即,具有一个360°角扇区),渲染设备检索到的补丁的优先级可能是深度索引,其中最小索引对应于距视点的最短距离,如图7所示。
根据至少一个实施方案,对于同一内容,可用深度范围的数量n可随时间而变化。例如,该数量可在大部分时间减少到一个(例如,通过合并在服务器端针对不同深度范围生成的图集),并且可在场景变得更复杂的时间段内增加。在这种情况下,播放器的自适应行为可能允许它根据其可用带宽仅选择最基本的深度图集。
以下描述将首先讨论基于视口的补丁交付。
根据第二示例,3D场景的投影表示(第一补丁)的纹理分量和深度分量可以基于视口的方式从用于传输3D场景的表示的设备(例如,服务器10)部分地交付到用于渲染3D场景的设备(例如,终端30)。
实际上,体积内容可能需要交付大量数据,因此,这并不始终符合带宽可能受到限制的现有网络。因此,这种内容通常以基于视口的方式部分交付。
例如,高质量内容(例如,对于完整场景表示,8K 3DoF+内容或更多)可在m个角扇区中平铺(对于经度,[Θi1,Θi2],对于纬度,
Figure BDA0003494023750000171
以中心视口(即,C0的位置)或任何捕获点(即,位置C1、C2和C3)为中心。关于捕获点的第二方法更相关,因为从捕获点观察到的角扇区可能等同于用户可视化体积内容所看到的角扇区。
对于每个扇区,公开了一组携带与该场景子部分相对应的体积数据的流。
在此基于视口的方法中,内容可按如下方式组织在2+(n×2)个流中:包含m对流的第一集,以针对m个扇区,分别传送第一补丁的纹理分量和深度分量;包含m×n对流的第二集,以针对m个扇区,分别传送针对与n个深度范围水平相关联的第二补丁和与图集相关联的元数据生成的n个图集的纹理分量和深度分量。
如果没有带宽限制,则服务器可将第一流集(包含m对流)和第二流集(包含m×n对流)传输到终端。在这种情况下,如果可用带宽足以将所有场景交付到播放器,则基于深度的交付实际上是基于视口的交付,其中m=1(例如,仅一个扇区)。
在变型形式中,客户端可选择m′对流的第一子集和m′×n′对流的第二子集,其中m′≤m且n′≤n,待下载的流的数量根据至少一个基于终端的标准(诸如可用带宽或终端能力)进行选择。
在渲染设备上,对于每个时间间隔(GOP),可预测下一个视口和覆盖此下一个视口的扇区。因此,终端可在下一个GOP持续时间内仅从服务器下载与该部分相关的流。可在每个GOP重复此操作。
在另一实施方案中,出于过度供应的目的,除了与下一个预测视口相关的流之外,终端还可下载补充流以覆盖预测视口的相邻部分。
根据至少一个实施方案,图集可通过深度和角扇区来定义。在这种情况下,图集的优先级可根据两个参数来定义:距用户位置的深度;以及与用户注视方向的角度。图8示出了播放器根据图集所表示的点的位置要检索的图集的优先级。如图8所示,可首先检索针对最小深度索引(深度1)和对应于用户视点(S0)的角扇区而获得的图集。然后,可检索针对直接更高的深度索引(深度2)和对应于用户视点(S0)的角扇区而获得的图集,以及针对最小深度索引(深度1)和与对应于用户视点(S1,S-1)的角扇区相邻的角扇区而获得的图集,以此类推。
当然,深度范围和角扇区的数量和大小不限于图8中所示的那些。具体地,角扇区各自的深度范围的大小可以分别是逐深度范围、逐扇区不同的。
基于深度的交付方法一样,一个清单可描述不同流的组织。为了受益于扇区化并向客户端提供补丁位置,清单还可包括3D场景内的补丁位置,例如以球坐标表示。由于补丁可能表示体积而不是点(其具有纹理分量和深度分量),因此其位置可表示为指示补丁中心点(例如,重心)的单个坐标,也可表示为包含补丁的体积元素的球面坐标集(r,θ,
Figure BDA0003494023750000181
)/大小(dr,r
Figure BDA0003494023750000182
dθ,
Figure BDA0003494023750000183
)。
最后应当指出的是,基于深度的补丁交付方法和基于视口的补丁交付方法两者均可结合使用。
以下描述将讨论设备。
图9示意性地示出根据本公开的至少一个实施方案的用于生成表示3D场景的补丁的设备、用于传输3D场景的表示的设备或用于渲染3D场景的设备的示例。
该用于生成表示3D场景的补丁的设备可包括例如非易失性存储器93G(例如,只读存储器(ROM)或硬盘)、易失性存储器91G(例如,随机存取存储器或RAM)和至少一个处理器92G。非易失性存储器93G可为非暂态计算机可读载体介质。其可存储可执行程序代码指令,这些指令由处理器92G执行,以便能够实现上文在其各种实施方案中所描述的方法。
具体地,处理器92G被配置为执行以下过程:从第一视点获得3D场景的第一视图;从所述第一视图生成至少一个第一补丁,所述至少一个第一补丁包括纹理分量和深度分量;以及从至少一个第二视点获得3D场景的至少一个第二视图。对于所述第二视图中的至少一个第二视图,处理器92G被进一步配置为执行以下过程:识别第二视图的在3D场景的另一视图中不可见的至少一个点;确定所述至少一个点所属的深度范围;对于m个角扇区中的至少一个角扇区以及对于n个深度范围中的至少一个深度范围,m或n中的至少一者大于或等于2,针对属于所述角扇区和所述深度范围的点从所述第二视图生成至少一个第二补丁,所述至少一个第二补丁包括纹理分量和深度分量;以及通过将针对属于同一角扇区和同一深度范围的点生成的第二补丁中的至少一个补丁打包在一起来构建至少一个图集。
在初始化时,前述程序代码指令可从非易失性存储器93G传送到易失性存储器91G,以便由处理器92G执行。易失性存储器91G同样可包括用于存储该执行所需的变量和参数的寄存器。
用于传输3D场景的表示的设备可包括例如非易失性存储器93T(例如,只读存储器(ROM)或硬盘)、易失性存储器91T(例如,随机存取存储器或RAM)和至少一个处理器92T。非易失性存储器93T可为非暂态计算机可读载体介质。其可存储可执行程序代码指令,这些指令由处理器92T执行,以便能够实现上文在其各种实施方案中所描述的方法。
具体地,处理器92T可被配置为执行以下过程:获得从3D场景的第一视图生成的至少一个第一补丁,所述至少一个第一补丁包括纹理分量和深度分量;获得从3D场景的至少一个第二视图生成的至少一个图集,所述至少一个图集通过将针对其中一个所述第二视图的在3D场景的另一视图中不可见并且属于m个角扇区中的同一角扇区和n个深度范围中的同一深度范围的至少一个点生成的至少一个第二补丁打包在一起来构建,m或n中的至少一者大于或等于2,所述至少一个第二补丁包括纹理分量和深度分量;根据至少一个基于终端的交付标准,从所述一个或多个第一补丁生成m′对流的第一子集并从所述一个或多个图集生成m′×n′对流的第二子集,其中m′≤m且n′≤n,每对流包括用于传输纹理分量的流和用于传输深度分量的流,并且将第一流子集和第二流子集传输到终端。
在初始化时,前述程序代码指令可从非易失性存储器93T传送到易失性存储器91T,以便由处理器92T执行。易失性存储器91T同样可包括用于存储该执行所需的变量和参数的寄存器。
用于渲染3D场景的设备可包括例如非易失性存储器93R(例如,只读存储器(ROM)或硬盘)、易失性存储器91R(例如,随机存取存储器或RAM)和至少一个处理器92R。非易失性存储器93R可为非暂态计算机可读载体介质。其可存储可执行程序代码指令,这些指令由处理器92R执行,以便能够实现上文在其各种实施方案中所描述的方法。
具体地,处理器92R可被配置为接收根据至少一个基于终端的交付标准生成的第一流子集和第二流子集,所述第一子集包括从至少一个第一补丁生成的m′对流并且所述第二子集包括从至少一个图集生成的m′×n′对流,每对流包括用于传输纹理分量的流和用于传输深度分量的流,所述至少一个第一补丁从3D场景的第一视图生成并且包括纹理分量和深度分量,所述至少一个图集从3D场景的至少一个第二视图生成并且通过将针对其中一个所述第二视图的在3D场景的另一视图中不可见并且属于m个角扇区中的同一角扇区和n个深度范围中的同一深度范围的至少一个点生成的至少一个第二补丁打包在一起来构建,m或n中的至少一者大于或等于2,所述至少一个第二补丁包括纹理分量和深度分量,其中m′≤m且n′≤n。处理器92R可被进一步配置为从第一流子集和第二流子集构建3D场景的表示。
在初始化时,前述程序代码指令可从非易失性存储器93R传送到易失性存储器91R,以便由处理器92R执行。易失性存储器91R同样可包括用于存储该执行所需的变量和参数的寄存器。
根据本公开的至少一个实施方案的方法可通过以下一种方式同样良好地实现:(1)执行由可重编程计算机器(诸如PC型装置、DSP(数字信号处理器)或微控制器)执行的程序代码指令集。此程序代码指令可存储在可分离(例如,软盘、CD-ROM或DVD-ROM)或不可分离的非暂态计算机可读载体介质中;或(2)专用机器或部件(诸如FPGA(现场可编程门阵列)、ASIC(专用集成电路)或任何专用硬件部件)。
换句话讲,本公开不限于计算机程序指令形式的纯粹基于软件的具体实施,而是本公开还可以硬件形式或结合了硬件部分和软件部分的任何形式来实现。
图中的流程图和/或框图示出了根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实现的配置、操作和功能。就这一点而言,流程图或框图中的每个块可表示代码的模块、段或部分,其包括用于实现指定逻辑功能的一个或多个可执行指令。
还应当指出的是,在一些替代具体实施中,块中标注的功能可能不按图中标注的顺序出现。例如,连续显示的两个块实际上可基本上同时执行,或者这些块有时可以相反的顺序执行,或者块可根据所涉及的功能以替代顺序执行。还应当指出的是,框图和/或流程图图示的每个块以及框图和/或流程图图示中的块的组合可由执行指定功能或动作的基于硬件的专用系统,或专用硬件和计算机指令的组合来实现。虽然未明确描述,但本发明的实施方案可以任何组合或子组合采用。

Claims (23)

1.一种用于将3D场景的表示传输到终端的方法,所述方法包括:
将空间分割成m个角扇区,所述m个角扇区各自对应于距视口的角距离,并且将所述空间分割成n个深度范围;
获得(11)从所述3D场景的第一视图生成的至少一个第一补丁,所述至少一个第一补丁包括纹理分量和深度分量;
获得(12)从所述3D场景的至少一个第二视图生成的至少一个图集,所述至少一个图集通过将针对其中一个所述第二视图的在所述3D场景的另一视图中不可见并且属于所述m个角扇区中的同一角扇区和所述n个深度范围中的同一深度范围的至少一个点生成的至少一个第二补丁打包在一起来构建,m或n中的至少一者大于或等于2,所述至少一个第二补丁包括纹理分量和深度分量,其中所述至少一个第一补丁和所述至少一个第二补丁中的每一者基于扇区和深度中的至少一者;
根据至少一个基于终端的交付标准生成(13)以下项:
第一流子集,所述第一流子集包含来自所述一个或多个第一补丁的m1对流,m1为所述m个角扇区的整体或子集,和
第二流子集,所述第二流子集包含来自所述至少一个图集的m1×n′对流,其中m′≤m且n′≤n,每对流包括用于传输所述纹理分量的流和用于传输所述深度分量的流,以及
将所述第一流子集和所述第二流子集传输(14)到所述终端。
2.根据权利要求1所述的方法,其中在所述至少一个基于终端的交付标准改变之后周期性地进行所述生成和传输。
3.根据权利要求1所述的方法,所述方法还包括将描述所述第一流子集和所述第二流子集的组织的描述数据传输到所述终端。
4.根据权利要求3所述的方法,其中所述描述数据包括以下至少一项:
可用深度范围的数量及其值,
可用角扇区的数量及其位置,
对于所述第二流子集的每个流的所述至少一个图集的分辨率,
所述至少一个图集是否在GOP中打包在一起,每个GOP和所述第二流子集的每个流的平均比特率,以及
所述第一补丁和/或第二补丁在所述3D场景内的位置。
5.根据权利要求4所述的方法,其中所述描述数据在所述第一流子集和所述第二流子集之前传输。
6.根据权利要求1所述的方法,其中所述获得至少一个第一补丁包括获得从所述第一视图生成的所有所述第一补丁,并且其中所述获得至少一个图集包括获得从所述3D场景的所有所述第二视图生成的每个角扇区和每个深度范围的所有所述图集。
7.一种用于将3D场景的表示传输到终端的设备,所述设备包括与至少一个处理器相关联的存储器,所述至少一个处理器被配置为:
将空间分割成m个角扇区,所述m个角扇区各自对应于距视口的角距离,并且将所述空间分割成n个深度范围;
获得(11)从所述3D场景的第一视图生成的至少一个第一补丁,所述至少一个第一补丁包括纹理分量和深度分量,
获得(12)从所述3D场景的至少一个第二视图生成的至少一个图集,所述至少一个图集通过将针对其中一个所述第二视图的在所述3D场景的另一视图中不可见并且属于所述m个角扇区中的同一角扇区和所述n个深度范围中的同一深度范围的至少一个点生成的至少一个第二补丁打包在一起来构建,m或n中的至少一者大于或等于2,所述至少一个第二补丁包括纹理分量和深度分量,其中所述至少一个第一补丁和所述至少一个第二补丁中的每一者基于扇区和深度中的至少一者;
根据至少一个基于终端的交付标准生成(13)以下项:
第一流子集,所述第一流子集包括来自所述一个或多个第一补丁的m′对流,m1是所述m个角扇区的整体或子集,和
第二流子集,所述第二流子集包含来自所述至少一个图集的m′×n′对流,其中m1≤m且n1≤n,每对流包括用于传输所述纹理分量的流和用于传输所述深度分量的流,以及
将所述第一流子集和所述第二流子集传输(14)到所述终端。
8.根据权利要求7所述的设备,其中周期性地和/或在所述至少一个基于终端的交付标准改变之后生成和传输所述第一流子集和第二流子集。
9.根据权利要求7所述的设备,其中所述至少一个处理器被进一步配置为将描述所述第一流子集和所述第二流子集的组织的描述数据传输到所述终端。
10.根据权利要求9所述的设备,其中所述描述数据包括以下至少一项:
可用深度范围的数量及其值,
可用角扇区的数量及其位置,
对于所述第二流子集的每个流的所述至少一个图集的分辨率,
所述至少一个图集是否在GOP中打包在一起,每个GOP和所述第二流子集的每个流的平均比特率,以及
所述第一补丁和/或第二补丁在所述3D场景内的位置。
11.根据权利要求10所述的设备,其中所述描述数据在所述第一流子集和所述第二流子集之前传输。
12.根据权利要求7所述的设备,其中为了获得所述至少一个第一补丁,所述至少一个处理器被进一步配置为获得从所述第一视图生成的所有所述第一补丁,并且其中为了获得至少一个图集,所述至少一个处理器被进一步配置为获得从所述3D场景的所有所述第二视图生成的每个角扇区和每个深度范围的所有所述图集。
13.一种用于在终端上渲染3D场景的方法,所述方法包括:
将空间分割成m个角扇区,所述m个角扇区各自对应于距视口的角距离,并且将所述空间分割成n个深度范围;
接收(31)根据至少一个基于终端的交付标准生成的第一流子集和第二流子集,所述第一子集包括从至少一个第一补丁生成的m1对流并且所述第二子集包括从至少一个图集生成的m′×n′对流,每对流包括用于传输纹理分量的流和用于传输深度分量的流,m1为所述m个角扇区的整体或子集并且n1为所述n个深度范围的整体或子集,所述至少一个第一补丁从所述3D场景的第一视图生成并且包括纹理分量和深度分量,所述至少一个图集从所述3D场景的至少一个第二视图生成并且通过将针对其中一个所述第二视图的在所述3D场景的另一视图中不可见并且属于m个角扇区中的同一角扇区和n个深度范围中的同一深度范围的至少一个点生成的至少一个第二补丁打包在一起来构建,m或n中的至少一者大于或等于2,所述至少一个第二补丁包括纹理分量和深度分量,其中m1≤m且n1≤n,其中所述至少一个第一补丁和所述至少一个第二补丁中的每一者基于扇区和深度中的至少一者;以及
从所述第一流子集和所述第二流子集构建(32)所述3D场景的表示。
14.根据权利要求13所述的方法,其中所述第二流子集包括针对源自所述终端的所述用户的视点的最小深度范围而构建的所述至少一个图集。
15.根据权利要求13所述的方法,其中所述第二流子集包括针对以所述终端的所述用户的视点为中心的所述角扇区而构建的所述至少一个图集。
16.根据权利要求13所述的方法,其中所述基于终端的交付标准属于包含以下项的组:
用于传输所述3D场景的表示的设备与所述终端之间的通信信道上可用的带宽,
所述终端的用户观察到的至少一个角扇区,
所述终端的能力,以及
来自所述终端的请求。
17.一种用于渲染3D场景的终端,所述终端包括与至少一个处理器相关联的存储器,所述至少一个处理器被配置为:
将空间分割成m个角扇区,所述m个角扇区各自对应于距视口的距离,并且将所述空间分割成n个深度范围;
接收(31)根据至少一个基于终端的交付标准生成的第一流子集和第二流子集,所述第一子集包括从至少一个第一补丁生成的m1对流并且所述第二子集包括从至少一个图集生成的m′×n′对流,每对流包括用于传输纹理分量的流和用于传输深度分量的流,所述至少一个第一补丁从所述3D场景的第一视图生成并且包括纹理分量和深度分量,m1为所述m个角扇区的整体或子集并且n1为所述n个深度范围的整体或子集,所述至少一个图集从所述3D场景的至少一个第二视图生成并且通过将针对其中一个所述第二视图的在所述3D场景的另一视图中不可见并且属于m个角扇区中的同一角扇区和n个深度范围中的同一深度范围的至少一个点生成的至少一个第二补丁打包在一起来构建,m或n中的至少一者大于或等于2,所述至少一个第二补丁包括纹理分量和深度分量,其中m′≤m且n′≤n,其中所述至少一个第一补丁和所述至少一个第二补丁中的每一者基于扇区和深度中的至少一者,以及
从所述第一流子集和所述第二流子集构建(32)所述3D场景的表示。
18.根据权利要求17所述的设备,其中所述第二流子集包括针对源自所述终端的所述用户的视点的最小深度范围而构建的所述至少一个图集。
19.根据权利要求17所述的设备,其中所述第二流子集包括针对以所述终端的所述用户的视点为中心的所述角扇区而构建的所述至少一个图集。
20.根据权利要求17所述的设备,其中所述基于终端的交付标准属于包含以下项的组:
用于传输所述3D场景的表示的设备与所述终端之间的通信信道上可用的带宽,
所述终端的用户观察到的至少一个角扇区,
所述终端的能力,以及
来自所述终端的请求。
21.一种用于生成表示3D场景的补丁的方法,所述方法包括:
从第一视点获得(21)所述3D场景的第一视图,
从所述第一视图生成(22)至少一个第一补丁,所述至少一个第一补丁包括纹理分量和深度分量;
从至少一个第二视点获得(23)所述3D场景的至少一个第二视图;以及
将所述3D场景空间分割成m个角扇区,所述m个角扇区各自对应于距给定视口的距离,并且分割成n个深度范围,其中
对于所述第二视图中的至少一个第二视图,所述方法进一步包括:
识别(24)所述第二视图的在所述3D场景的另一视图中不可见的至少一个点;
确定(25)所述至少一个点所属的深度范围;
对于所述m个角扇区中的至少一个角扇区以及对于n个深度范围中的至少一个深度范围,m或n中的至少一者大于或等于2,针对属于所述角扇区和所述深度范围的点从所述第二视图生成(26)至少一个第二补丁,所述至少一个第二补丁包括纹理分量和深度分量,其中所述至少一个第一补丁和所述至少一个第二补丁中的每一者基于扇区和深度中的至少一者;以及
通过将针对属于同一角扇区和同一深度范围的所述点生成的所述第二补丁中的至少一个第二补丁打包在一起来构建(27)至少一个图集。
22.一种用于生成表示3D场景的补丁的设备,所述设备包括与至少一个处理器相关联的存储器,所述处理器被配置为:
从第一视点获得(21)所述3D场景的第一视图;
从所述第一视图生成(22)至少一个第一补丁,所述至少一个第一补丁包括纹理分量和深度分量;
从至少一个第二视点获得(23)所述3D场景的至少一个第二视图,从而将所述3D场景空间分割成m个角扇区,所述m个角扇区各自对应于距给定视口的距离,并且分割成n个深度范围;
对于所述第二视图中的至少一个第二视图,所述至少一个处理器被进一步配置为:
识别(24)所述第二视图的在所述3D场景的另一视图中不可见的至少一个点;
确定(25)所述至少一个点所属的深度范围;
对于所述m个角扇区中的至少一个角扇区以及对于n个深度范围中的至少一个深度范围,m或n中的至少一者大于或等于2,针对属于所述角扇区和所述深度范围的点从所述第二视图生成(26)至少一个第二补丁,所述至少一个第二补丁包括纹理分量和深度分量,其中所述至少一个第一补丁和所述至少一个第二补丁中的每一者基于扇区和深度中的至少一者;以及
通过将针对属于同一角扇区和同一深度范围的所述点生成的所述第二补丁中的至少一个第二补丁打包在一起来构建(27)至少一个图集。
23.一种可从通信网络下载和/或记录在计算机可读和/或处理器可执行的介质上的计算机程序产品,所述计算机程序产品包括当由处理器执行时适于执行根据权利要求1、3至8或10至13中任一项所述的方法的软件代码。
CN202080055215.7A 2019-07-15 2020-07-15 用于传输和渲染3d场景的方法、用于生成补丁的方法以及对应的设备和计算机程序 Pending CN114208201A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19305939.1A EP3767953A1 (en) 2019-07-15 2019-07-15 Methods for transmitting and rendering a 3d scene, method for generating patches, and corresponding devices and computer programs
EP19305939.1 2019-07-15
PCT/US2020/042193 WO2021011695A1 (en) 2019-07-15 2020-07-15 Methods for transmitting and rendering a 3d scene, method for generating patches, and corresponding devices and computer programs

Publications (1)

Publication Number Publication Date
CN114208201A true CN114208201A (zh) 2022-03-18

Family

ID=67539368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080055215.7A Pending CN114208201A (zh) 2019-07-15 2020-07-15 用于传输和渲染3d场景的方法、用于生成补丁的方法以及对应的设备和计算机程序

Country Status (5)

Country Link
US (2) US11893679B2 (zh)
EP (2) EP3767953A1 (zh)
KR (1) KR20220054283A (zh)
CN (1) CN114208201A (zh)
WO (1) WO2021011695A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230177737A1 (en) * 2021-12-06 2023-06-08 Tencent America LLC Systems and method for adaptive filtering in patch generation for video-based point cloud coding

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9942622B2 (en) * 2014-01-24 2018-04-10 Hiperwall, Inc. Methods and systems for synchronizing media stream presentations
US10225546B2 (en) 2016-02-26 2019-03-05 Qualcomm Incorporated Independent multi-resolution coding
EP3432581A1 (en) * 2017-07-21 2019-01-23 Thomson Licensing Methods, devices and stream for encoding and decoding volumetric video
EP3457688A1 (en) * 2017-09-15 2019-03-20 Thomson Licensing Methods and devices for encoding and decoding three degrees of freedom and volumetric compatible video stream
KR102600011B1 (ko) 2017-09-15 2023-11-09 인터디지털 브이씨 홀딩스 인코포레이티드 3 자유도 및 볼류메트릭 호환 가능한 비디오 스트림을 인코딩 및 디코딩하기 위한 방법들 및 디바이스들
EP3489900A1 (en) * 2017-11-23 2019-05-29 Thomson Licensing Method, apparatus and stream for encoding/decoding volumetric video

Also Published As

Publication number Publication date
WO2021011695A1 (en) 2021-01-21
US20220284661A1 (en) 2022-09-08
KR20220054283A (ko) 2022-05-02
US11893679B2 (en) 2024-02-06
US20240119660A1 (en) 2024-04-11
EP3767953A1 (en) 2021-01-20
EP4000270A1 (en) 2022-05-25

Similar Documents

Publication Publication Date Title
CN111279705B (zh) 用于编码和解码体积视频的方法、设备和流
CN111034201B (zh) 编码和解码体积视频的方法、设备和流
US10467775B1 (en) Identifying pixel locations using a transformation function
WO2019202207A1 (en) Processing video patches for three-dimensional content
CN111656762A (zh) 编码表示三维对象的点云的方法和装置
CN112189345B (zh) 用于编码或解码表示3d场景的数据的方法、设备或介质
JP2021502033A (ja) ボリュメトリックビデオを符号化/復号する方法、装置、およびストリーム
CN106296781B (zh) 特效图像生成方法及电子设备
JP6672327B2 (ja) ユーザヘッドセットへの球状ビデオ帯域幅を減少させる方法および装置
CN113243112A (zh) 流式传输体积视频和非体积视频
CN114868396A (zh) 用于多视点3DoF+内容的编码和解码的方法和装置
CN107438203B (zh) 用于建立和接收清单的方法、网络设备及终端
US20240119660A1 (en) Methods for transmitting and rendering a 3d scene, method for generating patches, and corresponding devices and computer programs
CN114930812B (zh) 用于解码3d视频的方法和装置
CN114503554B (zh) 用于传送体积视频内容的方法和装置
WO2022073796A1 (en) A method and apparatus for adapting a volumetric video to client devices
CN115443654A (zh) 用于对体积视频进行编码和解码的方法和装置
CN110114759A (zh) 信息处理装置、其控制方法和计算机程序
CN114945946A (zh) 具有辅助性分块的体积视频
CN114342366A (zh) 用于递送体积视频内容的方法和装置
EP3564905A1 (en) Conversion of a volumetric object in a 3d scene into a simpler representation model
US20230032599A1 (en) Methods and apparatuses for encoding, decoding and rendering 6dof content from 3dof+ composed elements
CN115885513A (zh) 用于对体积视频进行编码和解码的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination