CN114868396A - 用于多视点3DoF+内容的编码和解码的方法和装置 - Google Patents

用于多视点3DoF+内容的编码和解码的方法和装置 Download PDF

Info

Publication number
CN114868396A
CN114868396A CN202080085578.5A CN202080085578A CN114868396A CN 114868396 A CN114868396 A CN 114868396A CN 202080085578 A CN202080085578 A CN 202080085578A CN 114868396 A CN114868396 A CN 114868396A
Authority
CN
China
Prior art keywords
viewing
scene
encoding
content
bounding box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080085578.5A
Other languages
English (en)
Inventor
查尔斯·萨蒙-勒加尼厄
B·楚波
J·弗勒罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
InterDigital VC Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital VC Holdings Inc filed Critical InterDigital VC Holdings Inc
Publication of CN114868396A publication Critical patent/CN114868396A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种用于对表示3D场景的体积视频内容进行编码的方法。该方法包括获得在该3D场景内限定的参考观看框和中间观看框。对于该参考观看边界框,体积视频参考子内容被编码为中心图像和外围分块以用于视差。对于该中间观看边界框,体积视频中间子内容被编码为中间中心分块,该中间中心分块是中间中心图像和参考中心图像之间的差异。

Description

用于多视点3DoF+内容的编码和解码的方法和装置
1.技术领域
本发明原理总体涉及三维(3D)场景和体积视频内容的域。还在编码、格式化和解码表示3D场景的纹理和几何结构的数据的上下文中理解本文档,以在诸如移动设备或头戴式显示器(HMD)的最终用户设备上渲染体积视频内容。
2.背景技术
本部分旨在向读者介绍本领域的各个方面,这些方面可能与下文描述和/或要求保护的本发明原理的各个方面有关。据信该讨论有助于为读者提供背景信息,以促进更好地理解本发明原理的各个方面。因此,应当理解,这些陈述应当从这个角度来解读,而不是承认现有技术。
最近,可用的大视场内容(高达360°)有所增长。观看沉浸式显示设备(诸如头戴式显示器、智能眼镜、PC屏幕、平板电脑、智能电话等)上的内容的用户可能无法完全看到此类内容。这意味着在给定的时刻,用户只能观看一部分内容。然而,用户通常可通过例如头部移动、鼠标移动、触摸屏、语音以及类似物的各种手段在内容内导航。通常希望对该内容进行编码和解码。
沉浸式视频(也称为360°平面视频)允许用户通过围绕静止视点旋转其头部来观看自己周围的一切。旋转仅允许3自由度(3DoF)体验。即使3DoF视频足以满足第一次全向视频体验(例如,使用头戴式显示器(HMD设备))的要求,但3DoF视频对于期望更多自由(例如,通过体验视差)的观看者可能很快变得令人沮丧。此外,3DoF还可能导致眩晕,因为用户永远不会只旋转其头部,而是还向三个方向平移头部,这些平移不会在3DoF视频体验中再现。
其中,大视场内容可以是三维计算机图形图像场景(3D CGI场景)、点云或沉浸式视频。许多术语可用于设计此类沉浸式视频:例如,虚拟现实(VR)、360、全景、4π球面度、沉浸式、全向或大视场。
体积视频(也称为6自由度(6DoF)视频)是3DoF视频的替代方案。在观看6DoF视频时,除了旋转之外,用户还可以在观看的内容中平移其头部,甚至其身体,并且体验视差甚至体积。这种视频显著增加了沉浸感和对场景深度的感知,并通过在头部平移期间提供一致的视觉反馈来防止眩晕。内容是通过专用传感器创建的,允许同时记录感兴趣场景的颜色和深度。即使仍然存在技术困难,使用结合摄影测量技术的彩色相机装备也是执行这种记录的一种方式。
虽然3DoF视频包括由纹理图像的解映射产生的图像序列(例如,根据纬度/经度投影映射或等角投影映射编码的球面图像),但6DoF视频帧嵌入了来自多个视点的信息。它们可被视为由三维捕获产生的点云的时间序列。根据观看条件可以考虑两种体积视频。第一种(即完整的6DoF)允许在视频内容内完全自由导航,而第二种(又名3DoF+)将用户观看空间限制到称为观看边界框的有限体积,从而允许有限的头部平移和视差体验。该第二种情况是在自由导航和就座观众的被动观看条件之间的有价值的折衷。
体积视频内容的数据量是重要的并且要求大存储容量,并且需要高比特率来传送此类数据。用于出于存储、传送或解码目的而减少对应于那些体积视频的数据量的解决方案表示待调查的广泛研究对象。
3.发明内容
以下呈现本发明原理的简化概述,以便提供对本发明原理的一些方面的基本理解。本发明内容不是本发明原理的广泛概述。不旨在识别本发明原理的关键或重要元素。以下发明内容仅以简化形式呈现本发明原理的一些方面,作为下面提供的更详细描述的前言。
根据第一方面,提供了一种用于在数据流中对3D场景进行编码的方法。该方法包括:
-获得在该3D场景内限定的参考观看框和中间观看框;
-在该数据流中对从该参考观看框的中心处的视点捕获的参考中心视图和对从该参考观看框中的不同视点捕获的图像进行编码的参考外围分块进行编码;
-在该数据流中对至少一个中间中心分块进行编码,该至少一个中间中心分块对从该中间观看框的中心捕获的视图和该参考中心视图之间的差异进行编码;以及
-在该数据流中对描述该参考观看框和该中间观看框以及这些不同视点的元数据进行编码。
在一个或多个实施方案中,该参考观看框是在该3D场景内(例如,在该3D场景内部的导航空间内)限定的一组参考观看框中的距该中间观看边界框最近的参考观看框。参考外围分块可对外围图像和该参考中心视图之间的差异进行编码。
在实施方案中,该中间观看边界框与该参考观看边界框重叠。在另一个实施方案中,例如经由网络将对该3D场景进行编码的该数据流传输到客户端设备。
还提供了一种用于在数据流中对3D场景进行编码的设备。该设备包括用于执行根据第一方面的方法的装置(例如与存储器相关联的处理器)。
根据第二方面,还提供了一种用于从数据流检索3D场景的方法。该方法包括:
-从该数据流对以下项进行解码:
·元数据,该元数据描述该3D场景中的参考观看框和中间观看框;
·参考中心视图,该参考中心视图是从该参考观看框的中心处的视点捕获的;
·至少一个中间中心分块,该至少一个中间中心分块对从该中间观看框的中心捕获的视图和该参考中心视图之间的差异进行编码;
-通过对该参考中心视图的像素和该至少一个中间中心分块的像素进行去投影来检索该3D场景。
在实施方案中,该方法包括:
-从该数据流对参考外围分块进行解码,该参考外围分块对从该参考观看框中的不同视点捕获的图像进行编码;
-通过对该参考外围分块的子组的像素进行去投影来检索该3D场景。
该参考外围分块的该子组可以是根据位于该中间观看框中的视点来选择的。该参考观看框可以是在该3D场景内限定的一组参考观看边界框中的距该中间观看边界框最近的参考观看框。
在一些实施方案中,该方法还包括:针对位于该中间观看框中的视点渲染视口图像。
还提供了一种设备,该设备包括用于执行根据第二方面的方法的装置(例如与存储器相关联的处理器)。
还提供了一种非暂态处理器可读介质,该非暂态处理器可读介质具有存储的指令,该指令用于使至少一个处理器至少执行分别根据第一方面或第二方面的方法的步骤。
4.附图说明
将更好地理解本公开,并且在阅读以下描述、参考附图的描述之后,将出现其他特定特征和优点,其中:
-图1示出了根据本发明原理的非限制性实施方案的对象的三维(3D)模型和对应于该3D模型的点云的点;
-图2示出了根据本发明原理的非限制性实施方案的对表示3D场景序列的数据进行编码、传输和解码的非限制性示例;
-图3示出了根据本发明原理的非限制性实施方案的可被配置为实现关于图12至图15描述的方法的设备的示例性架构;
-图4示出了根据本发明原理的非限制性实施方案的当通过基于分组的传输协议传输数据时数据流的语法的实施方案的示例;
-图5示出了根据本发明原理的非限制性实施方案的来自中心视点的球面投影;
-图6示出了包括3D场景的点的纹理信息的图集的示例;
-图7示出了包括与在包括图6的纹理信息的图集中编码的3D场景相同的3D场景的点的深度信息的图集的示例;
-图8示出了根据本发明原理的非限制性实施方案的存储和流式传输表示3D场景的体积视频内容的方面;
-图9示出了根据本发明原理的非限制性实施方案的用于对中间体积视频子内容进行编码的步骤的方面;
-图10表示根据本发明原理的非限制性实施方案的与体积视频参考子内容和体积视频中间子内容相关联的图集;
-图11表示根据本发明原理的非限制性实施方案的中间中心分块;
-图12示出了根据本发明原理的非限制性实施方案的用于对与3D场景相关的体积视频内容进行编码的方法的流程图;
-图13示出了根据本发明原理的非限制性实施方案的用于传输与3D场景相关的体积视频内容的方法的流程图;
-图14示出了根据本发明原理的非限制性实施方案的用于对与3D场景相关的体积视频内容进行解码的方法的流程图;
-图15示出了根据本发明原理的非限制性实施方案的用于渲染与3D场景相关的体积视频内容的方法的流程图;
-图16示出了根据本发明原理的非限制性实施方案的存储和流式传输表示3D场景的体积视频内容的方面。
5.具体实施方式
下文将参考附图更全面地描述本发明原理,在该附图中示出了本发明原理的示例。然而,本发明原理可以许多替代形式体现,并且不应被解释为限制于本文阐述的示例。因此,虽然本发明原理易受各种修改和替代形式的影响,但是其具体示例通过附图中的示例示出,并且本文将详细描述。然而,应当理解,不存在将本发明原理限制为所公开的特定形式的意图,但是相反,本公开用于涵盖落入由权利要求书限定的本发明原理的实质和范围内的所有修改、等同物和替代方案。
本文使用的术语仅出于描述特定示例的目的,并且不旨在限制本发明原理。如本文所用,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确说明。将会进一步理解,当用于本说明书时,术语“包括”和/或“包含”指定存在所述特征、整数、步骤、操作、元件和/或分量,但不排除一个或多个其他特征、整数、步骤、操作、元件、分量和/或其组的存在或添加。此外,当元件被称为“响应”或“连接”到另一元件时,它可以直接响应或连接到另一元件,或者可以存在中间元件。相反,当元件被称为“直接响应”或“直接连接”到其他元件时,不存在中间元件。如本文所用,术语“和/或”包括列出的相关联项中的一者或多者的任何和所有组合,并且可以缩写为“/”。
应当理解,尽管在本文中可使用术语第一、第二等来描述各种元件,但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一元件区分开。例如,在不脱离本发明原理的教导内容的情况下,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件。
尽管一些图示包括通信路径上的箭头以显示主通信方向,但是应理解,通信可以在与所描绘箭头相反的方向上发生。
关于其中每个框表示电路元件、模块或代码部分的框图和操作流程图描述了一些示例,该代码部分包括用于实现指定逻辑功能的一个或多个可执行指令。还应当指出的是,在其他具体实施中,框中标注的功能可能不按标注的顺序出现。例如,连续显示的两个框实际上可基本上同时执行,或者这些框有时可根据所涉及的功能以相反的顺序执行。
本文中的“根据一个示例”或“在一个示例中”的参考意味着结合示例描述的特定特征、结构或特性可以包括在本发明原理的至少一个具体实施中。说明书中各个地方的“根据一个示例”或“在一个示例中”的短语的出现不一定全部参考同一示例,也不一定是与其他示例相互排斥的单独的或替代的示例。
在权利要求书中出现的附图标号仅通过说明的方式,并且对权利要求书的范围没有限制作用。虽然未明确描述,但本示例和变体可以任何组合或子组合采用。
将参考以下项的特定实施方案来描述本发明原理:用于在数据流中对与3D场景相关的体积视频内容进行编码的方法;用于从数据流对此类体积视频内容进行解码的方法;以及用于根据所提及的解码方法解码的体积视频内容的体积渲染的方法。
根据本发明原理,从包括多个对象的3D场景开始,实现的编码方法用于生成携带表示3D场景的数据(例如数据流)的经编码的体积视频内容。编码方法生成3D场景中包含的体积信息。在3D场景中的导航空间内限定参考3DoF+观看边界框和中间3DoF+观看边界框。
对于参考3DoF+观看边界框,表示3D场景的一部分的体积视频参考子内容使用参考中心视图和一个或多个参考外围分块进行编码。参考中心视图对体积视频参考子内容的中心图像进行编码,而一个或多个参考外围分块对体积视频参考子内容的一个或多个外围图像进行编码。
通过体积视频参考子内容的中心图像,可理解由定位在参考3DoF+观看边界框的中心处并且根据参考3DoF+观看边界框的主要视点定向的相机捕获的图像。还可理解通过两个其他图像的插值获得的图像,如由定位在参考3DoF+观看边界框的中心处并且根据参考3DoF+观看边界框的主要视点定向的虚拟相机观看到的图像。
通过外围图像,可理解由具有与捕获体积视频参考子内容的中心图像并且对应于包括在参考3DoF+观看边界框中的视点的相机不同的位姿的相机捕获的图像。还可理解通过两个其他图像的插值获得的图像,如由具有特定位姿的虚拟相机观看到的图像。
术语分块指定可由两个图像之间的差异引起的残留图像。
根据本发明原理,对应于中间3DoF+观看边界框的中间体积视频子内容的编码是基于中间3DoF+观看边界框的中心图像的差分编码。该编码是中间体积视频子内容相对于参考体积视频子内容的相对编码。此参考体积视频子内容可对应于在3D场景中的导航空间内限定的一组参考观看边界框中的距中间观看边界框最近的参考观看边界框。可由对应于所考虑的参考3DoF+观看边界框的参考中心视图或参考中心图像(例如通过参考中心视图或参考中心图像的去投影和重新投影)生成差分中间中心图像。
由一个或多个残留分块(在其中也称为一个或多个中间中心分块)对中间体积视频子内容进行编码。对于中间3DoF+观看边界框,使用至少一个中间中心分块对表示3D场景的一部分的体积视频中间子内容进行编码,该至少一个中间中心分块对体积视频中间子内容的中心图像和体积视频参考子内容的中心图像之间的差异(或者更精确地,体积视频中间子内容的中心图像和体积视频参考子内容的中间中心图像之间的差异)进行编码。
体积视频中间子内容的中心图像可以是由定位在中间3DoF+观看边界框的中心处并且根据中间3DoF+观看边界框的主要视点定向的相机捕获的图像。它可以是通过两个其他图像的插值获得的图像,如由定位在中间3DoF+观看边界框的中心处并且根据中间3DoF+观看边界框的主要视点定向的虚拟相机观看到的图像。
本发明原理允许显著减少数据量以存储和/或传输和/或解码由在空间上布置成实现6DoF体验的多个3DoF+内容制成的体积视频。
此外,与3DoF+内容的独立编码相比,编码和解码复杂性不会增加:使用常规的去投影和投影(例如使用图形渲染管线)来生成中心图像,并且用于提取残留分块的差异函数仅涉及基本的逐像素比较。
根据本发明原理,公开了在流式传输设备中实现的传输方法。从源(例如存储器)获得表示根据上文呈现的编码方法编码的3D场景的体积视频内容。考虑了对应于导航空间内的视点的位置,以及包括此位置的对应3DoF+观看边界框。在对应3DoF+观看边界框是中间观看边界框的情况下,然后根据该方法,传输对与中间观看边界框相关联的体积视频中间子内容进行编码的至少一个中间中心分块以及对3D场景中的导航空间内的给定参考观看边界框的体积视频参考子内容的中心图像进行编码的参考中心视图。
根据本发明原理,公开了在解码器中实现的解码方法。解码器获得至少一个中间中心分块,该至少一个中间中心分块对以下两方面之间的差异进行编码:一方面,表示3D场景并且与3D场景的导航空间中的中间观看边界框相关联的体积视频内容的体积视频中间子内容的中心图像;以及另一方面,针对给定参考观看边界框编码的体积视频内容的体积视频参考子内容的中心图像。解码器还获得对体积视频参考子内容的中心图像进行编码的参考中心视图。使用至少一个中间中心分块和参考中心视图,解码器生成呈点云的形式的经解码的体积视频子内容。
给定参考观看边界框可以是在3D场景中的导航空间内限定的一组参考观看边界框中的距中间观看边界框最近的参考观看边界框。
呈点云的形式的经解码的体积视频子内容的生成可以如下进行。参考中心视图经历基于投影参数的2D到3D去投影,并且被去投影成临时点云。然后,临时点云在对应体积平面上在3DoF+中间观看边界框的主要视点的方向上经历基于投影参数的3D到2D投影。观看边界框中的视点与体积平面相关联。体积平面是相对于对应于与体积平面相关联的视点的虚拟相机位姿的与3D场景相关的体积信息的2D投影。通过临时点云的3D到2D投影,获得中间中心图像。然后使用由解码器获得的至少一个中间中心分块来替换中间中心图像中的对应像素以获得重建的中间中心图像。然后,重建的中间中心图像经历基于投影参数的2D到3D去投影,并且被去投影成从3DoF+中间观看边界框的主要视点观看到的点云。本文所考虑的投影是例如在图形渲染领域中已知的任何类型的投影或去投影。它们将来自3D数据的参数化输送到2D数据(映射投影),或反之亦然。
解码器还可获得对体积视频参考子内容的一个或多个外围图像进行编码的一个或多个参考外围分块。在这种情况下,解码器可生成呈从3DoF+中间观看边界框中包括的不同于3DoF+中间观看边界框的主要视点的视点观看到的点云的形式的经解码的体积视频子内容。通过使用至少一个中间中心分块、参考中心视图和一个或多个参考外围分块中的至少一个参考外围分块来进行对应的经解码的体积视频子内容的生成。
对应的经解码的体积视频子内容的生成可以如下进行。如前所述,从重建的中间中心图像获得从3DoF+中间观看边界框的主要视点观看到的点云。考虑到为了生成从3DoF+中间观看边界框中包括的并且不同于3DoF+中间观看边界框的主要视点的当前视点观看到的另一点云,使用了一个或多个参考外围分块中的至少一个参考外围分块,其与当前视点相关。从3DoF+中间观看边界框的主要视点观看到的点云在当前视点的方向上经历基于投影参数的3D到2D投影,以重建当前中心图像。然后,利用来自一个或多个参考外围分块中的至少一个参考外围分块的像素完成当前中心图像。随后,当前中心图像经历基于投影参数的2D到3D去投影,以获得从当前视点观看到的点云。
根据本发明原理,公开了一种用于渲染表示3D场景的体积视频内容的方法。最终用户在渲染3D空间内选择视点。考虑了对应于渲染3D空间内的视点的位置,以及以此位置为中心的对应3DoF+观看边界框。在对应的3DoF+观看边界框是中间观看边界框的情况下,然后根据该方法,根据上文呈现的方法对表示3D场景并且与中间观看边界框相关联的体积视频内容的体积视频中间子内容进行解码。然后在渲染设备上渲染经解码的体积视频中间子内容。
图1示出了对象的三维(3D)模型10和对应于3D模型10的点云11的点。3D模型10和点云11可例如对应于包括其他对象的3D场景的对象的可能3D表示。模型10可以是3D网格表示,并且点云11的点可以是网格的顶点。点云11的点也可以是分布在网格面的表面上的点。模型10也可表示为点云11的喷溅版本,模型10的表面是通过喷溅点云11的点而创建的。模型10可由诸如体素或样条的许多不同表示来表示。图1示出了可用3D对象的表面表示来定义点云以及可从云点生成3D对象的表面表示的事实。如本文所用,将3D对象的点(引申为3D场景的点)投影到图像上等效于投影该3D对象的任何表示,例如点云、网格、样条模型或体素模型。
点云可在存储器中表示为例如基于矢量的结构,其中每个点在视点的参照系中都有自己的坐标(例如三维坐标XYZ,或立体角和从/到视点的距离(也称为深度))和一个或多个属性,也称为分量。分量的一个示例是可在各种色彩空间中表示的颜色分量,例如RGB(红、绿和蓝)或YUV(Y是亮度分量并且UV是两个色度分量)。点云是包括对象的3D场景的表示。可从给定视点或视点范围看到3D场景。点云可通过多种方式获得,例如:
·从由相机装备拍摄的真实对象的捕获,任选地辅以深度主动感测设备;
·从由建模工具中的虚拟相机装备拍摄的虚拟/合成对象的捕获;
·从真实对象和虚拟对象两者的混合。
图2示出了对表示3D场景序列的数据进行编码、传输和解码的非限制性示例。编码格式可例如同时兼容3DoF、3DoF+和6DoF解码。
获得3D场景序列20。如同画面序列是2D视频,3D场景序列是3D(也称为体积)视频。可将3D场景序列提供给体积视频渲染设备以进行3DoF、3Dof+或6DoF渲染和显示。
可将3D场景序列20提供给编码器21。编码器21将一个3D场景或3D场景序列作为输入,并提供表示该输入的数据流22。数据流22可存储在存储器中和/或电子数据介质上,并且可通过网络传输。数据流22可由被配置为将数据流22传输到解码器23的流式传输设备26接收和存储。表示3D场景序列的数据流22可由解码器23从存储器和/或在电子数据介质上读取和/或通过网络接收。解码器23由所述数据流22输入并提供例如点云格式的3D场景序列。该3D场景序列可以由渲染设备28渲染。
编码器21可包括实现若干步骤的若干电路。在第一步骤中,编码器21将每个3D场景投影到至少一个2D画面上。3D投影是将三维点映射到二维平面的任何方法。由于用于显示图形数据的大多数当前方法都基于平面(来自几个位平面的像素信息)二维介质,因此这种类型的投影的用途是广泛的,在计算机图形、工程和制图方面尤为如此。投影电路211为3D场景20序列提供至少一个二维帧2111。帧2111包括表示投影到帧2111上的3D场景的颜色信息和深度信息。在变体中,颜色信息和深度信息被编码在两个单独的帧2111和2112中。
元数据212由投影电路211使用和更新。元数据212包括关于投影操作的信息(例如投影参数)以及关于颜色和深度信息在帧2111和2112内的组织方式的信息,如结合图5至图7所述。
视频编码电路213将帧2111和2112序列编码为视频。3D场景的画面2111和2112(或3D场景的画面序列)由视频编码器213在数据流中进行编码。然后,视频数据和元数据212由数据封装电路214封装在数据流中。
编码器213例如与诸如以下的编码器兼容:
-JPEG,规范ISO/CEI 10918-1UIT-T Recommendation T.81,https://www.itu.int/rec/T-REC-T.81/en;
-AVC,也称为MPEG-4AVC或h264。在UIT-T H.264和ISO/CEI MPEG-4第10部分(ISO/CEI 14496-10)两者中规定,http://www.itu.int/rec/T-REC-H.264/en,HEVC(其规范见于ITU网站,T recommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en);
-3D-HEVC(HEVC的扩展,其规范见于ITU网站,T recommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and I);
-Google开发的VP9;或者
-由Alliance for Open Media开发的AV1(AOMedia Video 1)。
数据流22被存储在可由解码器23例如通过网络访问的存储器中。解码器23包括实现不同的解码步骤的不同电路。解码器23将由编码器21生成的数据流作为输入,并提供待由如头戴式设备(HMD)的体积视频显示设备渲染和显示的3D场景序列24。解码器23从源22获得数据流。例如,源22属于一组,该组包括:
-本地存储器,例如视频存储器或RAM(或随机存取存储器)、闪存存储器、ROM(或只读存储器)、硬盘;
-存储接口,例如具有大容量存储装置、RAM、闪存存储器、ROM、光盘或磁性载体的接口;
-通信接口,例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或
Figure BDA0003687891390000121
接口);以及
-使用户能够输入数据的用户界面,诸如图形用户界面。
解码器23包括用于提取在数据流中编码的数据的电路234。电路234将数据流作为输入,并提供对应于在数据流中编码的元数据212的元数据232和二维视频。视频由提供帧序列的视频解码器233解码。解码帧包括颜色和深度信息。在变体中,视频解码器233提供两个帧序列,一个包含颜色信息,另一个包含深度信息。电路231使用元数据232对来自解码帧的颜色和深度信息进行去投影,以提供3D场景序列24。3D场景序列24对应于3D场景序列20,可能损失与作为2D视频的编码和视频压缩相关的精度。
本文公开的本发明原理涉及视频编码方法213、所生成并且对于3D到2D投影步骤211所需要的元数据212、以及编码器21。
它们还涉及视频解码方法233、所接收并且用于2D到3D去投影步骤231的元数据232、以及解码器23。
图3示出了可被配置为实现参考图12至图15中任一者描述的方法的设备30的示例性架构。图2的编码器21和/或解码器23可实现该架构。另选地,编码器21和/或解码器23和/或流式传输设备26和/或渲染设备28的每个电路可以是根据图3的架构的设备,例如经由其总线31和/或经由I/O接口36链接在一起。
设备30包括通过数据和地址总线31连接在一起的以下元件:
-微处理器32(或CPU),该微处理器是例如DSP(或数字信号处理器);
-ROM(或只读存储器)33;
-RAM(或随机存取存储器)34;
-存储接口35;
-I/O接口36,该I/O接口用于从应用程序接收要传输的数据;以及
-电源,例如电池。
根据一个示例,电源在设备外部。在每个提到的存储器中,说明书中使用的词语“寄存器”可以对应于小容量的区域(一些位)或非常大的区域(例如,整个程序或大量接收或解码的数据)。ROM 33至少包括程序和参数。ROM 33可以根据本发明原理存储用于执行技术的算法和指令。当接通时,CPU 32上载RAM中的程序并执行对应指令。
RAM 34包括寄存器中的由CPU 32执行并在设备30的接通之后上载的程序、寄存器中的输入数据、寄存器中的方法的不同状态中的中间数据以及用于在寄存器中执行方法的其他变量。
本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法或设备讨论),讨论的特征的具体实施也可以其他形式(例如,程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如,例如处理器)中实施,该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。
根据示例,设备30被配置为实现参考图12至图15中的每一者描述的方法,并且可属于包括以下项的集合:
-移动设备;
-通信设备;
-游戏设备;
-平板电脑(或平板计算机);
-膝上型电脑;
-静态图片相机;
-摄像机;
-编码芯片;
-服务器(例如广播服务器、视频点播服务器或web服务器)。
图4示出了当通过基于分组的传输协议传输数据时数据流的语法的实施方案的示例。图4示出了体积视频数据流的示例性结构4。该结构包含在以独立的语法元素组织数据流的容器中。该结构可包括标头部分41,该标头部分是数据流的每个语法元素所共有的一组数据。例如,标头部分包括关于语法元素的一些元数据,描述它们中每一个的性质和角色。标头部分还可包括图2的元数据212的一部分,例如用于将3D场景的点投影到帧2111和2112上的中心视点的坐标。
在本发明原理中,图2的元数据212可包括在待编码、传输、解码和渲染的3D场景的导航空间中限定的参考观看边界框和中间观看边界框的位置和大小。它们还可包括投影参数,诸如3D到2D投影参数或2D到3D去投影参数。当参见参考观看边界框时,投影参数可称为参考投影参数。当参见中间观看边界框时,投影参数可称为中间投影参数。本文所考虑的投影是例如在图形渲染领域中已知的任何类型的投影或去投影。它们将来自3D数据的参数化输送到2D数据(映射投影),或反之亦然。
该结构包括有效载荷,该有效载荷包括语法元素42和至少一个语法元素43。语法元素42包括表示颜色和深度帧的数据。图像可能已根据视频压缩方法进行了压缩。
语法元素43是数据流的有效载荷的一部分,并且可包括关于如何对语法元素42的帧进行编码的元数据,例如用于将3D场景的点投影和打包到帧上的参数。此类元数据可与视频的每个帧或帧组(在视频压缩标准中也称为画面组(GoP))相关联。
图5示出了分块图集方法,可使用该方法对与3D场景相关的、与3DoF+观看边界框相关联的3DoF+体积视频内容进行编码。分块图集包括分块,即可由两个图像之间的差异引起的残留图像。分块对来自在3DoF+体积视频内容中表示的3D场景的部分的不同区域的3DoF+体积视频内容的体积信息进行编码。通过到投影中心上的3D到2D投影获得分块。3D到2D投影可以是例如在图形渲染领域中已知的任何类型。中心视图可包括在图集中,对应于在3DoF+观看边界框的主要视点的方向上的3D到2D投影,该主要视点可与3DoF+观看边界框的中心重合。此类中心视图可包括从主要视点可见的3D场景的部分。小外围分块可包括在图集中,对应于在不同于3DoF+观看边界框的主要视点的视点的方向上的3D到2D投影。小外围分块可包括从主要视点不可见的部分。
中心视图对从3DoF+观看边界框的主要视点观看到的3D场景的中心图像(例如非残留图像)进行编码。
在图5中,示出了4个投影中心的示例。3D场景50包括人物。例如,投影中心51是透视相机,并且相机53是正射相机。相机还可以是具有例如球面映射(例如等矩形映射)或立方体映射的全向相机。根据在元数据的投影数据中描述的投影操作,3D场景的3D点被投影到与位于投影中心处的虚拟相机相关联的2D平面上。在图5的示例中,根据透视映射将由相机51捕获的点的投影映射到分块52上,并且根据正射映射将由相机53捕获的点的投影映射到分块54上。
投影像素的群集产生多个2D分块,其被打包在矩形图集55中。图集内分块的组织限定了图集布局。在实施方案中,具有相同布局的两个图集:一个用于纹理(即颜色)信息,并且一个用于深度信息。由同一相机或由两个不同相机捕获的两个分块可包括表示3D场景的相同部分的信息,如例如分块54和56。
打包操作为每个生成的分块产生分块数据。分块数据包括对投影数据的引用(例如,投影数据表中的索引或指向投影数据的指针(即,存储器中或数据流中的地址))和描述图集内分块的位置和尺寸的信息(例如,左上角坐标、尺寸和以像素为单位的宽度)。将分块数据项添加到元数据,以与一个或两个图集的压缩数据相关联地封装在数据流中。
图6示出了根据本发明原理的非限制性实施方案的包括3D场景的点的纹理信息(例如,RGB数据或YUV数据)的图集60的示例。如关于图5所解释的,图集是具有或不具有中心视图的聚集图像打包分块。在图集内,中心视图也可称为中心分块,尽管中心视图通常不是残留图像,而是3D场景的完整图像。
在图6的示例中,图集60包括第一部分61和一个或多个第二部分62,该第一部分包括3D场景的从视点可见的点的纹理信息。第一部分61的纹理信息可例如根据等角投影映射来获得,等角投影映射是球面投影映射的示例。在图6的示例中,第二部分62布置在第一部分61的左边界和右边界处,但第二部分可以不同地布置。第二部分62包括与从视点可见的部分互补的3D场景的部分的纹理信息。可通过以下方式获得第二部分:从3D场景中移除从第一视点可见的点(其纹理存储在第一部分中)并且根据相同的视点来投影剩余的点。可以迭代地重复后一过程,以每次获得3D场景的隐藏部分。根据变体,可通过以下方式获得第二部分:从3D场景中移除从视点(例如,中心视点)可见的点(其纹理被存储在第一部分中)并且根据不同于第一视点的视点,例如从以中心视点为中心的观看空间(例如,3DoF渲染的观看空间)的一个或多个第二视点来投影剩余的点。
第一部分61可被看作第一大纹理分块(对应于3D场景的第一部分),并且第二部分62包括较小的纹理分块(对应于与第一部分互补的3D场景的第二部分)。此类图集具有同时与3DoF渲染(当仅渲染第一部分61时)和与3DoF+/6DoF渲染兼容的优点。
图7示出了根据本发明原理的非限制性实施方案的包括图6的3D场景的点的深度信息的图集70的示例。图集70可被看作对应于图6的纹理图像60的深度图像。
图集70包括第一部分71和一个或多个第二部分72,该第一部分包括3D场景的从中心视点可见的点的深度信息。图集70可以与图集60相同的方式获得,但包含与3D场景的点相关联的深度信息而不是纹理信息。
6DoF体积视频内容可由离散观看位置处的一组多个3DoF+体积视频内容表示。
图8示出了存储和流式传输表示3D场景的体积视频内容,以用于6DoF渲染根据先前表示的体积视频内容。如在图8的顶部处所示,在3D场景的导航空间804中的离散观看位置处限定多个3DoF+观看边界框81,并且针对3DoF+观看边界框中的每个3DoF+观看边界框对体积视频子内容进行编码。在此示例中,3DoF+观看边界框不重叠。最终用户80可在3D场景的导航空间内移动。当最终用户80进入3DoF+观看边界框811时,更新801观看位置,并且由解码器获得与新进入的3DoF+观看边界框811相关联的经编码的体积视频子内容。然后在步骤802中对与3DoF+观看边界框81相关联的经编码的体积视频内容进行解码,以在步骤803中合成在由最终用户使用的渲染设备上渲染的视图。
在3DoF+渲染中,用户可在3DoF+观看边界框内移动视点。这使得能够体验视差。表示从3DoF+观看边界框的任何视点可见的3D场景的部分的数据包括在表示整个3D场景并且与3DoF+观看边界框相关联的体积视频内容的体积视频子内容中,包括表示从先前提及的主要视点可见的3D场景的数据。
通常,与3DoF+观看边界框相关联的体积视频子内容以具有中心视图和外围分块的图集的形式进行编码。中心视图对由定位在3DoF+观看边界框的中心处并且根据3DoF+观看边界框的所谓主要视点定向的相机捕获的中心图像进行编码。外围分块对由具有与捕获体积视频参考子内容的中心图像并且对应于包括在3DoF+观看边界框中的视点的相机不同的位姿的相机捕获的外围图像进行编码。
术语“分块”指定可由两个图像之间的差异引起的残留图像。实际上,对于每个观看边界框,外围分块中的每个外围分块对外围图像和中心图像之间的差异进行编码。具体地,外围分块包括去掩蔽(de-occultation)数据或视差信息,这些数据或信息在当前视点由于例如用户从主要视点移位而被改变时使用。中心视图和外围分块可打包在一个图集(或具有相同布局的两个图集,一个包括纹理(或颜色)数据,并且另一个包括深度数据)中。
当保持在3DoF+观看边界框内部时,最终用户将访问表示经渲染的3D场景的所有可访问的体积信息。当超出3DoF+观看边界框时,如果未获得附加信息,则相对于3D场景的体积信息将丢失,并且具体地,离开的3DoF+观看边界框的中心视图将不再适当。最终用户将需要进入另一个3DoF+观看边界框以恢复体积渲染。因此,在两个非重叠3DoF+观看边界框之间插值数据将是感兴趣的。
在3D场景的导航空间(或3D渲染空间)内限定的初始的一组非重叠3DoF+观看边界框中的3DoF+观看边界框可称为参考观看边界框。在那些参考观看边界框之间,可限定所谓的中间观看边界框。表示3D场景的体积视频内容的体积视频子内容可与观看边界框(作为参考观看边界框或中间观看边界框)相关联。与参考观看边界框相关联的体积视频子内容将称为体积视频参考子内容。与中间观看边界框相关联的体积视频子内容将称为体积视频中间子内容。
根据本发明原理的编码方法(相应地,传输方法和解码方法)的目的是通过减少用于对与一个或多个中间观看边界框中的每个中间观看边界框相关联的体积视频子内容行进编码的数据量来减少待编码(相应地,传输和解码)的数据量。
虽然如上所述使用中心视图和外围分块对与3D场景相关的体积视频参考子内容进行编码,但是根据本发明原理以不同方式对与3D场景相关的体积视频中间子内容进行编码。
图9示出了执行用于对中间观看边界框的中间体积视频子内容进行编码的步骤的方面。
对中间体积视频子内容进行编码是基于中间体积视频子内容的中心图像(在本文中也称为中间中心图像)的编码。该编码是中间体积视频子内容相对于参考体积视频子内容(例如对应于距所考虑的中间观看边界框最近的参考观看边界框的参考体积视频子内容)的相对编码。不能来自参考体积视频子内容的中间体积视频子内容由残留分块进行编码。
更精确地,如图9所示,通过使用2D到3D去投影和3D到2D重新投影以生成至少一个中间中心图像(颜色图像920和/或深度图像921)来从至少一个参考中心图像(颜色图像910和/或深度图像911)获得至少一个中间中心图像(颜色图像930和/或深度图像931):参考体积视频子内容的参考中心图像因此被扭曲为从中间观看边界框的主要视点进行观看。
参考中心图像可以是由真实相机捕获的图像,该相机的位姿对应于参考观看边界框的主要视点并且该相机放置在参考观看边界框的主要中心处。参考中心图像还可以是两个图像的插值。参考中心图像还可以是在数据流中针对所考虑的参考观看边界框编码的参考中心视图。
参考中心图像的投影和去投影可例如通过图形渲染管线执行。在中间中心图像中,从中间观看边界框的主要视点可见但从参考观看边界框的主要视点不可见的点丢失。
中间中心图像(颜色图像921和/或深度图像922)通过3D场景在中间观看边界框的主要视点的方向上的投影来生成。例如,此中间中心图像可以是由真实相机捕获的图像,该相机的位姿对应于中间观看边界框的主要视点并且该相机放置在中间观看边界框的中心处。中间中心图像还可以是两个图像的插值。
仅保持不与中间中心图像(颜色图像910、深度图像911)的像素匹配的中间中心图像的像素并由残留分块(940、941)对其进行编码。
如图9所示,从左至右,在参考观看边界框的参考主要视点900(在此为参考中心视点)的方向上进行参考中心图像的2D到3D去投影,之后是在中间观看边界框的中间主要视点901(在此为中间中心视点901)的方向上进行3D到2D投影以生成中间中心图像(920,921)。
然后将差异图像计算为中间中心图像和中间中心图像之间的差异。在右侧,从差异图像,仅一个或多个残留分块被保持用于对中间体积视频子内容进行编码。与通过如上文针对参考体积视频子内容所描述的分块图集对中间体积视频子内容进行编码相比,数据量有所减少。
中间中心图像和中间中心图像之间的差异可通过使用逐像素差异函数来执行。在第一实施方案中,仅考虑深度值之间的绝对差值。在第二实施方案中,除了深度值之间的差值之外,还考虑了颜色值之间的绝对差值。
在一个或多个实施方案中,确定了阈值,并且仅当差异图像的像素值高于限定阈值时,该差异图像的对应深度值和颜色值被保持并编码成残留分块。差异图像的这些部分对应于3D场景的(通常小的)部分,这些部分未在参考体积视频子内容中观看到或者在镜面反射和/或定向照明的情况下以不同颜色观看到。差异图像的这些保持的像素聚类成残留分块,这些残留分块被进一步打包成(小尺寸的)残留图集。存储残留分块在中间中心分块内的位置。
3D场景剥离过程的进一步迭代(其捕获从来自偏移位置的中心视点遮挡的场景部分(以实现视差))发生并且可产生附加的残留分块。
所考虑的参考观看边界框可以是在3D场景中的导航空间内限定的一组参考观看边界框中的距中间观看边界框最近的参考观看边界框。所考虑的参考观看边界框和中间观看边界框可重叠。
图10在其左侧部分上示出了针对参考观看边界框对体积视频参考子内容进行编码的颜色分块图集1000的示例,而在其右侧部分上示出了对应于中间观看边界框的从向右偏移10cm的视点观看到的中心图像1010。
图11在左侧示出了中间中心图像和对应中间中心图像之间的逐像素差异1100的结果。从此差异图像,可提取中间中心分块1110,如图11的右侧部分所示。那些中间中心分块是残留分块,该残留分块可打包在较小尺寸的图集(在本文中也称为残留图集)中。此残留图集不包括任何中心视图,只包括残留分块。
图12示出了根据本发明原理的非限制性实施方案的用于对与3D场景相关的体积视频内容进行编码的方法。该方法的步骤可由参考图3描述的设备30和/或参考图2描述的编码器21执行。
在步骤1200中,更新设备30的不同参数。具体地,从源获得3D场景。
在步骤1201中,获得在3D场景中的导航空间内限定的参考观看边界框和中间观看边界框。
在步骤1202中,执行两个子步骤1202A和1202B:
-在步骤1202A中,使用参考中心视图和一个或多个参考外围分块对体积视频参考子内容进行编码。参考中心视图对体积视频参考子内容的中心图像进行编码,并且一个或多个参考外围分块对体积视频参考子内容的一个或多个外围图像进行编码。
-在步骤1202B中,由对体积视频中间子内容的中心图像和体积视频参考子内容的中心图像之间的差异进行编码的至少一个中间中心分块对体积视频中间子内容进行编码。
图13示出了根据本发明原理的非限制性实施方案的用于传输与3D场景相关的体积视频内容的方法。该方法的步骤可由参考图3描述的设备30和/或参考图2描述的流式传输设备26执行。
在步骤1300中,更新设备30的不同参数。具体地,从源(例如存储器)获得与根据本文呈现的编码方法编码的3D场景相关的体积视频内容。
在步骤1301中,获得3D场景内的对应于视点的位置。
在步骤1302中,获得对应于包括在步骤1301处获得的位置的中间观看边界框的当前观看边界框。
在步骤1303中,传输对与中间观看边界框相关联的体积视频中间子内容进行编码的至少一个中间中心分块和针对参考观看边界框对体积视频参考子内容进行编码的参考中心视图。
图14示出了根据本发明原理的非限制性实施方案的用于对表示3D场景的体积视频内容的体积视频中间子内容进行解码的方法。该方法的步骤可由参考图3描述的设备30和/或参考图2描述的解码器23执行。
在步骤1400中,更新设备30的不同参数。具体地,对于3D场景中的中间观看边界框,获得对体积视频中间子内容的中心图像和针对参考观看边界框编码的体积视频内容的体积视频参考子内容的中心图像之间的差异进行编码的至少一个中间中心分块。参考观看边界框可以是在3D场景的导航空间内限定的一组参考观看边界框中的距中间观看边界框最近的参考观看边界框。
在步骤1401中,获得对体积视频参考子内容的中心图像进行编码的参考中心视图。
在步骤1402中,生成来自至少一个中间中心分块和参考中心视图的呈点云的形式的经解码的体积视频子内容。
步骤1402可包括以下子步骤1402A、1402B、1402C和1402D:
-在子步骤1402A中,参考中心视图经历2D到3D去投影并且被去投影到临时点云上;.
-在子步骤1402B中,临时点云经历3D到2D投影以获得中间中心图像;
-在子步骤1402C中,利用至少一个中间中心分块替换中间中心图像内的对应像素以获得重建的中间中心图像;
-在子步骤1402D中,重建的中间中心图像经历2D到3D去投影以获得对应于中间观看边界框中的中心图像的点云。
在步骤1402之后可以是获得与中间体积视频子内容相关的元数据的附加步骤1402'。元数据可包括参考观看边界框的中心和中间观看边界框的中心的位置、参考投影参数和中间投影参数。在子步骤1402A中,使用参考观看边界框的中心和参考投影参数。在子步骤1402B和1402D中,使用中间观看边界框的中心和中间投影参数。
解码方法还可包括以下附加步骤1403和1404。
在步骤1403中,获得对体积视频参考子内容的一个或多个外围图像进行编码的一个或多个参考外围分块。
在步骤1404中,针对中间观看边界框中的外围图像,生成来自至少一个中间中心分块、参考中心视图和一个或多个参考外围分块中的至少一个参考外围分块的呈点云的形式的经解码的体积视频子内容。
步骤1404可包括以下子步骤:
-对应于子步骤1402A的子步骤1404A,用于获得临时点云;
-对应于子步骤1402B的子步骤1404B,用于获得中间中心图像;
-对应于子步骤1402C的子步骤1404C,用于获得重建的中间中心图像;
-子步骤1404D,其中一个或多个参考外围分块和重建的中间中心图像用于重建中间观看边界框中的当前中心图像;
-子步骤1404E,其中当前中心图像经历2D到3D去投影以获得对应于中间观看边界框中的外围图像的点云。
图15示出了根据本发明原理的非限制性实施方案的用于渲染表示3D场景的体积视频内容的方法。该方法的步骤可由参考图3描述的设备30和/或参考图2描述的渲染设备28执行。
在步骤1500中,更新设备30的不同参数。具体地,获得渲染3D空间内的第一视点。
在步骤1501中,根据上文呈现的解码方法对体积视频内容的中间体积视频子内容进行解码。
在步骤1502中,渲染经解码的中间体积视频子内容。
图16示出了存储和流式传输表示3D场景的体积视频内容。表示3DoF+观看边界框160、161、162和163。3DoF+观看边界框160和163可以是3DoF+参考观看边界框,而3DoF+观看边界框161和162可以是3DoF+中间观看边界框。3DoF+观看边界框160、161、162和163与3DoF+体积视频子内容1600、1601、1602和1603相关联。3DoF+体积视频子内容1600和1603可以是参考3DoF+体积视频子内容,而3DoF+体积视频子内容1601和1602可以是中间3DoF+体积视频子内容。如前所述,3DoF+体积视频子内容1600和1603可使用参考中心视图和外围分块进行编码。根据先前呈现的原理,3DoF+体积视频子内容1601和1602可使用至少一个中间中心分块进行编码。
当最终用户在3D渲染空间中沿循如图16所示的3D路径依次通过等于0、1、2和3的位置X时,可能经历6DoF渲染。从等于0的位置X开始,最终用户定位在3DoF+观看边界框160中。3DoF+体积视频子内容1600可被传输到由最终用户使用的渲染设备,进行解码和渲染。然后当移动到等于1的位置X时,最终用户进入3DoF+观看边界框161。3DoF+体积视频子内容1601可根据上文公开的传输方法传输到最终用户的渲染设备,然后分别按根据上文呈现的原理的解码方法和渲染方法进行解码和渲染。然后当移动到等于2的位置X时,最终用户进入3DoF+观看边界框162。3DoF+体积视频子内容1602可根据上文公开的传输方法传输到最终用户的渲染设备,然后按根据上文呈现的原理的解码方法和渲染方法进行解码和渲染。接下来,当移动到等于3的位置X时,最终用户进入3DoF+观看边界框163。3DoF+体积视频子内容1603可被传输到最终用户的渲染设备,然后进行解码和渲染。
所述原理带来的一些益处涉及体积视频内容编码的效率,并允许减少待存储或传输的数据量。它们可以特别应用于包括主要大中心视图的分块图集布局(相对于3DoF+内容),从而嵌入从主要视点可见的场景部分。
本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法或设备讨论),讨论的特征的具体实施也可以其他形式(例如,程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如,例如处理器)中实施,该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如,智能电话、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDA”)以及有利于最终用户之间信息的通信的其他设备。
本文描述的各种过程和特征的具体实施可以体现于各种不同的设备或应用程序中,特别是例如与数据编码、数据解码、视图生成、纹理处理和图像以及相关纹理信息和/或深度信息的其他处理相关联的设备或应用程序。此类设备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、PDA和其他通信设备。应当清楚的是,设备可以是移动的,甚至安装在移动车辆中。
另外,方法可以由处理器执行的指令来实现,并且此类指令(和/或由具体实施产生的数据值)可以存储在处理器可读介质上,诸如例如集成电路、软件载体或其他存储设备,诸如例如硬盘、紧凑型磁盘(“CD”)、光盘(诸如例如,DVD,通常称为数字通用光盘或数字视频光盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成在处理器可读介质上有形地体现的应用程序。指令可以是例如硬件、固件、软件或组合。指令可以在例如操作系统、单独应用程序或两者的组合中发现。因此,处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(诸如存储设备)的设备。此外,除了或代替指令,处理器可读介质可以存储由具体实施产生的数据值。
对于本领域的技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,信号可以被格式化为作为数据携带用于写入或阅读所描述的实施方案的语法的规则,或作为数据携带由所描述的实施方案写入的实际语法值的数据。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的,信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。
已描述了多个具体实施。但应理解的是,可以作出许多修改。例如,可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外,普通技术人员将理解,其他结构和过程可以被替换为所公开的那些,并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能,以实现与所公开的具体实施至少基本相同的结果。因此,本申请考虑了这些和其他具体实施。

Claims (13)

1.一种用于在数据流中对3D场景进行编码的方法,所述方法包括:
-获得在所述3D场景内限定的参考观看框和中间观看框;
-在所述数据流中对从所述参考观看框的中心处的视点捕获的参考中心视图和对从所述参考观看框中的不同视点捕获的图像进行编码的参考外围分块进行编码;
-在所述数据流中对至少一个中间中心分块进行编码,所述至少一个中间中心分块对从所述中间观看框的中心捕获的视图和所述参考中心视图之间的差异进行编码;以及
-在所述数据流中对描述所述参考观看框和所述中间观看框以及所述不同视点的元数据进行编码。
2.根据权利要求1所述的方法,其中所述参考观看框是在所述3D场景内限定的一组参考观看框中的距所述中间观看边界框最近的参考观看框。
3.根据权利要求1或2所述的方法,其中参考外围分块对外围图像和所述参考中心视图之间的差异进行编码。
4.根据权利要求1至3中任一项所述的方法,其中所述中间观看框与所述参考观看框重叠。
5.根据权利要求1至4中的一项所述的方法,还包括传输对所述3D场景进行编码的所述数据流。
6.一种用于从数据流检索3D场景的方法,所述方法包括:
-从所述数据流对以下项进行解码:
·元数据,所述元数据描述所述3D场景中的参考观看框和中间观看框;
·参考中心视图,所述参考中心视图是从所述参考观看框的中心处的视点捕获的;
·至少一个中间中心分块,所述至少一个中间中心分块对从所述中间观看框的中心捕获的视图和所述参考中心视图之间的差异进行编码;
-通过对所述参考中心视图的像素和所述至少一个中间中心分块的像素进行去投影来检索所述3D场景。
7.根据权利要求6所述的方法,包括:
-从所述数据流对参考外围分块进行解码,所述参考外围分块对从所述参考观看框中的不同视点捕获的图像进行编码;
-通过对所述参考外围分块的子组的像素进行去投影来检索所述3D场景。
8.根据权利要求7所述的方法,其中所述参考外围分块的所述子组是根据位于所述中间观看框中的视点来选择的。
9.根据权利要求6至8中任一项所述的方法,其中所述参考观看框是在所述3D场景内限定的一组参考观看边界框中的距所述中间观看边界框最近的参考观看框。
10.根据权利要求6至9中任一项所述的方法,还包括针对位于所述中间观看框中的视点渲染视口图像。
11.一种非暂态处理器可读介质,所述非暂态处理器可读介质具有存储在其中的指令,所述指令用于使至少一个处理器至少执行根据权利要求1至5中任一项或根据权利要求6至10中任一项所述的方法的步骤。
12.一种用于在数据流中对3D场景进行编码的设备,所述设备包括用于执行根据权利要求1至5中任一项所述的方法的装置。
13.一种用于检索3D场景的设备,所述设备包括用于执行根据权利要求6至10中任一项所述的方法的装置。
CN202080085578.5A 2019-12-11 2020-11-30 用于多视点3DoF+内容的编码和解码的方法和装置 Pending CN114868396A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19306624.8 2019-12-11
EP19306624 2019-12-11
PCT/US2020/062585 WO2021118820A1 (en) 2019-12-11 2020-11-30 A method and apparatus for encoding and decoding of multiple-viewpoint 3dof+ content

Publications (1)

Publication Number Publication Date
CN114868396A true CN114868396A (zh) 2022-08-05

Family

ID=69174263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080085578.5A Pending CN114868396A (zh) 2019-12-11 2020-11-30 用于多视点3DoF+内容的编码和解码的方法和装置

Country Status (6)

Country Link
US (1) US11968349B2 (zh)
EP (1) EP4074049A1 (zh)
KR (1) KR20220109433A (zh)
CN (1) CN114868396A (zh)
BR (1) BR112022011389A2 (zh)
WO (1) WO2021118820A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024077806A1 (zh) * 2022-10-14 2024-04-18 浙江大学 一种编解码方法、装置、编码器、解码器及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11756234B2 (en) * 2018-04-11 2023-09-12 Interdigital Vc Holdings, Inc. Method for encoding depth values of a set of 3D points once orthogonally projected into at least one image region of a projection plane
US11798196B2 (en) 2020-01-08 2023-10-24 Apple Inc. Video-based point cloud compression with predicted patches

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100636785B1 (ko) * 2005-05-31 2006-10-20 삼성전자주식회사 다시점 입체 영상 시스템 및 이에 적용되는 압축 및 복원방법
US8351685B2 (en) * 2007-11-16 2013-01-08 Gwangju Institute Of Science And Technology Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same
EP3562159A1 (en) * 2018-04-24 2019-10-30 InterDigital VC Holdings, Inc. Method, apparatus and stream for volumetric video format
EP3595319A1 (en) 2018-07-12 2020-01-15 InterDigital VC Holdings, Inc. Methods and apparatus for volumetric video transport
KR20220011688A (ko) * 2019-05-20 2022-01-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 몰입형 미디어 콘텐츠 프레젠테이션 및 양방향 360° 비디오 통신

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024077806A1 (zh) * 2022-10-14 2024-04-18 浙江大学 一种编解码方法、装置、编码器、解码器及存储介质

Also Published As

Publication number Publication date
US20230024615A1 (en) 2023-01-26
BR112022011389A2 (pt) 2022-08-30
KR20220109433A (ko) 2022-08-04
US11968349B2 (en) 2024-04-23
EP4074049A1 (en) 2022-10-19
WO2021118820A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
EP3562159A1 (en) Method, apparatus and stream for volumetric video format
US11968349B2 (en) Method and apparatus for encoding and decoding of multiple-viewpoint 3DoF+ content
US20220343549A1 (en) A method and apparatus for encoding, transmitting and decoding volumetric video
CN113906761A (zh) 利用修补补片对3d场景进行编码和渲染的方法和装置
US20230042874A1 (en) Volumetric video with auxiliary patches
KR20220127258A (ko) 뷰-유도 스펙큘러리티를 갖는 볼류메트릭 비디오를 코딩 및 디코딩하기 위한 방법 및 장치
CN115443654A (zh) 用于对体积视频进行编码和解码的方法和装置
CN114731416A (zh) 用于对体积视频进行编码、传输和解码的方法和装置
WO2020185529A1 (en) A method and apparatus for encoding and decoding volumetric video
US20230239451A1 (en) A method and apparatus for encoding and decoding volumetric content in and from a data stream
US20220343546A1 (en) Haptic atlas coding and decoding format
US20230032599A1 (en) Methods and apparatuses for encoding, decoding and rendering 6dof content from 3dof+ composed elements
US20230217006A1 (en) A method and apparatuses for delivering a volumetric video content
CN115885513A (zh) 用于对体积视频进行编码和解码的方法和装置
CN117121059A (zh) 支持光效果的体积视频
CN114731424A (zh) 用于对体积视频进行编码、传输和解码的方法和装置
CN115462088A (zh) 用于体积视频的不同图集打包
CN116235497A (zh) 一种用于用信号通知基于多平面图像的体积视频的深度的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination