CN115004716A

CN115004716A - 容积媒体处理方法和装置

Info

Publication number: CN115004716A
Application number: CN202080094057.6A
Authority: CN
Inventors: 黄成�; 白雅贤
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-09-02
Also published as: EP4097987A1; EP4097987A4; US12034982B2; JP2023531579A; WO2021258324A1; US20220360828A1; ZA202208170B; JP7467647B2

Abstract

本文描述了用于处理容积媒体数据的方法、系统和装置。处理容积媒体的一个示例方法如下：从媒体呈现描述(MPD)文件中确定与容积媒体的预选相对应的一个或多个预选元素，使用所述一个或多个预选元素访问所述容积媒体的一个或多个图集数据组件和相关联的视频编码组件；以及从所述一个或多个图集数据组件和所述相关联的视频编码组件重建所述容积媒体。

Description

容积媒体处理方法和装置

技术领域

本专利文献涉及容积媒体处理和传输技术。

背景技术

视频编码使用压缩工具将二维视频帧编码为压缩的比特流表示，这对于在网络上存储或传输更有效。使用二维视频帧进行编码的传统视频编码技术有时对于三维视觉场景的视觉信息的表示是低效的。

发明内容

除其他项外，本专利文献描述了用于编码和解码数字视频的技术，所述数字视频携带与视觉容积媒体有关的视觉信息。

在一个示例方面，公开了一种视觉体积数据处理方法。所述方法包括：从媒体呈现描述(MPD)文件中确定与容积媒体的预选相对应的一个或多个预选元素，使用所述一个或多个预选元素访问所述容积媒体的一个或多个图集数据组件和相关联的视频编码组件；以及从所述一个或多个图集数据组件和所述相关联的视频编码组件重建所述容积媒体。

在另一示例方面，公开了一种用于生成包括视觉体积数据的比特流的方法。所述方法包括：从三维场景生成容积媒体，所述容积媒体包括表示所述三维场景的一个或多个图集数据组件以及相关联的视频编码组件；在媒体呈现描述(MPD)文件中包括指示所述容积媒体的预选的一个或多个预选元素。在此，所述一个或多个预选元素提供对与所述三维场景相关联的一个或多个图集数据组件以及所述视频编码组件的访问。

在另一示例方面，公开了一种用于实现上述一个或多个方法的装置。所述装置可以包括处理器，所述处理器被配置用于实现所描述的编码或解码方法。

在又一个示例方面，公开了一种计算机程序存储介质。所述计算机程序存储介质包括存储于其上的代码。所述代码在由处理器执行时使所述处理器实现所描述的方法。

本文献对这些以及其他方面进行了描述。

附图说明

图1A是容积媒体处理的示例方法的流程图。

图1B是容积媒体处理的示例方法的流程图。

图2A-2C示出了用于解析比特流的示例过程的流程图的示例。

图3-6示出了用于容积媒体传输的各种示例性DASH配置。

图7示出了用于使用预选元素来预选容积媒体的流程图的示例。

图8是编码器装置的示例的框图。

图9是解码器装置的示例的框图。

图10示出了视频系统的示例。

图11是用于实现本文献中所公开技术的硬件平台的框图。

具体实施方式

在本文献中使用章节标题只是为了提高可读性，并且不将每个章节中公开的实施例和技术的范围限制到仅该章节。使用诸如H.264/AVC、H.265/HEVC和MPEG-DASH的运动图像专家组(MPEG)标准的示例来描述某些特征。然而，所公开技术的适用性不仅限于这些标准。

在本文献中，在不同的章节中公开了用于点云数据处理的各种语法元素。然而，应当理解的是，除非另有说明，否则在不同章节中使用的具有相同名称的语法元素将具有相同的格式和语法。此外，在各种实施例中，可以将在不同章节标题下描述的不同语法元素和结构组合在一起。此外，尽管将具体结构描述为实现方式示例，但应当理解的是，除非在本文献中另有说明，否则语法结构的各种入口的顺序可以改变。

传统上，对诸如图像和视频等数字视觉媒体的捕获、处理、存储和呈现都使用基于二维帧的视觉场景捕获。近年来，3D捕获和渲染技术的进步引发了虚拟/增强/混合现实(VR/AR/MR)内容(又称扩展现实(XR)服务和应用)的新一轮创新浪潮。

例如，点云作为此类应用的主要表示之一而兴起。点云帧由一组独立的三维(3D)点组成。除了具有3D位置(例如，空间属性)之外，每个点还可以与若干其他属性(例如，颜色、反射率、表面法线等)相关联。点云由一系列点云帧组成。点的数目、位置和属性可能因帧而异。视觉体积数据的另一示例是多视图视频内容，其中由多个真实或虚拟相机捕获真实或虚拟3D场景。此类表示需要大量的数据，这在存储和传输方面可能成本很高。

各种行业标准已经开始解决与3D视觉场景的捕获、携带和呈现有关的问题，其中运动图像专家组(MPEG)一直在MPEG-I标准化项目下开发沉浸式媒体的编码表示。作为成果之一，基于视觉体积视频的编码(V3C)标准利用传统基于二维(2D)帧的视频编码工具、通过在2D平面上投影3D信息对3D视觉信息进行编码，这有望被其他正在开发中的MPEG-I体积编解码器(诸如基于视频的点云压缩(V-PCC)和MPEG沉浸式视频(MIV))重新使用。

基于视频的点云压缩(V-PCC)表示对点云视觉信息的体积编码，并使用MPEG视频编解码器(诸如AVC、HEVC)来实现对点云数据的高效捕获、压缩、重建和渲染。包含编码点云序列(CPCS)的V-PCC比特流由VPCC单元组成，VPCC单元携带序列参数集(SPS)数据、图集信息比特流、2D视频编码占用图比特流、2D视频编码几何比特流和零个或多个2D视频编码属性比特流。每个V-PCC单元都具有描述该V-PCC单元类型的V-PCC单元头和V-PCC单元有效载荷。占用、几何和属性V-PCC单元的有效载荷对应于可由相应视频解码器解码的视频数据单元(例如，高效视频编码网络抽象层或高效视频编码网络抽象层HEVC NAL单元)。

MPEG正在发展国际标准(ISO/IEC 23090-12)，即MPEG沉浸式视频(MIV)，以支持对多视图视频内容的压缩，其中由多个真实或虚拟相机捕获真实或虚拟3-D场景。MIV内容支持在有限的观看位置和方向范围内以6自由度(6DoF)回放三维(3D)场景。

尽管在输入数据格式和渲染方面存在差异，但23090-5基于视频的点云压缩(V-PCC)和23090-12MPEG沉浸式视频(MIV)共享相同的核心工具来表示编码域中的信息，即，将3D空间数据拆分为2D补丁图并编码为2D图集帧。因此，使用通用的V3C基本比特流作为基础比特流语法来携带V-PCC和MIV内容将是有益的。

包含编码V3C序列(CVS)的V3C比特流可以由V3C单元组成，V3C单元携带V3C参数集(VPS)数据、编码图集比特流、2D视频编码占用图比特流、2D视频编码几何比特流和零个或多个2D视频编码属性比特流。

通常，基于所公开技术的实施例可用于容积媒体处理。在一些实施例中，提供了重新使用现有工具来存储视频编码组件的技术方案，以允许将诸如V-PCC数据和MIV内容的视觉容积媒体表示到与传统2D视频格式兼容的文件中。

在一些实施例中，基于视觉体积视频的编码(V3C)数据存储在基于ISO/IEC14496-12ISO(国际标准化组织)基础媒体文件格式(ISOBMFF)的文件中。

符合ISOBMFF(诸如MP4文件)的V3C数据存储由称为框的分层数据结构组成，每个框都有类型和长度。包含另一个框的框称为容器框。基于ISOBMFF的V3C数据存储有一个“ftyp”类型的框，包含文件类型和兼容性信息。存在一个单独的“MOOV”类型的框(电影框)，这是一个容器框，其子框包含文件的所有元数据信息。ISOBMFF文件的媒体数据包含在“mdat”类型的媒体框(媒体数据框)中，其也是一个容器框，可以引用其他文件。

在一些实施例中，在简单的ISOBMFF封装的情况下，可以将V3C数据封装为单轨道。V3C比特流样本包含属于相同呈现时间的一个或多个V3C单元，即，一个V3C访问单元。V3C单元头和V3C有效载荷数据结构可以保留在比特流中而无需进一步处理。

在一些实施例中，可以将不同的V3C子流(例如，一个或多个编码图集子流，几何、占用图和属性的2D视频编码子流)封装为ISOBMFF容器文件内的独立轨道。V3C数据的多轨道封装需要用多轨道声明来表示V3C比特流，即，V-PCC基本流中的V3C单元根据它们的类型映射到ISOBMFF容器文件内的独立轨道。在多轨道封装的V3C数据ISOBMFF容器中有两种类型的轨道：V3C轨道和V3C组件轨道。

V3C轨道表示体积视觉轨道，其携带V3C比特流的图集数据，包括补丁信息和序列参数集。视频编码V3C组件轨道表示视频轨道，其携带V3C比特流的占用图、几何或属性组件视频比特流中的任何一个的2D视频编码数据。基于此布局，V3C ISOBMFF容器可包括以下内容：

-V3C轨道，其包含V3C参数集以及携带图集子比特流NAL单元的图集子比特流参数集和样本。V3C轨道还包括对携带视频压缩V3C单元的有效载荷的视频编码V3C轨道的轨道参考。

-受限视频方案轨道，其中样本包含占用图数据的视频编码基本流的访问单元。

-一个或多个受限视频方案轨道，其中样本包含几何数据的视频编码基本流的访问单元。

-零个或多个受限视频方案轨道，其中样本包含属性数据的视频编码基本流的访问单元。

与传统媒体内容不同，指定为V3C数据的容积媒体由若干V3C组件组成，包括图集、占用图、几何或属性。为了重建和渲染V3C数据，需要对不同的V3C组件进行集体检索和解码。

另一方面，编码为V3C数据的容积媒体可以为用户提供六自由度(6-DoF)的沉浸式媒体体验。在任何给定时间，根据用户的视图位置、方位等，只有部分容积媒体是可见的。对于许多应用，不需要递送、解码和渲染整个容积媒体数据。

通常，基于所公开技术的实施例可用于容积媒体处理。在一些实施例中，提供了用于配置和流化属于容积媒体的V3C组件的技术方案，以支持基于自适应比特率流技术(诸如基于HTTP的动态自适应流(DASH)和HTTP实时流(HLS))的容积媒体传输。

图1A描绘了用于容积媒体处理的示例方法100的流程图。所述方法100可以由解码容积媒体比特流以从中重建体积场景的解码器装置来实现。所述方法100包括：在102，从媒体呈现描述(MPD)文件中确定与容积媒体的预选相对应的一个或多个预选元素。所述方法100包括：在104，使用所述一个或多个预选元素访问所述容积媒体的一个或多个图集数据组件和相关联的视频编码组件。所述方法100包括：在106，使用解码所述一个或多个图集数据组件的结果和解码所述相关联的视频编码组件的结果来重建所述容积媒体。本文献提供了所述方法100和所述容积媒体比特流的格式的附加细节。

图1B描绘了用于编码容积媒体的示例方法150的流程图。该方法可以由本文献中描述的编码器装置来实现。所述方法150可用于将3D场景转换成符合本文献中描述的比特流格式的比特流表示。所述方法150包括：从三维场景生成(152)容积媒体，所述容积媒体包括表示所述三维场景的一个或多个图集数据组件以及相关联的视频编码组件。在本文献中公开了所述图集数据组件和视频编码组件的布置的各种实施例。所述方法150还可以包括：在媒体呈现描述(MPD)文件中包括(154)指示所述容积媒体的预选的一个或多个预选元素，其中所述一个或多个预选元素提供对与所述三维场景相关联的一个或多个图集数据组件以及所述视频编码组件的访问。本申请中公开的各种实施例涉及MPD文件和容积媒体比特流的格式。预选可以表示对捆绑在一起并期望在解码器处一起使用的媒体组件进行逻辑分组。

为了部分访问和解码容积媒体的一部分，例如3D场景内的一个或多个图集，在一些实施例中，提供了支持V3C比特流的多轨道封装的技术方案，其中将V3C比特流的每个图集都封装在单独的轨道中。

V3C轨道样本入口

样本入口类型：‘v3c1’，‘v3cg’，‘v3cb’，‘v3a1’，或‘v3ag’

容器：SampleDescriptionBox

强制：‘v3c1’或‘v3cg’，或‘v3cb’样本入口是强制的

数量：可以存在一个或多个样本入口

V3C轨道应使用V3CSampleEntry，其通过样本入口类型‘v3c1’、‘v3cg’、‘v3cb’、‘v3a1’或‘v3ag’扩展VolumetricVisualSampleEntry。

当V3C比特流包含单个图集时，应使用具有样本入口‘v3c1’或‘v3cg’的V3C轨道。当V3C比特流包含多个图集时，应将每个图集比特流封装在单独的V3C轨道中。其中一个轨道应使用样本入口类型‘v3cb’，而其他轨道应使用样本入口类型‘v3a1’或‘v3ag’。

V3C轨道样本入口应包含V3CConfigurationBox和V3CUnitHeaderBox。

语法

语义

V3CConfigurationBox为V3C解码器的配置和初始化提供V3C比特流的解码特定信息。V3CConfigurationBox应包含V3C比特流的V3C参数集，且仅包含V3C数据的所有V3C轨道通用的非ACL NAL单元。

V3CUnitHeaderBox包含V3C轨道的V3C数据的V3C单元头。

为了部分访问和解码容积媒体的一部分，例如3D场景内的一个或多个瓦片，在另一实施例中，提供了支持V3C比特流的多轨道封装的技术方案，其中将属于一个图集的一个或多个瓦片封装为单独的图集瓦片轨道。

V3C图集瓦片轨道样本入口

样本入口类型：‘v3t1’

容器：SampleDescriptionBox

强制：是

数量：可以存在一个或多个样本入口

图集瓦片轨道应使用AtlasTileSampleEntry，其通过样本入口类型‘v3t1’扩展VolumetricVisualSampleEntry。

图集瓦片轨道应仅包含ACL NAL单元，这些单元属于同一图集。图集瓦片轨道应包含至少一个瓦片的ACL NAL单元。

语法

语义

num_tiles为此轨道中包含的瓦片数。

tile_id指定此轨道中存在的瓦片的瓦片地址。

为了正确访问用于呈现容积媒体的容积媒体组件文件，在一个实施例中，用户终端的流媒体客户端(软件和/或硬件)(诸如DASH客户端)接收清单，例如用于呈现容积媒体的媒体呈现描述(MPD)文件。

如图1A所示，在102，所述方法100由MPD文件促进实现，该MPD文件包括用于容积媒体的预选的一个或多个预选元素。

所述一个或多个预选元素中的每个元素都可包括标识所述容积媒体的V3C描述符。所述V3C描述符还可以包括所述容积媒体的所述图集数据组件的标识。所述V3C描述符还可以包括属于所述容积媒体的所述图集数据组件的所有瓦片的瓦片地址。

@schemeIdUri属性等于“urn:mpeg:mpegI:v3c:2020:vpc”的SupplementalProperty元素称为V3C描述符。在V3C媒体的主自适应集的自适应集级别上，最多存在一个V3C描述符。

由于V3C内容的性质，图集数据V3C组件充当V3C数据访问的入口点。V3C描述符应能够描述由自适应集表示的图集数据V3C组件，以支持任何灵活的V3C数据访问，包括单图集访问、多图集访问和瓦片访问。

首先，为了支持同一容积媒体的多个版本，V3C描述符应包含@vId属性。对于同一容积媒体的同一图集子流的多个版本中的每个版本都具有单独的自适应集的情况，V3C描述符应包含@atlas_id属性。对于同一图集的相同瓦片的多个版本中的每个版本都具有单独的自适应集的情况，V3C描述符应包含@tile_addresses属性。

具有此类V3C描述符的自适应集适用于具有任何样本入口类型的图集数据V3C组件，即，由V3C轨道或V3C图集瓦片轨道携带的任何图集子流。

表1V3C描述符的属性

一个或多个预选元素中的每个元素都可以包括预选容积媒体的图集数据组件和相关联的视频编码组件的属性。

例如，MPD中容积媒体的预选使用预选元素，该元素具有@PreselectionComponents属性的id列表，该id列表包括容积媒体的主自适应集的id，随后是与视频编码组件相对应的自适应集的id。

在多轨道封装V3C数据的情况下，vuh_atlas_id等于0x3F的图集信息的特殊自适应集可以作为DASH清单(MPD)中V3C内容的主自适应集。如果V3C比特流中有不止一个编码图集子流，并且每个图集子流都封装为单独的图集轨道，则可以使用单独的自适应集来用信号通知每个图集轨道。

在多轨道封装V3C数据的情况下，如果属于一个图集的一个或多个瓦片封装为单独的图集瓦片轨道，则可以使用单独的自适应集在DASH清单(MPD)文件中用信号通知每个图集瓦片轨道。

当V3C比特流包含多个图集时，每个图集比特流可以封装在单独的V3C轨道中。由于特殊图集V3C轨道(即，atlas_id等于0x3F)存储了所有其他V3C轨道的V3C参数集，因此对于对具有多图集的V3C内容的任何访问，应始终检索表示此空间图集数据V3C组件的自适应集。另一方面，由于此特殊图集V3C轨道不包括任何ACL NAL单元，并且对应于任何特定的视频编码V3C轨道，因此任何预选元素都不应该选择表示此空间图集数据V3C组件的自适应集。

当图集子比特流包含多个瓦片时，属于同一图集的一个或多个瓦片可以封装在单独的图集瓦片轨道中。由于图集V3C轨道存储了所有图集瓦片轨道的与相同atlas_id相关联的图集子比特流参数集，因此对于对具有多瓦片的图集的任何访问，都应始终检索表示此图集数据V3C组件的自适应集。当‘v3t1’轨道存在时，图集V3C轨道不包括任何ACL NAL单元，并且对应于任何特定的视频编码V3C轨道，在这种情况下，任何预选元素都不应该选择表示此图集数据V3C组件的自适应集。

在预选具有多个图集的V3C内容的情况下，任何预选元素都不应该选择表示图集数据V3C组件的主自适应集。

在预选V3C内容的一个或多个瓦片的情况下，任何预选元素都不应该选择表示一个或多个瓦片所属的图集的图集数据V3C组件的自适应集。

V3C组件视频轨道可以在文件中表示为受限视频，其例如至少包括：2D视频编码占用图轨道、2D视频编码几何轨道和零个或多个2D视频编码属性轨道。

在多轨道封装V3C数据的情况下，每个V3C组件可以在DASH清单(MPD)文件中表示为单独的自适应集。如果几何或属性组件具有多个图，则可以使用单独的自适应集来用信号通知每个图。

为了标识自适应集中的V3C组件的类型，可以使用V3CComponent描述符。V3CComponent是@schemeIdUri属性等于“urn:mpeg:mpegI:v3c:2020:component”的EssentialProperty描述符。

在自适应集级别，可以为自适应集的表示中存在的每个V3C组件用信号通知一个V3CComponent描述符。

V3CComponent描述符的@value属性可以不存在。V3CComponent描述符可以包括在表中指定的一个或多个元素和属性。

表2V3CComponent描述符的元素和属性

如图1A所示，在104，DASH客户端可以使用一个或多个预选元素访问与容积媒体的预选相对应的容积媒体组件。

图2A-2C描绘了用于访问容积媒体的示例方法200。

在基于图集部分访问V3C内容的情况下，除了由V3C预选使用一个或多个预选元素用信号通知的图集数据V3C组件和相关联的视频编码V3C组件之外，应该同时检索表示入口图集或主图集数据V3C组件的自适应集。

入口图集可以表示根据比特流格式定义的特殊图集V3C轨道(即，atlas_id等于0x3F)以存储所有其他V3C轨道的V3C参数集。入口图集可以具有预先指定的id，例如，等于0x3F的atlas_id。对于对具有多图集表示的V3C内容的任何访问，可以首先检索表示此空间图集数据V3C组件的自适应集。

在基于瓦片部分访问V3C内容的情况下，除了由V3C预选使用一个或多个预选元素用信号通知的图集数据V3C组件和相关联的视频编码V3C组件之外，应该同时检索表示一个或多个瓦片所属的图集的图集数据V3C组件的自适应集。

如图2A所示，在202，可以如上所述定位一个或多个预选元素(语法结构)，指示对体积数据的预选。在204可执行确定以检查比特流格式是包括对体积数据的多图集访问还是包括单图集访问。

如图2B所示，如果比特流被配置用于多图集访问，在206确定对体积数据的部分访问还是完全访问是可用的。如果可以完全访问，在208，为了对整个容积媒体进行解码和重建，需要访问以下V3C组件的容积媒体文件，包括所有图集、属于所有这些图集的所有瓦片(如果存在)以及所有相关联的视频编码V3C组件。

可替代地，如果在206确定是部分访问，则在210确定访问是基于图集的还是基于瓦片的。如果访问是基于瓦片的，在212，为了对容积媒体的一个或多个瓦片进行解码和重建，需要访问以下V3C组件的容积媒体文件，包括特定类型的图集(例如，图集id等于0x3F)、预选瓦片所属的图集、预选瓦片以及所有相关联的视频编码V3C组件。

可替代地，在214，为了对容积媒体的一个或多个图集进行解码和重建，需要访问以下V3C组件的容积媒体文件，包括特定类型的图集(例如，图集id等于0x3F)、预选的一个或多个图集、属于该一个或多个图集的所有瓦片(如果存在)以及所有相关联的视频编码V3C组件。

如图2C所示，如果在204确定是单图集访问，在220确定针对场景生成是完全访问还是部分访问体积数据。如果是完全访问体积数据，则在222，访问图集、所有瓦片(如果有)以及所有相关联的视频编码V3C组件的容积媒体文件，以进行重建和场景生成。可替代地，在224，部分访问预选瓦片所属的图集、预选瓦片和相应视频数据，以进行重建和场景生成。

如图1A所示，在106，可以使用一个或多个图集数据组件和相关联的视频编码组件来重建容积媒体。例如，解码一个或多个图集数据组件的结果可以与解码相关联的视频编码组件的结果一起使用。

例如，重建过程可以使用以下内容中的一个或多个。在一些实施例中，可以使用编码技术对3D场景进行编码，其中可以将2D场景编码为若干2D视频图像或视图。3D场景可以表示为视图的集合，有时称为补丁。该集合可以组织为一个图集，其包括一个或多个补丁并且可以具有相应的内容纹理和/或深度信息。可以使用编码器侧和解码器侧都已知的预定义格式对表示视觉信息的各种组件进行格式化。例如，V3C子比特流组件可用于表示视觉组件。视觉组件包括前述的图集、表示与图集对应的2D阵列的占用图，以便对每个样本位置都指示包含视觉信息的相应补丁的标识。比特流格式可以进一步指定视觉组件包括与容积媒体的表示相关联的特定类型的几何或属性，其在解码时使得容积媒体能够重建。

在3D场景的重建期间，解码器可以执行以下操作：

-解析比特流以恢复图集参数和相机参数列表。

-利用根据图集参数列表和解码的深度图集生成的补丁ID对占用图进行定位和解码。

检查是否指定了查看者(视点)的位置和方向。

解码纹理和深度图集，解码视频并应用纹理和深度图集。

从根据比特流中的参数以及观看位置和方向混合在一起的解码信息中合成3D场景。

本文献提供MPD文件或容积媒体文件的格式的各种实施例，其可由3D内容编码器使用以编码3D内容，或由3D内容解码器使用以从编码比特流中解码和重建3D内容。

为了能够有效地处理视觉容积媒体，在一个实施例中，提供了支持在3D空间内递送属于容积媒体的一个图集的V3C组件的技术方案。

图3展示了用于对属于MPEG-DASH MPD文件内的容积媒体的一个图集的V3C组件进行分组的示例性DASH配置。

在本实施例中，V3C序列包括单个图集数据V3C组件以及占用、几何和属性的相关联的视频编码组件。

包括图集子比特流的V3C轨道由主自适应集用信号通知。主自适应集具有V3C描述符，其@vId属性设置为容积媒体的标识符。由于在容积媒体内只有一个图集，所以V3C描述符中不存在@atlas_id。

视频编码占用、几何和属性组件中的每一个都由单独的组件自适应集用信号通知。占用、几何和属性组件的每个组件自适应集都包括VPCCComponent描述符，其@component_type属性设置为相应的值。

主自适应集中携带的图集数据组件和各自的组件自适应集中携带的相关联的视频编码组件被分组在一起，以使用MPD中的预选元素对容积媒体进行预选。如图3所示，预选元素的@preselectionComponents属性包括id列表“1 2 3 4”。预选元素包括V3C描述符，其包含@vId属性来标识容积媒体。

为了能够有效地处理视觉容积媒体，在另一实施例中，提供了支持部分访问和递送属于容积媒体的一个图集的单独瓦片的V3C组件的技术方案。

图4展示了用于对属于MPEG-DASH MPD文件内的容积媒体的一个图集的单独瓦片的V3C组件进行分组的示例性DASH配置。

在本实施例中，V3C序列包括单个图集的图集数据V3C组件、属于该图集的瓦片的一个或多个图集数据V3C组件以及占用、几何和属性的相关联的视频编码组件。

包括图集子比特流的V3C轨道由主自适应集用信号通知。包括瓦片子比特流的每个图集瓦片轨道由单独的自适应集用信号通知。主自适应集和每个瓦片自适应集都有V3C描述符，其@vId属性设置为容积媒体的标识符。每个瓦片自适应集都有V3C描述符，其@tile_addresses属性设置为所有瓦片的瓦片地址的值。由于在容积媒体内只有一个图集，所以V3C描述符中不存在@atlas_id。

瓦片自适应集中携带的图集数据组件和各自的组件自适应集中携带的相关联的视频编码组件被分组在一起，以使用MPD中的一个或多个预选元素对容积媒体的一个或多个瓦片进行预选。

如图4所示，例如，一个这样的预选元素的@preselectionComponents属性包括id列表“2 5 6 7”。预选元素包括V3C描述符，其包含@vId属性来标识容积媒体。

为了能够有效地处理视觉容积媒体，在另一实施例中，提供了支持部分访问和递送属于容积媒体的不止一个图集的V3C组件的技术方案。

图5展示了用于对属于MPEG-DASH MPD文件内的容积媒体的不止一个图集的V3C组件进行分组的示例性DASH配置。

在本实施例中，V3C序列包括多个图集的不止一个图集数据V3C组件以及占用、几何和属性的相关联的视频编码组件。

包括特殊图集(例如，图集id等于0x3F)的图集子比特流的V3C轨道由主自适应集用信号通知。包括其他图集的图集子比特流的其他V3C轨道由单独的自适应集用信号通知。主自适应集和其他每个图集自适应集都有V3C描述符，其@vId属性设置为容积媒体的标识符。由于容积媒体中有不止一个图集，因此V3C描述符中存在@atlas_id以用信号通知各自图集数据组件的标识符。

各自图集自适应集中携带的图集数据组件和各自组件自适应集中携带的相关联的视频编码组件被分组在一起，以使用MPD中的一个或多个预选元素对容积媒体的一个或多个图集进行预选。

如图5所示，例如，一个这样的预选元素的@preselectionComponents属性包括id列表“2 5 6 7”。预选元素包括V3C描述符，其包含@vId属性来标识容积媒体。

为了能够有效地处理视觉容积媒体，在另一实施例中，提供了支持部分访问和递送属于容积媒体的不止一个图集的单独瓦片的V3C组件的技术方案。

图6展示了用于对属于MPEG-DASH MPD文件内的容积媒体的不止一个图集的单独瓦片的V3C组件进行分组的示例性DASH配置。

在本实施例中，V3C序列包括多个图集的不止一个图集数据V3C组件、属于一个或多个图集的瓦片的一个或多个图集数据V3C组件以及占用、几何和属性的相关联的视频编码组件。

包括特殊图集(即，atlas_id等于0x3F)的图集子比特流的V3C轨道由主自适应集用信号通知。包括其他图集的图集子比特流的其他V3C轨道由单独的自适应集用信号通知。包括瓦片子比特流的图集瓦片轨道由单独的自适应集用信号通知。主自适应集、每个图集自适应集和每个瓦片自适应集都有V3C描述符，其@vId属性设置为容积媒体的标识符。由于容积媒体中有不止一个图集，因此V3C描述符中存在@atlas_id以用信号通知各自图集数据组件的标识符。每个瓦片自适应集都有V3C描述符，其@tile_addresses属性设置为所有瓦片的瓦片地址的值。

各自图集自适应集和瓦片自适应集中携带的图集数据组件以及各自组件自适应集中携带的相关联的视频编码组件被分组在一起，以使用MPD中的一个或多个预选元素从容积媒体的一个或多个图集中预选一个或多个瓦片。如图6所示，例如，一个这样的预选元素的@preselectionComponents属性包括id列表“6 8 9 10”。预选元素包括V3C描述符，其包含@vId属性来标识容积媒体。

预选机制使用预选元素和V3C内容有关描述符以支持部分访问和递送DASH中的容积媒体，其使用方法如下所述：

图7描绘了用于容积媒体的预选的示例处理流程。

如图7所示，当同一容积媒体的多个版本可用时，V3C或V3CTile描述符的@vId值用于标识容积媒体。DASH客户端应该解析MPD文件以检查包含V3C描述符或V3CTile描述符的所有预选元素，其中描述符的@vId值与待检索的容积媒体相同。

如果此类预选元素不存在，容积媒体在当前MPD文件中不可用。如果此类预选元素存在，容积媒体在当前MPD文件中可用，其中

如果此类预选元素的@tag值等于一个特定值，例如，tag＝“0”，那么预选元素应该包含V3C描述符以指示对具有多图集的容积媒体的预选。预选元素的@preselectionComponents属性包括特殊图集(图集id等于0x3F)的主自适应集的id，随后是与容积媒体的每个其他图集对应的自适应集的id。

如果此类预选元素的@tag值等于另一个特定值，例如，tag＝“1”，那么预选元素应该包含V3C描述符以指示对具有多个瓦片的图集的预选。预选元素的@preselectionComponents属性包括多个瓦片所属的图集的自适应集的id，其在预选具有单个图集的容积媒体的情况下是容积媒体的主自适应集的id，随后是与每个图集瓦片轨道对应的自适应集的id。

如果此类预选元素的@tag值等于另一个特定值，例如，tag＝“2”，并且如果预选元素包含V3C描述符，那么它指示对图集及其相关联的视频编码V3C组件的预选。预选元素的@preselectionComponents属性包括图集的自适应集的id，其在预选具有单个图集的容积媒体的情况下是容积媒体的主自适应集的id，随后是与视频编码V3C组件对应的自适应集的id。

如果此类预选元素的@tag值等于另一个特定值，例如，tag＝“2”，并且如果预选元素包含V3CTile描述符，那么它指示对图集瓦片轨道及其相关联的视频编码V3C组件的预选。预选元素的@preselectionComponents属性包括图集瓦片轨道的自适应集的id，随后是与视频编码V3C组件对应的自适应集的id。

编码器、解码器和系统实现方式的示例

图8是展示了至少包含示例视频编码器、图片编码器或容积媒体编码器的第一示例设备的图。

获取单元1001捕获视频和图片。获取单元1001可以配备一个或多个相机，用于拍摄自然场景的视频或图片。可选地，获取单元1001可以用相机来实现以获得深度视频或深度图片。可选地，获取单元1001可以包括红外相机的组件。可选地，获取单元1001可以配置有遥感相机。获取单元1001也可以是通过使用辐射扫描对象来生成视频或图片的装置或设备。

可选地，获取单元1001可以对视频或图片执行预处理，例如，自动白平衡、自动聚焦、自动曝光、背光补偿、锐化、去噪、拼接、上采样/下采样、帧率转换、虚拟视图合成等。

获取单元1001还可以从另一设备或处理单元接收视频或图片。例如，获取单元1001可以是转码器中的组件单元。转码器将一个或多个解码(或部分解码)的图片馈送到获取单元1001。另一示例是，获取单元1001经由到另一设备的数据链路从该设备获得视频或图片。

注意，获取单元1001可以用于捕获除了视频和图片之外的其他媒体信息，例如，音频信号。获取单元1001还可以接收人工信息，例如，字符、文本、计算机生成的视频或图片等。

编码器1002是示例编码器的实现方式。编码器1002的输入是由获取单元1001输出的视频或图片。编码器1002对视频或图片进行编码，并输出生成的视频或图片比特流。

存储/发送单元1003从编码器1002接收视频或图片比特流，并对比特流执行系统层处理。例如，存储/发送单元1003根据传输标准和媒体文件格式(例如，MPEG-2TS、ISOBMFF、DASH、MMT等)封装比特流。存储/发送单元1003将封装后获得的传输流或媒体文件存储在第一示例设备的存储器或磁盘中，或者经由有线或无线网络发送传输流或媒体文件。

注意，除了来自编码器1002的视频或图片比特流之外，存储/发送单元1003的输入还可以包括音频、文本、图像、图形等。存储/发送单元1003通过封装这些不同类型的媒体比特流来生成传输或媒体文件。

本实施例中描述的第一示例设备可以是能够在视频通信应用中生成或处理视频(或图片)比特流的设备，例如，移动电话、计算机、媒体服务器、便携式移动终端、数字相机、广播设备、CDN(内容分发网络)设备、监控相机、视频会议设备等。

图9是展示了至少包含示例视频解码器、图片解码器或容积媒体解码器的第二示例设备的图。

接收单元1101通过从有线或无线网络获得比特流、通过读取电子设备中的存储器或磁盘、或者通过经由数据链路从其他设备获取数据来接收视频或图片比特流。

接收单元1101的输入还可以包括包含视频或图片比特流的传输流或媒体文件。接收单元1101根据传输或媒体文件格式的规范从传输流或媒体文件中提取视频或图片比特流。

接收单元1101输出视频或图片比特流并将其传递给解码器1102。注意，除了视频或图片比特流之外，接收单元1101的输出还可以包括音频比特流、字符、文本、图像、图形等。接收单元1101将输出传递给第二示例设备中的相应处理单元。例如，接收单元1101将输出的音频比特流传递给该设备中的音频解码器。

解码器1102是示例解码器的实现方式。解码器1102的输入是由接收单元1101输出的视频或图片比特流。解码器1102对视频或图片比特流进行解码，并输出解码后的视频或图片。

渲染单元1103从解码器1102接收解码后的视频或图片。渲染单元1103将解码后的视频或图片呈现给观看者。渲染单元1103可以是第二示例设备的组件，例如，屏幕。渲染单元1103也可以是与第二示例设备分离的、具有到第二示例设备的数据链路的设备，例如，投影仪、显示器、电视机等。可选地，渲染1103在将解码后的视频或图片呈现给观众之前对其执行后处理，例如，自动白平衡、自动聚焦、自动曝光、背光补偿、锐化、去噪、拼接、上采样/下采样、帧率转换、虚拟视图合成等。

注意，除了解码后的视频或图片之外，渲染单元1103的输入可以是来自第二示例设备的一个或多个单元的其他媒体数据，例如，音频、字符、文本、图像、图形等。渲染单元1103的输入还可以包括人工数据，例如，本地教师在幻灯片上绘制的用于在远程教育应用中引起注意的线和标记。渲染单元1103将不同类型的媒体组合在一起，然后将该组合呈现给观众。

本实施例中描述的第二示例设备可以是能够在视频通信应用中解码或处理视频(或图片)比特流的设备，例如，移动电话、计算机、机顶盒、电视机、HMD、显示器、媒体服务器、便携式移动终端、数字相机、广播设备、CDN(内容分发网络)设备、监控、视频会议设备等。

图10是展示了包含图8中的第一示例设备和图9中的第二示例设备的电子系统的图。

服务设备1201是图8中的第一示例设备。

存储介质/传输网络1202可以包括设备或电子系统的内部存储器资源、可经由数据链路访问的外部存储器资源、由有线和/或无线网络组成的数据传输网络。存储介质/传输网络1202为服务设备1201中的存储/发送单元1203提供存储资源或数据传输网络。

目标设备1203是图9中的第二示例设备。目标设备1203中的接收单元1201从存储介质/传输网络1202接收视频或图片比特流、包含视频或图片比特流的传输流或包含视频或图片比特流的媒体文件。

本实施例中描述的电子系统可以是能够在视频通信应用中生成、存储或传输以及解码视频(或图片)比特流的设备或系统，例如，移动电话、计算机、IPTV系统、OTT系统、互联网上的多媒体系统、数字电视广播系统、视频监控系统、便携式移动终端、数字相机、视频会议系统等。

图11示出了可用于实现本文献中描述的编码器侧或解码器侧技术的示例装置1400。装置1400包括处理器1402，该处理器可被配置用于执行编码器侧或解码器侧技术或两者都执行。装置1400还可以包括存储器(未示出)，用于存储处理器可执行指令以及用于存储视频比特流和/或显示数据。装置1400可以包括视频处理电路(未示出)，诸如变换电路、算术编码/解码电路、基于查找表的数据编码技术等。视频处理电路可以部分包括在处理器中和/或部分包括在诸如图形处理器、现场可编程门阵列(FPGA)等的其他专用电路中。

本文献中描述的关于视频编码和解码技术的技术问题可以由一些实施例通过优选地结合以下方案中的一个或多个来解决。

1.一种容积媒体处理方法(例如，图1A所示的方法100)，包括：从媒体呈现描述(MPD)文件中确定(102)与容积媒体的预选相对应的一个或多个预选元素，使用所述一个或多个预选元素访问(104)所述容积媒体的一个或多个图集数据组件和相关联的视频编码组件；以及从所述一个或多个图集数据组件和所述相关联的视频编码组件重建(106)所述容积媒体。

2.根据方案1所述的方法，其中，所述一个或多个预选元素中的每个元素都包括标识所述容积媒体的描述符以及预选所述容积媒体的图集数据组件和所述相关联的视频编码组件的属性。

3.根据方案2所述的方法，其中，标识所述容积媒体的所述描述符包括所述容积媒体的所述图集数据组件的标识。

4.根据方案2所述的方法，其中，标识所述容积媒体的所述描述符包括属于所述容积媒体的所述图集数据组件的瓦片的一个或多个瓦片地址。

5.根据方案1所述的方法，其中，由于所述容积媒体的预选指示对所述容积媒体的一个或多个图集的访问，所述方法还包括：访问所述一个或多个图集的所述一个或多个图集数据组件和所有相关联的视频编码组件。

6.根据方案1所述的方法，其中，由于所述容积媒体的预选指示对所述容积媒体的一个或多个瓦片的访问，所述方法还包括：访问所述一个或多个瓦片所属的所述一个或多个图集的所述一个或多个图集数据组件、所述一个或多个瓦片的所述一个或多个图集数据组件以及所有相关联的视频编码组件。

7.根据方案1、5或6所述的方法，其中，如果所述容积媒体的预选指示对具有多个图集的所述容积媒体的访问：访问所述容积媒体的主图集的所述图集数据组件。

8.根据方案1至7中任一项所述的方法，其中，所述图集数据组件携带所述容积媒体的所述图集数据，所述视频编码组件携带所述容积媒体的所述占用图、几何或属性组件视频比特流中的任何一个的2D视频编码数据。

9.一种容积媒体编码方法(例如，包括图1B的方法150)，包括：从三维场景生成(152)容积媒体，所述容积媒体包括表示所述三维场景的一个或多个图集数据组件以及相关联的视频编码组件；在媒体呈现描述(MPD)文件中包括(154)指示所述容积媒体的预选的一个或多个预选元素，其中所述一个或多个预选元素提供对与所述三维场景相关联的一个或多个图集数据组件以及所述视频编码组件的访问。

10.根据方案9所述的方法，其中，所述一个或多个预选元素中的每个元素都包括标识所述容积媒体的描述符以及预选所述容积媒体的图集数据组件和相关联的视频编码组件的属性。

11.根据方案8所述的方法，其中，标识所述容积媒体的所述描述符包括所述容积媒体的所述图集数据组件的标识。

12.根据方案8所述的方法，其中，标识所述容积媒体的所述描述符包括属于所述容积媒体的所述图集数据组件的瓦片的一个或多个瓦片地址。

13.根据方案9所述的方法，其中，由于所述容积媒体的预选指示对所述容积媒体的一个或多个图集的访问，所述方法还包括：配置对所述一个或多个图集的所述一个或多个图集数据组件和所有相关联的视频编码组件的访问。

14.根据方案9所述的方法，其中，由于所述容积媒体的预选指示对所述容积媒体的一个或多个瓦片的访问，所述方法包括：配置对所述一个或多个瓦片所属的所述一个或多个图集的所述一个或多个图集数据组件、所述一个或多个瓦片的所述一个或多个图集数据组件以及所有相关联的视频编码组件的访问。

15.根据方案9、13或14所述的方法，其中，如果所述容积媒体的预选指示对具有多个图集的所述容积媒体的访问：配置所述容积媒体的主图集的所述图集数据组件。

16.一种用于处理容积媒体的装置，其包括处理器，所述处理器被配置用于实现在方案1至15中一项或多项中所描述的方法。

17.一种计算机程序产品，其包括在其上存储有代码的计算机可读介质，所述代码在由处理器执行时使所述处理器实现在方案1至15中一项或多项中所描述的方法。

所公开的实施例和其他实施例、在本文献中描述的模块和功能操作可以在数字电子电路中或在计算机软件、固件、或硬件(包括在本文献中公开的结构及其结构等同物)、或它们中的一个或多个的组合中实现。所公开的实施例和其他实施例可以实施为一个或多个计算机程序产品，即在计算机可读介质上编码以用于由数据处理装置来执行或者用于控制数据处理装置的操作的计算机程序指令的一个或多个模块。所述计算机可读介质可以是机器可读存储设备、机器可读存储基底、存储器设备、影响机器可读传播信号的物质组合，或它们中的一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，所述装置可包括为所讨论的计算机程序创造执行环境的代码，例如，组成处理器固件、协议栈、数据库管理系统、操作系统、或其中的一个或多个的组合的代码。传播信号是人工生成的信号，例如机器产生的电、光或电磁信号，其被生成以用于对信息进行编码，以便传输到合适的接收器装置。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言书写，包括编译或解释语言，并且计算机程序可以以任何形式部署，包括作为独立程序或者作为模块、部件、子例程、或适用于计算环境的其他单元。计算机程序不一定对应于文件系统中的文件。可以将程序存储在保持其他程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、专用于所讨论的程序的单个文件中、或者多个协调文件(例如，存储一个或多个模块、子程序、或代码的各部分的文件)中。计算机程序可以被部署成在一个计算机上或者在位于一个站点或跨多个站点分布并且通过通信网络互连的多个计算机上执行。

本文献中描述的过程和逻辑流程可以由一个或多个可编程处理器实行，所述一个或多个可编程处理器执行一个或多个计算机程序以便通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流程还可以由装置执行，并且装置还可以被实施为专用逻辑电路系统，例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。

举例来说，适合于执行计算机程序的处理器包括通用和专用微处理器、以及任何类型的数字计算机的任何一个或多个处理器。通常来说，处理器将从只读存储器或随机存取存储器或二者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)，或者被操作性地耦合以从大容量存储设备接收数据或向大容量存储设备传递数据或两种情况兼而有之。然而，计算机不需要有这种设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，举例来说，包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或结合在其中。

尽管本专利文献包含许多具体内容，但这些具体内容不应被解释为对任何发明的范围或可能要求保护的内容的限制，而应被解释为对可能特定于特定发明的特定实施例的特征的描述。本专利文献中在各个实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中分别实现，或者以任何合适的子组合实现。此外，尽管特征可能在上文中被描述为在某些组合中起作用，并且甚至最初如此要求保护，但是在一些情况下，要求保护的组合中的一个或多个特征可以从该组合中删除，并且要求保护的组合可以指向子组合或子组合的变体。

类似地，虽然在附图中以特定顺序描述了操作，但是这不应该理解为，为了获得期望的结果，要求必须以所示的特定顺序或序列执行这些操作，或者要求执行所有示出的操作。而且，在本专利文献中描述的实施例中的各种系统部件的分离不应被理解为在所有实施例中都需要这种分离。

仅描述了一些实现方式和示例，在本专利文献中描述和说明的基础上，还可以做出其他实现方式、改进和变化。

Claims

1.一种容积媒体处理方法，包括：

从媒体呈现描述(MPD)文件中确定与容积媒体的预选相对应的一个或多个预选元素，

使用所述一个或多个预选元素访问所述容积媒体的一个或多个图集数据组件和相关联的视频编码组件；以及

从所述一个或多个图集数据组件和所述相关联的视频编码组件重建所述容积媒体。

2.根据权利要求1所述的方法，其中，所述一个或多个预选元素中的每个元素都包括标识所述容积媒体的描述符以及预选所述容积媒体的图集数据组件和所述相关联的视频编码组件的属性。

3.根据权利要求2所述的方法，其中，标识所述容积媒体的所述描述符包括所述容积媒体的所述图集数据组件的标识。

4.根据权利要求2所述的方法，其中，标识所述容积媒体的所述描述符包括属于所述容积媒体的所述图集数据组件的瓦片的一个或多个瓦片地址。

5.根据权利要求1所述的方法，其中，由于所述容积媒体的预选指示对所述容积媒体的一个或多个图集的访问，所述方法还包括：

访问所述一个或多个图集的所述一个或多个图集数据组件和所有相关联的视频编码组件。

6.根据权利要求1所述的方法，其中，由于所述容积媒体的预选指示对所述容积媒体的一个或多个瓦片的访问，所述方法还包括：

访问所述一个或多个瓦片所属的所述一个或多个图集的所述一个或多个图集数据组件、所述一个或多个瓦片的所述一个或多个图集数据组件以及所有相关联的视频编码组件。

7.根据权利要求1、5或6所述的方法，其中，如果所述容积媒体的预选指示对具有多个图集的所述容积媒体的访问：

访问所述容积媒体的入口图集的所述图集数据组件。

8.根据权利要求1至7中任一项所述的方法，其中，所述图集数据组件携带所述容积媒体的所述图集数据，所述视频编码组件携带所述容积媒体的所述占用图、几何或属性组件视频比特流中的任何一个的2D视频编码数据。

9.一种容积媒体编码方法，包括：

从三维场景生成容积媒体，所述容积媒体包括表示所述三维场景的一个或多个图集数据组件以及相关联的视频编码组件；

在媒体呈现描述(MPD)文件中包括指示所述容积媒体的预选的一个或多个预选元素，

其中，所述一个或多个预选元素提供对与所述三维场景相关联的一个或多个图集数据组件以及所述视频编码组件的访问。

10.根据权利要求9所述的方法，其中，所述一个或多个预选元素中的每个元素都包括标识所述容积媒体的描述符以及预选所述容积媒体的图集数据组件和相关联的视频编码组件的属性。

11.根据权利要求8所述的方法，其中，标识所述容积媒体的所述描述符包括所述容积媒体的所述图集数据组件的标识。

12.根据权利要求8所述的方法，其中，标识所述容积媒体的所述描述符包括属于所述容积媒体的所述图集数据组件的瓦片的一个或多个瓦片地址。

13.根据权利要求9所述的方法，其中，由于所述容积媒体的预选指示对所述容积媒体的一个或多个图集的访问，所述方法还包括：

配置对所述一个或多个图集的所述一个或多个图集数据组件和所有相关联的视频编码组件的访问。

14.根据权利要求9所述的方法，其中，由于所述容积媒体的预选指示对所述容积媒体的一个或多个瓦片的访问，所述方法包括：

配置对所述一个或多个瓦片所属的所述一个或多个图集的所述一个或多个图集数据组件、所述一个或多个瓦片的所述一个或多个图集数据组件以及所有相关联的视频编码组件的访问。

15.根据权利要求9、13或14所述的方法，其中，如果所述容积媒体的预选指示对具有多个图集的所述容积媒体的访问：

配置所述容积媒体的入口图集的所述图集数据组件。

16.一种用于处理容积媒体的装置，包括处理器，所述处理器被配置用于实现权利要求1至15中一项或多项中所描述的方法。

17.一种计算机程序产品，包括在其上存储有代码的计算机可读介质，所述代码在由处理器执行时使所述处理器实现权利要求1至15中一项或多项中所描述的方法。