CN109716759A

CN109716759A - 提升质量递送及合成处理

Info

Publication number: CN109716759A
Application number: CN201780051125.9A
Authority: CN
Inventors: 陈鲁林; 刘杉; 王新; 赖柏霖
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2016-09-02
Filing date: 2017-09-01
Publication date: 2019-05-03
Anticipated expiration: 2037-09-01
Also published as: TWI650994B; TW201813382A; US10951874B2; CN109716759B; US20190364259A1; WO2018041244A1

Abstract

提供了一种将媒体内容编码成多个空间对象的媒体内容递送装置。所述媒体内容递送装置根据第一组参数编码第一空间对象，所述媒体内容递送装置根据第二组参数也编码第二空间对象，所述第一空间对象和所述第二空间对象独立地被编码。所述媒体内容递送装置也基于所述第一组参数、所述第二组参数以及所述第一空间对象和所述第二空间对象之间的关系生成元数据。所述媒体内容递送装置然后传输或存储已编码的所述第一空间对象、已编码的所述第二空间对象以及生成的所述元数据。

Description

提升质量递送及合成处理

相关引用

本发明是非临时申请的一部分，非临时申请要求分别提交于2016年9月2日、2016年9月9日、2016年12月19日、2017年1月11日、2017年1月11日的，号码为62/382,807、62/385,297、62/436,010、62/444,884及62/444,889的美国临时专利申请案的优先权。上述申请的内容在此通过参考纳入其中。

技术领域

本发明一般涉及媒体内容的递送。特别地，本发明涉及可适性视频和360°虚拟现实(360VR)的媒体内容的准备、递送和合成的方法。

背景技术

除非另有说明，否则本节所描述的方法不是下文所列权利要求的现有技术，并且不因为包含在本节中而被承认为现有技术。

视频编码被用于广泛的应用中，从多媒体消息、视频通话和通过移动电视、无线和网络视频流的视频会议、标准和高清电视广播以及到虚拟现实。此外，视频内容被递送到各种各样的具有异构显示(heterogeneous display)和计算能力的解码装置中。

视频比特流(bit-stream)可适性有助于已编码的视频的传输的适度劣化(graceful degradation)。当相同的已编码的视频被递送至不同的具有异构显示和计算能力的解码装置中的时候，视频可适性方案例如可适性视频编码(scalable video coding,简称SVC)允许一个特定标准(例如H.264/AVC)的相同的已编码的视频去适应比特率(bitrates)、空间格式(spatial formats)和/或功耗(power consumption)的不同需求。为了有助于视频比特流的可适性，已编码的视频以各种各样的空间或时间分辨率或质量同时地传送或存储。

360°虚拟现实(360VR)是改变的、增强的(augmented)或者代替的(substituted)环境的视听模拟(audiovisual simulation)。虚拟现实视频围绕着用户，允许用户在任意方向或者以任意视角(view angle)环视，就像他或她可以在真实生活中看到的那样。360VR视频生成了用于各种应用的印刷和全景虚拟旅游产品中的异常高质量和高分辨率的全景(panoramic)视频，如娱乐、飞行员训练、外科手术以及太空或深水勘探。

发明内容

下述说明仅是说明性的，并不旨在以任何方式进行限制，也就是说，下述说明被提供以介绍本文所描述的新颖的和非显而易见技术的概念、亮点、效益和优势。选择性的而不是所有实施方式将在下面的详细描述中进一步描述。因此，后续的说明并不旨在确定所要求保护主题的基本特征，也不旨在决定所要求保护主题的范围。

有本发明的一些实施例提供了一种提升质量递送和合成方案，其中媒体内容(例如视频或图像)被编码成多个不同的层或多个空间对象以致可以被合成为具有各种各样质量的展示当中。所述多个空间对象被独立地编码及被独立地解码，已编码的媒体内容和元数据有关，元数据包括用于至少一些空间对象的参数以及表征所述多个空间对象之间关系的参数。

在一些实施例中，媒体内容递送装置将媒体内容编码成多个空间对象，所述媒体内容递送装置根据第一组参数编码第一空间对象，所述媒体内容递送装置根据第二组参数也编码第二空间对象，所述第一空间对象和所述第二空间对象被独立地编码。所述媒体内容递送装置根据所述第一组参数、所述第二组参数以及所述第一空间对象和所述第二空间对象之间的关系还生成元数据，然后所述媒体内容递送装置传输或存储所述已编码的第一空间对象、所述已编码的第二空间对象以及所述生成的元数据。

在一些实施例中，所述第一空间对象由第一视频或图像编码标准进行编码以及所述第二空间对象由第二、不同的视频编码或图像标准进行编码。所述第一空间对象可以由帧内编码而不经过帧间预测编码进行编码。所述第一空间对象是从原始图像中下变频的基础质量层对象，所述第二空间对象是由以下步骤获得的提升质量层，(i)重构来自于已编码的基础质量层对象的所述基础质量层对象；(ii)将重构的基础质量层对象上变频到特定的分辨率；以及(iii)以特定的分辨率计算上变频的所述重构的基础质量层对象和所述原始图像之间的差异。

在一些实施例中，所述元数据可以包括来自于所述原始图像的所述基础质量层下变频的下变频的比率。所述基础质量层可以在第一投影模式中以及所述提升质量层在第二、不同的投影模式中。所述元数据可以包括指示所述第一投影模式、所述第二投影模式以及以基础质量层的包装模式的参数。所述元数据可以包括将空间域中的对象指定作为媒体内容的子资产的参数。

所述元数据可以包括识别所述第一投影模式和基础质量层的包装模式的参数，所述元数据也可以包括从所述原始图像所述基础质量层下变频的下变频的比率。所述元数据可以包括用于指定所述第二空间对象作为以资产的子资产的参数。所述元数据可以包括指示所述第一空间对象和所述第二空间对象可以被处理用于同时展示的参数。当合成所述已解码的第一空间对象和所述已解码的第二空间对象的时候，所述元数据也可以包括指定一模式用于混合第一空间图像和第二空间图像的参数。

在一些实施例中，媒体内容合成装置解码多个空间对象并将所述多个已解码的空间对象合成到合成展示中。所述媒体内容合成装置接收已编码的第一空间对象、已编码的第二空间对象以及和所述已编码的第一空间对象和所述已编码的第二空间对象有关的元数据。所述媒体内容合成装置根据从所述元数据获得的第一组参数，解码所述第一空间对象；根据从所述元数据获得的第二组参数，解码所述第二空间对象，所述第一空间对象和所述第二空间对象被独立地被解码。所述媒体内容合成装置根据从所述元数据获得所述第一空间对象和所述第二空间对象之间的关系参数，将所述已解码的第一空间对象和所述已解码的第二空间对象合成到合成展示中。在一些实施例中，根据感兴趣区域选择，所述第二空间对象可以部分地被取得和被解码。所述合成展示可以是基于全景图像的虚拟现实视频，以及其中所述ROI选择基于由一VR装置指定的一视口。

附图说明

附图被包括以提供本发明的更进一步的了解，并且被并入并构成本发明的一部分。附图说明了本发明的实施方式，并和说明书一起用于解释本发明的原理。可以理解的是，为了清楚地说明本发明的概念，附图不需要按比例绘制，如一些组件可以和实际实施方式中的尺寸不成比例地被示出。

图1示出了媒体内容递送装置。

第2图示出了媒体内容合成装置。

图3概念性地示出了用于对合成展示的空间对象进行编码的一进程。

图4概念性地示出了用于对合成展示的空间对象进行解码的一进程。

图5示出了对将要被合成的基础质量层和提升质量层进行编码的可适性视频编码器。

图6示出了接收、解码以及合成基础质量层对象和提升质量层对象以得到可适性视频展示的可适性视频解码器。

图7示出了和示例性实施例一致的VR内容递送系统。

图8a-b示出了VR内容递送系统的实施例。

图9a-b示出了标示基础和提升质量内容的存在和关系的示例性的MPD。

图10示出了示例性MPD，其中提升质量层被编码为HEVC方块(tile)。

图11示出了示例性MPD，其中指示了用于VR投影的投影和包装格式。

图12示出了2D笛卡尔(Cartesian)坐标样本的语法，所述语法携带混合信息作为参数。

图13示出了示例性MPD，所述MPD使用携带混合信息作为参数的2D笛卡尔坐标样本。

图14示出了2D笛卡尔坐标样本的语法，所述语法用于存储混合信息。

图15示出了示例性MPD，其使用存储为2D笛卡尔坐标样本的混合信息。

图16示出了具有SRD方案的能够同时展示的示例性MPD。

图17a-b示出了示例性MPD，其使用子资产方案去标示空间对象或合成展示的空间部分。

图18示出了示例性视频编码器。

图19示出了示例性视频解码器。

图20概念性地示出了实施本发明一些实施例的电子系统。

具体实施方式

在后续详细的描述中，为了提供相关教导的透彻的理解，许多具体的细节通过示例的方式提出。基于本发明所描述的教导的任何变化、衍生物和/或扩展都在本发明的保护范围内。在某些情况下，为了避免不必要地混淆本发明的教导的各方面，公知的方法、程序、组件和/或和这里公开的一个或多个示例性实施方式相关的电路可以在相对较高的层级上进行描述而没有细节。

Ⅰ.独立地合成多个已编码的空间对象

本发明的一些实施例提供了用于递送或传输媒体内容的方案，所述媒体内容将要被合成至合成展示中。媒体内容被独立地编码为多个空间对象以致于可以被独立地解码。已编码的媒体内容和元数据有关，所述元数据包括用于至少一些空间对象的多个参数以及表征(characterizing)这些空间对象之间的关系的多个参数。

图1示出了媒体内容递送装置100，其对媒体内容进行编码以用于合成展示以及生成表征已编码的空间对象的元数据。空间对象被独立地编码。所述元数据包括用于至少一些空间对象的参数以及表征空间对象之间关系的参数。

如图所示，媒体内容递送装置100包括合成媒体源105，多个媒体编码器111-119，元数据生成器120以及汇编器130。在一些实施例当中，模块105-130是具有软件指令的多个模块，软件指令由计算装置或者电子装置的一个或多个处理单元(例如处理器)执行。在一些实施例中，模块105-130是具有硬件电路的多个模块，硬件电路由电子装置的一个或多个集成电路(integrated circuits，简称IC)实施。虽然模块105-120被示为分离的模块，但是一些模块可以合并为单个模块。

合成媒体源105提供了作为空间对象171-179各种各样的媒体内容至多个媒体编码器111-119。每一个媒体编码器111-119分别地将它们各自收到的空间对象171-179编码为对应的多个已编码的对象181-0189中。元数据生成器120生成元数据190，元数据包括关于多个空间对象181-0189以及多个空间对象之间关系的信息。汇编器130将元数据190和多个已编码的空间对象181-189汇编为数据流或数据文件以用于通过IP网络199(例如互联网)传输或用于存储。

合成媒体源105可以包括提供视频(一个或多个图像序列)、多个静止图像、和/或其他媒体类型的一个或多个媒体源。由合成媒体源提供的多个空间对象可以包括不同类型的覆盖对象(overlay objects)。在一些实施例中，合成媒体源105将原始视频源分解成可适性视频的多个分量层，每一个分量层对应一个空间对象。这样的空间对象可以对应可适性视频的基础质量层或提升质量层。下面的部分Ⅱ描述了合成媒体的递送方案，其中对应于可适性视频的基础质量层和提升质量层的空间对象被递送和合成。

多个媒体编码器111-119独立于其他媒体编码器(或者独立于其他空间对象的编码操作)执行它们各自的空间对象的编码。在一些实施例中，多个媒体编码器111-119包括执行空间和/或时间压缩的视频编码器，这样的视频编码器在没有参考任何其他空间对象的情况下压缩它们的空间对象。例如，媒体编码器111可以通过空间对象171中的帧间预测或帧内预测对空间对象171的像素区块进行编码，但是这种预测编码将不会参考其他任何一个空间对象172-179。

此外，多个媒体编码器111-119可以通过使用不同的媒体编码标准对它们各自的空间对象进行编码。这就允许了灵活的编解码器选择(例如HEVC、AVC或者JPEG)，其在没有SVC编解码器的情况下提供SVC性能。例如，媒体编码器111可以根据H.265/HEVC对空间对象171进行编码，媒体编码器112可以根据H.264/AVC对空间对象172进行编码，媒体编码器113可以根据VP9对空间对象173进行编码，以及媒体编码器114可以根据JEPG将空间对象174编码为静止图像等等。将参考下面的图18来描述根据H.265/HEVC执行视频编码的示例性媒体编码器。

值得注意的是，虽然不同的空间对象可以是相同原始视频的派生物(derivatives)并且因此不独立于彼此(例如，不同的空间对象可以对应于相同的可适性视频的不同的基础质量层和/或提升质量层)，然而不同的空间对象的多个编码操作是独立于彼此的。

元数据生成器120生成了元数据190，其标示在空间对象171-179上的信息。这种信息可以包括由多个媒体编码器111-119使用以生成多个已编码的对象181-189的编码参数。这种信息也可以包括每一个空间对象的分辨率、每一个空间对象的尺寸、用于编码每一个空间对象的编码标准、用于虚拟现实展示的信息和/或其他类型的信息。元数据190也可以包括表征不同空间对象171-179之间关系的信息，例如多个空间对象之间相对位置的信息、多个空间对象之间透明度(transparency)或不透明度(opaqueness)的信息、多个空间对象之间下变频(down-conversion)和/或上变频(up-conversion)关系的信息(例如用于时间或空间上/下取样的因素)、多个空间对象的外观之间的延时(time delay)信息和/或其他类型的时间/空间关系信息。

在一些实施例中，元数据190和多个已编码的对象181-189被传输为数据流，用于空间对象的合成处理的元数据的信令(signaling)将在下面的部分Ⅳ中进行描述。

图2示出了媒体内容合成装置200，其根据相关的元数据独立地对空间对象进行解码并且将空间对象合成到合成展示中。具体地，媒体内容合成装置200接收到已编码的对象181-189和元数据190，然后基于元数据190的内容，将接收到的空间对象解码以及合成到展示中。

如图所示，媒体内容合成装置200包括元数据解析器(metadata parser)220、多个媒体解码器211-219以及空间对象合成器205。在一些实施例中，模块205-220是具有软件指令的多个模块，软件指令由计算装置或电子装置的一个或到个处理单元(例如处理器)执行。在一些实施例中，模块205-220是具有硬件电路的到个模块，硬件电路由电子装置的一个或到个集成电路(IC)实施。虽然模块205-220被示为分离的模块，但是一些模块可以合并为单个模块。

媒体内容合成装置200接收到多个已编码的对象181-189和由媒体内容递送装置100生成的元数据190。多个媒体解码器211-219分别对所述多个已编码的对象181-189进行解码来生成多个已解码的空间对象271-279(其是空间对象171-179已解码的版本)。空间对象合成器205反过来将多个已解码的空间对象271-279合成到合成到展示290(或者多个合成展示)用于在显示设备280中显示。

元数据解析器220解析元数据190以提取多个空间对象信息241-249，其分别由多个媒体解码器211-219使用以对多个已编码的对象181-189进行解码。空间对象信息241-249从被用于对每一个空间对象进行编码的信息中获取，例如每一个空间对象的分辨率、每一个空间对象的尺寸、用于每一个空间对象的编码标准、用于虚拟现实展示的信息和/或其他类型的信息。

元数据解析器也解析元数据190以提取关系信息250，其由空间对象合成器205使用来决定如何将各种各样的已解码的空间对象271-279合成到展示290之中。关系信息250包括表征(characterizes)不同空间对象171-179之间关系的信息，例如多个空间对象之间相对位置、多个空间对象之间相对透明度或不透明度、多个空间对象之间下变频和/或上变频关系(例如用于时间或空间上/下取样的因素)、多个空间对象的出现之间的延时、和/或其他类型的时间/空间关系。

多个媒体解码器211-219独立于任何其他媒体解码器执行它们各自的空间对象的编码(或者独立于其他空间对象的解码操作)。在一些实施例中，媒体解码器包括执行空间和/或时间压缩的视频解码器并且每一个视频解码器在没有参考其他任何空间对象的情况下压缩它的空间对象。例如，媒体解码器211可以通过空间对象271中的帧间预测或者帧内预测对空间对象271(从已编码的空间对象181中解码得到)的区块进行解码，但是这种预测编码将不会参考任何一个已解码的空间对象272-279(从已编码的空间对象182-189解码得到)。

除了提取空间对象信息241-249，至少一些解码器211-219基于感兴趣区域(region of interest，ROI)选择的输入，执行它们的解码操作。在此情况下，一些由多个媒体解码器211-219生成的多个已解码的空间对象271-279可以是足以覆盖选择的ROI的多个空间对象171-179的部分解码的版本。具体地，一些媒体解码器211-219根据ROI选择仅请求/取得以及解码它们各自的来自于源(例如媒体内容递送装置100)的空间对象中的相关的或必要的部分，其中ROI不需要的部分不被请求/取得或者解码。

下面的部分Ⅲ提供了示例，其中合成展示是基于全景图像(omnidirectionalimages)的360°VR(360VR)，以及ROI选择指示媒体解码器在全景图像中的哪一部分是感兴趣区域(例如，基于当前用户交互的VR装置指定的视口(viewport))。

此外，根据由元数据190提供的对应空间对象信息指定的编码标准、分辨率、和/或尺寸，每一个解码器也用于解码其分配的空间对象(例如，媒体解码器211根据由空间对象信息241指定的参数对已编码的对象181进行解码)。参考下面的图19来描述根据H.265/HEVC执行视频解码的示例性的媒体解码器。

空间对象合成器205合成解码的空间对象271-279到用于显示或存储的合成展示290之中，根据从元数据190中提取出来的关系信息250执行合成操作。合成操作也基于一组装置性能(device properties)260，其可能包括尺寸、维度(dimension)、和/或对象显示设备的分辨率。空间对象合成器205可以基于由装置性能260指定的参数对接收到的多个空间对象或生产的合成展示290执行上变频和/或下变频。

图3概念性地示出了用于对合成展示的多个空间对象进行编码的进程300。在一些实施例中，当媒体内容递送装置100独立地对多个空间对象进行编码并生成表征已编码的空间对象的元数据的时候，媒体内容递送装置100执行进程300。在一些实施例中，计算装置的一个或多个处理单元(例如处理器)通过执行存储于计算机可读介质中的指令，实施媒体内容递送装置100执行的进程300。

进程300开始于当媒体内容递送装置100从合成媒体源中接收到多个空间对象的时候。所述多个空间对象可以包括视频、多个静止图像、和/或其他类型的媒体对象。空间对象可以对应于可适性视频的基础质量层或者提升质量层。下面的部分Ⅱ描述了合成媒体方案，其中空间对象对应于可适性视频的基础质量层和提升质量层。

媒体内容递送装置根据第一组参数对第一空间对象进行编码(在步骤310)，媒体内容递送装置根据第二组参数也对第二空间对象进行编码(在步骤320)，第一空间对象和第二空间对象被独立地编码。在一些实施例中，第一空间对象通过第一视频/图像编码标准进行编码以及第二空间对象通过第二、不同的视频/图像编码标准进行编码。在一些实施例中，第一空间对象通过不参考第二空间对象的预测进行编码，以及第二空间对象通过不参考第一空间对象的预测进行编码。在一些实施例中，第二空间对象没有通过帧间预测而仅由帧内编码进行编码。

媒体内容递送装置还基于第一组参数(第一空间对象的)、第二组参数(第二空间对象的)以及第一空间对象和第二空间对象之间的关系生成元数据(在步骤330)。基于第一组参数和/或第二组参数的信息可以包括每一个空间对象的分辨率、每一个空间对象的尺寸、用于编码每一个空间对象的编码标准、用于虚拟现实展示的信息。空间对象之间的的关系信息可以包括多个空间对象之间相对位置、多个空间对象之间透明度或不透明度、多个空间对象之间下变频和/或上变频的关系(例如用于时间或空间上/下取样的因素)、多个空间对象的出现之间的延时、和/或其他类型的时间/空间关系。

媒体内容递送装置然后传输(在步骤340)或存储已编码的第一空间对象、已编码的第二空间对象以及生成的元数据，进程300然后结束。在一些实施例中，已编码的第一空间对象以及已编码的第二空间对象以及生成的元数据一起被汇编到数据流中用于传输或存储。下面的部分Ⅳ将描述用于合成空间对象过程的元数据的信令。

图4概念性地示出了用于对合成展示的空间对象进行解码的进程400。在一些实施例中，当媒体内容合成装置200根据相关的元数据对空间对象独立地进行解码以及合成已解码的空间对象至合成展示的时候，媒体内容合成装置200执行进程400，元数据包括用于至少一些空间对象的参数和表征空间对象之间关系的参数。在一些实施例中，实施媒体内容合成装置200的计算装置的一个或多个处理单元(例如，处理器)通过执行存储于计算机可读介质中的指令执行进程400。

进程400开始于当媒体内容合成装置200接收已编码的第一空间对象以及已编码的第二空间对象的时候(在步骤410)。媒体内容合成装置200还接收和第一空间对象以及第二空间对象有关的元数据(在步骤420)。第一和/或第二组参数可以包括每一个空间对象的分辨率、每一个空间对象的尺寸、用于编码每一个空间对象的编码标准、用于虚拟现实展示的信息。空间对象之间的关系信息可以包括多个空间对象之间相对位置、多个空间对象之间透明度或不透明度、多个空间对象之间下变频和/或上变频关系(例如用于时间或空间上/下取样的因素)、多个空间对象的出现之间的延时、和/或其他类型的时间/空间关系。下面将在部分Ⅳ中描述用于合成空间对象进程的元数据的信令。

媒体内容合成装置根据从元数据中导出的第一组参数对第一空间对象进行解码(在步骤430)，媒体内容合成装置还根据从元数据中导出的第二组参数对第二空间对象进行解码(在步骤440)，第一空间对象和第二空间对象被独立地解码。

在一些实施例中，媒体内容合成装置也接收感兴趣区域(ROI)选择(步骤422)并识别第二空间对象中对应于所接收到的ROI选择的部分(步骤425)。在此情况下，媒体内容合成装置对第二空间对象中所识别的和ROI有关的部分进行解码而不是整个第二空间对象。下面的部分Ⅲ提供了示例，其中合成展示是基于全景图像的360°VR(360VR)视频，并且ROI选择对应于由VR装置指定的视口。所识别的ROI的部分对应于第二空间对象中对包括指定的ROI进行解码所需要的部分。在一些实施例中，在没有帧间预测的情况下对第二空间对象进行帧内编码，因此它可以以有效的方式用于对所选择的ROI进行随机的编址(randomlyaddressed)和解码。

媒体内容合成装置根据从元数据中导出的第一空间对象和第二空间对象之间的关系参数，将已解码的第一空间对象和已解码的第二空间对象合到合成展示中(在步骤450)，进程400然后结束。

Ⅱ.提升质量递送

在一些实施例中，多个已编码的空间对象是可适性视频的不同的层，其可被合成为具有不同质量的展示中。具体地，已编码的空间对象可以包括至少一个基础质量层空间对象以及至少一个提升质量层空间对象。基础质量层空间对象可以包括视频(例如图像序列)对象或者从原始视频(或图像)在时间和/或空间下变频后的图像对象。提升质量层空间对象可以包括基础质量层对象的上变频版本和原始视频之间的差异。

图5示出了对将要合成的基础质量层和提升质量层进行编码的可适性视频编码器500。可适性视频编码器生成各种各样不同的基础质量层和提升质量层。可适性视频编码器500通过对原始视频或图像进行下变频(例如下取样)来生成各种各样的基础质量层，每一个生成的基础质量层具有降低的空间分辨率(或者维度)和/或降低的帧率。通过将对应的基础质量层和提升质量层合成，每一个提升质量层包括从对应的基础质量层以特定分辨率重建原始视频或图像所需要的信息。这些各种各样的层基于传输媒介(transmissionmedium)的能力和目标装置的质量需求，可以有选择地被递送至目标解码/显示设备。

如图所示，可适性视频编码器500包括下变频器510、上变频器520、比较器(comparators)530、基础质量层编码器540、提升质量层编码器550以及元数据生成器590。在一些实施例中，模块510、520、530、540、550以及590是具有软件指令的多个模块，软件指令由计算装置或电子装置的一个或多个处理单元(例如处理器)执行。在一些实施例中，模块510、520、530、540、550以及590是具有硬件电路的多个模块，硬件电路由电子装置的一个或多个集成电路(IC)实施。虽然模块510、520、530、540、550以及590被示为分离的模块，但是一些模块可以被合并到单个模块中。

可适性视频编码器500从媒体内容提供器501中接收原始媒体内容505(原始媒体内容505被示为具有图像序列的视频)。原始媒体内容505是由下变频器510在空间和/或时间上下变频成各种各样空间和/或时间分辨率的多个下变频的对象581-583。所述多个下变频的对象581-583被示为相比于原始媒体内容505具有更低空间分辨率的图像的视频。下变频的对象583特别地被示为和原始媒体内容505相比具有更低帧率/时间分辨率的视频。

基础质量层编码器540将多个下变频的对象581-583分别编码成多个已编码的基础层对象541-543。基础质量层编码器540也将所述多个下变频的对象重构为多个基础层对象511-513。所述多个基础质量层对象511-513是由上变频器520在空间和/或时间上上变频成多个上变频的基础质量层对象521-523以匹配原始媒体内容505的分辨率。比较器530将所述多个上变频的基础质量层对象521-523和原始媒体内容505进行比较以生成多个差分对象(differential objects)531-533作为提升质量层对象。提升质量层编码器550将所述多个提升质量层(或差分)对象531-533编码成多个已编码的提升质量层对象551-553。

每一个基础质量层编码器540和每一个提升质量层编码器550独立于其他任何基础质量层编码器和提升质量层编码器操作。在一些实施例中，当不参考其他任何基础质量层或提升质量层对象对它的基础质量对象进行编码的时候，每一个基础质量层编码器540执行它自己的帧内和/或帧间预测操作。(同样地，当不参考其他任何基础质量层或提升质量层对象对它的提升质量对象进行编码的时候，每一个提升质量编码器550执行它自己的帧内和/或帧间预测操作)。在一些实施例中，不同的基础质量层编码器以及提升质量层编码器可以使用不同的视频/图像编码标准。

在一些实施例中，可适性视频编码器500是一种媒体内容递送装置100，它的基础质量层和提升质量层被编码为多个空间对象并且被递送用于后续的合成处理。换句话说，下变频器510、上变频器520以及多个比较器(comparators)530是合成媒体源105的组件。多个基础质量层对象511-513和多个提升质量层(或差分)对象531-533是由多个媒体编码器111-119(相当于基础质量层解码器540和提升质量层编码器550)独立地编码的空间对象。

虽然没有示出，可适性视频编码器500不仅生成每一个基于基础质量层和原始图像之间的差异的提升质量层对象，还生成包括基于各种各样基础质量层之间的差异的提升质量层对象。这样的提升质量层通过在第二、更低的分辨率合成另一个基础质量层和对应的提升质量层来允许在第一分辨率重构一个基础质量层。

可适性视频编码器500还生成了元数据595(通过元数据生成器590)，元数据表征每一个基础质量层对象和每一个提升质量层对象。对于每一个基础质量层或提升质量层对象，元数据可以包括空间和/或时间分辨率、编码标准、虚拟现实展示信息、和/或其他类型的信息，根据所述元数据，基础质量层编码器540生成多个已编码的基础质量层对象541-543以及提升质量层编码器550生产多个已编码的提升质量层对象551-553。元数据590还可以包括表征多个基础质量层对象和多个提升质量层对象之间关系的信息，用于匹配每一个基础质量层的分辨率和它对应的提升质量层的多个变频比率(conversion ratios)的信息(例如由上变频器520使用的以将多个基础质量层对象511-513上变频成多个上变频的基础质量层对象521-523)。

元数据595、多个已编码的基础质量层对象541-543以及多个已编码的提升质量层对象551-553被提供到IP网络来递送到目标装置。可适性的视频解码器作为目标装置，基于它的比特率以及质量需求接收并解码一些基础质量层对象和提升质量层对象。可适性的视频解码器将已解码的基础质量层对象和已解码的提升质量层对象合成到具有期望质量的合成展示中。

图6标出了接收、解码以及合成多个基础质量层对象和多个提升质量层对象以得到可适性视频展示的可适性视频解码器600。在示出的示例中，可适性视频解码器600接收已编码的基础质量层对象541、已编码的提升质量层对象551和元数据595。可适性视频解码器600基于元数据595的内容对接收到的对象进行解码并基于装置的性能将多个已解码的对象合成到具有期望的质量水平的合成展示690中。

可适性视频解码器600包括基础质量层解码器640、提升质量层解码器650、上变频器620、合成器(加法器)630以及媒体内容渲染器(media content renderer)660。在一些实施例中，模块620、630、640、650以及660是具有软件指令的多个模块，软件指令由计算装置或电子装置的一个或多个处理单元(例如处理器)执行。在一些实施例中，模块620、630、640、650以及660是具有硬件电路的多个模块，所述硬件电路由电子装置的一个或多个集成电路(IC)实施。虽然模块620、630、640、650以及660被示为分离的模块，但是一些模块可以合并成单个模块。

如图所示，可适性视频解码器600从IP网络199接收已编码的基础质量层对象541以及已编码的提升质量层对象551。基础质量层解码器640对基础质量层对象541进行解码以再创建基础质量层对象511，以及提升质量层解码器650对提升质量层对象551进行解码以再创建已解码的差分对象631。上变频器620已解码的基础质量层对象511上变频成上变频的基础质量层对象521。合成器(或加法器)630然后合成基础质量层对象521和已解码的差分对象631以创建合成展示690。媒体内容渲染器660然后基于目标装置的装置性能渲染用于由对象装置进行显示的合成展示690。

在一些实施例中，可适性视频解码器600是一种媒体内容合成装置200，其中多个基础质量层和多个提升质量层被编码为多个空间对象并且合成到合成展示中。换句话说，上变频器620和合成器630是空间对象合成器205的组件。基础质量层对象511和提升质量层对象531是由多个媒体解码器211-219独立地解码的多个空间对象，媒体解码器211-219对应于基础质量层解码器640和提升质量层解码器650。

由基础质量层解码器640执行的多个解码操作和由提升质量层解码器650执行的多个解码操作是彼此独立的。换句话说，基础质量层对象551和提升质量层对象541是独立地解码的。基础质量层解码器640可以在不参考提升质量层对象的情况下，执行它自己的帧间以及帧内预测操作，以及提升质量层解码器650可以在不参考基础质量层对象的情况下执行它自己的帧间以及帧内预测操作。

元数据解析器620解析元数据590来提取基础质量层参数645以及提升质量层参数655。基础质量层解码器640使用这些信息来决定如何对基础质量层对象541进行解码以及提升质量层解码器650使用这些信息来决定如何对提升质量层对象551进行解码。基础质量层参数645可以包括如基础质量层对象541的分辨率和尺寸的信息、基础质量层对象的VR展示信息等等。提升质量层参数655可以包括如提升质量层对象551的分辨率和尺寸的信息、提升质量层对象的VR展示信息等等。元数据解析器620也解析元数据595来提取关系参数625，关系参数表征基础质量层对象541和提升质量层对象551之间的关系，用于匹配基础质量层和提升质量层的分辨率的上变频比率的信息。

在一些实施例中，提升质量层对象551的解码操作是基于ROI选择的输入，提升质量层对象解码器650基于ROI选择对应地仅解码提升质量层对象中相关或必要的部分。因此，已解码的差分对象631可以是差分对象531部分已解码的版本。部分已解码的差分对象631被示为表示全尺寸差分对象的较大矩形区内较小的矩形区域。因为差分对象631具有仅用于对应于ROI的展示部分的差分数据，因此作为结果的合成展示690仅对ROI具有全分辨率，而ROI外部的图像内容保持在基础质量。在一些实施例中，在没有帧间预测的情况下对提升质量层对象进行帧内编码，因此它可以以有效的方式用于对所选择的ROI进行随机的寻址和解码。

Ⅲ.虚拟现实

在一些实施例中，可适性视频编码器500和可适性视频解码器600被用于递送基于全景图像的360°虚拟现实(360VR)媒体内容。图7示出了和示例性实施例一致的VR内容递送系统700。

如图所示，VR内容递送系统700包括360VR内容提供器710。所提供的360VR可以是由相机提供的原始内容(raw content)，或者是任何以3D至2D投影格式处理过的原始内容的(例如投影映射和/或拼接)的版本，例如等矩形投影(equirectangular projection，简称ERP)、立方体地图投影(cube map projection，简称CMP)、等面积投影(equal areaprojection，简称EAP)、八面体投影(octahedron projection,简称OHP)等等。

VR内容递送装置720部署多个压缩(compression)及串流(streaming)工具来将360VR内容和元数据压缩成单个数据流并通过IP网络199来传送。将在下面的部分Ⅳ中描述用于空间对象的合成进程的元数据的信息。

VR内容合成装置730接收到360VR内容以及元数据并且生成360VR内容的合成VR展示。内容渲染引擎740将合成VR展示渲染到VR装置的球形环境中以用于客户端的VR体验。VR装置750指定360VR内容中的子区域作为视口，以及视口的规格(Specification)被提供给VR内容合成装置730作为ROI选择。这种VR装置可以是VR眼镜或有能力将360VR媒体内容呈现给用户的计算装置。在一些实施例中，VR内容合成装置730以及内容渲染引擎740是VR装置750的硬件或软件组件。

在一些实施例中，可适性视频编码器500实施VR内容递送转置720以及可适性视频解码器600实施VR内容合成装置730。在此情况下，呈现在VR装置中的VR内容是根据元数据中指定的参数单独地编码和解码的基础质量层对象和提升质量层对象的合成的VR展示。

来自于VR装置750的ROI选择/视口规格允许提升质量层解码器650仅对提升质量层对象551中覆盖所述视口所需要的一部分进行解码，而对提升质量层对象551中不必要的用于显示视口的其他部分不进行解码(以及不从VR内容递送装置720中请求/取出)。提升质量层解码器可以仅解码一组特定的包含视口的数据单元(例如，一组特定的方块(tiles)、多视点视频的一组特定的视点、柏拉图立体投影(platonic solid projection)中的特定的表面、一组特定的切片(slices)等等)，而不属于特定的数据单元组的数据单元不被取出或者解码。来自于合成基础质量层和提升质量层的作为结果的合成的VR展示将有它的具有全分辨率质量的视口区域，而在视口外的合成的VR展示的区域将只有基础质量层信息。

对于一些实施例，为了及时响应以及覆盖客户端快速的视点切换，由VR内容递送装置提供的基础质量层可以包括比客户端视口更大的面积(或整个投影的全景区域)。另一方面，由VR内容递送装置720提供的提升质量层可以仅覆盖客户端视口区域和/或多个周围区域以获得更好的和提升图像质量，提供好的VR体验。对于一些实施例，基础质量层可以覆盖大部分或所有视口切换以及提升质量层可以以低延时以及便于随机存取的编码技术产生，例如，提升质量层编码器550仅执行帧内编码而不执行帧间预测编码，因为帧间预测编码可能会参考在ROI/视口外的像素。这样，可以实现用于VR内容流的低延时和随机存取。

对于一些实施例，基于可适性视频编码器500的VR内容递送系统可以被认为是闭环系统(closed-loop system)，因为重构的、上变频的基础质量层内容511被用于在可适性视频编码器500中生成提升质量层内容551-553以及在可适性视频解码器600中，在不引入任何错误的情况下生成最终的合成的展示690。此外，基础质量层内容和提升质量层内容必须要在相同的3D至2D的投影格式和/或包装格式中。

本发明的一些实施例提供了VR内容递送系统的实施方式，所述VR内容递送系统可以被认为是开环系统(open-loop system)。在这种实施方式中，提升质量层内容的生成不是基于编码基础质量层内容的重构，且提升质量层内容可以从全景图像中产生，所述全景图像是相比于基础质量层内容，具有不同投影格式和/或不同包装格式的。这就允许提升质量层内容以很小的延时生成和被编码。这也允许提升质量层内容用低延时、便于随机存取的格式，而基础质量层内容用最紧凑的投影和/或包装格式。

具体地，VR内容递送系统的传输/递送端在第一投影模式中接收到原始的VR内容，在没有进一步的投影映射的情况下，将其下变频以及包装为基础质量层对象。为了创建提升质量层对象，原始VR内容被投影映射至第二投影模式。这就允许以不同的VR投影格式对被递送的基础质量层对象和已编码的提升质量层对象进行编码。在VR内容递送系统的接收/合成端，在合成基础质量层和提升质量层以生成合成的VR展示之前，基础质量层是未包装的并被投影映射到第二投影模式中。

图8a-b示出了VR内容递送系统700的实施方式800，所述VR内容递送系统可以被认为是开环系统。VR内容递送系统800包括VR内容递送装置720和VR内容合成装置730。VR内容递送装置720从VR内容提供器710接收VR内容801，在生成用于在VR内容合成装置730中递送和合成的基础质量层和提升质量层之前，对VR内容执行投影映射和拼接(或包装)。

VR内容递送装置720包括基础质量层编码器540和提升质量层编码器550，编码器540和550可参考上面图5的描述。VR内容递送装置720也包括投影映射模块810和815，下变频器820、上变频器825、拼接(包装)模块830。在一些实施例中，模块810、820、815、825、830、540、550是具有软件指令的多个模块，所述软件指令由计算装置或电子装置的一个或多个处理单元(例如处理器)来执行。在一些实施例中，模块810、820、815、825、830、540、550是具有硬件电路的多个模块，所述硬件电路由电子装置的一个或多个集成电路(IC)实施。虽然模块810、820、815、825、830、540、550被示为分离的模块，但是一些模块可以被合并成单个模块。

如图所示，VR内容801是OHP模式。为了生成提升质量层829，VR内容递送装置720执行投影(在投影模块810)来将VR内容801从OHP的变换至ERP以生成全尺寸的ERP内容811。VR内容递送装置720也下变频(在下变频器820中)视频内容801来生成压缩尺寸的OHP内容821。装置投影将压缩尺寸的OHP内容821从OHP映射(在投影模块815)至ERP中以产生尺寸减小的ERP内容816。尺寸减小的ERP内容816被上变频(在上变频器825)来产生上变频的ERP内容826。上变频ERP内容826和全尺寸ERP内容811之间的差异就是提升质量层829。提升质量层编码器550对提升质量层829进行编码以便通过IP网络199递送到VR内容合成装置730。

为了生成基础质量层对象831，VR内容递送转置720包装或拼接(在包装模块830)减小的OHP内容821至包装的OHP内容831以进一步减小它的尺寸。包装的OHP内容831作为基础质量层对象。基础质量层编码器540对基础质量层831进行编码以便通过IP网络199递送到VR内容合成装置730中。

在图8a-b的示例中，提升质量层是ERP格式，而基础质量层是包装的OHP格式。更一般的来说，基础质量层可以用在比特率和存储尺寸方面更有效的投影/包装格式或模式，而提升质量层可以是对于由于任意的ROI/视口选择的随机存取寻址是更友好的投影/包装格式。这不像第5图中的闭环实施方式，其中VR内容递送装置720用重构基础质量层生成提升质量层，而且以相同的VR投影格式递送的已编码的基础质量层对象和已编码的提升质量层对象。

VR内容合成装置730包括基础质量层解码器640和提升质量层解码器650。解码器640和650将参考上面的图6进行描述。VR内容合成装置730也包括解包模块(unpackmodule)841、投影模块842和上变频器843。在一些实施例中，模块841-843、640和650是具有软件指令的多个模块，所述软件指令由计算装置或电子装置的一个或多个处理单元(例如处理器)执行。在一些实施例中，模块841-843、640和650是具有硬件电路的多个模块，所述硬件电路由电子装置的一个或多个集成电路实施。虽然模块841-843、640和650被示为分离的模块，但是一些模块可以合并成单个模块。

VR内容合成装置730接收和解码(在提升质量层解码器650)已编码的提升质量层对象829以生成已解码的提升质量层859。在所示的示例中，提升质量层解码器650接收ROI/视口规格，以致于已解码的提升质量层859仅占据全景展示中对应于ROI的一部分。

VR内容合成装置730也接收和解码(在提升质量层解码器640)已编码的基础质量层对象831，因为基础质量层对象是包装的OHP格式，VR内容合成装置730解包(在解包模块841)、投影映射至ERP格式(在投影模块842中)以及上变频(在上变频器843中)已解码的基础质量层以生成上变频的基础质量层841。

VR内容合成装置730合成上变频的基础质量层841以及已解码的提升质量层859来生成VR展示860。如图所示，当存在有ROI/视口规格的时候，合成的VR展示在ROI内(在没有散列的情况下示出)具有全质量以及在ROI外具有较低的基础质量。

虽然没有示出，但是已编码的提升质量层和已编码的基础质量是随着元数据一起被递送，所述元数据包括关于基础质量层和提升质量层如何被解码和合成的多个参数(例如尺寸、分辨率、编码标准、变换率等等)。因为开环实施方式800在递送侧(VR内容递送装置720)执行投影映射，因此元数据也包括指定VR全景视频/图片格式化的信息，例如关于投影格式(例如，它是否是ERP、OHP、CMP、EAP或者其他投影映射格式)和包装格式(例如，重新排列柏拉图立体投影的不同表面以在360VR媒体内容中减小全景图像的尺寸)的信息。

Ⅳ.用于合成空间对象的元数据

如上所述，不考虑被传输的多个空间对象的类型(覆盖对象、基础和提升质量层、360VR全方向媒体内容等等)，被编码为空间对象以用于递送和合成的已编码的媒体内容和元数据相关联，所述元数据包括用于至少一些空间对象的参数以及表征空间对象之间关系的多个参数。

在一些实施例中，多个已编码的空间对象和元数据在和动态自适应流(DynamicAdaptive Streaming)一致的数据串流中在HTTP上传输，又称为MPEG-DASH。MPEG-DASH是用于从HTTP网络服务器将媒体内容递送至互联网的自适应位串流技术。元数据的信息可能被标示为MPEG-DASH的媒体展示描述(Media Presentation Description，简称MPD)和/或空间关系描述(Spatial Relationship Description，简称SRD)的一部分。SRD方案通过描述视频内容相关片段之间的关空间关系扩展MPD，这使得DASH客户端能够仅在和用户体验相关的那些分辨率处选择以及取回那些视频流。

为了表示基础质量内容(基础质量层的内容)、提升质量内容(提升质量层的内容)以及他们用于MPEG DASH应用的关系的存在，在一些实施例中的元数据使用MPD的必要性能描述符(essential property descriptor)或补充性能描述符(supplemental propertydescriptor)以指示基础以及提升质量内容的存在和关系。在一些实施例中，MEPG-DASH可以被用于进一步在串流和呈现进程中指示多个相对角色(relative roles)。

图9a-b示出了表示基础和提升质量内容的存在和关系的示例性的MPD900。在示例性MPD中，用于基础质量内容的变量“转换时间(Switching Interval)”可以被设置一个较大的值以及用于提升质量内容的变量“转换时间(Switching Interval)”设置一个较小的值。下面的表1列出了在MPD的基本性能和/或补充性能中用于指示基础和提升质量层对象存在和关系的参数。

表1

在一些实施例中，基于方块的编码技术可和被用于基础质量内容和提升质量内容两者。图10示出了示例性MPD 1000，其中提升质量内容被编码为多个HEVC方块(tiles)。

在一些用基础质量内容和提升质量内容用于合成360VR展示实施例中，元数据使用MPD的基本性能描述符或者补充性能描述符还可以指示特定于VR展示的信息，例如投影格式和包装格式(除了指示基础和提升质量层的存在和关系之外)。

图11是示例性的MPD 1100，在其中指示了用于VR投影的投影和包装格式。具体地，示例性MPD 1100指示了CMP投影格式和2×3包装格式中的基础质量层以及在ERP格式中的提升质量层，在水平和垂直两个方向上，用于基础质量层的下变频比率是2。

下面的表2列出了用于指示基础质量内容和提升质量内容的存在和关系，以及在各种各样基本性能和/或补充性能“值”中的投影和包装格式。

表2

本发明的一些实施例提供了动态SRD方案，所述方案包括用于合成多个空间对象的混合模式。混合信息可以作为笛卡尔坐标样本的多个参数而被携带。混合信息也可以作为2D笛卡尔坐标样本而被携带。用于混合2D笛卡尔坐标样本的额外参数可以被设置为0或者从动态SRD方案中省略。

图12示出了示例性2D笛卡尔坐标样本的语法，所述语法将混合信息作为多个参数进行携带。具体地，如果指示符“blend”为真，2D笛卡尔坐标样本包括紧随着“blend”的参数“blending-mode”。指示符“blend”指示混合信息是存在的。当其为真的时候，应用可以使用混合模式和下表3中列出的预留的对应参数值，在空间对象下面的合成处理期间，和混合信息相关的空间对象将被作为顶层空间对象。

表3

表3示出了用于各种可能的混合模式的示例性参数值。(在示例性表格中，所描述的空间对象被认为是顶层对象。)

下面的表4列出了当2D笛卡尔坐标样本携带混合信息的时候，SRD方案的基本性能和/或补充性能的参数。

表4

图13示出了示例性MPD 1300，所述MPD 1300使用携带混合信息作为多个参数的2D笛卡尔坐标样本。由于附加的参数被添加到现有的2D笛卡尔坐标样本中，这里仅有定时元数据轨道(timed metadata track)。在示例性MPD中，从“roi_coordinates_blending.mp4”中载入混合信息为2D笛卡尔坐标样本。

在一些实施例中，在应用于具体应用之前，多个2D笛卡尔坐标样本和内容一起生成，随后可用单独生成用于具体应用的混合信息。在一些实施例中，这些混合信息被存储为多个2D笛卡尔坐标样本。对于一些实施例，图14示出了2D笛卡尔坐标样本的语法，所述语法用于存储混合信息。如果2D笛卡尔坐标样本存在于单独的元数据轨道或文件中，语法元素“2dccsample”是可选的。图15示出了示例性MPD 1500，其使用存储为多个2D笛卡尔坐标样本的混合信息。在示例性的MPD中，从“blending_roi_coordinates.mp4”中载入混合信息为多个2D笛卡尔坐标样本。

在一些实施例中，SRD的语法包括在DASH客户端中支持同时特征和并行计算(例如使在可适性视频解码器600或VR内容合成装置730中的基础质量层解码器640和提升质量层解码器650能够同时处理)。能够并行计算允许，例如，在一个或多个装置上同时呈现/显示来自于帧或全景视图中分成方块的视频，使用的方块尺寸可以独立于多个客户端装置。可以允许和定义多个空间对象之间的交互性如混淆或混合以提升整体内容编码/递送的效率。因此，能够并行计算丰富了在一个或多个装置上的各种各样的VR展示。

在一些实施例中，如果SRD中的信令适应集(signaling adaptation set)存在，则指示所述适应集可以由视点元素(viewpoint element)识别，或者它可以由扩展的子资产识别符方案将其标识为资产的子资产。可选的是，根据对应的SRD信息将适应集和相等的视点值或相等的子资产值可以或必须呈现在一起，取决于它是否被用于补充性能或基础性能。

在一些实施例中，SRD包括能同时展示或并行计算的方案识别符。图16示出了具有SRD方案的能够同时展示的示例性的MPD 1600。

根据接收到的示例性MPD 1600，没有SRD感知的客户端可能主要呈现左全景或者右全景，或者两种全景。在另一方面，具有SRD感知的客户端根据接收到的示例性MPD 160，将会在单一装置或多个装置上呈现缩放的视图(zoomed view)、或者具有全景视图的缩放视图、或者具有两个全景视图的缩放视图。在一些实施例中，全景视图被用作用于VR应用的基础质量层，以及平铺或缩放的视图基于客户端视口/ROI切换被用作提升质量层。

MEPG-DASH将“资产”定义为“包括媒体和元数据的内容以及由内容提供器使用所述内容的权利”，以及将“子资产”定义为“被标识为对应于资产部分的媒体内容分量(或它的部分)”。SRD的子资产识别符方案规定了时间特征如关于播放的连续性。在一些实施例中，SRD的子资产的识别符方案也被延伸至指定空间特征。例如，如果基于方块的全视频(帧)内容被定义为资产，然后这些方块合成全视频内容可以被子资产识别符方案的描述符所标识。这种扩展也可以被用于基于块的编码和用于VR应用的递送，使得具有相同子资产值的块可被回放在一起被呈现(具有SRD信息)为全视频内容。在一些实施例中，子资产识别符方案进一步延伸到去描述被合成的空间对象之间的空间关系。

在一些实施例中，在内容时间段内的跨越多个适应集的子资产可以用子资产方案识别符来标识。如果来自于内容时间段的两个不同的适应集或者子展示包括具有相同属性“值”的子资产识别符描述符，那么包含在这些适应集里的展示中的内容表示了同一资产的空间部分(或空间对象)。所表示的空间部分可以具有SRD描述符。DASH客户端也可以使用子资产识别符描述符去选择在内容时间段内被同时处理的展示内容以用于合成全空间展示。

图17a-b示出了示例性MPD 1700，其使用子资产方案去标示多个空间对象或合成展示的多个空间部分。在示例性MPD 1700中，用SRD方案来表示的适应集，schemeIdUri＝"urn:mpeg:dash:srd:simul:2017"，可以是资产的子资产。它也可以由延伸的子资产识别符方案标识，schemeIdUri＝"urn:mpeg:dash:sai:spatial:2017"。如果它们具有相等的子资产值，根据对应的SRD方案，客户端可以选择一起呈现它们。

除了使用“urn:mpeg:dash:sai:2017”作为用于在时间域标识子资产的方案和使用“urn:mpeg:dash:sai:spatial:2017”作为用于在空间域标识子资产的方案之外，子资产识别符方案可以进一步延伸作为“urn:mpeg:dash:sai:signal:2017”以包括用于各种各样应用优化的更广的情况。例如，子资产可以是全颜色资产的颜色分量，或者全信号范围资产的部分信号等等，丰富的混合方案可以和它一起被使用以获得良好的整体体验质量。

Ⅴ.示例性视频编码器

图18示出了示例性视频编码器1800，其在媒体内容递送装置100中的至少一些媒体编码器111-119中实施。

如图所示，视频编码器1800从视频源1805中接收输入视频信号并将信号编码至比特流1895。视频编码器1800具有诸多组件或模块用于编码所述视频信号1805，包括转换模块1810、量化模块1811、逆量化模块1814、逆转换模块1815、帧内图像估计模块1820、帧内图像预测模块1825、运动补偿模块1830、运动估计模块1835、环路滤波器1845、重构图像缓冲器1850、MV缓冲器1865、MV预测模块1875以及熵编码器1890。

在一些实施例中，模块1810-1890是具有软件指令的多个模块，所述软件指令由计算装置或电子装置的一个或多个处理单元(例如处理器)执行。在一些实施例中，模块1810-1890是具有硬件电路的多个模块，所述硬件电路由电子装置的一个或多个集成电路实施。虽然模块1810-1890被示为分离的模块，但是一些模块可以合并成单个模块。

视频源1805提供表示每一视频帧的像素数据未经压缩的原始视频信号，减法器1808计算视频源1805的原始视频的像素数据和来自于运动补偿1830或帧内图像预测1825的预测的像素数据1813的差异。转换模块1810将所述差异(或残差像素数据)变换成转换系数1816(例如，通过执行离散余弦变换，或DCT)。量化模块1811将转换系数量化成量化的数据(或量化的系数)1812，其由熵编码器1890编码至比特流1895中。

逆量化模块1814逆量化所述量化的数据(或量化的系数)1812以获得多个转换系数，以及逆转换模块1815对转换系数执行逆转换以生成重构的像素数据1817(在增加预测的像素数据1813之后)。在一些实施例中，用于帧内图像预测和空间MV预测的重构的像素数据1817是暂时存储于线缓冲器(line buffer，未示出)之中的。重构的像素数据由环路滤波器1845进行滤波并存储于重构图像缓冲器1850中。在一些实施例中，重构像素缓冲器1850是在视频编码器1800之外的内存。在一些实施例中，重构图像缓冲器1850是在视频编码器1800之中的内存。

帧内图像估计模块1820根据重构像素数据1817执行帧内预测以生成帧内预测数据，所述帧内预测数据被提供给熵编码器1890来被编码至比特流1895。所述帧内预测数据也由帧内图像预测模块1825使用来生成预测的像素数据1813。

运动估计模块1835通过产生多个MV来参考存储于重构图像缓冲器1850中先前解码的帧的像素数据来执行帧间预测，所述多个MV被提供给多个运动补偿模块1830来生成预测的像素数据。所述多个MV对于在单信道解码系统中重构视频帧是必要的。视频编码器1800使用时间MV预测来生成多个预测的MV而不是在比特流中编码全部实际的多个MV，以及用于运动补偿的多个MV和多个预测的MV之间的差异被编码为残差运动数据并存储于比特流1895中以用于单信道解码系统。

视频编码器1800基于用于编码先前视频帧而生成的多个参考MV，生成多个预测的MV，也就是多个运动补偿MV将被用于执行运动补偿。视频编码器1800从来自于MV缓冲器1865中的先前视频帧中取回多个参考MV。视频编码器1800将生成的用于当前视频帧的多个MV存储于MV缓冲器1865中作为用于生成多个预测的MV的多个参考MV。

MV预测模块1875使用预测的参考MV去创建多个预测的MV，所述多个预测的MV可以由空间MV预测或时间MV预测计算。多个预测的MV和当前视频帧中的多个运动补偿MV(MCMV)之间的差异(残差运动数据)由熵编码器1890编码至比特流1895中。

熵编码器1890通过使用熵编码技术(entropy-coding techniques)例如上下文自适应二进制算数编码(context-adaptive binary arithmetic coding,简称CABAC)或霍夫曼编码(Huffman encoding)，将各种各样的参数和数据编码至比特流1895中。熵编码器1890将多个参数编码至比特流中，例如量化的转换数据和残差运动数据。

环路滤波器1845在重构的像素数据1817上执行滤波或平滑操作来减少编码的伪影(artifacts)，特别是在像素区块的边界位置。在一些实施例中，执行的滤波操作包括样本自适应偏移(sample adaptive offset，简称SAO)。在一些实施例中，滤波操作包括自适应环路滤波(adaptive loop filter，简称ALF)。

Ⅵ.示例性视频解码器

图19示出了示例性视频解码器1900，其在媒体内容合成装置200中的至少一些媒体解码器211-219中实施。

如图所示，视频解码器1900是图像解码或视频解码电路，其接收比特流1995并将比特流的内容解码到用于显示的多个视频帧的像素数据中。视频解码器1900具有用于解码比特流1995的多个组件或分量，包括逆量化模块1905、逆转换模块1915、帧内图像预测模块1925、运动补偿模块1935、环路滤波器1945、解码图像缓冲器1950、MV缓冲器1965、MV预测模块1975以及比特流解析器1990。

在一些实施例中，模块1910-1990是具有软件指令的多个模块，所述软件指令由计算装置的一个或多个处理单元(例如处理器)执行。在一些实施例中，模块1910-1990是具有硬件电路的多个模块，所述硬件电路由电子装置的一个或多个集成电路实施。虽然模块1910-1990被示为分离的模块，但是一些模块可以合并成单个模块。

比特流解析器1990(或熵解码器)接收到比特流1995并根据由视频编码或图像编码标准定义的语法执行初步的解析。解析的语法元素包括各种各样的数据头元素(headerelements)、标记以及量化的数据(或量化的参数)1912。比特流解析器1990通过使用如上下文自适应二进制算数编码或霍夫曼编码这样的熵编码技术，解析出各种各样的语法元素。

逆量化模块1905对量化的数据(或量化的系数)1912进行逆量化来获得多个转换系数，以及逆转换模块1915对多个转换系数1916执行逆转换来生成已解码的像素数据1917(在从帧内预测模块1925或运动补偿模块1935中添加预测的像素数据1913之后)。已解码的像素数据由环路滤波器1945进行滤波并存储于解码图像缓冲器1950中。在一些实施例中，解码图像缓冲器1950是在视频解码器1900之外的内存。在一些实施例中，解码图像缓冲器1950是视频解码器1900之内的内存。

帧内图像预测模块1925从比特流1995中接收到帧内预测数据并根据帧内预测数据从已解码的像素数据1917生成预测的像素数据1913并存储于解码图像缓冲器1950中。在一些实施中，编码的像素数据1917也存储于线缓冲器中(为示出)以用于帧内图像预测和空间MV预测。

在一些实施例中，解码图像缓冲器1950的内容是用于显示的。显示设备1955直接接收到用于显示的解码图像缓冲器1950的内容或者将解码图像缓冲器的内容取回到显示缓冲器中。在一些实施例中，显示设备通过像素传输从解码图像缓冲器1950中接收到像素值。

运动补偿模块1935根据多个运动补偿MV(MC MV)，从存储于解码图像缓冲器1950中的已解码的像素数据1917生成预测的像素数据1913。通过将从比特流1995中接收到的残差运动数据和从MV预测模块1975接收到的多个预测的MV相加来解码这些运动补偿MV。

视频解码器1900基于用于解码先前视频帧而生成的多个参考MV生成多个预测的MV，例如，多个运动补偿MV被用于执行运动补偿。视频解码器1900从MV缓冲器1965中取回先前视频帧的多个参考MV。视频解码器1900也将用于解码当前视频帧而生成的多个运动补偿MV存储于MV缓冲器1965中以作为用于生成多个预测的MV的多个参考MV。

环路滤波器1945在已解码的像素数据1917上执行滤波/平滑操作以减少编码的伪影，特别是在区块的边界处。在一些实施例中，执行的滤波操作包括样本适应性偏移(SAO)。在一些实施例中，滤波操作包括自适应环路滤波(ALF)。

Ⅶ.示例性电子装置

上述特征和应用的许多被实现为软件进程，所述软件进程指定为记录在计算机可读存储介质(也称为计算机可读介质)上的一组指令。当这些指令由一个或多个计算或处理单元(例如一个或多个处理器、处理器的核心或其他处理单元)执行的时候，它们导致处理单元执行所述指令指示的动作。示例性的计算机可读介质包括但不限于CD-ROMs、闪存盘(flash drives)、随机存取存储器(random-access memory,简称RAM)芯片、硬盘驱动器、可擦除可程序设计只读存储器(erasable programmable read only memories,简称EPROMs)、电可擦除可程序设计只读存储器(electrically erasable programmable read-only memories，简称EEPOMs)等等。所述计算机可读介质不包括通过无线传输或有线连接传输的载波(carrier waves)和电子信号。

在本发明中，术语“软件”意味着包括属于可读内存的固件或在磁内存中的应用，其可被读入内存已被内存处理。同样，在一些实施例中，多个软件发明可以被实现为较大程序的子部分，而其余的不同的软件发明。在一些实施例中，多个软件发明也可以被实施为单独的程序。最后，在此描述的实现本发明的软件发明的单独程序的任何组合都在本发明的范围内。在一些实施例中，当软件程序被安装以在一个或多个电子系统上运行的时候，定义一个或多个特定的机器实施方式，所述实施方式执行和运行软件程序的操作。

图20概念性的示出了实施本发明一些实施例的电子系统2000。电子系统2000可以是计算机(例如台式计算机、个人计算机、平板计算机等等)、手机、PDA或其他任何种类的电子装置。这样的电子系统包括各种各样的计算机可读媒介的种类和用于各种各样其他计算机可读媒介种类的接口。电子系统2000包括总线2005、处理单元2010、图像处理单元(graphics-processing unit，简称GPU)2015、系统存储器2020、网络2025、只读存储器2030、永久存储设备(permanent storage device)2035、输入设备2040以及输出装置2045。

总线2005概括地表示在所有系统、外围装置以及和所述电子系统的多个内部装置通信连接的芯片组总线。例如，总线2005将处理单元2010和GPU2015、只读存储器2030、系统存储器2020以及永久存储设备通信地连接。

为了执行本发明的进程，来自于这些各种各样处理单元的处理单元2010的取回指令用于执行以及取回数据用于处理。在不同的实施例中，处理单元可以是单个的处理器或多核处理器。一些指令被发送并由GPU 2015执行，GPU 2015可以分流由处理单元2010提供的各种各样的计算指令或者图像处理的实施方式。

只读存储器(ROM)2030存储电子系统的处理单元和其他模块所需要的静态数据和指令。在另一方面，永久存储设备2035是读写存储设备(read-and-write memory device)。这个装置是非易失性存储单元，即甚至在电子系统2000关闭的时候也能存储指令和数据的装置。本发明的一些实施例使用大容量存储装置(mass-storage device)(例如磁盘或光盘以及它对应的磁盘驱动器)作为永久存储设备2035。

其他实施例使用移动存储设备(例如软盘、闪速内存等等及它对应的磁盘驱动器)作为永久存储设备。和永久存储设备2035一样，系统存储器2020是读写存储设备。然而，不像永久存储设备2035，系统内存2020是易失性读写内存，例如随机存取内存。存储内存2020存储处理器在运行时间需要的一些指令和数据。在一些实施例中，和本发明一致的进程存储于系统存储器2020、永久存储设备2035和/或只读存储器2030。例如，各种各样的存储单元包括用于处理和一些实施例一致的多媒体剪辑的指令。为了执行一些实施例的进程，来自于这些各种各样存储单元的处理单元2010取回指令以执行以及取回数据以处理。

总线2005也连接输入设备2040和输出装置2045。输入设备2040使用户可以向电子系统交流信息和选择命令。输入设备2040包括字母数字键盘(alphanumeric keyboards)和定位装置(pointing devices)(也成为“指针控制装置”)、摄像机(例如网络摄像机(webcams))、麦克风或用于接收语音命令的相似装置等等。输出装置2045显示有电子系统生成的图像或其他输出数据。输出装置2045包括打印和显示设备，例如阴极射线管(cathode ray tubes，简称CRT)或液晶显示屏(liquid crystal displays，简称LCD)以及扬声器或其他相似的音频输出装置。一些实施例包括同时作为输入和输出装置功能的装置，例如触摸屏。

最后，如图20所示，总线2005通过网络适配器(未示出)也将电子系统2000耦合道网络2005。以这种方式，计算机可以是计算机网络的一部分(例如本地局域网，LAN)、广域网(WAN)、内部网络、或如互联网等网络的网络。任何或所有电子系统2000的组件可以和本发明结合使用。

一些实施例包括电子组件，例如微处理器(microprocessors)、存储和内存，其存储在机器可读(machine-readable)或计算机可读媒介中(可选地称为计算机可读存储介质、机器可读介质或机器可读存储介质)的计算机程序指令。计算机可读介质的一些示例包括RAM、ROM、只读光盘(read-only compact discs，简写为CD-ROM)、可记录光盘(recordable compact discs，简称为CD-R)、可再写性光盘(rewritable compact discs，简称CD-RW)、只读数字通用光盘(read-only digital versatile discs)(例如DVD-ROM、双层DVD-ROM)、各种各样的可记录/可再写性DVDs(例如DVD-RAM、DVD-RW、DVD+RW等等)、闪存(例如SD卡、mini-SD卡、micro-SD卡等等)、磁和/或固态硬盘驱动器、只读和可记录的蓝光光盘( discs)、超密度光盘(ultra density optical discs)、其他任何光或磁媒体、以及软盘。计算机可读媒体可以存储由至少一个处理单元执行的计算机程序，并且包括用于执行各种操作的指令集。计算机程序或计算机代码的示例包括如由编译程序产生的机器代码以及由计算机、电子组件或使用解释器的微处理器执行的包括高级代码的档。

虽然上述讨论首先引用了微处理器或多核处理器执行软件，上述特征和应用许多有一个或多个集成电路执行，例如应用程序专用集成电路(application specificintegrated circuits，简称ASICs)或现场可程序设计门阵列(field programmable gatearrays，简称FPGAs)。在一些实施例中，这种基础电路执行存储于它自己电路上的指令。此外，一些实施例执行存储于可程序设计逻辑设备(PLDs)、ROM或RAM装置上的软件。

如在本申请的说明书或任何权利要求中所使用的，术语“计算机”、“服务器”、“处理器”和“内存”都指电子或其他科技装置，这些术语排除人或人群。为了说明的目的，术语“显示”指显示在电子装置上。如在本申请的说明书或任何权利要求中所使用的，术语“计算机可读介质”、“计算机可读媒体”以及“机器可读介质”是完全局限于有形的物理对象，所述物理对象存储以计算机可读的形式存储信息，这些术语排除任何无线信号、有线下载信号以及任何其他短暂的信号。

虽然已经参考了许多具体细节描述了本发明，本领域普通技术人员将认识到，本发明还可以以其他特定形式来体现，而不偏离本发明的精神。此外，许多图(包括图3-4)概念性地示出了进程，这些进程的具体的操作可用不以所示和所述的精确顺序来执行。具体的操作可能不在一系列连续的操作中执行，并且不同的实施例中可以执行不同的具体的操作。此外，所述过程可以使用几个子进程或作为较大宏进程的一部分来实现。因此，本领域普通技术人员可以理解的是，本发明不受前述说明性细节的限制，而是由所附权利要求书限定。

附加的注释

这里所描述的对象有时示出了包含在不同的其他组件内或和其连接的不同的组件。可以理解的是，这些描述的结构仅仅是示例，实际上许多其他结构可以实现相同的功能。概念性的意义上，实现相同的功能的组件的任何布置是有效地“关联”的，从而实现期望的功能。因此，这里任何两个组件合并去实现具体的功能可以视为和彼此“相关”，从而实现期望的功能而不考虑结构或中间组件。同样地，任何相关联的两个组件也可以被视为“可操作地连接”或“可操作地耦合”，以实现期望的功能，以及能够被彼此关联的任何两个组件也可以被视为“可操作地耦合”，以实现所需的功能。可操作地耦合的特定示例包括但不限于物理上可匹配和/或物理交互的组件和/或无线交互和/或无线交互组件和/或逻辑交互和/或逻辑交互的组件。

此外，关于本文中的基本的任何复数和/或单数术语的使用，本领域技术人员可以在适合于上下文和/或应用的情况下，从复数向单数和/或从单数向复数变换。为了清楚起见，在此可以明确地阐述各种单数/复数的置换。

而且，本领域技术人员可以理解的是，通常，这里使用的术语，特别是所附权利要求中使用的术语，例如所附权利要求的主体中，通常是作为“开放”的术语，例如，术语“包括”应当被解释为“包括但不限于”，术语“具有”应当被解释为“至少具有”，术语“包括”应当被解释为“包括但不限于”等等。本领域技术人员可以进一步理解的是，如果旨在所引述的权利要求中引入具体的数字，这种意图将会明确地表述在权利要求中，如果没有这样的表述，那么这种意图是不存在的。例如，为了帮助理解，后续所附权利要求可以包括介绍性短语“至少一个”和“一个或多个”的使用以引入权利要求中的表述。然而，这些介绍性短语的使用不应所述被理解为暗示由不定冠词引用的权利要求“a”或“an”将包含在这样引入的权利要求陈述的任何特定权利要求限制为仅包含一这种表述的实施方式中，即使相同的权利要求包含介绍性短语“至少一个”和“一个或多个”以及不定冠词“a”或“an”，例如“a”和/或“an”应所述被解释为“至少一个”或“一个或多个”，这对用于引入权利要求表述所使用的定冠词同样有效。此外，即使引入的权利要求表述中列举了具体的数量，本领域技术人员可以意识到，这种表述应所述被解释为至少所表述的数量，例如使用的“两个表述”的表述在没有其他修饰的情况下，指的是至少两个表述或者两个或两个以上表述。此外，在使用“A、B和C中的至少一个”约定俗成的这些句子中，通常这些惯例指的是本领域技术人员通常能够理解的惯例，例如“系统具有A、B和C中的至少一个”将包括但不限于系统单独具有A、单独具有B、单独具有C、同时具有A和B、同时具有A和C、同时具有B和C和/或同时具有A、B和C等等。在使用“A、B或C中的至少一个”这种惯例的句子中，通常这些惯例指的是本领域技术人员通常能够理解的惯例，例如“系统具有A、B或C中的至少一个”将包括但不限于系统单独具有A、单独具有B、单独具有C、同时具有A和B、同时具有A和C、同时具有B和C和/或同时具有A、B和C等等。本领域技术人员可以进一步理解的是，实际上，无论在说明书、权利要求书或附图中，任何转折性词和/或短语都呈现两个或更多的备选项，应理解为预期包括术语中的一个或两个术语中的可能性。例如，短语“A或B”将理解为包括“A”或“B”或“A和B”的可能性。

从上文中，应当理解，出于说明的目的，在此已经描述了本发明的各种实施方式，在不脱离本发明范围和精神的前提下，可以进行各种修改。因此，本文公开的各种实施方式并不意味着限制，所述真正范围和精神由所附权利要求指示。

Claims

1.一种方法，其特征在于，包括：

根据第一组参数编码第一空间对象；

根据第二组参数编码第二空间对象，其中所述第一空间对象和所述第二空间对象独立地被编码；

基于所述第一组参数、所述第二组参数以及所述第一空间对象和所述第二空间对象之间的关系生成元数据；以及

传输或存储已编码的所述第一空间对象、已编码的所述第二空间对象以及生成的所述元数据。

2.如权利要求1所述的方法，其特征在于，所述第一空间对象由第一视频/图像编码标准进行编码，以及所述第二空间对象由第二、不同的视频/图像编码标准进行编码。

3.如权利要求1所述的方法，其特征在于，所述第二空间对象由帧内编码而不经过帧间预测编码进行编码。

4.如权利要求1所述的方法，其特征在于，所述第一空间对象包括来自于原始图像下变频的基础质量层，所述第二空间对象包括提升质量层，所述提升质量层通过以下步骤获得：

(i)重构来自于已编码的所述基础质量层对象的所述基础质量层对象；

(ii)将重构的所述基础质量层对象上变频至特定的分辨率；以及

(iii)以所述特定的分辨率计算上变频的所述重构的基础质量层对象和所述原始图像之间的差异。

5.如权利要求4所述的方法，其特征在于，所述元数据包括从所述原始图像到所述基础质量层的所述下变频的下变频的比率。

6.如权利要求1所述的方法，其特征在于，所述第一空间对象和所述第二空间对象是合成全景图像的基础质量层和提升质量层，以及其中所述基础质量层在第一投影模式中，并且所述提升质量层在第二、不同的投影模式中。

7.如权利要求1所述的方法，其特征在于，所述元数据包括识别所述基础质量层的所述第一投影模式、所述第二投影模式以及包装模式的参数。

8.如权利要求1所述的方法，其特征在于，所述元数据包括将空间域中的对象指定为媒体内容的子资产的参数。

9.一种电子装置，其特征在于，包括：

第一视频编码电路，用于根据第一组参数编码第一空间对象；

第二视频编码电路，用于根据第二组参数编码第二空间对象，其中所述第一空间对象和所述第二空间对象独立地被编码；

元数据生成器，用于基于所述第一组参数、所述第二组参数以及所述第一空间对象和所述第二空间对象之间的关系生成元数据；以及

汇编电路，用于对已编码的所述第一空间对象、已编码的所述第二空间对象以及生成的所述元数据进行汇编以用于传输。

10.一种电子装置，其特征在于，包括：

第一视频解码电路，用于根据第一组参数解码第一空间对象；

第二视频解码电路，用于根据第二组参数解码第二空间对象，其中所述第一空间对象和所述第二空间对象独立地被解码；

合成器电路，用于根据所述第一空间对象和所述第二空间对象之间的关系，将已解码的所述第一空间对象和已解码的所述第二空间对象合成到合成展示中；以及

元数据解析电路，用于解析和所述第一空间对象和所述第二空间对象有关的元数据以生成所述第一组参数、所述第二组参数以及关系参数。

11.一种方法，其特征在于，包括：

接收已编码的第一空间对象、已编码的第二空间对象以及和所述已编码的第一空间对象及所述已编码的第二空间对象有关的元数据；

根据从所述元数据获得一第一组参数，解码所述第一空间对象；

根据从所述元数据获得的第二组参数，解码所述第二空间对象，其中所述第一空间对象和所述第二空间对象独立地被解码；以及

根据从所述元数据获得所述第一空间对象和所述第二空间对象之间的关系，将已解码的所述第一空间对象以及已解码的所述第二空间对象合成到合成展示中。

12.如权利要求11所述的方法，其特征在于，所述第一空间对象根据第一视频/图像编码标准进行解码以及所述第二空间对象根据第二、不同的视频/图像编码标准进行解码。

13.如权利要求11所述的方法，其特征在于，所述第一空间对象包括基础质量层以及所述第二空间对象包括提升质量层，以及合成已解码的所述第一空间对象及已解码的所述第二空间对象包括：基于从所述元数据中获得的所述关系参数将所述基础质量层上变频到特定的分辨率。

14.如权利要求13所述的方法，其特征在于，所述第一空间对象以及所述第二空间对象是合成全景图像的基础质量层以及提升质量层，以及所述基础质量层在第一投影模式中并且所述提升质量层在第二、不同的投影模式中。

15.如权利要求13所述的方法，其特征在于，所述元数据包括变频比率，以及其中合成已解码的所述第一空间对象以及已解码的所述第二空间对象进一步包括：根据所述变频比率上变频所述基础质量层。

16.如权利要求11所述的方法，其特征在于，进一步包括：当所述元数据包括指示所述第一空间对象和所述第二空间对象可以被处理用于同时展示的参数的时，同时处理并展示所述第一空间对象和所述第二空间对象。

17.如权利要求11所述的方法，其特征在于，所述元数据包括指定模式用于混合第一空间图像和第二空间图像的参数，其中合成已解码的所述第一空间对象及已解码的所述第二空间对象包括：

根据在所述元数据中指定的混合模式，混合所述第一空间图像及所述第二空间图像。

18.如权利要求11所述的方法，其特征在于，所述元数据包括用于在空间域中指定对象作为媒体内容的子资产的参数。

19.如权利要求11所述的方法，其特征在于，根据感兴趣区域选择，所述第二空间对象被部分地取来并解码。

20.如权利要求19所述的方法，其特征在于，所述合成展示是基于全景图像的虚拟现实视频，并且其中所述感兴趣区域选择是基于由VR装置指定的视口。