CN110786010A

CN110786010A - 一种推导合成轨道的方法及装置

Info

Publication number: CN110786010A
Application number: CN201880041905.XA
Authority: CN
Inventors: 王新; 陈鲁林; 赵帅
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2017-06-23
Filing date: 2018-06-22
Publication date: 2020-02-11
Anticipated expiration: 2038-06-22
Also published as: US10873733B2; TWI688263B; CN110786010B; TW201906409A; US20180376125A1; WO2018233693A1

Abstract

本发明涉及一种方法、装置及计算机可读介质，其用于处理(包括编码和解码)合成布局。视频数据包括与视点相关的已编码的二维子图像轨道，以及将这些轨道进行合成的合成操作。合成操作包括表示对多个二维子图像轨道执行合成的数据，以将这些轨道合成与视点相关的画布；以及若画布包括由画布上合成的多个二维子图像轨道中的两个或两个以上创建的合成布局，则合成布局操作调整该合成。根据合成，多个二维轨道被合成画布，包括确定两个或两个以上的已合成的二维子图像轨道合成该合成布局，并基于合成布局操作调整合成，以补偿合成布局。

Description

一种推导合成轨道的方法及装置

交叉申请

本发明要求2017年6月23日提出申请号为62/523,873的美国临时专利申请的优先权。上述美国临时申请整体以引用方式并入本文中。

在相同日期，提出申请号为16/014,856，名称为“以轨道组合推导合成轨道的方法与装置”的共同申请。上述美国申请整体以引用方式并入本文中。

技术领域

此处描述的技术大体上涉及视频编解码，且具体而言，涉及推导合成轨道(composite track)。

背景技术

存在不同类型的3D内容和多向内容(multi-directional content)。例如，全景视频是一种类型的视频，其是使用一组摄像机集合来捕捉的，而不像仅使用单个摄像机捕捉的传统单向视频那样。例如，摄像机可以被放置在特定中心点周围，使得每个摄像机捕捉场景的球面覆盖上的视频的一部分，以捕捉360度视频。来自于多个摄像机的视频可以被缝合、可能地旋转以及投影，以生成表示球面内容的已投影二维图像。例如，等角投影可以被使用以将球面映像成二维图像。这可以被进一步处理，例如，使用二维编码和压缩技术。最后，使用特定传送机制(例如，拇指驱动器、数字视频光盘(digital video disk，DVD)、文件下载、数字广播和/或在线串流)，已编码且已压缩内容被存储并传送。这种视频可以用于虚拟现实(virtual reality，VR)和/或3D视频。

在客户端侧，当客户端处理内容时，视频解码器解码已编码且已压缩视频，并执行逆投影以将内容恢复到球面上。随后，使用者可以观看已渲染内容，例如，使用头戴式观看设备。根据表示使用者观看内容所处的角度的用户的视点(viewport)，内容通常被渲染。视点也可以包括表示观看区域的分量，其可以描述观看者在特定角度处所观看的区域的大小和形状。

当视频处理不以视点依赖的方式进行，以使得视频编码器和/或视频解码器不了解用户实际上将要观看的内容时，整个编码、传送和解码的流程将处理整个球面内容。例如，由于所有球面内容均被编码、传送且解码，这可以允许用户在任何特定视点和/或区域处观看内容。

然而，处理所有球面内容可能是计算密集的，且会消耗较大带宽。例如，对于在线串流应用，处理所有球面内容会比必要时将更大的负担施加在网络带宽上。因此，当带宽资源和/或计算资源有限时，很难保持用户体验。一些技术仅处理使用者正在观看的内容。例如，如果用户正在观看顶端区域(例如，北极)，则无需传送内容的底端部分(例如，南极)。如果使用者改变视点，则内容可以相应地被传送以用于新的视点。又例如，对于自由视点TV(free viewpoint TV，FTV)应用(例如，其使用多个摄像机捕捉场景的视频)，内容可以基于使用者在哪个角度观看该场景而被传送。例如，如果用户正在观看来自于一个视点(例如，摄像机和/或相邻摄像机)的内容，则可能无需传送其他视点的内容。

发明内容

根据所公开的主题，装置、系统和方法被提供以用于推导合成轨道。

一些实施例涉及一种编码方法，用于编码多个子图像轨道的合成操作。本方法包括：编码三维视频数据，包括编码成与视点相关的多个二维子图像轨道；编码用于将视点的多个二维子图像轨道进行合成的合成操作，其中合成操作包括表示如下的数据：对多个二维子图像轨道执行以将多个二维子图像轨道合成与视点相关的画布的合成；以及在画布包括由画布上合成的多个二维子图像轨道中的两个或两个以上创建的合成布局时调整合成的合成布局操作；以及提供已编码的三维视频数据和合成操作。

在一些示例中，合成布局包括画布上合成的多个二维子图像轨道中的两个或两个以上之间的间隙和画布上合成的多个二维子图像轨道中的两个或两个以上的重叠中的至少一个。

在一些示例中，编码合成操作的合成布局操作包括：编码待使用的背景颜色、背景图像或背景视频中的一个或多个，以填充画布上合成的多个二维子图像轨道中的两个或两个以上之间的间隙。

在一些示例中，编码合成操作的合成布局操作包括：编码待使用的混合数据，以将画布上合成的多个二维子图像轨道中的两个或两个以上的重叠进行混合。

在一些示例中，编码合成操作的合成包括：自包括如下的组选择合成：指定重叠操作和用于将画布上的多个二维子图像轨道中的每个进行重叠的顺序的轨道重叠合成；指定用于将画布上的多个二维子图像轨道中的每个进行重叠的网格顺序的轨道网格合成；以及指定用于将画布上的多个二维子图像轨道中的每个进行重叠的顺序和矩阵的轨道矩阵合成。

一些实施例涉及一种解码方法，用于解码视频数据。本方法包括：接收(a)与视点相关的已编码的多个二维子图像轨道以及(b)将视点的多个二维子图像轨道进行合成的合成操作，其中合成操作包括表示如下的数据：对多个二维子图像轨道执行以将多个二维子图像轨道合成与视点相关的画布的合成；以及在画布包括由画布上合成的多个二维子图像轨道中的两个或两个以上创建的合成布局时调整合成的合成布局操作。本方法包括：根据合成，将多个二维子图像轨道合成画布，包括确定已合成的多个二维子图像轨道中的两个或两个以上包括合成布局；以及基于合成布局操作，调整合成，以补偿合成布局。

在一些示例中，解码合成操作的合成布局操作包括：解码背景颜色、背景图像或背景视频中的一个或多个；以及将多个二维轨道进行合成包括：填充画布上合成的多个二维子图像轨道中的两个或两个以上之间的间隙。

在一些示例中，解码合成操作的合成布局操作包括：解码混合数据；以及将多个二维轨道进行合成包括：将画布上合成的多个二维子图像轨道中的两个或两个以上的重叠进行混合。

在一些示例中，解码合成操作的合成包括自包括如下的组选择合成：指定重叠操作和用于将画布上的多个二维子图像轨道中的每个进行重叠的顺序的轨道重叠合成；指定用于将画布上的多个二维子图像轨道中的每个进行重叠的网格顺序的轨道网格合成；以及指定用于将画布上的多个二维子图像轨道中的每个进行重叠的顺序和矩阵的轨道矩阵合成。

一些实施例涉及一种用于解码视频数据的装置。本装置包括与存储器通信的处理器，处理器被配置成执行存储在存储器中的多个指令，使得处理器：接收(a)与视点相关的已编码的多个二维子图像轨道以及(b)将视点的多个二维子图像轨道进行合成的合成操作，其中合成操作包括表示如下的数据：对多个二维子图像轨道执行以将多个二维子图像轨道合成与视点相关的画布的合成；以及在画布包括由画布上合成的多个二维子图像轨道中的两个或两个以上创建的合成布局时调整合成的合成布局操作。多个指令使得处理器：根据合成，将多个二维子图像轨道合成该画布，包括确定已合成的多个二维子图像轨道中的两个或两个以上包括合成布局；以及基于合成布局操作，调整合成，以补偿合成布局。

在一些示例中，解码合成操作的合成包括自包括如下的组选择合成：指定重叠操作和用于将画布上的多个二维子图像轨道中的每个进行重叠的顺序的轨道重叠合成；指定用于将画布上的多个二维子图像轨道中的每个进行重叠的栅顺序的轨道栅合成；以及指定用于将画布上的多个二维子图像轨道中的每个进行重叠的顺序和矩阵的轨道矩阵合成。

一些实施例涉及一种编码视频数据的装置。本装置包括与存储器通信的处理器，处理器被配置成执行存储在存储器中的多个指令，使得处理器：编码三维视频数据，包括编码成与视点相关的多个二维子图像轨道；编码用于将视点的多个二维子图像轨道进行合成的合成操作，其中合成操作包括表示如下的数据：对多个二维子图像轨道执行以将多个二维子图像轨道合成与视点相关的画布的合成；以及在画布包括由画布上合成的多个二维子图像轨道中的两个或两个以上创建的合成布局时调整合成的合成布局操作；以及提供已编码的三维视频数据和合成操作。

在一些示例中，编码合成操作的合成包括自包括如下的组选择合成：指定重叠操作和用于将画布上的多个二维子图像轨道中的每个进行重叠的顺序的轨道重叠合成；指定用于将画布上的多个二维子图像轨道中的每个进行重叠的网格顺序的轨道网格合成；以及指定用于将画布上的多个二维子图像轨道中的每个进行重叠的顺序和矩阵的轨道矩阵合成。

因此，大致概述了所公开的主题的特征，以便更好地理解下列具体实施方式，并且以便更好地理解对本领域的贡献。当然，存在所公开主题的额外特征，其将在下文中描述，并形成所附专利申请范围的主题。可以理解的是，本文中所使用的用语和术语是用于描写的目的，不应被视为限制。

附图说明

图式中，不同图式所示出的每个相同或几乎相同的组件用相同的参考字符表示。为了清楚，并不是每个组件都在每个图式中标记出来。图式不一定是按比例绘制的，而是将重点放在此处所述的技术和设备的各个方面。

图1是根据一些实施例的示例性视频编解码配置。

图2是根据一些示例的用于虚拟现实内容的视点依赖内容的流程。

图3是根据一些实施例的使用合成轨道以发信视点/感兴趣区域(region ofinterest，ROI)的示例性示意图。

图4A-图4B是根据一些示例的混合模式的示例性表格。

图5是根据一些实施例的用于混合的示例性轨道重叠合成结构。

图6是根据一些实施例的用于混合的示例性轨道网格(track grid)合成结构。

图7A是根据一些实施例的用于混合的示例性转换矩阵合成结构。

图7B是根据一些实施例的示例性转换矩阵。

图8是根据一些实施例的不同子图像与质量轨道的集合的示例性合成轨道。

图9是根据一些实施例的合成多个子图像轨道的示例性计算器方法。

具体实施方式

不同技术可以被用于推导合成轨道，包括推导文件格式的合成轨道，例如ISO基础媒体文件格式(ISO Base Media File Format，ISOBMFF)。

对于推导合成轨道的已有技术不提供鲁棒轨道合成。例如，为了执行合成，多个子图像轨道可以被合成，以形成视点。然而，在合成期间，画布(canvas)(其也可以称为合成布局(composition layout))可以包括不同的布局，例如，来自于子图像轨道的图像之间的间隙和/或重叠来自于子图像轨道的图像的重叠。依据本发明的实施方式，已开发对用于推导合成轨道的已有文件格式的技术改进。这些技术可以包括将元数据应用于子图像轨道组。这些技术可以允许子图像轨道组以允许元数据与轨道组的合成内容相关的方式被指定，而不是需要对每个子图像轨道单独指定。元数据可以指定合成内容的轨道推导如何被执行。在一些示例中，这些技术可以被使用，例如，以指定间隙情况和/或重叠情况的标准，包括确定背景以用于填充和/或合并。

在下文中，为了透彻理解所公开的主题，提供了关于所公开主题的系统和方法以及这些系统和方法可能操作的环境等的大量而具体的细节。另外，可以理解的是，下面提供的示例是示例性的，并且，可设想的是，存在落入所公开主题的其他系统和方法。

图1显示了根据一些实施例的示例性视频编解码配置100。摄像机102A-102N是N个摄像机，并且可以是任何类型的摄像机(例如，包括音频记录能力的摄像机和/或单独的摄像机与音频记录功能)。编码设备104包括视频处理器106和编码器108。视频处理器106处理自摄像机102A-102N接收到的视频，例如，缝合(stitching)、投影和/或映像。编码器108编码和/或压缩二维视频数据。解码设备110接收已编码数据。透过广播网络、透过移动网络(例如，蜂窝网络)和/或透过因特网，解码设备110可以接收视频，作为视频产品(例如，数字视频光盘或其他计算机可读介质)。解码设备110可以是，例如，计算机、手持设备、头戴式显示的一部分或者具有解码能力的任何装置。解码设备110包括解码器112，其被配置成解码已编码视频。解码设备110也包括渲染器(renderer)114，以用于渲染二维内容回到球面。显示116显示来自于渲染器114的已渲染内容。

感兴趣区域(region of interest，ROI)在概念上有点类似于视点。例如，感兴趣区域可以表示全景视频的3D或2D编码中的区域。感兴趣区域可以具有不同的形状(例如，方形或圆形)，其可以被指定与3D或2D视频相关(例如，基于位置、高度等)。例如，感兴趣区域可以表示可被放大的图像中的区域，并且相应的感兴趣区域视频可以被显示以用于已放大视频内容。在一些实施方式中，感兴趣区域视频已被单独地准备。在这些实施方式中，感兴趣区域通常具有单独的视频轨道，其承载感兴趣区域内容。因此，已编码视频可以被用于指定感兴趣区域，以及感兴趣区域视频如何与底层视频相关。

感兴趣区域轨道或视点轨道，例如单独编码的感兴趣区域轨道，可以与主视频相关。例如，感兴趣区域可以与主视频相关以方便放大操作和缩小操作，其中感兴趣区域用于提供放大区域的内容。例如，MPEG-B,第10部分,标题为“Carriage of Timed MetadataMetrics of Media in ISO Base Media File Format,”dated June 2,2016(w16191)的内容，描述了基于ISO的媒体文件格式(ISO Base Media File Format，ISOBMFF)文件格式，其使用有时钟的元数据轨道(timed metadata track)以发信主2D视频轨道具有2D感兴趣区域轨道。

通常，使用球面内容，3D内容可以被表示，以提供360度场景的视图(例如，有时称为全景媒体内容)。虽然多个视图可以支持使用3D球面，但是末端用户通常仅观看到3D球面上的内容的一部分。传输整个3D球面所需的带宽会对网络施加沉重的负担，并且可能不足够支持球面内容。因此，需要使得3D内容传送更有效。基于视点的处理可以被执行以改进3D内容传送。3D球面内容可以被分割成区域/片段(tile)/子图像，并且仅与观看屏幕(例如视点)相关的区域/片段/子图像可以被发送并传送到末端用户。

图2显示了根据一些示例的用于虚拟现实内容的基于视点的内容的流程200。如图所示，在方框202中，球面视点201(例如，其可以包括整个球面)经历缝合、投影、映射(以生成已投影且已映像区域)；在方框204中，被编码(以生成多个质量的已编码/转码片段)；在方框206中被传送(以片段的形式)；在方框208中被解码(以生成已解码片段)；在方框210中，被构造(以构造球面渲染视点)；以及在方框212中，被渲染。在方框214中，用户交互可以选择一个视点，其启动透过虚线箭头所示的多个关于“仅-当时”的流程步骤。

在流程200中，由于当前网络带宽的限制和不同适应性要求(例如，关于不同质量、编码器和保护方案的)，使用3D球面或任何其他3D模型所呈现的虚拟现实内容先被处理(缝合、投影和映像)到2D平面(方框202)，随后，被封装到多个基于片段(或基于子图像)且分段的档中(在方框204中)，以用于传送和播放。在这种基于片段且分段的檔中，2D平面中的空间片段(例如，其表示空间部分，通常在2D平面内容的矩形形状中)通常被封装为其变体(variant)的集合，例如，以不同质量和比特率，或者以不同编码器和保护方案(例如，不同加密算法和加密方式)。在一些示例中，这些变体对应于MPEG DASH中的适应集(adaptationset)内的表示(representation)。在一些示例中，基于用户的关于视点的选择，不同片段的这些变体中的一些在被放在一起时提供所选视点的覆盖，不同片段的这些变体由接收器接收或被传送给接收器(透过传送方框206)、随后被解码(在方框208中)以构造并渲染所需视点(在方框210和方框212中)。

如图2所示，窗口概念是末端用户所观看的东西，其涉及球面上的区域的角度和尺寸。视点可以改变，并因此不是静态的。例如，当用户移动其头部时，该系统需要获得相邻片段(或子图像)，以覆盖用户接下来想要观看的东西。然而，在执行基于视点的处理之后，例如，包括剪切(chopping)图像和/或编码不同质量，技术不允许指定或关联元数据(例如，与背景和/或混合相关)到整个图像，或者整个3D球面内容。

在一些实施例中，使用合成轨道，视点或感兴趣区域可以被发信。使用合成轨道提供单个轨道，其可以被用于表示片段的变体轨道的内容。又例如，使用合成轨道可以有助于建立轨道分层结构，以表示轨道以合成关系的形式如何相关，例如，当合成轨道是自变体轨道和(合成)片段轨道而被推导时。

已推导轨道可以由包含类型‘dtrk’的样本条目的轨道标识。已推导样本可以包含操作的已排序列表，其将顺序执行来自于与输入轨道的已排序列表中的相应图像或样本的已排序列表。每个操作可以由TransformProperty指定或表示。例如，TransformProperty操作的清单可以包括标识('idtt')；清除孔('clap')；旋转('srot')；溶解('dslv')；和/或修剪('2dcc')等。

为了支持基于虚拟现实视点的内容的流程，额外的TransformProperty条目可以被用于自已有轨道推导出合成轨道。不同类型的合成轨道可以被生成，例如，所有视频轨道的合成(‘cmpa’)、仅一个轨道的合成(‘cmp1’，其可以允许样本层和样本组层处的切换)、任何轨道的合成(‘cmpn’，其可以允许样本层和样本组层处的切换)、仅一个轨道的选择(‘sel1’，其可以为轨道层选择，并且不包括样本层处的切换)、任何轨道的选择(‘seln’，其可以为轨道层选择，并且不包括样本层处的切换)、缩放(‘scal’)和/或重新调整(‘resz’)。

例如，‘cmpa’转换属性可以指定已推导样本的参考宽度与高度，并且可以将每个输入图像放置(例如，合成)在已推导样本上其相应特定x,y位置和特定尺寸处。‘cmp1’转换属性可以指定已推导样本的参考宽度与高度，并且可以将输入图像中的一个、任何一个和仅一个放置在已推导样本上其相应位置与相应尺寸处。‘cmpn’转换属性可以指定已推导样本的参考宽度与高度，并且可以将一个或多个输入图像放置在已推导样本上其相应位置处且具有相应尺寸。‘sel1’转换属性可以指定已推导样本的参考宽度与高度，并且可以将一个或多个输入图像放置在已推导样本上其相应位置与相应尺寸处。‘sel1’转换属性可以类似于自输入轨道的列表选择一个轨道。‘seln’转换属性可以指定已推导样本的参考宽度与高度，并且可以将来自于整个转换中所选择的输入轨道的同一子集中的一个或多个输入图像放置在已推导样本上其相应位置处且具有相应尺寸。‘seln’转换属性可以类似于自输入轨道的列表选择n(n>0)个轨道。

本质上，‘cmpa’操作、‘cmp1’操作、‘cmpn’操作、‘sel1’操作和‘seln’操作指定多个‘2dcc’类数据域，其提供2D空间信息以用于根据其各自的定义和语义将输入2D图像样本合成已推导2D图像样本。根据一些实施例，用这些额外的TransformProperty条目，“片段”轨道可以使用‘cmp1’或‘sel1’被指定为其变体轨道的已推导轨道或合成轨道。整个虚拟现实球面内容的轨道，当被投影到2D平面上时，可以使用‘cmpa’被指定为其“片段”轨道的已推导轨道或合成轨道。视点或感兴趣区域轨道可以使用‘cmpn’或‘seln’被指定为其“片段”轨道的已推导轨道或合成轨道。2017年1月提出且名称为“Deriving Composite Tracks inISOBMFF”的m33971(其整体以引用的方式并入本文)中所描述的技术，提供了用于将2D合成轨道映像回到球面3D内容。

图3显示了根据一些实施例的使用合成轨道发信视点/感兴趣区域的示例性示意图300。4个2D子图像(或片段)轨道t1-t4(即302)被编码以用于2个不同的质量(例如，HD的‘h’和SD的‘s’)和2个不同的加密模式(具有计算器(Counter，CTR)的加密模式‘a’和密文分组链(Cipher Block Chaining，CBC)的加密模式‘b’的通用加密方案(Common EncryptionScheme，CENC))。编码和加密生成4个不同组的4个轨道304A-304D(通常称为已编码轨道304)，以用于总共16个轨道。已编码片段304A对应于使用第一加密模式(‘a’)编码的高质量(‘h’)(从而，‘ha’)。已编码片段304B对应于使用第二加密模式(‘b’)编码的高质量(‘h’)(从而，‘hb’)。已编码片段304C对应于使用第一加密模式(‘a’)编码的低质量(‘l’)(从而，‘la’)。已编码片段304D对应于使用第二加密模式(‘b’)编码的低质量(‘l’)(从而，‘lb’)。

合成轨道基于已编码轨道304被生成。片段是自已编码轨道304选择的。这些片段可以是基于一个或多个转换属性(例如，如上所讨论的TransformProperties列表)选择的。例如，根据本示例的如下所示的操作，4个片段s1-s4被选择：

s1＝sel1{cmp1{t1ha,t1la},cmp1{t1hb,t1lb}}

s2＝sel1{cmp1{t2ha,t2la},cmp1{t2hb,t2lb}}

s3＝sel1{cmp1{t3ha,t3la},cmp1{t3hb,t3lb}}

s4＝sel1{cmp1{t4ha,t4la},cmp1{t4hb,t4lb}}

参考上述示例性操作，合成(cmp1)和选择(sel1)被使用，因为合成轨道来自于使用不同质量和加密模式而编码的多个不同轨道。使用‘cmp1’，质量变体先被合成，随后使用‘sel1’，加密变体被合成。例如，假设m x n个网格的子图像轨道，其中每个子图像具有q个不同质量，并以2个模式被加密，则存在m x n x q x 2个轨道。当适应性地传送内容时，仅底层连接带宽的质量被动态地选择，而加密模式被静态地选择。因此，如上所讨论，‘cmp1’被用于在样本层或样本组层处选择适当的质量片段，并且‘sel1’被用于在轨道层处选择适当的已加密片段。

对所选择的轨道306执行合成，以将子图像合成到2D内容轨道上。合成流程生成合成轨道C 308和合成轨道r 310。合成轨道C 308可以包括来自于所有选择的轨道306的数据，而合成轨道r 310可以包括来自于所选择的轨道306的子集的数据。合成轨道C 308可以被生成，例如使用将所有片段进行合成的cmpa{s1,s2,s3,s4}。在一些实施例中，如果感兴趣区域或视点涉及片段t1、片段t2、片段t3和片段t4中任何一个或由片段t1、片段t2、片段t3和片段t4中任何一个覆盖，则使用‘cmpn’(例如，和/或如果修剪(crop)、重新调整或旋转被涉及时可能的其他转换属性)，感兴趣区域或视点轨道可以被确定。例如，使用cmpn{s1,s2,s3,s4}，感兴趣区域或视点合成轨道r 310可以被确定。在一些实施例中，如果感兴趣区域或视点仅涉及片段t1和片段t2或仅由片段t1和片段t2覆盖，则使用‘cmpa’(例如，如果修剪、重新调整或旋转被涉及时可能的其他转换属性的组合)，感兴趣区域或视点轨道可以被确定。例如，合成轨道r 310可以被生成为cmpa{s1,s2}。编码器生成元数据轨道m 312，例如，有时钟的元数据轨道。

如图2所示，视点概念是末端用户所观看的东西，其可以基于3D球面上的观看区域的角度和/或尺寸而被指定。注意的是，视点不是静态的。例如，当用户移动其头时，视点改变，使得系统需要获取其他片段(或子图像)，例如相邻片段，以覆盖用户接下来想要观看的内容。然而，在执行基于视点的处理之后，例如，包括剪切图像和/或编码不同的质量，技术不允许将元数据指定或相关到整个图像，或整个3D球面内容。例如，已有技术不提供指定合成布局操作，包括补偿合成布局，例如间隙和重叠。

文件格式，例如MPEG文件格式，可以包括构造和/或推导出轨道的技术。例如，推导技术可以被用于将片段/子图像组合成更大图像，例如，以表示更大图像具有特定区域。一些技术可以在时间域中进行操作，例如，以聚合或提取来自于其他轨道的时间段。图像处理操作也可以被用于构造和/或推导出轨道，并可以包括，例如标识、修剪、旋转和/或溶解操作。轨道构造和/或推导可以被用于采用来自于一个轨道的一个副本并随后将其与来自于另一轨道的另一特征连接在一起，以形成程序。例如，其可以被用于播放广告，并随后切换到另一广告，等。又例如其可以被用于将广告插入到程序中(例如，作为具有来自于2个不同轨道的构造轨道的推导-一个来自于广告轨道，且一个来自于TV轨道)。

文件格式可以包括转换，例如，转换矩阵(例如，其可以在轨道头中)。每个轨道头可以具有转换矩阵，以指定此轨道本身的像素如何被转换成更大图像，例如，当被放置到不同图像/更大图像中时。转换矩阵可以被用于简单操作(例如，像素加倍(doubling)、90°旋转)和/或复杂操作(例如，剪切(shearing)、任意旋转)。

文件格式也可以包括混合元数据，例如，阿尔法(alpha)混合元数据，其可以被用于执行2个实体的阿尔法混合。当将轨道放在一起时，阿尔法混合元数据可以被用于间隙或重叠部分。这样，混合元数据可以被用于预测(anticipate)重叠和/或间隙，并可以被用于指定重叠应如何被形成和/或间隙应如何被填充(例如，间隙可以用背景、视频等进行填充)等。

在一些实施例中，阿尔法混合参数可以包括合成信息、模式信息和/或特定参数。例如，对于ISOBMFF，多个数据域可以被指定以用于阿尔法混合元数据。相对于参考坐标原点，其可以由应用或包含元数据的基础轨道和片段轨道的容器格式指定，compositing_top_left_x数据域和compositing_top_left_y数据域可以指定合成空间的左上角。compositing_width数据域和compositing_height数据域可以指定合成之后的输出图像的宽度和高度。数据域alpha_blending_mode可以指定阿尔法混合模式。具有不同模式的表格及具有默认参数的相关算法可以在单个文件中被指定，例如ISO/IEC 23001-8和/或W3C推荐。如图4A-图4B所示，描述了alpha_blending_mode的值的示例性表格400。每个轨道的TrackHeaderBox中‘layer’的参数值，其指定视觉轨道的前到后的顺序，可以被设置并用作相对前与后层指示符，以用于合成2个轨道。在表格450中，术语‘源(Source)’和术语‘目标(Destination)’被交替使用，以分别用于前层/顶端层和后层/底端层或背景幕(backdrop)。数据域blending_mode_specific_params可以指定具有特定混合模式的可选参数(例如，除了使用例如ISO/IEC 23001-8中所指定的默认值之外，其可以包括阿尔法信道数据)。

已有文件格式技术(例如，合成和分组)不提供将关于整个3D内容(例如，表示虚拟现实内容的3D内容)的全局信息与子图像轨道进行相关。例如，已有技术可能不允许元数据与整个图像相关，例如，不允许元数据标识整个图像内的特定感兴趣区域。例如，可能需要标识3D内容的一部分，以用于用户观看(例如，如果在一些角度或视点处，想要呼叫远程使用者，则需要突出这部分的3D内容)。然而，由于基于视点的处理技术可能破坏整个3D图像，所以不可能将内容的一部分进行标识以指向使用者。因此，已有技术不提供将关于整个图像的任何全局信息与子图像轨道进行相关而无推导。又例如，已有技术不提供指定具有重叠操作和/或背景操作的合成(例如用颜色或图像的间隙填充技术，和/或重叠技术)。

依据本发明的实施方式，对已有文件格式的技术改进，以用于推导出合成轨道。这些技术可以包括将元数据应用于子图像轨道组。这些技术可以允许子图像轨道组以允许元数据与轨道组相关的方式被指定，而不是需要对每个子图像轨道单独进行指定。元数据可以指定轨道推导如何被执行。在一些示例中，这些技术可以被使用，例如，以指定布局(包括间隙和重叠)情况的标准，包括确定背景以用于填充和/或合并。

在一些实施例中，使用如下一个或多个机制，合成轨道推导可以被执行。在一些实施例中，图像重叠机制在影像文件格式中被使用。在一些实施例中，图像网格机制在影像文件格式中被使用。在一些实施例中，矩阵值(例如，在轨道的头信息中，例如，ISOBMFF)提供关于子图像轨道的转换信息，例如空间合成信息。使用这些技术，例如，整个2D帧轨道可以被指定为其片段或子图像轨道的已推导合成轨道，并且任何感兴趣区域轨道可以被指定为其相关覆盖片段或子图像轨道的已推导合成轨道。

在一些示例中，例如，根据MPEG ISOBMFF文件格式，条目在其包括参考为推导的输入的一个或多个其他图像条目的‘dimg’条目时，可以为已推导图像条目。获取已重构图像所执行的准确操作由item_type的条目标识。用作已推导图像条目的输入的图像条目为其他图像条目的输出图像，其可以为已编解码图像条目或已推导图像条目。

已推导图像类型的一个示例为标识推导。已推导图像条目的item_type值‘iden’(即标识转换)可以被用于使用转换属性以推导出图像条目。已推导图像条目通常没有条目体(例如，没有内容)，并且‘iden’已推导图像条目的‘dimg’条目参考的reference_count可以等于1。

已推导图像类型的另一示例为图像重叠推导。透过在更大画布内以特定分层顺序重叠一个或多个输入图像，item_type值为‘iovl’的条目可以指定已推导图像条目。在ItemReferenceBox内类型‘dimg’的SingleItemTypeReferenceBox中，这些输入图像可以以其被分层的顺序被列出，例如，先是最底端的输入图像，且最后为最顶端的输入图像。

图5显示了根据一些实施例的用于包括可能的间隙和混合的示例性轨道重叠合成结构500。如结构500所示，类别TrackOverlayComposition502拓展所有‘tocp’转换属性504的合成。当存在时，‘tocp’要求输入条目数量num_inputs 534大于或等于1，并且这些输入条目均为视觉轨道。通常，‘tocp’转换属性指定已推导轨道，其样本中的每个为更大的画布，其与以与其被列出的顺序相同的分层顺序(例如，最底端输入图像先被分层为基础层，每个额外层被依次分层，直到最后被分层的最顶端输入图像)的一个或多个输入轨道的样本图像重叠。如下面进一步讨论，这些技术包括在重叠合成结构500内集成背景和混合信息，例如，画布颜色、图像和/或视频背景。这些信息可以被指定(使用)，例如，当输入样本图像不覆盖整个球面表面时。这可以是有用的，例如，以用于虚拟现实视频不覆盖整个球面表面的360度虚拟现实内容。在一些实施例中，如果这些信息被使用，背景视频可以在视频重叠情况中被处理为一个输入视频。在本非限制的示例中，背景视频被处理为输入视频的附加内容。

进一步如图5所示，结构500可以包括不同参数。结构500可以包括版本数据506域。在本示例中，虽然版本号可以随着新版本被创建而增大，但是此版本等于0。版本号可以被使用，例如，使得读者将不用未识别的版本号处理TrackOverlayComposition。

结构500可以包括标志数据域508。在本示例中，标志数据域可以被用于表示数据域的比特数量。例如，(flags&1)等于0可以指定数据域output_width 510、数据域output_height 512、数据域horizontal_offset 514和数据域vertical_offset 516的长度为16个比特。又例如，(flags&1)等于1可以指定数据域output_width 510、数据域output_height512、数据域horizontal_offset 514和数据域vertical_offset 516的长度为32个比特。大于1的标志的值可以被保留。output_width 510数据域和output_height512数据域可以分别指定输入图像所处的已重构图像的宽度和高度。已重构图像的图像区域可以被推断为画布。num_input 534可以指定这个轨道推导操作的输入条目数量。horizontal_offset 514和vertical_offset 516可以指定自画布的左上角到输入图像所在之处的偏移。具有负偏移值的像素位置可以不被包括在已重构图像中。大于或等于output_width 510的水平像素位置可以不被包括在已重构图像中。大于或等于output_height 512的垂直像素位置可以不被包括在已重构图像中。

方框518显示了与背景和混合信息相关的结构500的一部分，下面将进一步讨论。background_flag 520可以被用于表示哪些种类的背景可以用于推导出合成轨道。在本示例中，0值表示没有背景被指定。当(background_flag&1)等于1时，背景为颜色背景，其中颜色值由canvas_fill_value 522指定。canvas_fill_value 522可以表示在没有任何输入图像的像素位于特定像素位置时所使用的每通道的像素值。填充值可以被指定为RGBA(例如，红、绿、蓝以及A，对应于分别等于0、1、2和3的循环计数器j)。如IEC 61966-2-1所指定，RGB值可以在sRGB颜色空间中。A值可以为线性不透明值，例如，从0(全透明)到65535(完全不透明)变化。

当(background_flag&2)等于2时，背景为由image_item_ID 524标识的图像，被缩放(无论何时需要)以覆盖由output_width 510和output_height 512所指定的尺寸的背景。image_item_ID 524可以指定图像条目的ID。当(background_flag&2)等于3时，背景为由video_track_ID 526标识的视频样本图像，被缩放(无论何时需要)以覆盖由output_width 510和output_height 512所指定的尺寸的背景。video_track_ID 526可以指定视频轨道的ID。

blending_flag 528表示在推导出合成轨道中将输入视觉轨道进行重叠时混合是否被涉及。alpha_blending_mode 530指定阿尔法混合模式(例如，具有图4中的示例表格中的“合成模式”的可能值)。在一些实施例中，表格和/或具有默认参数的相关算法可以在单个文件中被指定，例如ISO/IEC 23001-8和/或W3C推荐。每个轨道的中TrackHeaderBox的参数值‘layer’，其指定视觉轨道的前到后的顺序，可以被设置并用作相对前与后层指示符，以用于合成2个轨道。在图4A-图4B中的表格中，术语‘源’和术语‘目标’可以被交替使用，以分别用于前层/顶端层和后层/底端层或背景幕。blending_mode_specific_params 532可以指定具有特定混合模式的可选参数，除了使用例如ISO/IEC 23001-8中所指定的默认值中的这些。例如，blending_mode_specific_params 532可以包括可以用于所选择的阿尔法混合模式的阿尔法信道数据。

item_type值为‘grid’的条目指定已推导图像条目，其已重构图像是自更大画布内特定网格顺序的一个或多个输入图像形成的。图6显示了根据一些实施例的用于混合的示例性轨道网格合成结构600。相似于结合图5所讨论的结构500，结构600可以被用于指定重叠参数，例如背景和混合信息。结构600可以被用于组装子图像网格。例如，需要将2个相邻子图像组装到一起。为了防止重叠的间隙效应，当指定图像时，保护带(guard band)也可以被指定(例如，1个以上保护带可以被指定以覆盖相邻图像)。例如，尽管当将这些子图像放在一起时可能存在尺寸为m x n的子图像网格，但仍然可能存在重叠，和/或其可能不覆盖整个图像。因此，结构600可以允许以大于栅尺寸的方式指定输出宽度和/或高度。结构600也可以允许指定列和行-减去1，因为总是需要始于0。

如结构600所示，类别TrackGridComposition 602拓展所有‘tgcp’转换属性604的合成。当存在时，‘tocp’要求输入条目数量num_input大于或等于1，并且这些输入条目均为视觉轨道。这个转换属性指定已推导轨道，其样本中的每个为更大画布，与特定网格顺序的一个或多个输入轨道的样本图像重叠。以列为主的顺序，先顶端列，从左到右，以其被列出为输入轨道的顺序，输入视觉轨道的样本图像被插入。num_input的值将等于列*行。每个样本图像可以被配置成具有相同的宽度与高度，即tile_width和tile_height。宽度和高度可以在每个输入轨道内被指定。

平铺的(tiled)输入样本图像可以(或不可以)完全“覆盖”已推导样本图像网格画布。例如，tile_width*行可以(或不可以)大于或等于output_width 612，和/或tile_height*列可以(或不可以)大于或等于output_height 613，其在此处将进一步被讨论。作为非限制的示例，透过将输入样本图像平铺到列宽度等于tile_width(本质上不包括最右侧行)且列高度等于tile_height(本质上不包括最低端列)的栅中，而无间隙和重叠，随后，将右侧和底端裁剪成(trimming)所表示的output_width和output_height，已推导样本图像可以被形成。当平铺的图像不覆盖整个画布背景时，画布、图像和/或视频背景可以被使用。如上所述，这可以是有用的，例如，以用于虚拟现实视频不覆盖整个球面表面的360度虚拟现实内容。

进一步如图6所示，结构600可以包括不同参数，下面将进一步解释。结构600可以包括版本数据606域。在本示例中，虽然版本号可以随着新版本被创建而增大，但是此版本等于0。例如，版本号可以被使用，以使得读者将不用未识别的版本号处理TrackGridComposition。

结构600可以包括标志数据域608。在本示例中，标志数据域可以被用于表示数据域的比特数量。例如，如上所解释，(flags&1)等于0可以指定数据域output_width 612、数据域output_height 613、数据域horizontal_offset 614和数据域vertical_offset 615的长度为16个比特，和/或(flags&1)等于1可以指定此长度为32个比特。

方框618显示了与背景和混合信息相关的结构600的一部分，下面将进一步讨论。background_flag 620可以被用于表示哪些种类的背景可以用于推导出合成轨道。在本示例中，0值表示没有背景被指定。当(background_flag&1)等于1时，背景为颜色背景，其中颜色值由canvas_fill_value 622指定。此处应注意的是，canvas_fill_value 622可以表示在没有任何输入图像的像素位于特定像素位置时所使用的每通道的像素值。如上所讨论，填充值可以被指定为RGBA(例如，红、绿、蓝以及A，对应于分别等于0、1、2和3的循环计数器j)。

当(background_flag&2)等于2时，背景为由image_item_ID 624标识的图像，被缩放(例如，如果/无论何时需要)以覆盖由output_width和output_height所指定的尺寸的背景。当(background_flag&2)等于3时，背景为由video_track_ID标识的视频样本图像，被缩放(无论何时需要)以覆盖由output_width和output_height所指定的尺寸的背景。image_item_ID 624可以指定图像条目的ID。video_track_ID 626可以指定视频轨道的ID。

如上所讨论，blending_flag 628表示在推导合成轨道中重叠输入视觉轨道(visual track)时混合是否被涉及。如上所讨论，alpha_blending_mode630指定阿尔法混合模式。blending_mode_specific_params 632可以指定具有特定混合模式的可选参数，除了使用例如ISO/IEC 23001-8中所指定的默认值中的这些，且其可以包括阿尔法信道数据。

参数rows_minus_one 610和参数columns_minus_one 611可以指定输入视觉轨道的样本图像的行数(the number of rows)和每行输入视觉轨道的样本图像数量。这个值可以分别为小于行数或列数(rows or columns)。按照输入视觉轨道的列出顺序，输入视觉轨道的样本图像可以先填充(populate)顶端行，然后再填充第二行等。如上所讨论，output_width 612和output_height 614可以分别指定输入图像所处的已重构图像的宽度和高度。已重构图像的图像区域被称为画布。

horizontal_offset 614和vertical_offset 615指定自画布的左上角到第一输入图像所在之处的偏移。具有负偏移值的像素位置可以不被包括在已重构图像中。大于或等于output_width 612的水平像素位置可以不被包括在已重构图像中。大于或等于output_height 613的垂直像素位置可以不被包括在已重构图像中。

在示例性实施例的结构600中，仅horizontal_offset 614和vertical_offset615中的一个需要被指定(例如，不像结构500，其使用两个偏移以执行循环)。对于结构600，这些技术不执行循环-仅一个偏移需要被指定，因为此偏移可以用于整个网格。例如，如果始于最左角，此偏移可以被指定以用于这个位置，并用于后续处理。

转换矩阵，例如在ISOBMFF中，在MovieHeaderBox‘mvhd’和TrackHeaderBox‘trkd’中被指定，以用于处理用于呈现(presentation)的已解码轨道媒体。用这个矩阵，整个电影和/或每个轨道可以以此矩阵的方式被转换。这可以允许简单操作(例如，像素加倍、90°旋转的校正)以及更复杂的操作(例如，剪切、任意旋转)。图7A显示了根据一些实施例的用于混合的示例性转换矩阵合成结构700。相似于分别结合图5和图6所讨论的结构500和结构600，结构700可以被用于指定重叠参数，例如背景和混合信息。结构700可以被用于指定合成的矩阵值。

如结构700所示，类别TrackGridComposition 702拓展所有‘tmcp’转换属性704的合成。当‘tmcp’存在时，其要求输入条目数量num_input大于或等于1，并且这些输入条目均为视觉轨道。这个‘tmcp’转换属性指定已推导轨道，其样本图像中的每个为更大画布，与以与其被列出的顺序相同的分层顺序的一个或多个输入轨道的样本图像重叠，例如，最底端输入图像先被分层，随后每个后续图像被分层，直到最后被分层的最顶端输入图像。画布的尺寸透过output_width 710和output_height 711而被确定。如此处进一步讨论，根据输入轨道头中的矩阵值的语法及语义，输入轨道的时间并行样本可以空间上被排列在画布上。例如，输入轨道的样本图像的尺寸和/或位置可以由TrackHeaderBox‘trkd’内的宽度、高度和矩阵指定。如上面结合图5-图6所讨论，当输入样本图像不覆盖整个画布背景时，画布/图像/视频背景可以被使用。

如图7所示，结构700可以包括不同参数，下面将进一步解释。结构700可以包括版本数据706域和标志数据域708，例如，类似于图5-图6中所讨论的版本数据域和标志数据域。在结构700中，标志数据域708可以指定数据域output_width 710、数据域output_height 711、数据域width和数据域height的长度。

如结合图5-图6所讨论，方框718显示了与背景和混合信息相关的结构700的一部分。透过重述的方式，background_flag 720可以被用于表示哪些种类的背景可以用于推导出合成轨道。在本示例中，0值表示没有背景被指定。当(background_flag&1)等于1时，背景为颜色背景，其中颜色值由canvas_fill_value 722指定(例如，如上所述，被指定为RGBA)。如上所述，当(background_flag&2)等于2时，背景为由image_item_ID 724标识的图像，被缩放(例如，如果/无论何时需要)以覆盖背景。如上所述，当(background_flag&2)等于3时，背景为由video_track_ID 726标识的视频样本图像，被缩放(无论何时需要)以覆盖背景。

也如上所讨论，blending_flag 728表示在推导合成轨道中重叠输入视觉轨道时混合是否被涉及。如上所讨论，alpha_blending_mode 730指定阿尔法混合模式。blending_mode_specific_params 732可以指定具有特定混合模式的可选参数。

不同于分别结合图5-图6所讨论的示例性结构500和结构600，结构700包括matrix_flag 734。matrix_flag 734可以表示是否使用其他矩阵信息，例如，轨道头中的矩阵。例如，matrix_flag 734可以表示此矩阵、输入视觉轨道的轨道头中的宽度值和高度值是否可用，和/或将不被使用(或将被覆盖(overwritten))。当其他这类矩阵信息不可用和/或将不被使用时(例如，matrix_flag＝＝1)，这些值可以被提供给输入视觉轨道。num_inputs数据域736指定这个轨道推导操作的输入条目数量。

矩阵738提供用于视频的转换矩阵。例如，根据一些实施例，使用图7B中所示的矩阵750，点(p,q)可以被转换成(p’,q’)。矩阵750中的这些值以{a,b,u,c,d,v,x,y,w}顺序被存储。矩阵750乘以(p,q,1)以计算(m,n,z)，其中m＝ap+cq+x；n＝bp+dq+y；以及z＝up+vq+w。随后，透过计算p’＝m/z；q’＝n/z，(m,n,z)可以被用于计算(p’,q’)。在图7A中的本示例中，矩阵738的(u,v,w)被限制为(0,0,1),hex(0,0,0x40000000)。在一些实施例中，矩阵750中的值被存储为16.16固定点值，除了被存储为2.30固定点值的u,v和w。

在一些实施例中，坐标{p,q}位于已去压缩帧上，且{p’,q’}位于渲染输出处。因此，例如，矩阵{2,0,0,0,2,0,0,0,1}使得图像的像素尺寸加倍。由矩阵所转换的坐标可以不以任何方式被归一化，并且可以表示实际样本位置。因此，{x,y}例如可以被考虑图像的平移向量。

在一些实施例中，坐标原点位于左上角，并向右侧增加X个值，并向下增加Y个值。{p,q}和{p’,q’}通常分别被用作相对于原始图像的左上角(例如，在缩放到由轨道头的宽度与高度所确定的尺寸之后)的绝对像素位置和已转换(例如，渲染)表面。每个轨道可以使用其矩阵被合成，如指定为整个图像。随后，根据位于MovieHeaderBox中的电影层处的矩阵，已合成轨道可以被转换且合成。可以基于应用的是，得到的图像是否被‘裁剪’以消除像素，其没有显示，例如，被‘裁剪’成窗口内的垂直矩形区域。例如，如果仅一个视频轨道被显示且其具有到{20,30}的平移，且单位矩阵位于MovieHeaderBox中，则应用可以选择不显示图像与原始之间的空的“L”型区域。

数据域width 740和数据域height 742可以为固定值，例如，固定点16.16值。这些数据域可以指定轨道的视觉呈现尺寸。这些无需与图像的像素尺寸相同，例如，其被记录在样本描述中。序列中的图像可以基于宽度和高度被缩放成一个尺寸，例如，在由矩阵所表示的轨道的任何整个转换之前。因此，图像的像素尺寸可以用作默认值。

图8显示了根据一些实施例的用于r个子图像与k个质量轨道的示例性合成轨道v802。轨道v 402自其它片段或子图像轨道v1 804到vr 806而被合成。因此，片段/子图像轨道804-806为承载比特的文件格式中的实际轨道。在本示例中，称为“交替”812和“交替”814的轨道推导被用于自所包含的质量(例如，轨道804的质量808A-808N以及轨道806的质量810A-810N)选择所需的质量子图像，作为此子图像的代表。交替流程被执行以用于具有不同质量的每个片段轨道/子图像轨道，形成m x n个子图像网格和m x n个轨道，其中r＝m xn。

随后，所选择的轨道被放进合成轨道802中，其表示整个图像。当执行合成816时，此处理可以利用本文所讨论的技术以处理背景并执行混合。因此，使用具有背景和混合信息的合成操作，合成轨道802可以被创建，如本文所讨论(例如，结合图5-图7B所讨论的合成)。例如，如果设备需要访问来自于整个图像的内容的一些部分，则合成轨道802可以被访问，并被向下训练，以便查看已推导的轨道，包括向下训练成选择的轨道，以获得正确的质量。

回到图3所示，例如，如304A-304D所示，每个轨道302具有两个质量/加密。当执行合成时，设备可以给每个轨道选择一个质量和/或加密以创建合成轨道。在一些示例中，设备可以将所有4个选择放在一起以获取合成轨道(例如，合成轨道C 308)的整个图像。或者，如果设备仅需要一些视点区域，则设备可以选择性地选取子图像子集，以形成更小的合成轨道r 310。合成操作可以额外地利用与此操作相关的背景和/或混合信息，以处理任何间隙和/或重叠。

图9显示了根据一些实施例的合成多个子图像轨道的示例性方法900。在步骤902中，设备(例如，图1中的解码设备110)接收与视点相关的多个已编码二维子图像轨道。在步骤904中，设备确定待使用的合成操作以合成用于视点的多个二维子图像轨道。如本文所讨论，在一些实施例中，合成操作包括对多个二维子图像轨道执行合成以将多个二维子图像轨道合成为画布(例如，轨道重叠合成、轨道栅合成和/或转换矩阵合成)。合成操作也包括合成布局操作(例如，背景和/或混合信息)，以在画布包括特定合成布局(例如具有间隙和/或重叠的布局)时，调整此合成。在步骤906中，根据此合成，设备将多个二维轨道合成为画布。在步骤908中，在此合成期间，设备确定2个以上的已合成二维子图像轨道包括合成布局。在步骤910中，设备基于合成布局操作调整合成，以补偿合成布局。

如本文所讨论，合成布局操作可以包括确定如何处理合成布局，例如，如何填充间隙。例如，合成信息可以包括标志，其用于确定是否用常量颜色填充间隙，是否使用背景的图像或者是否使用视频轨道内容作为背景。也如本文所讨论，合成布局操作可以包括用于确定是否执行混合的标志。如果混合将被执行，则合成信息可以包括指定如何执行混合的参数。

如本文所讨论，这些技术也可以包括编码合成信息。设备(例如，编码设备104)编码三维视频数据，包括编码与视点相关的多个二维子图像轨道(例如，如结合图2所讨论)。设备可以编码合成操作，以用于合成用于视点的多个二维子图像轨道。合成操作可以包括表示如下的数据：对多个二维子图像轨道执行合成以将多个二维轨道合成与视点相关的画布，以及在画布包括由合成在画布上的多个二维子图像轨道中的2个或以上所创建的合成布局(例如，具有或不具有间隙和/或重叠)时调整合成的合成布局操作。设备可以提供已编码的三维视频数据和合成操作，使得已编码的三维视频数据和合成操作可以透过接收设备(例如，透过有线或无线连接，或者透过任何计算机可读存储介质)来接收。

根据本文描述的原理的技术操作可以以任何适当的方式来实现。上面的流程图的处理块和决策块表示被包含执行这些不同处理的算法中的步骤和行为。自这些处理中推导出的算法可以以集成有并指导一个或多个单目的或多目的的处理器的操作的软件来实现，可以以诸如数字信号处理(Digital Signal Processing，DSP)电路或应用专用集成电路(Application-Specific Integrated Circuit，ASIC)的功能等效电路来实现，或可以以任何其他适当的方式来实现。应该理解的是，此处所包含的流程图不描述任何特定电路或任何特定程序设计语言或程序设计语言类型的语法或操作。相反，流程图示出了本领域的通常知识者可以使用的功能信息，以制造电路或实现计算机软件算法来执行进行本文所描述的技术类型的特定装置的处理。还应该理解的是，除非在此另有说明，在每个流程图中描述的步骤和/或行为的特定顺序仅是对可以实现的算法的说明，并且可以在本文所描述的原理的实施方式和实施例中被改变。

因此，在一些实施例中，本文所描述的技术可以在作为软件而实现的计算机可执行指令中被实施，包括应用软件、系统软件、固件、中间件、嵌入式代码或任何其他合适类型的计算机代码。透过使用大量合适的程序设计语言和/或程序设计工具或脚本工具的任何一种，这种计算机可执行指令可以被编写，也可以被编译为可执行的机器语言代码或在框架或虚拟机上执行的中间代码。

当本文所描述的技术被实施为计算机可执行指令时，根据这些技术，这些计算机可执行指令可以以任何合适的方式来实现，包括作为若干功能设施，每一个提供一个或多个操作来完成算法操作的执行。然而被实例化，当由一个或多个计算机来集成和执行时，一个“功能设施”，是一个计算机系统的结构组件，使一个或多个计算机执行特定的操作角色。功能设施可以是整个软件元素的一部分。例如，功能设施可以作为处理的功能来实现，或作为离散处理，或作为任何其他合适的处理单元来实现。如果此处描述的技术以多个功能设施来实现，则每个功能设施可以以自己的方式来实现；所有这些功能设施不需要以相同的方式来实现。此外，可以并行地和/或串行地执行这些功能设施，并且透过使用消息传递协议或以任何其他合适的方式，这些功能设施可以透过使用正在执行的计算机上的共享存储器来彼此传递信息。

一般来说，功能设施包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构等。通常，功能设施的功能可以按其操作的系统的要求组合或分发。在一些实施方式中，执行本文中技术的一个或多个功能设施可以一起形成一个完整的软件包。在替代实施例中，这些功能设施可适于与其他无关功能设施和/或处理进行交互，以实现软件程序应用。

本文已描述了一些示例性功能设施以用于执行一个或多个任务。但是，应该理解的是，所描述的功能设施和任务划分仅仅是说明实现本文所描述的示例性技术的功能设施类型，并且实施例不限于以任何特定数量、划分或功能设施类型来实现。在一些实施方式中，所有功能可以在单个功能设施中实现。还应该理解的是，在一些实施方式中，此处所描述的一些功能设施可以与其他一起实现或与单独实现(即作为单个单元或单独单元)，或者一些功能设施可以不实现。

在一些实施例中，实现本文所描述的技术计算机可执行指令(当作为一个或多个功能设施或以任何其他方式来实现时)被编码在一个或多个计算机可读介质上，以将功能提供给介质。计算机可读介质包括如硬盘驱动器的磁介质，如光盘(Compact Disk，CD)或数字通用光盘(Digital Versatile Disk，DVD)，持续或非持续的固态存储器(如Flash存储器，磁随机存取存储器等)，或任何其他合适的存储介质。这样的计算机可读介质可以以任何合适的方式来实现。如本文所使用，“计算机可读介质”(也称为“计算机可读存储介质”)指的是有形(tangible)存储介质。有形存储介质是非暂时的，并且具有至少一个物理的、结构的组件。在本文中所使用的“计算机可读介质”中，至少一个物理结构构件具有至少一个物理属性，在创建具有实施信息的介质的过程中，在其上记录信息的过程中，或在编码具有信息的介质的任何其它过程中，其可以以某种方式被改变。例如，在记录过程中，可以改变计算机可读介质的物理结构的一部分的磁化状态。

此外，上面描述的一些技术包括以某种方式存储信息(例如，数据和/或指令)以用于这些技术的行为。在这些技术的一些实施方式中—例如技术被实现为计算机可执行指令的实施方式—信息可在计算机可读存储介质上编码。如果本文描述的特定结构是用于存储该信息的有利格式，这些结构可用于传授在存储介质上编码时的信息的物理结构。然后，这些有利结构可以透过影响与该信息交互的一个或多个处理器的操作来将功能提供到存储介质；例如，透过提高由处理器执行的计算机操作的效率。

在技术被实施为计算机可执行指令的一些但非所有实施方式中，这些指令可以在以任何合适的计算机系统而操作的一个或多个合适的计算设备上执行，或一个或多个计算设备(或一个或多个计算设备的一个或多个处理器)可以被程序设计以执行计算机可执行指令。当指令以访问一个计算设备或者处理器的方式被存储在计算设备或处理器时，一个计算设备或处理器可被程序设计以执行指令，例如在数据存储中(例如，一个片上高速缓存或指令寄存器、透过总线可以访问的计算机可读存储介质、透过一个或多个网络可访问且由设备/处理器可访问的计算机可读存储介质等)。包括这些计算机可执行指令的功能设施可集成有和指导单个的多目的可程序设计数字计算设备的操作，共享处理能力和共同执行本文所描述的技术的两个或更多的多目的计算设备的协调系统，单个计算设备或专用于执行本文所描述的技术计算设备的协调系统(同一位置或地理分布)，实施本文所描述的技术的一个或多个现场可程序设计门阵列(Field-Programmable Gate Array，FPGA)，或者任何其他合适的系统。

计算设备可以包括至少一个处理器、网络适配器和计算机可读存储介质。例如，计算设备可以是桌面计算机或笔记本电脑、个人数字助理(personal digital assistant，PDA)、智慧手机、服务器或任何其他合适的计算设备。网络适配器可以是任何合适的硬件和/或软件，以使得计算设备能够透过任何合适的计算网络与任何其他合适的计算设备进行有线和/或无线通信。计算机网络可以包括无线接入点、交换机、路由器、网关和/其他网络设备，以及任何合适的有线和/或无线通信介质或者媒体以用于交换两个或者多个计算机之间的数据，包括因特网。计算机可读介质可适于存储待处理的数据和/或由处理器待执行的指令。数据和指令可以被存储在计算机可读存储介质上。

计算设备还可以具有一个或多个组件和外围设备，包括输入设备和输出设备。除其他外，这些设备可用于呈现用户接口。可用于提供用户接口的输出设备的示例包括用于直观显示输出的打印机或显示屏幕，和扬声器或者听觉显示输出的其它声音产生设备。可用于用户接口的输入设备的示例包括键盘和指向设备，例如鼠标、触摸盘和数字化平板。又例如，计算设备可以透过语音识别或其他可听觉格式接收输入信息。

实施例已经被描述了，其中以电路和/或计算机可执行指令来实现这些技术。应该理解的是，一些实施例可以是一种方法的形式，其中提供了至少一个示例。作为方法的一部分执行的行为可以以任何适当的方式进行排序。因此，这些实施例可以以不同于所示出的顺序来执行行为的方式而被构造，即使如示出的实施例中作为顺序的行为所示，其可以包括同时执行某些行为。

以上所描述的实施例的各个方面可以被单独使用、组合、或在上述的实施例中没有具体讨论的各种排列，并且因此不限制其应用到上述说明或图式中的组件的具体细节和排列。例如，在一个实施例中所描述的方面可以以任何方式与其他实施例中所描述的方面结合。

在专利申请范围中以修改专利申请范围元素的诸如“第一”“第二”“第三”等的顺序术语的使用本身不意味着任何优先，先后性，或者以一个请求项元素在另一个之上的顺序或者执行方法的时间顺序，但仅用于作标记以将具有相同名称的一个请求项元素与具有相同名称的另一个元素进行区分(但是对于顺序术语的使用)，进而区分请求项元素。

此外，本文所使用的措辞和术语是为了描述的目的，而不应被视为限制性的。本文所使用“包括”、“包含”、“具有”、“包含”、“涉及”即其变形用于围绕其后所列出的项目及其等效，以及额外的项目。

本文所使用的“示例性”一词是指作为示例、实例或说明。因此，除非另有说明，本文中所描述的任何实施例、实施方式、处理、特征等都应该被理解为一个说明性的示例，并且不应理解为优选的或有利的示例。

在已经描述了至少一个实施例的几个方面之后，应将理解的是，对于本领域通常知识者来说，将容易发生各种改变、修改和改进。这种改变、修改和改进将是本发明的一部分，并且在本文所描述的原理的精神和范围内。因此，上述描述和图式仅以示例的方式进行。

Claims

1.一种编码方法，用于编码多个子图像轨道的合成操作，该方法包括：

编码三维视频数据，包括编码成与视点相关的多个二维子图像轨道；

编码用于将该视点的该多个二维子图像轨道进行合成的合成操作，其中该合成操作包括表示如下的数据：

对该多个二维子图像轨道执行以将该多个二维轨道合成与该视点相关的画布的合成；以及

在该画布包括由该画布上合成的该多个二维子图像轨道中的两个或两个以上创建的合成布局时，调整该合成的合成布局操作；以及

提供已编码的该三维视频数据和该合成操作。

2.根据权利要求1所述的编码方法，其特征在于，该合成布局包括该画布上合成的该多个二维子图像轨道中的两个或两个以上之间的间隙和该画布上合成的该多个二维子图像轨道中的两个或两个以上的重叠中的至少一个。

3.根据权利要求1所述的编码方法，其特征在于，编码该合成操作的该合成布局操作包括：

编码待使用的背景颜色、背景图像或背景视频中的一个或多个，以填充该画布上合成的该多个二维子图像轨道中的两个或两个以上之间的间隙。

4.根据权利要求1所述的编码方法，其特征在于，

编码该合成操作的该合成布局操作包括：

编码待使用的混合数据，以将该画布上合成的该多个二维子图像轨道中的两个或两个以上的重叠进行混合。

5.根据权利要求1所述的编码方法，其特征在于，编码该合成操作的该合成包括：

自包括如下的组选择该合成：

指定重叠操作和用于将该画布上的该多个二维子图像轨道中的每个进行重叠的顺序的轨道重叠合成；

指定用于将该画布上的该多个二维子图像轨道中的每个进行重叠的网格顺序的轨道网格合成；以及

指定用于将该画布上的该多个二维子图像轨道中的每个进行重叠的顺序和矩阵的轨道矩阵合成。

6.一种解码方法，用于解码视频数据，该方法包括：

接收(a)与视点相关的已编码的多个二维子图像轨道以及(b)将该视点的该多个二维子图像轨道进行合成的合成操作，其中该合成操作包括表示如下的数据：

对该多个二维子图像轨道执行以将该多个二维子图像轨道合成与该视点相关的画布的合成；以及

在该画布包括由该画布上合成的该多个二维子图像轨道中的两个或两个以上创建的合成布局时调整该合成的合成布局操作；

根据该合成，将该多个二维轨道合成该画布，包括：

确定已合成的该多个二维子图像轨道中的两个或两个以上包括该合成布局；以及

基于该合成布局操作，调整该合成，以补偿该合成布局。

7.根据权利要求6所述的解码方法，其特征在于，该合成布局包括该画布上合成的该多个二维子图像轨道中的两个或两个以上之间的间隙和该画布上合成的该多个二维子图像轨道中的两个或两个以上的重叠中的至少一个。

8.根据权利要求6所述的解码方法，其特征在于，解码该合成操作的该合成布局操作包括：

解码背景颜色、背景图像或背景视频中的一个或多个；以及

将该多个二维轨道进行合成包括：

填充该画布上合成的该多个二维子图像轨道中的两个或两个以上之间的间隙。

9.根据权利要求6所述的解码方法，其特征在于，

解码该合成操作的该合成布局操作包括：

解码混合数据；以及

将该多个二维轨道进行合成包括：

将该画布上合成的该多个二维子图像轨道中的两个或两个以上的重叠进行混合。

10.根据权利要求6所述的解码方法，其特征在于，

解码该合成操作的该合成包括：

自包括如下的组选择该合成：

11.一种解码视频数据的装置，该装置包括与存储器通信的处理器，该处理器被配置成执行存储在该存储器中的多个指令，使得该处理器：

根据该合成，将该多个二维轨道合成该画布，包括：

基于该合成布局操作，调整该合成，以补偿该合成布局。

12.根据权利要求11所述的解码视频数据的装置，其特征在于，该合成布局包括该画布上合成的该多个二维子图像轨道中的两个或两个以上之间的间隙和该画布上合成的该多个二维子图像轨道中的两个或两个以上的重叠中的至少一个。

13.根据权利要求11所述的解码视频数据的装置，其特征在于，

解码该合成操作的该合成布局操作包括：

解码背景颜色、背景图像或背景视频中的一个或多个；以及

将该多个二维轨道进行合成包括：

14.根据权利要求11所述的解码视频数据的装置，其特征在于，

解码该合成操作的该合成布局操作包括：

解码混合数据；以及

将该多个二维轨道进行合成包括：

15.根据权利要求11所述的解码视频数据的装置，其特征在于，

解码该合成操作的该合成包括：

自包括如下的组选择该合成：

16.一种编码视频数据的装置，该装置包括与存储器通信的处理器，该处理器被配置成执行存储在该存储器中的多个指令，使得该处理器：

在该画布包括由该画布上合成的该多个二维子图像轨道中的两个或两个以上创建的合成布局时调整该合成的合成布局操作；以及

提供已编码的该三维视频数据和该合成操作。

17.根据权利要求16所述的编码视频数据的装置，其特征在于，该合成布局包括该画布上合成的该多个二维子图像轨道中的两个或两个以上之间的间隙和该画布上合成的该多个二维子图像轨道中的两个或两个以上的重叠中的至少一个。

18.根据权利要求16所述的编码视频数据的装置，其特征在于，编码该合成操作的该合成布局操作包括：

19.根据权利要求16所述的编码视频数据的装置，其特征在于，编码该合成操作的该合成布局操作包括：

20.根据权利要求16所述的编码视频数据的装置，其特征在于，编码该合成操作的该合成包括：

自包括如下的组选择该合成：