CN110383846A

CN110383846A - 用于发信空间区域信息的方法及装置

Info

Publication number: CN110383846A
Application number: CN201880015838.4A
Authority: CN
Inventors: 王新; 陈鲁林; 赖柏霖; 刘杉
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2017-03-07
Filing date: 2018-03-07
Publication date: 2019-10-25
Also published as: US11139000B2; WO2018161916A1; US20180261254A1; TWI709327B; TW201838417A

Abstract

本发明提供一种装置，其包括接口电路和处理电路。接口电路用于接收承载元数据的多个信号，其中该元数据将由第一视觉轨道提供的第一视觉视图中的感兴趣区域与该第一视觉轨道和提供第二视觉视图的第二视觉轨道关联，该第二视觉视图是该第一视觉视图的一部分。处理电路用于解析该元数据；当该感兴趣区域被选择时，确定该第二视觉轨道以提供视觉数据；以及基于来自于该第二视觉轨道的该视觉数据，生成该感兴趣区域的多个图像。

Description

用于发信空间区域信息的方法及装置

【交叉引用】

本发明要求2017年03月07日提出的申请号为62/467,860且名称为"Methods ofCarriage and Signaling of 2-Dimensional Spatial Region Information inISOBMFF"的美国临时申请的权利，其整体以引用方式并入本文中。

【技术领域】

本发明大体涉及视频编解码方法及装置，且更具体地涉及多轨道视觉数据处理技术。

【背景技术】

此处提供的先前技术描述通常用作说明本发明的上下文的目的。目前署名发明人的工作内容，既包含在本先前技术部分中所描述的工作的内容，也包含在申请时未被认为是先前技术的说明书的各方面，这些既不明确也不暗示地被承认是本发明的先前技术。

视觉内容可以包括全球视觉数据和特定目的的区域视觉数据。在道路自行车比赛事件的视觉内容的示例中，视觉内容包括一主组骑手的全景视图，也包括该主组中的骑手子集的追踪视图。追踪视图提供观察者感兴趣的感兴趣区域，例如，特定骑手。

【发明内容】

本发明的方面提供一种装置，其包括接口电路和处理电路。接口电路用于接收承载元数据的多个信号，其中元数据将由第一视觉轨道提供的第一视觉视图中的感兴趣区域与第一视觉轨道和提供第二视觉视图的第二视觉轨道关联，第二视觉视图是第一视觉视图的一部分。处理电路用于解析元数据；当感兴趣区域被选择时，确定第二视觉轨道以提供视觉数据；以及基于来自于第二视觉轨道的视觉数据，生成感兴趣区域的多个图像。

根据本发明的一方面，处理电路用于透过接口电路自另一装置请求并接收第二视觉轨道的视觉数据。

在一实施例中，接口电路用于接收元数据的多个信号，其中元数据承载将感兴趣区域与多个第二视觉轨道关联，多个第二视觉轨道提供相应的第一视觉视图的多个部分视觉视图。

在一示例中，接口电路用于接收元数据的多个信号，其中元数据承载将多个感兴趣区域与第二视觉轨道关联，第二视觉轨道提供第二视觉视图。处理电路用于在多个感兴趣区域中的一个被选择时确定第二视觉轨道，以提供视觉数据。

在一实施例中，接口电路用于接收承载元数据轨道的多个信号，其中元数据轨道参考第一视觉轨道并包括第二视觉轨道的识别码和感兴趣区域的识别码。在一示例中，接口电路用于接收承载元数据轨道的多个信号，其中元数据轨道包括位于在至少一个样本及多个样本的样本条目中的第二视觉轨道的识别码和感兴趣区域的识别码。

在另一实施例中，接口电路用于接收承载一元数据轨道的多个信号，其中元数据轨道参考第二视觉轨道且包括第二视觉轨道的识别码和感兴趣区域的识别码。在一示例中，接口电路用于接收承载元数据轨道的多个信号，其中元数据轨道包括位于在至少一个样本及多个样本的样本条目中的第二视觉轨道的识别码和感兴趣区域的识别码。

本发明的方面提供了一种装置，其包括处理电路和存储器电路。处理电路用于：形成用于第一视觉视图的视觉数据的第一视觉轨道和用于第二视觉视图的视觉数据的第二视觉轨道，其中第二视觉视图是第一视觉视图的一部分；确定将第一视觉视图中的一感兴趣区域与第一视觉轨道和第二视觉轨道关联的元数据；以及将具有第一视觉轨道和第二视觉轨道的元数据封装到一文件中。存储器电路用于存储文件。

本发明的方面提供一种方法。本方法包括：一装置的接口电路接收承载元数据的多个信号，其中元数据将由第一视觉轨道提供的第一视觉视图中的感兴趣区域与第一视觉轨道和提供第二视觉视图的第二视觉轨道关联，第二视觉视图是第一视觉视图的一部分；装置的处理电路解析元数据；当感兴趣区域被选择时，确定第二视觉轨道以提供视觉数据；以及基于来自于第二视觉轨道的视觉数据，生成感兴趣区域的多个图像。

【附图说明】

将结合下面的图式对被提供作为示例的本发明的各种实施例进行详细描述，其中相同的符号表示相同的元件，以及其中：

图1是根据本发明一实施例的媒体系统100的结构示意图；

图2-图5是根据本发明一些实施例的媒体文件的示意图；

图6是示出了根据本发明一实施例的流程示例600的流程图；以及

图7是示出了根据本发明一实施例的流程示例700的流程图。

【具体实施方式】

视觉内容，例如2D视频和3D全向视频/360视频内容，可以被表示为时间上的多个媒体流。当媒体流以一文件格式被表示或者捕获，例如国际标准化组织基本媒体文件格式(ISO base media file format，ISOBMFF)时，媒体流称为轨道(track)。在一些实施例中，视觉轨道包括以时间顺序的图像样本的序列，并且视觉轨道具有与视觉轨道相关的空间属性，例如视觉视图(例如，视觉轨道中视觉数据的空间范围)。例如，主视觉轨道包括相对较大视觉视图的图像样本序列(例如，全景情景)，并且区域视觉轨道包括较大视觉视图中的区域(例如，片段情景、分割、子图像)的图像样本序列。媒体文件可以包括具有各自空间属性的多个视觉轨道。不同媒体应用和使用实例需要提供特定区域的时间数据，并且特定区域称为感兴趣区域(region of interest，ROI)。在不同视频应用中，视觉内容被要求且传送为视觉轨道组。本发明的方面提供了将视觉轨道与ROI关联(associate)的技术，以支持ROI相关使用实例和应用。具体地，本发明提供了方法以用于在ISOBMFF中对视觉轨道和承载或贡献(contributing)给它们的ROI的区域视觉轨道的关联进行发信，另外，对ROI承载或贡献的区域视觉轨道及它们与单个ROI的关联的定时元数据进行发信，以便支持更多ROI相关使用实例及需求。在一些示例中，关联关系可以包括包含关系和提供关系。例如，当视觉轨道包含ROI(即包含关系)时，整个ROI位于由视觉轨道所提供的视觉视图之内。当视觉轨道贡献给(contributes to)一个ROI(即贡献关系)时，至少ROI的一部分是位于由视觉轨道所提供的视觉视图之内。

图1显示了根据本发明一实施例的媒体系统100的结构示意图。媒体系统100包括耦接在一起的来源子系统110、传送子系统150和渲染子系统160。来源子系统110被配置为获取媒体数据(例如，虚拟实境视频)并适当地将媒体数据封装成一个或多个文件。传送子系统150被配置成将来自于来源子系统110的已封装媒体数据传送到渲染子系统160。渲染子系统160被配置成根据媒体数据渲染视频。

根据本发明的一方面，来源子系统110将媒体数据构造成多个轨道，每个轨道是基于以时间顺序的样本序列而形成的。在一实施例中，来源子系统100根据特定属性，例如空间分割、图像品质、加密模式等，将视觉数据(例如，图像数据、视频数据)构成视觉轨道。此外，来源子系统100构造提供视觉数据和/或视觉轨道的信息的元数据(metadata)。例如，来源子系统110构造将ROI的关联信息提供给视觉轨道的元数据。在一些实施例中，来源子系统110可以构造具有时间顺序的元数据样本的元数据轨道。位于一时间处的元数据样本给位于此时间的视觉轨道提供ROI的关联信息。

根据一些实施例，来源子系统110参考特定视觉轨道来构造元数据轨道，并且特定视觉轨道称为元数据轨道的参考视觉轨道。来源子系统100包括元数据轨道中的感兴趣区域信息，并且ROI信息包括ROI到参考视觉轨道的视觉视图的空间关系。另外，来源子系统100包括将ROI与除了参考视觉轨道之外的视觉轨道关联的信息，例如，承载一ROI的视觉数据或者提供ROI的视觉轨道列表。

在一实施例中，来源子系统100可以构造主视觉轨道、区域视觉轨道和参考主视觉轨道的元数据轨道。在道路自行车比赛事件的视觉内容的一示例中，主视觉轨道包括一主组骑手的全景视图的图像样本，特定区域视觉轨道包括该主组中的骑手子集的追踪视图的图像样本。另外，来源子系统100构造参考主视觉轨道的元数据轨道。元数据轨道包括ROI与主视觉轨道的视觉视图的空间关系，并在元数据轨道中指定了ROI由特定区域视觉轨道来承载。

在另一示例中，主视觉轨道包括较大视觉视图的定时(timed)图像样本，并且区域视觉轨道包括较大视觉视图的空间分割的定时图像样本。另外，来源子系统100构造参考主视觉轨道的元数据轨道。主视觉轨道包含ROI。元数据轨道包括ROI与主视觉轨道的视觉视图的空间关系，并在元数据轨道中指定了提供ROI的区域视觉轨道。元数据轨道可以包括位于不同层处的ROI信息，例如，样本层、样本条目层等。一样本条目对应于时间周期内的多个样本。在一示例中，元数据轨道包括定时元数据样本，位于一时间处的元数据样描述了空间属性，例如参考主视觉轨道的位于该时间处的ROI的尺寸、位置，以及提供ROI的区域视觉轨道的识别码(identifier)的列表。在另一示例中，当ROI的位置和尺寸在某个时间周期段不变时，ROI信息可以被包括在时间周期的样本条目中。

在一实施例中，来源子系统100构造一个ROI的一个元数据轨道。在另一实施例中，来源子系统100构造多个ROI的一个元数据轨道。在一示例中，来源子系统100可以构造包含多个ROI、多个区域视觉轨道和参考主视觉轨道的一元数据轨道的主视觉轨道，以包括多个ROI的ROI信息。例如，对于由一识别码标识的每个ROI，元数据轨道包括ROI到主视觉轨道的视觉视图的空间关系，并在元数据轨道中指定了提供ROI的区域视觉轨道列表。同样地，元数据轨道可以包括位于不同层处的ROI信息，例如，样本层、样本条目层等。例如，当ROI到参考视觉轨道的相对空间关系在某个时间周期段内不改变时，元数据轨道可以包括该时间段内的样本条目中的ROI信息；以及当ROI到参考视觉轨道的相对空间关系随着时间而改变时，元数据轨道可以包括位于样本层处的各自元数据样中的ROI信息。

注意的是，在一些实施例中，来源子系统100可以参考区域视觉轨道来构造元数据轨道。在一示例中，来源子系统100可以构造主视觉轨道、区域视觉轨道和参考特定区域视觉轨道的元数据轨道。元数据轨道包括参考特定区域视觉轨道的ROI信息。例如，元数据轨道包括参考特定区域视觉轨道的视觉视图的ROI的空间关系。在一示例中，当ROI的元数据轨道参考特定区域视觉轨道时，特定区域视觉轨道提供ROI的图像生成。元数据轨道可以包括多个ROI的ROI信息。ROI信息可以被包括在样本层和样本条目层处。

如临时申请中所公开，更具体地，当(主)视觉轨道v中存在包含、提供或者关于多个ROI，即R₁，...，R_k，k≥1的内容的(区域)视觉轨道，即v₁，...，v_n，n≥0时，本发明提供有效机制，以在如下情景中进行发信以用于额外的使用示例，其中，参考视觉轨道是包含这些ROI的(主)视觉轨道v或者提供这些ROI的(区域)视觉轨道v_i，1≤i≤n：

主视觉内容包含单个ROI：定时元数据轨道m发信参考(主)视觉轨道v包含一ROI，其由其2D笛卡尔(Cartesian)座标所定义、由ROI识别码id所标识并由视觉轨道v₁，...，v_n所提供(或承载在视觉轨道v₁，...，v_n中)。

注意的是，当n＝0时，元数据轨道不发信承载ROI内容的任何区域视觉轨道，这降低回到诸如由ISO/IEC 23001-10标准当前所支持的使用实例。还注意的是，标准中的“特写(close-up)视图(视频中的视频)”使用实例是这种的特定实例，其中ROI视频由且仅由一区域视频轨道提供。

主视觉内容包含多个ROI：定时元数据轨道m发信参考(主)视觉轨道v包含多个ROI，每个ROI由其2D笛卡尔座标所定义、由ROI识别码id所标识并承载在视觉轨道v₁，...，v_n。

区域视觉内容包含单个ROI：定时元数据轨道m′发信指示参考(区域)视觉轨道v′提供(主)视觉轨道v的一ROI，其由ROI识别码id所标识，并且来自于v′的提供部分是由该ROI和轨道v′本身的2D笛卡尔座标进行定义的。

注意的是，ROI可以以区域的形式来定义，这是因为任何区域或者整体属于ROI，或者根本不提供ROI。在这种情况中，提供部分的发信可以被忽略。还注意的是，主视觉轨道v被发信以用于确保区域视觉轨道所提供的ROI的唯一性以及容易定位ROI。如果ROI的标识可以被做成唯一的且容易访问的，则主视觉轨道v的发信也可以被忽略。

区域视觉内容提供多个ROI：定时元数据轨道m′发信参考(区域)视觉轨道v′提供多个ROI，并且对于(主)视觉轨道v的由ROI识别码id所标识的每个提供ROI，来自于v′的提供部分是由ROI和轨道v′本身的2D笛卡尔座标进行定义的。

根据本发明的一方面，由来源子系统110所构造的元数据轨道透过其各自的关联定时元数据轨道提供包含(主)视觉轨道的ROI与提供(区域)视觉轨道之间的可行且双方式关联。因此，容易访问和切换可以从一个类型的轨道到另一类型的轨道进行实现，以用于诸如ROI处理、存储、传送、注释(annotating)和渲染的目的。

在一些实施例中，所公开的技术可以用于发信分层ROI，其中ROI可以具有其自身的ROI。在这些情景中，提供区域视觉轨道的ROI也可以是包含主视觉轨道的ROI，并且一个或多个定时元数据轨道可以用于发信其所提供的ROI，一个或多个定时元数据轨道用于发信其所包含的ROI。

注意的是，本发明中所定义的样本条目类型和类别的名称是示意性的，并且其定义可以是较优的且是更紧凑的，特别当某些因素可以被忽略、固定且假设为常数或者非时变时。

在图1示例中，来源子系统110包括耦接在一起的获取设备112、处理电路120、存储器115和接口电路111。

获取设备112被配置为获取各种媒体数据。在一示例中，获取设备112被配置为获取道路自行车比赛事件的视觉内容，例如，一主组的骑手的全景视图和主组中骑手子集的追踪视图。在另一示例中，获取设备112被配置为获取2D视频的图像、声音等和/或3D全景视频/360视频。获取设备112可以具有任何适当的设置。在一示例中，获取设备112包括全景视图的Peloton摄像机和追踪视图的追踪摄像机。在另一示例中，获取设备112包括具有多个摄像机的摄像机装置(未示出)，例如具有两个鱼眼摄像机的成像系统、具有四个摄像机的四面体成像系统、具有六个摄像机的立方体成像系统、具有八个摄像机的八面体成像系统和具有二十个摄像机的二十面体成像系统等，其被配置为拍摄周围空间内的各个方向的图像。

在一实施例中，相比单个摄像机，多个摄像机所拍摄的图像是重迭的，并且可以被缝合(stitched)以提供周围空间的更大覆盖。在一示例中，多个摄像机所拍摄的图像可以提供整个周围空间的360°球面覆盖。注意的是，多个摄像机所拍摄的图像可以提供周围空间的少于360°球面覆盖。

获取设备112所获取的媒体数据可以被适当地存储或缓存，例如，在存储器115中。处理电路120可以访问存储器115，处理媒体数据并以适合的格式封装媒体数据。随后，已封装媒体数据被适当地存储或者缓存，例如，在存储器115中。

在一实施例中，处理电路120包括被配置为处理音频数据的音频处理路径，并包括被配置为处理图像/视频数据的图像/视频处理路径。随后，处理电路120根据适当的格式将元数据与封装音频、图像和视频数据封装到一起。

在一示例中，获取设备112所获取的图像是二维(two-dimension，2D)图像。在另一示例中，在图像/视频处理路径上，处理电路120可以缝合不同摄像机所拍摄的图像以形成已缝合图像，例如，全向图像等。随后，处理电路120可以根据适当的2D平面来投影全向图像，以将全向图像转换成可使用2D编码技术编码的2D图像。随后，处理电路120可以适当地编码图像和/或图像流。

注意的是，处理电路120可以根据任何适当的投影技术来投影全向图像。在一示例中，处理电路120可以使用等角投影(equirectangular projection，ERP)投影全向图像。ERP投影以与将地球投影到地图的方式相似的方式，将球体表面，例如全向图像，投影到矩形平面，例如2D图像。在一示例中，球体表面(例如地球表面)使用偏航(例如，经度)和俯仰(纬度)的球面坐标系统，矩形平面使用XY坐标系统。在投影期间，偏航圈被转换成垂直线，俯仰圈被转换成水平线，偏航圈和俯仰圈在球体坐标系统中是正交的，并且垂直线和水平线在XY坐标系统中是正交的。

在另一示例中，处理电路120可以将全向图像投影到正多面体的面，例如，四面体、立方体、八面体和二十面体等。已投影面可以被分别重新排列，例如旋转、重新定位，以形成2D图像。随后，2D图像被编码。

注意的是，在一实施例中，处理电路120可以编码不同摄像机所拍摄的图像，并对这些图像不执行缝合操作和/或投影操作。

根据本发明的一方面，处理电路120被配置为将视觉内容封装成多个视觉轨道，并构造关于各自的参考视觉轨道的元数据轨道。元数据轨道包括ROI，并将ROI与除了参考视觉轨道之外的视觉轨道进行关联。

根据本发明的一方面，处理电路120包括文件生成模组130，其配置为将视觉轨道和元数据轨道封装到一文件中。在一实施例中，处理电路120被配置为使用可拓展格式标准，例如ISO基本媒体文件格式(ISOBMFF)等，以用于基于时间的媒体，例如视频和/或音频。在一示例中，ISO基本媒体文件格式定义了基于时间的多媒体文件的常规结构，且是灵活且可拓展的，其有利于互换、管理、编辑和媒体的表示。ISO基本媒体文件格式是独立于特定网络通信协定，并且通常可以支持不同的网络通信协定。因此，在一示例中，透过网络或透过其他流传送机制，ISO基本媒体文件格式的基于文件的呈现可以被本地渲染。

通常，媒体表示可以被包含在一个或多个文件中。一个或多个文件中的一个具体文件包括媒体表示的元数据，并根据文件格式而被格式化，例如ISO基本媒体文件格式。该具体文件也可以包括媒体数据。当媒体表示被包含在多个文件中时，其他文件可以包括元数据。在一实施例中，元数据用于透过参考媒体数据来描述媒体数据。因此，在一示例中，媒体数据被存储在与任何协定无关(agnostic)的状态中。同一媒体数据可以用于局部表示和多个协定等。媒体数据可以按照或者不按照顺序进行存储。

ISO基本媒体文件格式包括特定集合的框(box)。这些框是逻辑容器。框包括描述符，其保留自媒体内容和媒体内容结构推导出的参数。媒体被封装在框的分层中。框是由唯一类型识别码所定义的物件导向的创建块。

在一示例中，媒体内容的表示被称为电影，并被分割成以时间的形式串联的轨道。每个轨道表示媒体内容的样本的定时序列。媒体内容被存储，并由访问单元进行访问，例如信息框等。访问单元被定义为基础流内的数据的最小单个可访问部分，并且唯一定时信息可以分配给每个访问单元。在一实施例中，访问单元可以被实体地存储在任何序列和/或任何组中，是完整的或被子分割成封包(packet)。使用对访问单元被存储的比特组位置的参考，ISO基本媒体文件格式使用框以将访问单元映射成样本流。在一示例中，样本信息允许访问单元以在时间线上同时被解码且表示，而无论存储如何。

根据本发明的方面，处理电路120被配置为包括参考被参考视觉轨道的元数据轨道中的ROI信息。ROI信息包括含有参考被参考视觉轨道的视觉视图的ROI空间信息，并且包括视觉轨道的承载者(例如，承载ROI的视觉数据的视觉轨道)或者贡献者(例如，将视觉数据贡献到ROI的视觉轨道)信息。在一实施例中，处理电路120被配置为使用轨道框(trackbox)以包括参考参考视觉轨道的元数据。例如，处理电路120使用轨道框以包括参考参考视觉轨道的ROI元数据样本。处理电路120可以包括属性的描述，例如，位于元数据轨道中的元数据样本层或者元数据样条目层的ROI的识别码、ROI的2D笛卡尔座标、视觉轨道的识别码列表等。

另外，根据本发明的一方面，处理电路120被配置为接收ROI的视觉数据的请求，并确定基于媒体文件中的元数据而提供ROI的视觉轨道。随后，回应于该请求，处理电路120可以提供，例如，所确定的视觉轨道。在一示例中，处理电路120可以取回所确定的视觉轨道的视觉数据，并生成封包以承载所取回的视觉数据。随后，接口电路111可以发送封包。

ROI信息和文件格式的示例如图2-图5所示，并将结合图2-图5进行描述。

在一实施例中，处理电路120使用一个或多个处理器来实现，并且一个或多个处理器被配置为执行软件指令以执行媒体数据处理。在另一实施例中，处理电路120使用集成电路来实现。

在图1示例中，封装的媒体数据透过接口电路111被提供给传送子系统150。传送子系统150被配置为适当地将媒体数据提供到用户端设备，例如渲染子系统160。

在一实施例中，传送子系统150包括不同的网络元件，例如路由器、网络交换机、基站和接入点等，以形成来源子系统110和渲染子系统160之间的传送路径。在一示例中，来源子系统110透过传送子系统150将媒体表示发送到渲染子系统160。渲染子系统160透过传送子系统150将视口信息，例如，以ROI的识别码的形式，发信到来源子系统110。视口信息表示渲染子系统160所请求的ROI。基于视口信息，处理电路120执行及时处理。例如，处理电路120基于视口信息选择提供ROI的适当的视觉轨道，基于时间周期选择适当的图像样本，以及基于可用的带宽和加密模式需求编码和/或加密所选择的图像样本，以生成封包。传送子系统150将封包传送给渲染子系统160。随后，渲染子系统160解码和/或解密包以重构图象样本以用于显示。

传送子系统150的元件透过有线连接和/或无线连接适当地耦接在一起。传送系统150透过有线连接和/或无线连接与来源系统110和渲染系统160适当地耦接。

渲染子系统160可以使用任何适当的技术来实现。在一示例中，渲染子系统160的元件被整合在一设备封包中。在另一示例中，渲染子系统160是一分散式系统，来源子系统110的元件可以位于不同的位置处，并透过有线连接和/或无线连接适当地耦接在一起。

在图1示例中，渲染子系统160包括耦接在一起的接口电路161、处理电路170和显示设备165。接口电路161被配置为透过任何适当的通信协议适当地接收媒体信息，例如媒体表示的文件、媒体流等。

处理电路170被配置为处理媒体信息，并生成图像以用于显示设备165呈现给一个或多个用户。显示设备165可以是任何适当的显示，例如电视机、智能手机、穿戴显示、头戴式设备等。

在一示例中，处理电路170包括处理模组180和图像生成模组190。处理模组180被配置为执行封包处理、控制操作和通信操作。图像生成模组190被配置为生成感兴趣区域的图像。处理模组180和图像生成模组190可以被实现为执行软件指令的处理器，或者可以被实现为集成电路。

根据本发明的一方面，渲染子系统160可以处理由来源子系统110所构造的元数据。在一实施例中，来源子系统110透过传送子系统150将媒体文件发送到渲染子系统160。媒体文件包括元数据轨道。元数据轨道包括ROI与视觉轨道的关系，例如，ROI与参考视觉轨道的视觉视图的空间关系、视觉轨道与ROI的承载者关系或者提供者关系等。

在一实施例中，处理电路170可以解析元数据轨道以提取ROI与视觉轨道的关系。另外，在一示例中，当ROI被选择时，处理电路170可以确定可提供视觉数据的视觉轨道，以用于生成ROI的图像。在一示例中，处理电路170可以生成一请求，以请求确定的视觉轨道的视觉数据。该请求可以是由接口电路161发送出去的。随后，接口电路161可以接收承载确定的视觉轨道的视觉数据的信号。随后，处理电路170可以基于接收到的视觉数据生成ROI的图像。

图2显示了示出根据本发明一些实施例的视觉内容和相应的媒体文件230的示意图。视觉内容包括视觉样本的不同空间属性。例如，视觉内容包括主视觉视图210的视觉数据、四个区域视觉视图211-214和ROI 216(即ROI-1)。主视觉视图210的视觉数据可以形成视觉轨道v，用来提供主视觉视图210中的视频。区域视觉视图211的视觉数据可以形成提供区域视觉视图211中的视频的视觉轨道v₁，区域视觉视图212的视觉数据可以形成提供区域视觉视图212中的视频的视觉轨道v₂，区域视觉视图213的视觉数据可以形成提供区域视觉视图213中的视频的视觉轨道v₃，区域视觉视图214的视觉数据可以形成提供区域视觉视图214中的视频的视觉轨道v₄。

在一示例中，ROI 216位于主视频范围210之内，并且可以在主视频范围210内移动。例如，如图2所示，在一时间处，ROI 216的一部分是位于区域视觉视图212中，ROI 216的剩余部分是位于区域视觉视图214中。在另一时间(未示出)处，整个ROI 216可以移动到区域视觉视图212中。

如图2所示，文件230包括视觉轨道的轨道框和元数据轨道的轨道框。例如，文件230包括主视觉轨道v(也称为视频)的轨道框240。轨道框240包括媒体框245，其可以包括主视频样本的索引。同样地，文件230包括区域视觉轨道v₁到区域视觉轨道v₄的轨道框260、轨道框270、轨道框280和轨道框290。轨道框260包括媒体框265，其可以包括区域视频样本的索引，以用于生成区域视频v₁。轨道框270包括媒体框275，其可以包括区域视频样本的索引，以用于生成区域视频v₂。轨道框280包括媒体框285，其可以包括区域视频样本的索引，以用于生成区域视频v₃。轨道框290包括媒体框295，其可以包括区域视频样本的索引，以用于生成区域视频v₄。

还如图2所示，文件230包括ROI 216的元数据轨道m的轨道框250。轨道框250包括一描述以表示ROI的参考视觉轨道是主视频v(例如，tref(‘cdsc’,v))，且主视频包含ROI。轨道框250包括媒体框255，以包括ROI信息的描述，例如参考主视频v的空间关系和与其他视觉轨道的关联。在一些实施例中，媒体框255包括样本条目框，样本条目框包括多个样本的索引。样本条目和可以用于指定对多个样本相同的属性。

ROI可以被指定在不同层处。在一示例中，当参考主视频v的ROI的位置和尺寸是静态的(即不随时间而改变)时，ROI可以被指定在样本条目层处。例如，样本条目框指定了参考主视频v的ROI以及与其他视觉轨道的关联。例如，元数据样本条目框包括ROI 216的识别码、参考视觉轨道v的视觉视图中的ROI 216的位置、ROI 216的尺寸和提供ROI 216的视觉轨道(例如v₂和v₄)的列表。在一示例中，参考视觉轨道的视觉视图透过视觉视图的尺寸进行描述，例如reference_width、reference_height；视觉视图中的ROI 216的位置使用顶层角的座标进行描述，例如top_left_x和top_left_y(例如，假设主视觉视图210的顶层角是原点)；ROI 216的尺寸使用宽度和高度进行描述。

在另一示例中，当参考主视频v的ROI的位置和尺寸随着时间改变时，ROI可以被指定在样本层。例如，用于图2中的图像的时间的第一元数据样本包括ROI 216的识别码、主视觉视图中的ROI 216的位置、ROI 216的尺寸和提供ROI 216的视觉轨道(例如v₂和v₄)的列表；用于不同时间的第二元数据样本包括ROI 216的识别码、ROI 216在主视觉视图中的新位置(例如，左上角的座标)、ROI 216的新尺寸(例如宽度和高度)和视觉轨道(仅v₂)的列表。

申请号为62/467,860的美国临时申请的“Signaling for a Main Visual TrackContaining a single ROI”的部分中公开了主视觉轨道包含单个ROI的发信的介绍、样本条目层描述的语法及语义、样本层描述的语法及语义，其被包括在附录A中。

图3显示了示出根据本发明一些实施例的视觉内容和相应的媒体文件330的示意图。视觉内容包括视觉样本的不同空间属性。例如，视觉内容包括主视觉视图310的视觉数据、四个区域视觉视图311-314、第一ROI 316(即ROI-1)和第二ROI 317(即ROI-2)。主视觉视图310的视觉数据可以形成视觉轨道v，其提供主视觉视图310中的视频。区域视觉视图311的视觉数据可以形成提供区域视觉视图311中的视频的视觉轨道v₁，区域视觉视图312的视觉数据可以形成提供区域视觉视图312中的视频的视觉轨道v₂，区域视觉视图313的视觉数据可以形成提供区域视觉视图313中的视频的视觉轨道v₃，区域视觉视图314的视觉数据可以形成提供区域视觉视图314中的视频的视觉轨道v₄。

在一示例中，ROI 316和ROI 317位于主视频范围310之内，并且可以在主视频范围310内移动。例如，在一时间处，ROI 316的一部分是在区域视觉视图312中，ROI 316的剩余部分是在区域视觉视图314中。在另一时间处，整个ROI 316可以移动到区域视觉视图312中。在另一示例中，ROI 317在区域视觉视图314内移动。

如图3所示，文件330包括视觉轨道的轨道框和元数据轨道的轨道框。例如，文件330包括主视觉轨道v的轨道框340。轨道框340包括媒体框345，其可以包括主视频样本的索引。同样地，文件330包括区域视觉轨道v₁到区域视觉轨道v₄的轨道框360、轨道框370、轨道框380和轨道框390。轨道框360包括媒体框365，其可以包括区域视频样本的索引，以用于生成区域视频v₁。轨道框370包括媒体框375，其可以包括区域视频样本的索引，以用于生成区域视频v₂。轨道框380包括媒体框385，其可以包括区域视频样本的索引，以用于生成区域视频v₃。轨道框390包括媒体框395，其可以包括区域视频样本的索引，以用于生成区域视频v₄。

还如图3所示，文件330包括ROI 316的元数据轨道m的轨道框350。轨道框350包括一描述(例如，tref(‘cdsc’,v))以表示ROI的参考视觉轨道是主视频v。轨道框350包括媒体框355，以包括参考主视频v的ROI以及ROI与其他视觉轨道的关联的描述。在一示例中，媒体框355包括以时间顺序的元数据样本的索引。在另一实施例中，媒体框355包括样本条目框，样本条目框包括多个样本的索引。样本条目和可以用于指定对多个样本共同的属性。

ROI可以被指定在不同层处。在一示例中，当参考主视频v的ROI的位置和尺寸是静态的(即不随时间而改变)时，ROI可以被指定在样本条目层处。例如，样本条目框指定参考主视频v的ROI和与其他视觉轨道的关联。例如，元数据样本条目框包括ROI 316的识别码ROI-1、视觉视图310中的ROI 316的位置(例如左上角的座标)、ROI 316的尺寸(例如宽度和高度)和提供ROI 316的视觉轨道(例如v₂和v₄)的列表。另外，元数据样本条目框包括ROI317的识别码ROI-2、ROI 317在视觉视图310中的位置(例如左上角的座标)、ROI 317的尺寸(例如宽度和高度)和提供ROI 317的视觉轨道(例如v₄)的列表。

在另一示例中，当与主视频v相关的ROI的位置和尺寸随着时间改变时，ROI可以被指定在样本层处。例如，用于图3中的图像的该时间的第一元数据样本包括ROI 316的识别码ROI-1、ROI 316在主视觉视图中的位置(例如左上角的座标)、ROI 316的尺寸(宽度和高度)和提供ROI 316的视觉轨道(例如v₂和v₄)的列表；用于不同时间的第二元数据样本包括ROI316的识别码、ROI 316在主视觉视图中的新位置(例如，左上角的座标)、ROI 316的新尺寸(例如宽度和高度)和视觉轨道(仅v₂)的列表。

在图3示例中，轨道框350包括一个元数据轨道，以用于定义多个ROI。在其他示例中，文件330可以包括多个元数据轨道框，以分别用于多个ROI。

申请号为62/467,860的美国临时申请的“Signaling for a Main Visual TrackContaining Multiple ROIs”的部分中公开了主视觉轨道包含多个ROI的发信的介绍、样本条目层描述的语法及语义、样本层描述的语法及语义，其被包括在附录A中。

图4显示了示出根据本发明一些实施例的视觉内容和相应的媒体文件430的示意图。视觉内容包括视觉样本的不同空间属性。例如，视觉内容包括主视觉视图410、四个区域视觉视图411-414和ROI 417(即ROI-2)的视觉数据。主视觉视图410的视觉数据可以形成视觉轨道v，其提供主视觉视图410中的视频。区域视觉视图411的视觉数据可以形成提供区域视觉视图411中的视频的视觉轨道v₁，区域视觉视图412的视觉数据可以形成提供区域视觉视图412中的视频的视觉轨道v₂，区域视觉视图412的视觉数据可以形成提供区域视觉视图412中的视频的视觉轨道v₃，区域视觉视图414的视觉数据可以形成提供区域视觉视图414中的视频的视觉轨道v₄。

在一示例中，参考视觉轨道(即视觉轨道v4)的视觉视图以视觉视图414的尺寸进行描述，例如，视觉视图414的reference_width、视觉视图414的reference_height。视觉视图414中的ROI 417的位置使用参考视觉视图414的左上角的座标进行描述，例如track_portion_top_left_x和track_portion_top_left_y(例如，假设视觉视图414的左上角是原点)，ROI 417的尺寸使用宽度和高度进行描述，例如portion_width、portion_height。

注意的是，参考视觉视图414的ROI 417的位置不同于参考视觉视图410的ROI 417的位置。例如，当ROI 417的一部分位于视觉视图414之外时，参考视觉视图414的ROI 417的尺寸可以不同于参考视觉视图410的ROI 417的尺寸。

如图4所示，文件430包括视觉轨道的轨道框和元数据轨道的轨道框。例如，文件430包括主视觉轨道v的轨道框440。轨道框440包括媒体框445，其可以包括主视频样本的索引。同样地，文件430包括区域视觉轨道v1到区域视觉轨道v4的轨道框460、轨道框470、轨道框480和轨道框490。轨道框460包括媒体框465，其可以包括区域视频样本的索引，以用于生成区域视频v₁。轨道框470包括媒体框475，其可以包括区域视频样本的索引，以用于生成区域视频v₂。轨道框480包括媒体框485，其可以包括区域视频样本的索引，以用于生成区域视频v₃。轨道框490包括媒体框495，其可以包括区域视频样本的索引，以用于生成区域视频v₄。

还如图4所示，文件430包括ROI 417的元数据轨道m’的轨道框497。轨道框497包括表示ROI 417的参考视觉轨道是区域视频v₄的一描述(例如，tref(‘cdsc’,v))。轨道框497包括媒体框499，以表示参考视觉轨道v₄提供主视频v中的ROI 417(即ROI-2)。在一示例中，文件430还包括参考主视觉轨道v的元数据轨道m的轨道框450。轨道框450指示提供给ROI-2的区域轨道v₄。

在一实施例中，媒体框499包括样本条目框，样本条目框包括多个样本的索引。样本条目框可以用于指定对多个样本相同的属性。

区域视觉轨道提供单个ROI-2的发信可以被指定在不同层处。在一示例中，当参考主视频v4的ROI的位置和尺寸是静态的(即不随时间而改变)时，ROI-2可以被指定在样本条目层处。例如，样本条目框指定了参考主视频v₄的ROI和与其他视觉轨道的关联。例如，元数据样本条目框包括ROI 417的识别码、ROI 417在区域视觉视图414中的位置、ROI 417在区域视觉视图414中的尺寸。

在另一示例中，当与主视频v相关的ROI 417的位置和尺寸随着时间改变时，ROI417可以被指定在样本层处。例如，用于图4中的图像的时间的第一元数据样本包括ROI 417的识别码、ROI 417在区域视觉视图414中的位置(参考区域视觉视图414)、区域视觉视图414中的ROI 417的尺寸；用于不同时间的第二元数据样本包括ROI 417的识别码、ROI 417在区域视觉视图414中的新位置、ROI 417在区域视觉视图414中的新尺寸。

申请号为62/467,860的美国临时申请的“Signaling for a Region VisualTrack Contributing a single ROI”的部分中公开了主视觉轨道包含单个ROI的发信的介绍、样本条目层描述的语法及语义、样本层描述的语法及语义，其被包括在附录A中。

图5显示了示出根据本发明一些实施例的视觉内容和相应的媒体文件530的示意图。视觉内容包括视觉样本的不同空间属性。例如，视觉内容包括主视觉视图510、四个区域视觉视图511-514、第一ROI 516(即ROI-1)和第二ROI 517(即ROI-2)的视觉数据。主视觉视图510的视觉数据可以形成视觉轨道v，其提供主视觉视图510中的视频。区域视觉视图511的视觉数据可以形成提供区域视觉视图511中的视频的视觉轨道v₁，区域视觉视图512的视觉数据可以形成提供区域视觉视图514中的视频的视觉轨道v₂，区域视觉视图513的视觉数据可以形成提供区域视觉视图513中的视频的视觉轨道v₃，区域视觉视图514的视觉数据可以形成提供区域视觉视图514中的视频的视觉轨道v₄。

在一示例中，参考视觉轨道(即视觉轨道v4)的视觉视图以视觉视图514的尺寸进行描述，例如，区域视觉视图514的宽度、区域视觉视图514的高度。区域视觉视图514中的ROI的位置使用参考区域视觉视图514的左上角的座标进行描述；区域视觉视图中的ROI的尺寸使用区域视觉视图514的部分宽度和部分高度进行描述(位于区域视觉视图514之外的ROI的一部分不被计入)。

注意的是，参考视觉视图514的ROI的位置不同于参考视觉视图510的ROI的位置。例如，当ROI 517的一部分位于视觉视图514之外时，参考视觉视图514的ROI 517的尺寸可以不同于参考视觉视图510的ROI 517的尺寸。在图5示例中，ROI-1 516位于主视觉视图510之内，并且ROI-1的一部分，称为ROI-1部分526，位于区域视觉视图514之内。参考主视觉视图510，ROI-1 516的左上角被示为522，并可以被表示为座标(roi_portion_top_left_x,roi_portion_top_left_y)，例如，假设主视觉视图510的左上角521是原点。参考区域视觉视图514，ROI-1 526的左上角被示为527，并可以被表示为座标(track_portion_top_left_x,track_portion_top_left_y)，例如，假设区域视觉视图514的左上角525是原点。在图5示例中，ROI-1部分526的宽度和高度可以由portion_width和portion_height来表示。

如图5所示，文件530包括视觉轨道的轨道框和元数据轨道的轨道框。例如，文件530包括主视觉轨道v的轨道框540。轨道框540包括媒体框545，其可以包括主视频样本的索引。同样地，文件530包括区域视觉轨道v₁到区域视觉轨道v₄的轨道框560、轨道框570、轨道框580和轨道框590。轨道框560包括媒体框565，其可以包括区域视频样本的索引，以用于生成区域视频v₁。轨道框570包括媒体框575，其可以包括区域视频样本的索引，以用于生成区域视频v₂。轨道框580包括媒体框585，其可以包括区域视频样本的索引，以用于生成区域视频v₃。轨道框590包括媒体框595，其可以包括区域视频样本的索引，以用于生成区域视频v₄。

还如图5所示，文件530包括ROI的元数据轨道m’的轨道框597。轨道框597包括一描述(例如，tref(‘cdsc’,v₄))以表示ROI的参考视觉轨道是区域视频v₄。轨道框597包括媒体框599，以表示参考视觉轨道v₄提供ROI 516(即ROI-1)和ROI 517(即ROI-2)。主视频v包含ROI-1和ROI-2。在一示例中，文件530还包括与主视觉轨道v相关的元数据轨道的轨道框550。轨道框550表示区域轨道v4提供ROI-1和ROI-2。

在一实施例中，媒体框599包括样本条目框，样本条目框包括多个样本的索引。样本条目框可以用于指定对多个样本相同的属性。

区域视频轨道提供多个ROI的发信可以被指定在不同层处。在一示例中，当参考主视频v₄的ROI的位置和尺寸是静态的(即不随时间而改变)时，ROI可以被指定在样本条目层处。例如，样本条目框指定了参考主视频v₄的ROI和与其他视觉轨道的关联。例如，元数据样本条目框包括ROI 517的识别码、ROI 517在区域视觉视图514中的位置、ROI 517在区域视觉视图514中的尺寸。

在另一示例中，当与主视频v相关的多个ROI的位置和尺寸随着时间改变时，ROI可以被指定在样本层处。例如，用于图5中的图像的该时间的第一元数据样本包括ROI 516的识别码、ROI 516在区域视觉视图514中的位置；用于不同时间的第二元数据样本包括ROI516的识别码、ROI 516在区域视觉视图514中的新位置、ROI 516在区域视觉视图514中的新尺寸。

申请号为62/467,860的美国临时申请的“Signaling for a Region VisualTrack Contributing to Multiple ROIs”的部分中公开了区域视觉轨道包含多个ROI的发信的介绍、样本条目层描述的语法及语义、样本层描述的语法及语义，其被包括在附录A中。

注意的是，图2-图5中使用的是笛卡尔2D坐标系统。另外，在图2-图5中，区域(例如感兴趣区域、片段区域、子图像区域、分割区域等)通常具有矩形形状，且该区域的空间属性可以由矩形形状的角位置(例如左上角)、矩形形状的宽度和高度来指定。

图6显示了示出根据本发明实施例的流程示例600的流程图。在一示例中，流程600由图1示例中的来源子系统110来执行。本流程始于S601并继续到S610。

在S610中，获取媒体数据。在一示例中，获取设备112包括全景视图的Peloton摄像机和追踪视图的追踪摄像机。在另一示例中，获取设备112包括具有拍摄周围空间内的各个方向的图像的多个摄像机的摄像机装置。在一些其他实施例中，媒体数据是自多于一个源设备(例如，获取设备112或者被配置为提供媒体数据的任何其他类型的源设备)获取的，其在本发明中不作限定。

在S620中，处理视觉数据，以生成视觉样本并形成视觉轨道。在一示例中，处理电路120可以将从不同摄像机拍摄的图像缝合在一起，以形成已缝合图像，例如全向图像等。随后，处理电路120可以根据适当的2D平面来投影图像，以将该图像转换成2D图像。在一示例中，2D平面可以被分割成多个子图像区域(分割)，并且处理电路120形成不同视觉视图的视觉轨道，例如，图2-图5示例中的视觉轨道v和视觉轨道v₁-v₄。随后，处理电路120生成轨道框以分别对应于视觉轨道。视觉轨道的轨道框可以包括指向视觉样本子集以形成该视觉轨道的数据索引。

在S630中，确定将ROI与视觉轨道关联的元数据。在一示例中，处理电路120选择ROI的参考视觉轨道，例如，主视觉轨道、区域视觉轨道等。处理电路120确定参考与参考视觉轨道相关的ROI的空间属性，例如与参考参考视觉轨道相关的视觉视图的ROI的位置、ROI的一部分在参考视觉轨道的视觉视图中的ROI的部分的尺寸等。另外，处理电路120确定一框层(box level)以包括ROI信息。例如，当ROI的位置和尺寸在某个时间段内不改变时，处理电路120确定包括位于样本条目层处的ROI信息，其指定时间段内的多个样本的共同属性；以及当ROI的位置和尺寸随着时间而改变时，处理电路120确定包括逐样本改变的位于样本层处的ROI信息。随后，处理电路120形成元数据轨道以包括定时元数据样本。

在S640中，将视觉轨道和元数据轨道封装在一文件中。在一示例中，视觉轨道、元数据轨道和其他适合的轨道被封装在符合ISOBMFF的一文件(例如，文件230、文件330、文件430和文件530)中。在一示例中，该文件被适当地存储。随后，本流程继续到S699并结束。

图7显示了示出根据本发明实施例的流程示例700的流程图。在一示例中，流程700由图1示例中的渲染子系统160来执行。流程700始于S701并继续到S710。

在S710中，接收将ROI与视觉轨道关联的元数据。在一示例中，来源子系统110生成媒体文件(media file)，例如媒体文件230、媒体文件330、媒体文件430、媒体文件530等，其包括将ROI与不同视觉视图的视觉轨道关联的元数据(例如，元数据轨道)。在一实施例中，处理电路170可以解析元数据轨道以提取ROI与视觉轨道的关系，例如ROI与参考视觉轨道的空间关系、视觉轨道与ROI的包含关系或者提供关系。

在S720中，选择一ROI。在一示例中，渲染子系统160自使用者接口接收输入，其表示由用户所选择的ROI。

在S730中，确定视觉轨道，以提供ROI的视觉数据。在一示例中，当ROI被选择时，处理电路170可以确定视觉轨道，视觉轨道可以提供视觉数据，以基于将ROI与视觉轨道关联的元数据生成ROI的图像。

在S740中，取回确定的视觉轨道，并相应地生成选择的ROI的图像。在一示例中，处理电路170可以生成一请求，以请求确定的视觉轨道的视觉数据。该请求可以透过接口电路161发送出去。随后，接口电路161可以接收承载所确定的视觉轨道的视觉数据的信号。随后，处理电路170可以基于接收的视觉数据生成ROI的图像。随后，本流程继续到S799并结束。

附录A

1主视觉轨道包含单个ROI的发信

1.1介绍

本发明的一实施例指定了定时元数据，以用于发信(主)视觉轨道包含单个2DROI，并且多个(区域)视觉轨道提供ROI。更具体地，定时元数据轨道m发信参考(主)视觉轨道v包含一ROI，其由其2D笛卡尔座标定义、由ROI识别码id定义且在视觉轨道v₁,...,v_n中承载。

使用视频(而不是更广义的视觉)内容作为示例，元数据轨道可以参考主视频轨道v，可以承载元数据以用于定义ROI，并包括提供ROI的区域轨道v₁,…,v_n的标识。

1.2样本条目

1.2.1介绍

样本条目类型:‘2d1r’

容器:Sample Description Box(‘stsd’)

必选:否

数量:0或1

2D1RoiSampleEntry指定了参考视觉轨道所包含的ROI的参考笛卡尔座标。

2D1RoiSampleEntry的一可选定义还指定了ROI的2D位置和尺寸是否随着时间而改变的指示。如果ROI不改变，则其指定其位置和尺寸以及提供ROI的区域视觉轨道的数量。在这种情况下，将在样本中不指定定时元数据。

1.2.2语法

如果考虑(2D矩形)ROI的位置和尺寸不随着时间而改变的情景，则其元数据可以如下被指定在样本条目中。

1.2.3语义

reference_width和reference_height分别表示参考矩形空间的宽度和高度，其中所有ROI座标(top_left_x,top_left_y,width和height)均被计算。这些数据栏(field)允许将ROI元数据轨道与不同解析度的视觉轨道关联，但表示同一视觉源。

fixed_roi_tag等于1指定ROI的位置和尺寸不随时间而改变。

roi_id指定ROI的识别码。其值将相对于参考轨道包含的任何其他ROI而言是唯一的。

top_left_x和top_left_y分别表示与参考轨道的媒体样本关联的矩形区域的左上角的水平座标和垂直座标。

Width和height分别表示与参考轨道的媒体样本关联的矩形区域的宽度和高度。

num_roi_tracks指定了其内容提供ROI的轨道的数量。当其等于0时，意味着不存在提供ROI的视觉轨道(除了包含ROI的参考轨道)。

1.3样本格式

1.3.1介绍

2D1RoiSample指定根据样本条目中参考笛卡尔座标的ROI的识别码、位置和尺寸，以及其内容提供ROI的多个(区域)视觉轨道的识别码。当提供轨道的ROI的数量为0时，意味着不存在提供ROI的(已知)区域视觉轨道。

当ROI是静态的时，如上述可选定义所示，其元数据可以被发信在样本条目中，并且无需以样本格式来发信。

2D1RoiSample的又一可选定义还根据ROI的笛卡尔座标，指定了ROI的部分，每个提供给轨道的提供者。

1.3.2语法

当ROI是静态的时，其元数据可以被指定在样本条目中，并且无需提供样本中的任何元数据。为了保证此，上述语法可以被改善成如下。

该语法还可以被改善，如下，以根据ROI的笛卡尔座标，指定每个提供给轨道的提供者ROI的部分。

该语法还可以被改善，如下，以根据提供轨道本身的笛卡尔座标，指定每个提供轨道提供的ROI的一部分。

注意的是，添加到上述定义中的一些信息，例如track_portion_top_left_x、track_portion_top_left_y、portion_width和portion_height，可以从此处被忽略，并被发信在参考提供视觉轨道本身的ROI的定时元数据轨道中；请参考部分3。

1.3.3语义

roi_id指定了ROI的识别码。其值相对于参考轨道包含的任何其他ROI是唯一的。

top_left_x和top_left_y分别表示与参考轨道的媒体样本关联的矩形ROI的左上角的水平座标和垂直座标。

width和height分别表示与参考轨道的媒体样本关联的矩形ROI的宽度和高度。

num_roi_tracks指定了内容提供给ROI的轨道的数量。当其等于0时，意味着除了包含ROI参考轨道之外不存在贡献给ROI的(可能可用或者已知的)视觉轨道。

track_id指定了内容提供给视觉轨道的识别码。其将不等于参考(主)视觉轨道的识别码。

roi_portion_top_left_x和roi_portion_top_left_y分别表示，根据ROI的笛卡尔座标和尺寸(即top_left_x,top_left_y,width和height)，track_id的提供轨道将提供ROI的矩形部分的左上角的水平座标和垂直座标。

portion_width和portion_height分别表示，根据ROI的笛卡尔座标和尺寸(即top_left_x,top_left_y,width和height)，track_id的轨道的媒体样本的矩形部分的宽度和高度。注意的是，根据样本条目中所定义的参考座标，这些可以被可选地定义，并且此外，如果ROI以整个区域的形式被定义，即区域是ROI的整体部分，或者其没有部分不属于ROI，则这些可以被忽略。还注意的是，假设轨道部分和ROI部分之间不存在缩放。

媒体样本本身之内，track_portion_top_left_x和track_portion_top_left_y分别表示track_id的提供轨道的媒体样本的矩形部分的左上角的水平座标和垂直座标。

2主视觉轨道包含多个ROI的发信

2.1介绍

当主视觉轨道包含多于一个ROI时，在单个定时元数据轨道内将其一起发信是方便的，即使可能使用多个定时元数据轨道，一个定时元数据轨道用于每个ROI。本发明的实施例指定了一定时元数据，以用于发信(主)视觉轨道包含多个2D ROI，以及多个(区域)视觉轨道提供每个ROI。更具体地，定时元数据轨道m发信参考(主)视频轨道v包含多个ROI，每个ROI由其2D笛卡尔座标来定义，由ROI识别码id来标识并承载在视频轨道v₁,…,v_n中。

使用视频(而不是更常规视觉)内容作为示例，元数据轨道m可以参考主视频轨道v，承载元数据以用于定义k个ROI，并包括提供k个ROI的区域轨道的k个标识集合，即本部分的剩余部分所公开的实施例是位于单个ROI情况中的样本条目及样本的基本定义之外。其他替代、改善(enhancement)和变形实施例可以基于单个ROI情况中的相似替代、改善和变形定义来获得。

2.2样本条目

2.2.1介绍

样本条目类型:‘2dmr’

容器:Sample Description Box(‘stsd’)

必选:否

数量:0或1

2DmRoiSampleEntry指定了参考视觉轨道所包含的多个ROI的参考笛卡尔座标。

2.2.2语法

2.2.3语义

reference_width和reference_height分别表示参考矩形空间的宽度和高度，其中所有ROI座标(即top_left_x,top_left_y,width和height)被计算。这些数据栏允许将ROI元数据轨道与不同解析度的视觉轨道关联，但表示同一视觉源。

2.3样本格式

2.3.1介绍

2DmRoiSample指定了多个ROI，并且对于每个ROI而言，相对于样本条目中的参考笛卡尔座标，指定了该ROI的识别码、位置和尺寸。其还指定了其内容提供ROI的多个(区域)视觉轨道的识别码。当提供ROI的轨道的数量是0时，意味着不存在提供该ROI的(已知的)视觉轨道。

2.3.2语法

2.3.3语义

num_rois指定了与参考轨道的媒体样本关联的ROI的数量。

roi_id指定ROI的识别码。其值将相对于参考轨道所包含的任何其他ROI而言是唯一的。

num_roi_tracks指定了其内容提供ROI的轨道的数量。当其等于0时，这意味着除了包含ROI的参考轨道之外不存在提供该ROI的(可能可用或者已知的)视觉轨道。

track_id指定了其内容提供ROI的视觉轨道的识别码。

3区域视频轨道提供单个ROI的发信

3.1介绍

本发明的实施例指定了定时元数据轨道，以用于发信(区域)视觉轨道将一部分提供单个2D ROI。更具体地，定时元数据轨道m′发信参考(区域)视觉轨道v′提供(主)视觉轨道v的ROI，其由ROI识别码id所标识，并且自v′所提供的该部分是用该ROI和该轨道v′本身的2D笛卡尔座标来定义的。

使用视频(而不是更常规的视觉)内容作为示例，(ROI部分)元数据轨道m′可以参考区域视频轨道v′，并承载区域轨道所提供的主视频轨道v中的ROI的识别码roi_id以及用于定义提供该ROI的区域的部分的元数据。如果存在与包含由区域轨道v₁,…,v_n,所提供的ROI的主视觉轨道v关联的ROI元数据轨道m，则区域轨道v′将必须是这些区域轨道中的一个。

考虑到发信包含单个ROI的主视觉轨道的这些，例如，ROI是静态的，提供部分是非时变的，基于优化、改善和变形而获得的更多实施例可以被获得。

3.2样本条目

3.2.1介绍

样本条目类型:‘2dr1’

容器:Sample Description Box(‘stsd’)

必选:否

数量:0或1

2DRoi1SampleEntry指定了参考视觉轨道所提供的ROI的参考笛卡尔座标。

3.2.2语法

3.2.3语义

reference_width和reference_height分别表示参考矩形空间的宽度和高度，其中所有ROI座标(即top_left_x,top_left_y,width和height)被计算。这些数据栏计算允许将ROI元数据轨道与不同解析度的视觉轨道关联，但表示同一视觉源。

3.3样本格式

3.3.1介绍

2DRoi1Sample指定了ROI的识别码、包含该ROI的主视觉轨道的识别码、关联媒体样本将提供的ROI的一部分的位置和尺寸以及该部分在关联媒体样本中的位置。

3.3.2语法

3.3.3语义

roi_id指定了ROI的识别码。其值将相对于参考轨道所包含的任何其他ROI而言是唯一的。

track_id指定了其内容提供ROI的视觉轨道的识别码。

相对于ROI的笛卡尔座标和尺寸(即top_left_x,top_left_y,width和height)，roi_portion_top_left_x和roi_portion_top_left_y分别表示track_id的参考轨道所提供的ROI的矩形部分的左上角的水平座标和垂直座标。

相对于ROI的笛卡尔座标和尺寸(即top_left_x,top_left_y,width和height)，portion_width和portion_height分别表示track_id的轨道的媒体样本的矩形部分的宽度和高度。注意的是，这些可以被可选地定义，用样本条目中所定义的参考座标。还注意的是，假设轨道部分和ROI部分之间不存在缩放。

4区域视频轨道提供多个ROI的发信

4.1介绍

当区域视觉轨道提供多于一个ROI时，在单个定时元数据轨道内将这些ROI一起发信是紧凑且方便的，即使可能使用与同一区域视觉轨道关联的多个定时元数据轨道，一个定时元数据轨道用于每个ROI。

本发明的实施例指定了定时元数据轨道，以用于发信(区域)视觉轨道提供多个2DROI。更具体地，定时元数据轨道m′发信参考(区域)视觉轨道v′提供(主)视觉轨道v的多个ROI，并且每个提供ROI由ROI识别码id所标识，自v′所提供的该部分是用该ROI和该轨道v′本身的2D笛卡尔座标来定义的。

使用视频(而不是更常规的视觉)内容作为示例，元数据轨道m参考主视频轨道v，承载元数据以用于定义k个ROIs，并包括提供k个ROI的区域轨道的k个标识集合，即

4.2样本

4.2.1介绍

样本条目类型:‘2drm’

容器:Sample Description Box(‘stsd’)

必选:否

数量:0或1

2DRoimSampleEntry指定了参考视觉轨道所提供的多个ROI的参考笛卡尔座标。

4.2.2语法

4.2.3语义

4.3样本格式

4.3.1介绍

2DRoimSample指定了关联媒体样本所提供的多个ROI。对于每个提供ROI，其指定了该ROI的识别码、包含该ROI的主视觉轨道的识别码、关联媒体样本将提供的ROI的一部分的位置和尺寸以及该部分在关联媒体样本中的位置。

当关联媒体样本所提供的ROI的数量为0时，意味着不存在该样本所提供的(已知)ROI。

4.3.2语法

4.4语义

num_contributed_rois指定了相关媒体样本用其内容所提供的ROI的数量。

track_id指定了包含该ROI的主视觉轨道的识别码。

在媒体样本本身之内，track_portion_top_left_x和track_portion_top_left_ytrack_portion_top_left_x和track_portion_top_left_y分别表示track_id的提供轨道的媒体样本的矩形部分的左上角的水平座标和垂直座标。

当在硬件中实现时，该硬件可以包括离散元件、集成电路、应用特定集成电路(application-specific integrated circuit，ASIC)等中的一个或多个。

由于已经结合本发明的被提出用作示例的具体实施例描述了本发明的各个方面，可以做出这些示例的替代、修改和变形。因此，此处所说明的实施例用作示意目的，但不用于限制。在不脱离请求项的范围的情况下，可以做出改变。

Claims

1.一种装置，包括：

接口电路，用于接收承载元数据的多个信号，其中该元数据将由第一视觉轨道提供的第一视觉视图中的感兴趣区域与该第一视觉轨道和提供第二视觉视图的第二视觉轨道关联，该第二视觉视图是该第一视觉视图的一部分；以及

处理电路，用于：

解析该元数据；

当该感兴趣区域被选择时，确定该第二视觉轨道以提供视觉数据；以及

基于来自于该第二视觉轨道的该视觉数据，生成该感兴趣区域的多个图像。

2.根据权利要求1所述的装置，其特征在于，该处理电路用于：

透过该接口电路自另一装置请求并接收该第二视觉轨道的该视觉数据。

3.根据权利要求1所述的装置，其特征在于，该接口电路用于接收该元数据的该多个信号，其中该元数据承载将该感兴趣区域与多个第二视觉轨道关联，该多个第二视觉轨道提供相应的该第一视觉视图的多个部分视觉视图。

4.根据权利要求1所述的装置，其特征在于，该接口电路用于接收该元数据的该多个信号，其中该元数据承载将多个感兴趣区域与该第二视觉轨道关联，该第二视觉轨道提供该第二视觉视图；以及

该处理电路用于在该多个感兴趣区域中的一个被选择时确定该第二视觉轨道，以提供该视觉数据。

5.根据权利要求1所述的装置，其特征在于，该接口电路用于接收承载元数据轨道的该多个信号，其中该元数据轨道参考该第一视觉轨道并包括该第二视觉轨道的识别码和该感兴趣区域的识别码。

6.根据权利要求5所述的装置，其特征在于，该接口电路用于接收承载该元数据轨道的该多个信号，其中该元数据轨道包括该第二视觉轨道的识别码和该感兴趣区域的识别码其中该感兴趣区域位于一个样本与多个样本的样本条目至少其中之一中。

7.根据权利要求1所述的装置，其特征在于，该接口电路用于接收承载元数据轨道的该多个信号，其中该元数据轨道参考该第二视觉轨道且包括该第二视觉轨道的识别码和该感兴趣区域的识别码。

8.根据权利要求7所述的装置，其特征在于，该接口电路用于接收承载该元数据轨道的该多个信号，其中该元数据轨道包括位于至少一个样本及多个样本的样本条目中的该第二视觉轨道的识别码和该感兴趣区域的识别码。

9.一种装置，包括：

处理电路，用于：

形成用于第一视觉视图的视觉数据的第一视觉轨道和用于第二视觉视图的视觉数据的第二视觉轨道，其中该第二视觉视图是该第一视觉视图的一部分；

确定将该第一视觉视图中的一感兴趣区域与该第一视觉轨道和该第二视觉轨道关联的元数据；以及

将具有该第一视觉轨道和该第二视觉轨道的该元数据封装到一文件中；以及

存储器电路，用于存储该文件。

10.根据权利要求9所述的装置，其特征在于，该处理电路用于：

接收用于该感兴趣区域的视觉数据的请求；

回应于该请求，基于该元数据，确定该第二视觉轨道；

透过接口电路发送来自于该第二视觉轨道的视觉数据。

11.根据权利要求9所述的装置，其特征在于，该处理电路用于：

确定该元数据，其中该元数据将该感兴趣区域与多个第二视觉轨道关联，该多个第二视觉轨道提供相应的该第一视觉视图的多个部分视觉视图。

12.根据权利要求9所述的装置，其特征在于，该处理电路用于：

确定该元数据，其中该元数据将多个感兴趣区域与该第二视觉轨道关联，该第二视觉轨道提供该第二视觉视图。

13.根据权利要求9所述的装置，其特征在于，该处理电路用于：

形成元数据轨道，其中该元数据轨道参考该第一视觉轨道并包括该第二视觉轨道的识别码和该感兴趣区域的识别码。

14.根据权利要求13所述的装置，其特征在于，该处理电路用于：

形成该元数据轨道，该元数据轨道包括位于至少一个样本及多个样本的样本条目中的该第二视觉轨道的识别码和该感兴趣区域的识别码。

15.根据权利要求9所述的装置，其特征在于，该处理电路用于：

形成元数据轨道，其中该元数据轨道参考该第二视觉轨道且包括该第二视觉轨道的识别码和该感兴趣区域的识别码。

16.根据权利要求15所述的装置，其特征在于，该处理电路用于：

形成该元数据轨道，该元数据轨道包括位于至少一个样本及多个样本的样本条目中的该第二视觉轨道的识别码和该感兴趣区域的识别码的。

17.一种方法，包括：

藉由装置的接口电路接收承载元数据的多个信号，其中该元数据将由第一视觉轨道提供的第一视觉视图中的感兴趣区域与该第一视觉轨道和提供第二视觉视图的第二视觉轨道关联，该第二视觉视图是该第一视觉视图的一部分；

藉由该装置的处理电路解析该元数据；

18.根据权利要求17所述的方法，其特征在于，还包括：

透过该接口电路自另一装置请求该第二视觉轨道的该视觉数据；

透过该接口电路自另一装置接收该第二视觉轨道的该视觉数据。

19.根据权利要求17所述的方法，其特征在于，接收承载该元数据的该多个信号，还包括：

接收承载该元数据的该多个信号，其中该元数据将该感兴趣区域与多个第二视觉轨道关联，该多个第二视觉轨道提供相应的该第一视觉视图的多个部分视觉视图。

20.根据权利要求17所述的方法，其特征在于，接收承载该元数据的该多个信号，还包括：

接收承载该元数据的该多个信号，其中该元数据将多个感兴趣区域与该第二视觉轨道关联，该第二视觉轨道提供该第二视觉视图。