CN110832878A

CN110832878A - 增强区域取向包封及视区独立高效视频译码媒体配置文件

Info

Publication number: CN110832878A
Application number: CN201880044866.9A
Authority: CN
Inventors: 王业奎; 托马斯·斯托克哈默
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2017-07-10
Filing date: 2018-07-10
Publication date: 2020-02-21
Anticipated expiration: 2038-07-10
Also published as: CN110832878B; AU2018299989A1; TW201909647A; EP3652957A1; WO2019014216A1; SG11201911245YA; BR112020000105A2; US20190014362A1; KR20200024168A; KR102654999B1

Abstract

本发明提供一种用于处理媒体内容的装置，其可经配置以：从视频文件内的区域取向包封框获得指示媒体内容的第一经包封区域的第一大小及第一位置的第一值集合，及指示所述媒体内容的第二经包封区域的第二大小及第二位置的第二值集合，其中所述第一值集合及所述第二值集合呈解包封的左上角明度样本的相对单位；解包封所述第一经包封区域以产生第一解包封区域；从所述第一解包封区域形成第一经投影区域；解包封所述第二经包封区域以产生第二解包封区域；及从所述第二解包封区域形成第二经投影区域，所述第二经投影区域不同于所述第一经投影区域。

Description

增强区域取向包封及视区独立高效视频译码媒体配置文件

本申请要求以下项的权益：

2018年7月9日提交的美国专利申请第16/030,585号，

2017年7月10日提交的美国临时申请第62/530,525号，及

2017年7月14日提交的美国临时申请第62/532,698号，

所述申请中的每一个的全部内容在此以引用的方式并入。

技术领域

本发明涉及经编码视频数据的存储及传送。

背景技术

数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、数字摄影机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置等。数字视频装置实施视频压缩技术，例如描述于由MPEG-2、MPEG-4、ITU-T H.263或ITU-TH.264/MPEG-4、第10部分、高级视频译码(AVC)、ITU-T H.265(也称为高效视频译码(HEVC))及此类标准的扩展所定义的标准中的那些技术，以更高效地发射且接收数字视频信息。

在已编码视频数据之后，可将视频数据包化以用于发射或存储。可将视频数据组译成符合多种标准中的任一个的视频文件，所述标准例如国际标准化组织(ISO)基本媒体文件格式及其扩展，例如AVC。

发明内容

大体来说，本发明描述相关于处理媒体数据，且更具体来说相关于区域取向包封的技术。

根据一个实例，一种处理媒体内容的方法包含：从视频文件内的区域取向包封框获得指示媒体内容的第一经包封区域的第一大小及第一位置的第一值集合，及指示媒体内容的第二经包封区域的第二大小及第二位置的第二值集合，其中第一值集合及第二值集合呈包括第一经包封区域及第二经包封区域的解包封图片的左上角明度样本的相对单位；解包封第一经包封区域以产生第一解包封区域；从第一解包封区域形成第一经投影区域；解包封第二经包封区域以产生第二解包封区域；及从第二解包封区域形成第二经投影区域，第二经投影区域不同于第一经投影区域。

根据另一实例，一种用于处理媒体内容的装置包含：经配置以存储媒体内容的存储器；及实施于电路中且经配置以进行以下操作的一或多个处理器：从视频文件内的区域取向包封框获得指示媒体内容的第一经包封区域的第一大小及第一位置的第一值集合，及指示媒体内容的第二经包封区域的第二大小及第二位置的第二值集合，其中第一值集合及第二值集合呈包括第一经包封区域及第二经包封区域的解包封图片的左上角明度样本的相对单位；解包封第一经包封区域以产生第一解包封区域；从第一解包封区域形成第一经投影区域；解包封第二经包封区域以产生第二解包封区域；及从第二解包封区域形成第二经投影区域，第二经投影区域不同于第一经投影区域。

根据另一实例，一种上面存储有指令的计算机可读存储媒体，所述指令当经执行时致使处理器：从视频文件内的区域取向包封框获得指示媒体内容的第一经包封区域的第一大小及第一位置的第一值集合，及指示媒体内容的第二经包封区域的第二大小及第二位置的第二值集合，其中第一值集合及第二值集合呈包括第一经包封区域及第二经包封区域的解包封图片的左上角明度样本的相对单位；解包封第一经包封区域以产生第一解包封区域；从第一解包封区域形成第一经投影区域；解包封第二经包封区域以产生第二解包封区域；及从第二解包封区域形成第二经投影区域，第二经投影区域不同于第一经投影区域。

根据另一实例，一种用于处理媒体的装置包含：用于从视频文件内的区域取向包封框获得指示媒体内容的第一经包封区域的第一大小及第一位置的第一值集合，及指示媒体内容的第二经包封区域的第二大小及第二位置的第二值集合的装置，其中第一值集合及第二值集合呈包括第一经包封区域及第二经包封区域的解包封图片的左上角明度样本的相对单位；用于解包封第一经包封区域以产生第一解包封区域的装置；用于从第一解包封区域形成第一经投影区域的装置；用于解包封第二经包封区域以产生第二解包封区域的装置；及用于从第二解包封区域形成第二经投影区域的装置，第二经投影区域不同于第一经投影区域。

在下文附图及实施方式中阐述一或多个实例的细节。其它特征、目标及优点将从实施方式及图式以及权利要求书而显而易见。

附图说明

图1为说明实施用于经由网络来流式传输媒体数据的技术的实例系统的框图。

图2为说明捕获单元的实例组件集合的框图。

图3为说明用于全向媒体格式(OMAF)的区域取向包封(RWP)的两个实例的概念图。

图4为说明实例多媒体内容的元素的概念图。

图5为说明实例视频文件的元素的框图。

图6为说明根据本发明的技术的接收并处理视频数据的实例方法的流程图。

具体实施方式

本发明的技术可应用于符合根据ISO基本媒体文件格式(ISOBMFF)、对ISOBMFF的扩展、可调式视频译码(SVC)文件格式、高级视频译码(AVC)文件格式、高效视频译码(HEVC)文件格式、第三代合作伙伴计划(3GPP)文件格式，及/或多视图视频译码(MVC)文件格式或其它视频文件格式中的任一个囊封的视频数据的视频文件。ISO BMFF的草案指定于ISO/IEC 14496-12(可从phenix.int-evry.fr/mpeg/doc_end_user/documents/111_Geneva/wg11/w15177-v6-w15177.zip获得)中。另一实例文件格式，MPEG-4文件格式的草案指定于ISO/IEC 14496-15(可从wg11.sc29.org/doc_end_user/documents/115_Geneva/wg11/w16169-v2-w16169.zip获得)中。

ISOBMFF用作许多编解码器囊封格式(例如AVC文件格式)以及用于许多多媒体容器格式(例如MPEG-4文件格式、3GPP文件格式(3GP)及数字视频广播(DVB)文件格式)的基础。

除例如音频及视频的连续媒体之外，例如图像的静态媒体以及元数据可存储于符合ISOBMFF的文件中。根据ISOBMFF结构化的文件可用于许多用途，包含本地媒体文件播放、远程文件的渐进下载、用于HTTP动态自适应流式传输(DASH)的区段、用于待流式传输的内容及其包化指令的容器，及接收的实时媒体流的记录。

框为ISOBMFF中的基本语法结构，包含四字符译码框类型、框的字节计数及有效负载。ISOBMFF文件包含一序列框，且框可含有其它框。根据ISOBMFF，电影框(“moov”)含有存在于文件中的连续媒体流的元数据，每一连续媒体流在文件中表示为轨道。依据ISOBMFF，将用于轨道的元数据围封于轨道框(“trak”)中，而将轨道的媒体内容围封于媒体数据框(“mdat”)中或直接提供于单独文件中。用于轨道的媒体内容包含一序列样本，例如音频或视频存取单元。

ISOBMFF指定以下类型的轨道：媒体轨道，其含有基本媒体流；提示轨道，其包含媒体发射指令或表示接收的包流；及计时元数据轨道，其包括时间同步的元数据。

尽管最初设计成用于存储，但ISOBMFF已证明对于流式传输(例如，用于渐进下载或DASH)极有价值。为了流式传输目的，可使用在ISOBMFF中定义的电影片段。

每一轨道的元数据包含样本描述项的列表，每一项提供在轨道中使用的译码或囊封格式及处理所述格式需要的初始化数据。每一样本与轨道的样本描述项中的一个相关联。

ISOBMFF实现通过各种机制指定的样本特定元数据。样本表框(“stbl”)内的特定框已标准化为响应于普通需求。举例来说，同步样本框(“stss”)用以列举轨道的随机存取样本。样本分组机制实现根据四字符分组类型将样本映射成共享指定为文件中的样本群组描述项的同一性质的样本群组。已在ISOBMFF中指定若干分组类型。

虚拟实境(VR)为虚拟地存在于通过再现自然及/或合成图像及与沉浸用户的移动相关的声音而创建的虚拟非物理世界中的能力，从而允许与虚拟世界交互。在再现装置中的最新进展(例如头戴式显示器(HMD))及VR视频(常常也称作360度视频)创建的情况下，可提供显著体验质量。VR应用包含游戏、训练、教育、运动视频、线上购物、娱乐等。

典型的VR系统包含以下组件且执行以下步骤：

1)摄影机套件，其通常包含在不同方向上指向，理想地共同覆盖围绕所述摄影机套件的所有视点的多个个别摄影机。

2)图像拼接，其中通过多个个别摄影机拍摄的视频图片在时域中经同步并在空间域中经拼接，以形成球体视频，但映射到矩形格式，例如等矩形(如世界地图)或立方体映射。

3)使用视频编解码器(例如，H.265/HEVC或H.264/AVC)来编码/压缩呈映射矩形格式的视频。

4)经压缩视频位流可以媒体格式存储及/或囊封，并通过网络发射(可能仅覆盖用户看到的区域(有时被称作视区的子集)到接收装置(例如，客户端装置)。

5)接收装置接收可能以文件格式囊封的视频位流或其部分，并将经解码视频信号或其部分发送到再现装置(其可包含在与接收装置相同的客户端装置中)。

6)再现装置可为例如头戴式显示器(HMD)，其可跟踪头部移动，且可甚至跟踪眼部移动，且可再现视频的对应部分，以使得沉浸式体验被递送到用户。

全向媒体格式(OMAF)为由动画专家组(MPEG)开发以定义实现全向媒体应用的媒体格式，其聚焦于具有360度视频及相关联音频的VR应用。OMAF指定可用于将球体或360度视频转换成二维矩形视频的投影方法，继而如何使用ISO基本媒体文件格式(ISOBMFF)存储全向媒体及相关联元数据，及如何使用HTTP动态自适应流式传输(DASH)囊封、传信及流式传输全向媒体，及最终哪些视频及音频编解码器以及媒体译码配置可用于压缩及播放全向媒体信号的列表。OMAF将成为ISO/IEC 23090-2，且草案规范可从wg11.sc29.org/doc_end_user/documents/119_Torino/wg11/m40849-v1-m40849_OMAF_text_Berlin_output.zip获得。

在例如DASH的HTTP流式传输协议中，频繁使用的操作包含HEAD、GET及部分GET。HEAD操作捕获与给定的统一资源定位符(URL)或统一资源名称(URN)相关联的文件的标头，但不捕获与URL或URN相关联的有效负载。GET操作捕获与给定URL或URN相关联的整个文件。部分GET操作接收字节范围作为输入参数且捕获文件的连续数目个字节，其中字节的数目对应于所接收字节范围。因此，可提供电影片段以用于HTTP流式传输，这是因为部分GET操作能够得到一或多个个别电影片段。在电影片段中，可能存在不同轨道的若干轨道片段。在HTTP流式传输中，媒体呈现可为客户端可存取的数据的结构化集合。客户端可请求且下载媒体数据信息以向用户呈现流式传输服务。

DASH指定于ISO/IEC 23009-1中，且为用于HTTP(自适应)流式传输应用的标准。ISO/IEC 23009-1主要指定媒体呈现描述(MPD)的格式(也称为信息列表或信息列表文件)及媒体区段格式。MPD描述可在服务器上获得的媒体且允许DASH客户端在适当媒体时间处自主地下载适当媒体版本。

在使用HTTP流式传输来流式传输3GPP数据的实例中，可能存在多媒体内容的视频及/或音频数据的多个表示。如下文所解释，不同表示可对应于不同译码特性(例如，视频译码标准的不同配置文件或层级)、不同译码标准或译码标准的扩展(例如多视图及/或可调式扩展)或不同位速率。此些表示的信息列表可在媒体呈现描述(MPD)数据结构中定义。媒体呈现可对应于HTTP流式传输客户端装置可存取的数据的结构化集合。HTTP流式传输客户端装置可请求且下载媒体数据信息以向客户端装置的用户呈现流式传输服务。媒体呈现可在MPD数据结构中描述，MPD数据结构可包含MPD的更新。

媒体呈现可含有一或多个周期的序列。每一周期可延长，直到下一周期开始为止，或在最后一个周期的状况下，直到媒体呈现结束为止。每一周期可含有同一媒体内容的一或多个表示。表示可为音频、视频、计时文本或其它此类数据的数个替代性经编码版本中的一个。表示可因编码类型而异(例如，对于视频数据，因位速率、分辨率及/或编解码器而异，及对于音频数据，因位速率、语言及/或编解码器而异)。术语表示可用以指代经编码音频或视频数据的对应于多媒体内容的特定周期且以特定方式编码的部分。

特定周期的表示可指派到由MPD中的属性(其指示表示所属的调适集)指示的群组。同一调适集中的表示通常被视为彼此的替代例，这是因为客户端装置可在此些表示之间动态且顺畅地切换，以例如执行带宽调适。举例来说，特定周期的视频数据的每一表示可指派到同一调适集，使得可选择所述表示中的任一个进行解码以呈现对应周期的多媒体内容的媒体数据(例如视频数据或音频数据)。在一些实例中，一个周期内的媒体内容可由来自群组0(如果存在)的一个表示来表示，或由来自每一非零群组的至多一个表示的组合来表示。周期的每一表示的时序数据可相对于所述周期的开始时间来表达。

表示可包含一或多个区段。每一表示可包含初始化区段，或表示的每一区段可自初始化。当存在时，初始化区段可含有用于存取表示的初始化信息。大体来说，初始化区段不含有媒体数据。区段可由识别符唯一地参考，例如统一资源定位符(URL)、统一资源名称(URN)或统一资源识别符(URI)。MPD可为每一区段提供识别符。在一些实例中，MPD也可提供呈范围属性的形式的字节范围，所述范围属性可对应于可由URL、URN或URI存取的文件内的区段的数据。

可选择不同表示以用于大体上同时捕获不同类型的媒体数据。举例来说，客户端装置可选择音频表示、视频表示及计时文本表示，从所述表示捕获区段。在一些实例中，客户端装置可选择特定调适集以用于执行带宽调适。也就是说，客户端装置可选择包含视频表示的调适集、包含音频表示的调适集及/或包含计时文本的调适集。替代地，客户端装置可选择用于某些类型的媒体(例如，视频)的调适集，并直接选择用于其它类型的媒体(例如，音频及/或计时文本)的表示。

用于基于DASH的HTTP流式传输的典型程序包含以下步骤：

1)DASH客户端获得流式传输内容(例如，电影)的MPD。MPD包含关于流式传输内容的不同替代表示的信息(例如，位速率、视频分辨率、帧速率、音频语言)，以及HTTP资源的URL(初始化区段及媒体区段)。

2)基于MPD中的信息及可供DASH客户端使用的本地信息，例如网络带宽、解码/显示能力及用户偏好，DASH客户端请求所要的表示，每次一个区段(或其部分)。

3)当DASH客户端检测到网络带宽改变时，其请求具有较好匹配位速率的不同表示的区段，理想地从以随机存取点开始的区段开始。

在HTTP流式传输“会话”期间，为对用户请求作出响应以反向搜索过去位置或正向搜索未来位置，DASH客户端请求从接近所要位置且理想地开始于随机存取点的区段开始的过去或未来区段。用户也可请求快速转递内容，此可通过请求仅足够用于解码经帧内译码视频图片或仅足够用于解码视频流的暂态子集的数据实现。

DASH规范的章节5.3.3.1如下描述预选：

预选的概念主要是出于下一代音频(NGA)编解码器的目的加以推动，以便传信在不同调适集中提供的音频元素的合适组合。然而，预选概念以一般方式引入，使得其可扩展且也用于其它媒体类型及编解码器。

每一预选都与集束相关联。集束为可由单个解码器执行个体联合耗用的元素集合。元素为集束的可寻址且可分离分量，且可由应用程序直接地或间接地通过使用预选而动态地选择或取消选择。元素通过一对一映射或通过在单个调适集中包含多个元素而经映射到调适集。此外，一个调适集中的表示可含有在基本流层级或文件容器层级上经多工的多个元素。在多工状况下，每一元素经映射到如在DASH章节5.3.4中所定义的媒体内容分量。集束中的每一元素因此由媒体内容分量的@id识别及参考，或如果调适集中仅含有单个元素，那么由调适集的@id识别及参考。

每一集束包含含有解码器特定信息且引导解码器的主要元素。含有主要元素的调适集被称为主要调适集。主要元素应始终包含在与集束相关联的任何预选中。另外，每一集束可包含一或多个部分调适集。部分调适集可仅结合主要调适集加以处理。

预选定义集束中预期联合耗用的元素子集。预选由朝向解码器的唯一标签来识别。多个预选执行个体可参考集束中的同一流集合。仅同一集束的元素可有助于解码及再现预选。

在下一代音频的状况下，预选为个性化选择，其与来自多于一个额外参数(如增益、空间位置)的一或多个音频元素相关联以产生完整的音频体验。预选可被视为使用传统音频编解码器的含有完整混音的替代音频轨道的NGA等效物。

集束、预选、主要元素、主要调适集及部分调适集可由以下两种方式中的一种定义：

●预选描述符定义于DASH章节5.3.11.2中。此描述符实现简单设置及回溯相容性，但可能不适于高级使用状况。

●如DASH章节5.3.11.3及5.3.11.4中所定义的预选元素。预选元素的语义提供于DASH章节5.3.11.3中的表格17c中，XML语法提供于DASH章节5.3.11.4中。

以下提供所引入概念使用两种方法的实例化。

在两种状况下，如果调适集并不包含主要调适集，那么基本描述符应连同如DASH章节5.3.11.2中所定义的@schemeIdURI一起使用。

DASH规范也如下描述预选描述符：

方案定义为与基本描述符一起用作“urn:mpeg:dash:preselection:2016”。描述符的值提供由逗号分离的两个字段：

●预选的标签

●作为处理次序中的白色空间分离列表的此预选列表的所含有元素/内容分量的id。第一id定义主要元素。

如果调适集包含主要元素，那么辅助描述符可用于描述调适集中的所含有预选。

如果调适集不含有主要元素，那么应使用基本描述符。

集束本质上由包含在包含相同主要元素的所有预选中的所有元素定义。预选由指派到包含在预选中的元素中的每一个的元数据定义。应注意，此传信对于基本使用状况可能为简单的，但预期不提供对所有使用状况的全覆盖。因此，在DASH章节5.3.11.3中引入预选元素以覆盖较多高级使用状况。

DASH规范也如下描述预选元素的语义：

作为预选描述符的扩展，预选也可通过如表格17d中所提供的预选元素来定义。对预选的选择是基于预选元素中的所含有属性及元素。

DASH的表格17d-预选元素的语义

关于帧包封，DASH的章节5.8.4.6如下指定预选：

对于元素FramePacking，@schemeIdUri属性用于识别所采用的帧包封配置方案。

可存在多个FramePacking元素。如果如此，那么每一元素应含有足够信息以选择或拒绝所描述表示。

注意如果未辨识方案或所有FramePacking元素的值，那么DASH客户端预期忽略所描述表示。客户端可基于观察到FramePacking元素而拒绝调适集。

描述符可使用URN标记及ISO/IEC 23001-8中针对VideoFramePackingType定义的值来携载帧包封方案。

注意：ISO/IEC 23009的此部分也定义DASH章节5.8.5.6中的帧包封方案。维持此些方案以实现回溯相容性，但建议使用如ISO/IEC 23001-8中所定义的传信。

可根据多种视频译码标准编码视频数据。此类视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IECMPEG-4 Visual、ITU-T H.264或ISO/IEC MPEG-4 AVC，包含其可调式视频译码(SVC)及多视图视频译码(MVC)扩展，及高效视频译码(HEVC)，也被称作ITU-T H.265及ISO/IEC 23008-2，包含其可调式译码扩展(即，可调式高效视频译码，SHVC)及多视图扩展(即，多视图高效视频译码，MV-HEVC)。

图1为说明实施用于经由网络流式传输媒体数据的技术的实例系统10的框图。在此实例中，系统10包含内容准备装置20、服务器装置60及客户端装置40。客户端装置40及服务器装置60由网络74以通信方式耦合，所述网络可包括因特网。在一些实例中，内容准备装置20与服务器装置60也可由网络74或另一网络耦合，或可直接以通信方式耦合。在一些实例中，内容准备装置20及服务器装置60可包括相同装置。

在图1的实例中，内容准备装置20包括音频源22及视频源24。音频源22可包括(例如)麦克风，其产生表示待由音频编码器26编码的所捕获音频数据的电信号。替代地，音频源22可包括存储先前记录的音频数据的存储媒体、例如计算机化的合成器的音频数据生成器，或任何其它音频数据源。视频源24可包括产生待由视频编码器28编码的视频数据的摄像机、编码有先前记录的视频数据的存储媒体、例如计算机图形源的视频数据生成单元，或任何其它视频数据源。内容准备装置20未必在所有实例中均以通信方式耦合到服务器装置60，但可将多媒体内容存储到由服务器装置60读取的单独媒体。

原始音频及视频数据可包括模拟或数字数据。模拟数据在由音频编码器26及/或视频编码器28编码之前可被数字化。音频源22可在说话参与者正在说话时从说话参与者获得音频数据，且视频源24可同时获得说话参与者的视频数据。在其它实例中，音频源22可包括包括所存储的音频数据的计算机可读存储媒体，且视频源24可包括包括所存储的视频数据的计算机可读存储媒体。以此方式，本发明中所描述的技术可应用于实况、流式传输、实时音频及视频数据或所存档的、预先记录的音频及视频数据。

对应于视频帧的音频帧通常为含有由音频源22捕获(或生成)的音频数据的音频帧，音频数据同时伴随含于视频帧内的由视频源24捕获(或生成)的视频数据。举例来说，在说话参与者通常通过说话而产生音频数据时，音频源22捕获音频数据，且视频源24同时(即，在音频源22正捕获音频数据时)捕获说话参与者的视频数据。因此，音频帧在时间上可对应于一或多个特定视频帧。因此，对应于视频帧的音频帧通常对应于同时捕获到音频数据及视频数据，且音频帧及视频帧分别包括同时捕获到的音频数据及视频数据的情形。

在一些实例中，音频编码器26可对每一经编码音频帧中表示记录经编码音频帧的音频数据的时间的时间戳进行编码，且类似地，视频编码器28可对每一经编码视频帧中表示记录经编码视频帧的视频数据的时间的时间戳进行编码。在此类实例中，对应于视频帧的音频帧可包括：包括时间戳的音频帧及包括同一时间戳的视频帧。内容准备装置20可包含内部时钟，音频编码器26及/或视频编码器28可根据所述内部时钟生成时间戳，或音频源22及视频源24可使用所述内部时钟以分别使音频数据及视频数据与时间戳相关联。

在一些实例中，音频源22可向音频编码器26发送对应于记录音频数据的时间的数据，且视频源24可向视频编码器28发送对应于记录视频数据的时间的数据。在一些实例中，音频编码器26可对经编码音频数据中的序列识别符进行编码以指示经编码音频数据的相对时间排序，但未必指示记录音频数据的绝对时间，且类似地，视频编码器28也可使用序列识别符来指示经编码视频数据的相对时间排序。类似地，在一些实例中，序列识别符可映射或以其它方式与时间戳相关。

音频编码器26通常产生经编码音频数据流，而视频编码器28产生经编码视频数据流。每一个别数据流(不论音频或视频)可被称为基本流。基本流为表示的单个经数字译码(可能经压缩)的分量。举例来说，表示的经译码视频或音频部分可为基本流。基本流可在被囊封于视频文件内之前被转换成包化基本流(PES)。在同一表示内，可使用流ID来区分属于一个基本流的PES包与属于其它基本流的PES包。基本流的数据的基本单元为包化基本流(PES)包。因此，经译码视频数据通常对应于基本视频流。类似地，音频数据对应于一或多个相应基本流。

内容准备装置20可使用视频源24例如通过捕获及/或生成(例如再现)球体视频数据而获得球体视频数据。球体视频数据也可被称为经投影视频数据。为易于编码、处理及传送，内容准备装置20可从经投影视频数据(或球体视频数据)形成经包封视频数据。下文图3中显示实例。内容准备装置20可以上文所描述的方式生成定义各种包封区域的位置及大小的区域取向包封框(RWPB)。

许多视频译码标准(例如ITU-T H.264/AVC及即将来临的高效视频译码(HEVC)标准)定义无误差位流的语法、语义及解码程序，所述无误差位流中的任一个符合特定配置文件或层级。视频译码标准通常并不指定编码器，但编码器具有保证所生成的位流对于解码器来说是标准相容的任务。在视频译码标准的上下文中，“配置文件”对应于算法、特征或工具及施加到算法、特征或工具的约束的子集。如由例如H.264标准所定义，“配置文件”为由H.264标准指定的完整位流语法的子集。“层级”对应于解码器资源消耗(例如解码器存储器及计算)的限制，所述限制相关于图片分辨率、位速率及块处理速率。配置文件可用profile_idc(配置文件指示符)值传信，而层级可用level_idc(层级指示符)值传信。

举例来说，H.264标准认识到，在由给定配置文件的语法所强加的界限内，仍然可能要求编码器及解码器的性能有较大变化，此取决于位流中的语法元素(例如，经解码图片的指定大小)所取的值。H.264标准进一步认识到，在许多应用中，实施能够处理特定配置文件内的语法的所有假设使用的解码器既不实际又不经济。因此，H.264标准将“层级”定义为强加在位流中的语法元素的值上的指定约束集合。此些约束可为对值的简单限制。替代地，此些约束可呈对值的算术组合(例如，图片宽度乘以图片高度乘以每秒解码的图片数目)的约束的形式。H.264标准进一步规定，个别实施对于每一所支持配置文件可支持不同层级。

符合配置文件的解码器一般支持配置文件中所定义的所有特征。举例来说，作为译码特征，B图片译码在H.264/AVC的基线配置文件中不被支持，但在H.264/AVC的其它配置文件中被支持。符合层级的解码器应能够对不需要超出所述层级中所定义的限制的资源的任何位流进行解码。配置文件及层级的定义可对可解释性有帮助。举例来说，在视频发射期间，可针对整个发射工作阶段协商及同意一对配置文件定义及层级定义。更具体来说，在H.264/AVC中，层级可定义对需要处理的宏块数目、经解码图片缓冲器(DPB)大小、经译码图片缓冲器(CPB)大小、垂直运动向量范围、每两个连续MB的运动向量的最大数目及B块是否可具有小于8x8像素的子宏块分区的限制。以此方式，解码器可确定解码器是否能够适当地解码位流。

在图1的实例中，内容准备装置20的囊封单元30从视频编码器28接收包括经译码视频数据的基本流，且从音频编码器26接收包括经译码音频数据的基本流。在一些实例中，视频编码器28及音频编码器26可各自包含用于从经编码数据形成PES包的包化器。在其它实例中，视频编码器28及音频编码器26可各自与用于从经编码数据形成PES包的相应包化器介接。在又其它实例中，囊封单元30可包含用于从经编码音频及视频数据形成PES包的包化器。

视频编码器28可以多种方式编码多媒体内容的视频数据，从而以各种位速率且以各种特性产生多媒体内容的不同表示，所述特性例如像素分辨率、帧速率、对各种译码标准的符合性、对各种译码标准的各种配置文件及/或配置文件层级的符合性、具有一或多个视图的表示(例如，对于二维或三维播放)或其它此类特性。如本发明中所使用，表示可包括音频数据、视频数据、文本数据(例如，用于封闭字幕)或其它此类数据中的一个。表示可包含例如音频基本流或视频基本流的基本流。每一PES包可包含stream_id，所述stream_id识别PES包所属的基本流。囊封单元30负责将基本流汇编成各种表示的视频文件(例如，区段)。

囊封单元30从音频编码器26及视频编码器28接收表示的基本流的PES包，并从PES包形成对应的网络抽象层(NAL)单元。经译码视频区段可经组织成NAL单元，其提供“网络友好”视频表示寻址应用程序，例如视频电话、存储器、广播或流式传输。NAL单元可分类为视频译码层(VCL)NAL单元及非VCL NAL单元。VCL单元可含有核心压缩引擎，且可包含块、宏块及/或切片层级数据。其它NAL单元可为非VCL NAL单元。在一些实例中，一个时间执行个体中的经译码图片(通常呈现为初级经译码图片)可含于存取单元中，所述存取单元可包含一或多个NAL单元。

非VCL NAL单元可尤其包含参数集NAL单元及SEI NAL单元。参数集可含有序列层级标头信息(在序列参数集(SPS)中)及不频繁改变的图片层级标头信息(在图片参数集(PPS)中)。对于参数集(例如，PPS及SPS)，不频繁改变的信息不需要关于每一序列或图片重复，因此可改进译码效率。此外，使用参数集可实现重要标头信息的带外发射，从而避免对抗误码的冗余发射的需要。在带外发射实例中，参数集NAL单元可在与其它NAL单元(例如，SEI NAL单元)不同的信道上发射。

补充增强信息(SEI)可含有对于解码来自VCL NAL单元的经译码图片样本并非必需，但可辅助与解码、显示、抗误码及其它目的相关的程序的信息。SEI消息可含于非VCLNAL单元中。SEI消息为一些标准规范的标准化部分，且因此对于标准相容的解码器实施并非始终是强制的。SEI消息可为序列层级SEI消息或图片层级SEI消息。某一序列层级信息可含于SEI消息中，例如SVC的实例中的可调性信息SEI消息，及MVC中的视图可调性信息SEI消息。此些实例SEI消息可传达关于(例如)操作点的提取及操作点的特性的信息。另外，囊封单元30可形成信息列表文件，例如描述表示的特性的媒体呈现描述符(MPD)。囊封单元30可根据可扩展标示语言(XML)来格式化MPD。

囊封单元30可向输出接口32提供多媒体内容的一或多个表示的数据连同信息列表文件(例如，MPD)。输出接口32可包括网络接口或用于对存储媒体进行写入的接口，例如通用串行总线(USB)接口、CD或DVD写入器或烧录器、到磁性或快闪存储媒体的接口，或用于存储或发射媒体数据的其它接口。囊封单元30可向输出接口32提供多媒体内容的表示中的每一个的数据，所述输出接口可经由网络发射或存储媒体向服务器装置60发送数据。在图1的实例中，服务器装置60包含存储各种多媒体内容64的存储媒体62，每一多媒体内容包含相应信息列表文件66及一或多个表示68A到68N(表示68)。在一些实例中，输出接口32也可将数据直接发送到网络74。

在一些实例中，表示68可被分成调适集。也就是说，表示68的各种子集可包含相应共同特性集合，例如编解码器、配置文件及层级、分辨率、视图数目、区段的文件格式、可识别待与待解码及呈现的表示及/或音频数据(例如，由扬声器发出)一起显示的文本的语言或其它特性的文本类型信息、可描述调适集中的表示的场景的摄影机角度或真实世界摄影机视角的摄影机角度信息、描述对于特定观众的内容适合性的分级信息等。

信息列表文件66可包含指示对应于特定调适集的表示68的子集，以及所述调适集的共同特性的数据。信息列表文件66也可包含表示调适集的个别表示的个别特性(例如位速率)的数据。以此方式，调适集可提供简化的网络带宽调适。调适集中的表示可使用信息列表文件66的调适集元素的子代元素来指示。

服务器装置60包含请求处理单元70及网络接口72。在一些实例中，服务器装置60可包含多个网络接口。此外，服务器装置60的特征中的任一个或全部可在内容递送网络的其它装置(例如路由器、桥接器、代理装置、交换器或其它装置)上实施。在一些实例中，内容递送网络的中间装置可高速缓存多媒体内容64的数据，且包含大体上符合服务器装置60的那些组件的组件。大体来说，网络接口72经配置以经由网络74来发送及接收数据。

请求处理单元70经配置以从客户端装置(例如客户端装置40)接收对存储媒体62的数据的网络请求。举例来说，请求处理单元70可实施超文本传送协议(HTTP)版本1.1，如RFC 2616中R.菲尔丁等人于1999年6月在网络工作组，IETF的“超文本传送协议-HTTP/1.1(Hypertext Transfer Protocol-HTTP/1.1)”中所描述。也就是说，请求处理单元70可经配置以接收HTTP GET或部分GET请求，并响应于请求而提供多媒体内容64的数据。请求可指定表示68中的一个的区段，例如使用区段的URL。在一些实例中，请求也可指定区段的一或多个字节范围，从而因此包括部分GET请求。请求处理单元70可经进一步配置以服务于HTTPHEAD请求，以提供表示68中的一个的区段的标头数据。在任何状况下，请求处理单元70可经配置以处理请求，以向请求装置(例如客户端装置40)提供所请求的数据。

另外或替代地，请求处理单元70可经配置以经由例如eMBMS的广播或多播协议而递送媒体数据。内容准备装置20可以与所描述大体上相同的方式创建DASH区段及/或子区段，但服务器装置60可使用eMBMS或另一广播或多播网络传送协议来递送此些区段或子区段。举例来说，请求处理单元70可经配置以从客户端装置40接收多播群组加入请求。也就是说，服务器装置60可向与特定媒体内容(例如，实况事件的广播)相关联的客户端装置(包含客户端装置40)通告与多播群组相关联的因特网协议(IP)地址。客户端装置40继而可提交加入多播群组的请求。此请求可遍及网络74(例如，构成网络74的路由器)传播，使得促使路由器将去往与多播群组相关的IP地址的业务导向到订用的客户端装置(例如客户端装置40)。

如图1的实例中所说明，多媒体内容64包含信息列表文件66，其可对应于媒体呈现描述(MPD)。信息列表文件66可含有不同替代表示68(例如，具有不同质量的视频服务)的描述，且所述描述可包含(例如)编解码器信息、配置文件值、层级值、位速率及表示68的其它描述性特性。客户端装置40可捕获媒体呈现的MPD以确定如何存取表示68的区段。

特定来说，捕获单元52可捕获客户端装置40的配置数据(未显示)，以确定视频解码器48的解码能力及视频输出44的再现能力。配置数据也可包含由客户端装置40的用户选择的语言偏好中的任一个或全部、对应于由客户端装置40的用户设定的深度偏好的一或多个摄影机视角，及/或由客户端装置40的用户选择的分级偏好。举例来说，捕获单元52可包括网页浏览器或媒体客户端，其经配置以提交HTTP GET及部分GET请求。捕获单元52可对应于由客户端装置40的一或多个处理器或处理单元(未显示)执行的软件指令。在一些实例中，关于捕获单元52所描述的功能性的全部或部分可在硬件或硬件、软件及/或固件的组合中实施，其中可提供必需的硬件以执行软件或固件的指令。

捕获单元52可将客户端装置40的解码及再现能力与由信息列表文件66的信息所指示的表示68的特性进行比较。捕获单元52可最初捕获信息列表文件66的至少一部分以确定表示68的特性。举例来说，捕获单元52可请求描述一或多个调适集的特性的信息列表文件66的一部分。捕获单元52可选择具有可通过客户端装置40的译码及再现能力满足的特性的表示68(例如，调适集)的子集。捕获单元52可接着确定用于调适集中的表示的位速率，确定网络带宽的当前可用量，并从具有网络带宽可满足的位速率的表示中的一个捕获区段。

大体来说，较高位速率表示可产生较高质量的视频播放，而较低位速率表示可在可用网络带宽减少时提供足够质量的视频播放。因此，在可用网络带宽相对高时，捕获单元52可从相对高位速率的表示捕获数据，而在可用网络带宽较低时，捕获单元52可从相对低位速率的表示捕获数据。以此方式，客户端装置40可经由网络74流式传输多媒体数据，同时还适应网络74的改变的网络带宽可用性。

另外或替代地，捕获单元52可经配置以根据例如eMBMS或IP多播的广播或多播网络协议来接收数据。在此类实例中，捕获单元52可提交加入与特定媒体内容相关联的多播网络群组的请求。在加入多播群组之后，捕获单元52可在另外请求未发布到服务器装置60或内容准备装置20的情况下接收多播群组的数据。当不再需要多播群组的数据时，捕获单元52可提交离开多播群组的请求，以例如停止播放或将信道改变到不同多播群组。

网络接口54可接收经选定表示的区段的数据且将所述数据提供到捕获单元52，所述捕获单元继而可将区段提供到解囊封单元50。解囊封单元50可将视频文件的元素解囊封成构成性PES流，解包化PES流以捕获经编码数据，且取决于经编码数据为音频流还是视频流的部分(例如，如由流的PES包标头所指示)而将经编码数据发送到音频解码器46或视频解码器48。音频解码器46解码经编码音频数据，且将经解码音频数据发送到音频输出42，而视频解码器48解码经编码视频数据，且将经解码视频数据发送到视频输出44，经解码视频数据可包含流的多个视图。

视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封单元30、捕获单元52及解囊封单元50各自可实施为适用的多种合适处理电路中的任一个，例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器28及视频解码器48中的每一个可包含于一或多个编码器或解码器中，编码器或解码器中的任一个可集成为组合式视频编码器/解码器(CODEC)的部分。同样地，音频编码器26及音频解码器46中的每一个可包含于一或多个编码器或解码器中，编码器或解码器中的任一个可集成为组合式CODEC的部分。包含视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封单元30、捕获单元52及/或解囊封单元50的设备可包括集成电路、微处理器及/或无线通信装置，例如蜂窝式电话。

客户端装置40、服务器装置60及/或内容准备装置20可经配置以根据本发明的技术操作。出于实例的目的，本发明关于客户端装置40及服务器装置60描述此些技术。然而，应理解，代替服务器装置60(或除此之外)，内容准备装置20可经配置以执行此些技术。

囊封单元30可形成NAL单元，所述NAL单元包括识别NAL所属的程序的标头，以及有效负载，例如音频数据、视频数据或描述NAL单元所对应的传送或程序流的数据。举例来说，在H.264/AVC中，NAL单元包含1字节标头及不同大小的有效负载。在其有效负载中包含视频数据的NAL单元可包括各种粒度层级的视频数据。举例来说，NAL单元可包括视频数据块、多个块、视频数据的切片或视频数据的整个图片。囊封单元30可从视频编码器28接收呈基本流的PES包形式的经编码视频数据。囊封单元30可使每一基本流与对应程序相关联。

囊封单元30也可汇编来自多个NAL单元的存取单元。大体来说，存取单元可包括用于表示视频数据的帧以及对应于帧的音频数据(当此音频数据可用时)的一或多个NAL单元。存取单元通常包含用于一个输出时间执行个体的所有NAL单元，例如用于一个时间执行个体的所有音频及视频数据。举例来说，如果每一视图具有20帧每秒(fps)的帧速率，那么每一时间执行个体可对应于0.05秒的时间间隔。在此时间间隔期间，可同时再现同一存取单元(同一时间执行个体)的所有视图的特定帧。在一个实例中，存取单元可包括一个时间执行个体中的经译码图片，其可呈现为初级经译码图片。

因此，存取单元可包括共同时间执行个体的所有音频及视频帧，例如对应于时间X的所有视图。本发明也将特定视图的经编码图片称为“视图分量”。也就是说，视图分量可包括在特定时间处针对特定视图的经编码图片(或帧)。因此，存取单元可被定义为包括共同时间执行个体的所有视图分量。存取单元的解码次序未必与输出或显示次序相同。

媒体呈现可包含媒体呈现描述(MPD)，所述媒体呈现描述可含有不同替代表示(例如，具有不同质量的视频服务)的描述，且所述描述可包含例如编解码器信息、配置文件值及层级值。MPD为信息列表文件(例如信息列表文件66)的一个实例。客户端装置40可捕获媒体呈现的MPD以确定如何存取各种呈现的电影片段。电影片段可位于视频文件的电影片段框(moof框)中。

信息列表文件66(其可包括例如MPD)可通告表示68的区段的可用性。也就是说，MPD可包含指示表示68中的一个的第一区段变得可用时的挂钟时间的信息，以及指示表示68内的区段的持续时间的信息。以此方式，客户端装置40的捕获单元52可基于开始时间以及在特定区段之前的区段的持续时间而确定何时每一区段可用。

在囊封单元30已基于所接收的数据将NAL单元及/或存取单元汇编成视频文件之后，囊封单元30将视频文件传递到输出接口32以用于输出。在一些实例中，囊封单元30可将视频文件存储在本地，或经由输出接口32将视频文件发送到远程服务器，而非将视频文件直接发送到客户端装置40。输出接口32可包括例如发射器、收发器、用于将数据写入到计算机可读媒体的装置(例如光盘驱动机)、磁性媒体驱动机(例如，软盘驱动机)、通用串行总线(USB)端口、网络接口或其它输出接口。输出接口32将视频文件输出到计算机可读媒体，例如发射信号、磁性媒体、光学媒体、存储器、闪盘驱动机或其它计算机可读媒体。

网络接口54可经由网络74接收NAL单元或存取单元，并经由捕获单元52将NAL单元或存取单元提供到解囊封单元50。解囊封单元50可将视频文件的元素解囊封成构成性PES流，解包化PES流以捕获经编码数据，且取决于经编码数据为音频流还是视频流的部分(例如，如由流的PES包标头所指示)而将经编码数据发送到音频解码器46或视频解码器48。音频解码器46解码经编码音频数据，且将经解码音频数据发送到音频输出42，而视频解码器48解码经编码视频数据，且将经解码视频数据发送到视频输出44，经解码视频数据可包含流的多个视图。

内容准备装置20及/或服务器装置60可经配置以确定包封区域的边界，并相应地设定packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]的值。同样，客户端装置40可从下文更详细地描述的packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]的值来确定包封区域的边界(且因此确定大小及位置)。

图2为更详细地说明图1的捕获单元52的实例组件集合的框图。在此实例中，捕获单元52包含eMBMS中间件单元100、DASH客户端110及媒体应用程序112。

在此实例中，eMBMS中间件单元100进一步包含eMBMS接收单元106、高速缓存存储器104及代理服务器单元102。在此实例中，eMBMS接收单元106经配置以经由eMBMS接收数据，例如根据T.拜拉等人在“FLUTE-单向传送文件递送(FLUTE-File Delivery overUnidirectional Transport)”(网络工作组，RFC 6726，2012年11月)(可于tools.ietf.org/html/rfc6726获得)中所描述的单向传送文件递送(FLUTE)。也就是说，eMBMS接收单元106可经由广播从(例如)服务器装置60(其可充当BM-SC)接收文件。

在eMBMS中间件单元100接收文件的数据时，eMBMS中间件单元可将所接收的数据存储于高速缓存存储器104中。高速缓存存储器104可包括计算机可读存储媒体，例如快闪存储器、硬盘、RAM或任何其它合适的存储媒体。

代理服务器单元102可充当DASH客户端110的服务器。举例来说，代理服务器单元102可将MPD文件或其它信息列表文件提供到DASH客户端110。代理服务器单元102可通告MPD文件中的区段的可用性时间，以及可捕获所述区段的超链接。此些超链接可包含对应于客户端装置40的本地主机地址首码(例如，IPv4的127.0.0.1)。以此方式，DASH客户端110可使用HTTP GET或部分GET请求从代理服务器单位102请求区段。举例来说，对于可从链接127.0.0.1/rep1/seg3获得的区段，DASH客户端110可构造包含针对127.0.0.1/rep1/seg3的请求的HTTP GET请求，且将所述请求提交到代理服务器单元102。代理服务器单元102可从高速缓存存储器104捕获所请求的数据，并响应于此类请求而将数据提供到DASH客户端110。

图3为说明用于OMAF的区域取向包封(RWP)的两个实例的概念图。OMAF指定称为区域取向包封(RWP)的机制。RWP实现对经投影图片的任何矩形区域的操纵(调整大小、重新定位、旋转，及镜像处理)。RWP可用于强调特定视区定向或规避投影的弱点，例如朝向ERP中的极点的过采样。后者描绘于图3的顶部处的实例中，其中靠近球体视频的极点的区域的分辨率缩减。图3的底部处的实例描绘经强调视区定向。

最新OMAF草案规范中的区域取向包封及N16826中的视区独立HEVC媒体配置文件的现有设计可具有若干潜在问题。第一潜在问题为在内容(即，经包封图片)并不覆盖整个球体时，必须存在RWP框。然而，本发明的技术包含在不使用RWP的情况下实现子球体内容。在N16826中的视区独立HEVC媒体配置文件中，不允许存在RWP框。因此，如此指定的此媒体配置文件将不支持子球体内容。

与第一潜在问题相关的第二潜在问题为经投影图片的宽度及高度是在RWP框中传信。因此，在此框并不存在时，大小未被传信，且唯一选择为将大小假定为VisualSampleEntry的宽度及高度语法元素，所述语法元素为经包封图片的大小。作为第三潜在问题，基于上文介绍的两个潜在问题，可得出结论，在不需要如调整大小、重新定位、旋转及镜像处理的实际RWP操作时，且在不需要防护频带时，对于子球体内容，RWP框的作用仅为告知经投影图片的大小，及经投影图片的哪个区域对应于经包封图片。然而，仅出于此目的，仅传信经投影图片的大小，及经包封图片的左上角明度样本相对于经包封图片的左上角明度样本的水平及垂直偏移将是足够的。将不再需要RWP框中的所有其它语法元素且可保存那些语法元素的数据。

第四潜在问题为对于自适应流式传输，一个视频内容通常经编码成具有不同带宽且通常也具有不同空间分辨率的多个位流。因为所传信经投影及包封区域的单位都为明度样本，所以在同一视频内容的空间分辨率不同的状况下，编码器将需要针对不同空间分辨率想出不同RWP方案，且每一空间分辨率将需要单独的RWP传信。

作为第五潜在问题，在经由经投影图片中的对应明度样本位置从经解码图片的明度样本位置到全局坐标轴的球体上的对应位置(角坐标)的整个转换程序中，经投影图片上的2D笛卡尔坐标(i,j)或(xProjPicture与yProjPicture)需要为定点值，而非整数。

第六潜在问题为从解码器/再现侧的视角，经投影图片仅为概念，这是由于未指定生成经投影图片的样本值的程序，且也不需要进行所述指定。基于所述第四、第五及第六问题，本发明描述用于指定经投影图片的大小的单位，及以相对单位指定经投影及包封区域的大小及位置的技术。以此方式，在同一视频内容的空间分辨率不同的状况下，编码器将不需要针对不同空间分辨率想出不同RWP方案，且一个RWP传信将适用于同一视频内容的所有替代位流。

作为第七潜在问题，RWP框的容器为方案信息框，而例如覆盖及定向的其它经投影全向视频特定框的容器为经投影全向视频框。此将使检查并验证RWP框与其它全向视频特定信息之间的关系的正确性变得更加复杂。

本发明介绍对上文所描述的问题的潜在解决方案。本文中描述的各种技术可独立地或以各种组合应用。

本发明中描述的第一技术为添加仅提供经投影图片的大小及经包封图片相对于经投影图片的位置偏移的RWP框的版本1。根据第一实例，提出添加RWP框的版本1。当经投影图片为单像时，RWP框仅提供经投影图片的大小，及经包封图片相对于经投影图片的位置偏移。当经投影图片为使用并排或上下帧包封的立体像时，RWP框仅提供经投影图片的大小，及属于一个视图的每一经包封图片部分相对于属于同一视图的经投影图片部分的位置偏移。根据另一实例，提出使用另一手段传信与RWP框的版本1相同的信息。举例来说，定义可包含在经投影全向视频框或方案信息框中的新框，且限制仅可存在新框或RWP框中的任一个但不可同时存在所述两者。

本发明的第二技术包含需要支持RWP框的版本1的视区独立HEVC媒体配置文件，以用于在无需进行区域取向调整大小、重新定位、旋转及镜像处理的情况下支持子球体内容。在其它实例中，可允许存在RWP框的版本0，但当存在时，限制RWP框中的语法元素的值，使得仅由框传达与RWP框的版本1相同的信息。

根据本发明的第三技术，对于RWP框的所有版本，以明度样本的相对单位而非绝对单位来指定经投影图片、经包封图片、经投影区域及经包封区域的大小及位置偏移。根据本发明的第四技术，RWP框的容器可从方案信息框改变到经投影全向视频框。

现将描述第一技术的较详细实施。下文显示对RWP框的语法及语义的改变。区域取向包封框的语法及语义可如下改变(其中粗体突出显示为添加且[[方括号]]表示去除。其它部分保持不变)。

语法可如下改变：

语义可如下改变：

proj_picture_width及proj_picture_height分别以明度样本的单位指定经投影图片的宽度及高度。proj_picture_width及proj_picture_height两者应大于0。

proj_picture_voffset及proj_picture_hoffset分别以明度样本的单位指定经包封图片在经投影图片中的垂直偏移及水平偏移。值应在从0(包含0，其指示经投影图片的左上角)分别到proj_picture_height-PackedPicHeight-1(包含proj_picture_height-PackedPicHeight-1)及proj_picture_width-PackedPicWidth-1(包含proj_picture_width-PackedPicWidth-1)的范围内。

num_regions指定经包封区域的数目。保留值0。

[[proj_picture_width及proj_picture_height分别指定经投影图片的宽度及高度。proj_picture_width及proj_picture_height两者应大于0。]]

…

packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]是在分别具有等于PackedPicWidth及PackedPicHeight的宽度及高度的经包封图片中以明度样本的单位进行指示。

packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]分别指定经包封图片中的经包封区域的宽度、高度、顶部明度样本行及最左明度样本列。

…

以下描述对经解码图片内的样本位置相对于全局坐标轴到角坐标的映射的改变。最新OMAF草案规范的条款7.2.2.2如下改变(其中粗体突出显示表示添加，且[[方括号]]表示去除。其它部分保持不变。章节7.2.2.2经解码图片内的明度样本位置相对于全局坐标轴到角坐标的映射如下改变：

如下导出单像经投影明度图片的宽度及高度(分别为pictureWidth及pictureHeight)：

-如下导出变量HorDiv及VerDiv：

○如果StereoVideoBox不存在，那么将HorDiv及VerDiv设定为等于1。

○否则，如果StereoVideoBox存在且指示并排帧包封，那么将HorDiv设定为等于2且将VerDiv设定为等于1。

○否则(StereoVideoBox存在且指示上下帧包封)，那么将HorDiv设定为等于1且将VerDiv设定为等于2。

-如果RegionWisePackingBox不存在，那么将pictureWidth及pictureHeight分别设定为等于宽度/HorDiv及高度/VerDiv，其中宽度及高度为VisualSampleEntry的语法元素。

-否则，将pictureWidth及pictureHeight分别设定为等于proj_picture_width/HorDiv及proj_picture_height/VerDiv。

如果存在具有等于0的版本的RegionWisePackingBox，那么以下适用于在0到num_regions-1(包含0及num_regions-1)范围内的每一经包封区域n：

-对于属于具有等于0的packing_type[n](即，具有矩形区域取向包封)的第n经包封区域的每一样本位置(xPackedPicture,yPackedPicture)，以下适用：

○如下导出经投影图片的对应样本位置(xProjPicture,yProjPicture)：

■将x设定为等于xPackedPicture-packed_reg_left[n]。

■将y设定为等于yPackedPicture-packed_reg_top[n]。

■将offsetX设定为等于0.5。

■将offsetY设定为等于0.5。

■调用条款5.4，其中将x、y、packed_reg_width[n]、packed_reg_height[n]、proj_reg_width[n]、proj_reg_height[n]、transform_type[n]、offsetX及offsetY作为输入，且将输出指派到样本位置(i,j)。

■将xProjPicture设定为等于proj_reg_left[n]+i。

■将yProjPicture设定为等于proj_reg_top[n]+j。

○调用条款7.2.2.3，其中将xProjPicture、yProjPicture、pictureWidth及pictureHeight作为输入，且输出指示属于经解码图片中的第n经包封区域的明度样本位置(xPackedPicture,yPackedPicture)的角坐标及构成性帧索引(对于经帧包封立体视频)。

否则，以下适用于经解码图片内的每一样本位置(x,y)：

-如果存在具有等于1的版本的RegionWisePackingBox，那么将hOffset设定为等于proj_picture_hoffset，且将vOffset设定为等于proj_picture_voffset。

-否则，将hOffset及vOffset两者设定为等于0。

-将xProjPicture设定为等于x+hOffset+0.5。

-将yProjPicture设定为等于y+vOffset+0.5。

-调用条款7.2.2.3，其中将xProjPicture、yProjPicture、pictureWidth及pictureHeight作为输入，且输出指示经解码图片内的明度样本位置(x,y)的角坐标及构成性帧索引(对于经帧包封的立体视频)。

现将描述第一技术的第一实例的较详细实施。区域取向包封框的语法与上文实例1相同。区域取向包封框的语义相对于最新OMAF草案规范文本如下改变(其中粗体突出显示表示添加且[[方括号]]表示去除。其它部分保持不变。

proj_picture_voffset及proj_picture_hoffset用于在版本等于1时推断proj_reg_top[i]及proj_reg_left[i]的值。

当版本等于1时，如下设定变量HorDiv1及VerDiv1的值：

-如果StereoVideoBox不存在，那么将HorDiv1设定为等于1且将VerDiv1设定为等于1。

-否则(StereoVideoBox存在)，以下适用：

○如果指示并排帧包封，那么将HorDiv1设定为等于2且将VerDiv1设定为等于1。

○否则(指示上下帧包封)，将HorDiv1设定为等于1且将VerDiv1设定为等于2。

num_regions指定经包封区域的数目。保留值0。当版本等于1时，推断num_regions的值等于HorDiv1*VerDiv1。

guard_band_flag[i]等于0指定第i经包封区域并不具有防护频带。guard_band_flag[i]等于1指定第i经包封区域具有防护频带。当版本等于1时，推断guard_band_flag[i]的值等于0。

packing_type[i]指定区域取向包封的类型。packing_type[i]等于0指示矩形区域取向包封。其它值予以保留。当版本等于1时，推断packing_type[i]的值等于0。

…

proj_reg_width[i]指定第i经投影区域的宽度。proj_reg_width[i]应大于0。当版本等于1时，推断proj_reg_width[i]的值等于PackedPicWidth/HorDiv1。

proj_reg_height[i]指定第i经投影区域的高度。proj_reg_height[i]应大于0。当版本等于1时，推断proj_reg_height[i]的值等于PackedPicHeight/VerDiv1。

proj_reg_top[i]及proj_reg_left[i]分别指定经投影图片中的第i经投影区域的顶部明度样本行及最左明度样本列。值应在从0(包含0，其指示经投影图片的左上角)分别到proj_picture_height-1(包含proj_picture_height-1)及proj_picture_width-1(包含proj_picture_width-1)的范围内。当版本等于1时，推断proj_reg_top[i]的值等于proj_picture_voffset+i*proj_picture_height*(1-1/VerDiv1)，且推断proj_reg_left[i]的值等于proj_picture_hoffset+i*proj_picture_width*(1-1/HorDiv1)。

…

transform_type[i]指定已应用于第i经投影区域以在编码之前将其映射到经包封图片的旋转及镜像处理。当版本等于0时，推断transform_type[i]的值等于0。当transform_type[i]指定旋转及镜像处理两者时，已在编码之前在从经投影图片到经包封图片的区域取向包封中在镜像处理之后应用旋转。…

…

当版本等于1时，推断packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]的值分别等于PackedPicWidth/HorDiv1、PackedPicHeight/VerDiv1、i*PackedPicHeight*(1-1/VerDiv1)及i*PackedPicWidth*(1-1/HorDiv1)。

…

现将描述第二技术的较详细实施。根据一个实施，视区独立HEVC媒体配置文件的定义中的以下句子

“RegionWisePackingBox不应存在于SchemeInformationBox中。”

可替换成：

“当区域取向包封框存在时，框的版本应等于1。”

在允许存在RWP框的版本0的第二技术的版本中，在其存在时，限制RWP框中的语法元素的值，使得仅由框传达与RWP框的版本1相同的信息，视区独立HEVC媒体配置文件的定义中的以下句子

RegionWisePackingBox不应存在于SchemeInformationBox中。

可替换成：

如下设定变量HorDiv1及VerDiv1的值：

-否则(StereoVideoBox存在)，以下适用：

当区域取向包封框存在时，以下约束条件都适用：

-num_regions的值应等于HorDiv1*VerDiv1。

-对于在0到num_regions-1(包含0及num_regions-1)的范围内的i的每一值，以下适用

○guard_band_flag[i]的值应等于0。

○packing_type[i]的值应等于0。

○proj_reg_width[i]的值应等于PackedPicWidth/HorDiv1。

○proj_reg_height[i]的值应等于PackedPicHeight/VerDiv1。

○transform_type[i]的值应等于0。

○packed_reg_width[i]的值应等于PackedPicWidth/HorDiv1。

○packed_reg_height[i]的值应等于PackedPicHeight/VerDiv1。

○packed_reg_top[i]的值应等于i*PackedPicHeight*(1-1/VerDiv1)。

○packed_reg_left[i]的值应等于i*PackedPicWidth*(1-1/HorDiv1)。

现将描述第三技术的较详细实施。RWP框的定义、语法及语义相对于上文第一技术中的设计如下改变(其中粗体突出显示表示添加且[[方括号]]表示去除。其它部分保持不变：

定义可如下改变：

…

RegionWisePackingBox指示经投影图片经区域取向包封且在再现之前需要解包封。经投影图片的大小在此框中经明确传信。经包封图片的大小分别表示为PackedPicWidth及PackedPicHeight。如果RegionWisePackingBox的版本为0，那么将PackedPicWidth及PackedPicHeight设定为分别等于VisualSampleEntry的宽度及高度语法元素。否则，将PackedPicWidth及PackedPicHeight设定为分别等于RegionWisePackingBox的packed_picture_width及packed_picture_height语法元素。[[分别表示为PackedPicWidth及PackedPicHeight的经包封图片的大小由VisualSampleEntry的宽度及高度语法元素指示。]]

语法可如下改变：

语义可如下改变：

proj_picture_width及proj_picture_height分别以相对单位[[明度样本的单位]]指定经投影图片的宽度及高度。proj_picture_width及proj_picture_height两者应大于0。在此条款的剩余部分中，“相对单位”意指与proj_picture_width及proj_picture_height相同的相对单位。

packed_picture_width及packed_picture_height分别以相对单位指定经包封图片的宽度及高度。pracked_picture_width及packed_picture_height两者应大于0。

proj_picture_voffset及proj_picture_hoffset分别以相对单位[[明度样本的单位]]指定经包封图片在经投影图片中的垂直偏移及水平偏移。值应在从0(包含0，其指示经投影图片的左上角)分别到proj_picture_height-PackedPicHeight-1(包含proj_picture_height-PackedPicHeight-1)及proj_picture_width-PackedPicWidth-1(包含proj_picture_width-PackedPicWidth-1)的范围内。

…

proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]及proj_reg_left[i]是在分别具有等于proj_picture_width及proj_picture_height的宽度及高度的经投影图片中以相对单位[[明度样本的单位]]进行指示。

…

packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]及packed_reg_left[i]是在分别具有等于PackedPicWidth及PackedPicHeight的宽度及高度的经包封图片中以相对单位[[明度样本的单位]]进行指示。

…

定义可如下改变：

…

语法可如下改变：

语义可如下改变：

…

图4为说明实例多媒体内容120的元素的概念图。多媒体内容120可对应于多媒体内容64(图1)，或对应于存储于存储媒体62中的另一多媒体内容。在图4的实例中，多媒体内容120包含媒体呈现描述(MPD)122及多个表示124A到124N(表示124)。表示124A包含可选标头数据126及区段128A到128N(区段128)，而表示124N包含可选标头数据130及区段132A到132N(区段132)。为了方便起见，使用字母N来指定表示124中的每一个中的最后一个电影片段。在一些实例中，在表示124之间可存在不同数目的电影片段。

MPD 122可包括与表示124分离的数据结构。MPD 122可对应于图1的信息列表文件66。同样，表示124可对应于图2的表示68。大体来说，MPD 122可包含通常描述表示124的特性的数据，例如译码及再现特性、调适集、MPD 122所对应的配置文件、文本类型信息、摄影机角度信息、分级信息、特技模式信息(例如，指示包含时间子序列的表示的信息)及/或用于捕获远程周期(例如，用于在播放期间将针对性广告插入到媒体内容中)的信息。

标头数据126(当存在时)可描述区段128的特性，例如，随机存取点(RAP，其也被称作流存取点(SAP))的时间位置、区段128中的哪一个包含随机存取点、与区段128内的随机存取点的字节偏移、区段128的统一资源定位符(URL)，或区段128的其它方面。标头数据130(当存在时)可描述区段132的类似特性。另外或替代地，此类特性可完全包含于MPD 122内。

区段128、132包含一或多个经译码视频样本，其中的每一个可包含视频数据的帧或切片。区段128的经译码视频样本中的每一个可具有类似特性，例如，高度、宽度及带宽要求。此类特性可由MPD 122的数据来描述，但此数据在图4的实例中未说明。MPD 122可包含如由3GPP规范所描述的特性，且添加了本发明中所描述的传信信息中的任一个或全部。

区段128、132中的每一个可与唯一的统一资源定位符(URL)相关联。因此，区段128、132中的每一个可使用流式传输网络协议(例如DASH)来独立地捕获。以此方式，例如客户端装置40的目的地装置可使用HTTP GET请求来捕获区段128或132。在一些实例中，客户端装置40可使用HTTP部分GET请求来捕获区段128或132的特定字节范围。

图5为说明实例视频文件150的元素的框图，所述视频文件可对应于表示的区段，例如图4的区段128、132中的一个。区段128、132中的每一个可包含大体上符合图5的实例中所说明的数据的布置的数据。视频文件150可被称为囊封一区段。如上文所描述，根据ISO基本媒体文件格式及其扩展的视频文件将数据存储于一系列对象(称为“框”)中。在图5的实例中，视频文件150包含文件类型(FTYP)框152、电影(MOOV)框154、区段索引(sidx)框162、电影片段(MOOF)框164及电影片段随机存取(MFRA)框166。尽管图5表示视频文件的实例，但应理解，根据ISO基本媒体文件格式及其扩展，其它媒体文件可包含其它类型的媒体数据(例如，音频数据、计时文本数据等)，其在结构上类似于视频文件150的数据。

文件类型(FTYP)框152通常描述视频文件150的文件类型。文件类型框152可包含识别描述视频文件150的最好用途的规范的数据。文件类型框152可替代地放置在MOOV框154、电影片段框164及/或MFRA框166之前。

在一些实例中，例如视频文件150的区段可包含在FTYP框152之前的MPD更新框(未显示)。MPD更新框可包含指示对应于包含视频文件150的表示的MPD待更新的信息，连同用于更新MPD的信息。举例来说，MPD更新框可提供待用以更新MPD的资源的URI或URL。作为另一实例，MPD更新框可包含用于更新MPD的数据。在一些实例中，MPD更新框可紧接在视频文件150的区段类型(STYP)框(未显示)后，其中STYP框可定义视频文件150的区段类型。下文更详细地论述的图7提供关于MPD更新框的额外信息。

在图5的实例中，MOOV框154包含电影标头(MVHD)框156、轨道(TRAK)框158及一或多个电影延伸(MVEX)框160。大体来说，MVHD框156可描述视频文件150的一般特性。举例来说，MVHD框156可包含描述视频文件150何时最初创建、视频文件150何时经最后修改、视频文件150的时间标度、视频文件150的播放持续时间的数据，或通常描述视频文件150的其它数据。

TRAK框158可包含视频文件150的轨道的数据。TRAK框158可包含轨道标头(TKHD)框，其描述对应于TRAK框158的轨道的特性。在一些实例中，TRAK框158可包含经译码视频图片，而在其它实例中，轨道的经译码视频图片可包含于电影片段164中，所述电影片段可由TRAK框158及/或sidx框162的数据参考。

在一些实例中，视频文件150可包含一个以上轨道。相应地，MOOV框154可包含数个TRAK框，其等于视频文件150中的轨道的数目。TRAK框158可描述视频文件150的对应轨道的特性。举例来说，TRAK框158可描述对应轨道的时间及/或空间信息。当囊封单元30(图4)在视频文件(例如视频文件150)中包含参数集轨道时，类似于MOOV框154的TRAK框158的TRAK框可描述参数集轨道的特性。囊封单元30可在描述参数集轨道的TRAK框内传信序列层级SEI消息存在于参数集轨道中。

MVEX框160可描述对应电影片段164的特性，以例如传信视频文件150除包含于MOOV框154(如果存在)内的视频数据之外还包含电影片段164。在流式传输视频数据的上下文中，经译码视频图片可包含于电影片段164中，而非包含于MOOV框154中。相应地，所有经译码视频样本可包含于电影片段164中，而非包含于MOOV框154中。

MOOV框154可包含数个MVEX框160，其等于视频文件150中的电影片段164的数目。MVEX框160中的每一个可描述电影片段164中的对应一个的特性。举例来说，每一MVEX框可包含电影延伸标头框(MEHD)框，其描述电影片段164中的对应一个的时间持续时间。

如上文所提到，囊封单元30可存储视频样本中的序列数据集，其并不包含实际经译码视频数据。视频样本可通常对应于存取单元，其为特定时间执行个体处的经译码图片的表示。在AVC的上下文中，经译码图片包含一或多个VCL NAL单元及其它相关联非VCL NAL单元(例如SEI消息)，所述VCL NAL单元含有用以构造存取单元的所有像素的信息。因此，囊封单元30可在电影片段164中的一个中包含序列数据集，其可包含序列层级SEI消息。囊封单元30可进一步传信存在于电影片段164中的一个中的序列数据集及/或序列层级SEI消息存在于对应于电影片段164中的一个的MVEX框160中的一个内。

SIDX框162为视频文件150的可选元素。也就是说，符合3GPP文件格式或其它此类文件格式的视频文件未必包含SIDX框162。根据3GPP文件格式的实例，SIDX框可用于识别区段(例如，含于视频文件150内的区段)的子区段。3GPP文件格式将子区段定义为“具有一或多个对应媒体数据框及含有由电影片段框参考的数据的媒体数据框的一或多个连续电影片段框的自含式集合，其必须跟在电影片段框后，并在含有关于同一轨道的信息的下一电影片段框之前”。3GPP文件格式还指示SIDX框“含有对由框记录的(子)区段的子区段参考的序列。所参考的子区段在呈现时间上邻接。类似地，由区段索引框参考的字节始终在区段内邻接。所参考大小给出所参考材料中的字节的数目的计数”。

SIDX框162通常提供表示包含于视频文件150中的区段的一或多个子区段的信息。举例来说，此信息可包含子区段开始及/或结束的播放时间、子区段的字节偏移、子区段是否包含(例如，以之开始)流存取点(SAP)、SAP的类型(例如，SAP是否为瞬时解码器刷新(IDR)图片、清洁随机存取(CRA)图片、断链存取(BLA)图片等)、SAP在子区段中的位置(就播放时间及/或字节偏移来说)等。

电影片段164可包含一或多个经译码视频图片。在一些实例中，电影片段164可包含一或多个图片群组(GOP)，其中的每一个可包含数个经译码视频图片，例如帧或图片。另外，如上文所描述，在一些实例中，电影片段164可包含序列数据集。电影片段164中的每一个可包含电影片段标头框(MFHD，图5中未显示)。MFHD框可描述对应电影片段的特性，例如电影片段的序号。电影片段164可按序号次序包含于视频文件150中。

MFRA框166可描述视频文件150的电影片段164内的随机存取点。此可辅助执行特技模式，例如执行对由视频文件150囊封的区段内的特定时间位置(即，播放时间)的寻找。在一些实例中，MFRA框166通常是任选的且无需包含于视频文件中。同样，客户端装置(例如客户端装置40)未必需要参考MFRA框166来正确解码及显示视频文件150的视频数据。MFRA框166可包含数个轨道片段随机存取(TFRA)框(未显示)，其等于视频文件150的轨道的数目，或在一些实例中等于视频文件150的媒体轨道(例如，非暗示轨道)的数目。

在一些实例中，电影片段164可包含一或多个流存取点(SAP)，例如IDR图片。同样，MFRA框166可提供对SAP在视频文件150内的位置的指示。因此，视频文件150的时间子序列可由视频文件150的SAP形成。时间子序列也可包含其它图片，例如取决于SAP的P帧及/或B帧。时间子序列的帧及/或切片可布置于区段内，使得时间子序列的取决于子序列的其它帧/切片的帧/切片可被恰当地解码。举例来说，在数据的阶层式布置中，用于其它数据的预测的数据也可包含于时间子序列中。

根据本发明的技术，视频文件150可例如在MOOV框154内进一步包含区域取向包封框(RWPB)，其包含如上文所论述的信息。RWPB可包含定义经包封区域及对应经投影区域在球体视频投影中的位置的RWPB结构。

图6为说明根据本发明的技术的接收并处理包含视频数据的媒体内容的实例方法的流程图。大体来说，关于客户端装置40(图1)论述图6的方法。然而，应理解，其它装置可经配置以执行此方法或类似方法。

客户端装置40可从视频文件内的区域取向包封框获得指示媒体内容的第一经包封区域的第一大小及第一位置的第一值集合，及指示媒体内容的第二经包封区域的第二大小及第二位置的第二值集合(200)。在一些实例中，经投影全向视频框可为区域取向包封框的容器。第一值集合及第二值集合可呈包含第一经包封区域及第二经包封区域的解包封图片的左上角明度样本的相对单位。客户端装置40可另外从视频文件内的区域取向包封框获得经投影图片宽度及经投影图片高度。经投影图片宽度及经投影图片高度也可呈相对单位。

客户端装置40解包封第一经包封区域以产生第一解包封区域(202)。客户端装置从第一解包封区域形成第一经投影区域(204)。客户端装置40解包封第二经包封区域以产生第二解包封区域(206)。客户端装置40从第二解包封区域形成第二经投影区域，第二经投影区域不同于第一经投影区域(208)。

第一值集合可包含第一宽度值、第一高度值、第一顶部值及第一左侧值，且其中第二值集合包括第二宽度值、第二高度值、第二顶部值及第二左侧值。客户端装置40可另外从第一宽度值确定第一经包封区域的第一宽度；从第一高度值确定第一经包封区域的第一高度；从第一顶部值确定第一经包封区域的第一顶部偏移；从第一左侧值确定第一经包封区域的第一左侧偏移；从第二宽度值确定第二经包封区域的第二宽度；从第二高度值确定第二经包封区域的第二高度；从第二顶部值确定第二经包封区域的第二顶部偏移；及从第二左侧值确定第二经包封区域的第二左侧偏移。举例来说，第一宽度值可为packed_reg_width[i]值，且第一高度值可为packed_reg_height[i]值。第一顶部值可为packed_reg_top[i]值，且第一左侧值可为packed_reg_left[i]值。第二宽度值可为packed_reg_width[j]值，且第二高度值可为packed_reg_height[j]值。第二顶部值可为packed_reg_top[j]值，且第二左侧值可为packed_reg_left[j]值。

媒体内容可为单像或立体的。如果媒体内容包含立体内容，那么第一经包封区域可对应于媒体内容的第一图片，且第二经包封区域可对应于媒体内容的第二图片。

在一或多个实例中，所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施，那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行发射，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体的有形媒体)或通信媒体，所述通信媒体包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式，计算机可读媒体通常可对应于(1)非暂时性有形计算机可读存储媒体，或(2)通信媒体(例如，信号或载波)。数据存储媒体可为可由一或多个计算机或一或多个处理器存取，以捕获用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

通过实例而非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器，或可用于存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。而且，任何连接被恰当地称为计算机可读媒体。举例来说，如果使用同轴缆线、光纤缆线、双绞线、数字用户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源来发射指令，那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。然而，应理解，计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体，而是替代地关于非暂时性有形存储媒体。如本文中所使用，磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘，其中磁盘通常以磁性方式再生数据，而光盘用激光以光学方式再生数据。上文各项的组合也应包含于计算机可读媒体的范围内。

可由一或多个处理器执行指令，所述一或多个处理器例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此，如本文中所使用的术语“处理器”可指上述结构或适于实施本文中所描述的技术的任何其它结构中的任一个。另外，在一些方面中，本文中所描述的功能性可提供于经配置以用于编码及解码的专用硬件及/或软件模块内，或并入于组合式编解码器中。而且，所述技术可完全实施于一或多个电路或逻辑元件中。

本发明的技术可实施于广泛多种装置或设备中，包含无线手持机、集成电路(IC)或IC集合(例如，芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所公开技术的装置的功能方面，但未必要求由不同硬件单元来实现。确切地说，如上文所描述，可将各种单元组合于编解码器硬件单元中，或由互操作性硬件单元(包含如上文所描述的一或多个处理器)的集合结合合适软件及/或固件来提供所述单元。

各种实例已予以描述。此些及其它实例在以下权利要求书的范围内。

Claims

1.一种处理媒体内容的方法，所述方法包括：

从视频文件内的区域取向包封框获得指示媒体内容的第一经包封区域的第一大小及第一位置的第一值集合，及指示所述媒体内容的第二经包封区域的第二大小及第二位置的第二值集合，其中所述第一值集合及所述第二值集合呈包括所述第一经包封区域及所述第二经包封区域的解包封图片的左上角明度样本的相对单位；

解包封所述第一经包封区域以产生第一解包封区域；

从所述第一解包封区域形成第一经投影区域；

解包封所述第二经包封区域以产生第二解包封区域；及

从所述第二解包封区域形成第二经投影区域，所述第二经投影区域不同于所述第一经投影区域。

2.根据权利要求1所述的方法，其中所述第一值集合包括第一宽度值、第一高度值、第一顶部值及第一左侧值，且其中所述第二值集合包括第二宽度值、第二高度值、第二顶部值及第二左侧值，所述方法进一步包括：

从所述第一宽度值确定所述第一经包封区域的第一宽度；

从所述第一高度值确定所述第一经包封区域的第一高度；

从所述第一顶部值确定所述第一经包封区域的第一顶部偏移；

从所述第一左侧值确定所述第一经包封区域的第一左侧偏移；

从所述第二宽度值确定所述第二经包封区域的第二宽度；

从所述第二高度值确定所述第二经包封区域的第二高度；

从所述第二顶部值确定所述第二经包封区域的第二顶部偏移；及

从所述第二左侧值确定所述第二经包封区域的第二左侧偏移。

3.根据权利要求2所述的方法，其中所述第一宽度值包括packed_reg_width[i]值，所述第一高度值包括packed_reg_height[i]值，所述第一顶部值包括packed_reg_top[i]值，所述第一左侧值包括packed_reg_left[i]，所述第二宽度值包括packed_reg_width[j]值，所述第二高度值包括packed_reg_height[j]值，所述第二顶部值包括packed_reg_top[j]值，且所述第二左侧值包括packed_reg_left[j]值。

4.根据权利要求1所述的方法，其进一步包括：

从所述视频文件内的所述区域取向包封框获得经投影图片宽度及经投影图片高度，其中所述经投影图片宽度及所述经投影图片高度呈所述相对单位。

5.根据权利要求1所述的方法，其中所述区域取向包封框的容器包括经投影全向视频框。

6.根据权利要求1所述的方法，其中所述媒体内容为单像的。

7.根据权利要求1所述的方法，其中所述媒体内容为立体的。

8.根据权利要求7所述的方法，其中所述第一经包封区域对应于所述媒体内容的第一图片，且其中所述第二经包封区域对应于所述媒体内容的第二图片。

9.一种用于处理媒体内容的装置，所述装置包括：

存储器，其经配置以存储媒体内容；及

一或多个处理器，其实施于电路中且经配置以：

解包封所述第一经包封区域以产生第一解包封区域；

从所述第一解包封区域形成第一经投影区域；

解包封所述第二经包封区域以产生第二解包封区域；及

10.根据权利要求9所述的装置，其中所述第一值集合包括第一宽度值、第一高度值、第一顶部值及第一左侧值，且其中所述第二值集合包括第二宽度值、第二高度值、第二顶部值及第二左侧值，其中所述一或多个处理器进一步经配置以：

从所述第一宽度值确定所述第一经包封区域的第一宽度；

从所述第一高度值确定所述第一经包封区域的第一高度；

从所述第二宽度值确定所述第二经包封区域的第二宽度；

从所述第二高度值确定所述第二经包封区域的第二高度；

11.根据权利要求10所述的装置，其中所述第一宽度值包括packed_reg_width[i]值，所述第一高度值包括packed_reg_height[i]值，所述第一顶部值包括packed_reg_top[i]值，所述第一左侧值包括packed_reg_left[i]，所述第二宽度值包括packed_reg_width[j]值，所述第二高度值包括packed_reg_height[j]值，所述第二顶部值包括packed_reg_top[j]值，且所述第二左侧值包括packed_reg_left[j]值。

12.根据权利要求9所述的装置，其中所述一或多个处理器进一步经配置以：

13.根据权利要求9所述的装置，其中所述区域取向包封框的容器包括经投影全向视频框。

14.根据权利要求9所述的装置，其中所述媒体内容为单像的。

15.根据权利要求9所述的装置，其中所述媒体内容为立体的。

16.根据权利要求15所述的装置，其中所述第一经包封区域对应于所述媒体内容的第一图片，且其中所述第二经包封区域对应于所述媒体内容的第二图片。

17.根据权利要求9所述的装置，其中所述装置包括以下各项中的至少一个：

集成电路；

微处理器；及

无线通信装置。

18.根据权利要求9所述的装置，其中所述装置包括客户端装置。

19.一种上面存储有指令的计算机可读存储媒体，所述指令在执行时致使处理器进行以下操作：

解包封所述第一经包封区域以产生第一解包封区域；

从所述第一解包封区域形成第一经投影区域；

解包封所述第二经包封区域以产生第二解包封区域；及

20.根据权利要求19所述的计算机可读存储媒体，其中所述第一值集合包括第一宽度值、第一高度值、第一顶部值及第一左侧值，且其中所述第二值集合包括第二宽度值、第二高度值、第二顶部值及第二左侧值，其中所述一或多个处理器进一步经配置以：

从所述第一宽度值确定所述第一经包封区域的第一宽度；

从所述第一高度值确定所述第一经包封区域的第一高度；

从所述第二宽度值确定所述第二经包封区域的第二宽度；

从所述第二高度值确定所述第二经包封区域的第二高度；

21.根据权利要求20所述的计算机可读存储媒体，其中所述第一宽度值包括packed_reg_width[i]值，所述第一高度值包括packed_reg_height[i]值，所述第一顶部值包括packed_reg_top[i]值，所述第一左侧值包括packed_reg_left[i]，所述第二宽度值包括packed_reg_width[j]值，所述第二高度值包括packed_reg_height[j]值，所述第二顶部值包括packed_reg_top[j]值，且所述第二左侧值包括packed_reg_left[j]值。

22.根据权利要求19所述的计算机可读存储媒体，其中所述一或多个处理器进一步经配置以：

23.根据权利要求19所述的计算机可读存储媒体，其中所述区域取向包封框的容器包括经投影全向视频框。

24.根据权利要求19所述的计算机可读存储媒体，其中所述媒体内容为单像的。

25.根据权利要求19所述的计算机可读存储媒体，其中所述媒体内容为立体的。

26.根据权利要求25所述的计算机可读存储媒体，其中所述第一经包封区域对应于所述媒体内容的第一图片，且其中所述第二经包封区域对应于所述媒体内容的第二图片。

27.一种用于处理媒体内容的装置，所述装置包括：

用于从视频文件内的区域取向包封框获得指示媒体内容的第一经包封区域的第一大小及第一位置的第一值集合，及指示所述媒体内容的第二经包封区域的第二大小及第二位置的第二值集合的装置，其中所述第一值集合及所述第二值集合呈包括所述第一经包封区域及所述第二经包封区域的解包封图片的左上角明度样本的相对单位；

用于解包封所述第一经包封区域以产生第一解包封区域的装置；

用于从所述第一解包封区域形成第一经投影区域的装置；

用于解包封所述第二经包封区域以产生第二解包封区域的装置；及

用于从所述第二解包封区域形成第二经投影区域的装置，所述第二经投影区域不同于所述第一经投影区域。

28.根据权利要求27所述的装置，其中所述第一值集合包括第一宽度值、第一高度值、第一顶部值及第一左侧值，且其中所述第二值集合包括第二宽度值、第二高度值、第二顶部值及第二左侧值，所述装置进一步包括：

用于从所述第一宽度值确定所述第一经包封区域的第一宽度的装置；

用于从所述第一高度值确定所述第一经包封区域的第一高度的装置；

用于从所述第一顶部值确定所述第一经包封区域的第一顶部偏移的装置；

用于从所述第一左侧值确定所述第一经包封区域的第一左侧偏移的装置；

用于从所述第二宽度值确定所述第二经包封区域的第二宽度的装置；

用于从所述第二高度值确定所述第二经包封区域的第二高度的装置；

用于从所述第二顶部值确定所述第二经包封区域的第二顶部偏移的装置；及

用于从所述第二左侧值确定所述第二经包封区域的第二左侧偏移的装置。

29.根据权利要求28所述的装置，其中所述第一宽度值包括packed_reg_width[i]值，所述第一高度值包括packed_reg_height[i]值，所述第一顶部值包括packed_reg_top[i]值，所述第一左侧值包括packed_reg_left[i]，所述第二宽度值包括packed_reg_width[j]值，所述第二高度值包括packed_reg_height[j]值，所述第二顶部值包括packed_reg_top[j]值，且所述第二左侧值包括packed_reg_left[j]值。

30.根据权利要求27所述的装置，其进一步包括：

31.根据权利要求27所述的装置，其中所述区域取向包封框的容器包括经投影全向视频框。