CN109155865A

CN109155865A - 在图像中的最感兴趣的区域的先进信号传送

Info

Publication number: CN109155865A
Application number: CN201780029482.5A
Authority: CN
Inventors: 王业奎; 伏努·亨利
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2016-05-24
Filing date: 2017-05-11
Publication date: 2019-01-04
Also published as: EP3466084A1; BR112018073956A2; KR102342274B1; AU2017271981A1; KR20190014501A; JP2019521583A; US20170344843A1; TW201742461A; US10565463B2; WO2017205069A1

Abstract

本发明提供一种用于确定视频数据的信息的装置，所述装置包含实施于电路中的一或多个处理器，所述一或多个处理器经配置以利用表示视频数据的图像的多个区域中的一或多个最感兴趣的区域的数据确定所述一或多个最感兴趣的区域。所述一或多个处理器经进一步配置以使用表示所述一或多个最感兴趣的区域的所述数据产生指定所述一或多个最感兴趣的区域的请求且将所述请求输出到服务器装置。

Description

在图像中的最感兴趣的区域的先进信号传送

本申请案主张2016年5月24申请的美国临时申请案第62/341,017号的权益，所述申请案在此以其全文引用的方式并入。

技术领域

本发明涉及经编码视频数据的存储和输送。

背景技术

数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置和类似者。数字视频装置实施视频压缩技术，例如由MPEG-2、MPEG-4、ITU-T H.263或ITU-TH.264/MPEG-4第10部分先进视频译码(AVC)、ITU-T H.265(也称为高效视频译码(HEVC))定义的标准和这些标准的扩展中所描述的那些技术，以更有效地发射和接收数字视频信息。

视频压缩技术执行空间预测和/或时间预测以减少或去除视频序列中所固有的冗余。对于基于块的视频译码，可将视频帧或切片分割成宏块或译码树单元(CTU)。在本文的剩余部分中，两个术语宏块与CTU可互换地使用。可进一步分割每一宏块。使用相对于相邻宏块的空间预测来编码经帧内译码(I)的帧或切片中的宏块。经帧间译码(P或B)帧或切片中的宏块可使用相对于同一帧或切片中的相邻宏块的空间预测或相对于其它参考帧的时间预测。

在已编码视频数据之后，可将视频数据分组以用于发射或存储。可将视频数据组译成符合多种标准中的任一个的视频文件，所述标准例如国际标准化组织(ISO)基本媒体文件格式和其扩展，例如，AVC文件格式。

在分组视频数据以供发射或存储之后，客户端装置可请求适合质量的经分组视频数据。举例来说，客户端装置可在客户端装置与发射经分组视频的数字视频装置之间的带宽较高时请求相对高质量的经分组视频数据，且在客户端装置与发射经分组视频的数字视频装置之间的带宽较低时请求相对低质量的经分组视频数据。

发明内容

一般来说，本发明描述用于产生和消耗包含表示视频数据的图像的一或多个最感兴趣的区域的数据的位流的技术。这些技术可特定适用于其中仅图像的部分呈现到用户的情况，这是因为用户的视野(FOV)小于整个图像。举例来说，这些技术可应用于虚拟实境(VR)情境。由此，仅图像的部分可(例如)藉助于VR耳机呈现到用户。用户的FOV可部分或完全重叠图像的最感兴趣的区域中的一或多个。由此，短语“图像的最感兴趣的区域”大体上指与图像的其它区域相比更可能在图像的呈现时间呈现到用户的图像的区域。装置可使用一或多个最感兴趣的区域预提取用于一或多个最感兴趣的区域的视频数据，以使得(例如)装置在请求用于图像的其它区域的视频数据之前请求用于一或多个最感兴趣的区域的视频数据，其中装置可为含有视频解码器的实体抑或为例如内容递送网络(CDN)节点的网络元件。

在一个实例中，一种确定视频数据的信息的方法包含：由装置的处理器(所述处理器实施于电路中)利用表示视频数据的图像的多个区域中的一或多个最感兴趣的区域的数据确定一或多个最感兴趣的区域；由处理器使用表示一或多个最感兴趣的区域的数据产生指定一或多个最感兴趣的区域的请求；和由处理器将请求输出到服务器装置。

在另一实例中，一种用于确定视频数据的信息的装置包含实施于电路中的一或多个处理器，所述一或多个处理器经配置以：利用表示视频数据的图像的多个区域中的一或多个最感兴趣的区域的数据确定一或多个最感兴趣的区域；使用表示一或多个最感兴趣的区域的数据产生指定一或多个最感兴趣的区域的请求；和将请求输出到服务器装置。

在另一实例中，一种用于确定视频数据的信息的装置包含：用于利用表示视频数据的图像的多个区域中的一或多个最感兴趣的区域的数据确定一或多个最感兴趣的区域的装置；用于使用表示一或多个最感兴趣的区域的数据产生指定一或多个最感兴趣的区域的请求的装置，和用于将请求输出到服务器装置的装置。

在另一实例中，一种计算机程序产品包含包括指令的计算机可读存储媒体，所述指令当执行时，使得处理器利用表示视频数据的图像的多个区域中的一或多个最感兴趣的区域的数据确定一或多个最感兴趣的区域；使用表示一或多个最感兴趣的区域的数据产生指定一或多个最感兴趣的区域的请求；和将请求输出到服务器装置。

在另一实例中，一种用信号传送视频数据的信息的方法包含由源装置的处理器(所述处理器实施于电路中)确定视频数据的图像的多个区域中的一或多个最感兴趣的区域。一或多个最感兴趣的区域包括最可能由客户端装置检索的一或多个区域。方法进一步包含由处理器输出表示一或多个最感兴趣的区域的数据。表示一或多个最感兴趣的区域的数据包含于包含视频数据的位流中。方法进一步包含由处理器在输出表示一或多个最感兴趣的区域的数据之后输出视频数据。

在另一实例中，一种用于用信号传送视频数据的信息的装置包含实施于电路中的一或多个处理器，所述一或多个处理器经配置以确定视频数据的图像的多个区域中的一或多个最感兴趣的区域。一或多个最感兴趣的区域包括最可能由客户端装置检索的一或多个区域。所述一或多个处理器经进一步配置以输出表示一或多个最感兴趣的区域的数据。表示一或多个最感兴趣的区域的数据包含于包含视频数据的位流中。一或多个处理器经进一步配置以在输出表示一或多个最感兴趣的区域的数据之后输出视频数据。

在另一实例中，一种用于用信号传送视频数据的信息的装置包含用于确定视频数据的图像的多个区域中的一或多个最感兴趣的区域的装置。一或多个最感兴趣的区域包括最可能由客户端装置检索的一或多个区域。装置进一步包含用于输出表示一或多个感兴趣区域的数据的装置。表示一或多个最感兴趣的区域的数据包含于包含视频数据的位流中。装置进一步包含用于在输出表示一或多个最感兴趣的区域的数据之后输出视频数据的装置。

在另一实例中，一种计算机程序产品包含包括指令的计算机可读存储媒体，所述指令使得处理器确定视频数据的图像的多个区域中的一或多个最感兴趣的区域。一或多个最感兴趣的区域包括最可能由客户端装置检索的一或多个区域。指令进一步使得处理器输出表示一或多个最感兴趣的区域的数据。表示一或多个最感兴趣的区域的数据包含于包含视频数据的位流中。指令进一步使得处理器在输出表示一或多个最感兴趣的区域的数据之后输出视频数据。

在附图和以下描述中阐述一或多个实例的细节。其它特征、目标和优点将从所述描述和图式并且从权利要求书显而易见。

附图说明

图1为说明实施用于通过网络来流式传输媒体数据的技术的实例系统的框图。

图2为说明实例多媒体内容的元素的概念图。

图3为说明实例视频文件的元素的框图，所述实例视频文件可对应于图2的表示。

图4为以立方体投影说明实例图像块译码的概念图。

图5为说明根据本发明中所描述的一或多个技术的用于确定视频数据的信息的实例方法的流程图。

图6为说明根据本发明中所描述的一或多个技术的用于用信号传送视频数据的信息的实例方法的流程图。

图7为说明根据本发明中所描述的一或多个技术的用于预提取视频数据的实例方法的流程图。

具体实施方式

本发明涉及虚拟实境(VR)。更具体地说，本发明揭示用于产生VR视频中的一或多个最感兴趣的区域的集合，用信号传送最感兴趣的区域的信息和使用所述信息来编码、流式传输、播放和管理VR视频内容的一些方法。

一般来说，本发明描述用于产生包含表示视频数据的图像的一或多个最感兴趣的区域的数据的视频内容的技术。导演或制片人可选择一或多个最感兴趣的区域，或计算装置可根据服务或内容提供商提供的用户统计数据推导一或多个最感兴趣的区域，例如通过在通过流式传输服务提供全向视频内容时用户请求/观看最多的区域的统计数据。在任何情况下，客户端装置可使用一或多个最感兴趣的区域预提取用于一或多个最感兴趣的区域的视频数据以改善视频的播放，所述视频例如虚拟实境视频，其也被称作360视频。

具体地说，客户端装置可(例如)使用在用于发射位流的视频译码层数据的标头或消息中所接收的信息来确定表示一或多个最感兴趣的区域的数据。在利用表示一或多个最感兴趣的区域的数据确定一或多个最感兴趣的区域后，客户端装置可产生指定一或多个最感兴趣的区域的请求。在请求一或多个最感兴趣的区域之后，客户端装置可使用用户视野(FOV)请求图像的一或多个其它区域。以这种方式，一或多个最感兴趣的区域的视频数据可(例如，在接收用户的FOV之前经请求)预提取，由此改善例如虚拟实境视频的视频的播放。

本发明的技术可应用于符合根据以下各者中的任一个封装的视频数据的视频文件：ISO基本媒体文件格式、可调式视频译码(SVC)文件格式、先进视频译码(AVC)文件格式、第三代合作伙伴计划(3GPP)文件格式和/或多视图视频译码(MVC)文件格式或其它类似视频文件格式。

本发明的技术可应用于用于流式传输媒体数据的环境，例如HTTP动态自适应流式传输(DASH)环境。这些技术可用于支持HTTP实况流式传输(HLS)或其它实况流式传输服务。尽管通常关于DASH和HLS论述，但本发明的技术可适用于其它网络流式传输协议。在ISO/IEC 23009-1:2012“信息技术——HTTP的动态自适应流式传输(DASH)——第1部分：媒体呈现描述和段格式(Information technology-Dynamic adaptive streaming over HTTP(DASH)-Part 1:Media presentation description and segment formats)”中具体说明DASH，2012年4月1日发布于http://standards.iso.org/ittf/PubliclyAvailableStandards/c057623_ISO_IEC_23009-1_2012.zip。

在HTTP流式传输中，经常使用的操作包含HEAD、GET和部分GET。HEAD操作检索与给定的统一资源定位符(URL)或统一资源名称(URN)相关联的文件的标头，但不检索与所述URL或URN相关联的有效负载。GET操作检索与给定URL或URN相关联的整个文件。部分GET操作接收字节范围作为输入参数且检索文件的连续数目个字节，其中字节的数目对应于所接收到的字节范围。因此，可提供电影片段以用于HTTP流式传输，这是因为部分GET操作可获得一或多个单独电影片段。在电影片段中，可存在不同播放轨的若干播放轨片段。在HTTP流式传输中，媒体呈现可为客户端可存取的数据的结构化集合。客户端可请求且下载媒体数据信息以向用户呈现流式传输服务。

在使用HTTP流式传输来流式传输3GPP数据的实例中，可存在多媒体内容的视频和/或音频数据的多个表示。如下文所解释，不同表示可对应于不同译码特征(例如，视频译码标准的不同简档或层级)、不同译码标准或译码标准的扩展(例如，多视图和/或可缩放扩展)或不同位速率。这些表示的信息列表可定义在媒体呈现描述(MPD)数据结构中。媒体呈现可对应于HTTP流式传输客户端装置可存取的数据的结构化集合。HTTP流式传输客户端装置可请求且下载媒体数据信息以向客户端装置的用户呈现流式传输服务。媒体呈现可描述于MPD数据结构中，所述MPD数据结构可包含MPD的更新。

媒体呈现可含有一或多个周期的序列。每一周期可延长到下一周期开始为止，或在最后一周期下延长，直到媒体呈现结束。每一周期可含有同一媒体内容的一或多个表示。表示可为音频、视频、计时文字或其它此类数据的多种替代性经编码版本中的一个。所述表示的区别可在于编码类型，例如，用于视频数据的位速率、分辨率和/或编解码器，和用于音频数据的元速率、语言和/或编解码器。术语“表示”可用于指对应于多媒体内容的特定周期且以特定方式编码的经编码音频或视频数据的部分。

特定周期的表示可经指派到由MPD中的指示所述表示所属的适应集合的属性指示的群组。同一适应集合中的表示通常被视为彼此的替代，这是因为客户端装置可在这些表示之间动态且无缝地切换，(例如)以执行带宽适应。举例来说，特定周期的视频数据的每一表示可经指派到同一适应集合，以使得可选择所述表示中的任一个进行解码以呈现相对应的时段的多媒体内容的媒体数据(例如，视频数据或音频数据)。在一些实例中，一个周期内的媒体内容可或者由来自群组0(如果存在)的一个表示来表示或由来自每一非零群组的到多一个表示的组合来表示。一个周期的每一表示的时序数据可相对于所述周期的开始时间来表达。

一个表示可包含一或多个段。每一表示可包含初始化段，或表示的每一段可自初始化。当存在时，初始化段可含有用于存取表示的初始化信息。一般来说，初始化段不含有媒体数据。段可由识别符唯一地参考，所述识别符例如统一资源定位符(URL)、统一资源名称(URN)或统一资源识别符(URI)。MPD可提供每一段的识别符。在一些实例中，MPD也可提供呈范围属性的形式的字节范围，所述范围属性可对应于可由URL、URN或URI存取的文件内的段的数据。

可选择不同表示以用于大体上同时检索不同类型的媒体数据。举例来说，客户端装置可选择从其检索段的音频表示、视频表示和计时文字表示。在一些实例中，客户端装置可选择特定适应集合以用于执行带宽适应。即，客户端装置可选择包含视频表示的适应集合、包含音频表示的适应集合和/或包含计时文字的适应集合。替代地，客户端装置可选择用于某些类型的媒体(例如，视频)的适应集合，且直接选择用于其它类型的媒体(例如，音频和/或计时文字)的表示。

图1为说明实施用于经由网络流式传输媒体数据的技术的实例系统10的框图。在这个实例中，系统10包含内容准备装置20、服务器装置60和客户端装置40。客户端装置40与服务器装置60由网络74以通信方式耦合，所述网络可包括因特网。在一些实例中，内容准备装置20与服务器装置60也可由网络74或另一网络耦合，或可直接以通信方式耦合。在一些实例中，内容准备装置20与服务器装置60可包括相同装置。

在图1的实例中，内容准备装置20包括音频源22和视频源24。音频源22可包括(例如)麦克风，所述麦克风产生表示待由音频编码器26编码的所捕捉音频数据的电信号。替代地，音频源22可包括存储媒体(其存储先前记录的音频数据)、音频数据产生器(例如，计算机化的合成器)或任何其它音频数据源。视频源24可包括：摄像机，其产生待由视频编码器28编码的视频数据；存储媒体，其编码有先前记录的视频数据；视频数据产生单元，例如，计算机图形源；或任何其它视频数据源。内容准备装置20未必在所有实例中均以通信方式耦合到服务器装置60，而是可将多媒体内容存储到由服务器装置60读取的单独媒体。

原始音频和视频数据可包括模拟或数字数据。模拟数据可在由音频编码器26和/或视频编码器28编码之前数字化。音频源22可在说话参与者正在说话时从说话参与者获得音频数据，且视频源24可同时获得说话参与者的视频数据。在其它实例中，音频源22可包括有包括所存储音频数据的计算机可读存储媒体，且视频源24可包括有包括所存储的视频数据的计算机可读存储媒体。以这种方式，本发明中所描述的技术可应用于实况、流式传输、实时音频和视频数据或所存档的、预先记录的音频和视频数据。

对应于视频帧的音频帧通常为含有由音频源22捕捉(或产生)的音频数据的音频帧，所述音频数据同时伴随含于视频帧内的由视频源24捕捉(或产生)的视频数据。举例来说，当说话参与者通常通过说话而产生音频数据时，音频源22捕捉音频数据，且视频源24同时(即，在音频源22正捕捉音频数据的同时)捕捉说话参与者的视频数据。因此，音频帧在时间上可对应于一或多个特定视频帧。因而，对应于视频帧的音频帧通常对应于同时捕捉到的音频数据和视频数据的情形，且因此音频框和视频帧分别包括同时捕捉到的音频数据和视频数据。

在一些实例中，音频编码器26可对每一经编码音频帧中表示记录经编码音频帧的音频数据的时间的时戳进行编码，且类似地，视频编码器28可对每一经编码视频帧中表示记录经编码视频帧的视频数据的时间的时戳进行编码。在这些实例中，对应于视频帧的音频帧可包括有包括时戳的音频帧和包括相同时戳的视频帧。内容准备装置20可包括内部时钟，音频编码器26和/或视频编码器28可以根据所述内部时钟产生时戳，或音频源22和视频源24可以使用所述内部时钟分别使音频数据和视频数据与时戳相关联。

在一些实例中，音频源22可向音频编码器26发送对应于记录音频数据的时间的数据，且视频源24可向视频编码器28发送对应于记录视频数据的时间的数据。在一些实例中，音频编码器26可对经编码音频数据中的序列识别符进行编码以指示经编码音频数据的相对时间排序，但未必指示记录音频数据的绝对时间，且类似地，视频编码器28也可使用序列识别符来指示经编码视频数据的相对时间排序。类似地，在一些实例中，序列识别符可映射或以其它方式与时戳相关。

音频编码器26通常产生经编码音频数据的流式传输，而视频编码器28产生经编码视频数据的流式传输。每一个别数据(不论音频或视频)的流可被称为基本流。基本流为表示的单一经数字化译码(可能经压缩)的分量。举例来说，表示的经译码视频或音频部分可为基本流。基本流可在被封装于视频文件内之前转换成分组基本流(PES)。在相同表示内，可使用流ID来区分属于一个基本流的PES封包与属于其它基本流的PES封包。基本流的数据的基本单位为分组基本流(PES)封包。因此，经译码视频数据大体上对应于基本视频流。类似地，音频数据对应于一或多个相应基本流。

许多视频译码标准(例如，ITU-T H.264/AVC和即将到来的高效视频译码(HEVC)标准)定义无误差位流的语法、语义和解码过程，所述无误差位流中的任一个符合特定简档或层级。视频译码标准通常并不指定编码器，但编码器具有保证所产生的位流对于解码器来说是标准兼容的任务。在视频译码标准的上下文中，“简档”对应于算法、特性或工具和施加到算法、特征或工具的约束的子集。如由(例如)H.264标准所定义，“简档”为由H.264标准指定的完整位流语法的子集。“层级”对应于解码器资源消耗(例如，解码器存储器和计算)的限制，所述限制与图片分辨率、位速率和块处理速率有关。简档可用profile_idc(简档指示符)值用信号传送，而层级可用level_idc(层级指示符)值用信号传送。

举例来说，H.264标准认为，在由给定简档的语法所强加的界限内，其仍然可能要求编码器和解码器中的性能有较大变化，此取决于由位流中的语法元素(例如，经解码图片的指定大小)所取的值。H.264标准进一步认为，在许多应用中，实施能够处理特定简档内的语法的所有假设使用的解码器既不实际也不经济。因此，H.264标准将“层级”定义为强加于位流中的语法元素的值的限制的指定集合。这些约束可仅为对值的限制。替代地，这些限制可采取在值的运算组合上的限制的形式(例如，图片宽度乘以图片高度乘以每秒经解码图片的数目)。H.264标准进一步规定，个别实施方案对于每一所支持简档可支持不同层级。

符合简档的解码器一般支持简档中所定义的所有特征。举例来说，作为译码特征，B图片译码在H.264/AVC的基线简档中不受支持，但在H.264/AVC的其它简档中受支持。符合一个层级的解码器应能够对不需要超出所述层级中所定义的限制的资源的任何位流进行解码。简档和层级的定义可对可解译性有帮助。举例来说，在视频发射期间，可针对整个发射工作阶段协商和同意一对简档定义和层级定义。更具体地说，在H.264/AVC中，层级可定义对于需要处理的宏块的数目、经解码图片缓冲器(DPB)大小、经译码图片缓冲器(CPB)大小、竖直运动向量范围、每两个连续MB的运动向量的最大数目和B块是否可具有小于8×8像素的子宏块分区的限制。以这种方式，解码器可确定解码器是否能够恰当地对位流进行解码。

在图1的实例中，内容准备装置20的封装单元30从视频编码器28接收包括经译码视频数据的基本流，且从音频编码器26接收包括经译码音频数据的基本流。在一些实例中，视频编码器28和音频编码器26可各自包含用于从经编码数据形成PES封包的分组器。在其它实例中，视频编码器28和音频编码器26可各自与用于从经编码数据形成PES封包的个别分组器接口连接。在另外其它实例中，封装单元30可包含用于从经编码音频和视频数据形成PES封包的分组器。

视频编码器28可以多种方式对多媒体内容的视频数据进行编码，以产生多媒体内容的呈各种位速率且具有各种特性的不同表示，所述特性例如像素分辨率、帧速率、对各种译码标准的符合性、对各种译码标准的各种简档和/或简档层级的符合性、具有一或多个视图的表示(例如，用于二维或三维播放)或其它这些特性。如本发明中所使用，表示可包括音频数据、视频数据、文字数据(例如，用于封闭字幕)或其它此类数据中的一个。表示可包含例如音频基本流或视频基本流的基本流。每一PES封包可包含stream_id，其识别PES封包所属的基本流。封装单元30负责将基本流组译成各种表示的视频文件(例如，段)。

封装单元30从音频编码器26和视频编码器28接收表示的基本流的PES封包且从所述PES封包形成对应的网络抽象层(NAL)单元。经译码视频段可组织为NAL单元，其提供满足例如视频电话、存储、广播或流式传输等应用的“网络友好”视频表示。NAL单元可分类为视频译码层(VCL)NAL单元(例如，VCL数据)和非VCL NAL单元。VCL单元(也称为VCL数据)可含有核心压缩引擎且可包含块、宏块和/或切片层级数据。其它NAL单元可为非VCL NAL单元。在一些实例中，一个时间实例中的经译码图片(通常呈现为初级经译码图片)可含于存取单元中，所述存取单元可包含一或多个NAL单元。

非VCL NAL单元可尤其包含参数集NAL单元和补充增强信息(SEI)NAL单元。参数集可含有序列层级标头信息(在序列参数集(SPS)中)和不频繁改变的图片层级标头信息(在图片参数集(PPS)中)。就参数集(例如，PPS和SPS)来说，不需要针对每一序列或图片重复不频繁改变的信息，因此可改善译码效率。此外，使用参数集可实现重要标头信息的带外发射，从而避免对于用于抗误码的冗余发射的需要。在带外发射实例中，参数集NAL单元可在与其它NAL单元(例如，SEI NAL单元)不同的信道上发射。

SEI消息可含有对于解码来自VCL NAL单元的经译码图片样本来说为非必需的但可辅助与解码、显示、抗误码和其它目的相关的过程的信息。SEI消息可含于非VCL NAL单元中。SEI消息为一些标准规范的标准化部分，且因此对于标准兼容的解码器实施方案并非始终是必选的。SEI消息可为序列层级SEI消息或图片层级SEI消息。一些序列层级信息可含于SEI消息中，例如SVC的实例中的可调式性信息SEI消息，和MVC中的视图可调式性信息SEI消息。这些实例SEI消息可传达关于例如操作点的提取和操作点的特征的信息。另外，封装单元30可形成信息列表文件，例如描述表示的特性的媒体呈现描述符(MPD)。封装单元30可根据可延伸标记语言(XML)来格式化MPD。

封装单元30可向输出接口32提供多媒体内容的一或多个表示的数据以及信息列表文件(例如，MPD)。输出接口32可包括网络接口或用于写入到存储媒体的接口，例如通用串列总线(USB)接口、CD或DVD写入器或烧录器、到磁性或快闪存储媒体的接口，或用于存储或发射媒体数据的其它接口。封装单元30可向输出接口32提供多媒体内容的表示中的每一个的数据，所述输出接口可经由网络发射或存储媒体将数据发送到服务器装置60。在图1的实例中，服务器装置60包含存储各种多媒体内容64的存储媒体62，每一多媒体内容包含相应信息列表文件66和一或多个表示68A到68N(表示68)。在一些实例中，输出接口32也可将数据直接发送到网络74。

在一些实例中，表示68可分成若干适应集合。即，表示68的各种子集可包含相应共同特征集合，例如编解码器、简档和层级、分辨率、视图的数目、段的文件格式、可识别待与待解码和呈现的表示和/或音频数据(例如，由扬声器发出)一起显示的文字的语言或其它特征的文字类型信息、可描述适应集合中的表示的场景的摄影机角度或现实世界摄影机视角的摄影机角度信息、描述对于特定观众的内容适合性的分级信息等。

信息列表文件66可包含指示对应于特定适应集合的表示68的子集以及所述适应集合的共同特征的数据。信息列表文件66也可包含表示适应集合的个别表示的个别特性(例如，位速率)的数据。以这种方式，适应集合可提供简化的网络带宽调适。适应集合中的表示可使用信息列表文件66的适应集合元素的子代元素来指示。

服务器装置60包含请求处理单元70和网络接口72。在一些实例中，服务器装置60可包含多个网络接口。此外，服务器装置60的特征中的任一个或全部可在内容递送网络的其它装置(例如，路由器、桥接器、代理装置、交换器或其它装置)上实施。在一些实例中，内容递送网络的中间装置可高速缓存多媒体内容64的数据，且包含基本上符合服务器装置60的那些组件的组件。一般来说，网络接口72经配置以经由网络74来发送和接收数据。

请求处理单元70经配置以从客户端装置(例如，客户端装置40)接收对存储媒体62的数据的网络请求。举例来说，请求处理单元70可实施超文字传送协议(HTTP)版本1.1，如RFC 2616，R.费尔丁(Fielding)等人(网络工作组，IETF，1999年6月)的“超文字传送协议——HTTP/1.1(Hypertext Transfer Protocol-HTTP/1.1)”中所描述。即，请求处理单元70可经配置以接收HTTP GET或部分GET请求，且响应于所述请求而提供多媒体内容64的数据。请求可指定表示68中的一个的段，例如使用段的URL。在一些实例中，请求也可指定段的一或多个字节范围，因此包括部分GET请求。请求处理单元70可经进一步配置以服务于HTTPHEAD请求以提供表示68中的一个的段的标头数据。在任何情况下，请求处理单元70可经配置以处理所述请求以将所请求的数据提供到请求装置(例如，客户端装置40)。

另外或替代地，请求处理单元70可经配置以经由例如eMBMS的广播或多播协议来递送媒体数据。内容准备装置20可用与所描述大体上相同的方式产生DASH段和/或子段，但服务器装置60可使用eMBMS或另一广播或多播网络输送协议来递送这些段或子段。举例来说，请求处理单元70可经配置以从客户端装置40接收多播群组加入请求。即，服务器装置60可向与特定媒体内容(例如，实况事件的广播)相关联的客户端装置(包含客户端装置40)通告与多播群组相关联的因特网协议(IP)地址。客户端装置40又可提交加入多播群组的请求。此请求可遍及网络74(例如，组成网络74的路由器)中传播，使得致使路由器将预定用于与多播群组相关联的IP地址的业务导向到订用的客户端装置(例如，客户端装置40)。

如图1的实例中所说明，多媒体内容64包含信息列表文件66，所述信息列表文件可对应于媒体呈现描述(MPD)。信息列表文件66可含有不同替代表示68(例如，具有不同质量的视频服务)的描述，且描述可包含(例如)编码解码器信息、简档值、层级值、位速率和表示68的其它描述性特征。客户端装置40可检索媒体呈现的MPD以确定如何存取表示68的段。

明确地说，检索单元52可检索客户端装置40的配置数据(未图示)以确定视频解码器48的解码能力和视频输出44的呈现能力。配置数据也可包含由客户端装置40的用户选择的语言偏好、对应于由客户端装置40的用户设定的深度偏好的一或多个摄影机视角和/或由客户端装置40的用户选择的分级偏好中的任一个或全部。检索单元52可包括例如网页浏览器或媒体客户端，所述媒体客户端经配置以提交HTTP GET和部分GET请求。检索单元52可对应于由客户端装置40的一或多个处理器或处理单元(未图示)执行的软件指令。在一些实例中，关于检索单元52所描述的功能性的全部或部分可在硬件或硬件、软件和/或固件的组合中实施，其中可提供必需的硬件以执行软件或固件的指令。

检索单元52可将客户端装置40的解码和呈现能力与由信息列表文件66的信息指示的表示68的特征进行比较。检索单元52可首先检索信息列表文件66的至少一部分以确定表示68的特征。举例来说，检索单元52可请求描述一或多个适应集合的特征的信息列表文件66的一部分。检索单元52可选择具有客户端装置40的译码和呈现能力可满足的特征的表示68(例如，适应集合)的子集。检索单元52可接着确定适应集合中的表示的位速率，确定网络带宽的当前可用量，且从具有网络带宽可满足的位速率的表示中的一个检索段。

一般来说，较高位速率表示可产生较高质量的视频播放，而较低位速率表示可在可用网络带宽减少时提供足够质量的视频播放。因此，当可用网络带宽相对较高时，检索单元52可从相对较高位速率的表示检索数据，而当可用网络带宽较低时，检索单元52可从相对较低位速率的表示检索数据。以这种方式，客户端装置40可通过网络74流式传输多媒体数据，同时也适应网络74的改变的网络带宽可用性。

另外或替代地，检索单元52可经配置以根据例如eMBMS或IP多播的广播或多播网络协议来接收数据。在这些实例中，检索单元52可提交加入与特定媒体内容相关联的多播网络群组的请求。在加入多播群组之后，检索单元52可在无发布到服务器装置60或内容准备装置20的其它请求的情况下接收多播群组的数据。当不再需要多播群组的数据时，检索单元52可提交离开多播群组的请求，以(例如)停止播放或将信道改变到不同多播群组。

网络接口54可接收所选表示的段的数据且将所述所述数据提供到检索单元52，所述检索单元又可将所述段提供到解封装单元50。解封装单元50可将视频文件的元素解封装成组成PES流，将所述PES流解分组以检索经编码数据，且取决于经编码数据为音频流抑或视频流的部分(例如，如流的PES封包标头所指示)而将经编码数据发送到音频解码器46或视频解码器48。音频解码器46对经编码音频数据进行解码，且将经解码音频数据发送到音频输出42，而视频解码器48对经编码视频数据进行解码，且将经解码视频数据发送到视频输出44，所述经解码视频数据可包含流的多个视图。

视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、检索单元52和解封装单元50各自可实施为适用的多种合适处理电路中的任一个，所述合适处理电路例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器28和视频解码器48中的每一个可包含于一或多个编码器或解码器中，编码器或解码器中的任一个可经集成为组合式视频编码器/解码器(编码解码器)的部分。同样地，音频编码器26和音频解码器46中的每一个可包含于一或多个编码器或解码器中，所述编码器或解码器中的任一个可经集成为组合式编解码器的部分。包含视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、检索单元52和/或解封装单元50的装置可包括集成电路、微处理器和/或无线通信装置(例如，蜂窝式电话)。

视频译码标准包含：ITU-T H.261；ISO/IEC MPEG-1Visual；ITU-T H.262或ISO/IEC MPEG-2Visual；ITU-T H.263；ISO/IEC MPEG-4Visual；ITU-T H.264或ISO/IEC MPEG-4AVC，包含其可调式视频译码(SVC)和多视图视频译码(MVC)扩展；和也被称作ITU-T H.265和ISO/IEC 23008-2的高效视频译码(HEVC)，包含其可调式译码扩展(即，可调式高效视频译码SHVC)、多视图扩展(即，多视图高效视频译码MV-HEVC)和3D扩展(即，3D高效视频译码3D-HEVC)。

封装单元30可确定图像的一或多个最感兴趣的区域。如本文所使用，最感兴趣的区域可指用户查看的可能性较高的图像的区域。举例来说，最感兴趣的区域可指导演或制片人所选择的图像的区域。在一些实例中，最感兴趣的区域可指由计算装置根据服务或内容提供商提供的用户统计数据所推导的图像的区域，例如，通过在通过流式传输服务提供全向视频内容时用户请求/观看最多的区域的统计数据。

封装单元30可封装表示一或多个最感兴趣的区域的数据。在一些实例中，封装单元30可封装表示一或多个最感兴趣的区域的数据。举例来说，封装单元30可封装包含表示一或多个最感兴趣的区域的数据的SEI消息。在一些实例中，封装单元30可封装包含表示一或多个最感兴趣的区域的数据的文件格式数据。举例来说，封装单元30可封装包含表示一或多个最感兴趣的区域的逻辑框(例如，样本群逻辑框、样本表逻辑框、播放轨片段、段索引逻辑框等)。

封装单元30可封装表示一或多个最感兴趣的区域的数据，以使得表示一或多个最感兴趣的区域的数据包含于包含所述一或多个最感兴趣的区域的视频数据的位流中。举例来说，封装单元30可在输出特定图像的视频数据之前将表示特定图像的一或多个最感兴趣的区域的数据封装在文件格式数据中。在这个实例中，在将表示特定图像的一或多个最感兴趣的区域的数据封装在文件格式数据中之后，封装单元30可封装特定图像的视频数据。

现将论述关于最感兴趣的区域的信息的产生和使用。2016年5月19日申请的美国临时申请案62/339,009以其全文引用的方式并入本文中，其揭示由服务或内容提供商所提供的用户统计数据产生关于最感兴趣的区域的信息，例如，在VR视频内容通过流式传输服务提供时通过已由用户请求/观看最多的区域的统计数据，其中VR视频图片中的最感兴趣的区域为在图片的呈现时间以统计方式最可能呈现到用户的区域中的一个。美国临时申请案62/339,009中也出于各种VR性能改善的目的揭示关于最感兴趣的区域的信息的使用，例如，由边缘服务器或客户端在VR自适应流式传输中的数据预提取、在VR视频转码(例如)到不同编码解码器或投影映射时的转码优化、由边缘服务器或高速缓存存储器进行的高速缓存管理和由VR视频流式传输服务器进行的内容管理。最感兴趣的区域的用信号传送也已(例如)通过使用视频位流中的SEI消息、媒体文件中的文件格式样本群或HTTP动态自适应流式传输(DASH)媒体呈现描述(MPD)元素或使用样本群的属性来揭示。

相对于VR视频应用，当考虑利用关于最感兴趣的区域的信息的方式时，我们识别以下问题中的至少一些。作为一个实例，无机构可确保关于VR视频的最感兴趣的区域的信息可在关于所述信息的视频图片之前由自适应流式传输客户端或边缘服务器接收。在包含于SEI消息中时，如美国临时申请案62/339,009中所描述，信息将与所述信息所关于的经译码图片在一起。在包含于播放轨片段中时，文件格式样本群描述关于彼播放轨片段中的视频样本的信息。作为另一实例，在一些状况下，例如当图像块播放轨用于携载运动受限图像块或图像块区域时，不必通过所述区域的位置和大小用信号传送关于最感兴趣的区域的信息，而可使用更简单且更高效的用信号传送。

本发明描述用于VR视频中的一或多个最感兴趣的区域的先进用信号传送的若干技术，以使得关于VR视频的最感兴趣的区域的信息可在关于视频图片的信息之前由自适应流式传输客户端或边缘服务器接收。换句话说，VR视频中的一或多个最感兴趣的区域的先进用信号传送可准许关于VR视频的最感兴趣的区域的信息接收于不同于包含一或多个最感兴趣的区域的视频数据的数据集的数据集中。这些技术中的一或多个可独立地应用，或与其它技术组合而应用。

在一个实例中，提议，样本群在包含于播放轨片段逻辑框中时，可记录后续播放轨片段中的样本的信息，所述播放轨片段在含有播放轨中的样本群(分组类型的SampleToGroupBox和对应样本群描述逻辑框)的一个播放轨片段后面。举例来说，新版本的SampleToGroupBox经定义，且当特定分组类型的SampleToGroupBox包含于播放轨片段中时，要求使用新版本的SampleToGroupBox，且包含于相同分组类型的对应样本群输入项中的信息可记录包括播放轨中的样本群之后续播放轨片段中的样本的信息。

在另一实例中，用于描述最感兴趣的区域的样本群可至少含有以下语法元素中的一或多个。

样本群可含有指示最感兴趣的区域的数目的语法元素。

样本群可含有语法元素的集合的循环，每一集合描述最感兴趣的区域的位置和大小。举例来说，每一集合可包含指示作为最感兴趣的区域的矩形的四个角的的上部、底部、左侧和右侧偏移(以亮度样本相对于完整图片的数目为单位)的四个语法元素。对于最感兴趣的区域中的每一个，可由语法元素指示优先级，其中较高优先级指示较感兴趣的区域。

在一个实例中，每一集合可包含指示作为最感兴趣的区域的矩形的左上角的坐标(以亮度样本相对于完整图片的数目为单位)的两个语法元素，和指示矩形的宽度和高度的两个语法元素。

在第二实例中，每一集合可包含指示最感兴趣的区域的左上角的坐标(以亮度样本相对于完整图片的数目为单位)的两个语法元素两个语法元素。应注意，由此类坐标指向的最感兴趣的区域可并不具有矩形形状。文件剖析器应能够将坐标与检视区中的区域关联且能够发现播放轨/DASH表示，其中此类区域以最高分辨率/质量译码。

在第三实例中，第一与第二替代例可合并，其中引入旗标以指示最感兴趣的区域是否具有由宽度和高度描述的矩形形状。

在第四实例中，每一集合可包含指示作为最感兴趣的区域的矩形的左上角的坐标(以亮度样本相对于球形的数目为单位)的三个语法元素(例如，横偏度、间距度和半径长度)，和指示矩形之间距宽度和横偏高度的两个语法元素。文件剖析器应能够将球形中所描述的区域与相对于完整图片的区域相关联且能够发现播放轨DASH表示，其中此类区域以最高分辨率/质量译码。

在另一实例中，代替直接用信号传送最感兴趣的区域的位置和大小，可用信号传送涵盖最感兴趣的区域的图像块的图像块ID(如HEVC说明书中所指定)。

在另一实例中，代替直接用信号传送最感兴趣的区域的位置和大小，可用信号传送涵盖最感兴趣的区域的图像块区域的图像块区域ID或群组ID(如ISO/IEC 14496-15的条款10中所定义)。

在另一实例中，当使用如ISO/IEC 14496-15的条款10中所定义的图像块播放轨时，代替直接用信号传送最感兴趣的区域的位置和大小，可用信号传送携载涵盖最感兴趣的区域的运动受限图像块或图像块区域的播放轨的播放轨ID。

在另一实例中，在DASH用于流式传输VR视频时，使用如ISO/IEC 14496-15的条款10中所定义的图像块播放轨，且每一图像块播放轨封装于一个DASH表示中，代替直接用信号传送最感兴趣的区域的位置和大小，在MPD或MPD的更新中，可用信号传送对应于携载涵盖最感兴趣的区域的运动受限图像块或图像块区域的播放轨的表示的表示ID。

在另一实例中，当使用如ISO/IEC 14496-15的条款10中所定义的图像块播放轨时，一或多个最感兴趣的区域的信息可以基底图像块播放轨或非块式播放轨(即，经由‘TBAS’播放轨参考由其它播放轨指代的播放轨)用信号传送或可仅以基底图像块播放轨用信号传送。在此情况下，当样本群用于用信号传送时，样本编号为与当前播放轨相关联的图像块播放轨的那些。且在此情况下，可要求图像块播放轨的样本的数目相同且图像块播放轨的样本编号经对准。

在另一实例中，代替使用样本群，最感兴趣的区域的信息也可以新逻辑框用信号传送，所述新逻辑框直接或间接包含于样本表逻辑框、播放轨片段逻辑框和/或段索引逻辑框中，且允许新逻辑框记录关于后续播放轨片段或包括播放轨中的新逻辑框的一个段后的后续段的样本的信息。

在另一实例中，关于VR视频位流的特定图片集合的最感兴趣的区域的信息可使用SEI消息用信号传送。此SEI消息的实例经指定以可由语法、语义或两者应用于(一或多个)图片的集合。SEI消息可含有以下语法元素中的一或多个。

SEI消息可含有指示最感兴趣的区域的数目的语法元素。

SEI消息可含有语法元素集合的循环，每一集合描述最感兴趣的区域的位置和大小。举例来说，每一集合可包含指示作为最感兴趣的区域的矩形的四个角的上部、底部、左侧和右侧偏移(以亮度样本相对于完整图片的数目为单位)的四个语法元素。替代地，每一集合可包含指示作为最感兴趣的区域的矩形的左上角的坐标(以亮度样本相对于完整图片的数目为单位)的两个语法元素，和指示矩形的宽度和高度得两个语法元素。

对最感兴趣的区域中的每一个来说，可由语法元素指示优先权，SEI消息可含有指示较感兴趣的区域的较高优先权。

SEI消息可含有指示是否按解码次序消除此SEI消息的全部更早实例的效果的语法元素。

SEI消息可含有按输出次序指示未来图片或存取单元的语法元素，从此关于此SEI消息描述的最感兴趣的区域的信息开始应用。此指示可实施为差量POC(图片次序计数)(其相对于图片的POC或与SEI消息相关联的存取单元)或输出时间的差量。

SEI消息可含有指示此SEI消息的当前实例中的信息是否存留直到按输出次序的下一图片，或直到新经译码视频序列的开始，或直到位流的末端的语法元素。

客户端装置40、服务器装置60和/或内容准备装置20可经配置以根据本发明的技术操作。出于实例的目的，本发明关于客户端装置40和服务器装置60描述这些技术。然而，应理解，代替服务器装置60(或除服务器装置60以外)，内容准备装置20可经配置以执行这些技术。

封装单元30可形成NAL单元，所述NAL单元包括识别NAL单元所属的程序的标头，以及有效负载，例如音频数据、视频数据或描述NAL单元对应于的输送或程序流的数据。举例来说，在H.264/AVC中，NAL单元包含1字节标头和变化大小的有效负载。在其有效负载中包含视频数据的NAL单元可包括各种粒度级别的视频数据。举例来说，NAL单元可包括视频数据块、多个块、视频数据切片或视频数据的整个图片。封装单元30可从视频编码器28接收呈基本流的PES封包的形式的经编码视频数据。封装单元30可使每一基本流与对应程序相关联。

封装单元30也可组译来自多个NAL单元的存取单元。一般来说，存取单元可包括用于表示视频数据的帧以及对应于所述帧的音频数据(当此音频数据可用时)的一或多个NAL单元。存取单元通常包含针对一个输出时间实例的所有NAL单元，例如针对一个时间实例的所有音频和视频数据。举例来说，如果每一视图具有20帧每秒(fps)的帧速率，那么每一时间实例可对应于0.05秒的时间间隔。在此时间间隔期间，相同存取单元(相同时间实例)的所有视图的特定框架可同时呈现。在一个实例中，存取单元可包括一个时间实例中的经译码图片，所述经译码图片可呈现为初级经译码图片。

因此，存取单元可包括共同时间实例的所有音频帧和视频帧框，例如对应于时间X的所有视图。本发明也将特定视图的经编码图片称为“视图分量”。即，视图分量可包括在特定时间针对特定视图的经编码图片(或框)。因此，存取单元可定义为包括共同时间实例的所有视图分量。存取单元的解码次序未必与输出或显示次序相同。

媒体呈现可包含媒体呈现描述(MPD)，所述媒体呈现描述可含有不同替代表示(例如，具有不同质量的视频服务)的描述，且所述描述可包含(例如)编码解码器信息、简档值和层级值。MPD为信息列表文件(例如信息列表文件66)的一个实例。客户端装置40可检索媒体呈现的MPD以确定如何存取各种呈现的电影片段。电影片段可位于视频文件的电影片段逻辑框(moof逻辑框)中。

信息列表文件66(其可包括(例如)MPD)可通告表示68的段的可用性。即，MPD可包含指示表示68中的一个的第一段变得可获得时的挂钟时间的信息，以及指示表示68内的段的持续时间的信息。以这种方式，客户端装置40的检索单元52可基于开始时间以及在特定段之前的段的持续时间而确定每一段何时可用。在一些实例中，根据本发明的技术，信息列表文件66可包含表示特定图像中的一或多个最感兴趣的区域的数据。

在封装单元30已基于所接收的数据将NAL单元和/或存取单元组译成视频文件之后，封装单元30将视频文件传递到输出接口32以供输出。在一些实例中，封装单元30可将视频文件存储在本地，或经由输出接口32将视频文件发送到远程服务器，而非将视频文件直接发送到客户端装置40。输出接口32可包括(例如)发射器、收发器、用于将数据写入到计算机可读媒体的装置(例如光盘机、磁性媒体机(例如，软碟机))、通用串列总线(USB)端口、网络接口或其它输出接口。输出接口32将视频文件输出到计算机可读媒体，例如，发射信号、磁性媒体、光学媒体、存储器、快闪驱动机或其它计算机可读媒体。

网络接口54可经由网络74接收NAL单元或存取单元，且经由检索单元52将NAL单元或存取单元提供到解封装单元50。解封装单元50可将视频文件的元素解封装成组成PES流，解分组所述PES流以检索经编码数据，且取决于经编码数据为音频流或视频流的部分(例如，如流式传输的PES封包标头所指示)而将经编码数据发送到音频解码器46或视频解码器48。音频解码器46对经编码音频数据进行解码，且将经解码音频数据发送到音频输出42，而视频解码器48对经编码视频数据进行解码，且将经解码视频数据发送到视频输出44，所述经解码视频数据可包含流式传输的多个视图。

以这种方式，内容准备装置20表示用于用信号传送视频数据的信息的装置的实例，所述装置包含经配置以确定视频数据的图像的多个区域中的一或多个最感兴趣的区域的处理器。一或多个最感兴趣的区域包括最可能由客户端装置检索的一或多个区域。处理器经进一步配置以输出表示一或多个最感兴趣的区域的数据。表示一或多个最感兴趣的区域的数据包含于包含视频数据的位流中。处理器经进一步配置以在输出表示一或多个最感兴趣的区域的数据之后输出视频数据。

另外，客户端装置40表示用于确定视频数据的信息的装置的实例，所述装置包含经配置以利用表示一或多个最感兴趣的区域的数据确定视频数据的图像的多个区域中的一或多个最感兴趣的区域。处理器经进一步配置以使用表示一或多个最感兴趣的区域的数据产生指定一或多个最感兴趣的区域的请求且将请求输出到服务器装置。

图2为说明实例多媒体内容120的元素的概念图。多媒体内容120可对应于多媒体内容64(图1)，或对应于存储于存储媒体62中的另一多媒体内容。在图2的实例中，多媒体内容120包含媒体呈现描述(MPD)122和多个表示124A到124N(表示124)。表示124A包含任选地选用的标头数据126和段128A到128N(段128)，而表示124N包含任选地选用的标头数据130和段132A到132N(段132)。为了方便起见，使用字母N来指明表示124中的每一个中的最后一个电影片段。在一些实例中，表示124之间可存在不同数目的电影片段。

尽管图2描述其中系统10(图1)经配置用于DASH的实例，但在一些实例中，系统10可经配置用于其它媒体播放控制协议，例如(但不限于)实时流式传输协议(RTSP)、实时输送协议(RTP)、RTP控制协议(RTCP)、会话描述协议(SDP)、另一媒体播放控制协议或其组合。

MPD 122可包括与表示124分离的数据结构。MPD 122可对应于图1的信息列表文件66。同样地，表示124可对应于图2的表示68。一般来说，MPD 122可包含大体上描述表示124的特征的数据，例如译码和呈现特征、适应集合、MPD 122所对应的简档、文本类型信息、摄影机角度信息、分级信息、特技模式信息(例如，指示包含时间子序列的表示的信息)和/或用于检索远程周期(例如，用于在播放期间向媒体内容中插入针对性广告)的信息。

标头数据126(当存在时)可描述段128的特征，例如随机存取点(RAP，也称作流存取点(SAP))的时间位置、段128中的哪一个包含随机存取点、与段128内的随机存取点的字节偏移、段128的统一资源定位符(URL)，或段128的其它方面。标头数据130(当存在时)可描述段132的类似特征。另外或替代地，此类特征可完全包含于MPD 122内。

如所展示，标头数据126可包含可用于识别表示124A的表示识别符(“ID”)127。举例来说，内容准备装置20可指派表示124A表示识别符127。在这个实例中，内容准备装置20可指派表示124N不同于表示识别符127的表示识别符131。在一些实例中，ID 127、ID 131可对应于统一资源定位符(URL)前缀。举例来说，表示124A可具有识别符值“1”且可从“www.examole.com”获得,以使得ID 127可具有值“www.examole.com/1”。此外，段128、132中的每一个可包含识别符(例如，枚举识别符)以使URL完整。举例来说，可从“example.com”处的表示“1”获得的第一MP4段可具有URL“example.com/1/1.mp4”。内容准备装置20可将独特表示识别符指派到表示124中的每一个。

段128、132包含一或多个经译码视频样本，其中的每一个可包含视频数据的帧或切片。段128的经译码视频样本中的每一个可具有类似特征，例如，高度、宽度和带宽要求。这些特性可由MPD 122的数据来描述，不过此数据在图2的实例中未说明。MPD122可包含如由3GPP规范所描述的特征，并且添加了本发明中所描述的经用信号传送信息中的任一个或全部。

如上文所提及，段128、132中的每一个可与独特统一资源定位符(URL)相关联。因此，段128、132中的每一个可为使用流式传输网络协议(例如，DASH)而可独立地可检索的，但可使用其它流式传输网络协议。以这种方式，例如客户端装置40的目的地装置可使用HTTP GET请求来检索段128或132。在一些实例中，客户端装置40可使用HTTP部分GET请求来检索段128或132的特定字节范围。举例来说，客户端装置40可使用第一HTTP部分GET请求以首先从段128、132中的一个检索表示最感兴趣的区域的数据，确定最感兴趣的区域，接着使用第二HTTP部分GET请求以从段128、132中的一个预提取最感兴趣的区域的视频数据，假定最感兴趣的区域数据包含于例如文件格式信息中的段128、132内。

根据本发明的技术，MPD 122可包含表示一或多个最感兴趣的区域中的最感兴趣的区域数据。举例来说，对于段128、132中的每一个来说，MPD 122可包含表示最感兴趣的区域相对于基底区域的相应位置和最感兴趣的区域相对于基底区域的相应大小的元素或属性。

更具体地说，例如，对于段128、132中的每一个(段128、132内的一或多个图片)来说，MPD 122可包含(对于一或多个最感兴趣的区域中的每一个来说)表示相应最感兴趣的区域相对于基底区域的左侧水平偏移的第一语法元素、表示相应最感兴趣的区域相对于基底区域的顶部竖直偏移的第二语法元素、表示相应最感兴趣的区域相对于基底区域的宽度的第三语法元素和表示相应最感兴趣的区域相对于基底区域的高度的第四语法元素的元素或属性。

另外或替代地，并非直接用信号传送一或多个最感兴趣的区域的位置和大小，MPD122可包含指示一或多个最感兴趣的区域的位置和大小的识别符。举例来说，MPD 122可包含表示图像的一或多个表示的一或多个表示识别符，一或多个表示中的每一表示包含一或多个最感兴趣的区域的VCL数据。

图3为说明实例视频文件150的元素的框图，所述实例视频文件可对应于表示的段，例如图2的段128、132中的一个。段128、132中的每一个可包含大体上符合图3的实例中所说明的数据的布置的数据。视频文件150可被认为封装一个段。如上所述，根据ISO基本媒体文件格式和其扩展的视频文件将数据存储于一系列物件(被称为“逻辑框”)中。在图3的实例中，视频文件150包含文件类型(FTYP)逻辑框152、电影(MOOV)逻辑框154、段索引(SIDX)逻辑框162、电影片段(MOOF)逻辑框164、媒体数据(MDAT)逻辑框163和电影片段随机存取(MFRA)逻辑框166。尽管图3表示视频文件的实例，但应理解，根据ISO基本媒体文件格式和其扩展，其它媒体文件可包含在结构上类似于视频文件150的其它类型的媒体数据(例如，音频数据、计时文字数据或其类似者)。

FTYP逻辑框152通常描述视频文件150的文件类型。文件类型逻辑框152可包含识别描述视频文件150的最佳用途的规范的数据。文件类型逻辑框152可替代地放置在MOOV逻辑框154、MOOF逻辑框164和/或MFRA逻辑框166之前。

在一些实例中，段(例如，视频文件150)可包含在FTYP逻辑框152之前的MPD更新逻辑框(未图示)。MPD更新逻辑框可包含指示对应于包含视频文件150的表示的MPD待更新的信息以及用于更新MPD的信息。举例来说，MPD更新逻辑框可提供待用于更新MPD的资源的URI或URL。作为另一实例，MPD更新逻辑框可包含用于更新MPD的数据。在一些实例中，MPD更新逻辑框可紧接在视频文件150的段类型(STYP)逻辑框(未图示)之后，其中STYP逻辑框可定义视频文件150的段类型。

在图3的实例中，MOOV逻辑框154包含电影标头(MVHD)逻辑框156和播放轨(TRAK)逻辑框158。一般来说，MVHD逻辑框156可描述视频文件150的一般特征。举例来说，MVHD逻辑框156可包含描述视频文件150何时最初建立、视频文件150何时经最后修改、视频文件150的时间标度、视频文件150的播放持续时间的数据，或大体上描述视频文件150的其它数据。

TRAK逻辑框158可包含视频文件150的播放轨的数据。TRAK逻辑框158可包含描述对应于TRAK逻辑框158的播放轨的特征的播放轨标头(TKHD)逻辑框。如所展示，TRAK逻辑框158可包含播放轨识别符(ID)160。在一些实例中，TRAK逻辑框158可包含经译码视频图片，而在其它实例中，播放轨的经译码视频图片可包含于MDAT逻辑框163中，所述图片可由TRAK逻辑框158和/或SIDX逻辑框162的数据引用。

在一些实例中，TRAK逻辑框158可包含播放轨基底‘TBAS’参考(或简称基底参考)161。基底参考161指不包含VCL NAL单元的HEVC或L-HEVC图像块基底播放轨。应理解，基底参考161可包含于TRAK逻辑框158的逻辑帧内。举例来说，基底参考161可包含于播放轨参考逻辑框(‘TREF’)中，其直接包含于TRAK逻辑框158中。

视频文件150可包含包含于视频文件150中的每一相应播放轨的相应对MOOF逻辑框164和MDAT逻辑框163。如所展示，在图3的实例中，每一MOOF逻辑框164包含包含于视频文件150中的每一相应播放轨的播放轨片段(TRAF)逻辑框165。一般来说，TRAF逻辑框165可包含相应播放轨的非VCL数据和VCL数据。此外，MOOV逻辑框154可包含TRAK逻辑框的数目，所述数目等于视频文件150中的播放轨的数目。TRAK逻辑块158可描述视频文件150的对应播放轨的特征。举例来说，TRAK逻辑框158可描述TRAF逻辑框165的对应播放轨的时间和/或空间信息。当封装单元30(图1)包含视频文件(例如，视频文件150)中的参数集播放轨时，TRAF逻辑框165可描述参数集播放轨的特征。封装单元30可在描述参数集轨道的TRAK逻辑框158内用信号传送序列层级SEI消息存在于参数集播放轨中。

在图3的实例中，TRAF逻辑框165包含样本表逻辑框(STBL)176。STBL 176可包含指定样本群的特征的信息。举例来说，如所展示，STBL 176可包含图像块区域群组输入项(TRIF)177，所述输入项可指定与群组识别符174相关联的图像块区域。

在图3的实例中，MDAT逻辑框163包含SEI消息178和VCL NAL单元170。NAL单元170可包含一或多个经译码视频图片。VCL NAL单元170可包含一或多个图像块。在图3的实例中，VCL NAL单元170包含表示包含于VCL NAL单元170中的图像块的图像块识别符172。

在一些实例中，VCL NAL单元170可包含一或多组图片(GOP)，其中的每一个可包含多个经译码视频图片，例如帧或图片。另外，如上文所描述，在一些实例中MDAT逻辑框163可包含序列数据集。TRAF逻辑框165可包含电影片段标头逻辑框(MFHD，图3中未展示)。MFHD逻辑框可描述MDAT逻辑框163的对应电影片段的特征，例如对应电影片段的序列编号。MDAT逻辑框163可按序列编号的次序包含于视频文件150中。

SIDX逻辑框162为视频文件150的可选元素。即，符合3GPP文件格式或其它这些文件格式的视频文件未必包含SIDX逻辑框162。根据3GPP文件格式的实例，SIDX逻辑框可用于识别段(例如，含于视频文件150内的段)的子段。3GPP文件格式将子段定义为“具有一或多个对应媒体数据逻辑框的一或多个连续电影片段逻辑框的自含式集合，且含有由电影片段逻辑框引用的数据的媒体数据逻辑框必须跟在那个电影片段逻辑框之后且在含有关于同一播放轨的信息之下一个电影片段逻辑框之前”。3GPP文件格式也指示SIDX逻辑框“含有对由逻辑框记录的(子)段的子段引用的序列。所引用的子段在呈现时间上连续。类似地，由段索引逻辑框引用的字节始终在段内连续。所引用大小给出所引用材料中的字节的数目的计数”。

SIDX逻辑框162通常提供表示包含于视频文件150中的段的一或多个子段的信息。举例来说，此信息可包含子段开始和/或结束的播放时间、子段的字节偏移、子段是否包含(例如，开始于)流存取点(SAP)、SAP的类型(例如，SAP为瞬时解码器再新(IDR)图片、清洁随机存取(CRA)图片、断链存取(BLA)图片或类似者)、SAP在子段中的位置(就播放时间和/或字节偏移来说)和其类似者。

如上文所提及，封装单元30可存储视频样本中不包含实际经译码视频数据的序列数据集。视频样本可大体上对应于存取单元，所述存取单元为特定时间实例处的经译码图片的表示。在AVC的上下文中，经译码图片包含含有构建存取单元的所有像素的信息的至少一个VCL NAL单元170和其它相关联的非VCL NAL单元(例如SEI消息178)。因此，封装单元30可包含MDAT逻辑框163中的序列数据集，所述数据集可包含SEI消息178。封装单元30可进一步将序列数据集和/或SEI消息178的存在用信号传送为存在于MDAT逻辑框163中。

视频文件150可包含表示根据本发明的技术的一或多个最感兴趣的区域的数据。更具体地说，视频文件150可包含表示视频文件150的文件格式标头信息中的一或多个最感兴趣的区域的数据。举例来说，视频文件150可包含用信号传送一或多个最感兴趣的区域信息的文件格式信息。在一些实例中，图2的SEI消息178和/或MPD 122可包含表示一或多个最感兴趣的区域的数据。

SEI消息178可包含为H.264/AVC、H.265/HEVC或其它视频编解码器规范的部分。在图3的实例中，SEI消息178可包含表示(例如)VCL NAL单元170的对应图片的最感兴趣的区域的数据。在其它实例中，此类最感兴趣的区域数据可包含于1)用于用信号传送文件格式的信息的文件格式逻辑框或结构、用于用信号传送另一个逻辑框或结构中的DASH MPD(例如，图2的MPD 122)中的信息的DASH MPD属性或元素或其组合。

MFRA逻辑框166可描述视频文件150的电影片段内的随机存取点。此可帮助执行特技模式，例如执行对由视频文件150封装的段内的特定时间位置(即，播放时间)的搜索。在一些实例中，MFRA逻辑框166通常是视可选的且不必包含于视频文件中。同样地，客户端装置(例如，客户端装置40)未必需要参考MFRA逻辑框166以恰当地解码和显示视频文件150的视频数据。MFRA逻辑框166可包含多个播放轨片段随机存取(TFRA)逻辑框(未图示)，这些于视频文件150的播放轨的数目或在一些实例中等于视频文件150的媒体播放轨(例如，非提示播放轨)的数目。

在一些实例中，电影片段可包含一或多个流存取点(SAP)，例如，IDR图片。同样地，MFRA逻辑框166可提供对SAP在视频文件150内的位置的指示。因此，视频文件150的时间子序列可由视频文件150的SAP形成。时间子序列也可包含其它图片，例如依取决于SAP的P帧和/或B帧。时间子序列的帧和/或切片可布置于段内，以使得取决于子序列的其它帧/切片的时间子序列的帧/切片可被正确地解码。举例来说，在数据的阶层式布置中，用于其它数据的预测的数据也可包含于时间子序列中。

根据本发明的技术，视频文件150的文件格式信息中的数据结构可包含表示一或多个最感兴趣的区域的最感兴趣的区域数据。举例来说，STBL 176可包含表示一或多个最感兴趣的区域的最感兴趣的区域数据。在一些实例中，TRAF逻辑框165可包含表示一或多个最感兴趣的区域的最感兴趣的区域数据。在一些实例中，SIDX逻辑框162可包含表示一或多个最感兴趣的区域的最感兴趣的区域数据。另外或替代地，SEI消息178可包含表示一或多个最感兴趣的区域的最感兴趣的区域数据。

对于一或多个最感兴趣的区域中的每一最感兴趣的区域，视频文件150的文件格式信息中的数据结构可包含指示，表示相应最感兴趣的区域的位置和相应最感兴趣的区域的大小的多个语法元素的多个值。举例来说，对于一或多个最感兴趣的区域的每一最感兴趣的区域，STBL 176可包含指定表示相应最感兴趣的区域的位置和相应最感兴趣的区域的大小的多个语法元素的多个值的最感兴趣的区域数据。在一些实例中，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，TRAF逻辑框165可包含指定表示相应最感兴趣的区域的位置和相应最感兴趣的区域的大小的多个语法元素的多个值的最感兴趣的区域数据。在一些实例中，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，SIDX逻辑框162可包含指定表示相应最感兴趣的区域的位置和相应最感兴趣的区域的大小的多个语法元素的多个值的最感兴趣的区域数据。另外或替代地，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，SEI消息178可包含指定表示相应最感兴趣的区域的位置和相应最感兴趣的区域的大小的多个语法元素的多个值的最感兴趣的区域数据。

在一些实例中，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，视频文件150可包含表示相应最感兴趣的区域相对于完整图像的上部偏移的第一语法元素、表示相应最感兴趣的区域相对于完整图像的底部偏移的第二语法元素、表示相应最感兴趣的区域相对于完整图像的左侧偏移的第三语法元素和表示相应最感兴趣的区域相对于完整图像的右侧偏移的第四语法元素。

在一些实例中，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，视频文件150可包含表示在相对于完整图像的亮度样本中作为个别最感兴趣的区域的矩形的左上角的坐标的两个语法元素的第一集合，和表示相应最感兴趣的区域的宽度和高度的两个语法元素的第二集合。

在一些实例中，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，视频文件150可包含表示在关于完整图像的亮度样本中作为相应最感兴趣的区域的矩形的左上角的坐标的两个语法元素的集合。在一些实例中，对于一或多个最感兴趣的区域的每一最感兴趣的区域，视频文件150可包含指示相应最感兴趣的区域是否包含表示相应最感兴趣的区域的宽度和高度的两个语法元素的集合的旗标。

在一些实例中，对于一或多个最感兴趣的区域的每一最感兴趣的区域，视频文件150可包含指示在关于图像的球形的亮度样本中作为相应最感兴趣的区域的矩形的左上角的坐标的三个语法元素(例如，横偏度、间距度和半径长度)的集合，和表示相应最感兴趣的区域之间距的宽度和横偏的高度的两个语法元素的集合。

可包含于TRAF逻辑框165中的样本群的详细实例如下。

新样本群经设计用于用信号传送VR视频的一或多个最感兴趣的区域。样本分群类型为‘mir’。

一或多个最感兴趣的区域样本群记录表示于文件中的VR视频的一或多个最感兴趣的区域。一或多个最感兴趣的区域可由导演或制片人的意图来确定，或由服务或内容提供商所提供的用户统计数据来确定，例如，通过在通过流式传输服务提供VR视频内容时由用户请求/观看最多的区域的统计数据。VR视频图片中的最感兴趣的区域为在图片的呈现时间最可能以统计方式呈现到用户的区域中的一个。

注意：最感兴趣的区域的信息可用于通过边缘服务器或客户端在VR自适应流式传输中的数据预提取，和/或在VR视频转码(例如)到不同编码解码器投影映射时的转码优化。

在这个实例中，当具有grouping_type等于‘mir’的SampleToGroupBox包含于播放轨片段逻辑框(‘TRAF’)中时，SampleToGroupBox的版本应等于2。

在这个实例中，SampleToGroupBox的版本2允许记录于SampleToGroupBox中的样本指含于一或多个后续播放轨片段中的样本。换句话说，当对于SampleToGroupBox来说版本为2时，此逻辑框中的总样本计数大于当前播放轨片段逻辑框中的样本的总数并非错误，但此逻辑框中的总样本计数大于始于播放轨中的当前播放轨片段的全部播放轨片段中的样本的总数为错误，且在那个情况中，读取器行为将不确定。

在这个实例中，样本群输入项的语法如下：

在这个实例中，上文所论述的实例语法的语义如下：

entry_count指定样本群输入项中的输入项的数目。

left_horizontal_offset、top_vertical_offset、region_width和region_height为指示最感兴趣的区域的位置和大小的整数值。left_horizontal_offset和top_vertical_offset各自地指示在亮度样本中经译码图片中的最感兴趣的区域的左上角的水平和垂直坐标，此样本群输入项适用于所述经译码图片。region_width和region_height各自地指示在亮度样本中经译码图片中的最感兴趣的区域的宽度和高度，此样本群输入项适用于经译码图片。

替代地，left_horizontal_offset、top_vertical_offset、region_width和region_height的语义如下：

left_horizontal_offset、top_vertical_offset、region_width和region_height为指示最感兴趣的区域的位置和大小的整数值。left_horizontal_offset和top_vertical_offset各自地指示在亮度样本中此样本群输入项适用于且在全部替代播放轨中具有最高分辨率的经译码图片中的最感兴趣的区域的左上角的水平和竖直坐标。region_width和region_height各自地指示在亮度样本中此样本群输入项适用于且在全部替代播放轨中具有最高分辨率的经译码图片中的最感兴趣的区域的宽度和高度。

对于一或多个最感兴趣的区域中的每一最感兴趣的区域，视频文件150的文件格式信息中的数据结构可包含指示，表示相应最感兴趣的区域相对于基底区域的位置和相应最感兴趣的区域相对于基底区域的大小的多个语法元素的多个值。举例来说，STBL 176可包含为一或多个最感兴趣的区域中的每一最感兴趣的区域指定表示相应最感兴趣的区域相对于基底区域的位置和相应最感兴趣的区域相对于基底区域的大小的多个语法元素的多个值的最感兴趣的区域数据。在一些实例中，TRAF逻辑框165可包含为一或多个最感兴趣的区域中的每一最感兴趣的区域指定表示相应最感兴趣的区域相对于基底区域的位置和相应最感兴趣的区域相对于基底区域的大小的多个语法元素的多个值的最感兴趣的区域数据。在一些实例中，SIDX逻辑框162可包含为一或多个最感兴趣的区域中的每一最感兴趣的区域指定表示相应最感兴趣的区域相对于基底区域的位置和相应最感兴趣的区域相对于基底区域的大小的多个语法元素的多个值的最感兴趣的区域数据。另外或替代地，SEI消息178可包含为一或多个最感兴趣的区域中的每一最感兴趣的区域指定表示相应最感兴趣的区域相对于基底区域的位置和相应最感兴趣的区域相对于基底区域的大小的多个语法元素的多个值的最感兴趣的区域数据。

更具体地说，例如，对于一或多个最感兴趣的区域的每一最感兴趣的区域来说，视频文件150的文件格式信息中的数据结构可包含：表示相应最感兴趣的区域相对于基底区域的左侧水平偏移的第一语法元素；表示相相应最感兴趣的区域对于基底区域的顶部竖直偏移的第二语法元素；表示相应最感兴趣的区域相对于基底区域的宽度的第三语法元素；和表示相应最感兴趣的区域相对于基底区域的高度的第四语法元素。在一些实例中，对于一或多个最感兴趣的区域的每一最感兴趣的区域来说，视频文件150可包含：表示相应最感兴趣的区域相对于基底区域的上部偏移的第一语法元素；表示相应最感兴趣的区域相对于基底区域的底部偏移的第二语法元素；表示相应最感兴趣的区域相对于基底区域的左侧偏移的第三语法元素；和表示相应最感兴趣的区域相对于基底区域的右侧偏移的第四语法元素。

举例来说，对于一或多个最感兴趣的区域的每一最感兴趣的区域，STBL 176可包含：表示相应最感兴趣的区域相对于基底区域的左侧水平偏移的第一语法元素；表示相应最感兴趣的区域相对于基底区域的顶部竖直偏移的第二语法元素；表示相应最感兴趣的区域相对于基底区域的宽度的第三语法元素；和表示相应最感兴趣的区域相对于基底区域的高度的第四语法元素。

在一些实例中，对于一或多个最感兴趣的区域的每一最感兴趣的区域来说，TRAF逻辑框165可包含：表示相应最感兴趣的区域相对于基底区域的左侧水平偏移的第一语法元素；表示相应最感兴趣的区域相对于基底区域的顶部竖直偏移的第二语法元素；表示相应最感兴趣的区域相对于基底区域的宽度的第三语法元素；和表示相应最感兴趣的区域相对于基底区域的高度的第四语法元素。

可包含于TRAF逻辑框165中的样本群的详细实例如下。

注意：最感兴趣的区域的信息可用于由边缘服务器或客户端在VR自适应流式传输中的数据预提取，和/或在VR视频转码(例如)到不同编码解码器投影映射时的转码优化。

在实例中，样本群输入项的语法如下：

且这个实例中的语义如下：

regionbase_track_id针对基底区域的规格指定播放轨，针对所述规格指定一或多个最感兴趣的区域的位置和大小。使在当前播放轨中且此样本群输入项适用于的样本为目标样本。在track_id等于regionbase_track_id的播放轨中的样本与作为并列样本的目标样本具有相同的样本编号。基底区域为全部或部分由并列样本中所携载的经译码视频数据表示的图片的完整区域。

entry_count指定样本群输入项中的输入项的数目。

left_horizontal_offset、top_vertical_offset、region_width和region_height为指示最感兴趣的区域的位置和大小的整数值。left_horizontal_offset和top_vertical_offset各自地指示在亮度样本中最感兴趣的区域相对于基底区域的左上角的水平和竖直坐标。region_width和region_height各自地指示在亮度样本中的最感兴趣的区域相对于基底区域的宽度和高度。

在一些实例中，对于一或多个最感兴趣的区域的每一最感兴趣的区域来说，SIDX逻辑框162可包含：表示相应最感兴趣的区域相对于基底区域的左侧水平偏移的第一语法元素；表示相应最感兴趣的区域相对于基底区域的顶部竖直偏移的第二语法元素；表示相应最感兴趣的区域相对于基底区域的宽度的第三语法元素；和表示相应最感兴趣的区域相对于基底区域的高度的第四语法元素。

另外或替代地，对于一或多个最感兴趣的区域的每一最感兴趣的区域来说，SEI消息178可包含：表示相应最感兴趣的区域相对于基底区域的左侧水平偏移的第一语法元素；表示相应最感兴趣的区域相对于基底区域的顶部竖直偏移的第二语法元素；表示相应最感兴趣的区域相对于基底区域的宽度的第三语法元素；和表示相应最感兴趣的区域相对于基底区域的高度的第四语法元素。

对于一或多个最感兴趣的区域中的每一最感兴趣的区域，视频文件150的文件格式信息中的数据结构可包含指示，表示图像的一或多个图像块的一或多个图像块识别符。举例来说，对于一或多个最感兴趣的区域的每一最感兴趣的区域，STBL 176可包含指定表示图像的一或多个图像块的一或多个图像块识别符的最感兴趣的区域数据。在一些实例中，对于一或多个最感兴趣的区域的每一最感兴趣的区域，TRAF逻辑框165可包含指定表示图像的一或多个图像块的一或多个图像块识别符的最感兴趣的区域数据。在一些实例中，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，SIDX逻辑框162可包含指定表示图像的一或多个图像块的一或多个图像块识别符的最感兴趣的区域数据。另外或替代地，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，SEI消息178可包含指定表示图像的一或多个图像块的一或多个图像块识别符的最感兴趣的区域数据。在一些实例中，由一或多个图像块识别符指定的图像的一或多个图像块与一或多个最感兴趣的区域在空间并列。以这种方式，一或多个图像块识别符可识别一或多个最感兴趣的区域，而不直接用信号传送一或多个最感兴趣的区域的位置和大小。

对于一或多个最感兴趣的区域中的每一最感兴趣的区域，视频文件150的文件格式信息中的数据结构可包含表示图像的多个区域中的一或多个区域的一或多个群组识别符。举例来说，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，STBL 176可包含表示图像的多个区域中的一或多个区域的一或多个群组识别符。在一些实例中，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，TRAF逻辑框165可包含表示图像的多个区域中的一或多个区域的一或多个群组识别符。在一些实例中，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，SIDX逻辑框162可包含表示图像的多个区域中的一或多个区域的一或多个群组识别符。另外或替代地，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，SEI消息178可包含表示图像的多个区域中的一或多个区域的一或多个群组识别符。

对于一或多个最感兴趣的区域中的每一最感兴趣的区域，视频文件150的文件格式信息中的数据结构可包含表示一或多个播放轨的一或多个播放轨识别符。举例来说，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，STBL 176可包含表示一或多个播放轨的一或多个播放轨识别符。在一些实例中，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，TRAF逻辑框165可包含表示一或多个播放轨的一或多个播放轨识别符。在一些实例中，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，SIDX逻辑框162可包含表示一或多个播放轨的一或多个播放轨识别符。另外或替代地，对于一或多个最感兴趣的区域中的每一最感兴趣的区域，SEI消息178可包含表示一或多个播放轨的一或多个播放轨识别符。在一些实例中，由一或多个播放轨识别符指定的一或多个播放轨包含一或多个最感兴趣的区域的VCL数据。以这种方式，一或多个播放轨识别符可识别一或多个最感兴趣的区域，而不直接用信号传送一或多个最感兴趣的区域的位置和大小。

视频文件150的文件格式信息中的数据结构可包含表示一或多个基底图像块播放轨的基底参考161。举例来说，TRAK逻辑框158可包含表示指定一或多个最感兴趣的区域的基底图像块播放轨的一或多个基底图像块播放轨识别符。

SEI消息178可包含指示表示图像次序计数的一或多个语法元素的语法元素。图像次序计数可指示表示一或多个最感兴趣的区域的数据适用于图像。

图4为以立方体投影230说明实例图像块译码的概念图。立方体投影230包含如所展示的立方体面232A、232B、232C，且包含由于被遮挡而未展示的额外立方体面。在这个实例中，将立方体投影230的立方体面中的每一个划分成四个图像块：将立方体面232A划分成四个图像块234A到234D，将立方体面232B划分成四个图像块236A到236D，且将立方体面232C划分成四个图像块238A到238D。在这个实例中，其它未展示的立方体面将也划分成四个相应图像块，总共24个较小图像块。一般来说，内容准备装置20可提供图像块(例如，图像块234A到234D、图像块236A到236D、图像块238A到238D和未经展示的立方体面的图像块)中的每一个的视频数据。

另外，内容准备装置20可提供较大图像块的视频数据，所述较大图像块可覆盖立方体面中的每一个。举例来说，内容准备装置20可提供覆盖立方体面232A的图像块的视频数据、覆盖立方体面232B的图像块的视频数据、覆盖立方体面232C的图像块的视频数据和覆盖未展示的立方体面的图像块的视频数据。在一些实例中，视频编码器28可仅针对更可能被观看的那些视点编码较大图像块大小。因此，如果用户将不大可能向上看或向下看，那么视频编码器28可仅针对覆盖立方体面232B和232C的较大图像块和针对立方体面232B和232C的相对立方体面但不针对(例如)立方体面232A译码视频数据。任选地，图像块中的每一个可具有针对立体视频数据的左侧视图和右侧视图。

VR是虚拟存在于通过呈现由与沈浸的用户的移动而相互关联的天然和/或合成图像与声音所产生的非实际世界中，从而允许用户与彼世界交互。随着在呈现装置(例如，头戴式显示器(HMD))和VR视频创建(通常也被称作360度视频)中所取得的最新进展，可提供显著的体验质量。VR应用包含游戏、训练、教育、体育视频、线上购物、成人娱乐等等。

典型VR系统可包含以下组件和技术：

摄影机组，其通常由指向不同方向且理想地共同覆盖摄影机组周围的所有视点的多个单独摄像机组成。

图像拼接，其中由多个个别摄像机采取的视频图片在时域中同步且在空间域中拼接为球形视频，但映射到矩形格式，例如，等矩形(类似于世界地图)或立方体映射。

使用视频编解码器(例如，H.265/HEVC或H.264/AVC)编码/压缩呈经映射矩形格式的视频。

经压缩的视频位流可以媒体格式存储和/或封装且经由网络发射(可能只有仅覆盖用户看见的区域的子集)到接收器。

接收器接收可能以一个格式封装的视频位流或其部分，且将经解码视频信号或其部分发送到呈现装置。

呈现装置可为(例如)HMD，其可追踪头部移动且甚至眼睛移动时刻且呈现视频的对应部分以使得将沈浸体验递送到用户。

与普通视频相比，VR视频的特征为在VR中，通常仅显示视频图片呈现的整个视频区域的对应于当前FOV(也被称作检视区，例如，用户当前正观看的区域)的子集，而在普通视频应用中，通常显示整个视频区域。此特征可用于(例如)通过使用检视区依赖性投影映射或检视区依赖性视频译码来改善VR视频系统的性能。在呈现到用户的视频部分的分辨率/质量相同的情况下，与常规VR视频系统相比，性能改善可为降低发射带宽且降低解码复杂性中的任一个或两者。

检视区依赖性投影映射也可称作不对称投影映射。一个实例为经子采样立方体映射，例如立方体投影230。典型立方体映射可包含六个相同大小的面。在经子采样立方体映射的一个实例中，所述面中的一个可保持不变，而相对侧上的面可经子采样或按比例缩放到位于初始面形状的中心区域处的较小大小，且相应地在几何形状上按比例缩放其它面(仍然保持六个面)。极端情况可为将相对侧上的面按比例缩放为单个点，且因此立方体变为角锥形。在经子采样立方体映射的另一实例中，例如以2×2的比例(即，在与所述面的边缘平行的每一方向上2:1)按比例减小一些面的大小。

此大小减小的按比例缩放也可应用于例如等矩形的其它投影映射的不同区域。一个实例为使上部区域和底部区域两者(即，极点)大小减小。

检视区依赖性视频译码也可称作基于检视区的部分视频解码，以使得能够仅部分地解码整个经编码视频区域以为当前FOV的显示或检视区提供足够的信息。

在检视区依赖性视频译码的一个实例中，使用图像块的受运动约束集合来译码VR视频，以使得覆盖FOV或检视区的每一潜在区域可独立于其它区域解码。对于特定当前FOV或检视区，将覆盖当前FOV或检视区的可独立解码图像块的最小集合的经译码视频数据发送到客户端，解码和显示。此方法的缺点在于当用户将其头部快速地转动到所发送视频数据未覆盖的新FOV时，在覆盖新FOV的数据到达前，无法看见视频数据的图像块未覆盖的区域中的任何内容。此情形可容易发生，除非网络的往返时间极其短(例如，在10毫秒的量值下)，其为不可行的或至少为当今或不远未来的大挑战。

检视区依赖性视频译码的另一实例在2016年6月28日申请的美国专利申请案15/195,439中提出，所述申请案的全部内容以引用的方式并入本文中，命名为独立多分辨率译码(IMRC)，其中球形/全景视频以独立于彼此的多个不同分辨率编码，且每一表示是使用图像块的受运动约束集合加以译码。接收器选择以不同分辨率解码球形/全景视频的不同部分。通常，球形视频的用户当前正观察的部分(即，当前FOV或当前检视区)是视频位流的以最高分辨率译码的部分。当前FOV周围的区域是视频位流的使用略微较低分辨率译码的部分，等等。全景的在观测者头部正后方的部分是视频位流的以最低分辨率译码的部分。所主张的是，在用户头部移动的情况下，用户体验在大多数情况下将仅少量降低，且质量降低仅在极大的突然头部移动的情况下最严重，此极少发生。

在检视区依赖性视频译码的又一实例中，使用例如SHVC的可调式视频编解码器可调式地译码具有多分辨率的视频位流。另外，始终发送最低分辨率视频(或基层)的整个位流。不需要使用图像块或图像块的受运动约束集合来译码最低分辨率视频，但其在使用图像块或图像块的受运动约束集合加以译码的情况下也将起作用。对于其它方面，应用如上文所描述的相同策略。此方法允许最低分辨率视频的更高效译码，这是因为译码图像块或图像块的受图像块运动约束集合降低译码效率，且也由于使用层间预测而允许较高分辨率的流式传输的更高效译码。另外，此方法也允许更高效FOV切换，这是因为一旦FOV切换开始，服务器或边缘服务器可立即停止发送来自具有更高分辨率(相比于基层)的视频流且未覆盖新FOV的任何区域的视频数据。如果不发送覆盖当前FOV的具有最低分辨率的视频数据(即，仅发送覆盖当前FOV的具有最高分辨率的视频数据)，那么在FOV切换期间，服务器有时将必须继续发送来自具有最高分辨率的视频流且仅覆盖旧FOV或其部分的视频数据，准备好以使得用户在其转回到旧FOV或其部分的情况下可至少看到最低质量的视频。

在MPEG提案m37819中，论述关于用信号传送和使用导演剪辑的信息的使用情况，使得即使在用户不转动其头部或经由其它UI改变检视区时，VR播放也可显示导演希望观众关注的动态改变的检视区。提到，此检视区可逐场景具备全向视频。

本文所描述的一或多种技术准许客户端装置40和/或服务器装置60到包含一或多个最感兴趣的区域的一或多个图像块的视频数据，而非必需仅依赖于用户的视野来选择质量以请求图像块(例如，图像块234A到234D、图像块236A到236D、图像块238A到238D和未展示立方体面的图像块)。举例来说，当表示一或多个最感兴趣的区域的数据指示图像块234A到234D包含一或多个最感兴趣的区域时，客户端装置40可在接收包含234A到234D的视频数据之前请求图像块234A到234D。在实例中，其中FOV包含图像的不包含于一或多个最感兴趣的区域中的区域，在接收用户的FOV后，客户端装置40可请求其它图像块(例如，236A到236D、238A到238D)以满足用户的FOV。以这种方式，一或多个最感兴趣的区域可经请求(例如，在接收包含图像的视频数据的视频文件之前)以准许预提取一或多个最感兴趣的区域的视频数据，由此改善视频(例如，虚拟实境视频)的播放。

图5为说明根据本发明中所描述的一或多个技术的用于确定视频数据的信息的实例方法的流程图。关于图1的客户端装置40和服务器装置60描述图5的方法。然而，应理解，其它装置可经配置以执行这些技术。

首先，尽管图5中未展示，但客户端装置40可请求图像的最感兴趣的区域数据。举例来说，客户端装置40可请求媒体呈现描述(MPD)、SEI消息或对应于图像的如上文所论述的任何其它类型的数据。响应此请求，服务器装置60可发送表示图像的一或多个最感兴趣的区域的数据(300)。表示一或多个最感兴趣的区域的数据可包含于包含视频数据的位流中。举例来说，当最感兴趣的区域为静态时，服务器装置60可发送包含表示一或多个最感兴趣的区域的最感兴趣的区域数据的SEI消息(例如，图3的SEI消息178)。在一些实例中，服务器装置60发送包含表示一或多个最感兴趣的区域的最感兴趣的区域数据的文件格式标头信息(例如，图3的STBL 176、图3的TRAK逻辑框158、图3的SIDX逻辑框162等)。在一些实例中，服务器装置60发送包含表示一或多个最感兴趣的区域的最感兴趣的区域数据的MPD(例如，图2的MPD 122)。

客户端装置40可利用表示一或多个最感兴趣的区域的数据确定图像的一或多个最感兴趣的区域(302)。举例来说，客户端装置40可使用表示最感兴趣的区域的数据来为一或多个最感兴趣的区域中的每一个确定表示相应最感兴趣的区域的位置和相应最感兴趣的区域的大小的语法元素的值。在一些实例中，客户端装置40可为一或多个最感兴趣的区域中的每一个确定指示一或多个最感兴趣的区域的识别符(例如，图3的图像块识别符172、图3的群组识别符174、图3的播放轨识别符160等)。

客户端装置40可输出针对一或多个最感兴趣的区域的视频数据的请求(304)。举例来说，客户端装置40可使用表示一或多个最感兴趣的区域的数据产生针对指定一或多个最感兴趣的区域的视频数据的请求且输出所述请求。在这个实例中，客户端装置40可为含有视频解码器的实体。然而，在其它实例中，产生针对指定一或多个最感兴趣的区域的视频数据的请求且输出所述请求的装置可为例如内容递送网络(CDN)节点的网络元件。服务器装置60可接收针对一或多个最感兴趣的区域的视频数据的请求(306)且可发送一或多个经请求区域的视频数据(308)。客户端装置40可接收一或多个经请求区域的视频数据(310)。

客户端装置40可输出针对图像的一或多个其它区域的视频数据的请求(312)。举例来说，当一或多个最感兴趣的区域包含图4的图像238A到238D时且当用户的用户的FOV包含图4的图像238A到238D和234C到234D时，客户端装置40可请求图4的图像234C到234D的视频数据。

服务器装置60可接收针对图像的一或多个其它区域的视频数据的请求(314)且可发送一或多个其它经请求区域的视频数据的视频数据(316)。客户端装置40可接收一或多个其它经请求区域的视频数据(318)。客户端装置40可确定用户的FOV(320)且可输出包含于用户的FOV中的区域的数据(322)。举例来说，客户端装置40可确定用户的FOV包含图4的图像238A到238D和234C到234D且使用较高和较低质量视频数据输出用于显示的图4的图像238A到238D和234C到234D。

以这种方式，图5的方法表示包含以下的方法的一个实例：由装置的处理器(所述处理器实施于电路中)利用表示一或多个最感兴趣的区域的数据确定视频数据的图像的多个区域中的一或多个最感兴趣的区域；由处理器使用表示一或多个最感兴趣的区域的数据产生指定一或多个最感兴趣的区域的请求；和由处理器将请求输出到服务器装置。

同样地，图5的方法也表示包含以下的方法的实例：由源装置的处理器(所述处理器实施于电路中)确定视频数据的图像的多个区域中的一或多个最感兴趣的区域，一或多个最感兴趣的区域包括最可能由客户端装置检索的一或多个区域；由处理器输出表示一或多个最感兴趣的区域的数据，其中表示一或多个最感兴趣的区域的数据包含于包含视频数据的位流中。

图6为说明根据本发明中所描述的一或多个技术的用于用信号传送视频数据的信息的实例方法的流程图。关于图1的客户端装置40和服务器装置60描述图6的方法。然而，应理解，其它装置可经配置以执行这些技术。

首先，尽管图6中未展示，但客户端装置40可请求图像的最感兴趣的区域数据。举例来说，客户端装置40可请求媒体呈现描述(MPD)、SEI消息或对应于图像的如上文所论述的任何其它类型的数据。响应此请求，服务器装置60可确定图像的一或多个最感兴趣的区域(330)。举例来说，服务器装置60可接收由一或多个最感兴趣的区域的导演或制片人选择的指示或服务器装置60(或另一装置)可利用用户统计数据推导一或多个最感兴趣的区域。在任何情况下，服务器装置60可产生表示一或多个最感兴趣的区域的数据(332)。表示一或多个最感兴趣的区域的数据可包含于包含视频数据的位流中。举例来说，服务器装置60产生包含表示一或多个最感兴趣的区域的最感兴趣的区域数据的SEI消息(例如，图3的SEI消息178)。在一些实例中，服务器装置60产生包含表示一或多个最感兴趣的区域的最感兴趣的区域数据的文件格式标头信息(例如，图3的STBL 176、图3的TRAK逻辑框158、图3的SIDX逻辑框162等)。在一些实例中，服务器装置60产生包含表示一或多个最感兴趣的区域的最感兴趣的区域数据的MPD(例如，图2的MPD 122)。在任何情况下，服务器装置60可发送表示一或多个最感兴趣的区域的数据(334)且客户端装置40可接收表示一或多个最感兴趣的区域的数据(336)。

响应于接收到表示一或多个最感兴趣的区域的数据，客户端装置40可输出针对图像的一或多个最感兴趣的区域的视频数据的请求(338)。举例来说，客户端装置40可输出指定一或多个最感兴趣的区域的请求。然而，在一些实例中，输出指定一或多个最感兴趣的区域的请求的装置可为例如内容递送网络(CDN)节点的网络元件。服务器装置60可接收针对图像的一或多个最感兴趣的区域的视频数据的请求(340)且可发送一或多个经请求区域的视频数据(342)。客户端装置40可接收用于一或多个经请求区域的视频数据(344)。

客户端装置40可输出针对图像的一或多个其它区域的视频数据的请求(346)。服务器装置60可接收针对图像的一或多个其它区域的视频数据的请求(348)。响应于接收到图像的一或多个其它区域的视频数据的请求，服务器装置60可发送一或多个其它经请求区域的视频数据(350)。客户端装置40可接收针对一或多个其它经请求区域的视频数据(352)。尽管图6的实例中未展示，但客户端装置40接着可继续(例如)基于用户的视野将所接收视频数据的至少一部分呈现到用户，(例如)如上文关于图5所论述。

以这种方式，图6的方法表示包含以下的方法的一个实例：由装置的处理器(所述处理器实施于电路中)利用表示一或多个最感兴趣的区域的数据确定视频数据的图像的多个区域中的一或多个最感兴趣的区域；由处理器使用表示一或多个最感兴趣的区域的数据产生指定一或多个最感兴趣的区域的请求；和由处理器将请求输出到服务器装置。

同样地，图6的方法也表示包含以下方法的一个实例：由源装置的处理器(所述处理器实施于电路中)确定视频数据的图像的多个区域中的一或多个最感兴趣的区域，所述一或多个最感兴趣的区域包括最可能由客户端装置检索的一或多个区域；由处理器产生表示一或多个最感兴趣的区域的数据，其中表示一或多个最感兴趣的区域的数据包含于包含视频数据的位流中；和由处理器在输出表示一或多个最感兴趣的区域的数据之后，输出视频数据。

图7为说明根据本发明中所描述的一或多个技术的用于预提取视频数据的实例方法的流程图。关于图1的客户端装置40和服务器装置60描述图7的方法。然而，应理解，其它装置可经配置以执行这些技术。在图7的实例中，服务器装置60可配置为首先从源服务器检索数据且暂时存储数据的CDN服务器。应理解，图7的实例表明客户端装置40和服务器装置60的任一个或两者可使用表示一或多个最感兴趣的区域的数据。

首先，尽管图7中未展示，但客户端装置40可请求表示图像的一或多个最感兴趣的区域的数据。举例来说，客户端装置40可请求媒体呈现描述(MPD)、SEI消息或对应于图像的如上文所论述的任何其它类型的数据。响应此请求，服务器装置60可将针对表示一或多个最感兴趣的区域的数据的请求发送(或转递)到例如源装置的下游装置且可接收表示图像的一或多个最感兴趣的区域的数据(360)。举例来说，服务器装置60可从上游服务器(例如，边缘服务器)、内容准备装置20或另一装置接收表示图像的一或多个最感兴趣的区域的数据。

表示一或多个最感兴趣的区域的数据可包含于包含视频数据的位流中。举例来说，服务器装置60接收包含表示一或多个最感兴趣的区域的最感兴趣的区域数据的SEI消息。在一些实例中，服务器装置60接收包含表示一或多个最感兴趣的区域的最感兴趣的区域数据的文件格式标头信息(例如，图3的STBL 176、图3的TRAK逻辑框158、图3的SIDX逻辑框162等)。在任何情况下，服务器装置60可预提取一或多个感兴趣区域的视频数据(362)。

在预提取一或多个感兴趣区域的视频数据后，服务器装置60可存储一或多个最感兴趣的区域的预提取视频数据(364)。在实例中，其中服务器装置60为经配置以存储(例如，高速缓存)视频数据的边缘服务器，服务器装置60可存储一或多个最感兴趣的区域的视频数据。在一些实例中，服务器装置60可基于表示图像的一或多个最感兴趣的区域的数据确定存储一或多个最感兴趣的区域的视频数据的持续时间。举例来说，当服务器装置60确定一或多个最感兴趣的区域的视频数据时，服务器装置60对一或多个最感兴趣的区域的视频数据评级较高，以使得一或多个最感兴趣的区域的视频数据保持长期存储，而去除(例如，其它区域的)其它视频数据，其它视频数据是在与一或多个最感兴趣的区域的视频数据类似的时间检索。

尽管图7中未展示，但服务器装置60可将表示图像的一或多个最感兴趣的区域的数据发送到客户端装置40。举例来说，服务器装置60可发送媒体呈现描述(MPD)、SEI消息或对应于图像的如上文所论述的任何其它类型的数据。

响应接收到到客户端装置40的表示图像的一或多个最感兴趣的区域的数据，客户端装置40可输出针对图像的一或多个最感兴趣的区域的视频数据的请求(366)。在这个实例中，客户端装置40可为含有视频解码器的实体。然而，在其它实例中，输出针对图像的一或多个最感兴趣的区域的视频数据的请求的装置可为例如内容递送网络(CDN)节点的网络元件。服务器装置60可接收针对图像的一或多个最感兴趣的区域的视频数据的请求(368)且可发送一或多个经请求区域的视频数据(370)。客户端装置40可接收一或多个经请求区域的视频数据(372)。

客户端装置40可输出针对图像的一或多个其它区域的视频数据的请求(374)。服务器装置60可接收针对图像的一或多个其它区域的视频数据的请求(376)。响应接收到针对图像的一或多个其它区域的视频数据的请求，服务器装置60可检索图像的一或多个其它区域的视频数据(378)。举例来说，服务器装置60可将针对视频数据的请求发送(或转递)到例如源装置之下游装置。在其中中间网络装置已高速缓存经请求视频数据的实例中，中间网络装置可使用高速缓存视频数据响应于请求。在一些实例中，源服务器可通过发送经请求视频数据响应于请求。

在检索到图像的一或多个其它区域的视频数据后，服务器装置60可发送一或多个其它经请求区域的视频数据(380)。客户端装置40可接收一或多个其它经请求区域的视频数据(382)。尽管图7的实例中未展示，客户端装置40可(例如)基于用户的视野接着继续将所接收的视频数据的至少一部分呈现到用户，(例如)如上文关于图5所论述。

以这种方式，图7的方法表示包含以下的方法的一个实例：由装置的处理器(所述处理器实施于电路中)利用表示一或多个最感兴趣的区域的数据确定视频数据的图像的多个区域中的一或多个最感兴趣的区域；由处理器使用表示一或多个最感兴趣的区域的数据产生指定一或多个最感兴趣的区域的请求；和由处理器将请求输出到服务器装置。

在一或多个实例中，所描述的功能可在硬件、软件、固件或其任何组合中实施。如果以软件实施，那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或通过计算机可读媒体进行发射，且由基于硬件的处理单元来执行。计算机可读媒体可包含：计算机可读存储媒体，其对应于例如数据存储媒体的有形媒体；或通信媒体，其包含例如根据通信协议促进计算机程序从一处到另一处的传送的任何媒体。以这种方式，计算机可读媒体大体可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索指令、代码和/或数据结构以用于实施本发明中所描述的技术的任何可用媒体。计算机程序产品可包括计算机可读媒体。

藉助于实例而非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪存或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。并且，将任何连接恰当地称为计算机可读媒体。举例来说，如果使用同轴缆线、光纤缆线、双绞线、数字用户线(DSL)或例如红外线、无线电和微波的无线技术从网站、服务器或其它远程源发射指令，那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波的无线技术包含于媒体的定义中。然而，应理解，计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它暂时性媒体，而是针对非暂时性有形存储媒体。如本文中所使用的磁盘和光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软碟和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘通过激光以光学方式再现数据。以上各者的组合也应包含于计算机可读媒体的范围内。

指令可由一或多个处理器执行，所述一或多个处理器例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成式或离散逻辑电路。因此，如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一个。此外，在一些方面中，本文中所描述的功能可提供于经配置用于编码和解码的专用硬件和/或软件模块内，或并入于组合式编码解码器中。并且，所述技术可完全实施于一或多个电路或逻辑元件中。

本发明的技术可在广泛多种装置或设备中实施，所述装置或设备包含无线手机、集成电路(IC)或IC集合(例如，芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面，但未必要求由不同硬件单元来实现。确切来说，如上文所描述，可将各种单元组合于编解码器硬件单元中，或由互操作性硬件单元(包含如上文所描述的一或多个处理器)的集合结合合适的软件和/或固件来提供所述单元。

已描述各种实例。这些和其它实例在所附权利要求书的范围内。

Claims

1.一种确定用于视频的信息的方法，所述方法包括：

由装置的处理器利用表示视频数据的图像的多个区域中的一或多个最感兴趣的区域的数据确定所述一或多个最感兴趣的区域，所述处理器实施于电路中；

由所述处理器使用表示所述一或多个最感兴趣的区域的所述数据产生指定所述一或多个最感兴趣的区域的请求；以及

由所述处理器将所述请求输出到服务器装置。

2.根据权利要求1所述的方法，其进一步包括：

由所述处理器使用用户的视野FOV产生指定所述图像的一或多个其它区域的请求；以及

由所述处理器将指定所述图像的所述一或多个其它区域的所述请求输出到所述服务器装置。

3.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括从补充增强信息SEI消息提取最感兴趣的区域数据，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

4.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括从文件格式标头信息中所包含的样本群逻辑框提取最感兴趣的区域数据，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

5.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括从样本表逻辑框或文件格式标头信息中所包含的播放轨片段提取最感兴趣的区域数据，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

6.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括从文件格式标头信息中所包含的段索引逻辑框提取最感兴趣的区域数据，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

7.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括从HTTP动态自适应流式传输DASH媒体呈现描述MPD提取最感兴趣的区域数据，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

8.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括为所述一或多个最感兴趣的区域中的每一最感兴趣的区域确定用于表示相应最感兴趣的区域相对于基底区域的位置和所述相应最感兴趣的区域相对于所述基底区域的大小的多个语法元素的多个值。

9.根据权利要求8所述的方法，其中确定用于所述多个语法元素的所述多个值包括为所述一或多个最感兴趣的区域中的每一最感兴趣的区域执行以下操作：

提取用于表示所述相应最感兴趣的区域相对于所述基底区域的左侧水平偏移的第一语法元素的值；

提取用于表示所述相应最感兴趣的区域相对于所述基底区域的顶部竖直偏移的第二语法元素的值；

提取用于表示所述相应最感兴趣的区域相对于所述基底区域的宽度的第三语法元素的值；以及

提取用于表示所述相应最感兴趣的区域相对于所述基底区域的高度的第四语法元素的值。

10.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括提取表示所述图像的一或多个图像块的一或多个图像块识别符，其中所述一或多个图像块与所述一或多个最感兴趣的区域在空间上并列。

11.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括提取表示所述图像的所述多个区域中的一或多个区域的一或多个群组识别符。

12.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括提取表示一或多个播放轨的一或多个播放轨识别符，所述一或多个播放轨中的每一播放轨包含用于所述一或多个最感兴趣的区域的视频译码层VCL数据。

13.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括提取表示所述图像的一或多个表示的一或多个呈现识别符，所述一或多个表示中的每一表示包含用于所述一或多个最感兴趣的区域的视频译码层VCL数据。

14.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括：

提取表示一或多个基底图像块播放轨的一或多个基底图像块播放轨识别符；以及

使用所述一或多个基底图像块播放轨识别符从所述一或多个基底图像块播放轨提取最感兴趣的区域数据。

15.根据权利要求1所述的方法，其中确定所述一或多个最感兴趣的区域包括确定表示图像次序计数的一或多个语法元素，所述图像次序计数指示表示所述一或多个最感兴趣的区域的所述数据适用于所述图像。

16.一种用于确定视频数据的信息的装置，所述装置包括实施于电路中的一或多个处理器，所述一或多个处理器经配置以：

利用表示视频数据的图像的多个区域中的一或多个最感兴趣的区域的数据确定所述一或多个最感兴趣的区域；

使用表示所述一或多个最感兴趣的区域的所述数据产生指定所述一或多个最感兴趣的区域的请求；以及

将所述请求输出到服务器装置。

17.根据权利要求16所述的装置，其中为确定所述一或多个最感兴趣的区域，所述一或多个处理器经进一步配置以从补充增强信息SEI消息提取最感兴趣的区域数据，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

18.根据权利要求16所述的装置，其中为确定所述一或多个最感兴趣的区域，所述一或多个处理器经进一步配置以从包含于文件格式标头信息中的样本群逻辑框、样本表逻辑框、播放轨片段或段索引逻辑框提取最感兴趣的区域数据，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

19.根据权利要求16所述的装置，其中为确定所述一或多个最感兴趣的区域，所述一或多个处理器经进一步配置以从HTTP动态自适应流式传输DASH媒体呈现描述MPD提取最感兴趣的区域数据，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

20.根据权利要求16所述的装置，其中为确定所述一或多个最感兴趣的区域，所述一或多个处理器经进一步配置以为所述一或多个最感兴趣的区域中的每一最感兴趣的区域确定用于表示相应最感兴趣的区域相对于基底区域的位置和所述相应最感兴趣的区域相对于所述基底区域的大小的多个语法元素的多个值。

21.根据权利要求20所述的装置，其中为确定用于所述多个语法元素的所述多个值，所述一或多个处理器经进一步配置以为所述一或多个最感兴趣的区域中的每一最感兴趣的区域执行以下操作：

22.根据权利要求16所述的装置，其中为确定所述一或多个最感兴趣的区域，所述一或多个处理器经进一步配置以提取表示所述图像的一或多个图像块的一或多个图像块识别符，其中所述一或多个图像块与所述一或多个最感兴趣的区域在空间上并列。

23.根据权利要求16所述的装置，其中为确定所述一或多个最感兴趣的区域，所述一或多个处理器经进一步配置以提取表示所述图像的所述多个区域中的一或多个区域的一或多个群组识别符。

24.根据权利要求16所述的装置，其中为确定所述一或多个最感兴趣的区域，所述一或多个处理器经进一步配置以提取表示一或多个播放轨中的一或多个播放轨识别符，所述一或多个播放轨中的每一播放轨包含用于所述一或多个最感兴趣的区域的视频译码层VCL数据。

25.根据权利要求16所述的装置，其中为确定所述一或多个最感兴趣的区域，所述一或多个处理器经进一步配置以提取表示所述图像的一或多个表示的一或多个表示识别符，所述一或多个表示中的每一呈现包含用于所述一或多个最感兴趣的区域的视频译码层VCL数据。

26.根据权利要求16所述的装置，其中为确定所述一或多个最感兴趣的区域，所述一或多个处理器经进一步配置以：

27.根据权利要求16所述的装置，其中为确定所述一或多个最感兴趣的区域，所述一或多个处理器经进一步配置以确定表示图像次序计数的一或多个语法元素，所述图像次序计数指示表示所述一或多个最感兴趣的区域的所述数据适用于所述图像。

28.一种用于确定视频数据的信息的装置，所述装置包括：

用于利用表示视频数据的图像的多个区域中的一或多个最感兴趣的区域的数据确定所述一或多个最感兴趣的区域的装置；

用于使用表示所述一或多个最感兴趣的区域的所述数据产生指定所述一或多个最感兴趣的区域的请求的装置；以及

用于将所述请求输出到服务器装置的装置。

29.一种上面存储有指令的计算机可读存储媒体，所述指令在执行时使得处理器执行以下操作：

将所述请求输出到服务器装置。

30.一种用信号传送视频数据的信息的方法，所述方法包括：

由源装置的处理器确定视频数据的图像的多个区域中的一或多个最感兴趣的区域，所述处理器实施于电路中，所述一或多个最感兴趣的区域包括最可能由客户端装置检索的一或多个区域；

由所述处理器输出表示所述一或多个最感兴趣的区域的数据，其中表示所述一或多个最感兴趣的区域的所述数据包含于包含所述视频数据的位流中；以及

由所述处理器在输出表示所述一或多个最感兴趣的区域的所述数据之后输出所述视频数据。

31.根据权利要求30所述的方法，其中输出表示所述一或多个最感兴趣的区域的所述数据包括产生包含最感兴趣的区域数据的补充增强信息SEI消息，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

32.根据权利要求30所述的方法，其中输出表示所述一或多个最感兴趣的区域的所述数据包括在文件格式标头信息中产生包含最感兴趣的区域数据的样本群逻辑框、样本表逻辑框、播放轨片段或段索引逻辑框，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

33.根据权利要求30所述的方法，其中输出表示所述一或多个最感兴趣的区域的所述数据包括产生包含最感兴趣的区域数据的HTTP动态自适应流式传输DASH媒体呈现描述MPD，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

34.根据权利要求30所述的方法，其中输出表示所述一或多个最感兴趣的区域的所述数据为所述一或多个最感兴趣的区域中的每一最感兴趣的区域产生用于表示相应最感兴趣的区域相对于基底区域的位置和所述相应最感兴趣的区域相对于所述基底区域的大小的多个语法元素的多个值。

35.根据权利要求34所述的方法，其中输出用于所述多个语法元素的所述多个值对于所述一或多个最感兴趣的区域中的每一最感兴趣的区域包括：

产生用于表示所述相应最感兴趣的区域相对于所述基底区域的左侧水平偏移的第一语法元素的值；

产生用于表示所述相应最感兴趣的区域相对于所述基底区域的顶部竖直偏移的第二语法元素的值；

产生用于表示所述相应最感兴趣的区域相对于所述基底区域的宽度的第三语法元素的值；以及

产生用于表示所述相应最感兴趣的区域相对于所述基底区域的高度的第四语法元素的值。

36.根据权利要求30所述的方法，其中输出表示所述一或多个最感兴趣的区域的所述数据包括产生表示所述图像的一或多个图像块的一或多个图像块识别符，其中所述一或多个图像块与所述一或多个最感兴趣的区域在空间上并列。

37.根据权利要求30所述的方法，其中输出表示所述一或多个最感兴趣的区域的所述数据包括产生表示所述图像的所述多个区域中的一或多个区域的一或多个群组识别符。

38.根据权利要求30所述的方法，其中输出表示所述一或多个最感兴趣的区域的所述数据包括产生表示一或多个播放轨的一或多个播放轨识别符，所述一或多个播放轨中的每一播放轨包含用于所述一或多个最感兴趣的区域的视频译码层VCL数据。

39.根据权利要求30所述的方法，其中输出表示所述一或多个最感兴趣的区域的所述数据包括产生表示所述图像的一或多个表示的一或多个表示识别符，所述一或多个表示中的每一表示包含用于所述一或多个最感兴趣的区域的视频译码层VCL数据。

40.根据权利要求30所述的方法，其中输出表示所述一或多个最感兴趣的区域的所述数据包括：

在一或多个基底图像块播放轨处产生最感兴趣的区域数据；以及

在表示所述一或多个最感兴趣的区域的所述数据处产生表示所述一或多个基底图像块播放轨的一或多个基底图像块播放轨识别符。

41.根据权利要求30所述的方法，其中输出表示所述一或多个最感兴趣的区域的所述数据包括产生表示图像次序计数的一或多个语法元素，所述图像次序计数指示表示所述一或多个最感兴趣的区域的所述数据适用于所述图像。

42.根据权利要求30所述的方法，其中确定所述一或多个最感兴趣的区域包括使用导演或用户统计数据的意图中的一或多个确定所述一或多个最感兴趣的区域。

43.一种用于用信号传送视频数据的信息的装置，所述装置包括实施于电路中的一或多个处理器，所述一或多个处理器经配置以：

确定视频数据的图像的多个区域中的一或多个最感兴趣的区域，所述一或多个最感兴趣的区域包括最可能由客户端装置检索的一或多个区域；

输出表示所述一或多个最感兴趣的区域的数据，其中表示所述一或多个最感兴趣的区域的所述数据包含于包含所述视频数据的位流中；以及

在输出表示所述一或多个最感兴趣的区域的所述数据之后，输出所述视频数据。

44.根据权利要求43所述的装置，其中为输出表示所述一或多个最感兴趣的区域的所述数据，所述一或多个处理器经进一步配置以产生包含最感兴趣的区域数据的补充增强信息SEI消息，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

45.根据权利要求43所述的装置，其中为输出表示所述一或多个最感兴趣的区域的所述数据，所述一或多个处理器经进一步配置以在文件格式标头信息中产生包含最感兴趣的区域数据的样本群逻辑框、样本表逻辑框、播放轨片段或段索引逻辑框，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

46.根据权利要求43所述的装置，其中为输出表示所述一或多个最感兴趣的区域的所述数据，所述一或多个处理器经进一步配置以产生包含最感兴趣的区域数据的HTTP动态自适应流式传输DASH媒体呈现描述MPD，其中所述最感兴趣的区域数据表示所述一或多个最感兴趣的区域。

47.根据权利要求43所述的装置，其中为输出表示所述一或多个最感兴趣的区域的所述数据，所述一或多个处理器经进一步配置以为所述一或多个最感兴趣的区域中的每一最感兴趣的区域产生用于表示相应最感兴趣的区域相对于基底区域的位置和所述相应最感兴趣的区域相对于所述基底区域的大小的多个语法元素的多个值。

48.根据权利要求47所述的装置，其中为输出用于所述多个语法元素的所述多个值，所述一或多个处理器经进一步配置以：

49.根据权利要求43所述的装置，其中为输出表示所述一或多个最感兴趣的区域的所述数据，所述一或多个处理器经进一步配置以产生表示所述图像的一或多个图像块的一或多个图像块识别符，其中所述一或多个图像块与所述一或多个最感兴趣的区域在空间上并列。

50.根据权利要求43所述的装置，其中为输出表示所述一或多个最感兴趣的区域的所述数据，所述一或多个处理器经进一步配置以产生表示所述图像的所述多个区域中的一或多个区域的一或多个群组识别符。

51.根据权利要求43所述的装置，其中为输出表示所述一或多个最感兴趣的区域的所述数据，所述一或多个处理器经进一步配置以产生表示一或多个播放轨的一或多个播放轨识别符，所述一或多个播放轨中的每一播放轨包含用于所述一或多个最感兴趣的区域的视频译码层VCL数据。

52.根据权利要求43所述的装置，其中为输出表示所述一或多个最感兴趣的区域的所述数据，所述一或多个处理器经进一步配置以产生表示所述图像的一或多个表示的一或多个表示识别符，所述一或多个表示中的每一表示包含用于所述一或多个最感兴趣的区域的视频译码层VCL数据。

53.根据权利要求43所述的装置，其中为输出表示所述一或多个最感兴趣的区域的所述数据，所述一或多个处理器经进一步配置以：

54.根据权利要求43所述的装置，其中为输出表示所述一或多个最感兴趣的区域的所述数据，所述一或多个处理器经进一步配置以产生表示图像次序计数的一或多个语法元素，所述图像次序计数指示表示所述一或多个最感兴趣的区域的所述数据适用于所述图像。

55.一种用于用信号传送视频数据的信息的装置，所述装置包括：

用于确定视频数据的图像的多个区域中的一或多个最感兴趣的区域的装置，所述一或多个最感兴趣的区域包括最可能由客户端装置检索的一或多个区域；

用于输出表示所述一或多个最感兴趣的区域的数据的装置，其中表示所述一或多个最感兴趣的区域的所述数据包含于包含所述视频数据的位流中；以及

用于在输出表示所述一或多个最感兴趣的区域的所述数据之后输出所述视频数据的装置。

56.一种上面存储有指令的计算机可读存储媒体，所述指令在执行时使得处理器执行以下操作：