CN112511888B

CN112511888B - 用于多视图视频流的通用图块编码

Info

Publication number: CN112511888B
Application number: CN202010917112.9A
Authority: CN
Inventors: 端木繁一; E·阿斯邦; 周小松; 辛军; H-J·吴; J·苏; S·格哈尼; C·弗利克; S·萨胡
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-09-13
Filing date: 2020-09-03
Publication date: 2023-03-31
Anticipated expiration: 2040-09-03
Also published as: US10972753B1; CN112511888A; US20210084332A1

Abstract

本公开涉及用于多视图视频流的通用图块编码。本发明公开了用于对多视图视频进行编码和递送的技术，其中所述视频被表示为标识可供下载的所述视频的多个片段的清单文件。所述多视图视频可以在空间上被划分为多个图块，所述多个图块总体上涵盖所述视频的整个空间区域。所述图块被编码为包含编码视频的片段，所述编码视频表示包含在其相应图块内的内容。可基于所述内容在其相应区域内的显著性来为图块赋予不同的尺寸。这样，感兴趣程度高的图块可以具有相对大的空间区域，这可以导致在存在内容运动的情况下进行有效的编码。

Description

用于多视图视频流的通用图块编码

背景技术

期望多视图视频应用程序成为消费电子系统的新兴应用程序。多视图视频可以通过以仿真围绕观看者的多个方向(理想的是，每个方向)上的视图空间的方式显示视频来递送沉浸式观看体验。然而，观看者通常从视图空间的一小部分观看内容，这使得其他位置处的内容在流式传输和显示期间未被使用。

多视图视频应用程序为此类系统的设计者提出了对于普通“平面”观看应用程序而言未遇到的挑战。通常，期望将所有可用带宽应用于对正在观看的视频的编码以使其质量最大化。另一方面，如果/当观看者焦点改变时，无法流式传输多视频的未观看部分将引起显著的延迟。渲染系统将必须检测观看者的改变的焦点并重新分配编码带宽以呈现观看者的新焦点处的内容。实际上，此类操作将延迟对期望内容的渲染，这将妨碍观看者对多视图视频的乐趣并降低系统的用户体验。

附图说明

图1示出了根据本公开的一个方面的多视图渲染技术的应用。

图2示出了根据本公开的一个方面的视频交换系统。

图3示出了适合与本公开的各方面一起使用的具有显著区域的示例性帧。

图4示出了根据本公开的一个方面的多视图帧的拼接技术。

图5示出了根据本公开的一个方面的一种方法。

图6至图8示出了根据本公开的各方面的用于多视图帧的其他拼接技术。

图9示出了根据本公开的另一方面的视频交换系统。

图10示出了适合与本公开的各方面一起使用的示例性帧。

图11至图12示出了根据本公开的各方面的用于多视图帧的其他拼接技术。

图13示出了根据本公开的一个方面的可从图块开发的示例性多视图帧1300。

图14示出了根据本公开的一个方面的用于多视图帧的另一拼接技术。

图15示出了适合与本公开的各方面一起使用的示例性帧封装格式。

图16示出了根据本公开的一个方面的用于多视图帧的又一拼接技术。

图17示出了根据本公开的一个方面的预取操作。

图18示出了根据本公开的一个方面的片段递送技术。

图19是根据本公开的一个方面的播放器的简化框图。

具体实施方式

本公开的各方面提供了用于多视图视频的视频编码和递送技术，其中多视图视频在空间上被划分为多个图块，该多个图块总体上涵盖该视频的整个空间区域。每个图块的内容的时间序列被编码为包含表示包含在其相应图块内的内容的编码视频的可单独下载片段。可基于该内容在其相应区域内的显著性来为图块赋予不同的尺寸。这样，感兴趣程度高的图块可以具有相对大的空间区域，这可以导致在存在内容运动的情况下进行有效的编码。

图1示出了根据本公开的一个方面的多视图渲染技术的应用。多视图渲染通常涉及以模拟全向图像内容的方式呈现媒体，如图媒体项的内容占据完全围绕用户的图像空间100一样。通常，用户通过播放器设备观看图像空间100，该播放器设备一次仅呈现图像空间的子部分(为方便起见称为“视口”)。在第一时间点，用户可使得从图像空间100内的第一位置110显示视口，这可使得呈现来自对应位置的媒体内容。在另一时间点，用户可将视口移位到另一位置120，这可使得呈现来自新位置120的媒体内容。用户可根据需要多次移动视口的位置。当向用户呈现来自第一视口位置的内容时，不需要为用户呈现来自其他位置的内容。

图2示出了根据本公开的一个方面的视频交换系统200。该系统200可包括在经由网络230的通信中提供的服务器210和播放器设备220。服务器210可存储一个或多个媒体项240以递送给播放器220。因此，播放器220可以从服务器210请求媒体项，并且在服务器210递送所请求的媒体项时显示该媒体项。

在一个方面，各个媒体项240可被存储为清单文件242和多个片段244。清单文件242可存储具有标识回放时间线中片段的时间顺序的信息的片段的索引以及能够下载这些片段的网络位置的标识符。片段244自身包含媒体项的视频数据。片段244可以被组织成对应于在不同空间位置和不同时间的多视图图像空间100(图1)的部分。换句话讲，第一片段(例如片段1)在给定的持续时间内存储多视图图像空间100的第一空间位置的视频信息，并且其他片段(片段2-n)在相同的持续时间内存储多视图图像空间100的其他空间位置的视频信息。

媒体项240还可包含针对在媒体项240的其他持续时间对应于片段1-n的空间位置中的每一者的其他片段(以堆叠表示示出)。片段常常具有共同的持续时间(例如，5秒)。因此，可以从多个下载片段的时间级联来开发多视图图像空间100的长时间的视频。

通常，片段存储其视频内容的压缩表示。在视频渲染期间，播放器220查看媒体项240的清单文件242，识别对应于多视图图像空间的期望视频内容的片段，并且对每个期望片段发出单独请求以使它们被下载。播放器220可以对来自下载片段的视频数据进行解码和渲染。

本公开的原理应用于各种播放器设备、服务器和网络。如图2所示，播放器220可体现为头戴式显示器。另选地，播放器可体现为智能电话、平板电脑、膝上型计算机、个人计算机、平板显示器、娱乐系统和/或游戏系统。对于非移动播放器设备诸如大的平板设备等，用户可通过用户输入设备(未示出)来标识期望的视口。除非另有说明，否则播放器设备类型之间的此类变型对于本讨论是无关紧要的。

另外，本公开的原理可应用于各种视频源设备210，不仅包括如图所示的服务器，还包括个人计算机、视频产生系统和/或游戏服务器。此外，媒体项可以作为预先产生的内容或实时内容来提供。在实时内容具体实施中，媒体项可以在存储时生成。新片段244可在生成时被输入到服务器210，并且清单文件242可在添加新片段244时被修改。在一些具体实施中，服务器210可以存储实时媒体项的预先确定的持续时间的视频，例如3分钟的视频。随着较新的片段被添加，较旧的片段可从服务器210被逐出。然而，并非所有情况下都需要进行片段逐出；允许保留较旧的片段，这允许既实时提供又同时录制媒体内容。

类似地，网络230可构成在服务器210与播放器220之间传送数据的一个或多个通信和/或计算机网络(未单独示出)。网络230可被提供为分组交换和/或电路交换通信网络，该网络可采用有线和/或无线通信介质。除非另有说明，否则网络230的操作和拓扑结构对于本讨论是无关紧要的。

本公开的各方面根据视频序列内的内容的显著性来执行帧分段。图3示出了表示多视图图像空间的示例性帧300。在该示例中，帧300示出了包含在M×N像素的二维表示内的全向内容。帧300的一个边缘312处的内容与帧300的另一边缘314处的内容邻接，这提供了帧的图像空间的所有方向上的内容的连续性。

图3示出了帧300内具有M1×N1像素的示例性显著区域320。根据本公开的方面，显著区域320可用作帧分段的基础。

图4示出了根据本公开的一个方面的多视图帧400的示例性分段。在该示例中，帧400被分段成多个图块410-478，每个图块占据帧400的空间区域，这些空间区域总体上覆盖帧400的所有M×N像素。

在该示例中，第一图块410被定义为具有M1×N1像素。第一图块410被定义为对应于图3所示的显著区域320。为了进行示意性的说明，图4示出了第二示例性图块412，其被示出为具有M2×N2个像素，即使没有图3所示的第二显著区域。因此，可根据在视频序列中检测到的显著区域将源帧400分段成任意数量的显著区域图块410-412。

通常，显著区域图块410-412将不占据帧400的整个空间区域。一旦针对图像定义了显著区域图块，就可将帧400的其余部分划分为其他图块414-478，直到帧400的整个空间区域已被分配给至少一个图块。因此，以这种方式划分了视频序列的帧(图4中仅示出了一个这样的帧)，视频序列的图块410-478可以被编码为片段244(图2)存储在服务器210处，并且可供播放器220使用。

可以预期的是，当以这种方式划分视频帧时，当应用于显著区域时，这将导致视频压缩操作的效率提高。视频压缩操作通常通过识别视频内容中的相似性，然后在识别出此类相似性时对内容进行差分编码，以利用视频内容中的空间冗余和时间冗余。视频内容之间的相似性的识别涉及预测搜索，该预测搜索将正被编码的内容元素PB_IN(为方便起见称为“像素块”)与视频编码器可用的先前编码的像素块进行比较。为了利用时间冗余，标准视频编码器将要编码的内容元素PB_IN(为方便起见称为“像素块”)与来自参考帧的驻留在搜索窗口内的多个先前编码的像素块候选(诸如图3中的PB_PR)进行比较，以识别最佳匹配块。为了利用空间冗余，标准视频编码器基于相邻像素(称为“参考样本”)填充了许多预测块候选，并且偏向于与PB_IN相比可使预测误差最小化的预测块。

预期通过使用显著图块410、412来实现编码效率，因为当与预测视频编码一起使用时，显著图块410、412可以容纳足够大小的预测搜索窗口以增加在预测搜索期间将找到高效预测像素块PB_PR的可能性。当在不考虑视频内容内的显著性而划分图块时，由于图块彼此独立地进行编码，所以预测搜索将被约束为落入由每个单独图块占据的空间区域内。例如，不能使用来自图块438的预测像素块来对来自图块436的像素块进行编码，因为图块436和图块438彼此独立地进行编码。通过将显著性图块410、412定义为具有足以容纳显著内容的尺寸，预期将保留有效编码视频数据的机会。

图5示出了根据本公开的一个方面的方法500。方法500可以通过确定表示多视图视频的视频序列内的显著区域开始(框510)。方法500可根据显著区域来定义序列的帧内的图块(框520)，并且然后为这些帧的其余部分定义图块(框530)。方法500可以对每个图块的视频进行编码(框540)，并将编码图块存储为可单独下载片段(框550)。方法500可识别表示多视图视频的清单文件中的所存储片段(框560)。

对显著区域的识别能够以多种方式进行。在第一方面，能够从视频内容中识别显著区域。例如，前景/背景估计能够识别视频内容中的前景对象，这些前景对象可被识别为用于显著识别的感兴趣区域。对象检测(例如，面部检测、人体检测或其他预先确定的对象)可从视频内容进行检测，该视频内容也可被识别为感兴趣区域。内容运动，尤其是具有与在视频内容内检测到的总体运动不同的运动特征的区域的识别，可被识别为感兴趣区域。内容复杂度还可驱动显著性估计；例如，平滑内容的区域趋于表现出空间冗余，如果被分配给更大的图块，则这可导致进行有效的编码。在这些方面，可以从视频序列内的各个帧中识别感兴趣区域的位置，并且可以跨视频序列聚合这些位置以确定显著区域的区域。

在另一方面，一些投影格式诸如等矩形投影(“ERP”)和赤道柱面投影(“ECP”)在极性区域中引入过采样数据。即，当转变为那些投影几何形状时，光源图像空间的相对较小的极性区域(图1)变平。对于此类投影格式，可以在极性区域中设计和使用较大的图块，以改善用于极性区域视口渲染的编码效率。

图6示出了用于多视图视频以适应基于对象的显著性和投影冗余的另一示例性拼接方案600。在该示例中，用M1×N1像素定义第一图块610以适应基于对象的显著区域诸如区域320(图3)。可根据对应于帧300的极性区域的投影冗余来定义其他图块612、614。更靠近多视图图像空间内的赤道位置的帧内容可能不被识别为显著区域，并且它们可根据默认过程被分配给图块616-626。

此外，在图6的示例中，帧内容的一些元素可以被分配给多于一个图块。在该示例中，第一图块610的边界与相邻图块612-618和622-626的边界重叠。来自帧600的落入这些图块612-618和622-626中的重叠区域630-640内的像素可被分配给包括它们的每个图块，并且它们在被编码时可在此类图块中被冗余地表示。当期望使用均匀的尺寸(示出为M2×N2)来限定非显著图块616-626时，此类具体实施可能是便利的。

此外，如图7和图8所示，本公开的各方面适应于其中在框530(图5)中用于非显著区域的图块将被定义为整体覆盖帧的具体实施。图7示出了图6的拼接方案，其中图块710、712和714容纳相应的显著区域。示出了为帧700定义的其余图块716-732，这些图块覆盖帧的整个空间区域。虽然图6所示的方面在显著图块610的中心区域中不含非显著图块，但是在图7的示例中，在该区域中提供了图块730和732。这样，非显著图块716-732占据了帧700的整个空间。

图8示出了应用于图4的分段方案的类似原理；为了便于说明，未简单标记显著图块810和812下面的非显著图块。尽管图块730、732的编码表示可能缺乏通过对图块710中的相同内容进行编码而提供的一些编码效率，但提供冗余图块在一些使用情况下可为播放器设备提供流式传输和解码灵活性。

如所讨论的，在媒体播放事件期间，播放器220(图2)下载对应于要被渲染的图块的片段244，对片段244的内容进行解码，并且对其进行渲染。播放器220可确定其视口在由视频数据表示的三维图像空间中的位置，并且可将该位置与由清单文件242识别的由编码片段244表示的图块位置进行比较。播放器视口不需要与图块的空间位置对齐；如果播放器220确定其视口在空间上与多个图块重叠，则播放器220可以下载其内容对应于其视口的空间位置的所有此类图块。

图9示出了根据本公开的另一方面的视频交换系统900。此处，如在图2的方面中那样，系统900可包括在经由网络930的通信中提供的服务器910和播放器设备920。服务器910可存储由清单文件942和片段944表示的一个或多个媒体项940，以递送给播放器920。清单文件942可包括分别表示多视图图像空间内的片段内容的空间位置和片段可供下载的网络位置的片段944的索引。

在图9的方面，片段944可在不同的服务级别(为方便起见称为“层”)处可用。每个层可表示相应服务级别的片段视频内容，其通常由分配给该层的目标编码比特率决定。例如，图9示出了低层、中层和高层，表示相应的低质量级别、中等质量级别和高质量级别的编码视频。视频编码过程往往是有损过程，这导致恢复的视频数据表示其源视频，但具有一些编码误差。当以第一相对低的比特率级别对视频进行编码时，与以第二相对高的比特率级别对相同视频进行编码相比，前者趋于表现出更大的恢复误差(以及因此更低的质量)。因此，相应层的编码比特率可以确定它们的编码质量。

在图9的方面中，媒体服务器910可以将多视图视频的片段944存储在多个层中，并且可选地存储多个跨度。每个层的片段总体上可以覆盖所表示的多视图图像空间(图1)的区域。在每个层内使用的图块尺寸可以但不必与在其他层中使用的图块尺寸不同。当使用多个跨度时，单个层(在该示例中，高服务层)可表示应用不同划分方案的多个冗余表示中的多视图图像空间的内容。

图10至图12示出了根据本公开的一个方面的拼接和跨度的示例性使用。图10示出了可被编码为图块和跨度的示例性多视图帧1000。图11示出了图10的帧1000的示例性划分1100，其中图块1102-1198被定义为具有相等的尺寸。图12示出了图10的帧1000的示例性划分1200，其中图块1212-1234被定义。图12的图块1212-1234在图11的划分方案中占据比对应图块1102-1198更大的区域。尽管图块1102-1198以及图块1212-1234被示出为在每个划分方案内具有相等的尺寸，但这不是必需的。例如，划分方案1100的一个图块(例如图块1136)可大于该方案1100的其他图块，如图4所示。类似地，方案1200的一个图块1222可大于该方案1200的其他图块。

图11和图12的划分方案可以在多视图视频编码应用中找到可用的应用。首先，可能有用的是应用图11的划分方案1100以生成各种较低质量服务层的表示(图9)，这允许播放器设备以适度的带宽从服务器检索并且下载适当的内容片段。应用图12的划分方案1200来生成高质量服务层的表示也可能是有用的(图9)，这允许播放器设备基于视口VP的当前或预测位置下载视频的适当片段(图10)。这样，播放器将在视口位置中解码并渲染高质量视频的片段。

应用图11的划分方案1100以在高质量服务级别下生成第二跨度也可能是便利的。在这个方面，服务器(图9)将存储用于单个服务级别的两组片段：表示根据图11的划分方案1100进行划分的帧1000(图10)的第一组片段(第一跨度)和表示根据图12的方案1200进行划分的帧1000的第二组片段(第二跨度)。这样，播放器设备具有下载不同图块尺寸的高质量视频片段的灵活性，与如果仅存在一个可用跨度的高质量数据相比，这提供了对此类下载所消耗的聚合数据速率的更精细控制程度。

图13示出了可从高质量视频的第一跨度的图块1220、1222、高质量视频的第二跨度的图块1118-1124和1168-1174、中等质量视频的图块1102-1108和1184-1190以及低质量视频的图块1216-1218、1224-1226和1232-1234开发的示例性多视图帧1300。可定制图块的空间布置和跨度的数量以适应个体应用需求。

在实施过程中，针对不同时间戳的不同跨度的图块能够以不同优先级流式传输并且异步预取。在一个方面，服务器可以存储表示整个多视图图像的“超级”图块，该“超级”图块可以由播放器在回放之前以预取方式进行检索。超级图块可以低质量进行编码并且在回放之前被预取，以提供针对带宽变化、传输误差和用户视场动态的稳健性。可以在媒体时间内更靠近其显示截止时间(例如，提前1秒或2秒)检索对应于预测视口位置的较小的图块，这能够在可以准确地进行视场预测时提供更高的质量和更快的视口响应性。

在另一方面，如图14所示，帧可被划分为重叠图块。在图14中，M×N像素的帧1400被示为划分为占据帧1400的整个空间区域的第一组图块1412-1422。帧1400被冗余地划分为在空间上与其他图块1412-1422重叠的第二组图块1424-1434。例如，图块1424与图块1412的一部分以及图块1414的一部分重叠，并且图块1426与图块1414的第二部分以及图块1416的一部分重叠。图块1428和图块1434可占据环绕帧1400的横向边缘的空间区域。例如，图块1428可与图块1412和图块1416的部分重叠，并且图块1434可与图块1418和图块1442的部分重叠。

图14中所示的划分方案允许播放器设备响应于视口的变化来选择图块。考虑其中视口初始位于图块1412的中心区域内(VP1)但在帧1400内横向移动直到其位于图块1414的中心区域内(VP2)的示例。在没有图块诸如图块1424的情况下，在某个点处，视口的区域将跨越图块1412与图块1414之间的边界，这将迫使播放器设备检索这两个图块的内容以渲染整个视口的内容。然而，使用图14中的划分技术，当视口跨越图块1412与图块1414之间的边界时，播放器可检索单个图块(在该示例中为图块1424)的内容。当视口完全包含在图块1414内时，播放器可检索图块1414。因此，这一方面降低了在由于视口位置而检索两个图块1412、1414的情况下将发生的带宽消耗。

在另外的方面，如图15所示，重叠图块的内容可具有应用于其以减少可能由多视图帧格式引入的视觉伪影的透视校正。图15示出了其中由多视图图像数据形成立方图图像的一个示例，该多视图图像数据由围绕质心C生成的子图像形成，这些子图像表示前子图像1512、左子图像1514、右子图像1516、后子图像1518、顶子图像1520和底子图像1522。这些子图像1512-1522可被封装成M×N像素帧格式1530。来自子图像中的一些子图像的图像内容可被布置成与来自其他子图像的图像内容相连，如虚线所示。因此，在图15所示的示例中，来自前子图像1512的图像内容可被布置为在一侧上与来自左子图像1514的内容相连，并且在另一侧上与来自右子图像1516的内容相连。类似地，能够以封装格式1530放置后子图像1518的图像内容，使得来自后子图像1518的一个边缘的图像内容与来自顶子图像1520的内容相连，并且后子图像1518的另一边缘上的图像内容与来自底子图像1522的内容相连。然而，即使这些子图像以图15所示的封装格式1530彼此相邻放置，来自前子图像1512的图像内容与来自后子图像1518的内容也不相连。

在一个方面，可针对封装格式1530的区域开发图块1524-1530，其中沿着封装格式1530内包含的子图像的边界存在连续性。在图15的示例中，可以开发包含从沿着子图像1512和子图像1514的边缘的内容开发的混合内容的图块1524。例如，该混合内容可以具有应用于子图像1512和子图像1514的对应内容的透视校正，以去除可能由于立方图投影而出现的伪影。图像内容可以首先从其原始立方图投影(其中子图像对应于多视图图像空间的不同面)投影到球形投影。此后，可以使用新面将图像内容从球形投影投影到新立方图投影，这些新面的中心沿着先前子图像的边缘设置。例如，对于图块1524，将创建具有围绕质心的取向的新子图像“面”，该取向相对于先前图块1512、1514的前面和左面中的每一者成角度。可使用相对于图块1512、1516的前面和右面成角度的面来生成另一子图像1526。尽管图15中未示出，混合子图像1528、1530也可从后子图像1518、顶子图像1520以及底子图像1522生成。

在一个方面，可以使用可扩展编码技术来定义服务层，其中第一基层提供了第一质量级别的对应图块的表示，并且其他增强层提供了关于图块的补充信息以改善其编码质量。相对于基层或较低增强层图块对增强层图块进行编码，其中跨层而不是跨图块边界来启用空间预测和时间预测。这样，例如，可使用增强层来检索视口图块以改善视频质量。在该方案中，可以比显示截止时间早得多(例如，提前20秒)预取基层编码图块，以提供多视图帧的基本表示、针对网络变化和视口动态的稳健性。可以更靠近显示截止时间(例如，提前1-2秒)预取增强层编码图块，以确保预测观看方向是准确的并且针对视口检索到最小数量的图块。

在流式传输期间，播放器可根据播放器内的调度逻辑、基于可用带宽、基于播放器的缓冲状态以及基于预测视口位置来选择和请求基层和增强层图块。例如，播放器可对基层图块下载进行优先级排序以保持目标基层缓冲长度(例如，10秒)。如果基层缓冲长度小于该目标，则客户端播放器可顺序地下载基层图块。一旦基层缓冲长度足够，客户端就可以利用带宽以更高的速率下载增强层图块。

播放器可跟踪视口预测准确性并动态地校正图块选择，以补偿先前预测的视口位置与稍后细化的视口位置之间的不匹配。考虑图16中所示的示例。考虑图16中所示的示例。在时间T-Δ1处，播放器可在稍后时间T预测视口位置VP1。在这种情况下，播放器可施加优先于帧中的其他图块1620、1622的预取优先级。例如，它可以请求图块1620和图块1622的高质量表示，可能请求附近图块1628和图块1630的中等质量表示(作为防止视口预测错误的保护)以及其余图块的低质量表示。

如果在稍后的时间T-Δ2，播放器在时间T预测了新视口位置VP2，则该播放器可确定先前的视口预测VP1不准确。播放器可相应地调整调度决策(例如，图块速率、图块优先级等)。在该示例中，图块1622能够以更高的质量排优。在该情景下，如果已经下载了中等质量版本的图块1622，则播放器可进一步请求用于图块1622的增强层图块以改善质量。类似地，如果图块1620尚未被下载，则可降低其优先级。实际上，除了估计的网络吞吐量、缓冲器占用和信道利用成本等之外，还可基于候选图块与预测视场之间的重叠区域大小或中心距离来确定图块优先级。播放器可以根据显示偏移和增强层图块位置动态同步和组装下载的基层图块和对应增强层图块(有时在多个层中)。

在另一方面，播放器可以根据各种预测操作在不同时间调度片段下载。图17示出了由图块T1710-T1756填充的渲染时间T处的视频的示例性帧1700。播放器可在渲染时间之前的各个时间执行一系列视口预测，并且其可根据那些预测来预取所选择的预测图块的片段。

图17示出了根据本公开的一个方面的表示示例性预取操作的时间线1760。在第一时间，如时间T-T1所示，播放器可执行第一预取操作，从而下载多个图块。可在渲染时间T之前足够远地执行(例如，提前10秒)第一预取操作，使得可能不会执行有意义的视口预测。在简单的具体实施中，播放器能够以基础质量级别下载帧1700的所有图块T1710-T1756的片段(示出为基层片段)。

可以在稍后的时间执行第二预取操作，如T-T2所示，该时间更靠近渲染时间。可在预测帧1700内的视口位置VP之后执行第二预取操作。在图17的示例中，预测指示视口位于由图块T1712、T1714、T1724和T1726占据的区域中。播放器能够以第二质量级别下载对应于那些图块的片段，其被示出为增强层片段。

本发明的各方面适应可能期望的其他预取操作。例如，图17示出了在更靠近渲染时间T的另一时间执行的第三下载操作，如T-T3所示。同样，播放器可预测视口VP在时间T的位置，并且其可下载与该位置相关联的片段。下载的第二组增强层片段可以改善将由基层片段和第一增强层片段实现的图块的编码质量。

在另一方面，如图18所示，具有不同速率和优先级(可按比例编码或同时联播)的图块可以通过具有不同信道特性(诸如带宽、延迟、稳定性、成本等)的通信网络(例如WiFi、LTE、5G等)内的异构网络路径路由。可基于信道容量制定路由。例如，低速率图块可以通过“慢速”信道诸如WiFi或LTE来递送，而高速率或高优先级图块可以通过“更快”信道诸如5G来递送。另选地，可基于信道成本制定路由。例如，在可用的情况下可以通过自由WiFi网络流式传输提供基本质量的低速率图块，可以通过更昂贵的无线网络流式传输中速率图块。可以通过可能最昂贵的网络(例如，5G)流式传输优质图块，其中仅在必要时触发数据量。

图19是根据本公开的一个方面的播放器1900的简化框图。播放器1900可包括在控制器1960的控制下操作的收发器(“TX/RX”)1910、接收缓冲器1920、解码器1930、合成器1940和显示器1950。收发器1910可提供与网络的通信(图1)，以发出对视频的清单文件和片段的请求并在网络使它们可用时接收它们。接收缓冲器1920可在接收到编码片段时存储这些编码片段。解码器1930可对缓冲器1920所存储的片段进行解码，并且可将图块的解码数据输出到合成器1940。合成器1940可从解码的图块数据生成视口数据并将该视口数据输出至显示器1950。

控制器1960可以管理播放器的片段选择和下载过程。控制器1960可以估计视口的位置，并且根据清单文件(图1)提供的信息请求对应于可能被显示的图块的片段。控制器1960可以确定要在哪个服务层检索哪些片段。并且控制器1960可以向合成器1940输出标识当前视口位置的数据。可参考来自传感器(诸如安装在便携式显示设备上的加速度计)的数据或通过控件提供的用户输入来执行视口位置确定。

上述描述在播放器设备的上下文中给出了本公开的各方面。通常，播放器被提供为计算机控制的设备，诸如头戴式显示器、智能电话、个人媒体播放器和游戏平台。然而在某些方面，本讨论的原理可扩展到个人计算机、笔记本电脑、平板电脑和/或专用视频会议设备。此类播放器设备通常使用执行存储在电脑存储器系统中的编程指令的电脑处理器来操作，该电脑存储器系统可包括电气、磁性和/或光学存储介质。另选地，前述技术可由专用硬件设备诸如专用集成电路、数字信号处理器和/或现场可编程门阵列来执行。并且，当然，本公开的各方面可通过采用通用和/或专用集成电路两者的混合设计来满足。除非上文指明，否则此类实施差异对本讨论无关紧要。

此外，尽管在上述描述中示出了视频的单向传输，但本公开的原理也可应用于双向视频交换。在这种情况下，本文所述的技术可应用于在两个设备之间沿第一方向传输的编码视频序列，以及应用于在相同设备之间沿第二方向传输的编码视频序列。每个方向的编码视频序列可独立于另一方向进行处理。

尽管已相对于若干个示例性方面对本公开进行描述，但是应当理解，已使用的字词为具有描述性和示例性的字词，而不是具有限制性的字词。在不脱离本公开各方面的范围和实质的情况下，可在如本文所陈述和所修正的所附权利要求的权限范围内进行改变。尽管已参考特定装置、材料和方面描述了本公开，但是本公开并非旨在限于所公开的细节；相反，本公开延伸到所附权利要求的范围内的所有功能上等效的结构、方法和用途。

Claims

1.一种视频源设备，所述视频源设备包括：

存储装置，所述存储装置用于表示多视图视频的编码视频，所述编码视频包括标识可供下载的所述多视图视频的多个片段以及能够下载所述片段的网络位置的清单文件，其中

所述多视图视频在空间上被划分为多个图块，所述多个图块具有基于内容在其相应区域内的显著性而被确定的尺寸，并且

所述片段中的每个片段包含表示包含在所述多个图块中的相应图块内的内容的编码视频。

2.根据权利要求1所述的源设备，其中对应于所述多视图视频的显著区域的图块具有比不对应于显著区域的另一图块更大的尺寸。

3.根据权利要求2所述的源设备，其中所述显著区域对应于从所述多视图视频的内容识别的感兴趣区域。

4.根据权利要求2所述的源设备，其中所述显著区域对应于所述多视图视频的低复杂度区域。

5.根据权利要求1所述的源设备，其中第一图块具有与另一图块的空间区域重叠的空间区域。

6.根据权利要求1所述的源设备，其中所述图块具有彼此不重叠的相应空间区域。

7.根据权利要求1所述的源设备，其中所述编码视频包括在不同服务层处进行编码的片段，每个服务层包含冗余的但与包含在另一服务层内的编码视频质量不同的所述多视图视频的编码视频。

8.根据权利要求1所述的源设备，其中所述编码视频包括在不同服务层处进行编码的片段，其中每个服务层的所述图块总体上占据所述多视图视频的整个空间区域。

9.根据权利要求1所述的源设备，其中

所述编码视频包括在不同服务层处进行编码的片段，

对于至少一个服务层，提供了多个片段组，每个片段组表示所述多视图视频到图块的不同划分，并且

每个划分的所述图块总体上占据所述多视图视频的整个空间区域。

10.根据权利要求1所述的源设备，其中

所述编码视频包括根据可扩展编码在不同服务层处进行编码的片段，其中

通过基层编码对第一服务层的片段进行编码，并且

通过增强层编码对第二服务层的片段进行编码。

11.一种视频解码方法，包括：

从网络检索标识可供下载的多视图视频的多个片段的清单文件以及表示每个片段对应的所述多视图视频的空间区域的图块，

从在所述清单文件中标识的所述图块中选择要渲染的片段，

根据在所述片段的所述清单文件中标识的网络位置从所述网络检索所选择的片段，其中所述图块的尺寸基于内容在其相应空间区域内的显著性而被确定，并且

对所选择的片段进行解码。

12.根据权利要求11所述的方法，其中所述选择包括：

估计未来时间的视口位置，以及

根据所估计的视口位置来选择片段。

13.根据权利要求11所述的方法，其中所述选择包括当所述清单文件标识所述多视图视频的不同服务层时，

选择对应于第一服务层的估计视口位置的片段，以及

在低于所述第一服务层的第二服务层处选择不对应于所估计的视口的另一片段。

14.根据权利要求11所述的方法，其中所述选择包括当所述清单文件标识所述多视图视频的不同服务层时，

选择对应于估计视口位置的第一图块的片段，所述片段包括含有所述图块的基层编码表示的第一片段和含有所述图块的增强层编码表示的至少一个其他片段，以及

选择不对应于所估计的视口的第二图块的片段，所述片段包含所述第二图块的基层编码表示。

15.根据权利要求11所述的方法，其中所述选择包括：

在第一时间，预测未来时间的视口位置，并且以第一编码质量级别下载与所预测的视口位置相关联的片段的图块，以及

在第二时间，在所述未来时间重新预测所述视口位置，并且以高于所述第一编码质量级别的第二编码质量级别下载与所重新预测的视口位置相关联的片段的图块。

16.根据权利要求11所述的方法，其中所述选择包括当所述清单文件标识所述多视图视频的不同服务层时，

在预取时间估计第一视口位置，并且根据第一估计视口位置来选择片段的第一质量表示，以及

在稍后的时间估计第二视口位置，并且根据第二估计视口位置来选择片段的第二质量表示。

17.根据权利要求11所述的方法，其中当所述清单文件标识所述多视图视频的不同服务层时：

所述多视图视频包括在不同服务层处进行编码的片段，

对于至少一个服务层，提供了多个片段组，每个组表示所述多视图视频到图块的不同划分，并且

18.根据权利要求11所述的方法，其中第一图块具有与另一图块的空间区域重叠的空间区域。

19.根据权利要求11所述的方法，其中所述图块具有彼此不重叠的相应空间区域。

20.包含程序指令的计算机可读介质，所述程序指令在由播放器设备执行时使得所述设备执行方法，所述方法包括：

从网络检索标识可供下载的多视图视频的多个片段的清单文件以及表示每个片段对应的所述多视图视频的空间区域的图块，其中所述图块的尺寸基于内容在其相应空间区域内的显著性而被确定，

从在所述清单文件中标识的所述图块中选择要渲染的片段，

根据在所述片段的所述清单文件中标识的网络位置从所述网络检索所选择的片段，并且

对所选择的片段进行解码。

21.根据权利要求20所述的介质，其中所述选择包括：

估计未来时间的视口位置，以及

根据所估计的视口位置来选择片段。

22.根据权利要求20所述的介质，其中所述选择包括当所述清单文件标识所述多视图视频的不同服务层时，

选择对应于第一服务层的估计视口位置的片段，以及

23.根据权利要求20所述的介质，其中所述选择包括当所述清单文件标识所述多视图视频的不同服务层时，

选择对应于估计视口位置的第一图块的片段，所述片段包括含有所述图块的基层编码表示的第一片段和含有所述图块的增强层编码表示的第二片段，以及

24.根据权利要求20所述的介质，其中所述选择包括当所述清单文件标识所述多视图视频的不同服务层时，

25.一种播放器设备，所述播放器设备包括：

存储装置，所述存储装置用于多视图视频的多个可下载片段，

视频解码器，所述视频解码器具有用于存储装置中的片段的输入，

显示器，所述显示器用于解码的片段数据的显示，以及

控制器，所述控制器

从在所述清单文件中识别的所述图块中选择要渲染的片段，并且

根据在所述片段的所述清单文件中识别的网络位置从所述网络检索所选择的片段。