CN108476324B

CN108476324B - 增强视频流的视频帧中的感兴趣区域的方法、计算机和介质

Info

Publication number: CN108476324B
Application number: CN201680071998.1A
Authority: CN
Inventors: E.托马斯; R.范布兰登伯格; M.O.范德文特
Original assignee: Koninklijke KPN NV
Current assignee: Koninklijke KPN NV
Priority date: 2015-10-08
Filing date: 2016-10-07
Publication date: 2021-10-29
Anticipated expiration: 2036-10-07
Also published as: EP3360330A1; US10674185B2; WO2017060423A1; EP3360330B1; CN108476324A; US20180295400A1

Abstract

描述了用于增强视频流的视频帧中的感兴趣区域的方法。该方法包括接收定义至少一个基础流的基础视频帧的媒体数据，所述基础流与一个或多个增强图块流相关联，增强图块流包括定义包括图块的图块化视频帧的媒体数据，所述图块包括用于增强基础视频帧的图像区域的子区域中的视觉内容的媒体数据；请求一个或多个增强图块流的媒体数据，优选地一个或多个HEVC增强图块流的媒体数据，一个或多个增强图块流与用于增强至少一个感兴趣区域中的视觉内容的媒体数据相关联；基于至少一个基础流的媒体数据生成基础视频帧，并基于一个或多个增强图块流的媒体数据生成图块化视频帧，图块化视频帧包括形成至少一个感兴趣区域的视觉内容的一个或多个图块；以及，用图块化视频帧的所述增强视觉内容的至少一部分替换或混合所述基础流的视频帧中的所述至少一个感兴趣区域的视觉内容的至少一部分。

Description

增强视频流的视频帧中的感兴趣区域的方法、计算机和介质

技术领域

本发明涉及增强视频流的视频帧中的至少一个感兴趣区域，并且特别地但非排他性地涉及用于增强视频流的视频帧中的至少一个感兴趣区域的方法和系统、用于增强视频流的视频帧中的至少一个感兴趣区域的媒体设备、用于使得媒体设备能够增强视频流的视频帧中的至少一个感兴趣区域的数据结构以及用于执行这样的方法的计算机程序产品。

背景技术

在诸如与虚拟现实（VR）和360度视频有关的应用之类的某些视频应用中，可能期望要增强媒体流的视频帧中的观看者感兴趣的区域。这样的区域可以被称为感兴趣区域（ROI）。用于确定图像区域中的ROI的已知技术是基于内容的。通常，使用例如对象跟踪、光流（视频中的运动）、面部检测、车辆检测等来分析视频帧中的内容。此后，可以处理检测到的ROI以便增强ROI内的视频质量。

用以实现视频图像中的这种局部质量增强的一种途径是被称为基于ROI的视频编码的技术。基于ROI的视频编码可以与可扩缩视频编码（SVC）组合，SVC是视频编码标准MPEG-4第10部分AVC/H.264的扩展，其使得能够实现多层编码方案。在其最简单的用法中，在提供不同的质量等级和分辨率的不同依赖层（dependent layer）中对原始视频进行编码，所述不同依赖层例如基础层和一个或多个增强层，其中基础层提供最低质量并且其中增强层仅包括以已编码形式的残差信息（即，高质量减去低质量的信息），从而使得基础层与增强层相组合而产生高质量视频帧。因而，如果用户想要更高的质量，则SVC解码器将不得不解码基础层加上第一增强层，由此增强层的解码依赖于基础层。类似地，与第一和第二增强层相结合地解码基础层将产生甚至更高质量的视频。通过更高质量的视频，我们意指更高的空间分辨率（即，更多的像素）或者更高的信噪比（SNR），其以更高的保真度再现原始源视频。这两种增强都有助于使人眼感知到的视频质量更高。

由Jung-Hwan Lee、Yoo，C.在IEEE关于消费者电子产品的学报（Consumer Electronics, IEEE Transactions on）中的第57卷、第2期、第882-887页、2011年五月所著的文章“用于基于H.264/SVC的视频流式传输的可扩缩roi算法（Scalable roi algorithmfor H.264/SVC-based video streaming）”描述了一种要通过利用SVC视频编码标准来增强视频流的ROI的技术，其中使用基础层来以可接受的质量编码视频。另外，产生仅包括以更高质量编码的ROI的增强层。结果，不同的增强层仅覆盖基础层的视频帧的全部图像区域的一部分。ROI增强层被包含在同心切片（slice）中，这些同心切片的形状由MPEG-4第10部分AVC/H.264中描述的灵活宏块排序（FMO）特征来实现。在此现有技术中，增强层的解码取决于基础层的可用性。

与基于ROI的视频编码相关联的一个问题是它依赖于关于观看者感兴趣的ROI的先验知识。在使用高密度全景式或沉浸式视频时，检测到的对象和相关联的ROI的数量会显著提高，并且无法再维持这种先验知识的可用性。例如，不同的用户可对不同的ROI感兴趣，例如，在视频监控中，第一警务人员可能希望具有关于图像中的车辆（特别地，牌照）的高质量视图，而另一第二警务人员可能只对行人的面部的高质量视图感兴趣。在这样的情形中，可以生成包括这两个ROI的增强层，使得第一用户将接收关于第二用户的ROI的信息，并且反之亦然，由此造成带宽的浪费。即使可以基于数个用户简档来产生多个层，但最终这样的途径未提供可扩缩的解决方案。在数百个用户的情况下，产生数百个增强层在计算上不是高效的。结果，初始被标识为ROI、作为增强层的一部分被解码并被发送到客户端的许多区域将最终与用户无关。因而造成带宽的显著浪费。在其它应用中，上述关于ROI的先验知识根本不存在。例如，在诸如视线检测之类的基于上下文的应用中或在其中用户选择一个或多个ROI的用户接口应用中，无法在编码阶段知道视频帧的图像区域的哪些部分将会是ROI。在这样的应用中，不能使用现有的基于ROI的视频编码方案。

WO 2014111423描述了一种用于提供包括提高的视频质量的高质量（HQ）ROI的视频的系统。WO 2014111423提出了两个基本解决方案来实现它。一种解决方案是基于诸如对AVC的SVC扩展之类的可扩缩视频编解码器。在此解决方案中，从源视频中生成编码视频流，其各自包括覆盖源视频的全图像视图的基础层以及包括全图像视图的一部分（图块）的至少一个增强层。每个视频流的解码要求独立的解码实例并且每个视频流的增强层的解码还要求覆盖全图像视图的基础层的可用性。包括HQ ROI的解码视频流的形成包括：选择包括覆盖ROI的一个或多个HQ图块的增强层，由每个所选增强层的分离的解码实例基于基础层进行单独解码以便形成各自包括不同位置处的一个或多个HQ图块的多个视频帧，以及最终将视频帧组合成包括HQ ROI的视频帧。

在不利用可扩缩视频编解码器的另选解决方案中，每次用编码视频生成多个不同的基本流（elementary stream），其中每个基本流具有不同的高质量图块并且其余的图块为低质量。包括HQ ROI的解码视频流的形成包括选择包括覆盖ROI所需的一个或多个HQ图块的适当基本流，由每个所选基本流的分离的解码实例基于基础层进行单独解码以便形成各自包括不同位置处的一个或多个HQ图块的多个视频帧，以及最终将视频帧组合成包括HQROI的视频帧。

在这两个公开的解决方案中，在组合以进行显示期间通过发信号通知HQ图块应当被重叠在基础层图像的被HQ图块覆盖的部分上（例如，叠加/置于所述部分上/置于所述部分前方）来执行组合。

所提出的解决方案需要对媒体数据进行并行解码以便形成各自包括一个（或多个）HQ图块的多个视频帧，并且随后将多个视频帧组合成包括HQ ROI的视频帧。结果，可能包括或可能不包括增强层的独立视频流的所需并行解码过程/实例的数量与覆盖所选一个或多个ROI所需的所要求的HQ图块的数量线性地比例缩放。因此，当提高图块的数量和可同时选择的ROI的数量时，这种方案将需要并行运行的大量解码实例，这将可同时选择的ROI的数量和图块网格的粒度（例如，可用图块的数量）约束至设备能力。

更具体地，在WO 2014111423中，客户端上的负担随着解码图块的数量线性提高。这是有问题的，因为ROI增强应用通常需要精细选择需要增强的区域以便适应内容的形状（例如，视频监控中的卡车）。因而，在这种应用中，期望原始视频的精细图块化网格。结果，非常可能的是客户端不得不分离地检索并解码例如九个或更多个基本流/增强层，以便形成包括增强的ROI的一个视频帧。然而，对这么多的基本流/增强层进行解码对于存储器管理而言是计算密集且有挑战的，因为对于每个基本流/增强层，需要分离的解码流水线。此外，当将解码视频帧组合成包括HQ ROI的视频帧时，在所得到的视频帧中有大量的解码媒体数据未被使用，由此致使解码过程在解码资源方面是低效的。

另外，如上所述，WO 2014111423中提出的“可扩缩视频编解码器”解决方案依赖于具有支持可扩缩视频编解码器的解码器的客户端设备。

此外，由WO 2014111423提出的基于非可扩缩编解码器的另选解决方案提出了这样的基本流：除了包含高质量图块之外还各自包含低质量图块。这在要检索和解码的视频数据中引入了显著的冗余，其随着图块网格的粒度线性地比例缩放。

因而，从以上可以看出本领域存在对于使得能够进行视频流的视频帧中的一个或多个感兴趣区域的简单且高效的增强的改进的方法和系统的需要。

发明内容

如本领域技术人员将认识到的，本发明的各方面可以被实施为系统、方法或计算机程序产品。因此，本发明的各方面可以采取完全硬件实施例、完全软件实施例（包括固件、驻留软件、微代码等）或者组合软件和硬件方面的实施例的形式，在本文中它们都可以被统称为“电路”、“模块”或“系统”。本公开中描述的功能可以被实现为由计算机的微处理器执行的算法。此外，本发明的各方面可以采取实施在一个或多个计算机可读介质中的计算机程序产品的形式，所述一个或多个计算机可读介质具有实施（例如，存储）在其上的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于：电子的、磁性的、光学的、电磁的、红外的或半导体的系统、装置或设备，或前述的任何合适组合。计算机可读存储介质的更具体的示例（非排他性列表）可以包括：具有一个或多个线缆的电气连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光学存储设备、磁性存储设备或前述的任何合适组合。在本文档的上下文中，计算机可读存储介质可以是能够包含或存储供指令执行系统、装置或设备使用或者与其结合使用的程序的任何有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分的、其中实施有计算机可读程序代码的传播数据信号。这样的传播信号可以采取多种形式中的任何形式，这多种形式包括但不限于电磁、光学或其任何合适组合。计算机可读信号介质可以是并非计算机可读存储介质并且可以传送、传播或传输以供指令执行系统、装置或设备使用或与其结合使用的程序的任何计算机可读介质。

实施在计算机可读介质上的程序代码可以使用任何适当介质来传送，所述任何适当介质包括但不限于无线、有线、光纤、线缆、RF等，或者前述的任何合适组合。用于执行用于本发明的各方面的操作的计算机程序代码可以用一种或多种编程语言的任何组合来编写，这一种或多种编程语言包括诸如Java（TM）、Smalltalk、C++等的面向对象编程语言，以及诸如“C”编程语言或类似编程语言之类的常规程序性编程语言。程序代码可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包、部分在用户的计算机上且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一场景中，远程计算机可以通过任何类型的网络连接至用户的计算机，所述任何类型的网络包括局域网（LAN）或广域网（WAN），或者可以（例如，使用互联网服务提供商而通过互联网）连接到外部计算机。

以下参考根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图图示和/或框图对本发明的各方面进行描述。将要理解的是，流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或者其它可编程数据处理装置的处理器（特别是微处理器或中央处理单元（CPU））以产生机器，以使得经由计算机、其它可编程数据处理装置或其它设备的处理器执行的指令创建用于实现在所述流程图和/或框图的一个或多个框中所指定的功能/动作的部件。

这些计算机程序指令也可以存储在计算机可读介质中，所述计算机可读介质可以指导计算机、其它可编程数据处理装置或者其它设备以特定方式运转，以使得存储在计算机可读介质中的指令产生包括实现流程图和/或框图的一个或多个框中所指定的功能/动作的指令的制品。

计算机程序指令也可以被加载到计算机、其它可编程数据处理装置或其它设备上以使得一系列操作步骤得以在计算机、其它可编程装置或其它设备上被实行以产生计算机实现的处理，从而使得在计算机或其它可编程装置上执行的指令提供用于实现流程图和/或框图的一个或多个框中所指定的功能/动作的过程。

附图中的流程图和框图例示了根据本发明的各个实施例的系统、方法和计算机程序产品的可能实现的架构、功能性和操作。在这方面，流程图或框图中的每个框可以表示包括用于实现所指定的（一个或多个）逻辑功能的一个或多个可执行指令的模块、区段或代码部分。还应当注意的是，在一些另选实现中，框中所指出的功能可以采用与图中所示有所不同的次序来发生。例如，取决于所涉及到的功能性，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反顺序执行。还将要注意的是，框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可以由执行所指定的功能或动作的基于专用硬件的系统来实现，或者由专用硬件和计算机指令的组合来实现。

本发明的目标是要减少或消除现有技术中已知的缺点中的至少一个。

在一个方面中，本发明可以涉及一种用于增强视频流的视频帧中的至少一个感兴趣区域的方法，包括：接收定义至少一个基础流的基础视频帧的媒体数据，所述基础流与一个或多个增强图块流相关联，其中增强图块流包括定义图块化视频帧的媒体数据，图块化视频帧包括与用于增强基础视频帧的图像区域的子区域中的视觉内容的媒体数据相关联的图块；请求一个或多个增强图块流的媒体数据，优选地一个或多个HEVC增强图块流的媒体数据，所请求的媒体数据的图块化视频帧的一个或多个图块与基础视频帧的图像区域中的至少一个预定的感兴趣区域相关联，所述预定感兴趣区域优选地是基于通过媒体设备接收的用户输入确定的，其中所述媒体设备优选地被配置用于执行根据本发明的各种实施例的方法；

基于至少一个基础流的媒体数据生成基础视频帧，并基于所请求的一个或多个增强图块流的媒体数据生成图块化视频帧，所生成的图块化视频帧包括在至少一个感兴趣区域中形成增强视觉内容的一个或多个图块；以及，通过基于图块化视频帧的增强视觉内容修改所述基础流的视频帧中的至少一个感兴趣区域的视觉内容的至少一部分来形成包括增强的感兴趣区域的视频帧，其中所述修改优选地包括用图块化视频帧的增强视觉内容替换或混合所述基础流的视频帧中的至少一个感兴趣区域的视觉内容的至少一部分。

因此，根据本发明的方法优选地由媒体设备执行，其中媒体设备包括至少一个处理器、存储器空间以及以硬件和/或软件形式的用于请求各自包括媒体数据的基础流和增强图块流的功能。此后一功能在客户端设备中实施。

根据本发明的实施例，媒体设备还可以包括可以被实施为硬件和/或软件的、用于准备所接收的媒体数据以用于解码以及用于解码所接收的媒体数据的功能。这样的功能可以被称为媒体引擎，并且构成至少两个解码器。这些至少两个解码器中的每一个都可以以硬件、软件或其组合来实施。准备优选地包括基于所接收的基础流的媒体数据形成依从于（例如，并用于输入到）第一解码器的比特流，并且基于所接收的至少一个增强图块流的媒体数据形成依从于（例如，并用于输入到）至少一个另一解码器的至少一个比特流。

根据本发明的其它实施例，媒体设备也可以包括用于形成包括根据本发明的一个或多个增强的感兴趣区域的视频帧的功能。这样的功能可以被称为渲染引擎或渲染设备，其可以被实施为硬件和/或软件。

在本发明的实施例中，增强图块流的媒体数据被配置为可与基础流独立地解码。这允许由不同的解码器对基础流和一个或多个增强图块流的并行处理（解码），并且允许针对基础流和一个或多个增强图块流使用不同的编解码器。

在本发明的其它实施例中，所请求的来自一个或多个增强图块流的媒体数据源自单个视频编码过程，该单个视频编码过程优选地是基于HEVC视频编码标准。

请求如上定义的媒体数据的优点在于：通过它们的共同编码原点，它们可以合并成单个比特流以输入到单个解码器（例如，HEVC解码器），这限制了用于解码增强图块流所需的解码器实例的数量。

因此，本发明可以利用在诸如HEVC视频编码标准之类的最新视频编码标准中定义的图块特征。

在实施例中，可以基于第一编解码器对基础流的媒体数据进行编码，并且可以由第一解码器生成基础视频帧。在实施例中，可以基于不同于所述第一编解码器的第二编解码器来编码增强图块流的媒体数据，第二编解码器支持图块化视频帧（例如，HEVC、VP9、AVC或从这些编解码器中的一个导出或者基于这些编解码器中的一个的编解码器），并且图块化视频帧可以由第二解码器生成。

这种编解码器的图块特征允许在图块化视频流中编码高质量视频数据，其中图块化视频流的媒体数据可以作为单独的图块轨道存储，使得与一个或多个图块相关联的媒体数据可以被单独访问并作为一个或多个增强图块流被流式传输到媒体设备。多个增强图块流的媒体数据可以由单个解码器（优选地，HEVC解码器）高效地解码成包括在视频帧的图像区域中的一个或多个ROI处的增强视觉内容（例如，高质量视觉内容）的图块化视频帧。与不同的增强图块流相关联的图块化视频帧的图块在本实施例中不交叠。包括一个或多个ROI的位置处的增强视觉内容的这些图块化视频帧可以容易地与标准基础流的视频帧组合，从而产生包括增强的ROI的视频帧。由许多小图块构成的图块化方案使得能够精确地选择覆盖ROI的一组图块（例如，最高级别的HEVC比特流允许多达22x20图块的网格）。

因此，本发明通过确定基础流（例如，标准质量视频流）中的一个或多个ROI的位置和大小并且随后请求与一个或多个ROI相关联的（例如，高质量图块化视频流的）期望的增强图块来使得能够实现完全个人化的增强功能。因此，此后在解码域中，客户端设备可以通过用增强图块流的媒体数据替换或混合基础流的视频帧的ROI中的媒体数据来对这些媒体数据进行修改，从而生成基础流的视频帧中的一个或多个增强区域（例如，具有增强的视频质量的一个或多个ROI）。

在本发明的实施例中，该方法包括接收混合信息，该混合信息用于将基础流的视频帧的媒体数据与所请求的至少一个增强图块流的媒体数据进行混合，所述混合是对所请求的媒体数据在像素区域中的像素值以及基础流的媒体数据在对应像素区域中的像素值执行的。

在本发明的另一实施例中，混合信息包括混合参数，混合参数优选地指示要在混合操作中保持的来自一个或多个增强图块流的像素的百分比或权重或者基础流的百分比或权重。

在另一实施例中，优选地包括所述混合参数的混合信息是在根据ISO BMFF标准配置的至少一个增强图块流的TrackHeaderBox（轨道头部盒）内接收的。

在又一实施例中，根据ISO BMFF标准配置的至少一个增强图块流的TrackHeaderBox中的层属性参数被配置为发信号通知该增强图块流是上层。在这样的实施例中，混合参数可以优选地被配置为发信号通知要在混合操作中保持的来自上层的像素的百分比或权重。并且因此可以组合使用这两个参数来发信号通知混合操作。

所主张的是，增强基础流的视频帧中的一个或多个子区域的视觉内容不局限于局部地提高ROI中的主观视频质量（诸如增强每像素的色彩信息（的部分））或局部地提高ROI中的像素分辨率，而且还涵盖模糊或隐藏ROI（例如，出于隐私原因的人的面部）、替代ROI中标识的一个或多个对象（例如，通过卡通形象来替代人）、局部插入或替代视觉信息（例如，插入广告）、在一个或多个ROI中局部插入错误恢复信息和/或水印信息，等等。因此，在本申请中，使用混合式图块化流式传输方案的基础流的视频帧中的局部视频增强的概念（混合式意味着将基于第一（常规）媒体流的视频渲染与基于增强图块流的视频渲染相组合，即，视频流包括图块化视频帧）应当被解释为基于增强图块流对基础流的视频帧的一个或多个ROI中的视频数据进行的任何类型的局部改进或有目的的修改。

在本发明的实施例中，该方法包括接收滤波信息，该滤波信息用于发信号通知对于由混合操作产生的或由简单像素替代操作产生的帧的至少部分像素的滤波操作，藉此基于卷积矩阵来优选地执行滤波操作。

在另一实施例中，滤波信息是在根据ISO BMFF标准配置的至少一个增强图块流的MovieHeaderBox内接收的。另选地，滤波信息是作为清单文件的一部分接收的。

在另一实施例中，优选地包括在MovieHeaderBox中的滤波信息包括滤波范围参数，该滤波范围参数发信号通知要将滤波操作限制于仅受替代或混合影响的区域的像素边界。

在实施例中，滤波范围参数被定义为将滤波操作限制于卷积矩阵仍然覆盖来自受替代或混合影响的区域的像素的那些像素。

可选地，滤波信息包括另一“滤波带”参数，该参数发信号通知用于对其应用滤波操作的附加带大小（优选地以像素计）。此附加带参数可以是这样的一个参数：发信号通知要将滤波操作应用于受影响的区域的边界内侧或外侧上的两种像素、或者其按照惯例可以用于发信号通知两个值，一个用于受影响的区域的边界的内侧或外侧上的像素。

在实施例中，第一编解码器和第二编解码器被选择为使得基础流和增强图块流两者的媒体数据被格式化为可独立消费的媒体流。因此，这些流的媒体数据可以被独立地检索和渲染。因此，这些流不同于SVC或SHVC基础层和增强层的地方在于：SVC或SHVC增强层只能通过组合基础层的媒体数据和增强层的数据来播出。根据SVC或SHVC标准的增强层本身不包含能够独立用于播出的媒体数据。

在实施例中，可以基于清单文件来请求媒体数据，所述清单文件包括至少一个基础流标识符和与该至少一个基础流标识符相关联的一个或多个增强图块流标识符，优选地，流标识符包括URL（的至少一部分）或包括用于确定这样的URL的信息；清单文件还包括用于向所述客户端设备发信号通知关于所述基础流的视频帧中的视觉内容与所述一个或多个增强图块流的图块化视频帧的图块中的视觉内容之间的空间关系的图块位置信息。

在实施例中，图块位置信息可以包括一个或多个空间关系描述符（SRD），空间关系描述符与基础流和/或增强图块流相关联，空间关系描述符向客户端设备发信号通知关于视觉内容在基础流的视频帧中的位置和/或关于图块在图块化的增强图块流的图块化视频帧中的位置。由于图块还可以与基础视频帧的图像区域的子区域相关联，所以也可以被称为“空间”位置或“图块位置”的位置优选地提供可以如下信息：其标识可以被与图块相关联的媒体数据增强的基础视频帧的图像区域的特定子区域。

在实施例中，该方法可以包括：确定与所述基础流的视频帧中的至少一个感兴趣区域的位置相关联的ROI位置信息。在实施例中，该方法可以包括基于ROI位置信息和图块位置信息来确定一个或多个增强图块流。在实施例中，所述确定包括确定定义至少部分地与至少一个ROI重叠的一个或多个图块的一个或多个增强图块流。

因此，清单文件向客户端设备提供用于请求基础流和增强图块流的媒体数据（例如用于请求包括期望媒体数据的基础流和增强图块流）的信息。此外，清单文件向客户端设备提供关于基础流的视频帧的图像区域与增强图块流的图块化视频帧中的图块之间的空间关系的信息。这样，客户端设备能够确定需要哪些增强图块流以便增强基础流的视频帧的图像区域中的感兴趣区域。

在实施例中，清单文件可以包括与一个或多个增强图块流中的至少一个相关联的增强信息，增强信息被配置用于向客户端设备发信号通知关于由增强图块流提供的增强的类型。在实施例中，增强信息可以包括与由所述增强图块流标识符定义的一个或多个增强图块流和/或由所述基础流标识符定义的基础流的分辨率、比特率、色彩深度、帧速率中的至少一个相关联的一个或多个增强参数。清单文件可以包括关于可以基于不同的增强图块流实现的一个或多个增强类型的信息。

在实施例中，该方法可以包括：确定像素替换信息，像素替换信息用于向渲染设备（在本申请中也称为渲染引擎）发信号通知关于与基础流的视频帧中的至少一个感兴趣区域相关联的基础流的视频帧中的像素；使用像素替换信息来用图块化视频帧的视频帧中的相关联的像素信息替换或混合基础流的视频帧中的至少一个感兴趣区域的至少一部分中的像素信息。在实施例中，像素替换信息可以包括位图。在实施例中，可以至少部分地基于清单文件中提供的图块位置信息和/或ROI位置信息来确定像素替换信息。因此，可以由渲染引擎（具体地，渲染引擎中的融合模块）使用像素替换信息以便高效地选择基础流的视频帧中需要用增强图块流的像素进行替换的像素。像素替换信息可以包括定义基础流的视频帧中的需要用增强图块流的像素进行替换或者与增强图块流的像素混合的一个或多个感兴趣区域的像素的位图。位图允许对感兴趣区域的形状的非常精确的（像素级别的）定义，感兴趣区域的形状可以具有任何形状。

在实施例中，所述形成包括：

在所述修改之前，基于关于一个或多个增强图块流的图块化视频帧的视频和/或图片特性的信息来调整所述基础视频帧，优选地调整所述基础视频帧的视频和/或图片特性，所述调整优选地包括提升（upscale）所述基础视频帧的所述视频和/或图片特性以匹配所述一个或多个增强图块流的图块化视频帧的视频和/或图片特性。

在此实施例中，基础流的视频帧在被解码之后需要在视频和图片特性方面进行调整，从而产生经调整的基础视频帧，此后可以通过用对应像素区域中与增强图块流相关联的图块化视频帧的像素进行替换或混合来修改经调整的基础视频帧中的像素区域的像素。

在实施例中，与跟第一增强图块流相关联的第一图块化视频帧中的图块相关联的媒体数据可以被编码为使得媒体数据不具有对一个或多个其它图块的媒体数据的任何空间解码依赖性。在另一实施例中，增强图块流的、且与图块相关联的媒体数据可以被编码为使得（经编码的）媒体数据不具有对在第一图块化视频帧之前或者在第一图块化视频帧之后的一个或多个图块化视频帧的（经编码的）媒体数据的任何时间解码依赖性。因此，增强图块流的（经编码的）媒体数据可以是可独立解码的，并且可以存储在可以被独立访问的图块轨道中。

在实施例中，增强图块流可以包括具有增强亮度信息的媒体数据。公知的是，与黑白表示的信息相比，人类视觉系统对色彩空间中的高频较不敏感。出于该原因，可以使用亮度通道用于增强感兴趣区域。

在一个实施例中，增强图块流可以仅包括增强亮度信息（因为增强色度信息将对主观质量几乎没有影响）。在这种情况下，仅针对一个色彩通道（亮度通道）执行融合操作，从而导致增强感兴趣区域的高效方式。

在实施例中，修改所述至少一个感兴趣区域的视觉内容的至少一部分可以包括：将包括基础流的视频帧的第一视频帧缓冲器的内容复制到媒体设备的输出帧缓冲器中；用包括与一个或多个增强图块流相关联的图块化视频帧的第二视频帧缓冲器中的对应像素位置处的像素值覆写或混合输出帧缓冲器中与至少一个感兴趣区域相关联的像素值，其中二进制掩码指示第二视频帧缓冲器中的哪些像素值需要被复制到输出帧缓冲器中。此实施例的主要益处是它允许异步地执行解码和融合操作。在实施例中，对帧缓冲器的读取和写入访问可以通过锁定准许来调节。如果资源（例如，视频帧缓冲器）被锁定（因为例如视频帧缓冲器装载有数据），则融合过程必须等待释放资源以便从视频帧缓冲器中读出数据。

在实施例中，在所述替换或混合之前，基于与一个或多个增强图块流相关联的图块化视频帧的视频和/或图片特性来调整包括基础流的视频帧（例如，基础视频帧）的第一视频帧缓冲器的内容的视频和/或图片特性，所述图块化视频帧被包括在所述第二视频帧缓冲器中。

在实施例中，增强图块流还包括用于向第二解码器发信号通知要生成图块化视频帧的图块信息，图块化视频帧包括表示由所述图块信息提供的图块位置处的视觉内容的子区域的至少一个图块。

在实施例中，清单文件还可以进一步包括对基础轨道的参考，基础轨道与在所述清单文件中定义的图块流标识符相关联，基础轨道包括序列信息形式的元数据，该序列信息与由所述图块流标识符定义的一个或多个增强图块流的媒体数据需要按照其而被组合成用于第二解码器的比特流的次序相关联。优选地使用对基础轨道的参考用于检索与基础轨道相关联的元数据。

在实施例中，基于媒体流式传输协议或媒体传输协议、（HTTP）自适应流式传输协议或用于包化媒体数据的传输协议（诸如RTP协议）中的至少一个的数据容器来格式化所述一个或多个增强图块流。这样的数据容器可以被称为传输容器或媒体容器。媒体容器是基于媒体文件格式，诸如基于ISO BMFF的文件格式。传输容器包含有效载荷，可选地以一个或多个媒体容器的至少一部分的形式。媒体容器包含媒体数据形式的有效载荷。媒体数据可以被编码或者不被编码。为了本发明的目的，当媒体数据被媒体设备接收时，它是被编码的，并且在被提交到解码过程之后，它被解码。为了清楚的目的，有时明确地添加术语“经编码的”和“经解码的”，但是要理解的是，本领域普通技术人员在理解本申请中术语“媒体数据”分别何时指代它的经编码的形式或者何时指代它的经解码的形式方面不会有任何问题。

在实施例中，可以基于支持图块化视频帧的编解码器对一个或多个增强图块流的媒体数据进行编码，优选地，所述编解码器选自以下中的一个：HEVC、VP9、AVC或从这些编解码器中的一个导出或者基于这些编解码器中的一个的编解码器。

在实施例中，由一个或多个增强图块流标识符定义的一个或多个增强图块流的媒体数据可以存储在一个或多个图块轨道中，并且与一个或多个增强图块流的至少一部分相关联的元数据可以存储在至少一个基础轨道中。因此要理解的是，术语基础轨道因此是指照此的元数据，而不是指根据本发明的包含媒体数据的基础流。

在实施例中，一个或多个图块轨道和至少一个基础轨道具有基于ISO/IEC 14496-12 ISO基础媒体文件格式（ISOBMFF）或ISO基础媒体文件格式中的NAL单元结构化视频的ISO/IEC 14496-15托架（Carriage）的数据容器格式。

在另一方面中，本发明可以涉及一种计算机，优选地，一种媒体设备，其包括：具有随其实施的计算机可读程序代码的计算机可读存储介质，以及耦合到计算机可读存储介质的处理器，优选地是微处理器，其中，响应于执行计算机可读程序代码，处理器被配置为执行可执行操作，所述可执行操作包括：

接收定义至少一个基础流的基础视频帧的媒体数据，所述基础流与一个或多个增强图块流相关联，其中增强图块流包括定义图块化视频帧的媒体数据，图块化视频帧包括与用于增强基础视频帧的图像区域的子区域中的视觉内容的媒体数据相关联的图块；请求一个或多个增强图块流的媒体数据，优选地一个或多个HEVC增强图块流的媒体数据，所请求的媒体数据的图块化视频帧的一个或多个图块与基础视频帧的图像区域中的至少一个预定的感兴趣区域相关联；基于至少一个基础流的媒体数据生成基础视频帧，并基于一个或多个增强图块流的媒体数据生成图块化视频帧，所生成的图块化视频帧包括在至少一个感兴趣区域中形成增强视觉内容的一个或多个图块；以及通过用图块化视频帧的增强视觉内容的至少一部分替换或混合所述基础流的视频帧中的至少一个感兴趣区域的视觉内容的至少一部分来形成包括增强的感兴趣区域的视频帧。

在另一方面中，本发明可以涉及一种包括数据结构的非暂时性计算机可读存储介质，所述数据结构用于使得能够增强视频流的视频帧中的感兴趣区域，所述数据结构包括计算机可读程序代码，所述代码包括：至少一个基础流标识符以及与所述至少一个基础流标识符相关联的一个或多个增强图块流标识符，优选地，流标识符包括URL（的至少一部分）或者包括用于确定这样的URL的信息，以用于使得客户端设备能够请求基础流和/或一个或多个增强图块流；

图块位置信息，用于向客户端设备发信号通知关于基础流的视频帧中的视觉内容与一个或多个增强图块流的图块化视频帧的图块中的视觉内容之间的空间关系，优选地，所述位置信息包括一个或多个空间关系描述符（SRD），空间关系描述符与基础流和/或增强图块流相关联，空间关系描述符向客户端设备发信号通知关于视觉内容在基础流的视频帧中的位置和/或关于图块在图块化增强图块流的图块化视频帧中的位置。

在另一实施例中，所述代码可以包括与一个或多个增强图块流中的至少一个相关联的增强信息，增强信息向客户端设备发信号通知关于由增强图块流提供的增强类型，并且可选地用于向客户端设备提供与由所述增强图块流标识符定义的一个或多个增强图块流的分辨率、比特率、色彩深度、帧速率中的至少一个相关联的一个或多个增强参数。

本发明还可以涉及一种包括软件代码部分的程序产品，所述软件代码部分被配置用于当在计算机的存储器中运行时执行如上所述的方法步骤。

将参照附图进一步例示本发明，附图将示意性地示出根据本发明的实施例。将理解的是，本发明不以任何方式局限于这些具体实施例。

附图说明

图1示意性地描绘了根据本发明的实施例的用于混合式图块化流式传输的系统。

图2示意性地描绘了基于基础流中的一个或多个ROI来选择图块化HEVC增强图块流的图块。

图3示意性地描绘了基于ROI选择的图块流。

图4示意性地描绘了用于存储图块化HEVC增强图块流的图块流的媒体格式。

图5示意性地描绘了根据本发明的实施例的用于混合式图块化流式传输方案的媒体呈现格式。

图6示意性地描绘了根据本发明的实施例的用于组合基础流和一个或多个增强图块流的过程。

图7示意性地描绘了根据本发明的另一实施例的被配置用于组合基础流和一个或多个增强图块流的媒体设备。

图8示意性地描绘了根据本发明的实施例的融合过程。

图9示意性地描绘了根据本发明的另一实施例的融合过程。

图10是例示可以在本公开中描述的方法和系统中使用的示例性数据处理系统的框图。

具体实施方式

图1示意性地描绘了根据本发明的实施例的用于混合式图块化流式传输的系统。具体而言，图1描绘了用于混合式图块化流式传输的系统100，其包括一个或多个媒体源102、104，例如被配置用于基于预定数据格式来存储视频数据106、108并用于使用合适的流式传输或传输协议来将视频数据流式传输至媒体设备118_1-3的一个或多个视频服务器。在实施例中，媒体源可以是内容递送网络（CDN）的一部分，其被配置用于将媒体数据高效递送到大量的媒体设备。

媒体设备一般可以涉及内容处理设备，例如诸如电子平板、智能电话、笔记本、媒体播放器、电视等的（移动）内容播出设备。在一些实施例中，媒体设备可以是被配置用于处理和暂时存储内容以供媒体播出设备将来消费的机顶盒或内容存储设备。

媒体设备中的每一个可以包括客户端设备120_1-3（例如，DASH客户端），其被配置用于从一个或多个网络节点（例如，视频服务器）请求媒体数据、用于接收所请求的媒体数据并用于缓冲媒体数据以供输入到媒体引擎122_1-3。媒体引擎可以被配置为将媒体数据解码成视频帧。

在实施例中，至少第一媒体源106可以被配置为存储一个或多个基础流106，例如，常规的音频-视频（AV）流，其可以基于合适的媒体流式传输或传输协议而被发送到客户端设备。可以基于广播、多播或单播方案以及相关联的数据传输/流式传输协议（包括但不限于RTP、HTTP渐进式下载、HTTP自适应流式传输、（HEVC）图块化流式传输等）来将基础流发送至客户端设备。

例如，在实施例中，基础流可以以诸如MPEG-2 TS格式之类的MPEG格式存储并且以一个或多个广播流（例如，通过地面（DVB-T）、有线（DVB-C）或卫星（DVB-S）的DVB数据流）广播到多个媒体设备。可以使用单播连接（例如，宽带（互联网）连接）将增强图块流提供给媒体设备。为了使得能够实现广播和增强图块流之间的时间同步，可以在基础流和增强图块流中插入公共时间线信息。例如，在实施例中，广播器可以使用MPEG-2传输流中的时间线和外部媒体信息（TEMI）特征来将公共时间线插入在MPEG-2 TS格式化的基础流和增强图块流中。在另一实施例中，可以在MPEG-2 TS流中插入使得客户端设备能够请求与增强图块流相关联的一个或多个MPD的URL。

此外，为了使得能够实现空间同步，可以在MPEG-2 TS基础流中将与基础流的视频帧中的一个或多个ROI中的一个相关联的空间信息（例如，坐标）发信号通知给客户端设备。这种空间同步的特别有利的实施例在WO 2015014773中描述，藉此将其通过引用并入本公开中。在另一实施例中，基础视频流可以经由多播经由一个或多个RTP流递送到例如多个IPTV订户。另外，可以使用诸如DASH（通过HTTP的动态自适应流式传输）格式或RTP之类的合适数据格式经由单播来提供增强图块流。

基础流可以与一个或多个增强图块流108相关联，所述一个或多个增强图块流108可以与基础流存储在同一网络节点上，或者另选地存储在至少第二媒体源102（例如，第二视频服务器）上。在实施例中，可以基于一个原始视频源来生成基础流和增强图块流的媒体数据，其中增强图块流的媒体数据被配置为增强基础流的视频帧的图像区域中的一个或多个子区域（一个或多个ROI）的视觉内容。例如，可以通过将原生视频流编码成常规的HD视频流来生成基础流，并且可以通过将同一原生视频流编码成包括图块化视频帧（即，包括一个或多个图块的视频帧）的HEVC图块化视频流来生成增强图块流，其中可以被请求的经HEVC编码的图块流的（感知）质量高于基础流的（感知）质量，并且由此每个经HEVC编码的图块流包括呈现在HEVC图块化视频流中的图块的不同子集。基础流和相关联的增强图块流（在上述情况下，经HEVC编码的图块流）可以形成特定视频内容的媒体组成。

所主张的是，增强基础流的视频帧中的一个或多个子区域的视觉内容不局限于局部地提高ROI中的主观视频质量（诸如增强每像素的色彩信息（的部分））或局部地提高ROI中的像素分辨率，而且还涵盖模糊或隐藏ROI（例如，出于隐私原因的人的面部）、替代ROI中标识的一个或多个对象（例如，通过卡通形象来替代人）、局部插入或替代视觉信息（例如，插入广告）、在一个或多个ROI中局部插入错误恢复信息和/或水印信息，等等。因此，在本申请中，使用混合式图块化流式传输方案的基础流的视频帧中的局部视频增强的概念（混合式意味着将基于常规媒体流的视频渲染与基于HEVC图块流的视频渲染相组合）应当被解释为基于增强图块流对基础流的视频帧的一个或多个ROI中的视频数据进行的任何类型的局部改进或有目的的修改。

此外，所主张的是，基础流和增强图块流两者的媒体数据被格式化为可独立消费的媒体流。因此，这些流的媒体数据可以被独立地检索和渲染。因此，这些流在技术上不同于SVC或SHVC基础层和增强层的地方在于：SVC或SHVC增强层只能通过组合基础层的媒体数据和来自增强层的数据来用于播出。与所要求保护的本发明不同，并且根据定义，这些现有技术增强层不能在不存在基础层的情况下用于播出。

与增强图块流的图块化视频帧中的图块相关联的媒体数据被编码为使得它们不具有对同一视频帧的其它图块的媒体数据的空间解码依赖性并且使得它们不具有对更早的或将来的视频帧的其它图块的媒体数据的时间解码依赖性。通过这些编码约束，与每个图块相关联的媒体数据可以作为图块轨道存储在第二媒体源104上。图块轨道中的媒体数据被配置为使得实现随机访问，即，不同图块的媒体数据可以被客户端设备单独地访问和请求，并且这样请求的图块的媒体数据可以作为一个或多个增强图块流被发送到客户端设备。

客户端设备（作为媒体设备的一部分）可以被配置为选择与基础流的图像区域中的一个或多个ROI相关联的一组增强图块流。在实施例中，客户端设备可以基于所谓的清单文件110（即，一个或多个数据结构，其包括用于客户端设备的元数据）中的信息来执行该选择，以便选择和请求来自一个或多个存储节点（例如，服务器）（优选地，网络中的存储节点）的媒体流，在此特定情况下，基础流以及一个或多个增强图块流，以用于增强基础流的视频帧中的一个或多个部分（一个或多个ROI）。

清单文件可以包括流标识符（例如，URL）或用于确定这样的流标识符的信息。流标识符可以包括一个或多个基础流标识符和一个或多个增强图块流标识符。清单文件还可以包括关于基础流的视频帧中的视觉内容与增强图块流的图块化视频帧中的视觉内容之间的空间关系的信息。在实施例中，图块流标识符可以与图块位置信息——即，用于向客户端设备发信号通知关于图块流的图块化视频帧的图块的位置（例如，坐标）的信息——相关联。这样的位置因此也将涉及图块在与增强图块流相关联的基础流的视频帧的图像区域内所表示的子区域的位置。

清单文件还可以包括一个或多个存储节点的位置信息，例如，网络节点的一个或多个URL和/或网络地址。这些网络节点可以与被配置为将所请求的媒体数据发送到客户端设备的媒体缓存116和/或媒体源102、104有关。客户端设备可以使用清单文件来选择基础流和与基础流的视频帧的图像区域中的一个或多个ROI相关联的一个或多个增强图块流。

媒体设备118_1-3中的客户端设备120_1-3可以接收并缓冲基础流和一个或多个增强图块流的媒体数据，并将媒体数据准备为供输入到媒体引擎122_1-3的一个或多个比特流，优选地通过剥离与用于检索所述流的传输协议（例如，HTTP或RTP）相关联的元数据（例如，头部）来进行准备。媒体引擎可以包括至少两个解码器，用于将基础流的媒体数据解码成基础视频帧的第一解码器以及用于将增强图块流的媒体数据解码成图块化视频帧的第二解码器。图块化视频帧中的图块的视觉内容可以表示图块化视频帧的图像区域中的一个或多个子区域（并且这些子区域可以具有相关联的基础流的视频帧的图像区域中的相关联的子区域）。然后，所生成的视频帧被转发到与媒体引擎耦合的渲染引擎124_1-3。渲染引擎可以包括用于缓冲视频帧的帧缓冲器和融合处理器（未示出），所述融合处理器用于将基础流的视频帧和与增强图块流相关联的图块化视频帧融合成包括一个或多个增强ROI 128的单个视频帧126。

因此，本发明利用在诸如HEVC视频编码标准之类的高级视频编码标准中定义的图块特征。这样的编解码器的图块特征允许在图块化视频流中编码高质量的视频数据，其中图块化视频流的媒体数据可以作为单独图块轨道存储，使得与一个或多个图块相关联的媒体数据可以作为一个或多个增强图块流被单独访问和流式传输至媒体设备。多个增强图块流的媒体数据可以由单个解码器高效地解码成包括涵盖视频帧的图像区域中的一个或多个ROI的增强视觉内容（例如，高质量视觉内容）的图块化视频帧。包括一个或多个ROI的位置处的增强视觉内容的这些图块化视频帧可以与标准基础流的视频帧组合，以产生包括增强ROI的视频帧。由许多小图块构成的图块化方案使得能够准确地选择覆盖ROI的一组图块（例如，当前版本的HEVC标准允许在最高HEVC比特流级别中使用多达22x20图块的网格）。然而，显然这个数量可以在未来版本的HEVC标准中变得更高。

因此，本发明通过确定基础流（例如，标准质量视频流）中的一个或多个ROI的位置和大小并且随后请求与一个或多个ROI相关联（例如，覆盖一个或多个ROI）的期望的（例如，高质量图块化视频流的）增强图块来使得能够实现完全个人化的增强功能。此后，客户端设备可以用增强图块流的媒体数据至少部分地替换或混合基础流的视频帧的ROI中的媒体数据，从而生成基础流的视频帧中的一个或多个增强区域（例如，具有增强的视频质量的一个或多个ROI）。

本发明可以用在不同的使用情况中。例如，在虚拟现实（VR）应用中，用户可以有在360度中导航视频的自由，其中视频内容不断地显示在用户眼前。然而，众所周知，外围人类视觉对高频（精细细节）不敏感。因此，本公开中的混合式图块化流式传输方案可以用于仅增强观看者正在看的区域，而以标准质量提供所显示的内容的其余部分，从而节省带宽。

图2示意性地描绘了根据本发明的实施例的基于基础流中的一个或多个ROI来选择增强图块流。在基础流的渲染期间，可以选择基础流的视频帧中的一个或多个ROI 206_1-3来进行增强，尤其是质量增强。在实施例中，在媒体设备上执行的应用可以使得能够基于用户与媒体设备的用户接口（例如，触摸屏）的交互来选择ROI。另选地，可以使用例如公知的特征分析技术基于图像识别过程来标识基础流的视频帧中的ROI。图像识别过程可以是在媒体设备上运行的应用的一部分。然后使用这样确定的ROI的坐标来选择和请求一个或多个增强图块流。尽管附图中的ROI被描绘为简单的矩形盒，但要所主张的是，ROI可以具有任何的任意形状。例如，ROI可以紧密地跟随视频帧中的使用图像识别过程所识别和跟踪的对象的形状。

基础流可以与比基础流具有更高视频质量的图块化视频流204（优选地，经HEVC编码的图块化视频流）相关联。图块化视频流可以包括图块化视频帧，并且与图块化视频帧中的图块相关联的媒体数据可以由客户端设备使用例如清单文件中的信息来请求。如图2所示，可以基于所选择的ROI 208_1-3选择图块或图块群组。例如，在实施例中，与ROI重叠的图块可以被标识为与ROI相关联的图块或图块群组210_1-3。与这样标识出的图块相关联的媒体数据可以作为一个或多个增强图块流被客户端设备请求。从客户端设备接收用于发送增强图块流的请求的网络节点可以将所述媒体数据作为图块流（优选地，基于HEVC的图块流）发送到客户端设备。

基础流的视频帧的图像区域可以对应于图块化视频流的图块化视频帧的图像区域。图块因此对应于图像区域的子区域。

在另一实施例中，作为客户端设备基于ROI坐标确定增强图块流的替代，ROI坐标可以在消息中例如作为URL：http://server.com/video.mp4#xywh=0,0,200,100中的媒体片段被发送给服务器。然后，服务器应用可以使用所述坐标以便选择匹配图块以发送给一个或多个客户端设备。

图3和图4示意性地描绘了根据本发明的实施例的可在空间上随机访问的增强图块流的概念。具体而言，图3描绘了视频帧，优选地，HEVC图块化视频帧，其包括根据空间网格302布置的图块304。与视频帧的每个图块相关联的媒体数据可以被存储和格式化为使得编码后的媒体数据可以作为独立的流被发送到客户端设备。例如，在图3中，四个所选图块304的媒体数据可以作为四个分离的图块流308_1-4被发送到客户端设备。

与图块相关联的媒体数据被编码为使得它们不具有对同一视频帧的其它图块308_2-4的媒体数据的任何空间解码依赖性。此外，与图块相关联的媒体数据被编码为使得它们不具有对更早的或将来的视频帧的其它图块308_2-4的媒体数据的任何时间解码依赖性。因此，在本公开中，术语“可独立解码的”媒体数据意指在与增强图块流的视频帧中的图块相关联的媒体数据和该图块外的媒体数据（例如，在与其它增强图块流相关联的邻近图块中）之间不存在空间编（解）码依赖性，并且在处于不同视频帧中的不同位置且与不同增强图块流相关联的图块的媒体数据之间不存在时间编（解）码依赖性。该术语还在表述中用来明确地指示增强图块流（例如，包括一个或多个图块）的媒体数据也可独立于基础流的媒体数据进行解码。

如图3所示，（经解码的）图块流的每个图块化视频帧310_1-n仅包括参考帧（例如，图块化视频帧的完整图像区域）内的特定图块位置处的视觉内容306₁。优选地，图块流包括与预定图块位置处的恰一个图块相关联的经编码的媒体数据。在实施例中，图块流可以包括元数据或者可以与元数据相关联以用于向媒体设备发信号通知媒体数据与视频帧内的特定图块位置处的视觉内容相关联。

这样，与后续图块化视频帧中的预定图块相关联的媒体数据可以由媒体设备中的解码器模块（例如，在媒体设备的媒体引擎中）独立解码。换句话说，媒体设备可以接收一个图块308₁的媒体数据，并且从接收到的最早的随机接入点开始将媒体数据解码成视频帧，而不需要其它图块的媒体数据。这里，随机接入点可以与不具有对更早的和/或更晚的视频帧的任何时间解码依赖性的视频帧（例如，I帧或其等同物）相关联。这样，与一个单独图块相关联的媒体数据可以作为单个独立图块流被发送到客户端设备。

可以使用不同的传输协议将经编码的比特流发送到客户端设备。例如，在实施例中，可以使用HTTP自适应流式传输（HAS）协议（诸如MPEG DASH）用于将图块流递送到客户端设备（也称为客户端）。在那种情况下，图块流中的视频帧的序列可以被划分为时间片段312_1,2，其通常包括2-10秒的媒体数据。这种时间片段可以作为媒体文件存储在存储介质上。在实施例中，时间片段可以始于不具有对该时间片段或其它时间片段中的其它帧的时间编码依赖性的媒体数据（例如，I帧或其等同物），使得解码器可以直接开始解码HAS片段中的媒体数据。可选地，可以与媒体片段一同提供初始化片段，其唯一目的是用与媒体流有关的参数（例如，空间分辨率、帧速率、编解码器简档和级别等）来对解码器进行初始化。

如本公开所描述的图块的概念可以由不同的视频编解码器支持。例如，高效视频编码（HEVC）标准允许使用可独立解码的图块（HEVC图块）。HEVC图块可以由编码器创建，该编码器将媒体流的每个视频帧划分成多个行和列（“图块的网格”），这多个行和列定义了以编码树块（CTB）为单位表示的具有预定义的宽度和高度的图块。HEVC比特流可以包括用于向解码器发信号通知应当如何将视频帧划分成图块的解码器信息。解码器信息可以向解码器发信号通知关于视频帧的不同方式的图块划分。在一个变型中，解码器信息可以包括关于n×m个图块的均匀网格的信息，其中可以基于帧的宽度和CTB大小来推导网格中的图块的大小。由于舍入的不准确性，并非所有图块都可具有完全相同的大小。在另一变型中，解码器信息可以包括关于图块的宽度和高度的明确信息（例如，按照编码树块单位）。这样可以将视频帧划分成不同大小的图块。只有最后一行和最后一列的图块的大小可以从CTB的剩余数量中导出。此后，包化器可以将原始HEVC比特流包化成由传输协议使用的合适的媒体容器。

支持可独立解码的图块的其它视频编解码器包括谷歌的视频编解码器VP9或一定程度上说，MPEG-4第10部分AVC/H.264，高级视频编码（AVC）标准。在VP9编码中，沿着竖直图块边界破坏依赖性，这意味着同一图块行中的两个图块可以被同时解码。类似地，在AVC编码中，可以使用切片将每个帧划分在多个行中，其中这些行中的每一个定义了在媒体数据可独立解码的意义上的图块。因此，在本公开中，术语“图块”不限于HEVC图块，而是一般地定义了视频帧的图像区域内的具有任意形状和/或尺寸的子区域，其中图块的边界内的媒体数据是可独立解码的，例如不依赖于基础流或其它图块。在其它视频编解码器中，针对这种可独立解码的区域可以使用诸如片段或切片之类的其它术语。

图4描绘了根据本发明的实施例的用于将一组增强图块流作为视频文件存储在存储介质上的媒体格式。具体而言，图4描绘了用于存储增强图块流的媒体数据的HEVC媒体格式，其中增强图块流可以是基于包括图块化视频帧的图块化视频流生成的。与各个图块相关联的媒体数据可以被分段并存储在媒体文件中，媒体文件具有允许对各图块流的媒体数据的空间随机访问的媒体格式。在实施例中，媒体格式可以是如ISO/IEC 14496-15中定义的HEVC文件格式400或其等同物。图4中描绘的媒体格式可以用于将图块流的媒体数据存储为一组“轨道”，使得媒体设备中的客户端设备可以请求仅传输图块流的子集（例如，单个图块流或多个图块流）。媒体格式允许客户端设备单独访问（增强）图块流，而无需请求图块化视频中的其它图块流或甚至全部图块流。如图4所示，媒体文件可以包括一个或多个图块轨道404_1-4，其中每个图块轨道用作图块流的数据406_1-4（例如，VCL单元和非VCL NAL单元）的容器。

在实施例中，轨道还可以包括图块信息410_1-4。轨道的图块信息可以被存储在对应文件格式的图块相关的盒中（例如，在根据ISO BMFF格式的盒中）或存储在解封装的比特流中，也就是经编码的比特流不再具有媒体容器的元数据（例如，图块信息不是作为例如在非VCL NAL单元中使用的编解码器的元数据存在的）。解码器可以使用图块信息以便初始化图块网格的布局。在实施例中，轨道中的图块信息可以包括原点和大小信息，以便允许解码器在参考空间（通常是由视频的亮度分量的像素坐标定义的空间）中视觉地定位图块，其中空间中的位置可以由与完整图像（即，视频帧的图像区域）相关联的坐标系来确定。在解码过程期间，解码器模块可以优选地使用来自经编码的比特流的图块信息以便解码比特流。在实施例中，轨道还可以包括轨道索引。轨道索引提供可以用于标识与特定轨道相关联的媒体数据的轨道标识号。

媒体格式（例如，诸如基于ISO BMFF的媒体容器（例如，mp4或3GP）的媒体容器，或基于例如webm或mpeg2 ts媒体格式的媒体容器）还可以包括所谓的基础轨道402。基础轨道可以包括解码图块轨道中的媒体数据所需的元数据。例如，基础轨道可以包括序列信息，其允许媒体设备中的媒体引擎确定在请求特定的图块增强流时客户端设备所接收到的视频数据（例如，VCL NAL单元）的序列（次序），其中它们需要被结构化以便形成解码器依从比特流。具体地，基础轨道可以包括提取器408_1-4的序列，其中每个提取器包括指向一个或多个对应的图块轨道中的某一媒体数据（例如，NAL单元）的指针。

提取器可以是ISO/IEC 14496-15:2014中定义的提取器。这种提取器可以与一个或多个提取器参数相关联，这些参数允许媒体引擎确定提取器、轨道和轨道中的媒体数据之间的关系。在ISO/IEC 14496-15:2014中参考了track_ref_index、sample_offset、data_ offset和data_length参数，其中track_ref_index参数可以用作用于寻找需要从中提取媒体数据的轨道的轨道参考，sample_offset参数可以提供用作信息源的轨道中的媒体数据的相对索引，data_offset参数提供要复制的参考媒体数据内的第一字节的偏移（如果提取始于该样本中的数据的第一字节，则偏移取值0。该偏移发信号通知NAL单位长度字段的开始），并且data_length参数提供要复制的字节的数量（如果此字段取值0，则复制完整的单个参考的NAL单元（即，要复制的长度取自数据偏移所参考的长度字段））。

基础轨道中的提取器可以由媒体引擎解析并使用以便标识NAL单元，特别是它所参考的图块轨道的VCL NAL单元中包括媒体数据（音频视频和/或文本数据）的NAL单元。因此，提取器的序列允许媒体设备中的媒体引擎按照提取器的序列定义的那样标识和排序NAL单元，并且生成（或者换言之，准备）提供给解码器的输入的解码器依从比特流。

因此，可以通过从一个或多个图块轨道（每个图块轨道包括与特定图块位置相关联的媒体数据）请求媒体数据并且通过请求由清单文件所参考的基础轨道的元数据来检索与增强ROI相关联的媒体数据。客户端设备可以缓冲媒体数据并且基于基础轨道的序列信息（特别地，提取器）来排序图块流的NAL单元，使得形成适合于解码器模块（优选地为媒体设备内部的媒体引擎的一部分）的比特流。并非经解码的图块化视频帧中的所有图块位置都一定包含视觉内容。如果由媒体引擎从客户端设备接收到的比特流中没有包含与图块化视频帧中的特定图块位置相关联的媒体数据，则媒体引擎可以简单地忽略对应于该图块位置的提取器。

例如在图3的示例中，当客户端设备选择用于形成增强ROI的四个图块流（例如，四个增强图块流）时，它可以请求增强图块流的基础轨道以及包含四个图块流的四个轨道。媒体引擎可以使用基础轨道中参考所选图块轨道的媒体数据的提取器以便形成用于解码器模块的比特流。所有其它位置的媒体数据的缺失可以被解码器模块解释为“丢失的数据”。由于轨道中的媒体数据（每个轨道包括一个图块流的媒体数据）是可独立解码的，所以一个或多个图块的媒体数据的缺失不会妨碍解码器模块解码可以被检索的轨道的媒体数据。

图5示意性地描绘了根据本发明的实施例的用于混合式图块化流式传输方案的媒体呈现格式。媒体呈现格式500可以定义与特定内容相关联的基础呈现502、一个或多个基础视频流504_1-K，其中基础流可以是（正常的）视频流，例如，AVC视频流和/或图块化视频流。一个或多个基础流可以与一个或多个增强呈现506_1-M相关联。每个增强呈现可以定义如参照图1-4详细描述的一组（HEVC）增强图块流510_1-N。增强图块流可以与相关联的基础流组合使用，以便在基础流的视频帧中创建一个或多个增强ROI。不同的增强呈现可以定义不同组的（HEVC）增强图块流，其中一组HEVC图块流中的图块流可以被单独访问并且流式传输到客户端。每组增强图块流可以与一定的图块大小和用于增强基础流的视频帧的ROI中的视觉内容的媒体数据相关联。

图5的媒体呈现格式可以被实现为允许轻松访问和处置增强服务的元数据文件。例如，在实施例中，元数据文件可以被实现为HAS清单文件，例如，如ISO/IEC 23009-1中定义的DASH MPD，其定义了多个适配集元素，每个适配集（adaptation set）定义视频内容的表示，例如，基础流或为不同图块提供相同增强的一组（HEVC）增强图块流。下面讨论这种MPD的示例。

客户端设备可以解析MPD并且使用表示元素中的参数以便确定基础流和增强图块流，以确定基础流和图块流之间的空间关系。表示元素中的参数也可以用于确定可以实现的增强的类型，例如，像素分辨率增强或视频质量增强。

codecs（编解码器）属性可以用来区分基础流和（HEVC）增强图块流。例如，基础流表示（codecs=“hev1.1.6.L93.90”）可以向客户端设备发信号通知由此表示定义的比特流是定义非图块化视频帧的常规HEVC编码比特流。四个增强图块流表示的codecs属性（codecs=“hvt1.1.2.H93.B0”）可以向客户端设备发信号通知由这些表示定义的比特流是定义图块化视频帧的HEVC编码比特流。此外，它可以向客户端设备发信号通知媒体数据可以是可独立解码的并存储在如参照图4所述的分离的HEVC图块轨道中。

基础流和增强图块流在彼此之间具有一定的空间关系，客户端设备可以使用该空间关系以便选择与一个或多个ROI相关联的增强图块流。例如，它可以使用关于空间关系的信息以供GUI中使用，其允许用户或在媒体设备上执行的应用基于MPD中定义的图块的空间位置来选择图块。

可以使用一个或多个空间关系描述符（SRD）来将与增强图块流相关联的图块位置发信号通知给客户端设备。可以在EssentialProperty属性（根据MPEG DASH标准，其是需要客户端设备在处理描述符时理解的信息）或者SupplementalProperty属性（可以由在处理它时不知道描述符的客户端设备丢弃的信息）中使用SRD以便向客户端设备通知在清单文件中定义的不同视频元素之间存在一定的空间关系。在实施例中，可以使用具有schemeIdUri“urn:mpeg:dash:srd:2014”的空间关系描述符作为用于格式化图块位置信息的数据结构。

SRD可以包括source_id参数，其用于向客户端设备发信号通知MPD中的哪些视频元素彼此具有空间关系。在该示例中，SRD的第一个参数表示source_id。具有相同source_ id（在示例中，值“1”）的适配集形成具有预定空间关系的一组流。source_id参数可以跟随有可以用于定义图块和图块在参考帧（图块化视频帧的完整图像区域）中的位置的一组参数x、y、w、h、W、H。这里，参数W和H可以定义具有特定宽度（W）和高度（H）的（矩形）参考帧。参考帧的左上角可以定义参考帧内的坐标系的原点O。参数x、y、w、h可以用于定义具有宽度（w）和高度（h）的矩形图块，其中坐标x、y表示图块的左上角在参考帧的坐标系中的位置。因此，SRD信息可以定义图块化视频帧的图像区域以及此图像区域内包括视觉内容的子区域，其中该子区域表示图块。

如上面的MPD示例所示，基础流与SRD相关联，其中参考帧的大小和原点匹配图块的大小和原点，从而向客户端设备发信号通知基础流包括包含视频帧的完整图像区域上的视觉内容的视频帧。

增强图块流的第一适配集的SRD中的图块位置参数x、y、w、h、W、H被设置为零，由此向客户端设备发信号通知此适配集没有定义视觉内容。相反，此适配集包含所谓的基础轨道，该基础轨道包括元数据，特别是如定义增强图块流的适配集中定义的参考相关联的图块轨道中的媒体数据的提取器的序列。

增强图块流的适配集的表示元素中的dependencyId参数参考基础轨道，并且包含其id属性是“enhancement-base”的Representation（表示）作为值，以使得当选择图块轨道时，向客户端设备发信号通知它还应当请求具有id属性为“enhancement-base”的相关联的基础轨道的元数据。当接收到一个或多个增强图块流的媒体数据和相关联的基础轨道的相关联的元数据时，媒体引擎可以解析基础轨道中的提取器，以便（如轨道中所定义的那样）对所请求的图块流的VCL NAL单元进行排序并且将已排序NAL单元的有效载荷拼接成比特流（诸如HEVC依从比特流），该比特流包括解码器模块将比特流解码成可以在一个或多个显示设备上进行渲染的视频帧所需的所有元数据。MPD中的上述SRD信息因此向内容作者提供了描述基础流与一个或多个增强图块流之间的特定空间关系的能力。

表示元素还包括用于向媒体设备发信号通知视频帧的像素分辨率的宽度width（宽度）和height（高度）属性。客户端设备可以使用SRD信息和关于与基础流和增强图块流相关联的像素分辨率的信息来确定基础流与图块流的视频帧之间的空间关系。

例如，在上面的MPD示例中，MPD向客户端设备发信号通知基础流包括1920x1080像素的视频帧，并且图块流定义包括3840x2160参考帧中的1920x1080像素图块的图块化视频帧。如下文将更详细地描述的，为了将增强图块流（例如左顶部增强图块流）的图块化视频帧与基础流的对应视频帧融合，基础流的视频帧可能需要在解码之后被修改（例如，增强图块流的视频或图片特性需要被提升）为增强图块流的图块化视频帧的格式（例如，以匹配增强图块流的视频或图片特性）。

如前文已经描述的，可以使用不同的增强方案。例如，在实施例中，可以通过提高比特率来增强ROI中的信噪比（SNR）。信噪比是测量有损编码的视频与原始源相比的客观质量的度量。这里，目标是通过请求以更高的比特率但具有相同的像素分辨率的整个视频的一部分来增强感知质量。

在此示例中，增强图块流和基础流二者都与512000的比特率相关联（如由MPD中的bandwidth（带宽）参数所指示的）。然而，在补充属性元素中发信号通知的SRD信息指示增强图块流中的每一个包括图块化视频帧，其具有比基础流的视频帧的图像区域的大小更小的图块大小（在此特定示例中，图块的大小是基础流的视频帧的图像区域的大小的四分之一）。结果，根据本发明的客户端设备被配置为基于此信息来确定：与基础流自身相比，每个增强图块流为它们覆盖的基础流的视频帧的图像区域的子区域提供了更高的质量（更高的SNR），因为在恒定的比特率下它们各自仅覆盖基础流的四分之一。换句话说，与编码基础流相比，正在花费每像素更多的比特来编码增强图块流。

在没有其它增强的情况下，这样的增强的优点是它不需要任何提升，因为增强图块流的经解码的帧的像素尺寸与基础流的经解码的帧的像素尺寸相同。

因此，从上面可以看出，清单文件可以包括用于使得客户端设备能够推导出可以提供的增强类型的增强信息，例如，定义一个或多个增强图块流和基础流的分辨率、比特率、色彩深度、帧速率的一个或多个增强参数。增强信息也可以包括除了上面提到的那些参数之外的增强参数，例如在增强与局部增强而非质量增强或分辨率增强相关联的情况下，诸如模糊或隐藏ROI（例如，出于隐私原因的人的面部）、替代ROI中标识的一个或多个对象（例如，通过卡通形象替代人）、局部插入或替代视觉信息（例如，插入广告）、在一个或多个ROI中局部插入错误恢复信息和/或水印信息，等等。此外，清单文件可以包括用于向客户端设备发信号通知关于基础流的视频帧中的视觉内容与一个或多个增强图块流的图块化视频帧的图块中的视觉内容之间的空间关系的图块位置信息，优选地，所述位置信息包括一个或多个空间关系描述符（SRD），空间关系描述符与基础流和/或增强图块流相关联，空间关系描述符向客户端设备发信号通知关于视觉内容在基础流的视频帧中的位置和/或关于图块在增强图块流的图块化视频帧中的位置。

图6示意性地描绘了根据本发明的实施例的用于组合基础流和一个或多个增强图块流的过程。该过程可以始于第一步骤602，其中客户端设备检索基础流的媒体数据并且将基础流的媒体数据解码成视频帧，所述视频帧在一个或多个显示器或其它合适的用户接口上被渲染为视觉内容。此后，可以确定基础流的视频帧中的一个或多个ROI的位置和大小（步骤604）。ROI可以被自由地定义或者从ROI的预定集合中选择，应用和/或用户可以从所述ROI的预定集合中进行选取。此后，客户端设备可以确定与ROI相关联的一个或多个增强图块流并检索与这样确定的一个或多个增强图块相关联的媒体数据（步骤606）。使用单个HEVC解码器将所接收的一个或多个（经HEVC编码的）增强图块流的媒体数据解码成图块化视频帧，其中具有图像区域的图块化视频帧包括所选图块的位置（例如，所述图像区域内的子区域）处的增强视觉内容（步骤608）。然后，基础流的视频帧和与增强图块流相关联的图块化视频帧被组合成包括一个或多个增强ROI的视频帧。具体而言，用与增强图块流相关联的图块化视频帧的增强视觉内容（增强像素）来替换基础流的视频帧中的一个或多个ROI中的视觉内容（像素）。

图7示意性地描绘了根据本发明的另一实施例的被配置用于组合基础流和经HEVC编码的增强图块流的媒体设备。用于生成基础流的视频的编码是独立于用于生成增强图块流的视频的编码而进行的过程。因此可以设想，基础流可以包括以例如AVC来编码的媒体数据，而增强图块流可以包括以HEVC来编码的媒体数据。当然，基础流的媒体数据也可以是使用HEVC编码的，尽管是在独立编码的过程中。具体地，图7描绘了包括客户端设备702、媒体引擎704和渲染设备706的媒体设备700，客户端设备702用于选择和检索包括一个或多个基础流以及用于增强基础流的视频帧的图像区域中的一个或多个ROI的一个或多个增强图块流的内容，媒体引擎704用于处理（特别地，解码）基础流和增强图块流的媒体，并且渲染设备706用于处理基础流和增强图块流的视频帧以及用于将这样处理后的视频帧融合成包括一个或多个增强ROI的视频帧。

如图7所示，客户端设备（例如，通过HTTP的动态自适应流式传输（或者换言之，DASH）使能的客户端设备，也称为DASH客户端）可以被配置为接收一个或多个清单文件708并将清单文件存储在存储器中。清单文件解析器716可以解析和分析清单文件并向内容选择模块718提供关于基础流和增强图块流的信息。内容选择模块可以被适配成接收关于基础流的图像区域中的一个或多个ROI的信息。如上面已经描述的那样，可以由在媒体设备上执行的、允许用户或图像处理程序选择基础流的视频帧的图像区域中的一个或多个ROI的应用来确定关于一个或多个ROI的信息。因此，可以基于由媒体设备通过用户接口接收的用户输入来预先确定ROI。

内容选择模块可以使用清单文件中的所谓的图块位置信息（如在空间关系描述符（SRD）的基础上指定的）以及关于ROI的信息（例如，ROI坐标）来选择一个或多个相关联的增强图块流（如例如参照图2所描述的）。下面将参照一些清单文件示例更详细地描述图块位置信息。

内容选择模块可以向内容检索模块转发关于所选增强图块流的信息，特别是关于所选增强图块流的URL，其中检索模块可以被配置为将请求消息712发送到一个或多个网络节点并接收包括所请求的媒体流的各部分的响应消息714。在实施例中，客户端设备可以包括HTTP协议栈并且被配置用于向HTTP媒体服务器发送HTTP请求消息并且用于接收包括所请求的一个或多个媒体流的媒体数据（优选地，以HTTP片段的形式）的HTTP响应消息。

内容检索模块还可以包括一个或多个缓冲器，其用于接收所请求的媒体数据并准备媒体数据以供输入到包括第一解码器722（基础流解码器）和第二解码器724（增强图块流解码器）的媒体引擎704，第一解码器722被配置用于解码基于第一编解码器编码的基础流的媒体数据，第二解码器724被配置用于解码基于第二编解码器编码的一个或多个增强图块流的媒体数据。当使用允许产生以增强图块流形式的包括多个可独立检索的图块的已编码图块化视频流的HEVC编解码器或另一编解码器以时，因此优选的是，当选择多个增强图块流时，它们所共有的是它们包括基于由一个编码器（例如，HEVC编码器）执行的一个编码过程所编码的媒体数据，由此编码约束被设置为使得它们是可独立解码的。一个较大优点在于，可以从这样的一组增强图块流中选择任意子集，该任意子集可以全部由单个（互补）解码器解码（例如，在单个解码过程中）。这极大地简化了设计，并且在解码和后解码资源方面有实质性的增益，因为需要更少的分离解码过程、缓冲器实例和后解码操作。

具体地，内容检索模块可以检索与基础流相关联的媒体数据的有效载荷，以便准备被提供给基础流解码器722的输入的第一比特流。此外，它可以检索与一个或多个增强图块流相关联的媒体数据的有效载荷，以便准备被提供给支持图块化特征的增强解码器724的输入的第二比特流。在实施例中，媒体引擎可以使用序列信息（例如，如参照图4解释的存储在基础轨道中的提取器），以便将接收到的不同增强图块流的VCL NAL单元组合并排序成HEVC依从比特流。

媒体引擎的输出连接到视频渲染模块706（也称为渲染设备或渲染引擎）。具体地，基础流解码器的输出连接到用于缓冲基础流的视频帧的第一视频帧缓冲器726，并且增强图块流解码器的输出连接到用于缓冲（经解码的）图块化视频帧的第二视频帧缓冲器728。视频渲染模块还包括融合模块734，融合模块734被配置为接收第一缓冲器的视频帧和第二缓冲器的相关联的图块化视频帧，并被配置为将这些视频帧组合（融合）成包括一个或多个增强ROI的视频帧，其随后被缓冲到输出帧缓冲器中以用于渲染。

为了通过用来自增强图块流的图块化视频帧的像素替换或混合基础流的视频帧的ROI中的像素来修改基础流的视频帧的ROI中的像素，像素替换信息被提供给融合模块。像素替换信息标识了属于每个ROI的像素。

在实施例中，像素替换信息可以被实现为由掩码生成器721生成的二进制掩码。如将在下文中更详细地描述的那样，掩码生成器可以标识属于基础流的视频帧中的一个或多个ROI的、需要通过用来自增强图块流的像素进行替换或与其混合来进行修改的像素。为此，掩码生成器可以基于基础流和增强图块流之间的空间关系生成二进制掩码733。具体地，掩码生成器可以使用与基础流和所选增强图块流相关联的SRD信息以便生成标识基础流的视频帧中的一个或多个ROI的、需要通过用与增强图块流相关联的图块化视频帧的像素进行替换或与其混合来进行修改的像素的位图。二进制掩码可以被发送到渲染引擎，渲染引擎可以将二进制掩码存储在存储器中。如本申请中进一步解释的，可以执行混合操作以实际降低ROI与其周围之间的质量差异。如果需要降低帧的图像区域内的低质量区域和高质量区域之间的对比度，则混合可以是有用的。对在图块化视频帧与来自基础流的视频帧之间的重叠区域执行混合。然而，混合可以被限制为这种重叠区域的子区域，例如在重叠区域边界附近的带中。可以执行一个或多个混合操作。

在本发明的实施例中，在替换或混合操作之后，可以将所得到的视频帧提交至滤波操作，如本申请中进一步描述的，以平滑一个或多个ROI的边缘。如在本申请中所描述的各种滤波操作可以在其中它具有在中央视场中比在周边视场中显示更高的视频质量的益处的VR领域（例如，使用头戴式显示器）中具有特别的益处。在这样的应用中，要避免不同质量之间的尖锐边缘，因为这将有损于用户体验。

在某些情况下，基础流和增强图块流的视频帧的视频或图片特性不匹配。在那种情况下，基础流的视频帧可能需要调整（例如，提升或降低），调整色彩方案、帧速率、分辨率等。因此，在实施例中，渲染引擎可以包括调整处理器730，其被配置为调整基础流的视频帧的视频和/或图片特性以使得基础流的经调整的视频帧可以与跟一个或多个增强图块流相关联的图块化视频帧融合。在实施例中，渲染引擎可以包括帧缓冲处理器731，其被配置用于确定第二帧缓冲器中的经解码的图块化视频帧的视频和图片特性。所确定的视频和图片特性（例如，色彩方案、帧速率、分辨率等）可以被提供给调整处理器的输入，调整处理器可以使用关于增强图块流的图块化视频帧的视频特性的信息。藉此所主张的是，视频特性是视频（媒体）流的帧速率，而图片特性与视频（媒体）流中的特定帧（图片）的属性（其示例是色彩方案和分辨率（例如，像素密度））有关。

图7例示了媒体数据由两个功能层（过程）进行处理，这两个功能层是视频解码层和视频渲染层，其使得媒体设备能够在基础模式和增强模式中处理媒体数据。在基础模式中，只消费基础流。客户端设备可以检索清单文件并对其进行解析。用户可以选择要播出的基础流，其随后触发客户端设备检索对应的片段（例如，常规（非图块化）的HEVC流的片段）。与检索的片段相关联的媒体数据被馈送到媒体引擎的输入以用于解码。解码器缓冲器中的经解码的视频帧被复制到渲染引擎的帧缓冲器中。由于不需要增强操作，视频帧将按原样传递到输出帧缓冲器并进行显示。

当用户或由媒体设备的处理器执行的软件应用选择基础流的视频帧中的一个或多个ROI以进行增强时，客户端设备可以开始检索与这一个或多个ROI重叠或匹配的一个或多个增强图块流的片段（即，图块化HEVC流的时间片段）。如上文已经解释的，在实施例中，一个或多个增强图块流的选择可以是基于提供基础流和可用增强图块流之间的空间关系的MPD中的SRD信息。

此外，在实施例中，MPD中的SRD信息也可以由掩码生成器使用，以便生成用于向渲染引擎（特别地，渲染引擎中的融合模块）发信号通知基础流的视频帧中的哪些像素需要被修改（例如，被替换或混合）的二进制掩码。

可以按照如下方式生成这种二进制掩码：

这里，可以从由MPD的对应SRD提供的值中复制以上伪码中的图块结构和掩码结构，如以下示例所示：

。

一旦检索了一个或多个增强图块流的片段，就对媒体数据进行解码并将一个或多个图块化视频帧存储在解码器缓冲器中。此后，图块化视频帧被复制到渲染堆栈的帧缓冲器中。

基于增强图块流的媒体数据生成的图块化视频帧被配置为增强基础流的视频帧中的一个或多个ROI。结果，输出帧缓冲器需要被配置为使得它可以包含包括图块化视频帧的帧缓冲器的所有信息。因此，当媒体设备在增强模式中操作时，输出帧缓冲器被配置为使得它具有至少等于图块化视频帧的帧缓冲器的配置的大小、刷新率、色彩深度等，以使得避免增强的损失（例如，所经受的质量损失或分辨率损失）。结果，需要调整（修改）由基础流得到的视频（帧），以使得它/它们适合于输出帧缓冲器。例如，为了调整分辨率，可以将基础流的视频帧放大到一个或多个所选增强图块流的图块化视频帧的分辨率；

这样，（经解码的）基础流的图片特性被调整为与一个或多个增强图块流的图片特性相匹配。

为了匹配帧速率（例如，提升帧速率），可以将附加视频帧插入在来自所选基础流的经解码的视频帧的序列中，其中附加视频帧是通过内插生成的。以此方式，（经解码的）基础流的视频特性被调整为匹配一个或多个增强图块流的视频特性。为了调整色彩编码方案，可以变换色彩空间可以被转换，可以转换、内插像素值，等等。

需要在执行视频帧的融合之前（例如，在像素替换或混合之前）应用使基础流的视频帧的视频和/或图片特性与跟增强图块流相关联的图块化视频帧的特性相匹配所需的任何其它操作。为此，可以从增强图块流中提取视频和图片特性，并将其传递给渲染设备/引擎中的调整模块。

然后将基础流的经调整的视频帧、与增强图块流相关联的图块化视频帧和用于标识ROI像素的二进制掩码转发到也是渲染设备/引擎的一部分的融合模块的输入。在实施例中，由融合模块执行的融合操作可以包括矩阵运算：

其中，o是逐元素乘积（也称为阿达马乘积）并且Frame_Display被存储在输出帧缓冲器中以供显示给用户。这里，J是具有Mask的大小的矩阵，其中每个矩阵元素具有为1的值。Frame_output、Frame_Base、Mask和Frame_Enh具有与J相同的尺寸。

由渲染引擎执行的过程可以基于时间信息来进行同步，时间信息例如可以存在于与基础流中的视频帧相关联以及与跟增强图块流相关联的图块化视频帧相关联的MPEG流呈现时间戳中。此时间信息可以由渲染引擎使用以确保将基础流的视频帧与其相关联的图块化视频帧融合。

图8示意性地描绘了根据本发明的实施例的融合过程。在此特定实施例中，基础流的视频帧和与一个或多个增强图块流相关联的图块化视频帧可以具有相同的视频和图片特性，而唯一的区别是基础流和增强图块流的视频帧被编码的质量（SNR）。在那种情况下，增强图块流可以用改进的主观质量（当与基础流的主观质量相比时）来增强基础流中的ROI。这可以是以下情况：例如当针对这两个流使用相同的视频编码标准（编解码器）时，增强图块流可以是以更高的比特率（即，每单位时间更多的信息）编码的，因而产生了更高的主观质量。另选地，对于相同的比特率，增强图块流可以是用提供更好压缩效率的视频编码标准来编码的，因而产生了更高的主观质量（主观是因为最终结果是要改善用户的视觉体验）。

由于在此实施例中基础流和增强图块流的视频帧具有相同的视频和图片特性的事实，基础流的视频帧在融合操作之前不需要被调整。因此，融合操作可以始于将第一（基础）视频帧缓冲器802的内容（包括基础流的视频帧的像素值，视频帧包括需要被增强的至少一个像素区域804（一个或多个像素群组）（ROI））复制到输出帧缓冲器（未示出）中。此后，渲染引擎可以用第二（增强）视频帧缓冲器806中的对应像素位置808处的像素值来覆写输出帧缓冲器中的像素区域的像素值。另选地，可以通过混合操作来对上述各组像素值进行混合。为了仅将来自增强帧缓冲器的相关像素值复制到输出帧缓冲器中，可以将二进制掩码发送到融合模块。二进制掩码针对增强帧缓冲器中的每个像素或（一个或多个）像素群组指示是否需要将这样的像素或（一个或多个）像素群组复制到输出帧缓冲器中。例如，在图8中，二进制掩码可以包括针对输出帧缓冲器中的每个像素的二进制值。增强帧缓冲器中的与第一二进制值（例如，“1”）相关联的像素可以由渲染引擎标识为需要被复制到输出帧缓冲器中的像素，并且与第二二进制值（例如，“0”）相关联的像素可以由渲染引擎标识为不被复制到输出帧缓冲器中的像素。注意到，图8例示了针对视频分量的一个通道的过程。

图9示意性地描绘了根据本发明的实施例的融合过程。在此特定实施例中，用于基础流的视频帧（包括需要增强的像素区域904）的第一视频帧缓冲器902与用于与增强图块流相关联的图块化视频帧的第二视频帧缓冲器的大小具有不同的大小（例如，比第二视频帧缓冲器更小）。在那种情况下，在开始融合过程之前，渲染设备可以对输出帧缓冲器的大小进行初始化以匹配增强帧缓冲器的大小。

此外，存储在第一视频帧缓冲器（基础视频帧缓冲器）中的视频帧可以被调整（在这种情况下被提升），并且包括需要被增强的经提升的像素区域908的经提升的视频帧可以被存储在经调整的第一视频帧缓冲器906中。可以基于经调整的视频帧来生成用于标识经调整的（在此情况下，经提升的）像素区域的像素的比特掩码。此后，融合过程可以始于将经调整的第一视频帧缓冲器的内容复制到输出帧缓冲器中，并且基于二进制掩码以与参考图8描述的类似的方式用第二视频帧缓冲器（增强视频帧缓冲器）中的对应像素位置处的像素值来覆写或混合需要被增强的输出帧缓冲器中的像素区域的像素值。

参考图8和图9描述的融合过程的主要益处是可以异步地执行解码和融合操作。具体地，对帧缓冲器的读取和写入访问可以通过锁定准许来进行调节。如果资源（例如，视频帧缓冲器）被锁定用于写入，则解码过程必须等待该资源被另一过程（例如，融合过程对视频帧缓冲器的读取）释放。

一般地，视频可以包括三个或更多个色彩通道（有时在更复杂的色彩空间中，色彩通道更多）以便重建色彩信息。因此，参考图8和图9描述的操作可能需要被应用于一个或多个色彩通道，但优选地应用于每个色彩通道。

公知的是，与黑白表示的信息相比，人类视觉系统对色彩空间中的高频较不敏感。出于该原因，通常以比色度信息更高的分辨率来编码亮度通道。因此，在一个实施例中，增强图块流可以仅包括增强亮度信息（因为增强色度信息将对主观质量几乎没有影响）。在该情况下，仅针对一个色彩通道（即亮度通道）执行如参照图8和图9描述的融合操作。

在本发明的实施例中，在增强图块流和基础流二者都以根据ISOBMFF标准的相同文件格式结构存储在分离的轨道中的情况下，可以使用ISO/IEC 14496-12（也就是ISOBMFF标准）来实现诸如基础流的视频和图片特性的调整（提升）和潜在的增强图块流的视频和图片特性的调整（降低）之类的后解码操作和替换操作中的一些的信令。

具体地，作为基础流的由此标准定义的元数据结构的一部分的TrackHeaderBox可以被配置为包含宽度和高度属性，其中宽度和高度属性具有与所述基础流与之相关联的增强图块流的像素尺寸相匹配的像素尺寸的宽度和高度的值。如ISOBMFF标准中所指定的，这向媒体引擎发信号通知要在呈现之前将基础流图片（帧）提升至该给定的像素尺寸。这样，基础流的像素尺寸可以与它们所重叠的区域的增强图块流的像素尺寸进行“人工”匹配，这在一个实施例中允许通过简单的替换来形成包括增强的感兴趣区域的视频帧。

在另选实施例中，如此标准中所描述的，基础流轨道的TrackHeaderBox的属性矩阵可以用于发信号通知要执行的像素坐标操作。此矩阵具有像素在经解码的帧中的坐标作为输入，以及像素在用于渲染的经转换的帧中的坐标作为输出。本质上，这指定了用于呈现的视频图像（帧）的转换。根据实施例，该矩阵可以被配置为提供与基础流轨道所关联的增强图块流的像素尺寸相匹配的上采样转换的系数。例如，矩阵{2,0,0,0,2,0,0,0,1}将按照因数2对解码帧进行提升（例如，上采样）。像素值的内插将由媒体引擎来决定。

在标准的其它使用中，基础流轨道的TrackHeaderBox可以被配置为包含用于属性层的值0，并且增强图块流的TrackHeaderBox可以被配置为包含用于属性层的值-1。根据ISOBMFF规范，这指示媒体引擎在基础流上方重叠增强图块流。当然，可以有多个增强图块流通过它们各自的TrackHeaderBox被发信号通知以将此值设置为-1。

在根据本发明的其它实施例中，单独层属性的使用可能不令人满意，因为它可能不会触发将基础流的视频帧和来自一个或多个增强图块流的一个或多个图块化视频帧实际合并成一个新的帧。

此外，当通过重叠操作向用户呈现具有不同视觉质量的内容时，在某些实施例中，可能希望确保图像区域的增强区域与其余“非增强”部分之间的视觉质量上的差距不会太大。

具体地，在虚拟现实VR领域中，增强区域和非增强区域之间的锐利人工边界可能是不可接受的。例如，当观看360度视频时，可接受的是用户视图边缘处的视频部分在质量上低于用户视点更中心的区域中的部分。然而，太尖锐的边界将导致更低的感知到的体验质量。结果，要在解码之后执行的发信号通知基础流的视频帧和增强图块流的图块化视频帧的实际混合操作可以是有利的。

混合操作应被视为特殊的像素修改操作，藉此将基础流的视频帧中的至少一个感兴趣区域的视觉内容的像素值中的至少一部分与图块化视频帧的增强视觉内容的像素值的至少一部分相混合。

为此，定义了要在TrackHeaderBox中应用的新的混合参数，例如称作“blending（混合）”。此混合参数可以被定义为提供要在混合操作中保持的来自上层（例如，来自一个或多个增强图块流）的像素的百分比或权重。例如，针对在基础流中完全混合增强图块流（导致100％像素替换），增强图块流的TrackHeaderBox可以被配置有值为“100”的混合参数。在这种配置中，可以将混合帧的像素计算为

。

在这种实施例中，TrackHeaderBox中的层属性（参数）可以用于指示要将哪个轨道定义为上层。

另选地，可以将混合参数定义为标示被归一化到0和1之间的混合百分比的浮点数。

在其它实施例中，也可以发信号通知使用滤波（例如，卷积）操作以减弱（如果不希望的话）区域之间（例如，在帧的图像区域的增强的感兴趣区域与其余区域之间）的质量上的尖锐且太大的差距，该差距可能在简单的像素替代操作之后或在混合操作之后（仍然）存在。为此，可以定义例如称为“filter（滤波）”的新的“filtering（滤波）”参数，并且可选地将其提供在根据ISOBMFF标准的MovieHeaderBox中，优选地与增强图块流相关联。此参数可以发信号通知使用卷积矩阵对在如上所述由混合操作或由简单像素替代操作产生的帧的像素应用给定滤波的卷积操作。

在其它实施例中，滤波操作可以仅限于受替代或混合影响的区域的像素边界，例如通过发信号通知MovieHeaderBox中的另一“filter range（滤波范围）”参数，该参数例如被称作“filtering_at_boundaries”。此滤波范围参数可以被定义以便将滤波操作限制于卷积矩阵仍然覆盖来自受替代或混合影响的区域的像素的那些像素。在现有技术中，用于滤波的卷积矩阵已知覆盖例如3×3或5×5的像素区域，这可以用在此处。例如，使用具有3×3滤波卷积矩阵的滤波范围参数将因此发信号通知这样的矩阵要应用于直接在受影响的区域的外边界上的具有两个像素的带中的所有像素以及直接在受影响的区域的边界内侧上的具有两个像素的带。可选地，另一“filter band（滤波带）”参数可以提高滤波操作中应当对其应用卷积矩阵的像素的带。此参数可以被标示为发信号通知除了如上面发信号通知的隐含带之外将对其应用滤波操作的像素数量的附加带大小的值。该附加带参数可以是发信号通知应用于受影响的区域的边界内侧或外侧上的两个像素的一个参数，或者其可以按照惯例用于发信号通知两个值，一个用于受影响的区域的边界内侧上的像素或者受影响的区域的边界外侧上的像素。

在上述实施例中，通过对ISO BMFF标准提出一些修改，定义了用于发信号通知使用ISO BMFF标准的后解码操作的各种参数。另选地，可以以其它方式发信号通知各种参数，诸如通过并入到清单文件中，可能地在所述清单文件内将它们与基础流和/或增强图块流的表示相关联。

甚至可以在编解码器（例如，HEVC编解码器）本身专用的元数据中发信号通知这些参数，例如通过将这些参数中的一个或多个参数并入可以是表示基础流或增强图块流的比特流的一部分的一个或多个SEI消息中。

图10是例示可以在本公开中描述的方法和系统中使用的示例性数据处理系统的框图。数据处理系统1000可以包括通过系统总线1006耦合到存储器元件1004的至少一个处理器1002。照此，数据处理系统可以将程序代码存储在存储器元件1004内。此外，处理器1002可以执行经由系统总线1006从存储器元件1004访问的程序代码。在一个方面，数据处理系统可以被实现为适合于存储和/或执行程序代码的计算机。然而，应当认识到，数据处理系统1000可以以能够执行本说明书内描述的功能的、包括处理器和存储器的任何系统的形式来实现。

存储器元件1004可以包括一个或多个物理存储器设备，诸如例如本地存储器1008以及一个或多个大容量存储设备1010。本地存储器可以指代一般在程序代码的实际执行期间使用的随机存取存储器或（一个或多个）其它非持久存储器设备。大容量存储设备可以被实现为硬驱动或其它持久数据存储设备。处理系统1000也可以包括一个或多个缓存存储器（未示出），所述一个或多个缓存存储器提供至少一些程序代码的临时存储，以便减少在执行期间必须从大容量存储设备1010检索程序代码的次数。

被描绘为输入设备1012和输出设备1014的输入/输出（I/O）设备可以可选地耦合到数据处理系统。输入设备的示例可以包括但不限于例如：键盘、诸如鼠标之类的指向设备等。输出设备的示例可以包括但不限于例如：监视器或显示器、扬声器等。输入设备和/或输出设备可以直接或通过介于中间的I/O控制器耦合至数据处理系统。网络适配器1016也可以耦合到数据处理系统，以使它能够通过介于中间的私有或公共网络而变得耦合到其它系统、计算机系统、远程网络设备和/或远程存储设备。网络适配器可以包括用于接收由所述系统、设备和/或网络发送到所述数据的数据的数据接收器和用于向所述系统、设备和/或网络发送数据的数据发送器。调制解调器、有线调制解调器和以太网卡是可以与数据处理系统1050一起使用的不同类型的网络适配器的示例。

如图10中描绘的，存储器元件1004可以存储应用1018。应当认识到，数据处理系统1000还可以执行可以促进应用的执行的操作系统（未示出）。以可执行程序代码的形式实现的应用可以由数据处理系统1000（例如由处理器1002）执行。响应于执行应用，数据处理系统可以被配置为实行要在本文中更详细地描述的一个或多个操作。

在一个方面中，例如，数据处理系统1000可以表示媒体设备数据处理系统（例如媒体设备）。在那种情况下，应用1018可以表示一个或多个应用，其在被执行时将数据处理系统1000配置为实行本文参照“客户端设备”、“媒体引擎”、“解码器”或“渲染设备”描述的各种功能。媒体设备的示例可以包括但不限于个人计算机、便携式计算机、移动电话等。

在另一方面中，数据处理系统可以表示服务器。例如，数据处理系统可以表示（HTTP）服务器，在此情况下，应用1018在被执行时可以将数据处理系统配置为实行（HTTP）服务器操作。在另一方面中，数据处理系统可以表示本说明书中提及的模块、单元或功能。

本文所使用的术语仅是出于描述特定实施例的目的而并非意在对本发明进行限制。如本文所使用的，除非上下文明确另外指出，否则单数形式“一个”、“一”、“该”意在也包括复数形式。将要进一步理解的是，当在本说明书中使用时，术语“包括”和/或“包含”指定存在所提到的特征、整数、步骤、操作、元素和/或组件，但是并不排除存在或增加一个或多个其它特征、整数、步骤、操作、元素、组件和/或其群组。

以下权利要求中的所有部件或步骤加功能元素的对应结构、材料、动作和等同物旨在包括与特别请求保护的其它请求保护要素相结合地执行所述功能的任何结构、材料或动作。已出于例示和描述的目的呈现了本发明的描述，但是其并非旨在是穷举的或者在形式上被局限于所公开的发明。许多修改和变化对于本领域技术人员将是显而易见的而并不背离本发明的范围和精神。实施例被选择并描述以便对本发明的原理和实践应用进行最佳解释并且使得本领域的其他普通技术人员能够将针对各种实施例具有各种修改的本发明理解为适用于所构想的特定用途。

Claims

1.用于增强视频流的视频帧中的至少一个感兴趣区域ROI的方法，所述方法包括：

客户端设备接收定义至少一个基础流的基础视频帧的媒体数据，所述基础流与一个或多个增强图块流相关联，其中增强图块流包括定义图块化视频帧的媒体数据，图块化视频帧包括与用于增强基础视频帧的图像区域的子区域中的视觉内容的媒体数据相关联的图块，其中增强图块流的媒体数据可独立于所述基础流的媒体数据进行解码；

确定与所述基础流的视频帧中的至少一个感兴趣区域的位置相关联的ROI位置信息；

基于ROI位置信息和图块位置信息来确定一个或多个增强图块流，其中所述一个或多个所确定的增强图块流定义与至少一个ROI至少部分地重叠的一个或多个图块；

客户端设备请求所述一个或多个所确定的增强图块流的媒体数据，所请求的媒体数据的图块化视频帧的一个或多个图块与基础视频帧的图像区域中的至少一个预定的感兴趣区域相关联，所述媒体数据是由客户端设备基于清单文件而请求的，所述清单文件包括至少一个基础流标识符和与该至少一个基础流标识符相关联的一个或多个增强图块流标识符，流标识符包括URL的至少一部分或包括用于确定这样的URL的信息；清单文件还包括用于向所述客户端设备发信号通知关于所述基础流的视频帧中的视觉内容与所述一个或多个增强图块流的图块化视频帧的图块中的视觉内容之间的空间关系的图块位置信息；

连接到所述客户端设备的第一解码器基于至少一个基础流的媒体数据生成基础视频帧，并且连接到客户端设备的第二解码器基于一个或多个增强图块流的媒体数据生成图块化视频帧，所生成的图块化视频帧包括在至少一个感兴趣区域中形成增强视觉内容的一个或多个图块；以及，

渲染设备通过基于图块化视频帧的增强视觉内容的至少一部分修改所述基础流的视频帧中的至少一个感兴趣区域的视觉内容的至少一部分来形成包括增强感兴趣区域的视频帧，所述修改包括用图块化视频帧的增强视觉内容的至少一部分替换或混合所述基础流的视频帧中的至少一个感兴趣区域的视觉内容的至少一部分。

2.根据权利要求1所述的方法，其中，位置信息包括一个或多个空间关系描述符（SRD），空间关系描述符与基础流和/或增强图块流相关联，空间关系描述符向客户端设备发信号通知关于视觉内容在基础流的视频帧中的位置和/或关于图块在图块化的增强图块流的图块化视频帧中的位置。

3.根据权利要求1或2所述的方法，其中，清单文件还包括与一个或多个增强图块流中的至少一个相关联的增强信息，增强信息被配置用于向客户端设备发信号通知关于由增强图块流提供的增强的类型，并且可选地用于向客户端设备提供与由所述增强图块流标识符定义的一个或多个增强图块流的分辨率、比特率、色彩深度、帧速率中的至少一个相关联的一个或多个增强参数。

4.根据权利要求1或2所述的方法，还包括：

确定像素替换信息，其用于向渲染设备发信号通知关于与基础流的视频帧中的至少一个感兴趣区域相关联的基础流的视频帧中的像素；

渲染设备使用像素替换信息来用图块化视频帧的增强视觉内容的相关联的像素信息替换或混合基础流的视频帧中的至少一个感兴趣区域的至少一部分中的像素信息。

5.根据权利要求4所述的方法，其中，像素替换信息是至少部分地基于清单文件中的图块位置信息来确定的。

6.根据权利要求1或2所述的方法，其中，所述形成包括：

在所述修改之前，基于关于一个或多个增强图块流的图块化视频帧的视频和/或图片特性的信息来调整所述基础视频帧的视频和/或图片特性，所述调整包括提升所述基础视频帧的所述视频和/或图片特性以匹配一个或多个增强图块流的图块化视频帧的视频和/或图片特性。

7.根据权利要求1或2所述的方法，其中，与第一图块化视频帧中的图块相关联的媒体数据被编码为使得所述媒体数据不具有对第一图块化视频帧中的一个或多个其它图块的媒体数据的任何空间解码依赖性；和/或其中，与所述图块相关联的媒体数据被编码为使得所述媒体数据不具有对在第一图块化视频帧之前或者第一图块化视频帧之后的一个或多个图块化视频帧中的其它图块的媒体数据的任何时间解码依赖性。

8.根据权利要求1或2所述的方法，其中，增强图块流包括具有增强的亮度信息的媒体数据。

9.根据权利要求1或2所述的方法，其中，修改所述至少一个感兴趣区域的视觉内容的至少一部分包括：

将包括基础流的视频帧的第一视频帧缓冲器的内容复制到媒体设备的输出帧缓冲器中；

用包括与一个或多个增强图块流相关联的图块化视频帧的第二视频帧缓冲器中的对应像素位置处的像素值覆写或混合输出帧缓冲器中与至少一个感兴趣区域相关联的像素值，其中二进制掩码指示第二视频帧缓冲器中的哪些像素值需要被复制到输出帧缓冲器中。

10.根据权利要求1或2所述的方法，

其中，所述一个或多个增强图块流是基于媒体流式传输协议或媒体传输协议、自适应流式传输协议或用于包化媒体数据的传输协议的数据容器来格式化的；和/或，

其中，基于支持图块化视频帧的编解码器对一个或多个增强图块流的媒体数据进行编码；和/或，

其中，由一个或多个增强图块流标识符定义的一个或多个增强图块流的媒体数据被存储在图块轨道中，并且其中，与一个或多个增强图块流的至少一部分相关联的元数据被存储在至少一个基础轨道中。

11.根据权利要求4所述的方法，其中所述像素替换信息包括位图。

12.根据权利要求10所述的方法，其中所述图块轨道和至少一个基础轨道具有基于ISO/IEC 14496-12 ISO基础媒体文件格式（ISOBMFF）或ISO基础媒体文件格式中的NAL单元结构化视频的ISO/IEC 14496-15托架的数据容器格式。

13.一种计算机，包括：

具有随其实施的计算机可读程序代码的计算机可读存储介质，以及耦合到计算机可读存储介质的处理器，其中，响应于执行计算机可读程序代码，处理器被配置为执行可执行操作，所述可执行操作包括：

接收定义至少一个基础流的基础视频帧的媒体数据，所述基础流与一个或多个增强图块流相关联，其中增强图块流包括定义图块化视频帧的媒体数据，图块化视频帧包括与用于增强基础视频帧的图像区域的子区域中的视觉内容的媒体数据相关联的图块，其中，增强图块流的媒体数据可独立于所述基础流的媒体数据进行解码；

确定与所述基础流的视频帧中的至少一个感兴趣区域ROI的位置相关联的ROI位置信息；

请求所述一个或多个所确定的增强图块流的媒体数据，所请求的媒体数据的图块化视频帧的一个或多个图块与所述至少一个感兴趣区域ROI相关联，所述媒体数据是由客户端设备基于清单文件而请求的，所述清单文件包括至少一个基础流标识符和与该至少一个基础流标识符相关联的一个或多个增强图块流标识符，流标识符包括URL的至少一部分或包括用于确定这样的URL的信息；清单文件还包括用于向所述客户端设备发信号通知关于所述基础流的视频帧中的视觉内容与所述一个或多个增强图块流的图块化视频帧的图块中的视觉内容之间的空间关系的图块位置信息；

基于至少一个基础流的媒体数据生成基础视频帧，并基于一个或多个增强图块流的媒体数据生成图块化视频帧，所生成的图块化视频帧包括在至少一个感兴趣区域中形成增强视觉内容的一个或多个图块；以及，

通过基于图块化视频帧的增强视觉内容的至少一部分修改所述基础流的视频帧中的至少一个感兴趣区域的视觉内容的至少一部分来形成包括增强的感兴趣区域的视频帧，所述修改包括：

用图块化视频帧的增强视觉内容的至少一部分替换或混合所述基础流的视频帧中的至少一个感兴趣区域的视觉内容的至少一部分。

14.包括数据结构的非暂时性计算机可读存储介质，所述数据结构用于使得能够增强视频流的视频帧中的感兴趣区域，所述数据结构包括计算机可读程序代码，所述代码包括：

至少一个基础流标识符以及与所述至少一个基础流标识符相关联的一个或多个增强图块流标识符，流标识符包括URL的至少一部分或者包括用于确定这样的URL的信息，被配置用于使得客户端设备能够请求基础流和/或一个或多个增强图块流；

图块位置信息，被配置用于向客户端设备发信号通知关于基础流的视频帧中的视觉内容与一个或多个增强图块流的图块化视频帧的图块中的视觉内容之间的空间关系，所述位置信息包括一个或多个空间关系描述符（SRD），空间关系描述符与基础流和/或增强图块流相关联，空间关系描述符被配置用于向客户端设备发信号通知关于视觉内容在基础流的视频帧中的位置和/或关于图块在图块化增强图块流的图块化视频帧中的位置；以及，还包括：

与一个或多个增强图块流中的至少一个相关联的增强信息，增强信息被配置用于向客户端设备发信号通知关于由增强图块流提供的增强类型，并且可选地用于向客户端设备提供与由所述增强图块流标识符定义的一个或多个增强图块流的分辨率、比特率、色彩深度、帧速率中的至少一个相关联的一个或多个增强参数。

15.包括软件代码部分的计算机程序介质，所述软件代码部分被配置用于当在计算机的存储器中运行时执行根据权利要求1-12中的任一项所述的方法步骤。