CN107852515A

CN107852515A - 视频流传输概念

Info

Publication number: CN107852515A
Application number: CN201680041288.4A
Authority: CN
Inventors: 罗伯特·斯库宾; 雅戈·桑切斯; 托马斯·斯切尔
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2015-05-12
Filing date: 2016-05-06
Publication date: 2018-03-27
Anticipated expiration: 2036-05-06
Also published as: WO2016180486A1; EP3295673B1; CN107852515B; WO2016180741A3; KR20180005234A; US20180098077A1; KR102192459B1; US10623753B2; JP2018519723A; EP3295673A2; JP6556868B2; WO2016180741A2

Abstract

呈现了视频流传输概念。根据第一方面，视频流被形成为多层数据流，其中通过从视频内容的编码版本进行复制来形成多层数据流的一个或多个层的集合，同时通过层间预测在多层数据流的预定层的至少一部分画面中合成至少一个视频的构图。根据第二方面，层间预测被用于通过插入替代画面来替代新包含的视频的另外缺失的参考画面，或者通过运动补偿预测的参考缺失的画面的新包含的视频的部分通过层间预测被替代。根据第三方面，插入到合成视频流中以便通过时间预测从合成数据流的非输出部分进行复制来合成视频内容的构图的输出画面被插入到合成数据流中，使得输出画面按照呈现时间顺序而不是编码画面顺序布置在数据流中。

Description

视频流传输概念

技术领域

本申请涉及适合于从视频内容的编码版本中组成视频流的视频流传输概念。

背景技术

有许多将多个视频的合成形式同时传输并显示给用户的应用和用例。虽然第一种方法是发送独立编码的所有视频，以便同时使用多个解码器，并且通过一旦被解码就布置所有视频来显示合成视频，但问题在于许多目标设备仅包含单个硬件视频解码器。这种设备的示例是低成本电视机和机顶盒(STB)或电池供电的移动设备。

为了从多个视频生成单个视频比特流，第二种方法是像素域视频处理(例如，诸如拼接、合并或混合的构成)，其中不同的视频比特流被转码为单个比特流以发送到目标设备。转码可以使用级联的视频解码器和编码器来实现，其需要对输入比特流进行解码，从像素域中的输入比特流合成新视频并将新视频编码为单个比特流。该方法还可以被称为包括未压缩域中的处理的传统完全转码。然而，完全转码有许多缺点。首先，视频信息的重复编码可能通过附加编码伪像引入信号质量劣化。第二和更重要的是，通过对输入和输出视频比特流的多重解码和后续编码，完全转码在计算上是复杂的。因此，完全转码方法不能很好地扩展。

使用高效率视频编码(HEVC)[1]，在[2]中引入了一种技术，其允许在压缩域中实现视频合成以用于单层视频编解码器。但是，存在一些使用可扩展视频编码可能是有利的应用。在[3]中描述了一种技术，该技术允许在压缩域中进行视频拼接以获得可用于诸如多方视频会议之类的应用的可扩展编码视频。

以下描述视频会议应用中出现的问题。

特别地，图23表示多方视频会议的典型视频组成。组合的视频的画面(其中之一在图23中示例性地示出)被在空间上拼接在一起。在图23的场景中，讲话者被显示在输出画面的较大画面区域900中，而非讲话者被显示在输出画面的较小区域902和904中。图24示例性地示出了如何通过视频处理906基于表示区域900至904中所示的各个视频的编码数据流来获得组成视频比特流。在图24中，数据流908表示其中编码了在区域900中显示的视频(即，关于讲话者的视频)的数据流，而图24中所示的数据流910和912在其中编码了关于分别在区域902和904中显现的非讲话者的视频。为了说明视频被编码成数据流908至912的方式，图24示出了这些视频的画面，即，其属于两个连续时刻t₀和t₁并且分别属于两个不同的层L0和L1的画面。图24中所示的箭头表示画面之间的预测依赖性。可以看出，使用时间预测(水平误差)和层间预测(垂直误差)将视频编码成数据流908至912。以前在视频会议系统中已经使用了诸如H.264/SVC的可扩展视频编码标准，并且这些可扩展视频编码标准已被证明是非常有价值的，期望SHVC在该领域中也是如此。

根据[3]中概述的技术，视频处理906可以允许通过在压缩域中拼接所有输入比特流908至912来从多个比特流908至912生成单个可扩展比特流。在图24中在914处示出了所产生的单个可扩展比特流，也是通过示出由其四个画面组成的部分，即，属于不同时刻对和层对的画面。根据[3]通过视频处理906应用的技术涉及重写诸如片头和参数集的高级语法中的字段对，使得来自不同输入流908至912的每个层中的每个画面被组合为包含来自所有流的数据的每个层的单个画面。

备选地，如果并非所有输入流908和912具有相同数量的层，如图25中所示，其中输入比特流910和912被说明性地示出为单层，则输出比特流914的较低层，即在图25的情况下的层L0，没有来自后面的数据流910和912的对应数据。因此，将不会利用来自所有输入比特流908至912的数据来生成输出数据流914的这些较低层(即，图25中的L0)，而是根据需要将一些伪数据添加到该层L0的画面，如图25中的白框916所示。

对于[3]中描述的方法，每当发生布局改变事件(例如，在讲话者改变期间)，结果，画面中的块的大小改变，并且出现显著的比特率峰值。更具体地说，需要发送帧内解码刷新(1DR)或I帧来改变画面布局或大小。在布局改变事件中，对于将角色从讲话者切换到非讲话者或反之亦然的比特流，IDR是必需的，这导致瞬间显著的比特率增加。这在图26中示出，图26示出了输出比特流914，这里示例性地示出了其包含四个连续时刻t₀至t₃的部分。如图26所示，当发生这样的布局改变事件时(在图26的情况下是时刻t₂)，时间预测被禁用918，从该时间起，讲话者改变，即，非讲话者视频之一中的讲话者视频改变其在合成视频画面内的位置或区域。然而，禁用需要传输相对更多的独立于其他画面编码的帧内数据，并且增加了在这样的时间点传输的数据，这在很多使用情况(例如，实时通信)下是负担。

发明内容

因此，本发明的目的是提供一种用于视频流的视频流传输的概念，该视频流由视频内容的编码版本组成，该视频内容更高效，例如在没有比特率消耗的惩罚的情况下或在有很少的比特率消耗的惩罚的情况下，在改变组成的自由方面更高效。

该目的是通过本申请的独立权利要求的主题来实现的。

根据第一方面，通过如下操作更有效地呈现用于传输由视频内容的编码版本组成的视频流的视频流传输概念：将视频流形成为多层数据流，其中通过从视频内容的编码版本进行复制来形成多层数据流的一个或多个层的集合，同时通过从所述一个或多个层的集合的至少一部分进行层间预测在多层数据流的预定层的至少一部分画面中合成至少一个视频的构图。换句话说，编码到视频内容的编码版本的相应部分中的至少一个视频被传送或复用到多层数据流的一个或多个层的集合中，以形成一种视频流传输装置可以从其酌情合成构图的“存储器”，而对于构图几乎没有任何限制。通过复制(即，在压缩域或编码域中)形成多层数据流的一个或多个层的集合可以使得预定层是所述一个或多个层中的一个，即最高层，或者与所述一个或多个层分离。在任何情况下，为了合成构图而要被继承到预定层的画面中的视频区域可以利用所有可用的用于层间预测的工具，诸如上采样、滤波等等。

根据第二方面，通过如下操作更有效地呈现用于传输由视频内容的编码版本组成的视频流的视频流传输概念：在多层视频流内传送通过从视频内容的编码版本的第一部分进行复制而得到的基础层以及通过从视频内容的编码版本的第二部分的一部分进行复制而得到的一个或多个增强层，其中所述第一部分中以基本质量编码了视频的集合，所述第二部分中以增强的质量编码了视频，并且所述第二部分的所述部分与视频的真子集(proper subset)有关。每当在预定时刻发生真子集的改变，使得真子集新包含在预定时刻之前未被真子集包含的视频或新包含的视频时，那么层间预测被用于通过插入替代画面来替代新包含的视频的另外缺失的参考画面，或者替代通过运动补偿预测的参考在预定时刻之前缺失的画面的新包含的视频的部分。通过这种措施，一方面通过不限制在视频的帧内编码画面上发生的预定时刻而在增强的质量下视频的当前传输的子集的改变的质量下降与另一方面具有自由选择预定时刻的时间位置的自由度的益处之间的权衡可以得到改善，因为质量下降保持为低。附加开销是相对较低的，因为基础层仅仅通过从其中编码了基本质量的视频集合的视频内容的编码版本的第一部分进行复制而得到。此外，使用开放GOP结构(尽管在这样的结构中不存在画面)，甚至可以将视频内容编码到形成构图的基础的编码版本中，其中过去的时间预测将被中断，使得可以等待新视频的包含。

根据第三方面，通过如下操作更有效地呈现用于传输由视频内容的编码版本组成的视频流的视频流传输概念：改变插入到合成视频流中的输出画面的顺序以通过经由时间预测从合成数据流的非输出部分进行复制来合成视频内容的构图。特别地，对于至少一个视频的每一个，视频内容的编码版本包括使用时间预测并且使用偏离呈现时间顺序的编码画面顺序将相应视频编码成的部分，并且通过从视频内容的编码版本的一部分进行复制来形成合成数据流的非输出部分，但是将输出画面插入到合成数据流中，使得输出画面按照呈现时间顺序而不是编码画面顺序布置在数据流中。通过这种措施，由于输出画面不会过度消耗编码画面缓冲器中昂贵的存储器，所以编码画面缓冲器的需求保持为低。

附图说明

以上概述的各方面的有利实现及其组合是从属权利要求和以下描述的主题。具体地，以下参考附图对本申请的优选实施例进行阐述，其中：

图1示出了根据实施例的在多层合成视频流的预定层中使用视频构图合成的视频流传输装置的框图；

图2示出了根据图1所示的替代方案28的图1的多层合成数据流中的访问单元或多层画面的示意图；

图3示出了根据图1所示的替代方案30的图1的多层合成数据流中的多层画面的示意图；

图4示出了说明MLCP概念的示意图；

图5示出了说明可扩展偏移(即，偏移参数)的使用的示意图；

图6示出了根据实施例的说明使用MLCP概念的布局改变的示意图；

图7示出了根据符合替代方案30的实施例的说明由根据图1的视频流传输装置输出的多层数据流的构图的示意图；

图8示出了根据符合替代方案28的实施例的说明由根据图1的视频流传输装置输出的多层数据流的构图的示意图；

图9示出了图1的视频内容的入站流在两层中被示例性地编码成编码版本的相应版本的示意图，基于该版本，图1的视频流传输装置执行视频合成，其中示出了包括指示最高层中不使用TMVP的画面的副信息的数据流，由图1的装置输出的多层数据流中可能使用相同副信息；

图10示出了根据其中参与视频合成的视频改变的替代方案说明图1的视频流传输装置的框图；

图11示出了说明GRP概念的示意图；

图12示出了HEVC画面命名后的开放GOP结构的示意图；

图13示出了开放GOP结构的示意图，以结合基于区块的全景流传输与GRP来说明开放GOP的问题；

图14示出了使用伴随着增强质量视频的子集的多层合成视频流的视频流传输装置的框图，其中基础层包含基本质量的视频的集合，以允许在没有画面丢失的情况下在时间上改变在增强层中携带的视频的真子集；

图15a示出了根据实施例的说明由图14的装置生成的多层视频数据流的结构的示意图；

图15b示出了根据与图15a相比修改的实施例的说明由图14的装置生成的多层视频数据流的结构的示意图，所述修改的实施例修改切换时刻以尽早发生；

图16示出了根据替代实施例的说明由图14的装置生成的多层视频数据流的结构的示意图，根据该替代实施例，视频的真子集被复用到若干增强层中，而不是在空间上拼接到图15a所示的一个增强层中；

图17示出了说明当应用于与基于区块的全景流传输有关的开放GOP结构时图15a中所示的GRMLCP概念的示意图；

图18示出了例示低延迟预测结构的示意图；

图19示出了说明在插入CP之后得到的比特流的示意图；

图20示出了说明具有分层双向预测B帧的预测结构的示意图；

图21示出了说明具有减少画面缓冲器增加的CP插入的示意图；

图22示出了将输出画面插入到合成视频流的非输出部分存储器中的视频流传输装置的框图，通过复制利用偏离呈现时间顺序的编码顺序而编码了一个或多个视频的视频内容的部分来获得所述合成视频流，发生输出画面的插入使得输出画面按照呈现时间顺序被排序；

图23示出了这种合成视频中的一个画面形式的视频构图的示例；

图24示出了说明如[3]中在压缩域中具有两层的三个输入流的比特流拼接的示意图；

图25示出了说明如[3]中在压缩域中具有不同层数的三个输入流的比特流拼接的示意图；以及

图26示出了说明在层(讲话者)改变时的时间预测中断的示意图。

具体实施方式

图1示出了根据第一方面的实施例的视频流传输装置。在视频流传输装置接收视频内容14的编码版本12的情况下，在10处示出了图1的视频流传输装置。图1的视频内容示例性地包含两个视频16₁和16₂，但是也可以在由视频内容14传送的仅一个视频或两个以上视频的情况下利用视频流传输装置10的有利功能。对于每个视频16₁、16₂，编码版本12包含相应视频16₁/16₂被编码到的部分18₁、18₂。图1示出了编码版本12由每个视频16₁/16₂一个视频数据流(即，分离的流)组成的情况，但这确实需要是这种情况。稍后，使用变量I来表示视频16的数量。此外，应注意的是，在图1中使用附图标记16和18的索引以区分各个视频，并且关于以下附图的描述也保持这个概念。然而，除非在以下描述中另有说明，否则一个图中使用的索引与其他图中使用的索引不相关。此外，图1示出了以分层方式将视频16₁示例性地编码到部分18₁中的情况，但是在视频内容14中没有任何分层编码视频的情况下，接下来描述的视频流传输装置10的功能所产生的优点也表现出来。

如下面更详细描述的那样，装置10被配置为以使得视频流20是多层数据流的方式从编码版本12中形成视频流20。因此，多层数据流20包括若干层L#。例如，这些层L#具有在其之间定义的层级结构，其中下层L_i可以相对于另一层L_j形成层间预测参考，i＜j，即，针对层L_i可以使用来自层L_i的并置部分的层间预测来编码。

在内部，图1的装置10被示出为包括承担下文更详细描述的装置10的相应功能的责任的两个或更多个模块。具体而言，装置10包括副本形成器22和合成器24。如说明书最后所述，装置10可以例如以硬件、可编程硬件或软件来实现，并且相应地，例如，模块22和24可以表示计算机程序的不同部分、可编程硬件的不同部分或集成电路的不同部件。

通过从视频内容14的编码版本12进行复制，副本形成器22形成多层数据流20的一个或多个层L0至L2的集合26。也就是说，副本形成器22在编码域或压缩域中形成集合26，即，不离开编码域或压缩域。也就是说，副本形成器不会通过将视频集26解码到像素域来执行绕行(detour)。换句话说，通过从压缩域或编码域中的视频内容的编码版本进行复制来执行形成多层数据流的一个或多个层的集合。

例如，假设使用运动补偿预测和预测残差的编码分别将视频16₁和16₂编码成部分18₁和18₂。在这种情况下，副本形成器22将简单地把来自编码版本12(即，从部分18₁和18₂)的运动补偿预测参数和残差数据复制到多层数据流20的集合26的层中而没有任何损失，即没有任何重新量化。例如，如果存在的话，这同样适用于例如包含在部分18₁中的层间预测参数，以便从视频16₁的下层描述上层的层间预测。副本形成器22甚至可以以维持部分18₁和18₂的熵压缩格式的方式来执行集合26的层的复制。也就是说，副本形成器22可以在压缩域中对部分18₁和18₂进行操作，甚至不通过熵解码从该压缩比特域转换到部分18₁和18₂的语法域。因此，视频16₁和16₂的画面之间的帧间预测依赖性保留在多层数据流20中。换句话说，副本形成器22以如下方式形成集合26的层：使用相同的帧间预测依赖性(即，时间预测)和(如果有的话)层间预测将视频内容14的视频16₁和16₂编码到其中。然而，在从编码版本12形成多层数据流20的层的集合26中，副本形成器22可以修改例如在部分18₁和18₂中未被熵编码的更高级语法元素，例如，描述或定义各个画面的层索引(经由层间预测引用的画面的层索引等)的高级语法元素。

合成器24执行实际的视频合成。合成器24合成视频内容14的构图，即在图1的情况下，视频16₁和16₂的构图。合成器24通过从一个或多个层的集合的至少一部分进行层间预测，在多层数据流的预定层的至少一部分画面中执行该合成。为了说明这一点，图1分别使用不同的影线和非影线来区分视频16₁的层的画面和视频16₂的画面。使用交叉影线来示出合成器24通过层间预测执行合成的上述部分，从而将该部分与通过副本形成器22进行复制而创建的多层数据流20的层的那些部分区分开。

图1示出了用于执行合成和用于定位交叉影线部分的基本上两个替代方案。但是，应该指出的是，图1所示的替代方案并不是唯一的方案，其他替代方案也可以进行评估。

根据在28处示出的替代方案，通过层间预测执行合成的部分由与集合26内的层分离的层L3的画面形成，并且就依赖性顺序而言，分别形成相对于集合26内的层的较高层，使得较高层可以通过使用相对于层集合26的层间编码来进行编码，但是反之并不如此。换句话说，根据28的替代方案，通过来自集合26内的层的预测至少部分地执行合成的预定层与集合26分离且高于集合26内的层。该预定层L3的整个画面可以通过来自集合26内的层的层间预测来合成，在这种情况下，交叉影线部分在空间上包含层L3的整个画面，如图1所示。备选地，可以使用层间预测从集合26内的层仅预测层L3的画面的子部分。层L3的画面的剩余部分可以由合成器24通过其他手段合成，例如通过使用帧内预测和时间预测。例如，可以通过合成器24以这种方式添加背景。然而，图1示出了视频16₁和16₂的合成使得预定层L3的画面被水平地细分成两半所依据的示例，其中一半使用来自对视频16₁的上层进行传送的层L2的层间预测来编码，并且另一半使用来自对视频16₂进行传送的多层数据流20的层L0的层间预测来编码。

根据图1所示的替代方案30，由合成器24使用来自集合26的层的层间预测执行合成的部分在集合26本身的层的最高层内，即在图1的情况下，在层L2内。也就是说，在替代方案30的情况下，通过层间预测执行合成的多层数据流20的层是集合26本身的一部分，并且通过层间预测执行合成的部分是集合26的最高层(即，层L2)的画面的空间子区域，层L2的画面的其他区域由副本形成器22通过从编码版本12进行复制而获得。而在替代方案28的情况下，集合26的所有层都可用于通过层间预测进行合成，在替代方案30的情况下，通过层间预测的合成可能仅仅涉及集合26的下层，即在图1的情况下，层L1和L0。层L2的画面的其他区域可以根据替代方案30由合成器24以甚至其他方式合成，即，既不通过从编码版本12进行复制也不通过从下属层L1或L0进行层间预测，而是通过使用帧内预测和/或时间预测，以便例如向构图提供背景。

为了说明合成构图的低复杂度和高自由度，图2示出了对于实际的视频合成在附加层(即在图1和图2的示例中，层L3)内传送的替代方案28，在特定时刻的多层数据流20的画面的时刻。图2示出了层L3的画面由三个区域组成，区域32_a和32_b使用如箭头34所示的层间预测来合成。因此在替代方案28的情况下，这些部分形成了图1的交叉影线部分。区域32_a是从层L2的画面的子区域36被层间预测的。当以样本、像元或像素为单位测量时，区域32_a和36的大小可能分别相同。因此，在区域32_a的情况下，层间预测不涉及任何上采样。根据图2的示例，区域32_b是使用来自层L0的画面的相应子区域38的层间预测被编码的。这里示出了以样本测量的区域32_b的大小高于区域38，并且因此在来自层L0的层间预测区域32_b中可涉及上采样过程。区域32_a和32_b被示例性地示出为嵌入在层L3的画面的区域40中，该区域40可以由合成器24基于层L3的前一画面中的相应的甚至是并置的区域使用例如帧内编码或使用时间预测来合成。

从图2中清楚的是，图1的合成器24能够容易地改变区域32_a和32_b以及区域40的位置、数量、尺寸或形状，区域40可以表示例如一种背景内容，可以被选择性地关闭。在定位区域32_a和32_b及其轮廓中，合成器24可能仅仅被限制为将区域32_a和32_b及其轮廓注册到由多层数据流20的底层编解码器所允许的块网格。甚至相应区域36和38的定位也可以变化和/或自由选择。也就是说，如图2所示，这些区域36和38可能包含层L2和L0的整个画面，即层间预测所参考的画面是整个画面。为了一方面分别补偿参考区域32a和32b之间的位置的偏移以及另一方面分别补偿参考区域36和38之间的位置的偏移，装置10或合成器24可以在数据流20内用信号指示偏移参数，所述偏移参数指示例如以参考画面(即，由L3的当前画面参考的任何层的画面)的像素为单位，参考区域的位置相对于被参考区域的位置的偏移。假设矢量(x，y)是以L3本身的画面的像素为单位从L3的画面的左上角测量的区域32_a内的位置，那么偏移参数可以指示偏移量p，使得在从该画面的左上角测量的以用作层间预测的源的区域36内参考层(例如，L2)的画面内的并置位置(X，Y)是(X，Y)＝(q_x·x+p_x，q_y·y+p_y)，其中是参考层L3和该被参考层(例如，L2)之间的像素场景间距比。偏移参数可以针对每个非最高层(即，在图1的示例中，L0-L2中的每一个)用信号指示p。偏移参数可以附加地用信号指示和参考画面与被参考画面之间的一般场景偏移使得(X，Y)＝(q_x·(x+o_x)+p_x，q_y·(y+o_y)+p_y)。除了偏移p之外，偏移参数可以例如以最高层的像素为单位，用信号指示最高层的参考画面和被参考画面的右上角之间的偏移以及最高层的参考画面和被参考画面的左下角之间的使得以及o＝o^TL以及(X，Y)＝(q_x·(x+o_x)+p_x，q_y·(y+o_y)+p_y)，其中N_x和N_y分别表示水平地按像素测量的层L3中的参考画面的大小和竖直地按像素测量的层L3中的参考画面的大小，并且N’_x和N’_y，分别表示例如水平地按像素测量的层L2中的被参考画面的大小和竖直地按像素测量的被参考画面的大小。

图3示出了正好与图2一致的构图的示例，但这次是图1的替代方案30。同样，最高层(这里是层L2)的画面被示出为被合成，使得其被细分为三个区域。从编码版本12的部分18₁复制区域42。区域42可以包含视频16₁的画面的整个画面内容。然而，裁剪也是可行的。在这种情况下，例如，视频16₁的画面已经以可进行裁剪的方式被编码。例如，视频16₁的上层的画面可以以区块被编码成部分18₁，并且这些区块之一或者子集可以被放入多层输出数据流20的层L2的区域42中。另一区域44可能已经由合成器24以与图2的区域40类似的方式通过帧内编码和/或时间预测来合成。区域46形成图1的交叉影线部分，并通过层间预测从层L0的对应区域48合成。同样，合成器24或装置10可以使用偏移参数，以使将视频16₂编码到多层数据流20的层L0中所凭借的运动矢量不改变和未修改，然而同时正确地将层L0的画面中的子区域48内的画面内容插入到层L2的画面的区域46中。

根据如图1和图3所示的替代方案30，合成器24可能不得不修改层L2的画面被编码到数据流20中所沿的编码/解码路径。换句话说，合成器24可以根据刚才提到的编码/解码顺序合成L2的画面，使得复制的区域42不被分割。换言之，合成器24可能必须以这样的方式编码层L2的画面，使得所述编码/解码顺序以连续方式并以与编码/解码顺序一致的方式遍历复制的部分42，其中相应画面内容以所述编码/解码顺序被编码到编码版本12的相应部分18₁中。通过这种措施，副本形成器22可以通过压缩域或编码域中的前述复制来填充区域42。合成器24可以设法通过将复制区域42的轮廓与区块边界对齐来实现这一点，其中区块表示分别并且最重要的是顺序地编码到数据流20中的画面的部分：画面的第一区块首先被编码到数据流20中，接下来是按照区块顺序的下一区块，等等。因此，将画面构造成区块允许调整在编码/解码中画面被遍历的编码/解码顺序。

然而，即使在图3的情况下，图3中例示的构图例如也可以通过装置10或合成器改变。根据图2和图3所示的两个替代方案28和30，合成器甚至可以通过加权预测自由地执行从较低层导出的层间预测画面内容的混合、叠加、淡入或淡出。

为了说明上面参照图1至图3描述的实施例的优点，下面将描述其涉及视频会议的应用，从而使例如以上在本申请的说明书的引言部分中所解释的概念的优势更清楚。例如，图4示出了在将以上针对图1至图3概述的概念应用于以上针对图23至图26说明的视频会议任务的情况下所得到的多层输出数据流20。也就是说，三个视频比特流形成视频内容的编码版本，在这个视频内容的基础上执行构图，为了简便，在讲话者的比特流中存在两个层(图4中的大块)，并且在其他比特流中存在单个层(类似于图25)。

作为示例，上面针对图1至图4描述的实施例可以使用例如在SHVC中提供的扩展的可伸缩性或Rol可伸缩性的概念，其中不同的参考层可以用信号指示，并且可以添加一些偏移以将画面的不同区域映射到不同的参考层。上面在提到偏移参数时针对图2和图3提到了这个概念。例如，在SHVC中，偏移参数被称为缩放参考层偏移和参考区域偏移。例如，参见图4：这里为了简单起见，不对与三个参与者之一相对应的基础层L0进行修改。在图4中，将关于每个参与者的视频分配给不同的层。参与者1被分配了layer_id＝0(L0)，参与者2被分配了layer_id＝1(L1)，并且参与者3被分配了layer_id＝2(L2)。附加层是发生合成的层，即，预定层。在图4的情况下，该附加层具有layer_id＝3(L3)。将来自视频内容14的编码版本12的相应部分的剩余输入数据插入到该层中，即，参与者2的相应输入视频的增强层的残差和/或预测数据。在该层L3中，也执行了构图。构图使用上述MLCP概念，即，多层构图画面的概念。如上所概述的这个概念处理多个潜在可缩放的输入视频比特流和压缩域以创建单个输出可缩放视频比特流，即，多层数据流，该多层数据流在被馈入到单个可缩放解码器时产生多个输入视频比特流的空间构图。

刚刚提到的偏移参数可以被包括在多层输出数据流20的高级语法中。例如，对于多层输出数据流20的最高(预定)层，可以通过视频流传输装置或其合成器生成画面参数集(PPS)，该PPS包括偏移参数，诸如缩放参考层偏移和被参考区域偏移。后者对应于构图布局。也就是说，例如，包括许多缩放参考层偏移和潜在被参考区域偏移作为输入视频16(或在图4的情况下的参与者)来描述最高层的输出画面中与每个参与者相对应或显示每个参与者的区域/区。图5示出了对于图4的电话会议应用示例使用可伸缩偏移(偏移参数)的效果，在这里示例性地用于两个参与者。对于通过层L3和L2传送视频的参与者，输出画面的最左边区域使用L2中的画面以使用空间可伸缩性进行预测(层间预测)。然而，L3的画面的右侧部分使用由图1至图3的合成器提供的概念，即，通过层间预测直接复制L0中的画面的画面内容。这样的直接复制片可以由具有恒定的零运动矢量的大预测块组成，所述恒定的零运动矢量结合相应PPS中的指定的缩放参考层偏移和参考区域偏移指向L0中的画面的预期区域/区的样本。如图5所示，这也可以是仅强调最重要部分(通过包括参考区域偏移)的内容的子区域的副本，例如，通过选择需要比特流中的大部分比特率的可指示感兴趣区域或由一些外部信令手段确定的画面的部分。上述实施例允许布局的灵活构图，因为原始内容的一部分实际上可以被“裁剪出”，即，所有参与者的构图可以适合与完整画面被拼接在一起的常规拼接过程的分辨率不匹配的确定的分辨率。

在执行使用SHVC之前描述的实施例的情况下，例如，可以修改与其基础层被分配了大于0的层ID(即，图5中的L1和L2)的参与者的视频的画面相关的片段，使得用于SHVC的相应片头的扩展被包括在片头中。来自较低层的层间预测不被应用/用于这些层，因为它们是独立的，即，它们是相应输入流中的独立基础层。

每当发生布局改变事件时，即，每当构图(布局)改变时，新的PPS被插入更新的相应参考层偏移和参考区域偏移(即，偏移参数)以匹配新的布局配置。将存在与参与者的数量一样多的可伸缩偏移，对于与每个参与者的基础层相对应的参考层有一个可伸缩偏移。备选地，如果与图4所示的结构相比使用了具有更多层的更复杂的结构，则除了分配有效的层标识符(SHVC中的nuh_layer_id语法元素)之外，可以保留更多的层而无需进一步修改。

上述实施例是灵活的，因为它们允许保持所有单独的输入层，并用nuh_layer_id的不同值分离非输出(较低)层，从而避免MLCP中的任何输入残差和/或预测数据，而仅使用MLCP在最高层中执行构图，即，MLCP仅由复制包括最高输入层在内的较低输出层的画面内容的直接复制片组成。这已经在上面被描述为替代方案28。

允许视频(在图4和图5的情况下的参与者)的MLCP(在图4和5的示例中的低分辨率基础层)中未包括的多层输出数据流20的所有层在任何时候使用时间预测。对于在布局改变事件处通过位移实现的包括在MLCP层(即，预定层)中的输入画面的残差和/或预测数据，不允许时间预测。对于受布局改变影响的那些MLCP区域，仅允许层间预测。图6示出了使用具有输入画面的残差和/或预测数据的MLCP的示例性布局改变事件，并且可以看出，对于MLCP中的较低层和绿色区域，时间预测如何不被破坏，从而导致非常好的压缩效率，这比不使用MLCP更好。

注意，在图6的示例中，考虑到MLCP包含以最高分辨率示出的关于讲话者的视频的最高输入层的残差和/或预测数据。因此，在该示例中，MLCP可以具有包含允许解码更高分辨率的视频的讲话者的附加信息的切片以及简单地继承每个帧间预测的非讲话者的低分辨率视频层的样本值的直接复制切片。这是上面关于参考标记30提到的替代方案。在此，与根据28的替代方案相比，层的数量减少。

因此，实际上这是选择替代方案28或30的设计选择。在根据28的替代方案中，所有层都保持独立于MLCP，其中输入数据流的残差和/或预测数据未被包括在多层输出数据流20的预定层或最高层的MLCP中，而对于根据30的替代方案，情况并非如此。根据替代方案28，MLCP仅由使用经由层间预测从较低层重构的样本数据的直接复制切片构成。所有可缩放的输入视频比特流的层，不管相应的层数，都将保持不变，除了写入适当的nuh_layer_id之外。所有MLCP切片(即，直接复制切片)以如下这种方式进行编码：第一CU使用不具有附加(输入)残差数据的层间预测，并且随后的CU被编码为跳过模式，即，它们简单地复制预测模式(即，层间预测)，同时跳过残差编码。在替代方案28中，可利用时间域中的预测，而对集合26中的所有输入层没有任何限制。

可以在损失情况下进一步使用上述MLCP概念。假设讲话者的最高层(输出)丢失，则可以引入直接复制切片(可能执行较低层的缩放)，从而生成输出层的不可用内容。如果使用TVMP，则这种插入可能对后续画面产生严重影响，因为复制切片的MV将与原始丢失切片的MV完全不同。因此，在最高层与被替代的参与者相对应的另外的切片将被要求被丢弃并且被另外的复制切片代替，直到发生“TMVP随机访问”(复位TMVP预测的画面)。

在下文中，提供对关于迄今为止描述的实施例的比特流约束和性质的一些描述。

具体地，如上所述，MLCP表示多层输出数据流20的最高层或输出层(预定层)的画面，通过该画面实现输入视频的实际构图。在使用SHVC实现上述实施例的情况下，即，在使用SHVC来表示输出数据流的情况下，MLCP是从输入比特流EL画面(在替代方案30的情况下)和/或复制切片构成的SHVC EL画面。在该上下文中复制切片意指通过从较低层的源画面进行层间预测的方式在相同的时刻(完全地或部分地)复制(并且可能地重新采样)较低层的画面内容的切片。在输入比特流EL内使用时间帧间预测的情况下，如上所述，可以使用两种方法来创建MLCP。当所有输入比特流的层被放入输出比特流20的各个层中，并且MLCP仅通过复制切片被创建，从而根据替代方案28形成额外的预定层时，在输入比特流EL画面(即，层26的画面)内使用时间帧间预测不施加特定的约束。然而，在另一种情况30中，在MLCP包含输入比特流EL画面的切片数据并且这些切片执行时间帧间预测的情况下，这些画面需要满足切换约束，如下所述。以下是如[4]中详细描述的作为输入比特流18的HEVC编码比特流的约束的简要概述，但是类似地应用于多层情况：1)MV约束：运动矢量不应该指向画面边界或子像元样本位置之外的样本，编码器侧调用的子像元插值滤波器内核与画面边界重叠。2)预测单元：画面内最右侧的预测单元不应该在不存在的TMVP候选的位置处使用与时间运动矢量预测(TMVP)候选或空间运动矢量候选相对应的运动矢量预测候选。3)环路滤波器：切片段和区块边界(如果存在的话)不应通过诸如去块和SAO滤波器之类的环路滤波器。

MLCP比特流的进一步特征是在切换(或者调入或者讲话者改变)时用适当的缩放参考层偏移和参考区域偏移参数插入用于MLCP的PPS及其参考。参数需要反映当前的MLCP布局、层次结构和画面尺寸。

为了完整起见，图7示出了根据图1的替代方案30产生的多层数据流20。它包括若干层L#，在此示例性地是四个层0至3，但是任何大于一的其他数量也是可行的。较低层(在此为L0至L2)包括预测参数，诸如从输入视频14的编码版本12复制的运动矢量70以及描述预测残差的残差数据72，其也是从视频内容的编码版本复制的。根据与替代方案30相关的图7的实施例，最高层也包括这些类型的信息，即，复制的预测参数，诸如也从输入视频14的编码版本12复制的运动矢量70和残差数据72。此外，图7的多层数据流20包括用于每个较低层(在此为L0至L2)的偏移参数74，以描述如何缩放由MLCP组成的预定层或最高层L3的画面并且相对于较低层L0至L2的画面而定位。最后但并非最不重要的是，对于最高层或预定层L3，多层数据流20包括层间预测参数76，从而合成地创建构图，因为它们在空间上添加到由复制的预测参数70和残差数据72编码的最高层或预定层L3的画面的区域，画面内容来自较低层L0至L2。在图7的情况下，层的数量N(这里，N＝4)对应于将I个输入视频编码到编码版本12中的层的数量n＝i的和，即，N＝∑_in_i。具体而言，多层数据流20的每个层L#与恰好一个输入视频i(0＜i＜I+1)相关联，并且如果恰好适用于相应输入视频i的若干层之一，则多层数据流20的层L#和输入视频的层之间的映射是双射的。就较低层0至n-1而言，它们仅以属于相同输入视频的一个或多个层的组的单元经由层间预测而互连。最高层或预定层LN在此对应于其中一个输入视频的最高层。如图7所示，多层数据流20可以另外包括较高的辅助信息78，其选项内容将在下面解释。

图8示出了根据替代方案28得到的多层数据流20的内容：该内容几乎与图7中所示的内容一致，除了最高层(在图8的示例中的层L4)不分别包括复制的预测参数或复制的残差70和72之外。由于除了通过从视频内容14的编码版本12的各个部分复制预测参数70和残差72而获得的那些较低层L0至L3之外，还添加了最高层L4，因此相对于各个输入视频i(0＜i＜I+1)的层数n_i的多层数据流20的层数N是N＝∑_in_i+1。

关于图7和图8，应该注意的是，关于这些附图描述的关系，即，多层输出数据流20的层数和输入视频14的层数之间的关系，可以是可选地使得多层数据流20的层数N低于图7和图8所示。例如，一些输入视频可以在空间上被拼接在一起，从而减少多层数据流的层数。

因此，换句话说，包括多个层的视频流和指示视频流的多层画面的信令不在最高层(即，视频流的最高层)中使用，或者不在任何层中(即，不在视频流的任何层中)使用，TMVP。除了信令之外，视频流还可以包括进一步的信令，其指示在没有运动补偿时间预测的情况下使用编码的视频流的多层画面。另外，除了信令之外，视频流还可以包括指示视频流的每个多层画面的甚至更进一步的信令，或者至少一个没有被指示为没有TMVP被编码的信令(在相应层中(见上))，对于以编码顺序在视频流的多层画面中测量多远，在没有时间运动矢量预测而编码的情况下使用视频流的下一个多层画面是远离的。视频流可以是根据本申请的任何实施例的合成视频流。如关于图7和图8所描述的那样，多层数据流20可以由装置10以包括高级辅助信息78的方式来生成。例如，该辅助信息78可以例如用信号指示多层数据流20的层与输入视频14的关联性，或者如果任何一个以分层方式被编码到视频内容14的编码版本12的相应部分18中，则指示多层数据流20的层与输入视频16的层的关联性。附加地或备选地，高级辅助信息78可以包括提供有价值的信息的高级信令，即，关于视频内容14的构图的当前布局的信息，即，关于多层数据流20的预定层中的MLCP的当前布局的信息。也就是说，该信息可以用信号指示哪个讲话者、输入视频或多层数据流20的一个或多个输出层的组与多层数据流20的最高(预定)层的画面(MLCP)的哪个区域或区相关联。附加地或备选地，高级辅助信息78可以包括关于哪个输入视频16或讲话者可用于多层数据流20内的哪个分辨率或质量的信息，以便控制接收方控制的讲话者或布局改变。高级辅助信息78可包含的另一个有价值的信息可以附加地或可选地涉及上述“TMVP随机访问”问题。针对图9对此进行描述。图9示出了以分层方式编码到视频内容14的编码版本12的相应部分18_i中的一个示例性输入视频16_i，即，在此示例性地涉及两个层n_i=2。为了区分输入视频16_i的层索引与通过装置10的副本形成器22将视频16_i的层复用到多层输出数据流20的层L#中的层的层索引，输入视频16_i的层用I#指示。被编码到部分18_i中的视频16_i的画面应被表示为p_i，l，t，其中索引i表示/索引视频16_i，索引I对输入视频的层进行索引，即示例性地为I0或I1，并且索引t对画面的时刻进行索引。让我们进一步假定输入视频16_i的最高层(这里是I1)的画面使用时间预测以及层间预测被编码为部分18_i，并且甚至使用时间运动矢量预测(TMVP)，即，根据画面(I＝n_i-1)(即，较高层，这里，在图9的情况下为I1)的运动补偿预测参数对一个画面的运动补偿预测数据进行时间预测。

部分18_i，例如传送视频16_i的分层输入数据流，可以通过其不使用TMVP的最高层I1的高级辅助信息80来指示。图1的装置10可以有利地使用该信息80：假设在部分18_i传输到装置10期间，部分18_i内关于画面的数据将会丢失。画面将基于画面使用TMVP，但是辅助信息80将用信号指示画面将不使用TMVP。由于层I1是视频16_i的最高层，所以其画面内容通过根据替代方案28或根据替代方案30的层间预测复制来参与多层视频流20的内容的构图(对于多层数据流的最高输出层的交叉影线部分)，或者直接在该层11中，直接根据替代方案30，由副本形成器22将其复用到多层数据流20的最高层。对于合成器24来说，补偿画面的丢失是相对容易的任务，合成器24可以替代地使用下层画面进行构图合成。也就是说，画面的画面内容将由副本形成器22直接地或由合成器24通过层间预测所编码到的相应区域将被来自下层画面的层间预测副本所替代。现在，装置10将检查信息80并且认识到画面使用TMVP，即，不被指示为不使用TMVP。然而，由于画面的运动矢量预测参数丢失并且仅相对于其画面内容被“替代”，所以合成器24继续基于也相对于该画面的下层来替代构图合成，即，合成器24使用画面进行构图合成来作为替代。然而，由于信息80指示画面不使用TMVP，所以合成器24可以停止在画面处基于输入视频16_i的最高层替代构图合成，即，合成器24可以直接在构图合成中使用该画面的画面内容。

另外，辅助信息80可以针对没有被指示为不使用TMVP的每个画面p_{i，l＝1，t}，指示在层I1内有多少画面将该画面与层I1的在最高层或任何层中不使用TMVP的下一画面分离。通过这种方式，装置10可以更容易地规划刚描述过的替代过程。在通信服务场景中，例如，信息80的存在可以防止通信端点请求其他端点发送比特率成本高的IDR画面，即，重置整个预测工具链，因为此后不久可以预期比特率成本不高的TMVP重置画面。

装置10进而可以将嵌入到辅助信息78中的该辅助信息80复制到多层输出数据流20中。接收数据流20的解码器可以基于数据流20中的该信息80在解码多层数据流20的解码过程中扩展替代过程。

备选地，辅助信息80尚未被装置10生成的部分18_i包括，使得该信息被包含在多层数据流20的高级辅助信息78内。

信息80可以以SEI消息的形式存在。SEI消息可以描述何时发生TMVP重置。甚至进一步的SEI消息可以描述当在参考的最高层使用复制切片而不是原始EL切片时可以进一步解码多少画面，使得在如此多的画面之后如果没有发生随机存取，则用复制切片替代最高EL的内容。

为了完整起见，图10示出了装置10可以被配置为使得该装置能够处理要合并到由出站多层视频数据流20表示的构图中的新视频。图10将装置10描绘为接收J个视频的编码表示，所述视频中的每一个包括0＞n_j个层，其中0＜j＜j+1。然而，在合成构图中，装置10改变参与组成构图的视频的集合或子集。例如，图10示出了在某个预定时间点T参与的视频改变。在时刻T之前，示例性地，视频J-1、j和1根据上面关于图1至图9概述的技术参与形成多层数据流20，视频J-1、k≠j和视频1在时刻T之后参与。例如，诸如视频会议领导的操作者决定从与视频j相关联的非讲话者切换到与视频k相关联的另一个非讲话者。在这种情况下，装置10可以被配置为在接收到操作者的命令之后，在下一场合对参与视频的子集中新包含的视频k执行操作者的命令，其中视频k是帧内编码的，即，没有任何时间预测。通过该措施，装置10能够从涉及视频J-1、j和1的构图无缝切换到涉及视频J-1、k和1的构图。

将新视频包括到参与合成某个视频内容的构图的视频的子集中的问题是本申请的随后示例性方面的主题。在下面的描述中，针对某个应用概括并举例说明了这个问题，即，涉及表示全景视图之外的随时间变化的部分的合成视频流的流式传输的应用，其中全景视图分布在多个视频中。然而，接下来描述的实施例也可以适用于允许图1至图10的装置10以在实际上不存在帧内编码随机存取情况/时刻的时刻改变参与视频的子集。随后概述的实施例甚至适用于将视频合成应用于使用开放GOP结构编码的一个或多个视频的情况，其中甚至不存在帧内编码画面，所述帧内编码画面仅仅形成用于按照呈现时间顺序的画面的参考。相反，如下所述，在开放GOP结构中，这种帧内编码画面用作按照呈现时间顺序前后的画面的时间预测参考。这里，下面描述的实施例形成从一组参与视频无缝过渡到另一组参与构图合成的视频的唯一可能性。

为了更详细地描述刚刚概述的问题，本文简要介绍了多层全景流传输。全景视频描述的视频内容的视角比传统的2D视频服务所用的视角大，例如高达360°。将这些内容或其相关部分传输到诸如浏览器、视频墙或头戴式显示器等终端，对于已建立的传输方案和系统在带宽和延迟方面是一个挑战。娱乐、游戏或监视中的各个应用进一步缩小了可能出现这种内容的传输的周围条件，例如，实况流传输。

对于大规模的全景流传输服务，为了可扩展性，尽量减少必要的每用户媒体处理至关重要。因此，建立了在HEVC[1]中基于区块流传输的概念和相关压缩域处理的不同方法。例如，代替针对每个用户的视频实况编码，取决于他的感兴趣区域，即全景视频的发送和/或显示区域，可以在利用很少的计算资源的情况下，将等效的视频在充分编码的HEVC视频区块的压缩域中一起拼接。在[2]中引入的其他技术允许有效地处理感兴趣区域的变化(Rol切换)，即，在实况服务的延迟约束下，传输附加的视频内容(即，先前不可见的全景视频区域)会容易破坏用户体验。

以前在这样的系统中使用了低分辨率和高分辨率全景联播的方法，已被证明对于处理延迟和带宽需求非常有价值[5]。因此，可扩展视频编解码器(如SHVC)有望在该领域提供优势。

以下进一步概述的实施例将如下文所解释的生成的参考画面的概念引入到多层视频编解码器，并且允许在带宽或延迟方面更有效地处理Rol切换。在[2]中，在单层全景流传输的情况下引入了生成的参考画面(GRP)的概念，以减少在使用基于区块的全景流传输时Rol切换点的比特率增加。图11示出了GRP的原理，即，执行常规参考画面的内容的位移的画面，使得后续画面可以使用之前接收到的区块(即，视频的区域)的时间预测，并且在流传输切换点期间经历合成/拼接视频(虚线块)中的空间位移。GRP仅用于参考，且不输出。

因此，通过使用GRP，避免了为所有移位的区块发送完全帧内画面的必要性，并且可以将时间预测用于一些区块，即，与在Rol改变之前已经存在的画面内容有关但是在不同位置处的区块，从而减少所需的传输比特率。

下面进一步描述的实施例因此提供用于全景流传输的解决方案。他们使用可扩展或多层视频技术。特别地，这些实施例还为使用开放GOP结构的情况提供了解决方案。这种开放GOP结构允许例如流的更高压缩效率[6]，同时提供中间流解码存取，即所谓的随机存取。图12示出了用于开放GOP的可能编码(GOP)结构。按照从左到右的呈现时间顺序在图12中示出视频的画面。使用箭头来显示时间预测。如在其他图中那样，箭头从参考宿(sink)或继承者指向参考源，即从使用时间预测所预测的画面指向被时间预测参考的画面。调入或加入服务的示例性事件(即，图12中的解码视频的开始)可以被称为随机接入，并且在图12中被示例性地描绘为“切换点”。从图12中可以看出，如果在第二CRA画面(图12中的右侧)处发生随机接入事件，则按呈现时间顺序在其之前但是取决于CRA并且另外取决于先前画面(在图12中标记为P)的所有画面是跳过的未被解码或显示的画面。与所谓的封闭式GOP结构相比，这种方法已被证明是非常有效的，并且提供了更高的压缩效率，其中所述封闭式GOP结构使用IDR来实现相同的功能并且对过去进行中断预测。尽管对于如在调入新频道时那样恢复解码中间流，这样的方法是非常有用的，但是当在自适应或交互式流传输的情况下执行切换时，跳过画面不是有效的过程。每次发生这样的切换事件，即所显示的感兴趣区域(Rol)的改变，使用强制丢弃画面的技术是不可接受的，因为在整个切换事件中必须显示连续视频，尽管通过切换事件发生移位。

图13示出了当考虑利用GRP的基于区块的流传输时开放GOP在全景流传输中的效果。在这种情况下，考虑可扩展视频，其中基础层(L0)对应于被用作由L1中的所选区块形成的Rol的参考的整个全景视频的缩略图表示。如图13所示，在层L1的图形被水平细分成四个区块的情况下，GRP将在原始区块的最高层(图中的L1)处执行向左侧的移位。如[2]中所解释的那样，以影线方式描绘的最右边的区块将包含先前参考帧的画面边界扩展或其他无意义内容。这个被破坏的区域不能用作以交叉影线方式描绘的在呈现时间顺序(RASL)画面中的下一画面中添加的新区块的有意义的参考。因此，对于以交叉影线方式描绘的最右边的区块而言，具有RAP功能的封闭式GOP表示将是必要的，这将迫使也对所有区块使用封闭式GOP结构，使得能够以降低的编码效率为代价执行拼接。如果将使用开放GOP结构，则后续RASL画面(从右手侧第二个)的以交叉影线方式描绘的画面区域将使用已损坏区域作为由图13中的正常影线框表示的参考，导致进一步损坏的内容或解码漂移。为了解决这个问题并允许开放GOP切换，随后解释的实施例使用基础层作为存储器(reservoir)，通过使用例如复制切片的层间预测，可以从该存储器中导出图13中的有规则影线的存储器。如上所述，直接复制切片是经由层间预测在下层中的画面的画面内容的直接副本。这样的直接复制切片可以由具有给定静态运动矢量的大预测块组成，该静态运动矢量指向下层画面的预期区域的样本。

图14示出了视频流传输装置100。它包括输入102和组合器104。就实现而言，以上关于图1提供的注释对于图14也是有效的。也就是说，图14的视频流传输装置可以用硬件、可编程硬件或软件来实现。例如，输入102可以与组合器104一起形成软件接口，表示实现其功能的计算机程序的一部分。备选地，输入102可以是一个或多个视频输入，其中模块104以软件、可编程硬件实现或作为专用集成电路实现。

输入102接收视频内容114的编码版本112，编码版本112包括其中编码了视频116₁至116_N的集合/组的第一部分114₁和其中以增强的质量(例如，与将视频的集合编码到第一部分114₁中的基础质量相比，按例如像素数测量的增加的分辨率)编码了视频116₁至116_N的第二部分114₂。可以使用或者不使用来自第一部分114₁的层间预测来将视频116₁至116_N编码到第二部分114₂中。

类似于图1的描述，第二部分114₂可以由每个视频116₁至116_N的一个视频数据流118₁至118_N组成，并且第一部分114₁可以包括视频数据流119，该视频数据流119已经在其中以在空间上拼接在一起的方式编码了视频的画面，如图14示意性地所示。具体而言，图14将示出可以将视频116₁至116_N中的每一个与全景视图的相应部分相关联的可能情况，即，哪个视频属于共同场景的情况，其中每个视频捕捉全景视图的某一部分。也就是说，视频116₁至116_N可以具有其间固有地定义的空间相互关系，例如这些视频捕捉共同全景场景的水平分布部分的序列的事实。

组合器104被配置为以增强的质量组成表示视频116₁至116_N的真子集的构图的视频流120。如图14所示，真子集121可以例如具有恒定的基数，即可以具有恒定数量n＜N个的视频116₁至116_N，诸如与全景视图的彼此相邻部分相关的n个视频以形成全景视图的连续部分。例如，视频116₁至116_N的索引与由相应视频捕捉的全景视图的各部分的顺序一致，那么子集121覆盖视频116₁、116₂、...、116_N的序列的连续子序列。然而，应该记得，视频116₁至116_N不能具有在其间定义的任何空间关系，例如在与视频会议呼叫的不同参与者相关的视频的情况下。

组合器104被配置为将视频流120组成为多层视频流，所述多层视频流包括通过从第一部分114₁复制而得到的基础层L0以及从涉及视频的真子集121的第二部分114₂的一部分复制而得到的一个或多个增强层，为了说明的目的，图14中仅示出了一个层L1。例如，第二部分114₂的该部分由其中编码了真子集121的视频的那些视频数据流118₁至118_N组成。也就是说，组合器104在压缩域或编码域中操作，以便将视频的子集121复用到数据流120的一个或多个增强层中。原则上，子集121中的视频数量可随时间变化。在任何情况下，子集121中的视频数量可以等于1或者可以大于1。在组成视频流120以表示真子集121的构图时，组合器104可以类似于图1的视频流传输装置：将解码域或压缩域中的子集121的视频复用到数据流120的增强层的相应较低层中，同时花费附加的最高层或者重新使用这些增强层的最高层来作为MLCP域，即，作为其中合成了真子集121的构图的预定层。备选地，组合器104将子集121的视频在空间上复用到增强层L1的画面中，即在一个增强层中，如图14中示例性地描绘的那样。例如，组合器104将该增强层L1的画面在空间上细分成区块，以便以某种方式操纵遍历增强层L1的画面的编码顺序，使得真子集121内的视频的大部分编码表示118可以简单地被复制到数据流120的增强层中以便导致真子集121的构图。

图14的组合器104支持真子集121的改变，即，支持真子集121的时间变化，如图14中除了示出真子集121的大括号之外的箭头所示。特别地，组合器104支持真子集121在预定时刻的改变，使得真子集新包含在该预定时刻之前未被真子集124所包含的新包含的视频。例如，参见图14，其中时刻T将表示视频11向前被真子集121新包含的时刻，而该视频在时刻T之前不被真子集121包含。

如上所述，这种新包含的视频或新参与的视频的问题在于，缺少时间预测目的所需的那个视频的参考画面，即，按时间编码顺序在新包含的视频的未发送画面之前的画面。在用于编码视频116₁至116_N的开放GOP结构的情况下，这种参考画面的丢失甚至可能是不可避免的。

因此，为了解决这个问题，组合器104以下面两种方式之一来支持刚刚提到的真子集121的变化。

为了说明组合器104操作所根据的第一替代方案，参考图15a，其示出了根据图14中所描绘的示例的组成视频流20。也就是说，数据流20由组合器104生成，使得除了基础层L0之外，该数据流还包括一个增强层L1，其中视频的真子集以空间拼接的方式在增强层内传送，即，真子集的视频被复用到增强层L1的画面的空间子部分中。图15a示出了按呈现时间顺序涉及增强层和基础层的六个连续画面的数据流120的合成视频的时间间隔。在图15a中，尽管如上所述，图15a的实施例的优点不限于开放GOP结构，但是假设视频116已经使用开放GOP结构进行了编码。假设所有入站视频116已经使用相同的开放GOP结构进行了编码。在呈现时间顺序中，所描绘的时间间隔包含画面RASL1、CRA1、B1、P1、RASL2、CRA2。CRA#画面是帧内编码的。经由时间预测，RASL#画面参考CRA#以及P#画面，其中，就编码顺序而言，相应的RASL#画面与参考的CRA画面切换其位置。经由时间预测，B#画面也参考CRA画面以及P画面，但是就数据流20中的编码顺序而言，将它们的位置与参考的P画面切换。在图15a中，为了说明的目的，假设视频的真子集的变化在时刻T改变，即，沿着画面P1和RASL2之间的呈现时间顺序改变。虽然在该时刻T之前，视频7至10参与输出数据流20的增强层L1的构图，但是真子集包括在该时间时刻T之后的视频8至11。一直到构图改变时刻T，组合器简单地将压缩域或编码域中的视频7至10(即，通过从编码版本12复制)复用到增强层L1的画面的相应空间区块上。在呈现顺序中，在切换时刻T之前，每个视频7至10保持其在这些画面内的位置。相应地，从编码版本112复制的复制运动矢量参数被正确地应用。视频在增强层的画面中被在空间上拼接。同样，将真子集内的若干层复用到数据流20中的其他方法也是可行的，并且真子集内的视频数量也可以是1。然而，在可用于在全景场景中改变Rol的本示例中，三个视频(即，视频8至10)保持在其参与的视频内，即，在真子集121内，而视频7不再是该子集的成员并且视频11被该子集新包含。就画面CRA2而言，在时刻T之后在增强层L1的画面中描绘视频8至10的位置的空间移位是没有问题的，因为不应用运动预测来将视频8至10的画面内容编码到画面CRA2中。然而，合成器24可以调整偏移参数，以便在视频8至10的情况下，也使用来自基础层的层间预测相对于基础层的画面在画面CRA2中视频8至10所在的区域之间执行空间对齐。增强层L1的CRA2中新包含的视频11的画面也可以由于其帧内编码(即，非时间编码)而在保留在压缩域或编码域中的同时通过直接复制来执行。情况随着画面RASL2而改变。画面RASL2也属于切换时刻T之后的呈现时刻，并且具有画面CRA2以及画面P1作为时间预测参考画面。在画面CRA2和RASL2中，由于这些画面之间的构图改变，所以没有问题。然而，这对P1和RASL2来说是不同的。这里，视频8、9和10存在于两个画面P1和RASL2中，但是在发生空间移位的位置处，并且视频11存在于RASL2中，但是不在画面P1中。为了解释位置位移，组合器104将画面GRP插入到数据流20中，其是非输出画面，即，在数据流20中被指示为不被呈现。相反，它只是作为参考画面。特别是，画面GRP应该替代画面P1，只要后者的作用是作为画面RASL2的参考画面。也就是说，如图15a中用实线所示的各个弯曲箭头的交叉所示，组合器104调整数据流20，使得RASL2使用画面GRP作为参考画面，而不是画面P1。在增强层L1的画面内通过时间复制(即，通过从被替代的参考画面P1的相应区域的时间预测)在切换时刻T之后视频8至10所位于的区域处由合成器104合成或填充画面GRP，其中在时间时刻T之前视频8至10位于所述被替代的参考画面P1内。就时刻T之后的视频8至10的区域而言，画面GRP的填充或合成是容易以相对较低的比特消耗来执行的，如仅视频8至10的区域从切换时刻T之前到切换时刻T之后的平移移位将被编码。

填充图15a中以交叉影线方式指示的与RASL2中的视频11的位置相对应的GRP的剩余区域的任务由组合器104以下面的方式来解决。具体而言，组合器104通过使用来自基础层L0的画面的对应部分(即，全景画面)的层间预测进行编码来填充该区域。为此，合成器24将例如图15a中称为GRP′的相应GRP基础层画面插入到基础层L0中，通过使用来自与P1相对应的基础层画面的画面内容的恒定零运动矢量字段利用时间预测来填充该画面GRP′，并且使用来自与视频11相对应的GRP′的部分的层间预测来复制/填充层L1的GRP的交叉影线区域。其效果是，基于交叉影线区域内的画面GRP的内容经由时间预测被编码的画面RASL2中的与视频11相对应的区域现在经由和与先前指定的视频11的参考画面的时刻相对应的基础层画面中的视频11相对应的部分而至少具有与该内容的良好近似，然而，由于在时刻T的构图改变，数据流20中不存在先前指定的视频11的参考画面。

关于图15a，应当注意，组合器104可以可选地被解释为使得其将图15a中所示的GRP分成两个GRP，其中一个执行视频8至10的区域移位，其中交叉影线区域保持未编码，用作携带视频8至10的画面RASL2的编码区域的参考画面，以及就关于视频8至10的新位置的区域而言，以“无所谓”方式填充另一GRP画面，但是就交叉影线区域(即，在切换时刻T之后在增强层L1的画面中描绘视频11的区域)而言，如上所述基于基础层使用层间预测进行填充，以承担携带视频11的画面RASL2的编码区域的参考画面的角色。

也就是说，在图14的组合器104根据图15a的示例操作的情况下，组合器104将输出多层数据流120的增强层L1的画面细分成固定数量s＜N的区域或区块，在此示例性地s＝4，其中视频116₁至116_N的s个视频的时变真子集121被复用到所述区域或区块中。刚才提到的区块由组合器104在压缩域或编码域中进行填充，即，没有转码。这可以如上面关于图1至图13所描述的那样完成，即，通过将描述子集121的视频的切片几乎按原样(即，至少关于预测参数和残差数据)采用到数据流120的增强层中，以便描述上述的数据流120的增强层L1的输出画面的区块，这些区块在图15a中使用实线示出。类似地，组合器104形成数据流120的基础层L0，即通过保留在压缩域或编码域中，使得例如预测参数和残差数据被简单地复制到数据流120的基础层L0中。每当切换时刻T发生时，组合器104将多层画面(即，具有关联的基础层画面GRP′的增强层画面GRP)插入到数据流20中，其中至少增强层画面GRP是无输出类型。在该GRP中，与新包含的视频的位置相对应的区域或区块(即图15a的示例中的视频11)被合成地填充。为此，组合器104在切换时刻T之前将新包含的视频的参考画面的画面内容复制到该区块中，因此虽然在切换时刻之后被新包含的视频的画面参考，但是不可用。组合器104将该GRP/GRP’对插入到数据流120中，使得该GRP/GRP’对被刚才提到的新包含的视频的参考画面参考，以支持实际上未包括在数据流120中的原始参考画面。组合器104可以使用另一个GRP或GRP’对或者同一对的剩余区块，以便在时刻T新引入/包含另外的视频，或者在空间上重新布置或改变一方面跨时刻T连续包含的视频与另一方面增强层L1画面的区块之间的关联性。具体地，为此，组合器104使用时间预测以便以平移的方式移动数据流120的增强层L1的画面中的区块，其中这些连续包含的视频以视频和区块之间的另一关联性来布置，以替代后面的L1画面作为连续包含的视频的参考画面。如刚刚所述，通过使用GRP′的绕行来执行从基础层的复制：GRP′以基本质量提供视频的集合的副本，并且在与新包含的视频相关联的区块处通过GRP中的层间预测来复制新包含的视频的对应部分。

也就是说，根据刚刚概述的替代方案，组合器104以增强的质量组成表示视频116的真子集121的构图的视频流120，使得视频流120是多层视频流，其中组合器通过从视频内容114的编码版本112的第一部分114₁进行复制来形成多层视频流的一个或多个基础层L0，并且通过将与视频的真子集相关的视频内容114的编码版本112的第二部分114₂的一部分复制到一个或多个增强层L1中来形成多层视频流的一个或多个增强层L1。组合器104支持真子集121在预定时刻的改变，使得真子集121新包含在该预定时刻之前未被真子集121包含的视频116或新包含的视频。组合器104能够以无闪烁的方式执行真子集的改变，即，没有画面损失，或者没有由于新包含的视频的任何缺失画面内容而在构图中出现的空白部分。这是由组合器104根据图14的替代方案通过用非输出画面替代新包含的视频的参考画面(诸如P1)来实现的，即，满足以下两个标准的画面：1)相应参考画面不被复制到一个或多个增强层(L1)中的编码版本的第二部分的该部分所包含。对于P1来说也是如此，因为它在编码顺序中位于切换时刻T1之前，所以它不会由副本形成器在数据流中传送。2)其次，相应参考画面是通过运动预测由复制到一个或多个增强层(L1)中的编码版本的第二部分的该部分所包括的新包含的视频的任何画面所参考的画面。对于P1来说也是如此，因为其被例如RASL2所参考，而RASL2进而在编码顺序中位于切换时刻的下游，并且因此被副本形成器插入到数据流中。通过将非输出画面插入到多层视频流中来执行替代，重定向参考画面(即，在这里是RASL2)的时间预测，以便参考非输出画面并用基于基础层通过层间预测对参考画面的近似来填充非输出画面。

在描述图14的组合器104的功能的另一个实施例之前，应该注意，与迄今为止关于图14的装置100提出的描述相反，根据该描述，已经提出了组合器104在多层输出数据流120的基础层内以基础质量不断地传送全部N个视频的完整集合的集合，但这确实需要是这种情况。例如，N个视频116的内容可以以基本质量以区块为单位被编码在基础层的画面中，并且组合器104可以被配置为使得经由基础层传送的该集合在任何情况下都包含区块，所述区块表示容易被真子集121新包含的那些视频的基本质量表示，诸如根据刚刚概述的全景视图示例当前包含在真子集121中的视频的紧邻视频，其中该集合在任何情况下还包含：在视频116以任何方式使用层间预测被编码到相应部分118中的情况下，当前在真子集121内的那些视频的基本质量画面。

为了完整起见，图16示出了在组合器104使用另一替代方案将视频的真子集121复用到数据流120中(即，按真子集121内的每个视频复用到一个增强层L1至L4中)的情况下数据流120可能看起来像什么。在切换时刻T，组合器104插入刚才提到的一对GRP/GRP′。具体而言，真子集121的视频与增强层L1至L4的视频之间的关联性(即，数据流120的对应层ID)例如可以由组合器104选择，使得其对于这些视频保持相同，即，跨时刻T保持得与T之前和之后作为集合121的成员的视频一样远。新包含的视频(即，图16的示例中的11)开始另一视频，以便与剩余的增强层L1相关联。也就是说，在时刻T之前，视频7被分配给层L1，而在时刻T之后是视频11。对于视频11的每个缺失参考画面，由组合器104将GRP画面插入到层L1中。该GRP画面在图16中用交叉影线表示，并且由组合器104通过层间预测填充，即，通过向基础层L0中插入GRP′画面，该GRP’画面进而复制参考画面的内容的近似，层L1中的GRP画面通过时间预测来替代所述参考画面。使用为零矢量的恒定运动矢量场来完成对GRP’画面的复制，并且经由层L0与L1之间的相应偏移参数来控制层间预测，以便例如经由层间预测使用上采样将替代的参考画面的较低分辨率内容复制到GRP画面中。组合器104还可以将GRP画面插入到层L2至L4中，并且可以使层L1至L4中的所有这些GRP画面替代在时刻T之后与层L1至L4相关联的视频(即，视频8至11)的相应实际参考画面，但是在层L2和L4中的GRP画面的插入可以被保留，从而使得这些层中的参考画面按照原始的编码版本12保持原样。然后，由组合器104通过将层L5添加到数据流120来实现实际构图，其中已经使用来自承载由真子集121包括的视频的层L1至L4的层间预测以增强的质量在层L5中的画面中编码了视频的真子集121的实际构图。为此，组合器104可以在数据流120中调整相应的偏移参数，从而分别调整一方面层L5与另一方面层L1至L4之间的空间偏移和相对缩放。

备选地，对于附加层L5中的构图，代替使用图1的替代方案28，组合器104可以使用图1的替代方案30，同时相应地在承载真子集121内的视频的那些层中的最高层中执行实际构图。

上面没有特别指出，但是图14至图16中的切换时刻T是不管新包含的视频的画面的呈现时间顺序和编码顺序发散的切换时刻，切换时刻T是将新包含的视频的每个画面与切换时刻T之前新包含的视频的部分相关联的时刻，并且因此在压缩域或编码域中不被复制到数据流120或在切换时刻T之后新包含的视频的部分中，并且因此被复制到数据流120中关于编码顺序以及呈现时间顺序是相等的。例如，装置100可以被配置为处理例如来自操作者或某个外部实体等的针对子集121的改变的入站请求，使得该请求被安排为在发生这种情况的下一时间点发生，即推迟到发生这种情况的下一时间点。装置100甚至可以被配置为处理针对子集121中的改变的入站请求，使得该请求被安排为在下一时间点发生，即推迟到下一时间点，其中在该下一时间点，不仅在呈现时间顺序和编码顺序之间的任何偏差(如果存在的话)不导致取决于顺序类型在相应时间点之前和之后的任何画面，而且非时间编码画面在编码顺序中紧接在后，该时刻是对于画面CRA2在图15a中的时刻T的情况。然而，可以备选地选择另一个切换时刻。在后一种情况下，可以使用编码顺序或呈现顺序来选择在切换时刻T之后并因此复制到数据流120中的新包含的视频的一部分。如果选择了编码顺序，那么按编码顺序在切换时刻T之后并因此复制到数据流120中的新包含的视频的部分延伸到与新包含的视频有关的编码版本的连续部分。也就是说，根据上述实施例，副本形成器仅按每个子集改变一次，切换到新包含的视频。

在图15a和图16的情况下，已经使用GRP代替的画面是P1，即按照呈现顺序紧挨在切换时刻T之前的画面，即按照呈现顺序在切换时刻T之前的最后一个画面。例如，该替代涉及复制部分中包含的其他画面的参考画面角色，即图15a中的RASL2。然而，备选地，也可以在输出和参考画面角色方面进行替代：被替代的画面P1可以由组合器104在数据流120中标记为非输出画面。相反插入标记为输出画面的画面GRP/GRP′，以便在P1的以前呈现时刻替代画面P1的播放内容。GRP也会被RASL2而不是被P1所参考。在图15b中示出了在T之后的画面的参考画面的角色方面以及在输出方面替代P1的事实，图15b示出了与图15a相反的实线形式的GRP/GRP′以及虚线形式的P1，其中将GRP/GRP’与P1的以前呈现时间相关联。以同样的方式，图16可被修改。通过这种措施，有效的切换时刻将如图15b中的曲线箭头所示有效地预移动。插入和编码方面的开销基本保持不变。即，替代画面GRP将不是非输出画面。相反，其将是输出画面。反之，被替代/参考的画面P1，即被RASL2参考的画面，将被标记为非输出画面，即将在再现中被跳过的画面。后者将按照呈现时间顺序用作P1和T之间画面的参考画面，即图15a和图16中的B1。应该提到的是，可以按图15b所示的方式按每个时刻T如P1/GRP似的处理一个以上画面，从而使T预移位多于一个画面时刻。根据视频116的GOP结构，按每个切换实例T甚至可以具有一个或多个无输出替代画面和一个或多个输出替代画面。

到目前为止，组合器104的功能已被描述为填充插入到输出数据流120中的非输出画面中的区域，基于基础层使用层间预测替代和/或重新布置在切换时刻T之前的参考画面。然而，替代方案包括：在组合器104中，经由时间预测，替代新包含的视频的每个部分或画面，所述新包含的视频参考在预定时刻之前新包含的视频的参考画面，即，再次通过使用来自基础层的层间预测来编码这样的部分。例如，在图15a中，替代近似层L1的GRP画面的交叉影线区域，组合器104可以直接近似与层L1的画面RASL2中的视频11相对应的区块的内容，即，新包含的视频的画面，如果通过从编码版本12中的相应视频11进行复制来填充的话，则该新包含的视频将参考GRP要替代的参考画面。因此，以类似的方式，组合器104甚至可以在图16中省去插入任何GRP/GRP’对，使用层间预测直接基于基础层填充/近似层L1中的视频11的画面内容，即其RASL2画面。

也就是说，根据第二替代方案，组合器104以增强的质量组合表示视频116的真子集121的构图的视频流120，使得视频流120是多层视频流或者是多层视频流的形式或者作为多层视频流，其中，组合器通过从视频内容114的编码版本112的第一部分114₁进行复制来形成多层视频流的一个或多个基础层L0，并且通过将与视频的真子集相关的视频内容114的编码版本112的第二部分114₂的一部分复制到一个或多个增强层L1中来形成多层视频流的一个或多个增强层L1。组合器104支持真子集121在预定时刻的改变，使得真子集121新包含在该预定时刻之前未被真子集121包含的视频116或新包含的视频。组合器104能够以无闪烁的方式执行真子集的改变，即，没有画面损失，或者没有由于新包含的视频的任何缺失画面内容而在构图中出现的空白部分。这是由组合器104根据第二替代方案通过替代新包含的视频的部分来实现的，对于新包含的视频，以下为真：1)，它们由编码版本的第二部分的一部分组成，以便被复制到一个或多个增强层(L1)中。对于RASL2也是如此。和2)，它们经由时间预测来参考未被复制到一个或多个增强层(L1)中的编码版本的第二部分的一部分所包括的新包含的视频的参考画面。这对于参考P1的RASL2也是真实的，反过来P1在数据流120中不存在，因为它由于在编码顺序中在切换时刻T之前而没有被副本形成器复制。替代可以被即时执行，即，副本形成器实际上可以不执行这些部分的复制，而合成器随后替代它们。相反，替代和非复制可以结合在一起，使得副本形成器预先跳过这些部分的复制。如上所述，通过用从基础层经由层间预测所获得的替代部分的近似来替代刚才所概述的部分来完成替代。

尽管以上没有进一步指出，但是在T处的切换可以由用户输入来触发，例如在用户玩电脑游戏期间等。

因此，在描述了关于图14至图16的第二方面的实施例之后，关于图17再次描述这些优点，图17因此示出了先前关于图13概述的问题的解决方案。具体地说，应用图14的概念，图17表明直接复制切片与GRP结合使用以形成生成的多层参考画面(MLGRP)。这意味着MLGRP将由包含GRP信息(即，移动信息)的若干区块组成，以补偿Rol切换事件(屏幕移动)。对于信息将只包含源于应用于源画面的边界扩展过程的样本而不是使用GRP内容的那些区块，将包括MLGRP切片，其包括对较低层的参考或副本(例如，缩略图)，这将继承这个较低层的正确区域的样本值。该区域可能不仅对应于样本的副本，而且可能需要由在例如数据流120的PPS中定义的经缩放的参考层偏移和参考区域偏移定义的重新采样过程。由此产生的L1 MLGRP画面区域可以被RASL画面用作参考。取决于被RASL画面用作参考的MLGRP的质量，在下一帧内编码画面之前可以不发生持续的明显的解码漂移或仅有微小的解码漂移，然而具有显著的编码效率增益。

仅在Rol切换事件时将MLGRP插入到比特流中，并仅用于后续画面的参考，即，MLGRP不被解码器输出。

就MLGRP比特流约束和性质而言，可做出以下说明。

MLGRP是从输入比特流EL画面和/或直接复制切片合成的SHVC EL画面。在该上下文中复制切片意指通过从较低层的源画面进行层间预测的方式在相同的时刻(完全地或部分地)复制(并且可能地重新采样)较低层的画面内容的切片。

包含在MLGRP中的切片可以不被用作执行时间运动矢量预测(TMVP)的参考。此外，输入EL画面切片可能需要满足如下所述的拼接约束。以下是对[4]中详述的HEVC编码比特流的约束的简要总结，但是类似地应用于多层情况：1)MV约束：MV不应该指向画面边界或子像元样本位置之外的样本，其中编码器侧调用的子像元插值滤波器内核与画面边界重叠。2)预测单元：画面内最右侧的预测单元不应在不存在的TMVP候选的位置处使用与TMVP候选或空间MV候选相对应的MV预测候选。3)环路滤波器：切片段和区块边界(如果存在的话)不应通过诸如去块和SAO滤波器之类的环路滤波器。4)如果需要并激活跨切片和区块的环路滤波器，则应该进一步约束1中的MV约束，使得MV不指向跨切片或子像元样本位置受环路滤波器影响的画面边界或样本位置之外的样本，其中编码器侧调用的子像元插值滤波器内核与画面边界或跨切片受环路滤波器影响的样本重叠。

在具有合适的缩放参考层偏移和参考区域偏移参数的Rol切换(或者调入或者讲话者改变)时，插入用于MLGRP的PPS及其参考可以是MLGRP比特流的进一步特征。参数可以反映当前的区块布局、层次结构和画面尺寸。

在比特流内用信号指示的有价值的信息(例如，SEI消息)是对插入MLGRP的通知。该信息然后可以被高级解码器使用以增加后解码滤波器等级，例如，尽量减少对视觉质量的影响。

因此，综上所述，图14至图17的描述示出了，通过在压缩域或编码域中将视频的真子集复用到合成视频流120的一个或多个增强层中并且用压缩域或编码域中从视频的集合得到的基础层伴随该一个或多个增强层，可以合成表示多个视频的时变子集的构图的视频流，而无需切换由于新并入的视频引起的真子集的影响。基础层中的基本质量的视频集合不需要一贯包含所有视频。相反，该集合可包含基本质量的视频，其易于很快就成为真子集的成员。在数据流120的基础层传送的视频集合的时间变化更容易处理或者以更轻松的方式来处理，因为与针对由上述真子集新包含的视频发生的问题类似的“丢失的参考”问题不涉及基础层，由于基础层不表示要呈现给观看者的数据流120的实际视频内容。只要由数据流120的基础层所显示的视频集合在所述真子集切换时在数据流120的增强层中具有真子集121的新包含视频的缺失参考画面的画面内容的近似就足够了。

可选地，图14示出了，在传送这种全景视图集的视频内容114的情况下，数据流120可以包含由组合器180添加并且对当前由子集121覆盖的全景视图的连续部分加以指示的附加辅助信息或信令180。然后，每个视频将与全景视图的相应部分相关联。这些部分可以如图所示一维地并排分布或二维地分布。真子集121包含与全景视图的彼此相邻的部分相关联的视频，以覆盖从预定时刻之前到预定时刻之后移位的全景视图的连续部分。信令180可以指示全景视图内的连续部分的位置，例如以全景视图的各部分为单位，即，以视频为单位。有趣的是，除了控制来自基础层的层间预测的偏移参数(诸如上述参数p、o^TL和o^BR)之外，信令180可以存在于数据流120中。在编码版本120的第一部分114₁以空间上拼接在一起的方式编码了所有视频116₁、...、116_N的画面以导致显示整个全景视图的全景画面的情况下，信令180将冗余地但更容易地准许访问由子集121覆盖的全景视图的连续部分的位置。然而，如上所述，视频内容的编码版本的第一部分可能已经编码了视频116₁-116_N的时变集合，即，包括所有基础层视频的真子集并至少包括从预定时刻充分向前的时间起新包含的视频的基本质量视频的集合，以如刚才所概述的那样包含参考画面的画面内容，即，至少从被参考画面向前。在后一种情况下，信令180可以成为获得关于全景视图的连续部分的位置的知识的先决条件。

如上面所讨论的，组合器104可以使用上面讨论的使用基础层库(即，视频116的集合/组)的替代方案中的一个或两个，来作为用于处理有关新包含的视频的问题的手段：将多层画面插入数据流120中，这些多层画面在上面的描述中被称为MLGRP，基础层画面以基础质量复制与将被多层非输出画面MLGRP替代的参考画面的时刻一致的时刻处的视频集合，以及增强层画面通过层间预测来复制缺失的新包含的视频的参考画面的画面内容的基本质量近似，因为它属于切换时刻之前的呈现时刻。备选地，由组合器104通过直接经由层间预测从时间上对齐的基础层画面视频集合内容进行复制来替代或合成参考由于属于切换时刻T之前的时刻而丢失的参考画面的新包含的视频画面。例如，组合器104可以以混合的方式使用这两个概念。例如，参见图15和图16。如上所述，已经基于基础层解释了在这些图中用交叉影线示出的插入的非输出画面GRP。通过这个措施，视频11的RASL2画面是用于时间预测的参考基础。然而，自然地，对于交叉影线画面的由基础层导出的画面内容仅仅是实际参考画面的近似替代。因此，只要视频11的时间预测画面的链通过参考画面近似的运动补偿编码变体，就发生漂移。在这种情况下，组合器104可以通过使用MLGRP间歇地执行参考画面替代或者针对新包含的视频的时间预测画面不时地替代新包含的视频本身的这些时间预测画面来避免这种时间预测转发的过长链。也就是说，组合器104可以经由时间预测链，取决于复制到一个或多个增强层L1中的编码版本的第二部分的一部分未包括的新包含的视频的任何参考画面，间歇地重复关于新包含的视频的时间预测画面的替代和/或代替。例如，对于复制到一个或多个增强层(L1)中的编码版本的第二部分的一部分所包括的新包含的视频的一个或多个参考画面，并且经由时间预测链，取决于复制到一个或多个增强层L1中的编码版本的第二部分的一部分未包括的新包含的视频的任何参考画面，可以通过将新包含的视频的画面的任何时间预测重定向到所述一个或多个参考画面来将另外的非输出画面插入到多层视频流中，以便参考所述另外的非输出画面而不是所述一个或多个参考画面，并且基于基础层，经由层间预测，利用所述一个或多个参考画面的近似来填充所述另外的非输出画面。备选地，由编码版本的第二部分的一部分所包括的新包含的视频的另外部分被复制到一个或多个增强层(L1)中以供参考，经由时间预测链，复制到一个或多个增强层(L1)中的编码版本的第二部分的该部分不包括的新包含的视频的参考画面可以直接由来自基础层的经由层间预测的替代部分的近似来替代。

在下文描述本申请的第三方面的实施例之前，应注意的是，除了图1至图17的实施例的描述之外，基础层的数量可以多于一个。例如，视频116₁至116_N的基本质量表示可以在基础层内在分开的层(即，分开的基础层)中传送，对于每个视频，一个基础层，或者对于基础层中当前传送的视频集合中的每个视频，至少一个基础层。

根据下面进一步描述的实施例，生成合成的视频流，以便通过在输出数据流中提供一个或多个视频的存储器并且在时间上在数据流中复用存储器来基于一个或多个视频组成视频内容，以便形成被输出画面穿插的数据流的非输出画面，所述输出画面经由时间预测，基于经由数据流的非输出画面传送的视频内容来形成视频构图，即，在由解码器播放视频时被标记为不被输出同时可供视频流的后续画面参考的画面。这里的问题是：在使用视频作为使用编码画面顺序偏离呈现时间顺序所依据的结构编码的构图的基础的情况下，简单地将合成输出画面放置在形成用于相应输出画面的容器的非输出画面之后导致对将要解码合成的视频数据流的解码器的缓冲器容量的需求增加，如下面更详细地概述的。该问题通过随后解释的实施例来解决。

第三方面的实施例的描述再次从视频比特流插入的简要介绍开始。如[7]中所述的在压缩域中混合给定的视频比特流允许来自压缩视频的多个源的低效合成，而不需要进行完整(或部分)解码和编码循环，即，转码。有许多能够应用这种技术的用例，例如，用于画中画应用、图形用户界面的广告插入或覆盖或其他有用的信息。假设这样一个体育节目，其中实际的运动场景(例如，篮球)在体育节目的视频的画面的顶部或底部被新闻报道叠加。仅使用轻量级语法修改操作，[7]中的方法将n个输入视频比特流混合到公共输出视频比特流中(在空间上或在时间上)，同时抑制各个解码画面内容的解码器输出，并且进一步添加所谓的组合画面(CP)到公共输出比特流(用于解码器输出)。CP使用画面间预测的手段来从n个输入视频比特流的画面(即，CP的相关联的抑制画面)创建构图。还有其他的方法需要将编码画面插入到给定的编码视频比特流中，后续解释的实施例与此相关，以最小化画面缓冲器需求。然而，下面以[7]中详述的方法为例来描述随后描述的实施例的有利方面。

公共输出比特流可理解地向目标视频解码器提出更高的计算需求，除了由n个输入视频流引入的视频数据的解码之外，必须提供附加的计算资源来解码CP。由于HEVC[1](和任何其他视频编解码器标准)的级别定义被设计为服务于少数常见操作点(图像分辨率、帧速率、比特率、画面缓冲存储器)，所以将所描述的方法可能对视频解码器施加的计算复杂度的任何增加最小化是至关重要的。

随后描述的实施例要解决的复杂度负担是由于将合成画面存储在解码器中而造成的画面缓冲存储器需求的增加。随后描述的实施例背后的概念是按输出顺序将构图或输出画面插入到公共输出比特流中，而不管输入比特流的编码画面顺序(或比特流顺序或预测结构)，进而将其复用到公共输出比特流的非输出画面中。合成画面的这种定位减少了在解码器侧能够将其输出之前保持构图所需的附加画面存储器。

作为示例，采用图18中示出的预测结构。这里，两个单向预测(P-)帧仅使用在输出顺序之前的画面(即，帧内编码(I-)帧)来预测信息，从而允许与解码器输出顺序类似的编码顺序，并且不需要保持画面缓冲存储器中的画面用于稍后输出(在按比特流顺序解码和输出画面之后)。

当在上述混合方法的n个输入比特流中使用这样的编码结构时，恰好在相关联的抑制画面之后的CP的插入允许在解码之后立即输出CP，即，与仅包含n个输入比特流的比特流相比，仅需要单个附加画面缓冲器。在图19中示出了仅使用单个(n＝1)输入比特流的结果比特流，其中虚线框表示CP(将被输出)，而(非虚线的)输入比特流画面(将不被输出)将被视频解码器的输出抑制。

由于解码结构变得更加复杂以增加通用编码效率，例如，通过双向预测(B-)帧，编码顺序和输出顺序可能不同，从而需要更多的画面缓冲器来存储在输出之前用作参考的画面，如图20所示，其将编码顺序指示为在每个框的左上角的数字。

因此，以与之前相同的方式将CP添加到这样的比特流(正好在用于合成的比特流中它们的相关联的抑制画面之后)迫使视频解码器在输出之前存储一些CP，尽管这些CP不被用作其他画面的参考。为了避免这个缺点，随后解释的实施例被构造为以与n个混合输入视频比特流相比使画面缓冲器需求的增加减少的方式来插入这些画面。这可以通过将CP以输出顺序添加到比特流来实现，而不管输入比特流的预测结构如何。图21示出了所得的公共输出视频比特流，其中单个(n＝1)输入视频比特流使用分层双向预测结构。

图22示出了根据本申请的第三方面解释的视频流传输装置200，其中装置200接收包含至少一个视频216₁、216₂、...、216_N的视频内容214的编码版本212，其中在图22中示例性地选择N＝3。对于每个视频216_i，编码版本212包括相应部分218_i，其中使用时间预测将相应视频216_i编码到所述相应部分中。在图22中再次使用从参考宿(即，当前使用时间预测编码的画面)指向参考源或参考画面(其中刚提到的时间预测编码画面从其被预测)的弯曲箭头示出了视频216_i的画面之间的时间预测依赖性。图22中的编码顺序箭头指示视频216₁至216₃的画面以它们的顺序编码顺序被示出，然而所述编码顺序偏离了画面的呈现时间顺序，这对于每个视频216_i都是如此。特别地，图22示出了包含三个画面的视频216_i间的时间间隔。在图22中，使用A指示视频216₁的画面。使用B指示视频216₂的画面，并且使用C指示视频216₃的画面。紧接在大写字母后面的数字应将示例性示出的每个视频216_i间的时间间隔内的三个画面区分开。在编码顺序中，画面按照一个数字彼此相继，例如A1、A2、A3。在呈现时间顺序中，这些画面之间的顺序不同：根据呈现时间顺序，画面A3位于画面A1和A2之间。图22示例性地假设所有视频216_i具有相同的时间相关性结构，并且相应地刚刚提及的画面的编码顺序和呈现顺序之间的差异对于所有视频216_i都是如此。另外应注意的是，如果视频内容214中的视频216_i的数量(即，N)将仅为1，则图22的装置200的有利方面也将是有效的。一般来说，N可以是任何数字。刚刚提到的视频216_i正在使用的GOP结构可以是开放式或封闭式GOP结构。类似于上面关于图1和图14描述的实施例的描述，部分218_i可以是一起形成编码版本212的各个数据流。为了便于解释，视频216_i被显示为单层视频，但是多层视频或者单层视频和多层视频的混合也是可行的。

在内部，视频流传输装置200包括副本形成器222和合成器224。关于实施可能性，上面关于图1所作的陈述是成立的。也就是说，可以使用具有相应实现的模块222和224的硬件、可编程硬件或软件来实现装置200。

视频流传输装置被配置为组合编码版本212中的视频流220，并且为此，副本形成器222形成数据流220的非输出部分，同时合成器224通过将输出画面插入到至少部分地经由来自非输出部分的时间预测所导出的数据流220中来合成视频内容214的实际构图。在这样做的时候，视频流传输装置200相对于图18至图21起着动力的作用，即，输出画面被插入到数据流220中，使得按照呈现时间顺序将输出画面布置在数据流220中。

图22示出了副本形成器220和合成器224之间的合作的三个替代方案。然而，应清楚的是，甚至图22中所示和图22中使用罗马数字I至III来区分的这三个替代方案也仅仅形成了图22的装置200下的有利概念可以如何实施的可能性的子集。

根据图22中所示的所有替代方案，数据流220的存取单元或画面是非输出类型的，即是数据流220的非输出部分的一部分，所述存取单元或画面是包含以实线使用A1至C3指示的画面内容的单元或画面。由合成器224产生的非输出画面，即插入到散布在数据流220的非输出部分的非输出画面之间的数据流220中的非输出画面，使用“CP#”来指示，并且有时所插入的输出画面是在从属层或下层中包括副本画面的多层输出画面，所述副本画面经由时间预测来复制具有以虚线使用A1至B3所指示的复制的图像部分所指示的情况的任何非输出画面。在图22所示的替代方案I至III中，作为构建数据流220的可能性，数据流220的画面沿着编码顺序依次排序，再次如使用标题为“编码顺序”的相应箭头所示。

根据替代方案I，副本形成器222以与图15a所示的多层输出数据流的增强层的形成类似的方式(即，通过将视频216i复用到数据流220的画面在空间上被细分成的各个区块上)形成数据流220的非输出部分，即，数据流220的非输出画面。也就是说，根据替代方案I，数据流220的画面例如在空间上被细分成N个区块，每个区块与N个视频2161至216N中的相应一个相关联，其中在图22中示出并且示例性地选择N＝3。由于区块细分，编码顺序逐个区块地遍历数据流220的画面，并且相应地，由于区块和视频之间的1∶1关联，逐个视频地进行遍历。因此，副本形成器222能够填充压缩域或编码域中的非输出画面的区块。以上关于图1和图14给出了这方面的细节，例如，对于副本形成器222，所述细节也是有效的。在数据流220内，因此由视频216_i的画面的画面内容填充的画面被指示为不被输出。

根据替代方案I，合成器224负责在这些空间拼接的非输出画面(即，通过在空间上拼接输入视频216_i的画面的画面内容所组成的画面)之间散布输出画面。这些输出画面合成将通过输出数据流220传送的视频内容的实际构图。为此，合成器224至少部分地通过使用来自非输出画面的时间预测来对这些输出画面进行编码。根据图22中所示的实施例，每个输出画面CP#专门使用非输出画面之一作为时间参考画面的基础。因此，图22中的“CP”之后的数字应注释非输出画面，其中使用时间预测(即，从包含画面内容A#、B#和C#的非输出画面)来至少部分地构造或合成相应输出画面CP#的画面内容。合成器224因此可以例如使用块对画面或输出画面CP1进行编码，其中所有块或其连续群集平移复制非输出画面A1至C1的相应部分。可以由合成器224使用例如帧内预测或者不利用预测来对画面CP1的其他块进行编码。为了节省比特率，可以使用跳过模式对一些块进行编码，从而将运动矢量用于来自空间相邻块的时间预测，而不需要对任何残差数据进行编码。也相对于其他两个方面的实施例对此进行了描述，并且对于其他两个方面的这些实施例也是如此。以这种方式，合成器224还将输出画面CP2和CP3插入到数据流220中。然而，这些输出画面间的顺序被选择为遵循呈现时间顺序，即，输出画面根据CP1、CP3和CP2在数据流220中顺序地排序。这些画面被插入到数据流220中，使得输出画面CPx的各个被参考的非输出画面x根据数据流220中的编码顺序在相应的输出画面CPx之前。这在图22中示出。

图22中所示的其他两个替代方案揭示了副本形成器220可以以不同于将这些视频复用到非输出画面的空间相邻区块上的方式将视频216_i复用到数据流220的非输出部分中。例如，副本形成器220可以替代地使用时间复用。根据替代方案II，例如，副本形成器220根据A1、B1、C1、A2、B2、C3、A3、B3、C3...将输入视频的画面复用到数据流220中。也就是说，将N个入站视频的画面复制到数据流220的非输出画面序列中，然后按照编码顺序将入站视频的接下来的画面顺序地分配到数据流220的非输出画面的后续子序列上，因此由副本形成器220填充的子序列不被交织。然而，副本形成器222注意到，在将入站视频的画面复用到数据流222的非输出画面上时，维持每个视频的画面之间的时间预测相互依赖性。副本形成器222可以执行压缩域或编码域中的非输出画面的填充。合成器将输出画面插入刚刚提及的属于一个存取单元或画面计数的非输出画面的子序列之间，即，{A1，B1，C1}、{A2，B2，C2}和{A3，B3，C3}中的任何一个。该插入和构造按照替代方案I进行：也就是说，进行该插入，使得输出画面根据呈现时间顺序(CP1在CP3之前，CP3在CP2之前)在数据流220中顺序地排序。此外，在编码顺序中，每个输出画面在数据流220内跟随非输出画面的相应子序列，其中就时间预测而言，相应的输出画面被排他性地进行时间预测。

替代方案III示出了对于副本形成器222将入站视频216_i复用到数据流220的不同层L0到L2上，即，利用合成器224将其在多层输出画面之间插入的多层非输出画面，甚至是可行的。例如，层L0与视频之一相关联，层L1与另一视频相关联，等等。在数据流220的非最高层(即，图22的实施例中的L0和L1)中，输出多层画面使用时间预测(零运动矢量)复制相关联的多层非输出画面的内容，而图22中的最高层L2在多层输出画面内携带实际合成的视频构图，即它们携带输出画面CP#。后者由合成器224使用例如相同的多层输出画面的较低层的经时间预测/复制的内容的层间预测以及来自相关联的多层非输出画面的时间预测/复制来构造。例如，合成器224使用来自相同的多层输出画面的较低层画面的时间预测/复制来合成画面CP2中的组合视频内容，从而继承画面B2和A2的画面内容，并且使用来自关于画面计数3的多层非输出画面的最高层的时间预测来合成画面CP2中的组合视频内容，从而继承画面C2的画面内容。

虽然已经在装置的上下文中描述了一些方面，但是清楚的是，这些方面还表示对应方法的描述，其中，块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对对应块或者对应装置的项或特征的描述。可以由(或使用)硬件装置(诸如，微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中，可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现，该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机(例如，以电子方式或以光学方式)传输计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。

本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是：本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文实施例的描述和解释所给出的具体细节来限制。

参考文献

[1]Sullivan，Gary J.，et al.″Overview of the high efficiency VideoCoding(HEVC)standard.″Circuits and Systems for Video Technology，IEEETransactions on 22.12(2012)：1649-1668.

[2]Sanchez，Y.，et al.“Video Compositing”，WO Patent App.PCT/EP2014/067757.

[3]Eleftheriadis，A.，et al.″System and method for videoconferencingusing scalable video Coding and compositing scalable video conferencingservers.″U.S.Patent No.8,436,889.7May 2013.

[4]Sanchez，Y.，et al.″Low complexity cloud-video-mixing using HEVC.″Consumer Communications and Networking Conference(CCNC)，2014IEEE 11th.IEEE，2014.

[5]Grunheit，C.，et.al.″Efficient representation and interactivestreaming of high-resolution panoramic views.″，ImageProcessing.2002.Proceedings.2002International Conference on.Vol.3.IEEE，2002.

[6]A.Fujibayashi，TK Tan(NTT DOCOMO)，“Random access support for HEVC”，JCTVC-D234，4th JCT-VC Meeting，Daegu，January 2011.

[7]Skupin，R.，et al.“Compressed Domain Video Compositing with HEVC”，Picture Coding Symposium(PCS)，2015IEEE31th.IEEE，2015.

Claims

1.一种视频流传输装置(10)，用于从包含一个或多个视频(16)的视频内容(14)的编码版本(12)中合成视频流(20)，所述编码版本包括对于每个视频的该相应视频(16)被编码成的部分(18)；所述视频流传输装置被配置为通过以下操作将所述视频流(20)形成为多层数据流：

通过从所述视频内容(14)的编码版本(12)进行复制来形成所述多层数据流的一个或多个层的集合(26)；以及

使用来自所述一个或多个层的集合(26)的至少一部分的层间预测，在所述多层数据流的预定层的画面的至少一部分中合成至少一个视频(16)的构图。

2.根据权利要求1所述的视频流传输装置，其中，所述视频内容的编码版本由每个视频的一个单独的视频数据流组成。

3.根据权利要求1或2所述的视频流传输装置，其中，所述至少一个视频中的至少一个视频的所述部分以分层的方式编码了相应的视频。

4.根据权利要求1至3中任一项所述的视频流传输装置，其中，所述视频流传输装置被配置为仅从所述编码版本的一个部分形成所述一个或多个层的集合(26)的每个层，并且如果所述一个部分已经以分层的方式编码了相应的视频，则仅从所述一个部分的一个层形成所述一个或多个层的集合(26)的每个层。

5.根据权利要求1至4中任一项所述的视频流传输装置，其中，所述视频流传输装置被配置为从所述视频内容的编码版本复制运动补偿参数和残差数据。

6.根据权利要求1至5中任一项所述的视频流传输装置，其中，所述视频流传输装置被配置为向所述多层数据流提供偏移参数，所述偏移参数指示所述预定层的画面的所述部分相对于被参考部分的位置的偏移，其中通过层间预测从所述被参考部分合成所述预定层的画面的所述部分。

7.根据前述权利要求中任一项所述的视频流传输装置，其中，所述一个或多个层的集合的数量超过两个，并且所述视频流传输装置被配置为使得所述预定层是所述一个或多个层的集合中的一个，并且所述预定层的画面的所述部分在空间上邻近通过从所述视频内容的编码版本进行复制而形成的所述预定层的画面的另一部分。

8.根据权利要求1至6中任一项所述的视频流传输装置，其中，所述视频流传输装置被配置为使得所述预定层与所述一个或多个层的集合分离，并相对于所述一个或多个层的集合形成较高层。

9.一种视频会议系统，包括根据权利要求1至9中任一项所述的视频流传输装置，其中，每个视频属于视频会议的相应参与者。

10.一种视频流传输装置(100)，包括：

输入(102)，用于接收视频内容(114)的编码版本(112)，所述视频内容的编码版本(112)包括以基本质量编码了视频集合(116₁-116_N)的第一部分(114₁)以及以增强的质量编码了视频的第二部分(114₂)；以及

组合器(104)，被配置为以增强的质量组合对视频(116)的子集(121)的构图加以表示的视频流(120)，使得所述视频流(120)是多层视频流，其中，所述组合器被配置为通过从所述视频内容(114)的编码版本(112)的第一部分(114₁)进行复制来形成所述多层视频流的一个或多个基础层(L0)，并且通过将与所述视频的子集相关的所述视频内容(114)的编码版本(112)的第二部分(114₂)的一部分复制到一个或多个增强层(L1)来形成所述多层视频流的一个或多个增强层(L1)，其中所述组合器(104)支持所述子集(121)在预定时刻的改变，使得所述子集(121)通过以下操作新包含在所述预定时刻之前所述子集(121)未包括的视频(116)或者新包含的视频：

通过以下操作将复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分未包括的新包含的视频的参考画面替代为替代画面，其中所述参考画面经由运动预测被复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分包括的新包含的视频的参考画面所参考：将所述替代画面插入到所述多层视频流中，将参考画面的时间预测重定向以参考所述替代画面并且基于所述基础层、经由层间预测用参考画面的近似来填充所述替代画面；或者

从所述基础层，经由层间预测将所述编码版本的第二部分的所述部分所包括的以被复制到所述一个或多个增强层(L1)中的新包含的视频的部分替代为被替代部分的近似，其中所述一个或多个增强层(L1)经由时间预测来参考复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分未包括的新包含的视频的参考画面。

11.根据权利要求10所述的视频流传输装置，其中，所述替代画面是被标记为在播放所述视频流(120)时不输出的非输出画面。

12.根据权利要求10所述的视频流传输装置，其中，所述被参考画面是在所述预定时刻之前按照呈现顺序的最后一个，并且所述替代画面是被标记为在播放所述视频流(120)时输出的输出画面。

13.根据权利要求10所述的视频流传输装置，其中，所述组合器被配置为：针对与所述预定时刻之前的呈现时刻相关并且复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分未包括的新包含的视频的每个画面，以将相应被参考画面替代为从所述基础层的相应部分通过层间预测编码的参考画面的方式，在所述多层视频流中插入替代画面，其中根据所述视频内容的编码版本，所述新包含的视频的每个画面经由时间预测被与所述预定时刻之后的呈现时刻相关的新包含的视频的任何画面所参考。

14.根据权利要求10所述的视频流传输装置，其中，所述组合器(104)被配置为：在所述多层视频流中，通过使用来自所述基础层的相应部分的层间预测的编码来替代新包含的视频的每个部分，其中所述新包含的视频通过根据所述视频内容的编码版本的时间预测来参考与在所述预定时刻之前的呈现时刻相关的新包含的视频的任何画面。

15.根据权利要求10至14中任一项所述的视频流传输装置，其中，所述视频内容的编码版本的第二部分由每个视频的一个视频数据流组成。

16.根据权利要求10至15中任一项所述的视频流传输装置，其中，所述视频内容的编码版本的第一部分包括如下视频数据流：所述视频数据流已经以在空间上拼接在一起的方式编码了视频的画面。

17.根据权利要求10至15中任一项所述的视频流传输装置，其中，所述视频内容的编码版本的第一部分由每个视频的一个视频数据流组成。

18.根据权利要求10至17中任一项所述的视频流传输装置，其中，每个视频与全景视图的相应部分相关联，并且组合器被配置为使得所述子集包含与全景视图的彼此相邻的部分相关联的视频，以覆盖从所述预定时刻之前到所述预定时刻之后移位的全景视图的连续部分。

19.根据权利要求18所述的视频流传输装置，其中，所述编码版本的第一部分已经以在空间上拼接在一起的方式编码了视频的画面，以导致显示所述全景视图的全景画面。

20.根据权利要求18或19所述的视频流传输装置，其中，所述视频内容的编码版本的第一部分已经编码了视频(116₁-116_N)的时变集合，所述视频(116₁-116_N)的时变集合包括所述子集并且包括充分在所述预定时刻之前的新包含的视频以包含被参考画面的画面内容。

21.根据权利要求10至20中任一项所述的视频流传输装置，其中，所述组合器(104)被配置为：把来自所述第一部分的运动补偿预测参数和残差数据复制到所述基础层中。

22.根据权利要求10至21中任一项所述的视频流传输装置，其中，所述组合器(104)被配置为：把来自所述视频内容的编码版本的第二部分的所述部分的运动补偿预测参数和残差数据复制到所述一个或多个增强层中。

23.根据权利要求10至22中任一项所述的视频流传输装置，其中，所述组合器(104)被配置为使得所述一个或多个增强层的数量为一。

24.根据权利要求10至23中任一项所述的视频流传输装置，其中，在所述预定时刻之前和之后，由所述子集(121)包含至少一个视频，根据所述预定时刻之前和之后的构图改变所述至少一个视频的位置，其中所述组合器(104)被配置为：用所述替代画面或从所述至少一个视频的被替代的参考画面通过时间预测编码和填充以考虑到位置改变的另外的替代画面来替代所述至少一个视频的属于所述预定时刻之前的呈现时刻的参考画面，其中所述参考画面被所述至少一个视频的属于所述预定时刻之后的呈现时刻的参考画面所参考。

25.根据权利要求19至22中任一项所述的视频流传输装置，其中，所述组合器(104)被配置为使得所述一个或多个增强层的数量大于一，并且所述组合器被配置为通过从较低增强层的集合进行复制来导出所述一个或多个增强层中的复制增强层的集合，并且通过从所述复制增强层的集合使用层间预测合成所述视频子集的构图来导出所述多层数据流的预定层。

26.根据权利要求25所述的视频流传输装置，其中，所述预定层与所述复制增强层的集合分离并且高于所述复制增强层的集合，或者所述预定增强层是所述复制增强层的集合中的最高层。

27.根据权利要求25或26所述的视频流传输装置，其中，所述组合器(104)被配置为导出所述复制增强层的集合，使得每个复制增强层排他地与所述视频的子集中的一个相关联，并且被配置为使得所述视频的子集的视频的数量在所述预定时刻之前和之后保持恒定。

28.根据权利要求10至27中任一项所述的视频流传输装置，其中，所述组合器(104)被配置为：针对在所述预定时刻之前和之后是所述子集的成员的那些视频，在所述预定时刻之前和之后维持一方面所述视频子集的任何视频与另一方面所述复制增强层的集合之间的关联。

29.根据权利要求10至28中任一项所述的视频流传输装置，其中，所述组合器(104)被配置为：经由时间预测链，根据复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分未包括的新包含的视频的任何参考画面，间歇地重复关于所述新包含的视频的时间预测画面的替代和/或代替。

30.根据权利要求29所述的视频流传输装置，其中，所述组合器(104)被配置为通过以下操作间歇地重复所述替代：

针对复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分所包括的新包含的视频的一个或多个参考画面，并且经由时间预测链，根据复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分未包括的新包含的视频的任何参考画面，将非输出画面插入到所述多层视频流中，将通过新包含的视频的画面的任何时间预测重定向到一个或多个被参考画面，以参考所述非输出画面，并且基于所述基础层、经由层间预测来利用所述一个或多个参考画面的近似来填充所述非输出画面。

31.根据权利要求29所述的视频流传输装置，其中，所述组合器(104)被配置为通过以下操作间歇地重复所述替代：

从所述基础层经由层间预测将所述编码版本的第二部分的所述部分所包括的以被复制到所述一个或多个增强层(L1)中的新包含的视频的另外部分替代为被替代部分的近似，其中所述一个或多个增强层(L1)经由时间预测链来参考复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分未包括的新包含的视频的参考画面。

32.根据权利要求10至31中任一项所述的视频流传输装置，其中，所述视频内容的编码版本的第二部分已经以使得编码画面顺序偏离呈现时间顺序的方式编码了所述视频。

33.一种视频流传输装置(200)，用于从视频内容(214)的编码版本(212)中合成视频流(220)，所述视频内容的编码版本包括：对于至少一个视频(216)中的每一个，使用时间预测并且使用偏离呈现时间顺序的编码画面顺序将相应视频(216)编码成的部分(218)；所述视频流传输装置被配置为通过以下操作形成所述视频流：

通过从所述内容的编码版本进行复制来形成所述数据流(220)的非输出部分；以及

通过将通过时间预测从所述非输出部分中复制的输出画面插入到数据流中，合成所述视频内容的构图，

其中，所述视频流传输装置被配置为：将所述输出画面插入所述数据流中，使得所述输出画面按照呈现时间顺序布置在数据流中。

34.根据权利要求33所述的视频流传输装置，其中，所述至少一个视频的数量大于一，并且所述视频流传输装置被配置为将所述编码版本的所述部分复用到所述数据流的非输出画面的空间区块中。

35.根据权利要求33所述的视频流传输装置，其中，所述至少一个视频的数量大于一，并且所述视频流传输装置被配置为将所述编码版本的所述部分复用到所述数据流的非输出画面的层中。

36.根据权利要求33所述的视频流传输装置，其中，所述至少一个视频的数量大于一，并且所述视频流传输装置被配置为将所述编码版本的所述部分在时间上复用到所述数据流的不同非输出画面中。

37.根据权利要求33至36中任一项所述的视频流传输装置，其中，所述编码画面顺序与所述呈现时间顺序的偏离是由编码有所述至少一个视频的所述编码版本的所述部分的双向预测画面或开放GOP结构引起的。

38.根据权利要求33至37中任一项所述的视频流传输装置，其中，所述视频流传输装置被配置为：通过在压缩域或编码域中从所述视频内容的编码版本进行复制来执行所述非输出部分的形成。

39.一种根据包含一个或多个视频(16)的视频内容(14)的编码版本(12)而组成的视频流(20)，所述编码版本包括针对每个视频的该相应视频(16)被编码成的部分(18)，所述视频流是多层数据流，所述视频流包括：

通过从所述视频内容(14)的编码版本(12)进行复制而形成的一个或多个层的集合(26)；以及

包括如下部分的预定层：使用来自所述一个或多个层的集合(26)的至少一部分的层间预测，将所述至少一个视频(16)的构图合成到所述部分中。

40.一种根据视频内容的编码版本(112)而组成的视频流，所述视频内容的编码版本包括以基础质量编码了视频集合(116₁-116_N)的第一部分(114₁)和以增强的质量编码了所述视频的第二部分(114₂)，所述视频流

是多层视频流；

表示以增强的质量的视频(116)的子集(121)的构图；

包括通过从所述视频内容(114)的编码版本(112)的第一部分(114₁)进行复制而形成的一个或多个基础层(L0)；以及

包括通过将与所述视频的子集相关的所述视频内容(114)的编码版本(112)的第二部分(114₂)的一部分复制到一个或多个增强层(L1)中而形成的一个或多个增强层(L1)，

其中，在预定时刻发生所述子集(121)的改变，使得所述子集(121)通过以下操作新包含在所述预定时刻之前未被所述子集(121)包含的视频(116)或新包含的视频：

用替代画面替代复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分未包括的新包含的视频的参考画面，其中所述参考画面经由运动预测被复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分包括的新包含的视频的参考画面所参考，将参考画面的时间预测重定向以参考所述替代画面，并且基于所述基础层，通过层间预测、用参考画面的近似来填充所述替代画面；或者

41.根据权利要求40所述的视频流，其中，所述替代画面是被标记为在播放所述视频流(120)时不输出的非输出画面。

42.根据权利要求40所述的视频流，其中，所述被参考画面是在所述预定时刻之前按照呈现顺序的最后一个，并且所述替代画面是被标记为在播放所述视频流(120)时输出的输出画面。

43.根据权利要求40至42中任一项所述的视频流，其中，每个视频与全景视图的相应部分相关联，并且所述子集包含与全景视图的彼此相邻的部分相关联的视频，以覆盖从所述预定时刻之前到所述预定时刻之后移位的全景视图的连续部分。

44.根据权利要求43所述的视频流，其中，所述编码版本的第一部分已经以在空间上拼接在一起的方式编码了所述视频的画面，以导致显示所述全景视图的全景画面。

45.根据权利要求43或44所述的视频流，其中，所述视频内容的编码版本的第一部分已经编码了视频(116₁-116_N)的时变集合，所述视频(116₁-116_N)的时变集合包括所述子集并且包括充分在所述预定时刻之前的新包含的视频的以包含被参考画面的画面内容。

46.根据权利要求43至45中任一项所述的视频流，还包括：指示所述全景视图内的所述连续部分的位置的信令。

47.根据权利要求46所述的视频流，其中，除了控制来自所述基础层的层间预测的偏移参数之外，所述信令也存在于所述数据流中。

48.一种根据视频内容(214)的编码版本(212)而组成的视频流，所述视频内容的编码版本包括：对于至少一个视频(216)中的每一个，使用时间预测并且使用偏离呈现时间顺序的编码画面顺序将相应视频(216)编码成的部分(218)：所述视频流包括：

通过从所述内容的编码版本进行复制而形成的所述数据流(220)的非输出部分；以及

插入到数据流中的、通过时间预测从所述非输出部分复制的输出画面，以合成所述视频内容的构图，

其中，所述输出画面被插入到所述数据流中，使得所述输出画面按照呈现时间顺序布置在数据流中。

49.一种包括多个层和信令的视频流，所述信令指示不在最高层TMVP中使用的视频流的多层画面，或者指示不在任何层TMVP中使用的视频流的多层画面。

50.根据权利要求49所述的视频流，其中，除了所述信令之外，还包括另外的信令，所述另外的信令指示不使用运动补偿时间预测编码的视频流的多层画面。

51.根据权利要求49或50所述的视频流，其中，除了所述信令之外，还包括又一另外的信令，所述又一另外的信令指示：针对未被指示为在最高层TMVP中不使用的视频流的多层画面中的至少每一个，按照编码顺序在视频流的多层画面中测量的在最高层TMVP中未使用编码的视频流的下一个多层画面有多远。

52.根据权利要求49至51中任一项所述的视频流，其中，所述视频流根据权利要求40至48中的任一项形成。

53.一种视频流传输方法(10)，用于从包含一个或多个视频(16)的视频内容(14)的编码版本(12)中合成视频流(20)，所述编码版本包括对于每个视频的该相应视频(16)被编码成的部分(18)，所述视频流传输包括通过以下操作将所述视频流(20)形成为多层数据流：

54.一种视频流传输方法(100)，包括：

接收视频内容(114)的编码版本(112)，所述视频内容的编码版本(112)包括以基本质量编码了视频集合(116₁-116_N)的第一部分(114₁)以及以增强的质量编码了所述视频的第二部分(114₂)；以及

以增强的质量组合对视频(116)的子集(121)的构图加以表示的视频流(120)，使得所述视频流(120)是多层视频流，其中，所述组合包括：通过从所述视频内容(114)的编码版本(112)的第一部分(114₁)进行复制而形成的所述多层视频流的一个或多个基础层(L0)，以及通过将与所述视频的子集相关的所述视频内容(114)的编码版本(112)的第二部分(114₂)的一部分复制到一个或多个增强层(L1)中而形成的所述多层视频流的一个或多个增强层(L1)，其中通过以下操作执行所述子集(121)在预定时刻的改变，使得所述子集(121)新包含在所述预定时刻之前所述子集(121)未包括的视频(116)或者新包含的视频：

通过以下操作将复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分未包括的新包含的视频的参考画面替代为替代画面，其中所述参考画面经由运动预测被复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分包括的新包含的视频的参考画面所参考：将所述替代画面插入到所述多层视频流中，将参考画面的时间预测重定向以参考所述替代画面并且基于所述基础层、通过层间预测用参考画面的近似来填充所述替代画面；或者

从所述基础层经由层间预测将所述编码版本的第二部分的所述部分所包括的以被复制到所述一个或多个增强层(L1)中的新包含的视频的部分替代为被替代部分的近似，其中所述一个或多个增强层(L1)经由时间预测来参考复制到所述一个或多个增强层(L1)中的所述编码版本的第二部分的所述部分未包括的新包含的视频的参考画面。

55.一种视频流传输方法(200)，用于从视频内容(214)的编码版本(212)中合成视频流(220)，所述视频内容的编码版本包括：对于至少一个视频(216)中的每一个，使用时间预测并且使用偏离呈现时间顺序的编码画面顺序将相应视频(216)编码成的部分(218)，所述视频流传输方法包括通过以下操作形成所述视频流：

通过将通过时间预测从所述非输出部分复制的输出画面插入到数据流中来合成所述视频内容的构图，

56.一种具有程序代码的计算机程序，所述程序代码用于当在计算机上运行时执行根据权利要求53至55中任一项所述的方法。