CN103404140A

CN103404140A - 指示比特流子集

Info

Publication number: CN103404140A
Application number: CN2012800058849A
Authority: CN
Inventors: 托马斯·卢瑟; 巫壮飞; 理卡尔德·肖伯格
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2011-01-19
Filing date: 2012-01-19
Publication date: 2013-11-20
Anticipated expiration: 2032-01-19
Also published as: SG191748A1; EP2666296A4; CN103404140B; EP2666296A1; MA34944B1; US20130287123A1; US9485287B2; KR20130119479A; ZA201304569B; JP2014509114A; WO2012099529A1; JP5553945B2; US9143783B2; KR101560956B1; US20160099988A1

Abstract

本发明提供了一种指示视频比特流(210)中的比特流子集的方法。所述方法包括：接收比特流；将比特流划分为视频分组(211-216)，其中每个分组包括视频数据或补充信息中的任一个；以及利用单一子集标识符(stream_id)来标记每个分组。每个子集标识符与对应比特流子集(221-223)相关联。此外，本发明提供了一种从视频比特流中提取视频分组的方法。所述方法包括：提供相关子集标识符；从比特流接收视频分组；以及针对每个接收的分组，检查分组的子集标识符。在子集标识符与相关子集标识符之一匹配的情况下提取分组。这允许将比特流子集的属性浓缩入单一标识符，从而简化网络中和客户端侧的视频分组的处理。此外，提供了与上述方法相对应的设备。

Description

指示比特流子集

技术领域

本发明涉及用于指示压缩视频比特流中的比特流子集的方法和设备，以及用于从压缩视频比特流中提取视频分组的方法和设备。本发明还涉及计算机程序和计算机程序产品。

背景技术

H.264，也称为MPEG-4/高级视频编码(AVC)，是当前现有视频编码标准。它是一种混合编解码器，利用消除每个视频帧内以及帧间的冗余的优点。编码过程的输出是视频编码层(VCL)数据，VCL数据被进一步封装入网络抽象层(NAL)单元，然后进行传输和存储。除了视频数据之外，NAL单元中可以承载的其他数据包括参数集，如序列参数集(SPS)和画面参数集(PPS)，承载解码VCL数据所必需的数据，如视频分辨率或所需解码器能力)；或补充增强信息(SEI)，承载可用于解码器或网络单元但不是解码VCL数据所必需的信息。

NAL被设计为针对多种系统实现VCL的简单、有效和灵活的使用，以传输和存储视频数据，如通过实时传输协议(RTP)或超文本传输协议(HTTP)的传输或在ISO文件格式中的存储。NAL单元概念要提供针对网络(即传输和存储系统)的手段，以通过将比特流分为逻辑单元来访问、组合和操纵压缩比特流。例如，与一个压缩画面相对应的单元增加有高级信息，向网络指示是否可以使用编码画面作为随机访问点来开始解码压缩视频。

NAL是H.264/AVC视频的最小功能单元。NAL单元可以再分为NAL单元首部和NAL单元净荷。NAL单元首部由网络可以用于管理压缩比特流的标识符的集合组成。例如，为了在有限带宽情况下降低视频的传输比特率，可以基于NAL单元首部中承载的信息，丢弃一些NAL单元，以最小化丢弃视频数据所导致的质量退化。该过程表示为“比特流稀释”。

尽管传统视频服务以单一表示来提供视频，即使用固定摄像机位置和空间分辨率，但是多分辨率和多视图视频表示近来已经变得重要。多分辨率表示以多个不同空间分辨率来表示视频，以服务具有不同显示分辨率的目标设备。多视图表示表示来自不同摄像机视角的内容，一种特定情况是立体视频情况，其中利用类似于人眼的具有一定距离的两个摄像机来捕捉场景。使用合适的显示技术，可以向观看者提供深度的感知。

多分辨率和多视图视频表示通常称为层级或分层表示，其中基本层表示视频的基本质量，连续增强层将表示向更高质量修正。

可缩放视频编码(SVC)和多视图视频编码(MVC)分别是可以用于压缩多分辨率和多视图视频表示的视频编码标准，其中，通过消除不同层之间的冗余信息来实现高压缩效率。SVC和MVC基于AVC标准，并包括在AVC的较晚版本中作为附录G和H，因此共享大多数AVC结构。

SVC和MVC比特流固有的层级依赖性需要NAL单元首部中的附加信息字段，如解码依赖性和视图标识符。然而，为了保持与现有AVC实现的兼容性，基本AVC NAL单元首部未改变。而是通过引入两种新类型的NAL单元，即前缀NAL单元(类型14)和编码片扩展NAL单元(类型20)，来并入额外信息，如依赖性和视图标识符，两种新类型的NAL单元在AVC中定义为“未使用”从而被不支持规范的附录G或H的AVC解码器所忽略。

前缀NAL单元可以与VCL AVC NAL单元相关联，VCL AVC NAL单元应在比特流中紧随前缀NAL单元之后，传递与基本层相关的附加信息。AVC解码器将忽略前缀NAL单元，从而可以解码基本层。

编码片扩展NAL单元仅用于SVC或MVC增强层。它表示与基本层或其他增强层相关的增强信息。除了如前缀NAL单元中传递依赖性和视图标识符之外，编码片扩展NAL单元由SVC或MVC NAL单元首部以及对应的VCL数据组成。因此，它是前缀NAL单元和VCL AVCNAL单元的组合。SVC和MVC增强层NAL单元将被AVC解码器所忽略。

以类似方式定义AVC的SVC和MVC扩展。它们的使用是互斥的，即标准中定义的语法和语义部分冲突，并且不允许同时使用SVC和MVC元素。将来自SVC和MVC的特征组合将需要改变标准，尤其是NAL单元首部的定义。

HEVC是当前正在标准化中的下一代视频编码标准。HEVC旨在与AVC相比实质上改进编码，尤其是对于高分辨率视频序列。

在高级语法设计方面，最直接的方法是采用AVC高级语法的概念，具体为AVC NAL单元概念。然而，这可能具有以下问题。

根据现有技术，SVC和MVC是以后向兼容方式根据AVC构建的。新的NAL单元类型20是利用可以用于任何增强层的首部扩展来设计的。为了解决传统AVC解码器问题，保持原NAL单元(类型1、类型5和其他类型)，并且针对每个普通AVC VCLNAL单元(类型1和类型5)使用前缀NAL单元关联方法。尽管该方法可以原则上用于HEVC及其后续扩展，但是其具有与其相关联的以下问题。

-引入新特征或功能需要定义新的NAL单元类型，例如编码片扩展NAL单元。这可能是不利的，因为NAL单元类型的最大数目典型是受限的，例如受限于NAL单元类型字段的定义长度。

-为了考虑传统解码器，必须利用具有前缀NAL单元的传统NAL单元来创建基本层，这导致应当设计第二新NAL单元类型，从而进一步增加NAL单元类型的数目。

-基本层和增强层的信令不统一，需要针对每个层通过网络进行特殊处理，导致复杂实现。使用前缀NAL单元是不自然的，仅提供了必要的首部信息与对应的VCL数据之间的较弱联系。如果例如NAL单元之一在传输中丢失，则该联系容易破坏。

-在将来扩展的情况下，前缀NAL单元的嵌套复杂。

-通过附加NAL单元首部来扩展高级接口，每次扩展NAL单元首部时，要基于NAL单元首部中传递的信息来处理NAL单元的网络功能必须更新。

与当前现有AVC概念相关联的其他问题涉及分层表示。当前在SVC和MVC中，与层属性相关的所有标记，如view_id、dependency_id和quality_id仅仅被放入NAL单元首部，而没有任何智能选择或分类。这需要接收比特流的客户端具有关于标记定义的详细知识，例如，如果客户端想要删减或操纵比特流。基本上，客户端需要完全理解每个标记的含义以及其如何相关。可能容易采取错误的动作，例如当需要从多视图比特流中提取一个视图时，如果其所依赖的视图未被包括，或者在客户端仅考虑view_id标记的情况下选择低质量版本。即使具有来自SEI元素的某种辅助，仍可能出现以下情况：网络要找到并理解从分层比特流中提取特定视频表示所需的所有必要信息是非常复杂的。

此外，随着越来越多应用和标准覆盖3D，新的数据元素，如深度图和遮挡图，将与纹理一起传输，允许在接收端更灵活地呈现输出视图。由于这些元素与(多视图或可缩放)“纹理”视频一起形成分层表示，可能期望在相同比特流中传输全部。可以备选地通过更高系统级的信令来实现这种不同数据元素的捆绑，如传输协议或文件格式。然而，由于这种高级协议的软件和硬件实现通常与视频解压缩的实现分离，如果在比特流级不支持，则不同数据元素的精确时间同步(如纹理与深度的同步)可能非常复杂。注意，不同视频数据元素(如纹理和深度)的同步必须比视频和音频的同步更严密得多，因为不同视频元素必须帧对齐。此外，视频元素(如纹理和深度)可能一起压缩，例如通过重用其间的运动信息(“运动向量”)，这需要比特流级的严密耦合。

HEVC开发的初始焦点在于单视频。然而，向可缩放编码和/或多视图编码的后续扩展是可能的。还可能使用类似于AVC中的NAL单元概念的分组化概念。因此，以下尽管所提出的方法主要适用于如HEVC的未来视频编码标准，但是在与AVC中定义的相同意义上使用术语“NAL”单元。此外，如SPS、PPS和SEI的其他AVC概念预期要用于HEVC，因此以下使用其AVC术语，尽管在HEVC或任何其他未来视频编码标准中它们可能有不同名称。

发明内容

本发明的目的是提供上述技术和现有技术的改进备选。

更具体地，本发明的目的是提供一种针对未来视频编码标准的改进通用语法，便于分层视频表示。

这些和其他目的是通过独立权利要求定义的本发明的不同方面来实现的。从属权利要求中表征了本发明的实施例。

为了描述本发明，假定视频信号编码为压缩视频比特流，通过网络(例如局域网、移动电话网络或因特网)传输，并在客户端(例如电视机、计算机、视频播放器或移动电话)处解码。网络可以包括多个网络单元，如路由器和交换机。

根据本发明的第一方面，提供了一种指示压缩视频比特流中的比特流子集的方法。所述压缩视频比特流包括多个(即至少两个)比特流子集。所述方法包括：接收压缩视频比特流；将视频比特流划分为视频分组；以及利用多个子集标识符中的单一子集标识符来标记每个视频分组。每个视频分组包括视频数据或补充信息中的任一个。所述多个子集标识符中每个子集标识符与所述多个比特流子集中的对应比特流子集相关联。

根据本发明的第二方面，提供了一种计算机程序。所述计算机程序包括计算机程序代码。所述计算机程序代码适于被执行以实现根据本发明第一方面的方法。

根据本发明的第三方面，提供了一种计算机程序产品。所述计算机程序产品包括计算机可读介质。所述计算机可读介质中实现有根据本发明第二方面的计算机程序。

根据本发明的第四方面，提供了一种从压缩视频比特流中提取视频分组的方法。所述压缩视频比特流被划分为视频分组。所述压缩视频比特流包括多个比特流子集。每个视频分组包括视频数据或补充信息中的任一个。每个视频分组还包括多个子集标识符中的单一子集标识符。每个子集标识符与所述多个比特流子集中的对应比特流子集相关联。所述方法包括：提供至少一个相关子集标识符；以及从压缩视频比特流接收视频分组。所述方法还包括：针对每个接收的视频分组，检查视频分组的子集标识符；以及从压缩视频比特流中提取视频分组。所述视频分组是在所提取的子集标识符与所述至少一个相关子集标识符之一匹配的条件下从压缩视频比特流中提取的。

根据本发明的第五方面，提供了另一种计算机程序。所述计算机程序包括计算机程序代码。所述计算机程序代码适于被执行以实现根据本发明第四方面的方法。

根据本发明的第六方面，提供了一种计算机程序产品。所述计算机程序产品包括计算机可读介质。所述计算机可读介质中实现有根据本发明第五方面的计算机程序。

根据本发明的第七方面，提供了一种指示压缩视频比特流中的比特流子集的比特流标记器。所述压缩视频比特流包括多个比特流子集。所述比特流标记器包括：接收单元；分组化单元；以及标记单元。接收单元被配置为接收压缩视频比特流。分组化单元被配置为将压缩视频比特流划分为视频分组。每个视频分组包括视频数据或补充信息中的任一个。标记单元被配置为利用多个子集标识符中的单一子集标识符来标记每个视频分组。每个子集标识符与所述多个比特流子集中的对应比特流子集相关联。

根据本发明的第八方面，提供了一种从压缩视频比特流中提取视频分组的比特流提取器。所述压缩视频比特流被划分为视频分组。所述压缩视频比特流包括多个比特流子集。每个视频分组包括视频数据或补充信息中的任一个。每个视频分组还包括多个子集标识符中的单一子集标识符。每个子集标识符与所述多个比特流子集中的对应比特流子集相关联。所述比特流提取器包括：子集选择单元；接收单元；以及提取单元。子集选择单元被配置为提供至少一个相关子集标识符。接收单元被配置为从压缩视频比特流接收视频分组。提取单元被配置为：针对每个接收的视频分组，检查视频分组的子集标识符，并从压缩视频比特流中提取视频分组。所述视频分组是在所提取的子集标识符与所述至少一个相关子集标识符之一匹配的条件下从压缩视频比特流中提取的。

本发明利用以下理解：可以推广现有视频编码标准的分层比特流概念，以允许标识不同比特流子集，其中每个比特流子集表示具有与其相关联的特定属性的层。例如，每个比特流子集可以表示承载视频数据的VCL层(如纹理基本视图层、深度图高质量层、时间遮挡图层)或承载非视频数据(即补充信息，例如参数集)的非VCL层。这是通过将每一层(即比特流子集)与流标识符(stream_id)相关联来实现的，流标识符继而与描述层的属性的参数(如特定视图标识符(view_id)、依赖性标识符(dependency_id)等等)相关联。stream_id在NAL单元首部中信号通知。

通过将特定层的所有不同属性合成为单一标识符(stream_id)，简化了在网络中以及在客户端侧解释和标识视频分组的过程。所建议的语法允许针对网络友好的高级视频比特流信令的干净和可扩展的系统设计，尤其适于分层表示从而与未来视频编解码器和应用兼容。根据本发明实施例的视频比特流信令有利在于：减轻了现有视频编码标准(尤其是上述AVC NAL单元概念)固有的问题。

更具体地，新功能确实不需要定义新NAL单元类型或更新NAL单元首部语法。由于将层的属性浓缩为单一stream_id，处理视频比特流的网络单元和客户端不需要具有在NAL单元首部中使用的所有信息单元(即标识符、指示符、参数或标记)的详细知识。而是有相关stream_id的知识就足矣。最终，分层视频比特流的信令，即复用为一个压缩视频比特流的多个比特流子集，有利在于：与依靠高级信令的方案相比，更容易实现精确的时间同步。此外，视频表示的相关层之间的冗余可以用于压缩视频信号。

尽管已经指出利用单一子集标识符来标记压缩视频比特流中的每个视频分组，但是可以想到本发明的以下实施例：仅利用单一子集标识符来标记压缩视频比特流中包括的所有视频分组的子集。

根据本发明的实施例，所述方法还包括：提供至少一个子集定义。每个子集定义描述所述多个比特流子集中的对应比特流子集的属性。利用子集定义来定义相关联比特流子集的属性有利在于：可以显式地向网络单元和客户端提供对应视频层的属性。

根据本发明的实施例，所述至少一个子集定义是作为压缩视频比特流中的视频分组来提供的。视频分组可以承载多个子集定义，每个子集定义对应于不同的比特流子集。包括一个或多个子集定义的视频分组可以承载在参数流集合(StPS)中。这有利在于，可以将描述其相关联比特流子集的属性(即视频或参数层)的子集定义与视频信号一起提供给网络单元和客户端。每个子集定义包括与以下至少一项相关的信息：temporal_id、view_id、quality_id、priority_id、或子集中承载的数据的类型。还可以认识到，一个或多个比特流子集可以预留用于信号通知子集定义或其他参数。这种预留的比特流子集可以与网络单元和客户端已知的预定义stream_id(例如stream_id＝0)相关联。

根据本发明的实施例，所述多个子集标识符中的每个子集标识符是数值。每个子集标识符的值对应于其相关联比特流子集的相对优先级。换言之，每个比特流子集的子集标识符stream_id指示特定比特流子集承载的视频数据的重要性。使用这种信息，需要丢弃分组(例如由于有限带宽)的网络单元或客户端可以丢弃具有高stream_id(指示低相关度)的分组，并保持具有低stream_id(指示高相关度)的分组。

根据本发明的实施例，所述方法还包括：提供至少一个视频表示定义。每个视频表示定义包括至少一个相关子集标识符。与所述至少一个相关子集标识符相关联的比特流子集形成可解码视频表示。换言之，每个视频表示组合多个stream_id及其相关联比特流子集以形成可解码视频。这不同于标识可能不能独立解码的单一比特流子集的子集定义。视频表示可以例如包括所有纹理信息，或针对基本视图的纹理和深度图信息。这有利在于：可以向网络单元或客户端提供关于要处理哪些比特流子集的信息，以成功解码特定视频表示。

根据本发明的实施例，所述至少一个视频表示定义是作为压缩视频比特流中的视频分组提供的。这有利在于：与视频表示相关的信息，即需要处理以形成可解码视频的stream_id的列表，可以与视频数据一起信号通知，即复用。视频分组可以承载多个视频表示定义，每个视频表示定义与具有特定特性(即属性)的不同可解码视频表示相对应。包括一个或多个视频表示定义的视频分组可以在预留用于该目的的比特流子集(称为表示参数集(RPS))中承载。RPS可以与预定义stream_id(例如stream_id＝0)相关联。还可以认识到，视频表示可以与指示视频表示的相对优先级的数值相关联。

根据本发明的实施例，所述方法还包括：针对每个接收的视频分组，转发或解码所提取的视频分组，或丢弃接收的视频分组。在所提取的子集标识符与所述至少一个相关子集标识符中的任一个均不匹配的条件下丢弃接收的视频分组。换言之，如果与接收的视频分组相关联的stream_id匹配相关stream_id的列表，则处理(即转发或解码)接收的视频分组；否则丢弃接收的视频分组。这有利在于：网络单元或客户端可以根据接收的视频分组是否相关来处理接收的视频分组。例如，客户端可以被配置为仅处理特定比特流子集，例如一起形成可解码视频(即视频表示)的一组子集。此外，网络单元可以被配置为丢弃被认为相对不相关的比特流子集，例如在有限带宽情况下丢弃高质量增强层。

根据本发明的实施例，所述方法还包括：提供子集定义。子集定义描述所述多个比特流子集中对应的比特流子集的属性。所述方法还包括：使用与对应比特流相关联的子集标识符作为所述至少一个相关子集标识符。使用子集定义中包括的stream_id有利在于：允许网络单元和客户端选择视频分组以根据子集定义所指定的进行处理。

根据本发明的实施例，所述方法还包括：从多个子集定义中选择子集定义。子集定义是根据对应比特流子集的至少一个属性来选择的。这有利在于：如果提供多个子集定义，则网络单元或客户端可以选择具有特定属性的比特流子集进行处理。例如，客户端可以选择包括特定指示符(例如特定temporal_id、view_id、quality_id、priority_id或指示子集中承载的特定数据类型)的子集定义。

根据本发明的实施例，所述方法还包括：从压缩视频比特流中的视频分组接收子集定义。这有利在于：网络单元和客户端可以将子集定义(描述其相关联比特流子集的属性，即视频或参数层)与视频数据一起接收。

根据本发明的实施例，所述方法还包括：从压缩视频比特流中的视频分组接收视频表示定义。这有利在于：可以将与视频表示相关的信息(即需要处理以形成可解码视频的多个stream_id)与视频数据一起接收。

尽管已经参照根据本发明第一和第四方面的方法的实施例描述了一些情况下本发明的优点，对应理由适用于根据本发明第二和第五方面的计算机程序、根据本发明第三和第六方面的计算机程序产品、以及根据本发明第七和第八方面的设备的实施例。

在研究以下具体公开、附图和所附权利要求时，本发明的其他目的、特征和优点将变得显而易见。本领域技术人员认识到，可以将本发明的不同特征组合以创建不同于以下所描述的实施例。

附图说明

参照附图，通过以下对本发明实施例的示意性和非限制性的具体描述，将更好地理解本发明的上述以及附加目的、特征和优点，附图中：

图1示出了用于编码、传输和解码视频信号的系统。

图2示意了根据本发明实施例的比特流子集、子集定义和视频表示定义的概念。

图3示意了根据本发明实施例提出的语法。

图4示出了根据本发明实施例的指示压缩视频比特流中的比特流子集的方法。

图5示出了根据本发明实施例的从压缩视频比特流中提取视频分组的方法。

图6示出了根据本发明实施例的比特流标记器。

图7示出了根据本发明实施例的比特流提取器。

图8示出了根据本发明实施例的执行计算机程序代码的视频处理设备。

所有附图是示意性的，不一定按比例，一般仅示出说明本发明所必需的部分，其中，可以省略或仅仅提出其他部分。

具体实施方式

为了说明本发明，图1中示出了用于编码、传输和解码视频信号的系统100。

系统100包括：视频编码设备110、传输网络120、以及视频解码设备130。典型地，视频编码设备110从一个或多个源接收视频信号，并被配置为压缩视频信号以及将得到的比特流再分为视频分组，例如NAL单元。然后，得到的视频分组通过传输网络120传输至解码设备130。传输网络120典型地包括多个互连节点(即网络单元)121-123，被配置为将视频分组从编码设备110传输至解码设备130。网络单元121-123可以是例如交换机、路由器或适于处理视频分组的任何其他类型的网络节点。传输网络120可以例如是局域网、移动电话网络或因特网。

解码设备130被配置为从传输网络120接收视频分组，并对接收的压缩视频比特流进行解码。此外，解码设备130可以被配置为向观看者显示解码视频。解码设备130可以例如是视频播放器、电视机、计算机或移动电话。

以下参照图2来描述本发明的实施例，图2示意了流标识符、子集定义以及视频表示的概念。

在图2中，示出了压缩视频比特流210的一部分。该部分包括6个视频分组，即NAL单元211-216，其中每个可以包括视频数据或补充信息，如参数。此外，每个NAL单元211-216包括标记stream_id，用于将每个NAL单元211-216与压缩视频比特流的对应比特流子集相关联。例如，对于图2中示例的视频比特流部分210，NAL单元211、213和216标记有stream_id＝0，即其与第一比特流子集相关联。此外，NAL单元212和214标记有stream_id＝1，即其与不同于第一比特流子集的第二比特流子集相关联。最后，NAL单元215标记有stream_id＝2，即其与不同于第一和第二比特流子集的第三比特流子集相关联。

通过压缩视频比特流中承载的每个NAL单元中包括的标识符stream_id，针对每个NAL单元指示该NAL单元所属的比特流子集。由于压缩视频比特流中承载的每个比特流子集表示压缩视频信号的特定层，例如纹理基本视图层、深度图高质量层、参数集层、时间层、遮挡图层或任何其他类型的视频或补充层，每个NAL单元与对应层相关联。按照这种方式，与特定层相关联的所有参数，例如描述层表示哪个视图、层包含哪个视频质量或层间的依赖性的参数，被浓缩入单一流标识符stream_id。使用单一标识符来描述参数集合引入了一定程度的间接性，允许NAL单元传输通过的网络单元或解码NAL单元的客户端对NAL单元进行简化处理。

每层(即比特流子集)的属性可以是预定义的并对视频信号的编码、传输、解码中涉及的所有实体是已知的。例如，参照图1，解码设备130可以被配置为仅解码属于通过传输网络120从编码设备110接收的一个或几个不同比特流子集(或层)的视频分组。例如，以下将是这种情况：stream_id＝0是基本层，而stream_id＝1和stream_id＝2是用于提供改进视频质量的增强层，并且解码设备130只能显示低质量视频信号。此外，网络单元121-123可以被配置为，如果可用带宽有限，则仅转发属于3个比特流子集中的一个或两个的视频分组。

进一步参照图2，描述多层视频比特流中包括的视频层的改进处理。

根据本发明的实施例，每层(即比特流子集)的属性通过子集定义221-223提供给视频信号的编码、传输和解码中涉及的实体。对于每一层，提供对应的子集定义221-223，子集定义包括描述层的属性的信息(即参数)。例如，子集定义221描述第一比特流子集的属性，如stream_id＝0所指示。对应地，子集定义222描述第二比特流子集的属性，即stream_id＝1；子集定义223描述第三比特流子集的属性，即stream_id＝2。每个子集定义221-223中包括的参数，即texture_flag、depth_flag、occlusion_flag和view_id，指示比特流子集是否是纹理层、深度图层、被遮挡纹理层以及其属于哪个视图。对于图2中示例的子集定义221-223，所有层属于相同视图，具有view_id＝0。子集定义221描述的第一层包含视图的纹理，子集定义222描述的第二层包含视图的深度图；子集定义223描述的第三层包含视图的被遮挡纹理。

进一步参照图2，描述根据本发明实施例的视频表示的概念。

视频表示用于将一个或多个层(即比特流子集)组合在一起以形成可解码视频。这种组合机制可以用于向处理压缩视频比特流中涉及的网络单元和客户端提供关于比特流子集的信息。这是通过向网络单元和客户端提供视频表示定义中包括的集成信息来实现的。为此，视频表示可以例如包括比特流中的所有纹理信息，或针对基本视图的纹理和深度图信息。想要从压缩视频比特流中提取特定视频表示(例如了解码视频信号并向观看者显示视频)的网络单元或客户端将标识相关视频表示，并随后提取作为该视频表示的部分的所有比特流子集。

根据本发明实施例的视频表示(如图2所示的视频表示221-223)标记有视频表示标识符representation_id，以便于网络单元和客户端标识视频表示。此外，每个视频表示包括指示能够解码视频信号从而呈现有用视频所需的比特流子集的stream_id的列表。

例如，表示定义231定义的第一视频表示标记有representation_id＝0，并包括单一比特流子集标识符stream_id＝0。因此，给定具有stream_id＝0的比特流子集的定义221，第一表示是单2D视频序列，即纹理信息的单一视图。此外，表示定义232定义的第二视频表示标记有representation_id＝1，并包括两个比特流子集标识符stream_id＝0和stream_id＝1的列表。因此，给定子集定义221和222，第二视频表示允许呈现3D视频序列，因为其还包括由具有stream_id＝1的层承载的深度图。然而，由于第二视频表示不包含任何被遮挡纹理信息，所程序的3D视频具有有限质量。这一问题是通过第三视频表示来解决的。第三视频表示允许呈现包括被遮挡纹理信息的3D视频序列。为此，视频表示定义233包括3个比特流子集标识符stream_id＝0、stream_id＝1和stream_id＝2的列表。

可以认识到，分层比特流、子集定义和视频表示的概念不仅限于一个视图，如上所述。而是子集定义可以例如用于描述表示具有不同摄像机角度的不同视图(例如view_id＝0和view_id＝1)的层或承载不同视频质量的视频信号的层的属性。

视频表示的概念允许处理视频比特流中涉及的网络单元和客户端对多层视频比特流的简化处理。想要转发特定视频表示的网络单元或想要解码特定视频表示的客户端可以简单地标识对应的表示定义，从表示定义中读取所需比特流子集标识符的列表，并从压缩视频比特流中提取属于所需比特流子集的视频分组。

与标识比特流子集的已知方法(如使用多个标识符(例如temporal_id、priority_id、quality_id、dependency_id等等)的SVC NAL单元首部扩展)相比，所提出的方法仅使用单一标识符，从而允许硬件和软件的更简单实现。具体地，单一标识符stream_id不具有任何预定义含义(不同于例如dependency_id)，但是其含义是通过辅助手段(例如子集定义)来指示的。由于这种间接性，如果在后续阶段引入新的功能，则所提出的概念容易扩展，因为可以在子集定义中信号通知与这种功能相关的信息，而无需改变NAL单元首部。具体地，根据本发明实施例的NAL单元首部具有固定长度，无论是否使用扩展，这使得对NAL单元首部的解析比已知方案更简单得多。

参照图3，以下阐述本发明的实施例的更详细描述，尤其与所提出的语法相关。

子集标识符stream_id在NAL单元首部中承载。NAL单元首部可以或者可以不包含其他标识符(如NAL单元类型、output_flag或其他)。NAL单元首部310的示例在图3中示意，其中，forbidden_zero_bit应等于0，nal_unit_type指定NAL单元中包含的类型数据，output_flag信号通知当前NAL单元的解码内容是否预期用于屏幕输出。

通过利用相同stream_id来标记不同NAL单元，它们被标记为属于相同比特流子集，即相同层。典型地，属于相同比特流子集的所有NAL单元共享一个或多个特定属性，例如：

-子集中的所有NAL单元是参数集；

-子集中的所有NAL单元是帧内编码画面；

-子集中的所有NAL单元指示所谓“封闭画面组(GOP)”随机接入点的开始(AVC中的即时解码器刷新(IDR)画面)；

-子集中的所有NAL单元指示所谓“开放GOP”随机接入点的开始(允许开始解码的帧内画面)

-子集中的所有NAL单元承载表示基本质量的视频帧；

-子集中的所有NAL单元承载时间细化信息；

-子集中的所有NAL单元承载空间细化信息(在空间可缩放性情况下)；

-子集中的所有NAL单元承载与多视图编码中的特定摄像机视图相对应的信息；或

-子集中的所有NAL单元承载与特定视频流或例如深度图流相关的信息。

注意，对于给定子集，多个这些属性可以同时有效。

一些子集的属性以及相关联stream_id可以是预定义的。例如，stream_id＝0可以指示仅包含承载参数集(SPS、PPS、StPS或RPS)的NAL单元的子集。备选地，SPS、PPS、StPS和PPS可以具有预定义但是不同的stream_id。

可以通过子集定义显式提供与子集的属性相关的信息。子集定义可以例如包括如temproal_id、quality_id之类的参数。图3中示出了示例子集定义320。

根据本发明实施例的子集定义(如子集定义320)的语法可以包括依赖于例如NAL单元类型或其他属性的条件字段。子集定义320示例了仅当引用的NAL单元包含VCL数据而不包含非VCL数据时可以使用的语法元素(注意，在本公开中，该示例中的NAL单元类型是根据AVC规范)。

在子集定义320中，stream_id标识作为比特流的子集的分层流，stream_type描述所指定的流的类型，version_id指定描述流所根据的规范的版本。标记view_id、temporal_id、quality_id和dependency_id中的每一个标识对应层的属性。更具体地，view_id指示摄像机视图，temporal_id指示时间细化层(例如在30Hz帧率基础上的60Hz细化)，quality_id指示压缩视频的信号保真度，dependency_id指示空间可缩放性情况下的空间细化层。

子集定义本身可以在比特流中承载，例如以专用NAL单元的形式，即StPS。这种专用NAL单元可以由专用NAL单元类型指示。它还可以是专用子集(由承载参数集的的NAL单元的NAL单元首部中的特定stream_id所指示的参数集的比特流子集)的一部分。承载这些流参数集NAL单元的子集可以具有预定义stream_id，如stream_id＝0。

StPS可以包括与时间增强(temporal_id)、质量增强(quality_id)、空间增强(dependency_id)、优先级(priority_id)或如在用于SVC和MVC的NAL单元扩展首部中承载的任何信令相关的参数。它还可以包含与相关联NAL单元中承载的数据类型相关的信息，即其是否包含参数集、SEI消息、帧内画面、锚画面等等。它还可以承载与压缩数据所表示的内容相关的高级信息，例如相关联NAL单元是否表示纹理数据、深度信息、遮挡信息等等。

根据本发明实施例的流参数集语法(如图3中示例的子集当以320)可以以可扩展方式定义。为此，它可以包括由规范的特定版本(例如版本N)所定义的语法元素。在规范的后续更新(例如版本N+1)中，可以包括附加语法元素。在这种情况下，符合规范的版本N的接收设备将只能解释版本N语法元素，而符合版本N+1的接收设备将还能够解释附加语法元素。在这种情况下，StPS可以具有可变长度，并且如果需要，可以在规范的新版本中扩展。如果版本N接收设备接收包括符合版本N以及符合版本N+1的另外参数的版本N+1 StPS，则其可以读取版本N语法元素并忽略版本N+1语法元素。备选地，版本N接收设备可以在其发现其不能解释的语法元素(由于其不符合版本N)时决定丢弃与该StPS相关联的NAL单元。可以例如通过单独的标记来信号通知设备行为，即是忽略未知语法或丢弃相关联NAL单元。

流参数集语法还可以包括版本标识符，以指示其符合的规范版本。例如，版本标识符可以表示为数值，其中增加的数值指示增加的版本号。如果版本N接收设备接收具有小于或等于N的版本号的StPS，则其能够解释语法。如果版本N接收设备接收具有大于N的版本号的StPS，则其不能解释语法，至少不能解释具有大于N的版本号的版本专有的部分。在该情况下，它可以丢弃与该StPS相关联的NAL单元。备选地，它可以解码与该StPS相关联的NAL单元，而不解释StPS本身。该行为可以通过附加标记来控制。

如子集定义320中所指示的，可以通过参数stream_id来提供流参数集与子集中包括的NAL单元的关联，使得流参数集(即包括子集定义的NAL单元)以及相关联NAL单元标记有相同的stream_id。备选地，StPS可以指示比特掩蔽字段，如M＝“1111111100000000”(十进制65280)和值字段，例如V＝“1010101000000000”(十进制43520)，具有与如“stream_id&M＝V”(其中“&”是按位“与”运算)的条件匹配的stream_id的所有NAL单元与StPS相关联。将多个stream_id与相同StPS相关联具有以下优点：需要较少的StPS分组来承载与子集的属性相关的参数。按照这种方式，对于与多个不同stream_id相对应的多个比特流子集有效的信息可以在单一StPS中承载。仅对于这些子集中的一个或一些有效的附加信息可以在单独的StPS中承载。

stream_id可以是数值，并且可以定义为使得具有较低stream_id的NAL单元承载较多重要数据，如参数集或帧内帧，而具有较高stream_id的NAL单元承载较少重要数据，如SEI或时间增强数据。使用这种优先级信息，需要丢弃分组(例如由于带宽限制)的网络节点可以丢弃具有高stream_id值的分组，并保持具有低stream_id值的分组。

与使用多个参数(如SVC和MVC中的temproal_id、dependency_id等等)相比，stream_id概念的优点在于，在新编解码器功能出现时，其不需要引入新字段，因为其使用一定程度的间接性。此外，如果stream_id表示其相关联比特流子集的相对优先级，则在一些情况下甚至不需要分析该指示，进一步简化了NAL单元的解析和分派。

通过在视频表示中提供stream_id的列表，可以标识压缩视频比特流中可以独立于比特流的其他部分来解码的部分。相关联比特流子集形成可解码视频，即不具有对表示之外的NAL单元的画面间或视图间依赖性。这不同于不能独立解码的单一stream_id标识的比特流子集，例如在其仅包含时间增强信息的情况下。视频表示可以与特定属性(如内容类型，例如纹理、深度或遮挡信息)相关联。

视频表示的定义(即所需stream_id的列表)和表示的附加属性可以在比特流中单独的视频分组(即RPS)中提供。存在至少两种提供表示参数集的方式。一种是在一个NAL单元中提供刚好一个RPS。作为备选，根据本发明实施例，可以在单一NAL单元中提供多个RPS，如NAL单元330所示。

在视频表示定义330中，num_representations是该NAL单元中指定的表示的数目，representation_id标识视频表示，representation_priority_id定义表示的优先级，representation_type是视频表示的类型。视频表示的类型可以例如是以下任一：

-仅具有纹理的单视场视频，

-仅具有纹理的立体视频和立体应用，

-具有纹理和深度信息的单视场视频，可以使用视图合成产生一些自动立体/立体效果，

-具有纹理和深度信息的立体视频，可以使用视图合成来产生良好自动立体效果，

-具有纹理、深度和去遮挡信息的单视场视频，可以使用视图合成来产生良好的自动立体/立体效果，以及

-SPS和PPS，使用无损信道预先带外传输至网络单元和客户端。

还参照视频表示定义330，num_streams信号通知该表示中包含的所需流的数目，每个stream_id指定所需流。可选地，承载RPS信息的NAL单元可以标记有预定义stream_id，例如stream_id＝0。

如表示定义330中指示的，RPS定义的属性之一可以是优先级指示符representation_priority_id，指示当前表示相对于其他视频表示的优先级值。

基于表示定义RPS和子集定义StPS，可以以简单的方式应用动态流传输方法。例如，服务器可以提供具有分别由quality_id＝0，1和2标识的3个比特流子集(即层)的视频比特流。这些流被选择性地组合为3具有低、中和高质量的3个视频表示，其中低质量表示包含具有quality_id＝0的子集，中质量表示包含具有quality_id＝1和quality_id＝2的两个子集，第三表示包含所有3个子集。客户端可以开始下载第一流(具有最低质量但是最小大小)以得到短缓冲时间。在播放视频一段时间之后，如果客户端检测到网络带宽可用，则客户端可以切换至中或高质量表示。当网络中发生拥塞时，客户端可以降级至较低质量等级。

在子集定义中定义quality_id和其他参数便于选择所需比特流子集。为此，可以简单地利用关于stream_id的规则来指示客户端，而无需如同SVC NAL单元首部的情况一样解析和解释多个标识符。注意，取代信号通知quality_id，可以备选地信号通知bandwidth_id，以指示所需比特率，因为带宽典型地具有与质量的正相关。

根据本发明实施例，网络单元(如接收或转发分组的视频分组接收机或视频分组转发器)或接收和解码视频分组的解码设备可以如下解释stream_id。假定向网络或解码设备提供被认为与接收、转发或解码操作相关的stream_id的列表。在接收到视频分组时，检查stream_id。根据stream_id的值，接收/转发/解码(即从比特流中提取)视频分组，或丢弃视频分组。即，如果视频分组中的stream_id与相关stream_id之一匹配，则进一步处理该分组。否则，丢弃该分组并且不进一步处理。

相关stream_id的列表可以包含预定义stream_id。例如，它可以包含stream_id＝0，stream_id＝0指示相关联比特流子集包含参数集。按照这种方式，接收/转发/解码设备将接收所有参数集。然后它可以例如解释StPS或RPS中的一个或一些，并相应更新相关stream_id的列表。为此，接收设备可以接收所有StPS，并检查StPS语法的特定属性。如果检测到具有给定属性(例如视频数据的类型(如纹理数据))的StPS，则从比特流中提取具有相关联stream_id的视频分组。如此，可以基于StPS中承载的参数(如temporal_id、view_id、quality_id、数据类型等等)来选择StPS和相关联stream_id。

还可以基于相关联StPS中承载的版本标识符来确定子集的相关性。如果接收设备符合StPS中指示的版本标识符，则其可以提取相关联NAL单元。否则可以丢弃它们。

还可以通过检查被认为相关的表示定义来获得相关流标识符的列表。在这种情况下，从表示定义中提取流标识符的列表，并用作相关流标识符。

接收设备可以接收所有RPS，并检查RPS语法的特定属性，例如优先级、视频内容的类型或视频的分辨率。如果检测到具有给定属性的PRS，则所有相关联stream_id被认为是相关的并从比特流中提取。

备选地，接收/转发/解码设备可以基于相应NAL单元的属性来决定是否提取或丢弃分组。具体地，如果根据比特流子集的相对优先级来定义stream_id，则接收/转发/解码设备可以提取具有“较低”stream_id的分组，即包括较多重要数据的分组，并丢弃具有“较高”stream_id的分组，即包括较少重要数据的分组。可以基于阈值来决定stream_id是“低”还是“高”。该方法可以用于在带宽限制情况下网络单元中的包丢弃或比特流稀释。

为了更进一步说明本发明，以下给出示例。该示例涉及立体视频的情况，即分别具有view_id＝0和view_id＝1的两个视图并伴有深度数据。假定纹理和深度视频提供由不同temporal_id指示的时间可缩放性，其中temporal_id＝0指示时间基本质量(例如30Hz帧率)，temporal_id＝1具有时间增强信息(例如将30Hz帧率增强至60Hz)。

使用若干个比特流子集将承载与可用视图和时间分辨率的纹理和深度相关的数据的NAL单元复用至相同比特流。使用根据本发明实施例的比特流子集和视频表示的概念，可以唯一标识它们。

下表提供了子集定义的示例：

stream_id	内容
		1	纹理：SPS PPS
2	纹理：view_id＝0，temporal_id＝0
		3	纹理：view_id＝0，temporal_id＝1
4	纹理：view_id＝1，temporal_id＝0
		5	纹理：view_id＝1，temporal_id＝1
6	深度图：SPS PPS
		7	深度：view_id＝0，temporal_id＝0
8	深度：view_id＝0，temporal_id＝1
		9	深度：view_id＝1，temporal_id＝0
10	深度：view_id＝1，temporal_id＝1

存在具有stream_id＝1-5，与纹理数据view_id＝0和view_id＝1相对应的5个子集，以及具有stream_id＝6-10，与深度数据相对应的5个另外子集。具有stream_id＝1和stream_id＝6的子集分别指示承载序列参数集(SPS)和画面参数集(PPS)(即非VCL数据)的子集。其余stream_id指示承载VCL数据的子集。

此外，下表示意了对应表示定义的示例：

representation_id	内容
		0	纹理参数集：1
1	深度参数集：6
		2	纹理基本层快速转发：1，2
3	纹理基本层：1，2，3
		4	纹理2视图：1，2，3，4，5
5	所有基本层快速转发：1，2，6，7
		6	所有基本层：1，2，3，6，7，8

这里，具有representation_id＝0的表示包括具有stream_id＝1的NAL单元(对于纹理部分而言仅是SPS和PPS)。作为另一示例，具有representation_id＝3的表示包括stream_id＝1、2和3，表示具有view_id＝0、仅包括纹理信息的单一视图视频。作为另一示例，representation_id＝7对应于完整比特流。

在接收到表示定义之后，接收或转发设备可以根据信号通知的属性，决定给定应用的最合适的表示，从而获得相关stream_id的列表。然后，可以通过检查输入的NAL单元的NAL单元首部，容易地提取与这些stream_id相关联的NAL单元。

以下，参照图4来描述指示压缩视频比特流中的比特流子集的方法的实施例。该方法的实施例可以例如在参照图1描述的发送设备(如编码设备110)中执行。具体地，该方法的实施例可以在从视频编码器接收压缩视频比特流的比特流标记设备(即比特流标记器)中执行。为此，该方法的实施例可以在视频编码器中实现。比特流标记器将比特流再分为视频分组，每个视频分组包含压缩视频数据，例如视频帧、补充信息或一般地NAL单元。然后，根据本发明的实施例，使用NAL单元首部中的语法元素stream_id，以单一子集标识符来标记每个视频分组。可选地，视频编码器可以向比特流标记器提供分组化的视频比特流，在这种情况下，比特流标记器将不必将比特流再分为分组。此外，根据本发明的实施例，可以由视频编码器而不是在单独的比特流标记器中执行标记过程。

图4中示意了指示压缩视频比特流中的比特流子集的方法的实施例410。方法410包括：从视频编码器接收411压缩视频比特流；将压缩视频比特流划分412为视频分组；以及利用多个子集标识符中的单一子集标识符来标记413每个视频分组，其中所述多个子集标识符中每个子集标识符与所述多个比特流子集中的对应比特流子集相关联。

可选地，方法410还可以包括：提供414至少一个子集定义，其中每个子集定义描述所述多个比特流子集中的对应比特流子集的属性。所述子集定义可以作为压缩视频比特流中的视频分组来提供并传输至网络单元和客户端。

除了步骤414中提供的子集定义，方法410还可以包括：提供415至少一个视频表示定义，其中每个视频表示定义包括至少一个相关子集标识符，与所述至少一个相关子集标识符相关联的所有比特流子集形成可解码视频表示。所述至少一个视频表示定义可以作为压缩视频比特流中的视频分组来提供并传输至网络单元和客户端。

以下，参照图5来描述从划分为视频分组的压缩视频比特流中提取视频分组的方法的实施例。该方法的实施例可以例如在参照图1描述的接收设备(如网络单元121-123或解码设备130)中执行。具体地，该方法的实施例可以在接收划分为视频分组的压缩视频比特流的比特流提取设备(即比特流提取器)中执行。为此，该方法的实施例可以在视频解码器中或被配置为路由视频分组的网络单元中实现。

图5中示意了从划分为视频分组的压缩视频比特流中提取视频分组的方法的实施例510。方法510包括：提供511至少一个相关子集标识符；从压缩视频比特流接收512视频分组；以及针对每个513接收的视频分组，检查514视频分组的子集标识符；以及在所提取的子集标识符与所述至少一个相关子集标识符之一匹配的条件515下，从压缩视频比特流中提取516视频分组。

可选地，方法510还可以包括：转发或解码517所提取的视频分组，以及在所提取的子集标识符与所述至少一个相关子集标识符中的任一个均不匹配的条件515下丢弃518接收的视频分组。

更进一步，方法510还包括：提供519子集定义，子集定义描述所述多个比特流子集中对应的比特流子集的属性。与对应比特流相关联的子集标识符用作步骤511中的所述至少一个相关子集标识符。

可选地，在步骤519，可以根据对应比特流子集的至少一个属性，从多个子集定义中选择子集定义。可以从压缩视频比特流中的视频分组接收子集定义。

更进一步，方法510可以包括：提供520视频表示定义，视频表示定义包括所述至少一个相关子集标识符，其中，与所述至少一个相关子集标识符相关联的比特流子集形成可解码视频表示。可以从压缩视频比特流中的视频分组接收视频表示定义。

以下参照图6，描述根据本发明实施例的用于指示压缩视频比特流中的比特流子集的比特流标记器。例如，比特流标记器的实施例可以位于参照图1描述的编码设备110中。具体地，比特流标记器的实施例可以实现在视频编码器中。

比特流标记器620从视频编码器610接收压缩视频比特流602，视频编码器610被配置为对视频源信号601进行编码。比特流标记器620将比特流602再分为视频分组，每个视频分组包含压缩视频数据，例如视频帧、补充信息、或一般地，NAL单元。如上所述，使用NAL单元首部中的语法元素stream_id，以单一子集标识符来标记每个视频分组。比特流标记器620将分组化和标记后的比特流603发送至传输网络，如网络120，并最终发送至端到端网络中的客户端或对等端，如解码设备130(参照图1所述)。

为此，比特流标记器620包括：接收单元621，用于接收压缩视频比特流；分组化单元622，用于被配置为将压缩视频比特流划分为视频分组；以及标记单元623，用于利用单一子集标识符stream_id来标记每个视频分组。

此外，可选地，比特流标记器620可以包括：子集定义单元624，用于提供至少一个子集定义。所述子集定义可以作为压缩视频比特流中的视频分组来提供。

更进一步，可选地，比特流标记器620可以包括：视频表示定义单元625，用于提供至少一个视频表示定义。视频表示定义可以作为压缩视频比特流中的视频分组来提供。

接收单元621、分组化单元622、标记单元623、子集定义单元624和视频表示单元625可以通过电路、集成电路(IC)、专用集成电路(ASIC)、在一个或多个处理器上运行的计算机程序模块、或其组合来实现。单元621-625可以实现为单独的单元，或者组合实现。

可以认识到，视频编码器610可以向比特流标记器620提供分组化的视频比特流602，在这种情况下，比特流标记器620将不必将比特流602再分为分组。此外，如上所述的根据本发明的实施例的标记过程可以由视频编码器610执行而不是在单独的比特流标记器中执行。此外，现有视频编码器可以被配置为，通过利用计算机程序的实施例来更新现有视频编码器的软件，来执行根据本发明实施例的比特流标记。

以下参照图7，描述根据本发明实施例从压缩视频比特流中提取视频分组的比特流提取器。例如，比特流提取器的实施例可以位于参照图1描述的解码设备130或网络单元121-123中。具体地，比特流提取器的实施例可以实现在视频解码器或被配置为路由视频分组的网络单元中。

比特流提取器710接收压缩视频比特流701，视频分组(即NAL单元)与多个比特流子集相关联。视频比特流701可以例如从传输网络(如参照图1描述的网络120)接收。比特流提取器710标识比特流701中包括的相关NAL单元，并提取它们用于进一步处理。

为此，比特流提取器710包括：子集选择单元711，用于提供至少一个相关子集标识符；接收单元712，用于从视频比特流701接收视频分组；以及提取单元713，用于针对每个接收的视频分组，检查视频分组的子集标识符，并在所提取的子集标识符与所述至少一个相关子集标识符之一匹配的条件下，从视频比特流701中提取视频分组。可选地，提取单元713还可以被配置为：针对每个接收的视频分组，转发或解码所提取的视频分组，以及丢弃704视频分组。如果转发视频分组，则其可以例如发送702至视频解码器720，视频解码器720解码视频信号并输出解码的视频信号703以进行进一步处理，如向观看者显示。在所提取的子集标识符与所述至少一个相关子集标识符中的任一个均不匹配的条件下，丢弃704接收的视频分组。

可选地，比特流提取器710还包括：子集定义单元714，用于提供子集定义。子集定义单元714可以被配置为，根据对应比特流子集的至少一个属性，从多个子集定义中选择子集定义。子集定义单元714还可以被配置为，从压缩视频比特流中的视频分组接收子集定义。

比特流提取器(如比特流提取器710)的实施例还可以包括：视频表示定义单元715，用于提供视频表示定义。视视频表示定义单元715还可以被配置为从压缩视频比特流中的视频分组接收视频表示定义。

子集选择单元711、接收单元712、提取单元713、子集定义单元714和视频表示单元715可以通过电路、C、ASIC、在一个或多个处理器上运行的计算机程序模块、或其组合来实现。单元711-715可以实现为单独的单元，或者组合实现。

可以认识到，可以由视频解码器720执行而不是在单独的比特流提取器中执行从视频比特流中提取比特流子集(即视频分组)的过程。此外，现有视频解码器可以被配置为，通过利用计算机程序的实施例来更新现有视频解码器的软件，来执行根据本发明实施例的比特流提取。

参照图8，示意了根据本发明实施例的计算机程序和计算机程序产品。

图8示出了视频处理设备800，用于处理视频比特流801并示出处理后的视频比特流802。视频处理设备800包括处理器803和存储介质804。存储介质804可以是包括计算机程序805的计算机程序产品。备选地，计算机程序805可以通过合适的计算机程序产品(如软盘或记忆棒)传送至存储介质804。作为另一备选，计算机程序805可以通过网络下载至存储介质804。处理器803被配置为从存储介质804加载计算机程序805，并执行计算机程序805中包括的计算机程序代码，以实现根据本发明第一或第四方面的方法的实施例。例如，在执行计算机程序805时，处理器803可以适于实现指示压缩视频比特流中的比特流子集的方法的实施例。备选地，在执行计算机程序805时，处理器803可以适于实现从压缩视频比特流中提取视频分组的方法的实施例。处理器803可以是通用处理器、视频处理器或任何其他类型的电路，被配置为在执行计算机程序804时，实现根据本发明第一或第四方面的方法的实施例。处理设备800可以例如包括在移动电话、平板、用户设备(UE)、个人计算机、视频播放器/记录器、多媒体播放器、媒体流传输服务器、机顶盒、电视机或具有计算能力的任何其他类型的设备。

此外，上述本发明的所有实施例可以以软件、硬件、或其组合实现在视频编码器或解码器中。编码器和/或解码器还可以实现在作为或属于发送设备与接收设备之间的通信网络中的网络节点的网络设备中。这种网络设备可以是用于将根据一个视频编码标准的视频转换为另一视频编码标准的设备，例如在已经确定接收设备只能或相对于从发送设备发送的视频编码标准优选另一视频编码标准的情况下。尽管已经公开了视频编码器和/或解码器作为物理上分离的设备，但是其可以包括在如一个或多个ASIC的专用电路中，本发明覆盖以下设备的实施例：其中编码器和/或解码器的一些部分实现为在一个或多个通用处理器上运行的计算机程序模块。

本领域技术人员认识到，本发明不限于上述实施例。相反，在所附权利要求的范围内，许多修改和变型是可能的。例如，所提出的分层流信号通知概念原理上可以应用于所有类型的媒体，包括音频、字幕、图形等等。此外，客户端或网络单元可以有利地通过可靠的传输信道来获取StPS和RPS，而如HTTP和RTP的传输协议可以用于传输包含视频数据的比特流子集的其余部分。最终，还可以认识到，除了单一子集标识符stream_id之外，NAL单元首部可以包括另外的信息元素。

Claims

1.一种指示压缩视频比特流(210)中的比特流子集的方法(410)，所述压缩视频比特流包括多个比特流子集，所述方法包括：

接收(411)压缩视频比特流；

将压缩视频比特流划分(412)为视频分组(211-216)，其中，每个视频分组包括视频数据或补充信息中的任一个；以及

利用多个子集标识符中的单一子集标识符来标记(413)每个视频分组，其中，所述多个子集标识符中的每个子集标识符与所述多个比特流子集中的对应比特流子集相关联。

2.根据权利要求1所述的方法，还包括：

提供(414)至少一个子集定义(221-223；320)，每个子集定义描述所述多个比特流子集中的对应比特流子集的属性。

3.根据权利要求2所述的方法，其中，所述至少一个子集定义(221-223；320)是作为压缩视频比特流(210)中的视频分组来提供的。

4.根据权利要求1至3中任一项所述的方法，其中，所述多个子集标识符中的每个子集标识符是与该子集标识符的关联比特流子集的相对优先级相对应的数值。

5.根据权利要求1至4中任一项所述的方法，还包括：

提供(415)至少一个视频表示定义(231-233；330)，每个视频表示定义包括至少一个相关子集标识符，其中，与所述至少一个相关子集标识符相关联的比特流子集形成可解码视频表示。

6.根据权利要求5所述的方法，其中，所述至少一个视频表示定义(231-233；330)是作为压缩视频比特流(210)中的视频分组来提供的。

7.一种计算机程序(805)，包括计算机程序代码，所述计算机程序代码在处理器(803)上执行时适于实现根据权利要求1至6中任一项所述的方法。

8.一种计算机程序产品，包括计算机可读介质(804)，所述计算机可读介质中体现有根据权利要求7所述的计算机程序(805)。

9.一种从压缩视频比特流(210)中提取视频分组的方法(510)，所述压缩视频比特流被划分为视频分组(211-216)，所述压缩视频比特流包括多个比特流子集，其中每个视频分组包括视频数据或补充信息中的任一个以及多个子集标识符中的单一子集标识符，其中每个子集标识符与所述多个比特流子集中的对应比特流子集相关联，所述方法包括：

提供(511)至少一个相关子集标识符；

接收(512)来自压缩视频比特流的视频分组；以及

针对每个接收的视频分组：

检查(514)视频分组的子集标识符；以及

在所提取的子集标识符与所述至少一个相关子集标识符之一匹配的条件(515)下，从压缩视频比特流中提取(516)视频分组。

10.根据权利要求9所述的方法，还包括，针对每个接收的视频分组：

转发或解码(517)所提取的视频分组，以及

在所提取的子集标识符与所述至少一个相关子集标识符中的任一个均不匹配的条件(515)下，丢弃(518)接收的视频分组。

11.根据权利要求9或10中任一项所述的方法，还包括：

提供(519)子集定义(221-223；320)，所述子集定义描述所述多个比特流子集中的对应比特流子集的属性；以及

使用(511)与对应比特流相关联的子集标识符作为所述至少一个相关子集标识符。

12.根据权利要求11所述的方法，还包括：

根据对应比特流子集的至少一个属性，从多个子集定义(221-223；320)中选择(519)子集定义。

13.根据权利要求11或12中任一项所述的方法，还包括：

接收(519)来自压缩视频比特流(210)中的视频分组的子集定义(221-223；320)。

14.根据权利要求9至13中任一项所述的方法，还包括：

提供(520)视频表示定义(231-233；330)，所述视频表示定义包括所述至少一个相关子集标识符，其中，与所述至少一个相关子集标识符相关联的比特流子集形成可解码视频表示。

15.根据权利要求14所述的方法，还包括：

接收(520)来自压缩视频比特流(210)中的视频分组的视频表示定义(231-233；330)。

16.根据权利要求9至15中任一项所述的方法，其中，所述多个子集标识符中的每个子集标识符是与该子集标识符的关联比特流子集的相对优先级相对应的数值。

17.一种计算机程序(805)，包括计算机程序代码，所述计算机程序代码在处理器(803)上执行时适于实现根据权利要求9至16中任一项所述的方法。

18.一种计算机程序产品，包括计算机可读介质(804)，所述计算机可读介质中体现有根据权利要求17所述的计算机程序(805)。

19.一种指示压缩视频比特流(210；602)中的比特流子集的比特流标记器(110；620)，所述压缩视频比特流包括多个比特流子集，所述比特流标记器包括：

接收单元(621)，被配置为接收压缩视频比特流；

分组化单元(622)，被配置为将压缩视频比特流划分为视频分组(211-216)，其中每个视频分组包括视频数据或补充信息中的任一个；以及

标记单元(623)，被配置为利用多个子集标识符中的单一子集标识符来标记每个视频分组，其中每个子集标识符与所述多个比特流子集中的对应比特流子集相关联。

20.根据权利要求19所述的比特流标记器，还包括：

子集定义单元(624)，被配置为提供至少一个子集定义(221-223；320)，每个子集定义描述所述多个比特流子集中的对应比特流子集的属性。

21.根据权利要求20所述的比特流标记器，其中，所述至少一个子集定义(221-223；320)是作为压缩视频比特流(210)中的视频分组来提供的。

22.根据权利要求19至21中任一项所述的比特流标记器，其中，所述多个子集标识符中的每个子集标识符是与该子集标识符的关联比特流子集的相对优先级相对应的数值。

23.根据权利要求19至21中任一项所述的比特流标记器，还包括：

视频表示定义单元(625)，被配置为提供至少一个视频表示定义(231-233；330)，每个视频表示定义包括至少一个相关子集标识符，其中与所述至少一个相关子集标识符相关联的比特流子集形成可解码视频表示。

24.根据权利要求23所述的比特流标记器，其中，所述至少一个视频表示定义(231-233；330)是作为压缩视频比特流(210；603)中的视频分组来提供的。

25.一种从压缩视频比特流(210；701)中提取视频分组的比特流提取器(121-123，130；710)，所述压缩视频比特流被划分为视频分组(211-216)，所述压缩视频比特流包括多个比特流子集，其中每个视频分组包括视频数据或补充信息中的任一个以及多个子集标识符中的单一子集标识符，其中每个子集标识符与所述多个比特流子集中的对应比特流子集相关联，所述比特流提取器包括：

子集选择单元(711)，被配置为提供至少一个相关子集标识符；

接收单元(712)，被配置为接收来自压缩视频比特流的视频分组；以及

提取单元(713)，被配置为，针对每个接收的视频分组：

检查视频分组的子集标识符；以及

在所提取的子集标识符与所述至少一个相关子集标识符之一匹配的条件下，从压缩视频比特流中提取视频分组。

26.根据权利要求25所述的比特流提取器，提取单元(713)还被配置为，针对每个接收的视频分组：

转发或解码(702)所提取的视频分组，以及

在所提取的子集标识符与所述至少一个相关子集标识符中的任一个均不匹配的条件下，丢弃(704)接收的视频分组。

27.根据权利要求25或26中任一项所述的比特流提取器，还包括：

子集定义单元(714)，被配置为提供子集定义(221-223；320)，所述子集定义描述所述多个比特流子集中的对应比特流子集的属性；

其中，子集选择单元(711)还被配置为使用与对应比特流相关联的子集标识符作为所述至少一个相关子集标识符。

28.根据权利要求27所述的比特流提取器，其中，子集定义单元(714)还被配置为：

根据对应比特流子集的至少一个属性，从多个子集定义(221-223；320)中选择子集定义。

29.根据权利要求27或28中任一项所述的比特流提取器，其中，子集定义(221-223；320)是从压缩视频比特流(210；701)中的视频分组接收(519)的。

30.根据权利要求25至29中任一项所述的比特流提取器，还包括：

视频表示定义单元(715)，被配置为提供视频表示定义(231-233；330)，所述视频表示定义包括所述至少一个相关子集标识符，其中，与所述至少一个相关子集标识符相关联的比特流子集形成可解码视频表示。

31.根据权利要求30所述的比特流提取器，其中，视频表示定义单元(715)还被配置为：

接收来自压缩视频比特流(210；701)中的视频分组的视频表示定义(231-233；330)。

32.根据权利要求26至31中任一项所述的比特流提取器，其中，所述多个子集标识符中的每个子集标识符是与该子集标识符的关联比特流子集的相对优先级相对应的数值。