CN112400320A

CN112400320A - 分层图块

Info

Publication number: CN112400320A
Application number: CN201980038974.XA
Authority: CN
Inventors: 史蒂芬·文格尔; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2018-07-16
Filing date: 2019-06-03
Publication date: 2021-02-23
Anticipated expiration: 2039-06-03
Also published as: US20210112264A1; KR20210006988A; EP3791584A1; US11962794B2; JP7066919B2; CN115529464B; US20220116637A1; US10841602B2; KR102451281B1; EP3791584A4; US11240519B2; US20200021827A1; JP2021521752A; CN115529464A; CN112400320B; WO2020018180A1

Abstract

一种用于对已编码视频序列进行解码的方法，该方法包括对至少一个图块进行解码，该至少一个图块包括由第一图块布局限定的第一图块边界和由第二图块布局限定的第二图块边界，其中，该已编码视频序列指示至少一个第一预测机制跨第一图块边界可用并且该至少一个第一预测机制跨第二图块边界不可用。

Description

分层图块

交叉引用

本申请要求于2018年7月16日在美国专利商标局提交的美国申请No.62/698,534的依据35U.S.C 119的优先权，其全部内容通过引用并入本文中。

技术领域

所公开的主题涉及视频编码和解码，并且更具体地，涉及多个重叠的图块集合的(同时)使用。例如，一个图块集合可以设计为用于支持并行编码，并且另一个图块集合可以设计为用于支持360个视频表面(例如，立方体投影的表面)的图片分割。图块集合在跨图块边界的图片内预测机制和图片间预测机制的中断方面可以具有不同的属性。

背景技术

使用具有运动补偿的图片间预测的视频编码和解码已经为人所知数十年。未压缩的数字视频可以由一系列图片组成，每个图片具有例如1920×1080亮度样本及相关联的色度样本的空间尺寸。该一系列图片可以具有固定的或可变的图片速率(也非正式地称为帧率)，例如每秒60幅图片或60赫兹(Hz)。未压缩的视频具有很高的比特率要求。例如，每个采样(以60Hz帧率的1920×1080亮度样本分辨率)8比特的1080p60 4:2:0的视频需要接近1.5吉比特每秒(Gbit/s)的带宽。一小时的此类视频需要多于600GB的存储空间。

视频编码和解码的一个目的可以是通过压缩来减少输入视频信号中的冗余。压缩可以有助于减小上述带宽或存储空间要求，在某些情况下可以减小两个数量级或多于两个数量级。可以采用无损压缩和有损压缩以及它们的组合。无损压缩是指可以从已压缩的原始信号中重建原始信号的精确副本的技术。当使用有损压缩时，重建的信号可能与原始信号不同，但是原始信号和重建的信号之间的失真足够小，以使重建的信号可用于预期的应用。在视频的情况下，有损压缩被广泛采用。可容忍的失真量取决于应用，例如某些消费者流媒体应用的用户相比电视分布应用的用户可以容忍更高的失真。可达到的压缩率可以反映：更高的可容许/容忍的失真可以产生更高的压缩率。

视频编码器和解码器可以利用来自几种广泛类别的技术，包括例如运动补偿、变换、量化和熵编码，下面将介绍其中的一些。

图块是可以帮助划分已编码的视频比特流的某些视频编解码器中几种可用的机制中的一种。图块可以是图片的矩形区域。编码单元(Coding Unit，CU)(也称为块、宏块)的扫描顺序可以对于图块是局部的，从左上到右上，然后从上到下。可以将图片分成许多图块，其中每个CU可以是恰好一个图块的一部分。来自图块外部的信息的预测可能会受到限制，在视频压缩技术或标准中被硬编码。例如，在H.265中，(独立)图块不使用来自同一图片的外部CU的数据来重建图块内部的CU，而是可以按照解码顺序使用来自先前图片的运动补偿样本数据。运动限制图块甚至不使用该数据，因为运动限制图块与H.263的矩形切片相当。通过允许每个处理器或内核将注意力集中在要编码的图片的一部分上，引入了图块以使得能够并行编码(和解码)，因为除了最终的比特流生成过程之外，无需与负责其他图块的处理器进行通信。

另一个比特流划分工具称为切片。切片是按扫描顺序编码的CU的集合。扫描顺序可以是整个图片的扫描顺序(当不使用图块时)，也可以是图块内局部的。某些视频压缩技术对图块和切片之间的联系互通(tie interworking)设置了某些限制。切片的主要目的是最大传输单元(Maximum Transfer Unit，MTU)尺寸匹配-确保图片的独立可解码部分不会跨越多于一个MTU，因此即使已编码的图片可能跨越多个分组，也能够将切片放入单个分组中。

例如，在H.265的标准化过程中，已经研究了图块与切片之间的互通。

发明内容

在一个实施例中，提供了一种用于对已编码视频序列进行解码的方法，该方法包括对至少一个图块进行解码，该至少一个图块包括由第一图块布局限定的第一图块边界和由第二图块布局限定的第二图块边界，其中，该已编码视频序列指示至少一个第一预测机制跨第一图块边界可用并且该至少一个第一预测机制跨第二图块边界不可用。

在一个实施例中，提供了一种用于对已编码视频序列进行解码的装置，该装置包括至少一个存储器，该至少一个存储器配置为存储程序代码，和至少一个处理器，该至少一个处理器配置为读取所述程序代码并按照所述程序代码的指示进行操作，该程序代码包括解码代码，该解码代码用于对至少一个图块进行解码，该至少一个图块包括由第一图块布局限定的第一图块边界和由第二图块布局限定的第二图块边界，其中，该已编码视频序列指示至少一个第一预测机制跨第一图块边界可用并且该至少一个第一预测机制跨第二图块边界不可用。

在一个实施例中，提供了一种存储指令的非暂时性计算机可读介质，该指令包括一个或多个指令，当由用于对已编码视频序列进行解码的装置的一个或多个处理器执行时，该一个或多个指令使得该一个或多个处理器对至少一个图块进行解码，该至少一个图块包括由第一图块布局限定的第一图块边界和由第二图块布局限定的第二图块边界，其中，该已编码视频序列指示至少一个第一预测机制跨第一图块边界可用并且该至少一个第一预测机制跨第二图块边界不可用。

附图说明

根据以下具体实施方式和附图，所公开的主题的进一步特征、性质以及各种优点将会更加明显，在附图中：

图1是根据本公开的实施例的通信系统的简化框图。

图2是在流环境中的视频编码器和解码器的放置的图。

图3是根据本公开的实施例的视频解码器的功能框图。

图4是根据本公开的实施例的视频编码器的功能框图。

图5是根据本公开的实施例的柔性图块布局的示例的图。

图6是根据本公开的实施例的分层图块布局的示例的图。

图7是根据本公开的实施例的用于对编码的视频流进行解码的示例过程的流程图。

图8是根据实施例的计算机系统的图。

具体实施方式

图1是根据本公开的实施例的通信系统(100)的简化框图。通信系统(100)可以包括经由网络(150)互连的至少两个终端(110-120)。对于数据的单向传输，第一终端(110)可以在本地位置对视频数据进行编码，以通过网络(150)传输到另一终端(120)。第二终端(120)可以从网络(150)接收另一终端的已编码视频数据，对该已编码数据进行解码，并显示恢复的视频数据。单向数据传输在媒体服务应用等中可能是常见的。

图1示出了被提供用于支持已编码视频的双向传输的第二对终端(130、140)，该双向传输可以在例如视频会议期间发生。对于数据的双向传输，每个终端(130、140)可以对在本地位置捕获的视频数据进行编码，以经由网络(150)传输到另一终端。每个终端(130、140)还可以接收由另一终端传输的已编码视频数据，可以对已编码数据进行解码，并且可以在本地显示装置上显示恢复的视频数据。

在图1中，终端(110-140)可以被示出为服务器、个人计算机和智能电话，但是本公开的原理不限于此。本公开的实施例适用于膝上型计算机、平板计算机、媒体播放器和/或专用视频会议装置。网络(150)表示在终端(110-140)之间传送已编码视频数据的任何数目的网络，包括例如有线通信网络和/或无线通信网络。通信网络(150)可以在电路交换信道和/或分组交换信道中交换数据。代表性的网络包括电信网络、局域网、广域网和/或互联网。为了本讨论的目的，除非在下文中有所解释，否则网络(150)的架构和拓扑对于本公开的操作可能是不重要的。

作为针对所公开主题的应用的示例，图2示出了视频编码器和解码器在流式传输环境中的放置。所公开的主题可以同等地适用于其他支持视频的应用，包括例如视频会议、数字电视、在包括CD、DVD、内存条等的数字介质上存储压缩视频，等等。

流式传输系统可以包括采集子系统(213)，该采集子系统(213)可以包括视频源(201)，例如数字相机，该视频源创建例如未压缩的视频样本流(202)。相较于已编码的视频码流，被描绘为粗线以强调高数据量的样本流(202)可以由耦合至相机201的编码器(203)来处理。编码器(203)可以包括硬件、软件或软硬件组合，以实现或实施如下文更详细地描述的所公开主题的各方面。相较于样本流，被描绘为细线以强调较低数据量的已编码视频码流(204)可以存储在流式传输服务器(205)上以供将来使用。一个或多个流式传输客户端(206、208)可以访问流式传输服务器(205)以检索已编码视频码流(204)的副本(207、209)。客户端(206)可以包括视频解码器(210)，该视频解码器(210)对已编码视频码流的输入副本(207)进行解码，并创建可以在显示器(212)或其他呈现装置(未描绘)上呈现的输出视频样本流(211)。在一些流式传输系统中，可以根据某些视频编码/压缩标准来对视频码流(204、207、209)进行编码。这些标准的示例包括ITU-T H.265建议书。正在开发的是一种非正式地称为“下一代视频编码(Versatile Video Coding，VVC)”的视频编码标准。所公开的主题可以在VVC的上下文中使用。

图3可以是根据本公开实施例的视频解码器(210)的功能框图。

接收器(310)可以接收将由解码器(210)解码的一个或多个已编码视频序列；在同一实施例或另一实施例中，一次接收一个已编码视频序列，其中每个已编码视频序列的解码独立于其他已编码视频序列。可以从信道(312)接收已编码视频序列，该信道(312)可以是通向存储已编码视频数据的存储装置的硬件/软件链接。接收器(310)可以接收可转发到它们各自的使用实体(未描绘)的已编码视频数据以及其他数据，例如已编码的音频数据和/或辅助数据流。接收器(310)可以将已编码视频序列与其他数据分开。为了防止网络抖动，缓冲存储器(315)可以耦接在接收器(310)和熵解码器/解析器(320)(此后称为“解析器”)之间。当接收器(310)正从具有足够带宽和可控性的存储/转发装置接收数据或正从等时同步网络接收数据时，也可能不需要配置缓冲存储器(315)，或可以将该缓冲存储器做得较小。为了在互联网等业务分组网络上使用，也可能需要缓冲存储器(315)，该缓冲器可以相对较大并且可以有利地具有自适应大小。

视频解码器(210)可以包括解析器(320)，以从熵编码视频序列重建符号(321)。这些符号的类别包括用于管理解码器(210)的操作的信息，以及用于控制诸如显示器(212)之类的呈现装置的潜在信息，该呈现装置不是解码器的组成部分，但是可以耦接到解码器，如图3中所示。用于一个(多个)呈现装置的控制信息可以是辅助增强信息(SupplementaryEnhancement Information，SEI消息)或视频可用性信息(Video Usability Information，VUI)参数集片段(未描绘)。解析器(320)可以对接收到的已编码视频序列进行解析/熵解码。已编码视频序列的编码可以根据视频编码技术或标准，并且可以遵循本领域技术人员众所周知的原理，包括可变长度编码、霍夫曼编码、具有或不具有环境敏感性的算术编码，等等。解析器(320)可以基于对应于群组的至少一个参数，从已编码视频序列中提取用于视频解码器中的像素子群中的至少一个子群的子群参数集。子群可包括图片群组(Group ofPictures，GOP)、图片、图块、切片、宏块、编码单元(Coding Unit，CU)、块、变换单元(Transform Unit，TU)、预测单元(Prediction Unit，PU)等等。熵解码器/解析器还可以从已编码视频序列中提取诸如变换系数、量化器参数(QP)值、运动矢量之类的信息。

解析器(320)可以对从缓冲存储器(315)接收的视频序列执行熵解码/解析操作，从而创建符号(321)。解析器(320)可以接收已编码数据，并且选择性地解码特定符号(321)。此外，解析器(320)可以确定是否将特定符号(321)提供给运动补偿预测单元(353)、缩放器/逆变换单元(351)、帧内预测单元(352)或环路滤波器(356)。

取决于已编码视频图片或其部分的类型(例如，帧间和帧内图片，帧间和帧内块)以及其他因素，符号(321)的重建可涉及多个不同的单元。涉及哪些单元以及涉及方式可以由解析器(320)从已编码视频序列解析的子群控制信息来控制。为了清楚起见，未描述解析器(320)与下文的多个单元之间的此类子群控制信息流。

除了已经提及的功能块以外，解码器(210)可以在概念上细分为如下文所描述的多个功能单元。在商业约束下运行的实际实施例中，这些单元中的许多单元彼此紧密交互，并且可以至少部分地彼此集成。然而，出于描述所公开主题的目的，将概念细分为以下功能单元是适当的。

第一单元是缩放器/逆变换单元(351)。缩放器/逆变换单元(351)从解析器(320)接收作为一个(多个)符号(621)的量化变换系数以及控制信息，包括使用哪种变换、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元(351)可以输出包括样本值的块，该样本值可以输入到聚合器(355)中。

在一些情况下，缩放器/逆变换单元(351)的输出样本可以属于帧内编码块，即，不使用来自先前重建的图片的预测信息，但是可以使用来自当前图片的先前重建部分的预测信息的块。此类预测信息可以由帧内预测单元(352)提供。在一些情况下，帧内预测单元(352)使用从当前(部分重建)图片(356)提取的周围已重建信息，来生成与正在重建的块具有相同大小和形状的块。在一些情况下，聚合器(355)基于每个样本将帧内预测单元(352)已经生成的预测信息添加到由缩放器/逆变换单元(351)提供的输出样本信息中。

在其他情况下，缩放器/逆变换单元(351)的输出样本可以属于帧间编码的并且可能运动补偿的块。在这种情况下，运动补偿预测单元(353)可以访问参考图片存储器(357)以提取用于预测的样本。在根据与该块相关的符号(321)对提取的样本进行运动补偿之后，这些样本可以由聚合器(355)添加到缩放器/逆变换单元的输出中(在这种情况下称为残差样本或残差信号)，以生成输出样本信息。参考图片存储器内的地址(运动补偿单元从中获取预测样本)可以由运动矢量控制，该运动矢量可以以符号(321)的形式而供运动补偿单元使用，该符号(321)可以具有例如X、Y和参考图片分量。运动补偿还可以包括当使用子样本精确运动矢量时从参考图片存储器中提取的样本值的内插、运动矢量预测机制等。

聚集器(355)的输出样本可以在环路滤波器单元(356)中被各种环路滤波技术采用。视频压缩技术可以包括环路内滤波技术，该环路内滤波技术由包括在已编码视频码流中的参数控制，并且该参数可以作为来自解析器(320)的符号(321)而用于环路滤波器单元(356)。但是，视频压缩技术也可以响应于在对已编码图片或已编码视频序列的先前(按解码顺序)部分进行解码期间获得的元信息，以及响应于先前重建且环路滤波的样本值。

环路滤波器单元(356)的输出可以是样本流，该样本流可以被输出到呈现装置(212)，并且可以被存储在参考图片存储器(356)中，以用于后续的图片间预测。

某些已编码图片一旦完全重建，就可以用作参考图片，以用于将来预测。一旦完全重建了已编码图片并且已将该已编码图片(例如，通过解析器(320))识别为参考图片，当前参考图片(656)就可以变为参考图片缓冲器(357)的一部分，并且可以在开始重建后续的已编码图片之前重新分配新的当前图片存储器。

视频解码器(210)可以根据预定的视频压缩技术执行解码操作，该预定的视频压缩技术可能记录在诸如ITU-T H.265建议书之类的标准中。在遵循如视频压缩技术文档或标准(特别是其中的配置文件)中所指定的视频压缩技术或标准的语法的意义上，已编码视频序列可以符合所使用的视频压缩技术或标准所指定的语法。对于合规性，还要求已编码视频序列的复杂度处于视频压缩技术或标准的层级所限定的范围内。在一些情况下，层级限制最大图片大小、最大帧率、最大重建取样率(以例如每秒兆(mega)个样本为单位进行测量)、最大参考图片大小等。在一些情况下，由层级设定的限制可以通过假想参考解码器(Hypothetical Reference Decoder，HRD)规范和在已编码视频序列中用信号表示的HRD缓冲器管理的元数据来进一步限定。

在一个实施例中，接收器(310)可以连同已编码视频一起接收附加(冗余)数据。附加数据可以是一个(多个)已编码视频序列的一部分。视频解码器(210)可以使用附加数据来对数据进行适当解码和/或较准确地重建原始视频数据。附加数据可以以例如时间、空间或信噪比(signal noise ratio，SNR)增强层、冗余切片、冗余图片、前向纠错码等形式呈现。

图6可以是根据本公开的实施例的视频编码器(203)的功能框图。

编码器(203)可以从视频源(201)(并非编码器的一部分)接收视频样本，视频源(201)可以采集将由编码器(203)编码的一个(多个)视频图像。

视频源(201)可以提供将由视频编码器(203)编码的呈数字视频样本流形式的源视频序列，该数字视频样本流可以具有任何合适的位深度(例如，8位、10位、12位等)、任何色彩空间(例如，BT.601Y CrCB、RGB等)和任何合适的取样结构(例如，Y CrCb 4：2：0、YCrCb 4：4：4)。在媒体服务系统中，视频源(201)可以是存储先前已准备的视频的存储装置。在视频会议系统中，视频源(203)可以是采集本地图像信息作为视频序列的相机。可以将视频数据提供为多个单独的图片，当按顺序观看时，这些图片被赋予运动。图片自身可以构建为空间像素阵列，其中取决于所用的取样结构、色彩空间等，每个像素可包括一个或多个样本。本领域技术人员可以很容易理解像素与样本之间的关系。下面的描述侧重于样本。

根据实施例，编码器(203)可以实时地或在由应用所要求的任何其它时间约束下，将源视频序列的图片编码且压缩成已编码视频序列(443)。施行适当的编码速度是控制器(450)的一个功能。控制器控制如下文所描述的其它功能单元，且在功能上耦接到这些单元。为了清楚起见，图中未标示耦接。由控制器设置的参数可以包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值等)、图片大小、GOP布局，最大运动矢量搜索范围等。本领域技术人员可以容易地识别控制器(450)的其他功能，因为这些功能可能涉及针对某一系统设计优化的视频编码器(203)。

一些视频编码器以本领域技术人员容易识别为“编码环路”的方式进行操作。作为简单的描述，编码循环可以由编码器(430)的编码部分(此后称为“源编码器”)(负责基于待编码的输入图片和一个(多个)参考图片创建符号)和嵌入在编码器(203)中的(本地)解码器(433)组成，该(本地)解码器(433)重建符号以创建(远程)解码器也将创建的样本数据(因为在本公开主题所考虑的视频压缩技术中，符号与已编码视频码流之间的任何压缩是无损的)。将重建的样本流输入到参考图片存储器(434)。由于符号流的解码产生与解码器位置(本地或远程)无关的位精确结果，因此参考图片缓冲器内容在本地编码器与远程编码器之间也是按比特位精确对应的。换句话说，编码器的预测部分“看到”的参考图片样本与解码器将在解码期间使用预测时所“看到”的样本值完全相同。该参考图片同步性基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)对于本领域技术人员而言是众所周知的。

“本地”解码器(433)的操作可以与已在上文结合图3详细描述的“远程”解码器(210)的操作相同。然而，另外简要参考图6，当符号可用且熵编码器(445)和解析器(320)能够无损地将符号编码/解码为已编码视频序列时，包括信道(312)、接收器(310)、缓冲存储器(315)和解析器(320)在内的部分可能无法完全在本地解码器(433)中实施。

此时可以观察到，除了存在于解码器中的解析/熵解码之外的任何解码器技术，也必需以基本上相同的功能形式存在于对应的编码器中。编码器技术的描述可以被缩减，因为编码器技术与全面地描述的解码器技术互逆。仅在某些区域中需要更详细的描述，并且在下文提供。

作为操作的一部分，源编码器(430)可以执行运动补偿预测编码。参考来自视频序列中被指定为“参考帧”的一个或多个先前已编码帧，所述运动补偿预测编码对输入帧进行预测性编码。以此方式，编码引擎(432)对输入帧的像素块与一个(多个)参考帧的像素块之间的差异进行编码，该参考帧可以被选作该输入帧的一个(多个)预测参考。

本地视频解码器(433)可以基于源编码器(430)创建的符号，对可指定为参考帧的帧的已编码视频数据进行解码。编码引擎(432)的操作可以有利地是有损过程。当已编码视频数据可以在视频解码器(图6中未示出)处被解码时，重建的视频序列通常可以是具有一些误差的源视频序列的副本。本地视频解码器(433)复制解码过程，该解码过程可以由视频解码器对参考帧执行，并且可以使重建的参考帧存储在参考图片高速缓存器(434)中。以此方式，编码器(203)可以在本地存储重建的参考帧的副本，该副本与将由远端视频解码器获得的重建参考帧具有共同内容(不存在传输误差)。

预测器(435)可以针对编码引擎(432)执行预测搜索。即，对于待编码的新帧，预测器(435)可以在参考图片存储器(434)中搜索可作为新图片的适当预测参考的样本数据(作为候选参考像素块)或某些元数据(例如参考图片运动矢量、块形状等)。预测器(435)可以基于样本块逐像素块操作，以找到合适的预测参考。在一些情况下，如由预测器(435)获得的搜索结果所确定的，输入图片可以具有从参考图片存储器(534)中存储的多个参考图片取得的预测参考。

控制器(450)可以管理源编码器(430)的编码操作，包括例如设置用于对视频数据进行编码的参数和子群参数。

可以在熵编码器(445)中对所有上述功能单元的输出进行熵编码。熵编码器(545)根据本领域技术人员已知的技术(例如霍夫曼编码、可变长度编码、算术编码等)对各种功能单元生成的符号进行无损压缩，从而将该符号转换成已编码视频序列。

传输器(440)可以缓冲由熵编码器(445)创建的一个(多个)已编码视频序列，从而为通过通信信道(460)进行传输做准备，该通信信道(460)可以是通向将存储已编码视频数据的存储装置的硬件/软件链路。传输器(440)可以将来自视频编码器(430)的已编码视频数据与待传输的其它数据合并，该其它数据例如是已编码音频数据和/或辅助数据流(未示出来源)。

控制器(450)可以管理编码器(203)的操作。在编码期间，控制器(450)可以为每个已编码图片分配某一已编码图片类型，这可能影响可应用于相应的图片的编码技术。例如，通常可将图片分配为以下任一种帧类型：

帧内图片(I图片)，其可以是不将序列中的任何其它帧用作预测源就可被编码和解码的图片。一些视频编解码器容许不同类型的帧内图片，包括例如独立解码器刷新(Independent Decoder Refresh，IDR)图片。本领域技术人员了解I图片的变体及其相应的应用和特征。

预测性图片(P图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，该帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。

双向预测性图片(B图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，该帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地，多个预测性图片可以使用多于两个参考图片和相关联元数据以用于重建单个块。

源图片通常可以在空间上细分成多个样本块(例如，4×4、8×8、4×8或16×16个样本的块)，并且逐块进行编码。可以参考其它(已编码)块对这些块进行预测编码，该其他块是根据应用于块的相应图片的编码分配来确定的。例如，可以对I图片的块进行非预测编码，或可以参考同一图片的已经编码的块来对这些块进行预测编码(空间预测或帧内预测)。可以参考一个先前编码的参考图片通过空间预测或通过时域预测对P图片的像素块进行预测编码。可以参考一个或两个先前编码的参考图片通过空间预测或通过时域预测对B图片的块进行预测编码。

视频编码器(203)可以根据例如ITU-T H.265建议书的预定视频编码技术或标准执行编码操作。在操作中，视频编码器(203)可以执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，已编码视频数据可以符合所用视频编码技术或标准指定的语法。

在一个实施例中，传输器(440)可以连同已编码视频一起传输附加数据。视频编码器(430)可以将此类数据作为已编码视频序列的一部分。附加数据可以包括时间/空间/SNR增强层、诸如冗余图片和切片之类的其它形式的冗余数据、SEI消息、VUI参数集片段等。

近年来，对投影视频(例如360视频)的压缩引起了一定的兴趣。在360视频中，球体的表面可以通过六个平面(通过立方投影的正方形表面)来表示。所公开的主题可以在这种情况下使用。下面的讨论中使用的另一个用例是对具有不同的限定兴趣区域的平面进行编码。

参考图5，示出了例如来自监视相机的场景，该场景被划分为一定数量的图块(501、502)，该图块示出为具有不同大小和几何形状的矩形块。在H.265中，由于语法限制，可能无法进行所示的细分。但是，已经研究了语法更改以允许进行这种划分，参见例如可从http://phenix.it-sudparis.eu/jvet/doc_end_user/documents/11_Ljubljana/wg11/JVET-K0260-v2.zip获得的R.Sjoberg等的“柔性图块(Flexible Tiles)”，JVET-K0260，2018年7月。所示的划分可以用于在图块中将覆盖具有某些属性的场景区域的CU集中在一起。对于监视相机，例如示出天空的图块(501)可能不如例如图块(502)捕获的建筑物入口那么相关。如前所述，图块是独立可解码的。因此，在解码器没有足够的能力来解码整个场景的情况下，解码器可能会丢弃包含与应用较不相关的CU(例如图块501中的CU)的图块，而只解码相关的图块(例如图块502中的CU)。类似地，如果网络中的选择性转发单元(SFU)从相机接收完整的场景，但是输出链路的带宽不足，则可能会丢弃与该应用较不相关的图块。这只是为什么柔性分块机制有用的一种动机。另一个示例可以是在单个图片中发送立方体映射的所有六个表面，其中每个表面由一个图块表示。以逆投影方式呈现立方体时，从立方体外部的任何给定视点进行呈现需要最多三个表面。因此，至少三个表面既不需要传输也不需要解码。柔性分块可以帮助相应地划分比特流，以便SFU或解码器可以基于高级语法决策来丢弃包含不必要表面的不必要图块。

最初引入图块来支持编码器并行性。在这种情况下，图块布局在很大程度上受编码器可用的一个(多个)处理器的性质所影响。例如，在四个核上运行的编码器可以将图片划分为四个矩形区域，这些矩形区域的大小与源图片的大小近似相等，并且纵横比与源图片的纵横比近似相同，以平衡负载。相似的纵横比可以有利于利用二维编码工具，例如帧内预测、运动补偿等。

甚至当按照例如Sjoberg等人的建议修改H.265的图块语法时，一个关键问题仍然存在：当基于应用需求对图片进行图块划分时，该图块划分对于并行化可能不是最优的，反之亦然。

可以采用很多可能的技术来克服上述缺点。

(1)通过CU计数将图块分配到核/处理器。

仍参考图5，在一个实施例中，编码器可以使用该划分方案并且基于图块大小将图块分配到核，使得每个核将在涉及大约相同工作负荷的图块上工作。该工作负荷可以例如以样本数、CU数(假设CU具有相同的大小)或类似的度量来衡量。作为示例，基于图块(501)包含示出天空的大区域的理论，编码器可以将图块(501、503、504)分配到一个核，并且将其余图块分配到另一核，这应当是容易可检测到的并且在监视场景中的相关性有限，因此能够易于编码——因此，相对于其余图块而言，图块(501、503、504)的更大空间区域并不重要。这种机制的代价是给定核所负责的多个图块可能不相邻，这可能导致额外的内存访问。内存访问可能是某些视频编码器的核心瓶颈。另一个问题可能是应用驱动的图块布局无法保证适当大小(就图块中包含的CU数量而言)的图块的可用性。因此，给定的n个核的编码器(每个核每个时间间隔k个CU)不能保证能够实时地对n×k个CU的图块拼接图像进行编码，并且安全系数可能难以计算。这对于实时应用可能至关重要，因为在这种情况下，图块布局可以由应用驱动，并且编码器别无选择，只能服从应用驱动的约束。在一些情况下，可能需要配置编码器以处理任何应用驱动的图块布局，并且在这种情况下，不能假设基于图块的基于编码器的并行化，仅因为应用可能决定将所有CU放入单个图块中。

(2)分离针对应用需求的分块功能和针对并行性的分块功能：分层图块

较简洁的解决方案可能是将针对并行性的目的的分块功能与针对应用需求的目的的分块功能分开。

参考图6，示出了与图5中相同的应用驱动的图块布局(以实线601示出)，但具有针对并行化优化的大小(2x 2网格)相同的附加覆盖(以粗体虚线602示出)。在这种情况下，细线和粗体线均形成图块边界，以用于码流构建。因此，图片被划分成的图块的数量增加。

在同一实施例或另一实施例中，除了将位于并行化图块区域(由虚线表示)中的图块分配给它们各自的核并由它们各自的核处理，并行编码器以通常的方式在该图块布局(由细线和虚线创建)上操作。尽管在码流生成过程中会观察到“应用”图块布局，但“应用”图块布局并不用于核分配。因此，即使具有应用驱动的图块布局，也可以实现与没有应用驱动的图块布局一样好的并行化。代价是在码流中使用额外的图块，这会花费额外的比特，并且还会削弱图块边界处的重建图片质量，除非采取步骤来禁止后者(这又会花费额外的比特)。

(3)分层图块集

在H.265中，图块几何形状的控制信息位于图片参数集(PPS)中。因此，图块几何形状可以在图片之间变化。出于应用驱动的图块布局的目的，因为场景的内容可能会快速变化，例如，当使用摇动-俯仰-变焦摄像机或快速移动的对象和对象识别来标识图块边界时，这可能是一个明智的设计选择。但是，出于并行化的目的，它可能不是最佳解决方案。在当今占主导地位的编码器体系结构中，将核动态分配给待编码的图片中的部分可以在初始化时进行一次，并且此后通常保持不变。

为了反映这种情况，在同一实施例或另一实施例中，图块控制信息被划分成层级。由虚线(602)表示的“更高”图块控制信息可以主要用于并行化。可以在更高级别的语法结构(例如序列参数集SPS)中进行编码，而应用驱动的图块控制信息(表示以实线显示的图块边界601)可以继续使用图片参数集(PPS)。这样的分配反映了并行化图块布局(602)的静态的、硬件驱动的性质，同时考虑了动态重建应用图块布局(601)的可能需求。当然，也可以将那些图块控制信息分配给其他语法元素，例如其他参数集、切片头、图片头、GOP头等。

已经指出，就帧内图片预测或帧间图片预测而言，细分为图块的比特流可以具有某些特性。虽然所有图块方案都中断语法预测并重置CABAC，但某些图块方案可能允许从图块外部为当前图片或参考图片进行样本预测。通过将图块控制信息划分成层级，可以根据需要(例如，应用的需求或并行性的需求)设计每个图块边界的预测性质。例如，在至少一些将图块用于并行性的实现中，跨图块边界的运动补偿是可能的。之所以可以这样做是因为参考图片可能存储在所有核共享的慢速存储器中。另一方面，对于应用需求，可以禁止跨样本边界的运动补偿，因为跨图块边界可能会存在与图块内部的样本在语义上具有很小或几乎没有共同点的样本。作为一个示例，考虑沿着立方体投影中的立方体表面延伸的图块边界。但是，图块边界的约束越多，图块边界的编码效率损失就会越高，更不用说可能的伪像。

因此，从编码效率的角度来看，处理针对并行化引入的图块边界与处理针对应用需求引入的图块边界不同是有用的。

在同一实施例或另一实施例中，图块边界可以具有与之相关联的控制信息，编码器和解码器可以使用该控制信息来确定跨该图块边界的预测程度。这样的信息可以例如用标志集来表示，其中这些标志表示某些类型的预测的中断，类型例如是语法预测、CABAC重置、帧内预测、图片参考块预测(又名帧块内复制，IBC)、运动矢量预测、运动补偿预测(样本级)等。基于视频编码技术或标准的性质，本领域技术人员可以容易地设计适当数目的这种标志。

从速率失真的角度来看，按每个图块边界存储这样的信息可能是繁重且效率低下的。但是，对于不同的边界启用/禁用不同的预测机制的原因可能是由于这些边界的性质所致，边界的性质例如是应用驱动或并行化驱动。因此，在同一实施例或另一实施例中，可以定位标志集并将标志集与例如在SPS和PPS中存储的图块分层中的每个相关联。

在解码时，可以从控制信息中获得使用的适当预测机制。对于同一图块的不同边界，使用的预测机制可能会有所不同。例如，当解码图块(603)时，图块(603)的上边界可以具有与之相关联的SPS的预测机制(这可以例如允许运动补偿)，而图块(603)的其余图块边界可能具有PPS中定义的预测机制(例如可能受到运动限制)。

图7是用于对已编码视频序列进行解码的示例过程700的流程图。在一些实现中，图7的一个或多个处理块可以由解码器210执行。在一些实现中，图7的一个或多个处理块可以由与解码器210分离或包括解码器210的另一装置或一组装置(例如，编码器203)执行。

如图7所示，过程700可以包括：从已编码视频序列中确定至少一个第一预测机制跨第一图块边界可用(框710)。

如图7进一步所示，过程700可以包括：从已编码视频序列中确定至少一个第一预测机制跨第二图块边界不可用(框720)。

如图7进一步所示，过程700可以包括：对至少一个图块进行解码，该至少一个图块包括由第一图块布局限定的第一图块边界和由第二图块布局限定的第二图块边界(框730)。

在一个实施例中，第一图块布局可以包括并行化驱动的图块布局，并且第二图块布局可以包括应用驱动的图块布局。

在一个实施例中，已编码视频序列指示至少一个第二预测机制跨第一图块边界和第二图块边界可用。

在一个实施例中，第一图块布局在已编码视频序列的第一语法结构中描述，第二图块布局在已编码视频序列的第二语法结构中描述，并且第一语法结构与第二语法结构不同。

在一个实施例中，第一语法结构是比第二语法结构更高级别的语法结构。

在一个实施例中，第一语法结构可以包括序列参数集，并且第二语法结构可以包括图片参数集。

在一个实施例中，第一图块布局和第二图块布局是在以下中的至少一个中描述的：序列参数集、图片参数集、切片头、图片头或图片头组。

在一个实施例中，该至少一个第一预测机制包括以下中的至少一项：语法预测、上下文自适应二进制算术编码重置、内预测、图片内参考块预测、块内复制、运动矢量预测或运动补偿预测。

在一个实施例中，对第一图块布局的描述包括对至少一个第一预测机制跨第一图块边界可用进行指示的语法元素。

在一个实施例中，对第二图块布局的描述包括对至少一个第一预测机制跨第二图块边界不可用进行指示的语法元素。

虽然图7示出了过程700的示例框，在一些实现中，过程700可以包括比图7中所描绘的那些更多的块、更少的块、不同的块或不同地布置的块。附加地或可替代地，可以并行地执行过程700的框中的两个或更多个。

此外，可以通过处理电路(例如，一个或多个处理器，或一个或多个集成电路)来实现所提出的方法。在一个示例中，一个或多个处理器执行存储在非暂时性计算机可读介质中的程序以执行所提出的方法中的一个或多个。

可以将上述技术实现为计算机软件，该计算机软件使用计算机可读指令，并且物理存储在一个或多个计算机可读介质中。例如，图8示出适于实施所公开的主题的某些实施例的计算机系统800。

可以使用任何合适的机器代码或计算机语言对计算机软件进行编码，任何合适的机器代码或计算机语言可以经受汇编、编译、链接或类似的机制以创建包括指令的代码，该指令可以由计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行或通过译码、微码执行等执行。

指令可以在各种类型的计算机或其组件上执行，例如包括个人计算机、平板计算机、服务器、智能电话、游戏装置、物联网装置等。

图8所示的计算机系统800的组件本质上是示例性的，并且不旨在对实施本公开实施例的计算机软件的用途或功能的范围提出任何限制。组件的配置也不应被解释为具有与计算机系统800的示例性实施例中所示的组件中的任何一个组件或组件的组合有关的任何依赖或要求。

计算机系统800可以包括某些人机接口输入装置。此类人机接口输入装置可以响应于一个或多个人类用户通过例如下述的输入：触觉输入(例如：击键、划动，数据手套移动)、音频输入(例如：语音、拍手)、视觉输入(例如：手势)、嗅觉输入(未描绘)。人机接口装置还可以用于捕获不一定与人的意识输入直接相关的某些介质，例如音频(例如：语音、音乐、环境声音)、图像(例如：扫描的图像、从静止图像相机获取摄影图像)、视频(例如二维视频、包括立体视频的三维视频)等。

输入人机接口装置可以包括下述中的一个或多个(每种中仅描绘一个)：键盘801、鼠标802、触控板803、触摸屏810、数据手套804、操纵杆805、麦克风806、扫描仪807、相机808。

计算机系统800也可以包括某些人机接口输出装置。这样的人机接口输出装置可以例如通过触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感官。此类人机接口输出装置可以包括触觉输出装置(例如触摸屏810的触觉反馈、数据手套804或操纵杆805，但也可以是不作为输入装置的触觉反馈装置)、音频输出装置(例如：扬声器809、耳机(未描绘))、视觉输出装置(例如包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕的屏幕810，每种屏幕有或没有触摸屏输入功能，每种屏幕都有或没有触觉反馈功能，其中的一些屏幕能够通过诸如立体图像输出之类的装置、虚拟现实眼镜(未描绘)、全息显示器和烟箱(未描绘)以及打印机(未描绘)来输出二维视觉输出或超过三维的输出。

计算机系统800也可以包括人类可访问存储装置及其关联介质：例如包括具有CD/DVD等介质821的CD/DVD ROM/RW 820的光学介质、指状驱动器822、可拆卸硬盘驱动器或固态驱动器823、诸如磁带和软盘之类的传统磁性介质(未描绘)、诸如安全软件狗之类的基于专用ROM/ASIC/PLD的装置(未描绘)等。

本领域技术人员还应该理解，结合当前公开的主题使用的所术语“计算机可读介质”不涵盖传输介质、载波或其他暂时性信号。

计算机系统800还可以包括到一个或多个通信网络的接口。网络可以例如是无线网络、有线网络、光网络。网络可以进一步地是本地网络、广域网络、城域网络、车辆和工业网络、实时网络、延迟容忍网络等。网络的示例包括诸如以太网之类的局域网、无线LAN、包括GSM、3G、4G、5G、LTE等的蜂窝网络、包括有线电视、卫星电视和地面广播电视的电视有线或无线广域数字网络、包括CANBus的车辆和工业用电视等等。某些网络通常需要连接到某些通用数据端口或外围总线849的外部网络接口适配器(例如计算机系统800的USB端口)；如下所述，其他网络接口通常通过连接到系统总线而集成到计算机系统800的内核中(例如，连接到PC计算机系统中的以太网接口或连接到智能手机计算机系统中的蜂窝网络接口)。计算机系统800可以使用这些网络中的任何一个网络与其他实体通信。此类通信可以是仅单向接收的(例如，广播电视)、仅单向发送的(例如，连接到某些CANbus装置的CANbus)或双向的，例如，使用局域网或广域网数字网络连接到其他计算机系统。如上所述，可以在那些网络和网络接口的每一个上使用某些协议和协议栈。

上述人机接口装置、人机可访问的存储装置和网络接口可以附接到计算机系统800的内核840。

内核840可以包括一个或多个中央处理单元(CPU)841、图形处理单元(GPU)842、现场可编程门区域(FPGA)843形式的专用可编程处理单元、用于某些任务的硬件加速器844等。这些装置以及只读存储器(ROM)845、随机存取存储器846、诸如内部非用户可访问的硬盘驱动器、SSD等之类的内部大容量存储器847可以通过系统总线848连接。在一些计算机系统中，可以以一个或多个物理插头的形式访问系统总线848，以能够通过附加的CPU、GPU等进行扩展。外围装置可以直接连接到内核的系统总线848或通过外围总线849连接到内核的系统总线848。外围总线的体系结构包括PCI、USB等。

CPU 841、GPU 842、FPGA 843和加速器844可以执行某些指令，这些指令可以组合来构成上述计算机代码。该计算机代码可以存储在ROM 845或RAM 846中。过渡数据也可以存储在RAM 846中，而永久数据可以例如存储在内部大容量存储器847中。可以通过使用高速缓存来进行到任何存储装置的快速存储及检索，该高速缓存可以与下述紧密关联：一个或多个CPU 841、GPU 842、大容量存储847、ROM 845、RAM 846等。

计算机可读介质可以在其上具有执行各种由计算机实现的操作的计算机代码。介质和计算机代码可以是出于本公开的目的而专门设计和构造的介质和计算机代码，或者介质和计算机代码可以是计算机软件领域的技术人员公知且可用的类型。

作为非限制性示例，可以由于一个或多个处理器(包括CPU、GPU、FPGA、加速器等)执行包含在一种或多种有形的计算机可读介质中的软件而使得具有架构800，特别是内核840的计算机系统提供功能。此类计算机可读介质可以是与如上所述的用户可访问的大容量存储相关联的介质，以及某些非暂时性内核840的存储器，例如内核内部大容量存储器847或ROM 845。可以将实施本公开的各种实施例的软件存储在此类装置中并由内核840执行。根据特定需要，计算机可读介质可以包括一个或多个存储装置或芯片。软件可以使得内核840，特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文所描述的特定过程或特定过程的特定部分，包括定义存储在RAM中的数据结构846以及根据由软件定义的过程来修改此类数据结构。附加地或替换地，可以由于硬连线或以其他方式体现在电路(例如，加速器844)中的逻辑而使得计算机系统提供功能，该电路可以替换软件或与软件一起运行以执行本文描述的特定过程或特定过程的特定部分。在适当的情况下，提及软件的部分可以包含逻辑，反之亦然。在适当的情况下，提及计算机可读介质的部分可以包括存储用于执行的软件的电路(例如集成电路(integrated circuit，IC))、体现用于执行的逻辑的电路或包括两者。本公开包括硬件和软件的任何合适的组合。

尽管本公开已经描述了多个示例性实施例，但是存在落入本公开的范围内的改变、置换和各种替代等同物。因此，应当理解，本领域技术人员将能够设计出许多系统和方法，这些系统和方法虽然未在本文中明确示出或描述，但是体现了本公开的原理，并因此属于本公开的精神和范围内。

Claims

1.一种用于对已编码视频序列进行解码的方法，所述方法包括：

对至少一个图块进行解码，所述至少一个图块包括由第一图块布局限定的第一图块边界和由第二图块布局限定的第二图块边界，

其中，所述已编码视频序列指示至少一个第一预测机制跨所述第一图块边界可用并且所述至少一个第一预测机制跨所述第二图块边界不可用。

2.根据权利要求1所述的方法，其中，所述第一图块布局包括并行化驱动的图块布局，以及

其中，所述第二图块布局包括应用驱动的图块布局。

3.根据权利要求1所述的方法，其中，所述已编码视频序列指示至少一个第二预测机制跨所述第一图块边界和所述第二图块边界可用。

4.根据权利要求1所述的方法，其中，所述第一图块布局是在所述已编码视频序列的第一语法结构中描述的，

其中，第二图块布局是在所述已编码视频序列的第二语法结构中描述的，以及

其中，所述第一语法结构与所述第二语法结构不同。

5.根据权利要求4所述的方法，其中，所述第一语法结构是比所述第二语法结构更高级别的语法结构。

6.根据权利要求5所述的方法，其中，所述第一语法结构包括序列参数集，以及

其中，所述第二语法结构包括图片参数集。

7.根据权利要求1所述的方法，其中，所述第一图块布局和所述第二图块布局是在以下中的至少一个中描述的：序列参数集、图片参数集、切片头、图片头或图片头组。

8.根据权利要求1所述的方法，其中，所述至少一个第一预测机制包括以下中的至少一项：语法预测、上下文自适应二进制算术编码重置、内预测、图片内参考块预测、块内复制、运动矢量预测或运动补偿预测。

9.根据权利要求1所述的方法，其中，所述第一图块布局的描述包括对所述至少一个第一预测机制跨所述第一图块边界可用进行指示的语法元素。

10.根据权利要求1所述的方法，其中，所述第二图块布局的描述包括对所述至少一个第一预测机制跨所述第二图块边界不可用进行指示的语法元素。

11.一种用于对已编码视频序列进行解码的装置，所述装置包括：

至少一个存储器，配置为存储程序代码；以及

至少一个处理器，配置为读取所述程序代码并按照所述程序代码的指示进行操作，所述程序代码包括：

解码代码，配置为使所述至少一个处理器对至少一个图块进行解码，所述至少一个图块包括由第一图块布局限定的第一图块边界和由第二图块布局限定的第二图块边界，

12.根据权利要求11所述的装置，其中，所述第一图块布局包括并行化驱动的图块布局，以及

其中，所述第二图块布局包括应用驱动的图块布局。

13.根据权利要求11所述的装置，其中，所述已编码视频序列指示至少一个第二预测机制跨所述第一图块边界和所述第二图块边界可用。

14.根据权利要求11所述的装置，其中，所述第一图块布局是在所述已编码视频序列的第一语法结构中描述的，

其中，所述第一语法结构与所述第二语法结构不同。

15.根据权利要求14所述的装置，其中，所述第一语法结构是比所述第二语法结构更高级别的语法结构。

16.根据权利要求15所述的装置，其中，所述第一语法结构包括序列参数集，以及

其中，所述第二语法结构包括图片参数集。

17.根据权利要求11所述的装置，其中，所述至少一个第一预测机制包括以下中的至少一项：语法预测、上下文自适应二进制算术编码重置、内预测、图片内参考块预测、块内复制、运动矢量预测或运动补偿预测。

18.根据权利要求11所述的装置，其中，所述第一图块布局的描述包括对所述至少一个第一预测机制跨所述第一图块边界可用进行指示的语法元素。

19.根据权利要求11所述的装置，其中，所述第二图块布局的描述包括对所述至少一个第一预测机制跨所述第二图块边界不可用进行指示的语法元素。

20.一种存储指令的非暂时性计算机可读介质，所述指令包括一个或多个指令，当由用于对已编码视频序列进行解码的装置的一个或多个处理器执行时，所述一个或多个指令使得所述一个或多个处理器执行以下操作：