CN112106365A

CN112106365A - 用于视频编码和解码中的自适应上下文建模的方法和设备

Info

Publication number: CN112106365A
Application number: CN201980025830.0A
Authority: CN
Inventors: Y.陈; F.莱林内克; T.波伊里尔
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2018-04-27
Filing date: 2019-04-08
Publication date: 2020-12-18
Also published as: EP3785436A1; EP3562156A1; US20210021831A1; WO2019209512A1; US11310505B2

Abstract

重要性系数标志指示给定的经量化的变换系数是否等于零。为了编码重要性系数标志，可以使用基于上下文的熵编码。为了适应视频序列的特性，基于变换系数的统计来选择上下文模型。在一个实施例中，将变换系数的非零概率与不同的阈值进行比较，以将变换块划分为几个上下文区域，其中上下文区域中的所有系数使用相同的上下文模型集合。在另一实施例中，首先基于变换系数的位置将变换块划分为几个上下文区域，并且将变换系数的非零概率与阈值进行比较，以将每个上下文区域划分为两个子区域，其中子区域中的所有系数共享相同的上下文模型集合。

Description

用于视频编码和解码中的自适应上下文建模的方法和设备

技术领域

本实施例一般涉及用于视频编码或解码的方法和设备，并且更具体地，涉及用于视频编码或解码中的熵编码的自适应上下文建模的方法和设备。

背景技术

为了达到高压缩效率，图像和视频编码方案通常采用预测和变换以补充(leverage)视频内容中的空间和时间冗余。通常，使用帧内或帧间预测来利用帧内或帧间相关性，然后对原始块和预测块之间的差异(通常表示为预测误差或预测残差)进行变换、量化、和熵编码。为了重构视频，通过对应于熵编码、量化、变换、和预测的逆处理，来解码所压缩的数据。

发明内容

根据至少一个实施例的一般方面，提出了一种用于解码视频数据的方法，包括：访问画面的块的经量化的变换系数为零或非零的概率；响应于所述概率，确定与所述经量化的变换系数相关联的语法元素的上下文模型；基于所述上下文模型，对所述语法元素进行熵解码；以及响应于所述经解码的语法元素，解码所述经量化的变换系数。

根据至少一个实施例的另一一般方面，提出了一种用于编码视频数据的方法，包括：访问视频中的画面的块的经量化的变换系数；访问所述经量化的变换系数为零或非零的概率；响应于所述概率，确定与所述经量化的变换系数相关联的语法元素的上下文模型；以及基于所述上下文模型，对所述语法元素进行熵编码。

根据至少一个实施例的另一一般方面，提供了一种用于解码视频数据的设备，至少包括存储器和一个或多个处理器，其中所述一个或多个处理器被配置为：访问画面的块的经量化的变换系数为零或非零的概率；响应于所述概率，确定与所述经量化的变换系数相关联的语法元素的上下文模型；基于所述上下文模型，对所述语法元素进行熵解码；以及响应于所述经解码的语法元素，解码所述经量化的变换系数。

根据至少一个实施例的另一一般方面，提供了一种用于编码视频数据的设备，至少包括存储器和一个或多个处理器，其中所述一个或多个处理器被配置为：访问视频中的画面的块的经量化的变换系数；访问所述经量化的变换系数为零或非零的概率；响应于所述概率，确定与所述经量化的变换系数相关联的语法元素的上下文模型；以及基于所述上下文模型，对所述语法元素进行熵编码。

根据至少一个实施例的另一一般方面，提出了一种用于解码视频数据的设备，包括：用于访问画面的块的经量化的变换系数为零或非零的概率的部件；用于响应于所述概率而确定与所述经量化的变换系数相关联的语法元素的上下文模型的部件；用于基于所述上下文模型来对所述语法元素进行熵解码的部件；以及用于响应于所述经解码的语法元素而解码所述经量化的变换系数的部件。

根据至少一个实施例的另一一般方面，提出了一种用于编码视频数据的设备，包括：用于访问视频中的画面的块的经量化的变换系数的部件；用于访问所述经量化的变换系数为零或非零的概率的部件；用于响应于所述概率而确定与所述经量化的变换系数相关联的语法元素的上下文模型的部件；以及用于基于所述上下文模型来对所述语法元素进行熵编码的部件。

根据至少一个实施例的另一一般方面，所述确定上下文模型响应于所述概率与至少第一值之间的比较。

根据至少一个实施例的另一一般方面，所述语法元素指示(1)所述经量化的变换系数是否为零，(2)所述经量化的变换系数的绝对值是否大于1，或者(3)所述经量化的变换系数的绝对值是否大于2。根据至少一个实施例的另一一般方面，访问所述经量化的变换系数大于一或二的概率。更一般地，所述语法元素可以指示所述经量化的变换系数的绝对值是否大于X，X为0、1、2、3或另一值。

根据至少一个实施例的另一一般方面，使用CABAC(上下文自适应二进制算术编码)用于熵编码或解码。

根据至少一个实施例的另一一般方面，所述上下文模型还响应于所述经量化的变换系数的位置。

根据至少一个实施例的另一一般方面，响应于(1)所述块中的所述经量化的变换系数的x坐标和y坐标之和与(2)至少第二值的比较，来确定所述上下文模型。

根据至少一个实施例的另一一般方面，基于所述块的变换系数的位置，将所述块划分为多个上下文区域，其中基于所述区域中的变换系数的概率，将上下文区域划分为两个或更多个子区域，并且其中每个子区域共享相同的上下文模型索引集合。

根据至少一个实施例的另一一般方面，所述上下文模型还响应于与所述变换系数相邻的变换系数。

根据至少一个实施例的另一一般方面，基于所述画面的一个或多个先前画面来估计所述概率。

根据至少一个实施例的另一一般方面，所述概率对应于以下至少一项：(1)所述块的大小，(2)所述块的编码模式，以及(3)所述块的预测模式。

根据至少一个实施例的另一一般方面，将比特流格式化为包括与视频中的画面的块的经量化的变换系数相关联的语法元素，其中基于上下文模型对所述语法元素进行熵编码，并且其中响应于所述经量化的变换系数为零或非零的概率而确定所述上下文模型。

本实施例中的一个或多个实施例还提供了一种计算机可读储存介质，其上存储有用于根据上述任何方法来编码或解码视频数据的指令。本实施例还提供了一种计算机可读储存介质，其上存储有根据上述方法生成的比特流。本实施例还提供了用于传送或接收根据上述方法生成的比特流的方法和设备。本实施例还提供了一种包括用于执行上述任何方法的指令的计算机程序产品。

附图说明

图1图示了视频编码器的实施例的框图。

图2图示了视频解码器的实施例的框图。

图3是描绘了分区的图示示例。

图4A、4B和4C是描绘了HEVC中的扫描顺序的图示示例。

图5是描绘了JEM中的上下文区域和模板的图示示例。

图6是根据实施例的对重要性系数标志进行编码或解码的示例性方法。

图7是对JEM中的重要性系数标志进行编码的示例性方法。

图8是描绘了两个不同序列的8×8块中的非零概率分布的图示示例。

图9是描绘了8×8变换块的上下文区域的图示示例。

图10图示了根据第一实施例的计算上下文增量值的示例性方法。

图11是描绘了根据第一实施例的8×8变换块的上下文区域的图示示例。

图12图示了根据第二实施例的计算上下文增量值的示例性方法。

图13是描绘了根据第二实施例的8×8变换块的上下文区域的图示示例。

图14图示了其中可以实现本实施例的各方面的系统的框图。

具体实施方式

图1图示了诸如高效视频编码(HEVC)编码器的示例性视频编码器100。图1还可以图示对HEVC标准进行改进的编码器、或采用类似于HEVC的技术的编码器，诸如由JVET(联合视频探索小组)开发的JEM(联合探索模型)编码器。

在本申请中，术语“重构”和“解码”可以互换使用，术语“编码”或“编码的”可以互换使用，并且术语“图像”、“画面”和“帧”可以互换使用。通常，但不是必须的，将术语“重构”用于编码器侧，而将“解码”用于解码器侧。

在经编码之前，视频序列可以经过预编码处理(101)，例如，对输入彩色画面应用颜色变换(例如，从RGB 4:4:4转换为YCbCr 4:2:0)，或者执行输入画面分量的重新映射，以便获得对压缩更有弹性的信号分布(例如使用颜色分量之一的直方图均衡)。可将元数据与预处理相关联，并将元数据附加到比特流。

为了对具有一个或多个画面的视频序列进行编码，将画面分区(102)为例如一个或多个切片，其中每个切片可以包括一个或多个切片片段。在HEVC中，将切片片段组织为编码单元、预测单元、和变换单元。HEVC规范在“块”与“单元”之间进行区分，其中“块”寻址(addresses)样本阵列中的特定区域(例如，亮度、Y)，而“单元”包括所有经编码的颜色分量(Y、Cb、Cr、或单色)、语法元素、和与块相关联的预测数据(例如，运动向量)的并置块。

对于根据HEVC的编码，将画面分区为具有可配置大小的正方形的编码树块(CTB)，并且将编码树块的连续集合分组为切片。编码树单元(CTU)包含经编码的颜色分量的CTB。CTB是分区为编码块(CB)的四叉树的根，并且编码块可以被分区为一个或多个预测块(PB)，并形成分区为变换块(TB)的四叉树的根。对应于编码块、预测块、和变换块，编码单元(CU)包括预测单元(PU)、和树状结构的变换单元(TU)集合，PU包括所有颜色分量的预测信息，并且TU包括每个颜色分量的残差编码语法结构。亮度分量的CB、PB、和TB的大小适用于对应的CU、PU、和TU。在本申请中，术语“块”可以用于指代例如CTU、CU、PU、TU、CB、PB、和TB中的任一个。此外，“块”还可以用于指代H.264/AVC或其他视频编码标准中规定的宏块和分区，并且更具体地，用于指代各种大小的数据的阵列。

在示例性编码器100中，由编码器元件对画面进行编码，如下所述。例如以CU为单位对要编码的画面进行处理。使用帧内或者帧间模式对每个编码单元进行编码。当以帧内模式对编码单元进行编码时，其执行帧内预测(160)。在帧间模式中，执行运动估计(175)和补偿(170)。编码器判断(105)使用帧内模式或帧间模式中的哪一个用于对编码单元进行编码，并通过预测模式标志来指示该帧内/帧间判断。通过从原始图像块中减去(110)预测块，来计算预测残差。

然后对预测残差进行变换(125)和量化(130)。对经量化的变换系数、以及运动向量和其他语法元素进行熵编码(145)以输出比特流。作为非限制性示例，可使用基于上下文的自适应二进制算术编码(CABAC)来将语法元素编码为比特流。

为了利用CABAC进行编码，通过二进制化处理，将非二进制语法元素值映射到二进制序列(称为bin串)。针对bin，选择上下文模型。“上下文模型”是一个或多个bin的概率模型，并且是取决于最近编码的符号的统计而从很多可用模型中选出的。由上下文模型索引(也用作“上下文索引”)来标识每个bin的上下文模型，并且不同的上下文索引对应于不同的上下文模型。上下文模型存储每个bin为“1”或“0”的概率，并且其可以是自适应的或静态的。静态模型利用对于bin“0”和“1”相等的概率来触发编码引擎。在自适应编码引擎中，基于bin的实际编码值来更新上下文模型。将对应于自适应模型和静态模型的操作模式分别称为常规模式和旁路模式。基于上下文，二进制算术编码引擎根据对应的概率模型而对bin进行编码或解码。

编码器也可以跳过变换，并对未变换的残差信号直接应用量化，例如，以4×4的TU为基础。编码器也可以绕过变换和量化，即，直接对残差进行编码，而不应用变换或量化处理。在直接PCM编码中，不应用任何预测，并且将编码单位样本直接编码为比特流。

编码器对已编码的块进行解码，以为进一步的预测提供参考。对量化的变换系数进行反量化(140)并进行逆变换(150)以解码预测残差。在组合(155)已解码的预测残差和已预测块的情况下，重构图像块。环内滤波器(165)被应用于重构的画面，以例如执行解块/SAO(样本自适应偏移)滤波以减少编码伪像。滤波后的图像存储在参考画面缓冲器(180)中。

图2图示了诸如HEVC解码器的示例性视频解码器200的框图。在示例性解码器200中，由解码器元件对比特流进行解码，如下所述。视频解码器200通常执行与图1中描述的编码遍历相反(reciprocal)的解码遍历，其执行视频解码作为编码视频数据的一部分。图2还可以图示对HEVC标准进行改进的解码器或采用类似于HEVC的技术的解码器，诸如JEM解码器。

具体地，解码器的输入包括视频比特流，其可以由视频编码器100生成。首先对该比特流进行熵解码(230)以获得变换系数、运动向量、画面分区信息、和其他编码信息。如果将CABAC用于熵编码，则以与编码器上下文模型相同的方式来初始化上下文模型，并基于上下文模型从比特流解码出语法元素。

画面分区信息指示如何对图像进行分区，例如，CTU的大小、和将CTU拆分为CU的方式、以及可能将CTU拆分为PU的方式(当适用时)。因此，解码器可以根据经解码的画面分区信息，将画面划分(235)为例如CTU，并将每个CTU划分为CU。对变换系数进行反量化(240)和逆变换(250)以解码预测残差。

通过组合(255)经解码的预测残差和预测块，重构图像块。可以从帧内预测(260)或运动补偿预测(即，帧间预测)(275)中获得(270)预测块。对经重构的图像应用环内滤波器(265)。将经滤波的图像存储在参考画面缓冲器(280)中。

经解码的图像可以进一步经过后解码处理(285)，例如逆颜色变换(例如，从YCbCr4:2:0转换为RGB 4:4:4)、或执行在预编码处理(101)中所执行的重新映射处理的逆的逆重新映射。后解码处理可以使用从预编码处理中导出并在比特流中用信号通知的元数据。

如上所述，在HEVC中，对视频序列的帧的编码基于块结构，例如，如图3所示。为了对经量化的变换系数进行编码，将变换块划分为经量化的系数的4×4子块(称为编码组(CG))。图4中图示了8×8的TB中所包含的编码组(CG)的示例。

HEVC中的变换系数编码涉及几个组成部分：扫描、最后重要性系数编码、重要性图(map)编码、系数级别编码和符号数据编码。

熵编码/解码经过几个扫描遍历。有三种不同的扫描图案可用于扫描TB中的变换系数：对角、水平、和垂直，分别如图4A、图4B和图4C所示。对于帧间块，始终使用对角扫描，而对于4×4和8×8的帧内块，扫描顺序取决于对于该块有效的帧内预测模式。

在TB上的扫描遍历根据三种扫描顺序中的一种来顺序地处理每个CG，并且同样根据所考虑的扫描顺序来扫描每个CG内的16个系数。如扫描图案中所定义的，扫描遍历从TB中的最后重要性系数开始，从高频系数扫(sweep)至低频系数，并处理所有系数直到DC系数为止。

可将变换系数级别的熵编码分为五个扫描遍历，分别专用于以下语法元素的编码：

-significant-coeff-flag：重要性系数标志(也表示为重要性标志)，指示系数的重要性(零/非零)。

-coeff-abs-level-greater1-flag：指示系数级别的绝对值是否大于1。

-coeff-abs-level-greater2-flag：指示系数级别的绝对值是否大于2。

-coeff-sign-flag：重要性系数的符号(0：正，1：负)。

-coeff-abs-level-remaining：系数级别的绝对值的剩余值(如果值大于先前遍历中所编码的值)。

在每个扫描遍历中，仅在由先前扫描遍历确定为必要时，才对语法进行编码。例如，如果系数的significant-coeff-flag为零，则用于编码该系数的绝对值的剩余扫描遍历是不必要的。同样对于符号编码：仅对于非零系数发送coeff-sign-flag。

在处理下一CG之前，针对给定CG对所有扫描遍历进行编码，直到该CG中的所有经量化的系数都可以被重构为止。

在解码器侧，整个TB解析处理包括以下步骤：

1.对由以下语法元素所表示的最后重要性坐标进行解码：

last_sig_coeff_x_prefix、last_sig_coeff_y_prefix、last_sig_coeff_x_suffix、和last_sig_coeff_y_suffix。

这为解码器提供了整个TB中的最后非零系数的空间位置(x和y坐标)。

然后，对于从TB中的包含最后重要性系数的CG到TB中的左上CG的每个连续CG，以下步骤适用：

2.解码CG重要性标志，其在HEVC规范中称为coded_sub_block_flag。

3.解码所考虑的CG中的每个系数的重要性系数标志。这对应于HEVC规范中的语法元素sig_coeff_flag。这指示CG中的哪个系数是非零的。

接下来的解析阶段针对系数级别，用于所考虑的CG中已知为非零的系数。它们包括以下语法元素：

4.coeff_abs_level_greater1_flag：此标志指示当前系数的绝对值是否大于1。如果不是，则绝对值等于1。

5.coeff_abs_level_greater2_flag：此标志指示当前系数的绝对值是否大于2。如果不是，则绝对值等于2。

6.coeff_sign_flag：这指示非零系数的符号。

7.coeff_abs_level_remaining：这指示绝对值大于2的系数的绝对值。

以常规模式对语法元素sig_coeff_flag、coeff_abs_level_greater1_flag和coeff_abs_level_greater2_flag的bin选行编码。经由基于上下文的概率模型，来利用相邻系数的幅度之间的相关性，以改进压缩效率。

在JEM中，四叉树加二叉树(QTBT)结构去除HEVC中的多种分区类型的概念，即，去除CU、PU和TU的概念的分离。首先用四叉树结构来分区编码树单元(CTU)。用二叉树结构进一步分区四叉树叶节点。将二叉树叶节点命名为编码单元(CU)，将其用于预测和变换而无需进一步分区。因此，在新的编码QTBT块结构中，CU、PU和TU具有相同的块大小。在JEM中，CU由不同颜色分量的编码块(CB)组成。

在JEM中，用于常规bin的上下文建模不同于HEVC，如2015年5月26日至6月1日于瑞士日内瓦的联合视频探索小组ISO/IEC JTCl/SC29/WG11第三次会议中的文件JVET-C1001_v3的题为“Algorithm Description of Joint Exploration Test Model 3”的文章中所述。具体地，当对如上所述的三个语法元素(即，语法元素sig_coeff_flag、coeff_abs_level_greater1_flag和coeff_abs_level_greater2_flag)中的一个进行编码时，特定系数的上下文模型索引取决于该特定系数在TB中的位置。

为了捕获不同频率下变换系数的特性，将一个TB拆分为至多三个区域，并且相同区域内的系数共享相同的上下文模型索引集。拆分方法是固定的，与TB大小无关，如图5所示。将每个TB拆分为用不同颜色标记的三个区域，并示出了分配给每个区域的上下文索引。例如，第一区域(TB的左上部分)被分配了上下文索引12至17。

图6图示了JEM中编码重要性系数标志的示例性方法600。处理600可以应用于编码器或解码器侧。处理600的输入是要编码的变换块、变换块的大小(宽度，高度)、和所考虑的TB中的当前编码组currCG。该处理的步骤610和620旨在计算用于编码重要性系数标志的基本上下文索引。如图5所示，上下文索引取决于TB大小，更准确地说，取决于TB区域。具体地，计算以下值：

uiLog2BlockSize＝(log2(width)+log2(height))＞＞1 (1)

如果在当前TB中处理亮度分量，则将用于编码重要性系数标志的上下文集合设置(610)为uiLog2BlockSize的值的函数：

indexOnTbSize＝uiLog2BlockSize≤2？0：f(uiLog2BlockSize) (2)

其中f()是定义的查找函数：

因此，采用CABAC上下文的分离(separated)的集合，来对具有不同区域的TB的重要性系数标志进行编码。

由对重要性系数标志的编码有用的上下文的全局集合中的上下文地址ctxOffset来表示(620)上下文的这些不同的集合。对于色度分量，将ctxOffset设置(620)为0。

然后编码处理在当前TB的当前编码组中的每个系数上，从最后系数向最低频率系数循环(630)。在步骤640处，变量uiSig用于指示当前系数的重要性。对于非零系数，计算其重要性的编码的上下文索引。具体地，计算上下文增量(650)，并且作为基本上下文索引和增量之和获得上下文索引(660)。一旦获得了当前系数的上下文索引，则使用对应于该上下文索引的概率模型，对由变量uiSig表示的该系数的重要性bin进行算术编码或解码(670)。一旦循环到达了当前CG中具有最低频率的系数(680，690)，该处理结束。处理600结束于步骤699。

上下文增量计算(650)取决于上下文区域和在由局部模板所覆盖的邻域中先前编码的系数的重要性系数标志的值。在如图5所示的示例中，TB被划分为三个上下文区域，并且当X对应于要处理的当前系数时，系数x₀，...，x₄对应于形成该局部模板的系数。

图7图示了计算上下文索引增量的示例性方法700。可以在方法600的步骤650中使用方法700。此处，基于上下文区域以及相邻系数的重要性标志之和，来确定上下文增量(710)。

数学上，将与位置(x，y)处的变换系数X相关联的上下文增量计算如下：

-计算(720)模板(即，相邻系数的集合(x₀，...，x₄))中的重要性系数的数目：

其中sig(x_i)是系数x_i的重要性。

-将系数X所属的对角的索引计算(730)为其坐标的和：

diag＝posX(X)+poxY(X) (3)

-通过将diag与预定义的阈值进行比较，来决定(740、750、755、760、765)系数X所属的区域：

region_SIG＝(diag＜2？ 6∶0)+(diag＜5？6∶0) (4)

-最后，将当前系数X的上下文增量计算(770)为：

ctxIncrement＝region_SIG+num_SIG (5)

以类似的方式，但利用上下文模型的单独集合来处理亮度和色度分量。

JVET中所使用的以上方案是基于以下假设，即空间变换朝向较低频率的系数压紧能量，并且遵循重要性系数的似然性的递减顺序的上下文区域拆分提供了更精确的概率建模。然而，这些上下文区域并非总是适应于实际的信号统计。

接下来，描述修改上下文增量计算的几个实施例。通常，本实施例是针对重要性系数标志和其他语法元素(诸如大于1或大于2的标志)的编码和解码。在一个实施例中，对用于CABAC模型索引选择的上下文区域进行修改以适应于信号统计。所提出的技术可以更有效地选择用于编码变换系数的CABAC上下文模型索引，并且因此可以在小的复杂度增加的情况下提供良好的压缩效率。

接下来，描述这些语法元素的基于上下文的编码的几个实施例。因为系数级别的统计在视频序列之间可能不同，所以可以根据块的重要性统计来确定用于编码与变换系数相关联的语法元素的上下文。因此，为这些语法元素的编码和解码带来了对上下文区域设计的一些调整。

为了理解信号统计中的变化，收集来自不同的视频序列的8×8块的经量化的系数。应当注意，8×8块用作非限制性示例，并且本技术可以应用于其他的块大小。对于两个示例性视频序列，图8中将每个频率位置处的非零概率可视化。这两个不同的视频序列之间的分布是不同的，这促使我们设计适应于统计的上下文区域。

如上所述，对于JEM，系数X所属的上下文区域是通过将其坐标(x，y)之和与等式(4)中描述的预定义的阈值进行比较所决定的。将JEM方案应用到图8中所使用的视频，图9中示出了上下文区域。在此示例中可以看到，序列BasketballDrive_1920x1080_50的系数的非零概率沿水平方向迅速减小。如果应用固定的对角上下文区域，则具有不同的非零概率的一些bin将会共享相同的上下文集合，这可能会降低效率。

为了适应于视频序列，而不是如JEM中那样使用频率位置，可以采用非零概率统计和几个预定义的概率阈值来决定变换系数所属的上下文区域。为了不引入重要的开销，可以应用移动窗口估计方案，其中编码器和解码器两者使用来自先前编码的帧的统计，来估计当前帧的概率。

重要性概率估计处理可以进行如下：

1.在对先前编码的帧(i-1)进行编码时，对给定TB大小的频率位置(x，y)处的非零系数出现C[i-1][y][x]以及TB数目M进行计数。以显示顺序或以解码顺序，帧(i-1)中TB的观测非零概率可通过以下方式获得：

P_C[i-1][y][x]＝C[i-1][y][x]/M (6)

2.对于第一个经编码的帧0，没有来自先前帧的估计非零概率。在一个示例中，我们可以为帧0使用一些预先确定的概率。对于其他帧，可以使用更新速率k来控制由观测非零概率P_c[i-1][y][x]带来的更新，获得估计非零概率：

P_e[i][y][x]＝(1-k)*P_e[i-1][y][x]+k*P_c[i-1][y][x]，i≥1 (7)

更新速率k的值可以取决于先前帧的切片类型而不同。例如，当先前帧是I切片时，由于内容可以变化很多，所以k＝1/2，当先前帧是P切片时，k＝1/4，以及对于B切片，k＝1/8。

在另一实施例中，可以使用量化参数来估计非零概率。通常，如果当前帧的QP(QP_i)大于先前帧的QP(QP_i-1)，则更多的系数更有可能为零；并且如果QP变小，则非零概率增加。因此，在一个示例中，我们可以使用与QP相关联的比例因子：

在其他实施例中，非零概率统计不仅可以通过TB大小来收集，还可以通过其他参数来收集，诸如编码模式(帧间或帧内)、预测模式、和EMT索引。

使用估计的非零概率，或者更一般地，使用变换系数的统计，开发不同的技术来拆分上下文区域用于分配CABAC上下文，这些CABAC上下文被用于对变换系数信息(诸如重要性信息)进行编码/解码。

在第一实施例中，系数X所属的上下文区域是通过将其坐标(x，y)处的估计的非零概率P_e[i][y][x]与预定义的阈值进行比较来决定的：

region_SIG＝(P_e[i][y][x]＜P_th1？6∶0)+(P_e[i][y][x]＜P_th2？6∶0) (8)

其中P_th1和P_th2分别是区域1和区域2的预定义的阈值。可以通过实验确定P_th1和P_th2的值。例如，在生成并分析了几个JVET测试序列上的概率之后，可以在一个实施例中使用P_th1＝0.3和P_th2＝0.2。可以改变预定义的阈值的值，以适应于不同的TB大小和序列内容。应当注意，区域1或区域2可以仅是点的集合，这些点不一定形成连通区域。在一些极端情况下，区域可以仅包含一个点。

图10图示了根据第一实施例的用于计算使上下文区域适应于非零概率统计的上下文增量的示例性方法1000。在编码器和解码器处都可以使用方法1000。可以在方法600的步骤650中使用方法1000。方法1000的输入包括当前TB的块大小、当前TB中的当前变换系数位置(x，y)、以及该系数位置的估计的非零概率P_e[y][x]。分别类似于方法700的步骤710、720和770来执行步骤1010、1020和1060。在步骤1030-1055中，方法1000不是如方法700中那样基于系数位置来设置区域索引，而是基于变换系数统计，例如使用等式(9)，来确定上下文区域。

将方法1000应用到图8和图9中所使用的视频，图11中针对块大小8×8图示了所获得的上下文区域。注意到与图9中所示的上下文区域相比，根据重要性统计动态地修改了上下文区域。具体地，对于此示例，区域R1的上下文集合不仅被用于图9所描绘的固定的顶部部分，而且被应用于具有估计的非零概率P_e[y][x]＞P_th1的块的第一列中的系数；并且上下文区域R2不单单依赖于系数的频率位置，而且基于P_e[y][x]＞P_th2。事实上，对重要性进行编码的条件熵更小，因为使用相同上下文的bin更加相关。由于对上下文的选择的改进，因此对bin进行编码的速率成本可以降低，并且可以预期可能的比特减少。

在第二实施例中，将信号统计用于创建更多上下文集合。具体地，将位置信息用于初始分配CABAC上下文，并且将概率统计用于分离所分配的上下文。

图12图示了根据第二实施例的用于使用位置信息和信号统计来计算上下文增量的示例性方法1200。在编码器和解码器两者处都可以使用方法1200。可以在方法600的步骤650中使用方法1200。

方法1200的输入包括当前TB的块大小、当前TB中的当前变换系数位置(x，y)、以及该系数位置的估计的非零概率P_e[y][x]。分别类似于方法700的步骤710、720和730来执行步骤1210、1215和1220。在步骤1225处，将上下文增量初始化为0(即，region_SIG＝0)。

在步骤1230处，编码器或解码器检查是否diag＜2。如果是，则region_SIG增加(1235)12。编码器或解码器进一步检查(1240)非零概率是否大于第一阈值，即，是否P_e[y][x]＞P_th1。如果是，则region_SIG增加(1245)6。在步骤1250处，编码器或解码器检查是否diag＜5。如果是，则region_SIG增加(1255)12。编码器或解码器进一步检查(1260)非零概率是否大于第二阈值，即，是否P_e[y][x]＞P_th2。如果是，则region_SIG增加(1265)6。在步骤1270处，编码器或解码器检查(1270)非零概率是否大于第三阈值，即，是否P_e[y][x]＞P_th3。如果是，则region_SIG增加(1275)6。在步骤1280处，将来自位置和统计信息的上下文增量(region_SIG)添加到来自模板的上下文增量(num_SIG)，以获得当前变换系数的上下文增量。

因此，将系数的坐标信息用于分配初始的上下文区域。此外，第二实施例测试当前系数所处坐标处的估计的概率是否高于每个区域中预定义的概率阈值。如果是，则上下文索引增加6。作为上下文分配中的这些变化的结果：

-每个区域被进一步拆分为2个子区域：如图13中所示的低概率区域和高概率区域；

-每个区域采用12个上下文索引，而不是6个上下文索引。具体地，子区域R1_hp和R1_lp一起对应于图9中的R1，R2_hp和R2_lp一起对应于图9中的R2，R3_hp和R3_lp一起对应于图9中的R3。R1_hp将使用上下文索引30-35、R1_lp将使用上下文索引24-29，R2_hp将使用上下文索引18-23，R2_lP将使用上下文索引12-17，R3_hP将使用上下文索引6-l1，并且R3_lp将使用上下文索引0-5。

通过使用位置信息和统计信息，第二实施例分配与概率统计更相关的CABAC上下文，并且还可以通过使用位置信息作为约束，来避免一些极端的区域拆分(即，一个上下文区域仅包含一个系数)。

第一和第二实施例都为计算上下文增量提供了改进。如图6所示，可以将上下文增量添加到基本上下文索引，以获得用于熵编码的实际上下文索引。更一般地，可以将上下文增量看作调整上下文索引的机制，并且可以将其单独应用，或者在使用获得基本上下文索引的其他方法时应用。

在图l1或图13所示的以上示例中，使用了三个区域。在其他实施例中，所提出的上下文区域调整可以例如通过添加或去除预定义的概率阈值，来增加或减少区域的数目。此外，上下文区域调整可以通过添加或去除预定义的概率阈值，来增加或减少每个区域中的子区域的数目。

主要针对用于对与重要性标志相关联的语法元素进行熵编码或解码的上下文索引设计来描述以上方法。但是，也可以执行所提出的技术用于编码与变换系数相关联的其他语法元素，诸如coeff_abs_level_greater1_flag和coeff_abs_level_greater2_flag语法元素，它们将分别基于大于一的概率和大于二的概率。更一般地，可以应用本技术，以对指示经量化的变换系数的绝对值是否大于X(X为0、1、2、3或另一值)的语法元素进行编码。

本实施例可以应用于基于上下文建模的其他熵编码方法，以辅助将上下文索引分配给系数。

上文描述了各种方法，并且每种方法包括用于实现所述方法的一个或多个步骤或动作。除非该方法的正确操作要求步骤或动作的特定顺序，否则可以对具体步骤和/或动作的顺序和/或使用进行修改或组合。

在本申请中使用了各种数值，例如，模板中使用的变换系数的数目、区域或子区域的数目、以及几个阈值。应当注意，各特定值是用于示例性目的，并且本实施例不限于这些特定值。

以上熵编码的方法可以用于修改如图1和图2中所示的JVET或HEVC编码器和解码器的熵编码模块(145，230)。此外，本实施例不限于JVET或HEVC，并且可以应用于其他标准、建议、及其扩展。可以个别使用或组合使用上述各种实施例。例如，可以在使用其他扫描模式或其他分区方法时使用本实施例。虽然上文利用如JEM中的模板(x₁-x₄)来描述各方法。应当注意，各方法是独立于模板的，并且其可以在没有模板的情况下使用，或者可以与其他模板一起使用。

图14图示了其中可以实现示例性实施例的各个方面的示例性系统1400的框图。系统1400可以被实施为包括下述各种组件的装置，并且其被配置为执行上述处理。这种装置的示例包括但不限于个人计算机、膝上型计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收机、个人视频记录系统、连接的家用电器、以及服务器。系统1400可以通信地耦合至其他类似的系统，并经由如图14所示并且如本领域技术人员所知的通信信道通信地耦合至显示器，以实现上述示例性视频系统的全部或部分。

系统1400的各种实施例包括至少一个处理器1410，其被配置为执行加载在其中的用于实现以上论述的各种处理的指令。处理器1410可以包括嵌入式存储器、输入输出接口、和本领域已知的各种其他电路。系统1400还可以包括至少一个存储器1420(例如，易失性存储器件、非易失性存储器件)。系统1400还可以包括储存装置1440，其可以包括非易失性存储器，包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器、和/或光盘驱动器。作为非限制性示例，储存装置1440可以包括内部储存装置、附加储存装置、和/或网络可访问储存装置。系统1400还可以包括编码器/解码器模块1430，其被配置为处理数据以提供经编码的视频和/或经解码的视频，并且编码器/解码器模块1430可以包括其自己的处理器和存储器。

编码器/解码器模块1430代表可以包括在装置中以执行编码和/或解码功能的(多个)模块。众所周知，这种装置可以包括编码模块和解码模块中的一种或两种。此外，编码器/解码器模块1430可以被实现为系统1400的单独元件，或者可以作为本领域技术人员已知的硬件和软件的组合并入处理器1410内。

要加载到一个或多个处理器1410上以执行上述各种处理的程序代码可以存储在储存装置1440中，并随后加载到存储器1420上用于由处理器1410执行。根据示例性实施例，(多个)处理器1410、存储器1420、储存装置1440和编码器/解码器模块1430中一个或多个可在执行本文上面讨论的处理期间存储各个项目中的一项或多项，包括但不限于输入视频、解码视频、比特流、方程式、公式、矩阵、变量、运算、和运算逻辑。

系统1400还可包括使能经由通信信道1460与其他装置进行通信的通信接口1450。通信接口1450可以包括但不限于被配置为从通信信道1460传送和接收数据的收发器。通信接口1450可以包括但不限于调制解调器或网卡，并且通信信道1450可以在有线和/或无线介质内实现。系统1400的各个组件可以使用各种合适的连接而连接或通信耦合到一起(图14中未示出)，包括但不限于内部总线、电线、和印刷电路板。

示例性实施例可以由处理器1410实现的计算机软件、或硬件、或硬件和软件的组合来执行。作为非限制性示例，示例性实施例可以由一个或多个集成电路实现。作为非限制性示例，存储器1420可以是适合技术环境的任何类型，并且可以使用任何适当的数据储存技术来实现，例如，光存储装置、磁存储装置、基于半导体的存储装置、固定存储器、和可移除存储器。作为非限制性示例，处理器1410可以是适合于技术环境的任何类型，并且可以包括基于多核架构的微处理器、通用计算机、专用计算机和处理器中的一个或多个。

本文描述的实现方式可以例如以方法或处理、设备、软件程序、数据流、或信号来实现。即使仅在单一形式的实现方式的上下文中进行讨论(例如，仅作为方法讨论)，所讨论的特征的实现方式也可以其他形式(例如，设备或程序)来实现。设备可以例如以适当的硬件、软件和固件来实现。所述方法可以在例如诸如处理器之类的设备中实现，该设备一般指代处理装置，包括例如计算机、微处理器、集成电路、或可编程逻辑器件。处理器还包括通信装置，例如计算机、手机、便携式/个人数字助理(“PDA”)、和有助于最终用户之间的信息通信的其他装置。

对“一个实施例”或“实施例”或“一种实现方式”或“实现方式”、及其其他变体的引用意味着结合实施例所描述的特定特征、结构、特性等等被包括在至少一个实施例中。因此，在整个说明书的各个地方出现的短语“在一个实施例中”或“在实施例中”或“在一种实现方式中”或“在实现方式中”、以及任何其他变体的出现并不一定全都指代相同的实施例。

此外，本申请或其权利要求可指代“确定”各条信息。确定信息可以包括例如估计信息、计算信息、预测信息、或从存储器中检索信息中的一个或多个。

此外，本申请或其权利要求可指代“访问”各条信息。访问信息可以包括例如接收信息、(例如，从存储器中)检索信息、存储信息、移动信息、复制信息、计算信息、预测信息、或估计信息中的一个或多个。

此外，本申请或其权利要求可指代“接收”各条信息。与“访问”一样，接收意欲为广义的术语。接收信息可以包括例如访问信息、或(例如，从存储器中)检索信息中的一个或多个。此外，通常在诸如存储信息、处理信息、传送信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息、或估计信息的操作期间，以一种方式或另一方式涉及“接收”。

对于本领域技术人员来说将显而易见的是，各实现方式可以产生各种信号，这些信号被格式化以携带可被例如存储或传送的信息。该信息可以包括，例如用于执行方法的指令、或由所述实现方式中的一种所产生的数据。例如，信号可以被格式化以携带所述实施例的比特流。这种信号可以被格式化为，例如电磁波(例如，使用谱的射频部分)或基带信号。格式化可以包括，例如对数据流进行编码并用经编码的数据流来调制载波。信号携带的信息可以是，例如模拟或数字信息。如已知的，可以通过各种不同的有线或无线链路来传送信号。可将信号存储在处理器可读介质上。

Claims

1.一种用于视频解码的方法，包括：

基于画面的一个或多个先前画面，估计所述画面的块的经量化的变换系数为零或非零的概率；

响应于所述概率和所述经量化的变换系数的位置，确定与所述经量化的变换系数相关联的语法元素的上下文模型；

基于所述上下文模型，对所述语法元素进行熵解码；以及

响应于所述经解码的语法元素，解码所述经量化的变换系数。

2.一种用于视频编码的方法，包括：

基于视频中的画面的一个或多个先前画面，估计所述画面的块的经量化的变换系数；

访问所述经量化的变换系数为零或非零的概率；

响应于所述概率和所述经量化的变换系数的位置，确定与所述经量化的变换系数相关联的语法元素的上下文模型；以及

基于所述上下文模型，对所述语法元素进行熵编码。

3.一种用于解码视频数据的设备，至少包括存储器和一个或多个处理器，其中所述一个或多个处理器被配置为：

基于所述上下文模型，对所述语法元素进行熵解码；以及

4.一种用于编码视频数据的设备，至少包括存储器和一个或多个处理器，其中所述一个或多个处理器被配置为：

访问视频中的画面的块的经量化的变换系数；

基于所述画面的一个或多个先前画面，访问所述经量化的变换系数为零或非零的概率；

响应于所述概率和所述变换系数的位置，确定与所述经量化的变换系数相关联的语法元素的上下文模型；以及

基于所述上下文模型，对所述语法元素进行熵编码。

5.如权利要求1或2所述的方法，或如权利要求3或4所述的设备，其中所述确定上下文模型响应于所述概率与至少第一值之间的比较。

6.如权利要求1、2和5中任一项所述的方法，或如权利要求3-5中任一项所述的设备，其中所述语法元素指示(1)所述经量化的变换系数是否为零，或(2)所述经量化的变换系数的绝对值是否大于第二值。

7.如权利要求6所述的方法，或如权利要求6所述的设备，其中估计所述经量化的变换系数大于所述第二值的概率。

8.如权利要求1、2和5-7中任一项所述的方法，或如权利要求3-7中任一项所述的设备，其中使用CABAC(上下文自适应二进制算术编码)用于熵编码或解码。

9.如权利要求1、2和5-8中任一项所述的方法，或如权利要求3-8中任一项所述的设备，其中所述上下文模型进一步响应于基于先前画面的量化参数和所述画面的量化参数的比率的比例因子。

10.如权利要求9所述的方法，或如权利要求9所述的设备，其中响应于(1)所述块中的所述经量化的变换系数的x坐标和y坐标之和与(2)至少第三值的比较，而确定所述上下文模型。

11.如权利要求10所述的方法，或如权利要求10所述的设备，其中基于所述块的变换系数的位置，将所述块划分为多个上下文区域，其中基于所述区域中的变换系数的概率，将上下文区域划分为两个或更多子区域，并且其中每个子区域共享相同的上下文模型索引集合。

12.如权利要求1、2和5-11中任一项所述的方法，或如权利要求3-11中任一项所述的设备，其中所述上下文模型进一步响应于与所述变换系数相邻的变换系数。

13.如权利要求1、2和5-12中任一项所述的方法，或如权利要求3-12中任一项所述的设备，其中基于所述画面的所述一个或多个先前画面中与所述块具有大小相同的块，来估计所述概率。

14.如权利要求1、2和5-13中任一项所述的方法，或如权利要求3-13中任一项所述的设备，其中通过以下至少一项收集所述概率：(1)所述块的大小，(2)所述块的编码模式，以及(3)所述块的预测模式。

15.一种比特流，被格式化为包括：

语法元素，其与视频中的画面的块的经量化的变换系数相关联，

其中基于上下文模型来对所述语法元素进行熵编码，

其中响应于所述变换系数的位置和所述经量化的变换系数为零或非零的概率，而确定所述上下文模型，并且

其中所述概率基于所述画面的一个或多个先前画面。