CN103329522A

CN103329522A - 用于使用字典编码视频的方法

Info

Publication number: CN103329522A
Application number: CN2011800627883A
Authority: CN
Inventors: R·A·科恩; J·康; 安东尼·韦特罗
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-12-28
Filing date: 2011-12-20
Publication date: 2013-09-25
Anticipated expiration: 2031-12-20
Also published as: DE112011104625T5; TWI469644B; CN103329522B; US20120163451A1; TW201234864A; US8767835B2; JP2013538471A; WO2012090975A1; JP5566529B2

Abstract

通过保持从解码的预测残差信号生成的字典的组来解码被编码为比特流的视频，其中，所述字典的组的元素具有关联的索引。当前的宏块被熵解码并且被逆量化以产生解码系数。对于当前宏块，根据比特流中信令的复制模式选择字典的组的特定字典，并且根据比特流中的复制模式信号和关联的索引来选择特定字典的特定元素。使用解码的系数对特定元素进行缩放和组合，以重构当前解码的宏块预测残差信号。然后，当前解码的宏块预测残差信号被与之前解码的宏块组合以生成重构的视频的输出宏块，其中，在解码器中执行上述步骤。

Description

用于使用字典编码视频的方法

技术领域

本发明一般地涉及视频编码和解码，并且更具体地涉及用于使用字典编码视频的方法。

背景技术

视频编码联合协作组（JCT-VC）已经开始了视频编码标准项目（即，高效视频编码（HEVC））。该标准的一个目的在于在更广泛的应用和更宽的比特范围内相对于较旧的H.264/AVC标准改进编码性能。HEVC视频编码标准的初始框架并没有显著不同于之前的视频编码标准（例如，在基于块的预测技术、2D离散余弦变换（DCT）变换和基于上下文的熵编码中）。新的编码工具更先进并且更灵活，但是增加了计算复杂性。与传统的编码技术相同的是，编码器和解码器对于视频的帧的序列进行操作。视频中的帧被划分到像素的宏块中。宏块能够在帧内空间地相邻（帧内模式编码的情况），并且在连续地帧中在时间上相邻（帧间模式编码的情况）。

正交和双正交完备字典（例如，DCT或小波）已经用于图像和视频编码中的主要变换域表示。超完备字典上的信号的稀疏和冗余表示已经成功地应用于各种应用（例如，图像降噪）。

与传统的视频编码标准相比，超完备视频编码技术能够以非常低的比特率实现有竞争力的编码增益。基本来说，基于块的2-D DCT变换被超完备视频编码中的更大和更适合的基函数的扩展所替代。在较低的比特率视频编码的情况下，由于较大的量化参数（QP），使得利用较少的非零DCT系数表示残差信号，并且因此在宏块中仅出现了低频分量。在该情况下，超完备字典的组能够提供比字典的完备组更多种且更可靠的残差信号的表示。因此，能够利用更少的系数来更好地近似残差信号。

传统的超完备视频编码利用调制伽柏函数来构造字典组。匹配追踪（MP）用于选择表示中的最适合的字典元素。MP确定用于稀疏信号表示的次优解决方案。能够通过将由诸如小波、曲线波和离散傅立叶变换（DFT）的多种分析函数生成的字典连接在一起来改变字典的组。曲线波是小波概念的扩展。曲线波使用非适应性技术用于多尺度对象表示。小波通过使用表示位置和空间频率两者的基底来一般化傅立叶变换。对于2D或3D信号来说，方向性小波变换使用也在取向上局域化的基函数。曲线波变换与其它方向性小波变换的不同之处在于取向上的局域化的程度随着尺度变化。

然而，除了其简单性之外，这些模型具有缺点。自然图像或视频常常包含没有很好地由这些模型表示的特征。在这些情况下，较差的重构或诸如振铃的缺陷会引入到解码图像或视频中。

由于残差信号趋于在预测之后具有方向性取向，因此能够使用字典训练。因此，能够通过反映残差信号的特性而很好地设计字典的组。依赖于模式的方向性变换能够用于帧内编码。完备字典能够使用对应于方向性预测的帧内预测残差来构造。字典训练也能够适合图像编码应用中的帧内预测。

发明内容

本发明的实施方式提供了一种用于使用字典的组编码和解码视频的方法。使用采样来训练该字典组，其中，采样是帧间或帧内预测残差信号。字典元素的组也能够用于相邻宏块。使用率失真优化来确定字典元素的最优数目。

本发明的效果

本发明提供了基于上下文适应性超完备字典的基于字典的视频编码技术。我们使用帧间和/或帧内预测残差采样来训练字典的组，并且将字典应用于稀疏信号表示。字典元素可以再次用于编码后续采样。

附图说明

图1是现有技术的编码器的框图；

图2是根据本发明的实施方式的编码器的框图；以及

图3是根据本发明的实施方式的构造超完备字典的处理的示意图；以及

图4是现有技术的解码器的框图；

图5是根据本发明的实施方式的解码器的框图；以及

图6是根据本发明的实施方式的复制模式评估器的框图。

具体实施方式

信号

能够表示为超完备字典

中的m个元素的稀疏线性组合，其中，m充分大于n并且D是满秩矩阵。

当非零元素的数目大于基底中的非零元素的数目时，我们将字典定义为是超完备的。超完备实现了更稳定的且紧凑的表示。

我们利用最少数量的字典元素来近似信号y。根据下式来确定稀疏表示

\min_{x} {| | x | |}_{0} s . t . {| | y - Dx | |}_{2} \leq δ, - - - (1)

其中，

是表示信号y的系数的矢量，|.|表示信号的l_p规范，并且δ是小的预定阈值。

对字典进行训练以更好地适合采样数据。因此，等式（1）中的最小化问题能够被转换为获得针对用于信号y的表示的给定稀疏约束C的最佳字典，如

\min_{x, D} {| | y - Dx | |}_{2} s . t . {| | x | |}_{0} \leq C, - - - (2)

对字典进行训练以当非零系数的数目少于或等于C时提供实际信号的更好的表示。

如图3中所示，与传统的图像编码不同地，我们执行帧内或帧间预测，并且然后，对视频信号的残差数据采样451进行编码。分类器210生成针对上下文I和K的对应的训练221-222的上下文I211和上下文K212。如图3中所示，上下文K的字典231包含比用于上下文I的字典232的更随机元素更多的对角元素。对角元素对于帧间编码中的边缘表示来说是有用的。

因此，在本发明的一个实施方式中，在编码当前视频序列之前使用预测残差信号451训练字典。这样的训练通常使用单独的训练视频的组离线地完成。编码器和解码器都具有相同的字典的组，其通常对于视频序列的编码来说是固定的。

在本发明的另一实施方式中，在当前视频序列的编码和解码过程中使用预测残差信号451对字典进行训练。利用该实施方式，用于训练的数据包括与当前视频的之前解码的采样关联的预测残差信号，其在编码器和解码器处都是可用的。编码器和解码器都保持同样的字典组，但是字典是动态的，并且在视频序列的编码和解码处理期间周期性地更新。

字典训练能够忽略残差信号特性的局部变化，从训练数据的非常大的组产生字典元素的相对较小的组。因此，残差采样的一些显著特征会被从字典组中删除。为了解决该问题，我们在训练221-222字典时应用残差采样的上下文211-212。

分类器210能够随着残差采样的类型而变化。例如，在帧内编码残差中，我们假设残差采样具有特定特性，其在根据H.264/AVC标准的编码器/解码器中具有方向性帧内预测。因此，分别从对应于预测方向的采样451构造多个字典组。

在决定了针对给定宏块的帧内预测模式之后，分类器210用于指示使用哪个上下文211-212，并且然后，在编码过程中应用对应的字典。因此，在解码器中不要求任何额外方信息。在帧间编码残差信号中，分类器检查采样的能量并且将能量转发给对应的训练模块以生成我们的上下文适应字典。因此，通过在解码器中已经可用的数据来确定上下文。

基于字典的元素的视频编码

在从通用数据采样训练字典组之后，字典用于编码过程中的输入残差信号的稀疏表示。

图1示出了传统的编码器。输入为宏块301并且输出为比特流309。宏块被变换310、量化320为量化信号。量化信号被熵编码330以产生比特流309。熵编码器的输出在与输入宏块301组合时还被逆量化340、逆变换350并且用于帧内预测360。

传统的解码器

图4示出了传统的解码器。输入为比特流1451并且输出为宏块1457。比特流被熵解码1452并且被逆量化1453。解码后的变换系数被逆变换1454。帧内或帧间预测残差1455被组合1456以产生解码宏块。该宏块被输出并存储在缓冲器1456中以用于重构将来的解码宏块。

基于字典的编码器

图2示出了根据本发明的实施方式的编码器。能够在本领域中已知的连接到存储器和输入/输出接口的处理器中执行编码器的步骤。

编码器的输入是当前宏块301。用于视频的特定片段的字典被在进行视频的特定片段的编码之前使用预测残差信号451进行训练401。在量化320之前选择402字典元素（原子）中的最佳匹配基底。诸如匹配追踪（MP）的处理能够用于元素选择402。

复制模式评估器450输入有用于之前的块452的字典索引、预测残差信号451、字典指示器、字典元素索引和当使用其自己的字典元素（即，在没有使用复制模式评估器的情况下选择的元素）编码时的当前块的失真。评估器生成复制模式信号453，其依赖于评估是否使用之前计算的字典索引组的执行比使用新计算的字典索引的执行更好的率失真优化决定处理的结果。在图6中示出了复制模式评估器（CME）。

简要参考图6，CME的输入是用于之前编码块452的字典索引和用于当前块301的预测残差。特定字典（A-D）用于当前块以确定缩放系数402，并且然后确定重构的解码预测残差451，其被输入到R-D成本优化处理600以产生复制模式信号453。

继续图2，所选择的字典元素被逆量化340以产生逆量化信号，其被熵编码330以产生比特流309。从逆量化340信号重构403视频。重构的视频然后用于帧内预测360。

MP被已知为稀疏信号表示中的次优的易处理的方案。在本发明的优选实施方式中，我们使用MP来选择402字典中的适合的元素。在每个循环过程中，MP通过使得重构的视频的残差信号最小化来形成字典元素的线性组合。因此，要求包括系数值和指示哪些字典元素用于在解码器中重构信号的一个或更多索引的组。循环不超过等式2的稀疏约束C，并且当率失真（R-D）成本最小时终止，从而能够利用少于或等于稀疏约束的数目的非零系数来最优地表示信号。

在字典元素的选择402之后，系数被进行量化320和熵编码330。能够拟合拉普拉斯分布以绘制我们的方法所使用的字典的组的系数分布。因此，统一的量化器在效率方面对于本发明来说是适合的。

在熵编码器330中，基于缩放系数的统计经由霍夫曼表对缩放系数值进行二值化。字典索引的出现对于索引来说是基本上均匀的，因此，任何适应性或固定的扫描顺序不能够高效地收集非零系数。因此，利用其大小为

的固定长度码来对索引进行编码，其中，m是字典元素的数目。

在也由解码器执行的重构403过程中，量化的缩放系数被用于字典元素的线性组合中的权重。所使用的字典元素的组由索引的组来表示。

除了上述处理之外，编码器还集成有复制模式评估器（CME）450。CME的输入是将进行编码的当前预测残差信号和用于编码之前编码块的字典指示器和元素索引的组。字典指示器指示哪个字典用于编码之前编码块，并且元素索引指示该字典内的哪些元素用于编码之前编码块。

然后，CME使用用于编码之前编码块的相同元素来对当前预测残差进行再编码。对于若干其它之前编码的块重复该处理。通常，检查与当前块相邻的块，例如，左侧的块、上面的块、左上的块以及右上的块。

比较针对所有情况生成的失真值与使用上述字典元素选择生成的失真。如果字典元素产生了最少的失真，则将字典元素索引和对应的缩放系数包括在输出的比特流中。

如果复制模式中的一个产生了最少的失真，则将复制模式信号和信令哪个复制模式最佳的指示符包括在比特流中。在使用复制模式的情况下，不需要在该时间点信令字典元素索引，这是因为当编码之前的块时已经发送了该索引。

基于字典的解码器

图5示出了根据本发明的实施方式的解码器。输入为编码视频比特流501并且输出为解码宏块509。比特流中的每个当前宏块被熵解码510，并且被逆量化520以生成解码系数521。系数被输入到缩放器和组合器530。系数用于缩放一个或多个字典元素。缩放后的元素通常被线性组合以重构解码宏块预测残差信号。该残差与缓冲器540中存储的之前解码的宏块组合以产生输出宏块509。

从比特流501解码的索引502被存储在索引缓冲器505中。索引用于选择550用于重构当前预测残差的字典元素551。在经由比特流没有接收到索引的情况下，使用复制模式信号503来指示使用之前使用的字典元素的哪组来解码当前块。例如，复制模式值能够指示使用用于产生当前块的左侧块的元素来重构当前块。在另一示例中，能够使用用于产生当前块的上面的块的元素。具有该复制模式信号的主要目的在于，与索引相比，这要求少得多的比特。

由于能够根据在编码器处所使用的预测模式使用各存储的字典570，因此，使用预测模式信号504来选择560在解码器中将使用哪个存储的字典。预测模式504也由解码器中的帧内/帧间预测模块580使用，与在传统的解码器中使用预测模式的方式类似。

R-D最优字典元素选择

通过MP选择550字典元素，并且在循环过程中确定系数。大多数视频编码标准的重要特征是R-D优化，其用于多个决定处理，例如，当终止在550中执行的在下面的等式（3）中描述的循环MP处理时的决定处理以及在图6的复制模式评估器的模块600中的决定处理。替代固定数目的系数，编码器能够通过最小化由D(N)+λR(N)定义的R-D成本来提供最佳稀疏近似，其中，R(N)是估计的比特数，D(N)是原始和重构信号之间的均方差（MSE），并且λ是拉格朗日乘数。

R-D失真还表示何时编码器终止MP中的循环。通过丢弃N，能够通过下式来确定非零系数的最优数目

\begin{matrix} N^{*} = \underset{N &Element; {0,1, . . ., C}}{\arg \min} {D (N) + λR (N)} \\ \underset{N &Element; {0,1, . . ., C}}{\arg \min} {D + λ (R_{H} + R_{C} + R_{I})} \end{matrix}, - - - (3)

其中，C是给定的稀疏约束，并且R_H、R_C和R_I分别表示所要求的用于头的比特，MP缩放系数和索引表示。

头信息包括非零系数的数目（即，循环的数目），从而解码器确定重构过程中的元素的正确数目。编码器提供了利用最优值的特定比特预算的约束中的最佳稀疏近似。该处理还可以在解码器中使用，例如，在图5的字典元素选择器550中使用。

利用字典索引复制方法的先进编码技术

除了使用MP的字典索引选择处理之外，我们还提供了索引复制方法。一般来说，能够假设相邻块在空间域中具有类似的上下文。并且，字典元素在重构过程中表现为基函数。因此，能够在相邻的残差信号中出现类似图案时在相邻块中重新使用字典元素的相同组。通过应用之前的字典元素来确定当前信号的系数。因此，解码器能够减少索引编码所要求的比特的量。标志被信令以指示候选中通过检查R-D成本而选择600的索引组的来源。

当信号特性在相邻块中基本上稳定时，该索引复制方法能够是高效的。因此，该方法能够适用于视频的同种区域中的相邻块。

工业实用性

本发明的方法可应用于很多领域中的很多视频编码和解码。

Claims

1.一种视频解码器中对编码为比特流的视频进行解码的方法，所述方法包括下述步骤：

保持从解码预测残差信号生成的字典的组，其中，所述字典的组的元素具有关联的索引；

对所述比特流的当前宏块进行熵解码和逆量化以产生解码系数；

对于当前宏块，根据在比特流中传送的预测模式选择所述字典的组中的特定字典，并且根据所述比特流中的复制模式信号及关联的索引选择所述特定字典的特定元素；

使用所述解码系数，对所述特定元素进行缩放和组合以重构当前解码宏块预测残差信号；以及

将所述当前解码宏块预测残差信号与之前解码的宏块进行组合以生成重构视频的输出宏块，

其中，在解码器中执行上述的步骤。

2.根据权利要求1所述的方法，其中，所述字典的组是超完备的。

3.根据权利要求1所述的方法，其中，所述预测模式选择将用于解码所述当前宏块的字典。

4.根据权利要求1所述的方法，其中，使用匹配追踪（MP）处理来选择所述元素。

5.根据权利要求3所述的方法，其中，所述MP处理通过使重构视频的残差最小来形成字典元素的线性组合。

6.根据权利要求3所述的方法，其中，反复进行所述MP处理，直到率失真成本最小。

7.根据权利要求1所述的方法，其中，基于所述系数的统计，通过霍夫曼表对所述系数进行二值化。

8.根据权利要求1所述的方法，其中，所述解码预测残差信号是从视频的之前解码的宏块获得的。

9.根据权利要求1所述的方法，其中，所述解码预测残差信号是从训练视频集的解码宏块获得的。

10.根据权利要求1所述的方法，所述方法进一步包括：

在编码器中保持所述字典的组以生成编码视频。

11.根据权利要求1所述的方法，其中，使用用于重构解码宏块的相同的字典元素来重构所述当前宏块。

12.根据权利要求10所述的方法，其中，使用成本函数来选择已经用于解码之前的宏块的字典元素集。

13.根据权利要求10所述的方法，其中，在重构所述当前块时，使用复制模式信号来指示何时应用之前使用的字典元素。

14.根据权利要求1所述的方法，其中，率失真成本指标中并入了索引所要求的码率、缩放系数和在所述解码器处重构所述宏块所需要的任何辅助数据。

15.根据权利要求1所述的方法，其中，所述索引被存储在缓冲器中以便于以后使用。

16.根据权利要求10所述的方法，其中，对于在所述解码之前训练的特定字典应用复制模式评估器和复制模式信号。

17.根据权利要求10所述的方法，其中，对于在编码和解码处理过程中计算的字典应用复制模式评估器和复制模式信号。

18.根据权利要求1所述的方法，其中，通过从视频的采样构造编码字典的组来对所述视频进行编码，其中，所述采样是预测残差，所述方法进一步包括：

将所述编码字典的组应用于视频以利用从所述字典的组中选择的元素生成所述视频的稀疏表示；

对所述稀疏表示进行量化以生成量化信号；以及

对所述量化信号进行熵编码以产生比特流。