CN104756496B

CN104756496B - 图像间预测方法和设备以及对应的编码方法和装置

Info

Publication number: CN104756496B
Application number: CN201380053391.7A
Authority: CN
Inventors: D.索罗; S.谢里吉; A.马丁; P.吉尔洛特尔; C.吉尔莫特
Original assignee: Thomson Licensing SAS
Current assignee: InterDigital VC Holdings Inc
Priority date: 2012-09-26
Filing date: 2013-09-25
Publication date: 2018-04-17
Anticipated expiration: 2033-09-25
Also published as: EP2901697A1; KR20150060730A; CN104756496A; JP6309010B2; WO2014048946A1; US20150264392A1; JP2015530841A; US9374597B2

Abstract

一种用于预测图像的像素的块以编码/解码该图像的方法和设备。该方法包括步骤(1)，定义要预测的所述块的因果邻域；步骤(2)，搜索候选片，在搜索候选片期间，依据属于与要预测的块所属于的图像不同的图像的至少一个片形成候选片的集合，每个片依据块并且依据所述块的因果的邻域形成；以及步骤(3)，块预测，在块预测期间，至少依据所述候选片的集合的至少一个片的块预测该块。

Description

图像间预测方法和设备以及对应的编码方法和装置

技术领域

本发明涉及图像编码的一般领域，并且尤其涉及图像间预测的一般领域。

背景技术

图像间预测在于利用视频的连续图像之间存在的时间冗余以获得该视频的高压缩率。

图像间预测的原理在于将当前图像划分为块或者宏块。然后，编码器找到视频的另一(前面或者未来)图像中的类似块。该另一图像通常称为参考图像。然后编码器编码运动矢量，该运动矢量依据要预测的块定义(多个)所述参考图像中找到的块的位置。然后编码器计算这两个块之间的差并且编码预测误差。然后向可以由此重建该块的解码器发送运动矢量和预测误差。

已知使用该类方法的很多视频编码/解码方案。尤其可以引用以下：标准MPEG-2(ISO/IEC JTC1/SC29/WG11MPEG00/2000年10月，运动画面和音频的编码)、MPEG-4/AVC(T.Wiegand、G.J.Sullivan、G.Bjontegaard和A.Luthra,“Overview of the H.264/AVC”视频技术的电路和系统，IEEE汇刊,卷13，7，560-576，2003年7月，或者事件HEVC(ITU-T Q.6/SG和ISO/IEC运动画面专家组(ISO/IEC JTC 1/SC 29/WG 11)。

用于预测块的块(更一般地说，区)的定义对于编码的有效性是决定性的。实际上，如果当前块和预测块的内容有很大不同，则预测误差将是显著的，这将导致用于编码该预测误差的相当数量的比特。

因此，有必要最小化选取在内容方面远离要预测的块的预测区的风险。

此外，在在发送器和接收器之间发送的上下文中，编码远程解码器用以重建被预测的图像所需的语法元素的成本相对高。例如，在MPEG-4/AVC标准的情况下，以两列将参考图像分组在一起：将时间上在属于要预测的块的图像前面的(被解码或者被重建的)图像分组在一起，以及将时间上后面的(被解码或者被重建的)图像分组在一起。在下文中，当引用时间上前面和/或后面的图像时，暗示这些图像被解码并且被重建。由此，为了指定参考图像的块，有必要向解码器发送用以指定两列图像中的一列的信息项、用以指示该列中的(参考)图像的索引的信息项和用以指示参考图像中的块的坐标的最后信息项。

发明内容

本发明的目的是克服现有技术的至少一个缺点并且显著地改进图像间编码方法的效率。

为了这个目的，本发明涉及一种预测图像的像素的块的方法，该方法包括：

-定义要预测的所述块的因果邻域的步骤；

-候选片的搜索步骤，在该候选片的搜索步骤期间，依据属于与要预测的块所属于的图像不同的图像的至少一个片形成候选片的集合，每个片由块和是该块的因果的邻域形成，以及

-块预测步骤，在该块预测步骤期间，至少依据所述候选片的集合的至少一个片的块预测该块。

因此，该方法减少有必要发送到诸如例如与标准MPEG-4/AVC有关的解码器的语法元素。

根据一个实施例，在块预测步骤期间，该块依据所述候选片的集合的片的块预测，所述块在内容方面接近要预测的块。

根据另一个实施例，块预测步骤包括

-字典定义子步骤，在该字典定义子步骤期间，依据所述候选片的集合的至少一个片形成至少一个词典；

-邻域预测子步骤，在该邻域预测子步骤期间，对于每个字典，使用字典的片的邻域的加权后的线性组合确定要预测的块的因果邻域的预测；选取优化预测的加权参数，以及

-块预测步骤，在该块预测步骤期间，由字典的片的块的像素的加权后的线性组合预测图像的像素块，所述线性组合的加权参数是已经在邻域预测子步骤期间确定的那些最优值。

根据本实施例，通过线性组合属于字典的块来确定块预测。该线性组合的加权参数是使得在距离意义上要预测的块的因果邻域的最佳预测变得可能的那些。因此，对于该块的预测误差被减小，因为加权参数被定义为最小化位于要预测的块周围的区(邻域)的预测误差但不直接最小化该块的预测误差，由此有利于图像的内容的连续性。

此外，因为邻域是因果的，所以解码器能够计算用于编码器侧块的预测的加权参数。这防止发送这些参数并且因此妨碍编码效率。

本发明还涉及实现该方法的编码/解码方法以及包含用于实现该处理的部件的设备和图像序列编码/解码装置。本发明还涉及一种信号，它的帧是特别的，因为它携带影响所述设备和/或编码和/或解码的装置的操作的特定信息项。

附图说明

将参考附图借助非限制性实施例和有利实现方式更好地理解和例示本发明，在附图中：

图1示出根据本发明的用于预测图像的像素块的方法的步骤的图；

图2给出定义因果邻域的示例；

图3示出该方法的块预测步骤的实施例；

图4示出该方法的块预测步骤的另一实施例；

图5示出字典的片属于同一图像的情况；

图6示出字典的片不都属于同一图像的情况；

图7示出依据第一片定义字典的情况；

图8示出字典的片不都属于同一图像的情况；

图9示意地示出实现本发明的设备的架构的示例。

具体实施方式

该方法包括步骤1，用于定义当前图像I_c的要预测的块B的因果邻域V。

图2给出定义因果邻域的示例。根据该示例，例如依据位于要预测的像素块B的左侧和上侧的三个块形成邻域V。邻域是N个值的矢量，每个值与属于该邻域的像素的值对应。本发明绝不限于邻域的该定义，而是延伸至因果邻域的任何定义，也就是说，在解码要预测的当前块之前在解码器可用的任何邻域。

在下文中，术语片(表示为X_k)将用以指定块B_k的像素和该块B_k的邻域V_k的像素的分组。邻域V_k是该块B_k的因果，并且具有与位于要预测的块B周围的邻域V的形式相同的形式。邻域关于像素块的因果性指示在该块的预测之前像素值已知。片X在下文中也用以指定要预测的像素块B的像素和邻域V的像素的分组。

返回图1，该方法还包括候选片的搜索步骤2，在候选片的搜索步骤2期间，由属于与要预测的块所属于的图像不同的图像的至少一个片X_k形成候选片的集合PS。此外，该方法还包括块预测步骤(3)，在该步骤期间，至少依据所述集合PS的至少一个片的块预测块B。

根据一个实施例，选取候选片的子集合SPS的每个片X_k，以使得其邻域V_k在内容方面接近片X的邻域V。

在数学方面，候选片的集合的片X_k使得满足等式(1)：

因此，集合PS包含最小化等式(1)中给出的欧几里得标准的N个候选片。可以在不离开本发明的范围的情况下，使用与欧几里得范数不同的距离。

根据一个实施例，在候选片的搜索步骤期间，对于每个所述其他图像，考虑预定数目的候选片。

通过限制图像的候选片的数目和图像的数目本发明是有利的，在保留经常存在在图像或者在连续图像中的内容的一致性的同时，大大减少邻域(和块)预测步骤的计算复杂性。

根据一个变型，由此按图像选取单个候选片。

根据一个实施例，仅属于通过一个或者多个图像定义的预定区SW的片被考虑为候选片。

根据一个变型，在片周围定义预定区(或者称为子区的预定区的一部分)。

因此，预定区SW可以以空间区域的形式通过单个图像定义，但也可以具有时间特征，也就是说，该预定区SW通过可以是或者可以不是时间连续的图像序列的若干图像来定义。

例如，一方面通过在时间上的前面图像I_c-1至图像I_c(要预测的块所属于的)的子区(所述子区以片X为中心(其共定位片(co-localised patch)表示在该点图上))，另一方面，通过时间上在图像I_c之后的另一图像I_c+1的子区，在图2上定义该区(称为SW)。通过该示例，可以理解预定区SW可以包括一个或者多个子区，每个子区可以在该片X的共定位片周围(可以以其为中心)定义，并且可以理解这些区可以位于要预测的块所属于的图像前面和/或后面的不同图像中。

根据一个实施例，如图3中所示，在块预测步骤3期间，依据所述候选片的集合的片的块B_cpt预测块B，所述块在内容方面接近要预测的块。

在数学方面，要预测的块B的该预测在于确定最小化片的块B_k的像素的值和块B的像素的值之间的距离(块匹配)的集合PS的该片。

该实施例特别有利，因为相对于标准编码和/或解码系统的语法元素的编码成本，减少了块B_opt或者其在集合PS中所属于的片的索引的编码的成本。

根据一个实施例，通过以下等式(2)表达的在最小平方意义上的最小化以欧几里得空间表达该距离：

其中k∈{0；K-1} (2)

根据该实施例，指定预测块B_opt所属于的片的信息项(索引)必须被远程解码器知道。实际上，这种解码器可以重建候选片的集合PS，并且可以依据该信息找到该块B_opt所属于的该集合的片是什么。为了这个目的，向意图使用该预测块的解码器发送该片的该指定信息的载波信号。

根据一个实施例，如图4中所示，块预测步骤3包括字典定义子步骤31，在字典定义子步骤31期间，形成L个字典D^l(L大于或者等于1)。每个字典依据候选片的集合PS的至少一个片形成。

字典的数目L和每个字典的片的数目是事先已知的值。

根据一个变型，每个字典的片的数目K对于所有字典是共同的。

根据一个变型，数目K根据要预测的块可变。

在该情况下，可以对于要预测的每个块优化该数目K。然后在发送器/接收器之间发送的上下文中有必要对于每个要预测的块向接收器发送该数目。

字典可以包含从候选片集合PS的多个片中随机选取的片。

块预测步骤也包括邻域预测子步骤32。在该子步骤期间，对于每个字典D^l，使用该字典的片X_k的邻域V_k的加权后的线性组合确定要预测的块B的因果邻域V的预测；选取优化预测的加权参数。

在数学方面，使用字典D_l的片X_k的邻域V_k的加权后的线性组合的要预测的块B的因果邻域V的预测在于确定加权参数W_m，其中m∈{0；K-1}，其最小化加权后的该字典D^l的片的邻域V_k的像素的值和邻域V的像素的值之间的距离。

根据一个实施例，通过以下的等式(3)表达的最小平方的意义上的最小化以欧几里得空间表达该距离：

在约束的情况下，

其中，A^l是将字典D^l的片的K个邻域V_k的像素的值分组在一起的维度MxK的矩阵，将每个邻域的M个像素值分组在一起以形成该矩阵的列。

由此在实践中通过以下的等式(4)优化K个加权参数：

其中CO_l是矩阵A^l的像素的值的局部协方差矩阵(参考邻域V)，并且I是单位列矩阵。

因此获得K个最优加权参数以使用字典D^l的K个邻域V_k的线性组合预测邻域V。

根据一个实施例，在邻域预测子步骤期间，L个字典D_l avec l∈{0；L-1}已经被考虑并且加权参数已经对于这些字典中的每个确定，用以预测块B的加权参数W是提供在准则意义上最接近要预测的所述块的预测的那些。

根据一个实施例，该准则是重建的预测块(编码和解码之后)和要预测的块之间的平方误差。

在数学方面，那么最优加权参数W是由以下的等式(5)给出的那些：

在约束的情况下

根据另一实施例，使用的准则是特别适用于视频压缩的上下文的率失真准则。

在数学方面，那么最优加权参数W是由以下的等式(6)给出的那些：

min_i(SSEⁱ+λRⁱ) (6)

其中，SSE^l是要预测的块和重建预测块(解码块)之间的重建误差的最小平方意义上的度量，R^l是编码块的成本(预测误差和其他语法元素)，并且λ是拉格朗日算子(Langranian)。

此外，块预测步骤包括块预测子步骤33，在块预测子步骤33期间，由字典D^l的片X_k的像素的加权后的线性组合预测块B，加权参数(在形成若干字典情况下的W或者单个字典情况下的)是在要预测的块的因果邻域的预测步骤期间确定的那些。

在数学方面，通过以下等式(7)给出块B的预测

其中A是将K个块B_k的像素的P个值分组在一起的维度PxK的矩阵，并且W是加权参数。

在发送器和接收器之间传输的上下文中，在要使用的参数的数目先前由解码器已知的情况下并且在单独基于邻域构建单个字典的情况下，不向接收器(解码器)发送特定信息，以预测块B。实际上，可以在没有特定信息的情况下通过接收器实现预测方法，因为一方面预测使用的邻域是因果的，这使得接收器能够找到片的块来重建矩阵4，另一方面可以通过实现邻域V的预测实现；在该情况下获得的K个加权参数与在该情况下由发送器(编码器)实现的预测邻域的子步骤期间获得的那些(W)相同。

可以由此理解，实现该预测方法的编码方法与传统的图像间编码技术(诸如例如在H.264/AVC中使用的那些)比较，提供了显著的编码增益。

根据与若干字典的情况对应的该实施例的变型，识别被使用的字典的特定信息项必须被解码器知道，以重建要预测的块。为了这个目的，信号携带识别要预测的块的预测源自的字典的特定信息项。设计该信号，以由配置为使用该字典的解码器接收。

根据图5所示的一个实施例，字典D^l的K个片X_k(其中，k∈{0；K-1})全部位于与当前图像I_c不同的同一图像中I_f。当这两个图像属于同一图像序列时，图像I_f可以在时间上在图像I_c前面或者后面。

根据图6所示的一个实施例，字典D^l的K个片X_k(其中，k∈{0；K-1})位于不同图像中。根据图6的示例，字典D^l包括在时间上在当前图像I_c前面的图像I_c-1中的(K-1)个片X₁，...，X_K-1和在时间上在当前图I_c后面的图像I_c+1中的片X₀。

该实施例是有利的，因为其使得能够增加可以由此属于不同图像的同一字典中的片的可能性。这使得能够进一步降低要预测的块的预测误差，因为然后该方法从同一视频的图像之间的时间冗余获益。

图5和图6所示的这两个实施例绝不限制字典的定义。它们已经被给出，以示出可以由位于与要预测的块所属于的图像不同的一个或者多个图像中的片形成字典。

根据一个实施例，在字典定义步骤期间，对于每个要定义的字典D^l，一方面在集合PS的片之中确定第一片X₀(所述第一片在内容方面接近片X)，另一方面在集合PS的片之中确定(K-1)个片X_k(它们中的每个在内容上接近该第一片X₀)。由此字典D^l包含第一片X₀和(K-1)个片X_k。

通过在片的像素的值之间计算出的距离量化两个片的内容的接近性。例如该距离是这两个片的像素之间的绝对距离的总和。

根据一个实施例，通过定位在第一片周围的至少一个子区定义预定区SW。例如可以以该第一片为中心。

该变型是有利的，因为其大大限制邻域预测子步骤的计算复杂性，同时保留经常存在在图像中的内容的一致性。

根据一个实施例，通过依据片X定义的移位信息项给出图像(与要预测的块所属于的图像不同)中的字典D^l的第一片X₀的位置。

根据一个实施例，移位信息可以通过块匹配方法获得，该块匹配方法可以确定相对于片X的每个第一片的移位。通过考虑依据片的所有像素并且不再仅是这些片的块的像素形成块(这在块预测步骤3的实施例中描述)，该块匹配方法类似于关于图3描述的块匹配方法。

在发送器和解码器之间发送的上下文中，移位信息项必须被发送到解码器，以使得解码器可以确定哪个是被使用的第一片。没有必要发送其他信息以确定字典的其他(K-1)个片，因为解码器能够通过实现与上面描述的那些操作类似的操作确定它们。

图7示出L个字典中的每个依据第一片已经被定义的情况。由此可以看到L个第一片的每个(其中l∈{0；L-1})从片X的移位(或者更精确地，虚拟地从图像I_f中其相同位置(co-located)的片X′)获得。

以矢量的形式表达每个移位。

图8示出字典片不全都属于同一图像I_f的情况。可以注意到，图像I_c+1在解码当前图像I_c期间在时间上不在该当前图像前面。根据本示例，依据属于图像I_c+1的第一片和不全都属于图像I_c+1的片形成字典D₀。例如，片属于图像I_c-2。同样，依据属于图像I_c-2的第一片和不全都属于图像I_c-2的片形成字典D_L-1。例如，片属于图像I_c-1。

通过这些示例，可以理解，量化两个片的内容的接近性的距离要在最宽意义上理解，如其可以定义为量化没有必要属于同一图像的片之间的相似性。

图9示出包括配置为实现关于图1至8描述的本发明的部件的设备的架构的示例。

设备900包括通过数字地址和数据总线901互连的以下元件：

-计算单元903(也称为中央处理器)；

-存储器905；

-网络接口904，用于设备900和经由连接902连接的其他远程设备之间的互连；

计算单元903可以由(可能专用的)微处理器、(也可能专用的)微控制器等实现。存储器905可以以易失和/或非易失形式(诸如RAM(随机存取存储器)、硬盘、EPROM(可擦除可编程ROM)等)实现。

部件903、905和可能的904相互协作，以定义要预测的块的因果邻域，从而搜索从属于与要预测的块所属于的图像不同的图像的至少一个片形成的候选片的集合，每个片由块和作为该块的因果的邻域形成。

部件903、905和可能的904相互协作，以至少依据所述候选片的集合的至少一个片的块预测块。

根据一个实施例配置设备的部件，以实现关于图1至8描述的方法。

根据设备900的一个实施例，部件904配置为发送和/或接收信号，它的帧是特别的。实际上，在设备900的用于预测的部件配置为实现关于图3描述的邻域预测子步骤的情况下，该信号的帧携带指定要预测的块的预测块所属于的片的信息项，并且根据一个变型(该变型与在用于预测的部件配置为实现关于图4描述的邻域预测子步骤的情况对应)，该信号的帧携带识别要预测的块的预测所源自的字典的特定信息项。根据另一变型(该变型与用于预测的部件配置为实现在其期间除了其他之外依据第一片形成字典的字典定义子步骤)，该信号的帧携带相对于图像中的该第一片的位置的移位信息项，所述移位信息从依据要预测的块并且依据其邻域形成的片定义。

本发明还涉及编码和/或解码图像序列的方法，在编码和/或解码图像序列期间，依据参考图像块计算预测块。该方法特征在于，根据关于图1至图8描述的方法计算预测块。

本发明还涉及用于编码和/或解码图像序列的装置，其特征在于，该装置包括关于图9描述的设备。

在图9中，所示的模块是可能对应于或可能不对应于物理上可区分单元的功能单元。例如，这些模块或它们的一些可以被一起分组在单个组件或者电路中，或构成同一软件的多个功能。相反，一些模块可能由分立物理实体组成。符合本发明的图像间预测设备按照纯硬件实施例实现，例如，以专用组件(例如，在ASIC(专用集成电路)、FPGA(现场可编程门阵列)或VLSI(超大规模集成电路)中)或集成成一个设备的几个电子组件的形式，或甚至以硬件元件和软件元件的混合的形式。

Claims

1.一种图像的像素块的预测方法，该方法包括：

-块预测步骤，包括

-字典定义子步骤，在该字典定义子步骤期间，对于每个字典确定-所述候选片的集合的片之中的第一片，所述第一片在内容方面接近依据要预测的块并且依据其邻域形成的片，以及

-所述候选片的集合的其他片，它们中的每个在内容方面接近该第一片，

由此字典包含所述第一片和所述其他片；

-块预测子步骤，在该块预测子步骤期间，由字典的片的块的像素的加权后的线性组合预测图像的像素块，所述线性组合的加权参数是已经在邻域预测子步骤期间确定的那些最优值。

2.如权利要求1所述的方法，其中，所述候选片的集合的每个片使得其邻域在内容方面接近包括要预测的块的片的邻域。

3.如权利要求1或2之一所述的方法，其中，在候选片的搜索步骤期间，对于每个所述与要预测的块所属于的图像不同的图像，考虑预定数目的候选片。

4.如权利要求1或2之一所述的方法，其中，仅属于通过一个或者多个图像定义的预定区的片被考虑为候选片。

5.如权利要求4所述的方法，其中，由位于第一片周围的至少一个子区定义所述预定区。

6.如权利要求1或2之一所述的方法，其中，由从依据要预测的块和其邻域形成的片定义的移位信息项，给出图像中字典的第一片的位置。

7.如权利要求1或2之一所述的方法，其中，在邻域预测子步骤期间，若干字典已经被考虑并且加权参数已经对于这些字典的每个确定，用以预测块的加权参数是提供在准则意义上最接近所述要预测的块的预测的那些，由此通过特定信息项识别所述预测源自的字典。

8.一种编码和/或解码图像序列的方法，在该方法期间，依据参考图像图像块计算预测块，其特征在于，根据按照权利要求1至7之一的方法计算预测块。

9.一种用于预测图像的像素块的设备，该设备包括处理器，该处理器配置用于：

-搜索候选片，在搜索候选片期间，依据属于与要预测的块所属于的图像不同的图像的至少一个片形成候选片的集合，每个片由块和是该块的因果的邻域形成，以及

-预测块；

其特征在于，该处理器配置为通过以下预测块：

由此字典包含所述第一片和所述其他片；

10.如权利要求9所述的设备，其中，该处理器还配置以使得所述候选片的集合的每个片使得其邻域在内容方面接近包括要预测的块的片的邻域。

11.如权利要求9或10之一所述的设备，其中，该处理器还配置以使得在候选片的搜索步骤期间，对于每个所述与要预测的块所属于的图像不同的图像，考虑预定数目的候选片。

12.如权利要求9或10之一所述的设备，其中，仅属于通过一个或者多个图像定义的预定区的片被考虑为候选片。

13.如权利要求12所述的设备，其中，由位于第一片周围的至少一个子区定义所述预定区。

14.如权利要求9或10之一所述的设备，其中，由从依据要预测的块和其邻域形成的片定义的移位信息项，给出图像中字典的第一片的位置。

15.如权利要求9或10之一所述的设备，其中，在邻域预测子步骤期间，若干字典已经被考虑并且加权参数已经对于这些字典的每个确定，用以预测块的加权参数是提供在准则意义上最接近所述要预测的块的预测的那些，由此通过特定信息项识别所述预测源自的字典。

16.一种用于编码和/或解码图像序列的设备，在编码和/或解码图像序列期间，依据参考图像图像块计算预测块，其特征在于，根据按照权利要求1至8之一的方法计算预测块。

17.一种用于编码和/或解码图像序列的装置，其特征在于，它包括根据权利要求9或16所述的设备。