CN1926577B

CN1926577B - 用于编码交错数字视频数据的方法

Info

Publication number: CN1926577B
Application number: CN2005800067960A
Authority: CN
Inventors: 格温艾利·马康; 热罗姆·维耶龙; 纪尧姆·布瓦松
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS; International Digital Madison Patent Holding SAS
Priority date: 2004-03-12
Filing date: 2005-02-28
Publication date: 2011-06-08
Anticipated expiration: 2025-02-28
Also published as: ATE418125T1; DE602005011767D1; CN1926577A; EP1574995A1; EP1723606B1; JP2007529175A; KR101140343B1; BRPI0508240A; US7961785B2; EP1723606A1; JP4721366B2; WO2005096228A1; US20080232473A1; AU2005228239B2; AU2005228239A1; KR20070026409A

Abstract

可以在两个层，基层和增强层中对交错视频进行编码。提出了一种用于优化针对增强层的运动矢量编码的方法。该方法包括确定多种不同的方式来编码运动矢量，估计针对每一种方式的编码代价，并选择具有最低编码代价的方式。可以组合多种编码增强层运动矢量的方式。重新使用来自基层的运动矢量，产生伸缩因子和更新矢量；或者计算新的运动矢量。可以使用前向、后向或双向预测。可以将一帧或多帧作为参考。参考帧可以来自增强层、基层或两个层。编码全部运动矢量，或者只编码运动矢量与对应的BL运动矢量之差。

Description

用于编码交错数字视频数据的方法

技术领域

本发明涉及一种用于视频压缩的方法。更具体地，涉及一种使用运动补偿预测编码，来编码交错视频数据的方法。

背景技术

为减小传输带宽，多种视频编码算法使用运动补偿预测编码。这称为运动补偿时间滤波(MCTF)。在这种混合方案中，使用运动补偿来减少时间冗余，并使用运动补偿残差变换编码来减少空间冗余。运动补偿包括使用运动估计(ME)来产生运动矢量(MV)，当物体在相对于另一帧图像的一帧图像中移动自身的位置时，使用运动估计来最小化要传输的数据量。然后编码运动矢量并向解码器传输，那么，运动矢量可以在参考图像中定位该物体，并根据运动矢量来移动物体。运动估计使用前向、后向或双向参考。

例如微型移动显示器的新的显示器类型只需要低空间和时间分辨率的无交错视频序列，而例如HDTV接收器的其它类型则要求具有高空间分辨率和标准时间分辨率的交错序列。虽然大多数标准清晰度(SD)视频内容是交错的，但是最近对可伸缩视频编码的研究集中在无交错视频的估计上。在欧洲专利申请EP03290507中描述了一种用于传输在空间和时间上可伸缩的交错视频的方法，该视频具有较宽范围的可伸缩性。该方法基于将视频帧序列分离成基层(BL)和增强层(EL)。

发明内容

视频编码通常以最小化传输数据速率为目的。对于产生在空间和时间上可伸缩的交错视频所用的多层方法，例如，所述的双层方法，根据实际的视频序列，可能还存在进一步减少冗余的可能性。本发明的目的是开发这些可能性，从而改善交错视频，特别是可伸缩交错视频的编码效率。

根据本发明，使用针对选择和编码EL运动矢量的灵活方案，可以进一步减少编码所需的比特量，即所谓的编码代价。这产生自适应方法，使得可以相对于实际视频序列来优化数据速率。

用于编码交错视频数据的本发明方法包括以下步骤：

将视频帧分离成BL和EL，其中，基层帧是具有一个奇偶性的交错视频的场，增强帧是具有相反奇偶性的交错视频的场；

对BL帧执行运动估计，参考BL帧并产生第一运动矢量；

对EL执行运动估计，参考BL帧、EL帧或其组合，并产生不同的第二运动矢量集；

计算针对不同的第二运动矢量集的编码代价，编码代价与编码所需的比特数相对应或相等；

估计针对每一个不同的第二运动矢量集的失真值，失真值基于增强层帧与根据当前第二运动矢量集和当前参考来预测的帧之间的差别；

选择提供低编码代价和低失真之间的最佳折中的参考和第二运动矢量集；以及

与已编码的视频数据流一起传输标识符，标识符指示所使用的编码类型。例如，如果针对特定EL帧，最优编码是基于参考单个BL帧的前向预测，则可以传输分配给该组合的标识符，从而解码器能够通过将运动矢量应用于标识符指示的参考帧，来重建EL帧。

例如，可以通过向编码代价值和失真值分配权重因子，将两个加权的值相加并选择具有最小和的组合，来找到低编码代价与低失真之间的最佳折中。在普通情况下，权重因子可以是1，或根据经验选择。

此外，本发明方法可以附加地包括以下步骤：针对每一个不同的第二运动矢量集的运动矢量，选择属于第一运动矢量的参考运动矢量，并计算伸缩因子和差矢量，其中伸缩因子和差矢量用于编码代价的计算和后续步骤，以及/或者后续解码。

根据本发明的编码器采用运动补偿预测编码，并包括以下装置：

用于将视频帧分离成基层帧和增强层帧的装置，其中，基层帧是具有一个奇偶性的交错视频的场，增强帧是具有相反奇偶性的交错视频的场；

用于对基层帧执行运动估计，参考基层帧，并产生第一运动矢量的装置；

用于对增强层帧执行运动估计的装置，其中针对单个增强层帧，根据不同参考来产生不同的第二运动矢量集，不同参考是一个或多个基层帧，或是一个或多个增强层帧，或是其组合；

用于计算针对每一个不同的第二运动矢量集的编码代价的装置，编码代价与编码增强层帧所需的比特数相对应或相等；

用于估计针对每一个不同的第二运动矢量集的失真值的装置，失真值基于增强层帧与根据当前第二运动矢量集和当前参考来预测的帧之间的差别；

用于存储对应不同的运动估计类型的估计的编码代价和失真值的装置，其中每一个所存储的编码代价值和失真值与对应的第二运动矢量集的标识符相关联；

用于比较不同的第二运动矢量集的编码代价、选择提供最少编码代价的运动矢量、并确定关联的运动估计的装置；以及

用于与已编码的视频数据流一起传输标识符的装置，标识符指示所使用的编码类型。

用于产生交错视频数据的解码器包括：用于接收标识符的装置，标识符与运动矢量或运动场相关联，并指示针对预测帧的区域或整个预测帧的参考帧；以及用于根据所述标识符和所述运动矢量，来解码预测帧或预测帧内区域的装置。

本发明的解码器的一个实施例还包括用于计算伸缩因子，以及不同的第二运动矢量集的每一个与第一运动矢量之间的差矢量的装置，其中差矢量用于编码代价的计算和后续步骤，以及/或者后续解码。

在本发明的一个实施例中，用第一运动矢量来初始化对增强层的运动估计。

在本发明的一个实施例中，对增强层的运动估计包括以下可能方法中的至少两种：后向预测，前向预测和双向预测。

在本发明的一个实施例中，对增强层帧的运动估计参考单个帧，而在另一实施例中，对增强层帧的运动估计参考多个帧。

以下描述和图中公开了其它有利的本发明实施例。

附图说明

参考附图描述本发明的范例实施例，其在以下图中示出：

图1后向、前向和双向预测；

图2多参考预测；

图3来自BL配位(collocated)MV的EL MV的内插；

图4来自BL配位MV的EL MV的外插；以及

图5用于可伸缩交错视频的编码器结构。

具体实施方式

图1示出本发明第一类可组合的不同运动预测模式的原理。运动预测基于通常属于相同帧组的交错帧的数量。帧划分为奇帧和偶帧。在本示例中，奇帧属于EL，偶帧属于BL。

当前EL帧n_o是奇帧，包含多个像素块PB1，…，PB3。运动估计要针对尽可能多的像素块在相邻帧之一中定位参考，其中相邻帧可以具有与当前帧相同的奇偶性sp，或相反的奇偶性op。因此，在每个方向上有两个相邻帧，一个在相同层，一个在另一层。在图1中，对于当前奇帧n_o，相邻帧是：BL的前一偶帧n_e-1，EL的前一奇帧n_o-1，BL的后一偶帧n_e和EL的后一奇帧n_o+1。

本发明的方法包括：针对当前帧的块，计算不同类运动矢量；估计对应的编码代价和失真值；以及针对编码，选择具有最佳编码代价/失真折中的运动矢量。对于图1的第一像素块PB1，示出了后向运动估计的两种可能方式，即，根据相同奇偶性sp的前一帧或根据相反奇偶性op的前一帧。另一像素块PB2采用前向运动估计，有两种可能方式：使用相同奇偶性sp的后一帧或根据相反奇偶性op的后一帧作为参考。另一像素块PB3采用双向运动矢量，有四种可选方式，是相同或相反奇偶性的先前或后续帧的任何组合：op-op，sp-op，op-sp和sp-sp。根据本发明，计算所述组合的编码代价，估计对应的失真值，并为编码选择具有最佳编码代价/失真折中的组合。

因此，所提出的算法使用层内/层间相关，即，在相同或相反奇偶性的场之间。在一个实施例中，可以使用多个参考场来有效地预测EL。图2示出根据本发明，第二类可组合的不同运动预测模式的原理。运动预测基于限定的先前或后续帧数量，其中可以一次使用多个帧。这种方法称作多参考。例如，当前奇帧n_o的第四区域PB4可以参考前三帧，即一个奇帧n_o-1和两个偶帧n_e-2，n_e-1中的一个或多个。当前奇帧n_o的另一区域PB5可以参考后三帧，即一个奇帧n_o+1和两个偶帧n_e，n_e+1中的一个或多个。当前奇帧n_o的另一区域PB6可以参考六个相邻帧，即前述的前三帧和后三帧中的一个或多个。

通常，可以将两个截然不同的概念用于运动矢量的编码，称作“先验”和“后验”。“先验”表示利用先前的基层信息：将运动矢量重新伸缩为原来的值，关于这个原来的值的研究是在环绕场之间进行的。另外，该编码步骤受益于，只需要与所选的MV或预测器连接来传输每一个运动矢量的残差部分。“后验”表示执行EL运动估计阶段，而不考虑基层运动信息。但是可以将后一信息用于编码EL矢量。

在“后验”概念中，可以采用多种运动矢量预测模式：后向、前向或双向。在相同层场或在相反层场中选择最佳预测矢量。如图1所示，该选择可以限于直接毗邻的场。该操作模式也可以是“多参考”，即，如图2所示，矢量选择并不限于毗邻的相邻场。除了图1和图2所示的方法，重新使用来自BL的运动矢量信息使得只对BL与EL场之间的每一个运动矢量的残差部分进行编码更加容易。这种解决方法的优点减少了MV编码代价。

在“先验”概念中，假设BL运动矢量是可用的。在这种情况下，可以使用BL运动矢量来有效地初始化EL运动估计过程。这在图3中示出。在本示例中，假设奇帧n_o-2、n_o-1、n_o和n_o+1用于基层。参考运动矢量V属于BL估计。V允许提出所有场中的用于EL的多个潜在预测器，而不管它们的奇偶性。特定预测器i由V_i＝β_iV给出，β_i∈Q，Q是有理数集，即，V_i和V是共线的。这种伸缩方法与“双基”方法非常相似。通过将后一方法与“直接模式”结合，可以根据V推断双向矢量，通过将更新的矢量相加，使用双向矢量来构造运动矢量。有利的是，编码因子β_i和更新的矢量比使用MV的另一表征更加有效。

本发明方法的优点在于，能够在交错视频内容的处理中，使用潜在长的滤波器，这在本领域中是前所未有的。对多个帧进行滤波允许运动矢量的重新使用中的更高效率。例如，当物体在多个帧上进行线性运动时，可以将相同的参考矢量V用于这些所有的帧。如图3所示，如果运动不是精确地线性，则可以将参考MV用于更加有效的编码。当重新使用来自BL的运动矢量信息V时，可以只对BL和EL场的每一个运动矢量的残差部分进行编码。这一优点减少了MV编码代价。在图3中，如在帧的特定区域从BL的配位MV内插预测器，计算BL的两帧n_o-2，n_o+1之间的参考运动矢量V。对于特定区域内的不同子区域，通过使用共线值βV，并加上更新矢量来执行预测器的初始化，以便调整预测。因此，最终MV可以由各个β和更新矢量的组合来限定。例如，对于子区域PB9，可以通过将初始预测器IV和更新矢量UV相加，来构造最终运动矢量MV3。算法性能依赖于BL运动信息的质量：BL运动信息越好，算法越有效。

图4示出如何从BL配位MV外插预测器。在这种情况下，在连续的BL场n_o-1和n_o之间计算BL参考矢量V2。可以使用BL参考矢量V2，将来自EL的MV描述成BL MV的函数。更新矢量用来调整预测。

在本发明的一个实施例中，为最小化所需处理功率，也可以考虑计算复杂度。

图5示出根据本发明，针对可伸缩交错视频的编码器的结构。输入信号I是交错视频序列，具有2αHz的时间分辨率，即每一秒2α场或每一秒α帧，以及2Mx2N的空间分辨率，即，一帧具有2N行，每一行有2M个像素，或一场具有N行，每一行有2M个像素。分裂块SP分散序列，从而将场交替地递送到第一或第二分支F1，F2。第一分支F1产生BL信息和EL信息，但是这里将其称作BL分支。另一分支只产生EL信息，这里将其称作EL分支。每一个分支接收具有每一秒α帧的时间分辨率和2Mx2N像素的空间分辨率的视频序列。例如， BL序列F1包含偶场，EL序列包含奇场。分裂块SP执行分裂变换。它还可以使用多种滤波器来进行更加复杂的处理，例如，低/高(low/high)滤波。

BL分支对F1序列执行沿x轴，即，行内的空间滤波SF1，从F1的低频部分产生具有MxN像素的空间分辨率的视频序列L，从F1的高频部分产生空间分辨率增强信号H。在简单示例中，可以使用低通滤波器LP_R和高通滤波器HP_R执行该滤波，例如，两者都执行因子为2或其它因子的水平子采样。将低分辨率序列L输入空间时间滤波器STF和运动估计(ME)块ME1。空间时间滤波器STF执行运动补偿时间变换，例如，2D+t小波变换。例如，可以将其实现为长度为2的Haar变换滤波器，或长度为9和7或5和3的Daubechies滤波器。ME块ME1产生运动矢量MV1，MV1用于以下三个目的：第一，使用它们来优化空间时间滤波过程；第二，例如，将它们传输给接收器，来用于逆滤波过程；以及第三，将它们用在编码器的EL分支中。

传输空间时间滤波器STF的输出信号P，接收器可以将其与运动矢量MV1相组合，来再现例如MxN像素、αHz无交错模式的视频序列。采用所述实现，还可以设计空间时间滤波器，使该无交错序列在x和y方向上，在时间分辨率和空间分辨率上是可伸缩的。滤波器可以根据目标帧的速率或格式包含多个滤波等级，从而可以达到M’xN’的空间分辨率和/或θαHz的时间分辨率，M’和N’在范围[0，M]和[0，N]内变化，并且θ∈Q₀₁，Q₀₁是在范围[0，1]内变化的有理数。该滤波可以传递不同的空间时间频率，它们的拟合，例如，数据流内的组织，使得基层是可完全伸缩的。块STF的输出P是具有M’xN’的分辨率的无交错序列，M’xN’分辨率是原始2Mx2N格式的子分辨率，代表本发明系统所产生的最低空间和时间分辨率等级。

包含沿x轴的高频场的空间分辨率增强信号H属于增强层EL，先进的接收器可以将其用来重建具有x方向上的更高空间频率的帧，直到原始分辨率。

EL分支对F2序列执行MCTF。EL分支还使用MV来在物体相对于另一帧图像的一帧图像中移动其位置时，最小化要传输的数据量，但如上所述，不同于BL，EL分支可以使用不同的MV集，即，通过比较相同或相反奇偶性的场来产生的MV。有利的是，因为很可能，例如，两个连续偶场之间的运动与两个对应的奇场之间的运动非常相似，反之亦然，所以可以使用BL分支的ME1块中产生的MV1。运动还可能在四个场的序列内变换，从而可以有利地使用在第二运动估计块ME2中，从交错序列I产生的更好的运动矢量MV2。因此，在EL分支中集成决策块CTL，来决定将哪一个MV集用于MCTF。决策块CTL评估针对EL的不同的MV编码选项，计算各个编码代价，估计产生的失真，对这些值加权并相加，并在存储元件MEM中存储针对每一个所评估的选项的结果。当决策块CTL已评估了所有允许的选项时，它选择产生最低值的选项，并使得能够输出各个数据。因此，决策块CTL可以通过控制总线CB来控制ME块ME1、ME2，MCTF块MCTF和空间时间滤波器块STF的输出。此外，它可以传输针对所选选项的标识符ID。

运动补偿时间滤波块MCTF可以产生已滤波的F2场FF2，即，具有比原始F2场的代价更低的代价的F2场。这些已滤波的场FF2具有与输入F2场相同的空间和时间分辨率。因为减少了传输的数据量，所以通过使用所述的MV，实现了编码代价的减小。为获得场内和场间相关，可以越过场执行ME，而不管奇偶性。可以使用后向、前向或双向等任何预测模式，以及多参考场算法。为减小MV编码代价和估计复杂度，可以根据目标要求，‘先验’或‘后验’地使用来自基层的运动信息。

对于传输，通常将产生的流复用为一个比特流。所述编码方法将原始交错视频序列分解为两层，BL和EL，从而在编码器侧和解码器侧，允许产生的比特流来支持多种空间和时间分辨率等级。因为所述EL包含多个分辨率等级，所以还可以将其看作多个层。

因为EL数据不能用于BL，所以使用来自其它层的帧的选项对EL是可用的，而对BL是不可用的。

解码器在接收之后，可以将信号转换成不同时间分辨率等级，无交错或交错，和多种空间分辨率等级上的视频序列。解码器可以使用标识符ID来针对每一个EL帧或EL帧内的区域，选择正确的预测源和 MV。

BL包含无交错模式中的输入视频源的可完全伸缩描述，其中可伸缩性指的是空间分辨率、时间分辨率和质量。当与BL组合时，EL允许低代价、可伸缩地重建原始交错视频材料，包括实现原始空间分辨率、时间分辨率和SNR质量。

普遍将视频编码中的失真理解为相比于源图像，对已编码图像质量的测量。可以使用客观标准估计失真，例如方差和、绝对差和等。在已经有效地计算了已编码和已解码的图像之前，可以在中间图像上估计失真。

本发明方法可以应用于采用不同质量层上的运动矢量的所有视频编码方案。

Claims

1.一种使用运动补偿预测编码来编码交错视频数据的方法，其中将视频帧分离成基层帧和增强帧，其中，基层帧是具有一个奇偶性的交错视频的场，增强帧是具有相反奇偶性的交错视频的场，所述方法包括步骤：

对基层帧执行运动估计，其中，参考基层帧，产生第一运动矢量；

对增强层帧执行运动估计，其中，针对单个增强层帧，产生基于不同参考的不同的第二运动矢量集，所述不同参考是一个或多个基层帧、一个或多个增强层帧或其组合；

计算每一个不同的第二运动矢量集的编码代价，编码代价与编码增强层帧所需的比特数相对应或相等；

估计每一个不同的第二运动矢量集的失真值，失真值基于增强层帧与根据当前第二运动矢量集和当前参考来预测的帧之间的差别；

选择提供低编码代价和低失真之间的最佳折中的参考和第二运动矢量集，其中，通过向编码代价值和失真值分配加权因子，将两个所加权的值相加，并选择具有最小和的组合，来确定最佳折中；以及

传输所选参考的标识符。

2.根据权利要求1所述的方法，还包括步骤：针对每一个不同的第二运动矢量集的运动矢量(MV3)，选择属于第一运动矢量的参考运动矢量(V)，并计算伸缩因子和差矢量(UV)，其中，伸缩因子和差矢量用于编码代价的计算和后续步骤。

3.根据权利要求1或2所述的方法，其中用第一运动矢量来初始化对增强层的运动估计。

4.根据权利要求1或2所述的方法，其中对增强层的运动估计包括以下方法中的至少两种：后向预测，前向预测和双向预测。

5.根据权利要求1或2所述的方法，其中对增强层的一帧的运动估计参考单个帧或多个帧。

6.一种用于交错视频数据的编码器，所述编码器采用运动补偿预测编码，包括：

装置(SP，SF₁)，用于将视频帧分离成基层帧和增强层帧，其中，基层帧是具有一个奇偶性的交错视频的场，增强帧是具有相反奇偶性的交错视频的场；

装置(ME1)，用于对基层帧执行运动估计、只参考基层帧和产生第一运动矢量(MV1)；

装置(MCTF，ME2)，用于对增强层帧执行运动估计，其中，针对单个增强层帧，产生基于不同参考的不同的第二运动矢量集，不同参考是一个或多个基层帧、一个或多个增强层帧或其组合；

装置(CTL)，用于计算每一个不同的第二运动矢量集的编码代价，编码代价与编码增强层帧所需的比特数相对应或相等；

装置(CTL)，用于估计每一个不同的第二运动矢量集的失真值，失真值基于增强层帧与根据当前第二运动矢量集和当前参考来预测的帧之间的差别；

装置(CTL，MEM)，用于存储对应不同运动估计类型所估计的编码代价和失真值，其中，每一个所存储的编码代价值和失真值与对应的第二运动矢量集的标识符相关联；

装置(CTL)，用于比较不同的第二运动矢量集的编码代价，选择提供最小编码代价的运动矢量，并确定关联的运动估计；以及

装置，用于与已编码的视频数据流一起传输标识符(ID)，标识符指示所使用的编码类型。

7.根据权利要求6所述的编码器，还包括装置(CTL)，用于计算伸缩因子，以及每一个不同的第二运动矢量集与第一运动矢量之间的差矢量，其中，差矢量用于编码代价的计算和后续步骤。

8.根据权利要求6或7所述的编码器，其中对增强层的运动估计包括以下方法中的至少两种：后向预测，前向预测和双向预测。

9.根据权利要求6或7所述的编码器，其中用第一运动矢量来初始化对增强层的运动估计。

10.根据权利要求6或7所述的编码器，其中对增强层的一帧的运动估计参考单个帧或多个帧。