CN101449588A

CN101449588A - 用于视频压缩的空间稀疏性诱导瞬时预测

Info

Publication number: CN101449588A
Application number: CNA2007800180801A
Authority: CN
Inventors: 华刚; O·G·吉勒尤兹
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2006-10-31
Filing date: 2007-10-31
Publication date: 2009-06-03
Anticipated expiration: 2027-10-31
Also published as: WO2008054799A2; JP5203379B2; KR101048634B1; CN101449588B; KR20090018922A; JP2010508708A; WO2008054799A3; US8059902B2; US20080101709A1; EP2105030A2

Abstract

这里公开了用于空间稀疏性诱导的时间预测的方法和装置。在一个实施例中，方法包括：执行运动补偿以利用来自之前编码的帧的第一块生成第一运动补偿预测；利用空间域中的多个预测根据第一运动补偿预测为待编码的第二块生成第二运动补偿预测，包括通过利用变换为第一块生成块变换系数、利用块变换系数生成待编码的第二块的预测变换系数、以及对预测变换系数进行逆变换以在像素域中创建第二运动补偿预测，来生成多个预测中的每一个；从当前帧中的块减去第二运动补偿预测，以产生剩余帧；以及对剩余帧编码。

Description

用于视频压缩的空间稀疏性诱导瞬时预测

优先权

本专利申请要求2006年10月31日提交的标题为“Spatial SparsityInduced Temporal Prediction for Video Compression”的相应临时专利申请No.60/856048的优先权，所述申请包括在此以供参考。

相关申请

本申请涉及2006年6月20日提交的标题为“A Nonlinear，Prediction Filter for Hybrid Video Compression”、转让给本发明的受让公司的美国专利申请No.11/471741。

技术领域

本发明涉及压缩/解压缩领域；更具体地，本发明涉及在变换域中生成预测，以用在作为压缩和解压缩的一部分的运动补偿(motioncompensation)中。

背景技术

混合视频压缩包括对锚视频帧(anchor video frame)编码，然后预测性地对一组预测的帧编码。预测编码(predictive encoding)对于之前解码的帧使用运动补偿的预测以获得预测误差帧(predicterror frame)，然后对该预测误差帧编码。利用变换编码器(transformcoder)对锚帧(anchor frame)和预测误差编码。

图1是视频编码器的框图。参考图1，运动补偿(MC)预测模块根据之前解码的帧生成运动补偿的预测。第一加法器从当前帧减去运动补偿的预测，以获得剩余帧(residual frame)。变换编码器例如通过使用变换、量化器和熵编码器的组合，将剩余帧转换为编码的差(coded differential)。在解码期间，变换解码器例如通过使用熵解码器、逆量化器和逆变换的组合，将编码的差转换为重构的剩余码。第二加法器将重构的剩余帧加到运动补偿的预测，以获得重构的帧。延时元件“Z^-1”存储重构的帧，以用于MC预测模块的进一步参考。

相关的技术解决方案具有若干缺点。例如，一些现有解决方案受限于利用视频帧之间非常特定类型的时间相关性。即，一般性的运动补偿的预测操作被限于通过直接使用来自之前解码的帧的块(block)，或通过使用这些块的基于低通滤波器的插值，而形成当前帧的预测算子(predictor)。一旦完成运动估计，且发现之前解码的帧中的候选块，就假定这些块或其各种低通滤波形式是被预测帧中块的最佳预测算子。相关的技术解决方案没有考虑许多瞬时变化，诸如以其他方式时间相关的频率丰富的(frequency rich)的块上的时间独立的变化。例如，经历这样的变化的块的低通滤波版本可能从预测中去除相关高频信号分量，并实际损害了性能。这些未考虑的变化导致严重的性能损失，因为它们产生很难以在混合视频编码器中所采用的变换编码器编码的运动补偿的差。某些特定的有问题的瞬时变化，诸如特定类型的亮度变化，已经被研究者所考虑。但是，这些解决方案在其设计所针对的特定问题之外并不有效。因而，它们不提供一般性的且健壮(robust)的解决方案。而且，某些研究者还设计了帧自适应运动插值滤波器，但是也限于非常特定的时间演变模型(temporal evolutionmodel)。此外，由于一个滤波器只能有数目有限的滤波可能性，所以对于显示空间频率丰富的场景的视频序列，这样的设计的有效性非常有限。

相关技术通常在均匀平移的假设下以分段平滑帧模型进行，并且只要实际被编码的帧偏离这些假定，就遇到问题。

发明内容

这里公开了一种用于空间稀疏性诱导(spatial sparsity induced)瞬时预测的方法和装置。在一个实施例中，所述方法包括：执行运动补偿，以利用来自之前编码的帧中的第一块生成第一运动补偿的预测；利用空间域中的多个预测，根据第一运动补偿的预测生成用于待编码的第二块的第二运动补偿的预测，包括通过利用变换为第一块生成块变换系数、利用块变换系数生成待编码的第二块的预测的变换系数、以及对预测的变换系数执行逆变换以在像素域(pixel domain)中创建第二运动补偿的预测，来生成这多个预测中的每一个；从当前帧的块中减去第二运动补偿的预测，以产生剩余帧；以及对剩余帧编码。

附图说明

根据下面给出的详细描述和本发明各实施例的附图，将更完整地理解本发明，但是，这些描述和附图不应当被认为是将本发明限制到特定的实施例，而仅仅用于解释和理解。

图1是视频编码器的框图。

图2A是具有稀疏性诱导预测的混合视频编码器的一个实施例的框图。

图2B是增强视频解码器的框图。

图3说明待编码的当前帧的示例表示。

图4说明预测块x和相关的邻域Λ_x的示例表示。

图5说明在邻域Λ_x内训练块的位置和相应块在形成运动补偿的预测中的基准的先前帧中的位置的示例表示。

图6说明将当前宏块(macroblock)分解成n×n压缩变换块的例子。

图7说明三个p×p预测块与待预测的n×n块重迭的示例表示。

图8说明图7的三个p×p预测块形成n×n块的整体预测的方式。

图9说明借助于之前解码的宏块和之前解码的n×n块的n×n块的预测。

图10是在编码器中执行块的稀疏性诱导预测的过程的一个实施例的流程图。

图11是在解码器中执行块的稀疏性诱导预测的过程的一个实施例的流程图。

图12是用于形成变换域预测的过程的一个实施例的流程图。

图13是用于计算预测权重的过程的一个实施例的流程图。

图14是示例性计算机系统的框图。

具体实施方式

描述了用于视频帧的改进的运动补偿的预测的方法和装置。在一个实施例中，该方法被设计为在视频序列中遇到的复杂时间演变期间形成自动的成功的预测(例如，在均方误差方面)。在一个实施例中，该方法基于一个或多个之前解码的帧形成待编码帧的预测。

这里描述的技术可成功应用在传统的运动补偿的预测无法执行或执行得不好的许多场景中。例如，当在视频帧中存在时间不相关的白噪声，且待编码帧的预测将受益于去除之前解码的帧中的噪声时，在一个实施例中，该方法在运动补偿的预测期间自动地实现之前解码的帧的降噪。同样，在一个实施例中，当在视频帧中存在几个场景的混合，且待编码帧的预测将受益于之前解码的帧的去混合(deblending)时，该方法在运动补偿的预测期间自动地进行去混合。类似地，在一个实施例中，该方法在渐隐(fade)、照明变化等期间自动检测并形成成功的预测算子，而传统的运动补偿的预测在渐隐、照明变化等期间会失败。此外，这里描述的技术即使在存在多个复杂的时间演变来形成非常复杂的时间演变时也形成成功的预测。

在一个实施例中，这里描述的技术被应用于混合视频压缩系统内的编码器-解码器设置，其中在混合视频压缩系统中，编码器和解码器在运动补偿预测环路中使用该方法，以受益于所提供的预测增益。在一个实施例中，该方法基于在以下域中进行自适应预测，即在该域中，用于预测的帧和待预测的帧是稀疏的。该稀疏域可以是固定的，或者针对所考虑的帧而优化地计算。

最后，所描述的技术是健壮且一般性的，能够有效处理大量图像区域类型和大量压缩技术。所得到的预测算子自适应且自主地为这大量图像区域类型产生合适的频率选择性。

在下面的描述中，给出了大量细节以提供本发明的更详尽的解释。但是，将显而易见的是，对于本领域技术人员，本发明可以无需这些特定细节而实施。在其他情况下，以框图形式示出、而不是详细描述公知的结构和设备，以免使本发明模糊。

以下详细说明的某些部分是以对计算机存储器中的数据比特的操作的算法和符号表示的形式给出的。这些算法描述和表示是数据处理领域的技术人员用来最有效地向其他本领域技术人员告知其工作主旨的方式。算法在这里并通常被设计为产生所期望结果的自相容步骤序列。这些步骤是物理量的那些需要的物理操作。尽管并非必须，但是通常，这些量采用能够被存储、传输、组合、比较和以其他方式操作的电信号或磁信号的形式。已经不时证明了，主要是由于共同使用的原因，将这些信号称为比特、值、元素、符号、字符、项、数字等是方便的。

但是，应当注意，所有这些术语以及类似术语要与适当的物理量相关联，并且仅仅是应用于这些量的便利的标注。除非如以下讨论中所出现的以其他方式特别声明，否则应当理解，在整个说明书中，使用诸如“处理”或“计算”或“演算”或“确定”或“显示”等之类的术语的讨论是指计算机系统或类似电子计算设备的操作计算机系统的寄存器和存储器中表示为物理(电)量的数据并将其转换成计算机系统存储器或寄存器或其他这类信息存储、传输或显示设备内类似地被表示为物理(电)量的其他数据的行为和过程。

本发明还涉及用于执行这里所述操作的装置。该装置可以被专门构造为用于所需的目的，或者它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这样的计算机程序可被存储在计算机可读存储介质中，例如但不限于任何类型的盘，包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光学卡，或者任何类型的适于存储电子指令的媒介，并且它们每一个都被耦接到计算机系统总线。

这里提出的算法和显示并不是自然地涉及任何特定的计算机或其他装置。各种通用系统可与根据这里的教导的程序一起使用，或者，可能证明是方便的是构建更专用的装置来执行所需的方法步骤。大量这些系统的所需要的结构将出现在以下的说明中。此外，本发明不是参考任何特定编程语言来描述的。应当理解，各种编程语言可被用来实现这里描述的本发明的教导。

机器可读介质包括任何用于以机器(例如，计算机)可读的形式存储或传输信息的机构。例如，机器可读介质包括只读存储器(“ROM”)；随机存取存储器(“RAM”)；磁盘存储介质；光存储介质；闪存设备；电、光、声或其他形式的传播的信号(例如，载波、红外信号、数字信号等)；等等。

概述

稀疏性诱导预测可被用作运动补偿过程的一部分。更具体地，对于待编码帧中待预测的块，获得来自之前编码的帧中的候选块。在一个实施例中，如果需要的话，适当的运动补偿的插值被应用于候选块。在一个实施例中，在变换域中进行预测，而不是在像素域中预测待预测的块。因而，首先利用线性变换对候选块进行变换，以获得其变换系数，这些候选块变换系数然后被用于预测/估计待预测块的变换系数。在一个实施例中，通过使均方预测误差最小化来预测待预测块的每个变换系数。一旦待预测块的变换系数被预测，这些系数就被逆变换以获得像素域稀疏性诱导预测。

在一个实施例中，在预测形成期间，如果必要的话，编码器确定并向解码器发送将有助于解码器形成相同预测的某些边信息(sideinformation)。这样的边信息可包括关于解码器是否要对待预测块应用稀疏性诱导预测的指示。这样的边信息还可包括在预测待预测块的子集或每个块时要使用的预测参数。

在解码期间，解码器重复该预测过程并获得与编码器相同的预测块。在一个实施例中，稀疏性诱导预测直接在像素域中被推导(通过执行相当于在变换域中空间地进行预测的计算)，并且最终预测算子被直接应用在像素域中。在一个实施例中，编码器在预测每个块之前找到最佳变换，使得例如该块的预测在均方误差方面是最有效的。借助于编码器所信号发送的边信息，解码器与编码器计算的变换相匹配。在一个实施例中，编码器使运动补偿过程最优化，使得得到最好的稀疏性诱导预测。

正如下面进一步详细讨论的那样，编码器可以利用可获得的信息来指定可能的预测的子集，并通过边信息发送特定预测。注意，在一个实施例中，本发明的预测技术与诸如提升(lifting)之类的方法组合，以设计要用在利用时间变换的视频压缩应用中的时间变换。

稀疏性诱导预测的使用通过提供附加的预测选项改进运动补偿预测，该附加的预测选项取之前解码的帧中相同的块但是应用不同的预测技术，以形成待编码的帧的更好的预测算子。这是因为如果只考虑运动，则得到的预测包含大量仍与待编码帧无关的信息。如果丢弃该不相关信息，则显著地改进运动补偿预测。

例如，对于包含时间不相关噪声的视频序列，在之前解码的块被用在预测待编码帧之前去除这些块中的噪声的技术是有益的。对于显示从一个场景到另一场景的渐隐的视频序列，之前解码的帧可以是这两个场景的混合，而待预测帧可仅显示这两个场景中仅仅一个。因而，从之前解码的帧中去除不相关场景的技术可以非常有利于形成待预测帧的更好的预测算子。类似地，视频序列中的照明变化、视觉影响以及其它变化可不利地影响运动补偿的预测的精确度。所有这些问题和其引起的预测性能损失可利用这里描述的技术来减轻。

注意，这里所述的技术也可应用于其它类型的信号，例如但不限于音频和诸如医学体(medical volume)图像等之类的更高维信号。

编码器和解码器例子

图2A是使用稀疏性诱导预测的混合视频编码器的一个实施例的框图。参考图2A，运动补偿(MC)预测模块216基于之前解码的帧203生成运动补偿的预测。稀疏性诱导预测模块217扩增(augment)这里所述的运动补偿的预测，以产生待编码帧的更好的预测。在一个实施例中，稀疏性诱导预测模块217基于诸如原因信息(causalinformation)230之类的原因信息来扩增运动补偿的预测。

加法器211从当前帧201中减去扩增后的运动补偿的预测，以获得剩余帧。变换编码器212通过例如使用变换、量化器和熵编码器的组合，将剩余帧转换成编码的差202。在解码期间，变换解码器213通过例如使用熵解码器、逆量化器和逆变换的组合，将编码的差转换成重构的剩余帧。加法器214将重构的剩余帧加到扩增的运动补偿的预测，以得到重构的帧。延迟元件“Z^-1”215存储重构的帧，以供MC预测模块216的进一步引用。

在一个实施例中，视频解码器包括运动补偿单元，用于利用来自之前解码的帧的块生成预测块；稀疏性诱导预测模块扩增运动补偿的预测，以产生待解码帧的更好的预测；解码器，用于解码剩余帧；以及加法器，用于将剩余帧加到非线性预测。延迟元件“Z^-1”存储滤波后的帧，以供MC预测模块的进一步引用。

图2B是增强的视频解码器的一个实施例的框图。参考图2B，MC预测模块224根据之前解码的帧233生成运动补偿的预测。稀疏性诱导预测模块223扩增运动补偿的预测，以产生待解码帧的更好的预测。响应于从编码比特流所接收的预测参数232而进行上述操作。在一个实施例中，稀疏性诱导预测模块223基于诸如原因信息223之类的原因信息来扩增运动补偿的预测。变换解码器221通过例如使用熵解码器、逆量化器和逆变换的组合，将编码的差231转换成重构的剩余帧。加法器222将重构的剩余帧加到扩增的运动补偿的预测，以得到从视频解码器输出的重构的帧。输出可被发送到显示器。延迟元件“Z^-1”225还存储滤波后的帧，以供MC预测模块224的进一步引用。

下面进一步描述稀疏性诱导预测模块的操作。

变换

在一个实施例中，如上所述被应用到候选块的线性变换(预测变换)是规范正交块变换，诸如块p×p DCT。也可应用其它变换、非正交变换、非块(non-block)变换。当所应用的变换是非块的，则可以再次形成待编码帧/块中变换系数的预测，并且一旦如上所述完成了预测，则执行逆变换。可采用信号处理中已确定的技术来进行利用非块变换(小波变换、重叠变换等)的边界处理和空间区域的平铺(tiling)。希望该变换具有快速实现从而能够以高效的方式执行计算，但这不是必须的。

不失一般性地，假定所使用的预测变换是p×p块DCT。注意，在一个实施例中，所使用的预测变换不同于在预测误差的变换编码中所使用的变换。

这里所述的技术可通过例子来描述。图3是待编码的当前帧的一个示例描述，相对于待编码的宏块和当前宏块示出了之前编码的宏块。参考图3，当前帧300包括当前宏块302以及之前解码的宏块301和待编码的宏块303。

为了这里的目的，x表示待预测的p×p块(排列为p²×1矢量)。图4是预测块x和相关联的邻域Λ_x的示例描述。参考图4，在当前宏帧300的当前宏块302中示出块x(401)。相对于邻域Λ_x(402)示出了块x(401)和宏块302的位置。

为了这里的目的，y(排列为p²×1矢量)表示来自在预测x时所使用的帧的运动补偿的块。图5是在Λ_x内训练块的位置和在形成运动补偿的预测中的基准的已往帧中相应块的位置的示例描述。参考图5，示出了当前帧300和已往帧500，以及邻域Λ_x(402)中训练块t₁-t₃和在生成运动矢量501的运动补偿的预测中被作为基准的已往帧500中相应块u₁-u₃的位置。

令H表示上面段中所指定的线性块变换(预测变换)(p²×p²矩阵)。x的变换系数由c＝Hx给出，y的变换系数由d＝Hy给出。

令c(i)表示x的第i个变换系数(i＝1，...，p²)。在一个实施例中，由d(i)来预测c(i)：

\hat{c} (i) = α_{i} d (i), - - - (1)

这里，是预测，而α_i是预测权重。但是要注意，预测也可以更加一般化并可为非线性的(例如，2006年6月20日提交的标题为“ANonlinear，Prediction Filter for Hybrid Video Compensation”的美国专利申请No.11/471741)。也可通过

\hat{c} (i) = α_{i} d (i) + o_{i},

在等式(1)中加入偏置项o_i，来考虑平均值的变化。这一项也可最优化地被选择，以使均方误差或类似的度量最小。而且，可应用空间预测技术，使得可以去除d(i)的与c(i)预测无关的部分，以得到

和通过

\hat{c} (i) = α_{i} \hat{d} (i) + o_{i}

形成的预测。

在某些情况下(例如，当多于一个基准帧可用时，当基准帧中多于一个块被认为与待预测块匹配时，等等)，可以从多个之前解码的块来预测。在这种情况下，可以利用这些块的转换系数以线性方式形成预测。例如，如果z是另一之前解码的块，其转换系数由e＝Hz给出，则可以形成

\hat{c} (i) = α_{i} d (i) + β_{i} e (i) . - - - (2)

一旦对于i＝1，...，p²形成预测则可得到p²×1矢量

。于是，预测块

为：

\hat{x} = H^{- 1} \hat{c} .

在一个实施例中，利用待预测帧中之前传输的块来因果性地确定预测权重α_i。再次参考图4，对于块x，令Λ_x表示x周围的至少包含一些在待编码帧中之前解码的像素的空间邻域。如图5所示，训练块t₁，t₂，...，t_L位于Λ_x内，使得每个

t_{j} &Subset; Λ_{x}

且每个t_j中所有像素都可用，而且块u₁，u₂，...，u_L与之前解码的帧中的训练块t₁，t₂，...，t_L相对应。通过下式获得这些块的变换系数：

f_j＝Ht_j，

g_j＝Hu_j，

从而能够获得

α_{i} = \underset{ω}{\arg \min} Σ_{j = 1}^{L} {| f_{j} (i) - {ωg}_{j} (i) |}^{2} . - - - (3)

训练块t₁，t₂，...，t_L可重迭，使得更好地利用空间邻域Λ_x中的信息。在一个实施例中，如图4所示，邻域Λ_x是在块x周围的大小为M×M的方形邻域。M可以是例如M＝3p(变换H基函数在行/列方向上的大小的3倍)、M＝2p，等等。M也可以是某个其它整数。在另一实施例中，Λ_x是矩形邻域。在又一实施例中，邻域Λ_x具有更一般性的形状。

在一个实施例中，上述用于权重确定的过程被扩展到其中在预测过程中利用多个块的情况(等式(2))。在另一实施例中，预测被扩展到通过下式

\hat{c} (i) = Σ_{k = 1}^{p^{2}} α_{i, k} d (k),

利用具有不同下标的系数，并如上所述因果性地获得预测权重。

在一个实施例中，编码器/解码器对使所使用的变换H最优化，以使得均方预测误差最小。该操作可由编码器/解码器基于之前编码的信息因果性地执行，或由编码器非因果性地执行并把所得到的变换发送到解码器，或者是上述两者的混合。在一个实施例中，通过顺序执行以下步骤来使变换最优化：以给定的一组预测权重开始，寻找以该权重为条件的最佳变换使得均方预测误差最小，重新计算权重，然后重新计算变换，等等。

预测操作可以重叠方式进行，使得待预测空间区域中某些或全部像素被多次预测。然后，通过对这多个预测进行空间的每像素的平均来获得最终预测。假设在对预测误差进行变换编码时采用大小为n×n的块变换，图6示出将当前宏块分解成n×n压缩变换块的例子。从而，当对当前宏块编码时，预测第一n×n块，对预测误差编码，然后预测第二块，第二块的预测误差被编码，等等。该编码的顺序可以是光栅扫描(raster scan)的或者是其它任意方式的。

图7示出三个p×p预测块与待预测的n×n块重迭的例子。参考图7，待编码块701被表示为在n×n压缩变换块702中。p×p预测块1-3与块701重迭。在对块701的预测误差编码之前，生成这三个预测。每个预测对被标记为p×p预测块1到p×p预测块3的p×p空间区域进行预测。每一个p×p预测块不同地覆盖n×n块。

待预测的n×n块可被分成区域(A，B，C，D)，使得根据p×p预测块中哪一个与该区域重迭来不同地预测这些区域中的每一个。图8示出图7的三个p×p预测块1-3形成n×n块701的整体预测的方式。由于所有三个预测块在区域A中重迭，所以区域A中的像素被所有三个预测块预测(最终预测是这三个预测的线性组合)。由于预测块2和3在区域B中重迭，所以区域B中的像素被这些预测块中的两个(2和3)预测(最终预测是两个预测的线性组合)。由于预测块1和3在区域C中重迭，所以区域C中的像素被不同的两个预测块(1和3)预测(最终预测是两个预测的线性组合)。区域D中的像素被一个预测块(3)预测(由于在区域D中，预测块3不与任何预测块重迭)。

应当理解，如果一个像素具有k个预测块与其重迭，则该像素的最终预测由p×p预测块中每一个所提供的预测的线性组合形成。在一个实施例中，通过直接平均形成线性组合。在另一个实施例中，通过加权平均来形成线性组合。

在一个实施例中，由于p×p预测块所使用的预测权重是基于一组训练块而因果性地计算的，因此利用之前编码的n×n变换块来帮助当前预测是有利的。图9示出借助于之前解码的宏块和之前解码的n×n块对n×n块的预测。参考图9，借助于被用于创建预测块1-3的之前解码的宏块和之前解码的n×n块(其中某些被显示为之前解码的n×n块903)执行待编码的n×n块——块901——的预测。

一旦形成预测，编码器可决定是使用该预测还是将其丢弃，以有利于其它预测，例如使用2006年6月20日提交的标题为“A Nonlinear，Prediction Filter for Hybrid Video Compression”的美国专利申请No.11/471741所描述的技术。编码器也可发送有助于指定预测和预测权重的边信息。编码器还可最优化对运动矢量的搜索，使得得到最佳的稀疏性诱导预测。编码器还可使用因果训练块(causal training block)，以指定可能的预测权重的子集，并通过边信息发送特定权重。在一个实施例中，编码器还使用因果训练块来建立可能的预测权重的概率分布，并通过基于所建立的分布的熵编码而获得的边信息来发送特定权重。编码器还可使用矢量量化和矢量编码技术来指定待预测块的系数的预测算子。在一个实施例中，在利用时间变换的视频压缩应用中，所述方法可与基于预测的变换设计方法(诸如基于提升的方法)组合。

注意，本发明的实施例可适用于在变换编码中使用块以及非块变换的视频编码器。

本发明的实施例可应用于具有由于大范围统计量，诸如低通、带通、高通、纹理(texture)、边缘等的像素值的视频帧。但是，本发明不限于具有平滑变化的像素值的视频帧。

本发明的一个实施例对于宽范围的视频时间演变上的预测是有效的。在一个实施例中，典型视频帧上速率-失真性能和典型视频帧上的视觉质量比相关技术要好。

本发明的实施例还可以以实现低计算复杂度的方式被配置。

各种实施例

在一个实施例中，在稀疏性诱导预测过程中所使用的预测变换是p×p块DCT，其中p可以是4、5、8、16等。在一个实施例中，使用等式1来执行变换系数预测，并通过等式3得到预测权重。与在邻域Λ_x中可用的已经编码的数据相对应的所有重迭的p×p块(由p×p滑动窗口确定)被用在训练中，即被用在等式3的计算中。

关于预测形成，如果至少一个训练块可用于确定p×p预测块的权重，则形成该预测块。在一个实施例中，以所有偏移执行重迭预测，使得n×n变换块中每个像素具有最大可能数量的预测。该数量仅仅受到可用于预测形成的之前解码的信息的量的限制。

在一个实施例中，通过加权平均给出这多个预测的每像素平均。可以利用相等权重或利用本领域中已知的更为复杂的权重确定技术来实现，例如Onur G.Guleryuz，“Weighted Overcomplete Denoising”，Proc.Asilomar Conference on Signals and Systems，Pacific Grove，CA，Nov.2003。

注意，虽然上述说明是针对块来描述的，但是其它大小和形状的区域(例如，非块)也可与本发明结合使用，包括但不限于使被预测矢量和预测矢量对应于一般大小和形状的区域，即非块。

编码和解码过程的例子

图10是解码器中用于块的稀疏性诱导预测的过程的一个实施例的流程图。该过程由处理逻辑执行，处理逻辑可包括硬件(例如电路、专用逻辑等)、软件(诸如在通用计算机系统或专用机器上运行)或二者的组合。

参考图10，过程开始于处理逻辑将变量b设置为等于待预测的每个n×n块(处理框1001)，并将变量x设置为等于与b重迭的所有p×p帧块(处理框1002)。对于待预测的每个块b，处理逻辑取每个p×p块并预测x的变换系数(处理框1003)。变换域中这些预测在这里被记作

处理逻辑然后确定空间预测

(处理框1004)。空间预测

通过对预测

进行逆变换来确定。

接下来，处理逻辑确定由x表示的p×p块和块b的交集(处理框1005)。换而言之，空间预测的相关分量被确定为其与b重迭的部分。处理逻辑将交集内的预测部分累加(处理框1006)。从而，在b中相关像素上，相关分量被累加。处理逻辑将交集中像素的预测计数增加1(处理框1007)。

处理逻辑然后检查是否已经考虑了所有与b重迭的p×p帧块(处理框1008)。如果没有，则过程转向处理框1002，其中过程继续。如果已经考虑了，则处理框转向处理框1009。

在处理框1009，对于b中的每个像素，处理逻辑将累加的预测值除以累加的预测计数，以形成b的最终预测。累加值和预测计数使得能够进行最终预测确定，使得如果b中的像素由k个p×p块(k>＝1)预测，则累加值是k个预测的总和，用于像素的预测是k，而最终预测是累加值除以k。

一旦形成最终预测，处理逻辑就计算b的预测误差(处理框1010)。处理逻辑对预测误差编码(处理框1011)并将预测误差发送到解码器。

处理逻辑还解码预测误差(处理框1012)。这是与会由解码器解码的预测误差相同的预测误差。处理逻辑将解码的预测误差加到在处理框1009所生成的预测(处理框1013)。这形成解码后的块b。处理逻辑将解码后的块b加到由未来预测操作所产生的之前解码的块(处理框1014)。这实际上更新之前解码的信息。

处理逻辑然后检测是否已经预测了每个待预测的n×n块(处理框1015)。如果是，则过程完成；如果不是，则过程转向处理框1001，其中过程重复。

图11是在解码器中用于稀疏性诱导预测的过程的一个实施例的流程图。该过程由处理逻辑执行，处理逻辑可包括硬件(例如电路、专用逻辑等)、软件(诸如在通用计算机系统或专用机器上运行)或二者的组合。

参考图11，过程开始于处理逻辑将变量b设置为等于待预测的每个n×n块(处理框1101)，并将变量x设置为等于所有与b重迭的p×p帧块(处理框1102)。对于每个待预测的块b，处理逻辑取每个p×p块并预测x的变换系数(处理框1103)。变换域中的这些预测在这里被记作

处理逻辑然后确定空间预测

(处理框1104)。空间预测

通过对预测

进行逆变换来确定。

接下来，处理逻辑确定由x表示的p×p块和块b的交集(处理框1105)。换而言之，空间预测的相关分量被确定为与b重迭的部分。处理逻辑将交集内预测部分进行累加(处理框1106)。从而，在b中的相关像素上，相关分量被累加。处理逻辑将交集中像素的预测计数增加1(处理框1107)。

处理逻辑然后检查是否已经考虑了所有与b重迭的p×p帧块(处理框1108)。如果没有，则过程转向处理框1102，其中该过程继续。如果已经考虑了，则处理框转向处理框1109。

在处理框1109，对于b中的每个像素，处理逻辑将累加的预测值除以累加的预测计数，以形成b的最终预测。累加值和预测计数使得能够进行最终预测确定，使得如果b中的像素由k个p×p块(k>＝1)预测，则累加值是k个预测的总和，用于像素的预测是k，而最终预测是累加值除以k。

在形成最终预测之后，处理逻辑将预测与预测误差加和(处理框1110)，其中处理逻辑对从解码器所接收的块b的预测误差进行解码(处理框1111)。

在将预测与预测误差加和之后，处理逻辑更新之前解码的信息(处理框1112)。在一个实施例中，更新之前解码的信息包括将解码后的块b加到之前解码的帧，以便将来使用。

在更新之前解码的信息之后，处理逻辑检查是否已经预测了每个待预测的n×n块(处理框1113)。如果是，则过程完成；如果不是，则过程转向处理框1101，其中过程重复。

图12是用于执行变换域预测的过程的一个实施例的流程图。该过程由处理逻辑执行，处理逻辑可包括硬件(例如电路、专用逻辑等)、软件(诸如在通用计算机系统或专用机器上运行)或二者的组合。

参考图12，对于每个给定的块x，过程开始于处理逻辑确定y，其中y是用于x的运动补偿的预测(处理框1202)。处理逻辑然后根据下式计算y的变换系数：

d＝Hy

(处理框1203)。

然后，处理逻辑为d的每个分量确定预测权重α_i，由下标i＝1，....，p²来标引(处理框1204和1205)。处理逻辑然后形成预测矢量如下：

\hat{c} (i) = α_{i} d (i)

(处理框1206)。

注意，在一个实施例中，可在不生成变换系数的情况下生成预测。例如，像素域滤波器可被应用于运动补偿的预测，其中应用像素域滤波器相当于在变换域中进行预测。在这种情况下，过程包括：执行运动补偿以利用来自之前编码的帧的第一块生成第一运动补偿的预测；利用多个预测，由第一运动补偿的预测为待编码的第二块生成第二运动补偿的预测，包括通过将像素域滤波器应用到第一运动补偿的预测而生成这多个预测中的每一个，其中应用像素域滤波器的结果相当于根据块预测系数生成预测变换系数，该预测变换系数随后被逆变换以在像素域创建第二运动补偿的预测；从当前帧中的块减去第二运动补偿的预测，以产生剩余帧；以及对剩余帧编码。

在另一个实施例中，设计查找表，使得不进行等价像素域滤波器计算，而是仅仅使用变换系数来形成查找表中的索引，该索引又被用于获得像素域滤波器，滤波器又被应用在像素域中。即，在一个实施例中，基于由一个和多个变换系数形成的索引，从查找表选择像素域滤波器。

图13是用于计算预测等待的过程的一个实施例的流程图。该过程由处理逻辑执行，处理逻辑可包括硬件(例如电路、专用逻辑等)、软件(诸如在通用计算机系统或专用机器上运行)或二者的组合。

参考图13，过程开始于：如果有边信息，则处理逻辑利用边信息初始化预测权重α_i(i＝1，...，p²)(处理框1301)。针对给定的块x，处理逻辑确定像素的邻域Λ_x(处理框1302)。

处理逻辑然后检查Λ_x中所有可能的p×p块，以确定是否块中所有像素都可用于编码器和解码器二者，即，之前被编码/解码(处理框1303和1304)。

如果块中所有像素都可用于编码器和解码器二者，则处理逻辑将变量j递增(increment)(处理框1305)并通过运动补偿在基准帧中确定匹配块u(处理框1306)。即，处理逻辑确定块t的运动补偿的预测。处理逻辑然后为块t和匹配块u计算变换系数(处理框1307)。

一旦计算出与所有考虑的块相关联的变换系数，处理逻辑就借助于任何可用的边信息，(利用例如上面的等式3)求解预测权重(处理框1308)。然后，处理逻辑输出预测权重(处理框1309)。

计算机系统的例子

图14是可执行一个或多个这里所述的操作的示例性计算机系统的框图。参考图14，计算机系统1400可包括示例性客户端或服务器计算机系统。计算机系统1400包括用于通信信息的通信机构或总线1411，以及用于处理信息的与总线1411耦接的处理器1412。处理器1412包括微处理器，但不限于微处理器，微处理器例如是Pentium^TM、PowerPC^TM、Alpha^TM等。

系统1400还包括耦接到总线1411的随机存取存储器(RAM)或其他动态存储设备1404(称为主存储器)，用于存储信息和要由处理器1412执行的指令。主存储器1404还可被用于在处理器1412执行指令期间存储临时变量或其它中间信息。

计算机系统1400还包括耦接到总线1411的只读存储器(ROM)和/或其它静态存储设备1406，用于为处理器1412存储静态信息和指令，还包括数据存储设备1407，诸如磁盘或光盘及其相应的盘驱动器。数据存储设备1407耦接到总线1411，用于存储信息和指令。

计算机系统1400还可耦接到显示设备1421，诸如阴极射线管(CRT)和液晶显示器(LCD)，显示设备1421耦接到总线1411以向计算机用户显示信息。字母数字输入设备1422，包括字母数字键和其它键，也可耦接到总线1411，以便将信息和命令选择通信到处理器1412。附加的用户输入设备是光标控制器1423，诸如鼠标、轨迹球、跟踪板、指示笔和光标方向键，光标控制器耦接到总线1411以将方向信息和命令选择通信到处理器1412以及控制显示器1421上的光标移动。

另一可耦接到总线1411的设备是硬拷贝设备1424，其可被用于在诸如纸、胶片之类的媒介或相似类型的媒介上标记信息。另一可耦接到总线1411的设备是有线/无线通信装置(capability)1425，以便与电话或手持式掌上设备通信。

注意，系统1400的任何或全部组件以及相关的硬件可被用在本发明中。但是，可以理解，计算机系统的其它配置可包括这些设备中部分或全部。

虽然本领域技术人员在阅读了前面的描述之后将无疑问地理解本发明的许多变化和修改，但是应当理解，通过说明的途径而展示和描述的任何特定实施例无论如何都不应当被认为是限制性的。因此，对各个实施例细节的引用不是要限制本身仅仅叙述对于本发明重要的那些特征的权利要求的范围。

Claims

1.一种方法，包括：

执行运动补偿，以利用来自之前编码的帧的第一块生成第一运动补偿的预测；

利用空间域中的多个预测，根据所述第一运动补偿的预测为待编码的第二块生成第二运动补偿的预测，包括通过以下步骤生成所述多个预测中的每一个：

利用变换为所述第一块生成块变换系数，

利用所述块变换系数，生成待编码的所述第二块的预测的变换系数，以及

对所述预测的变换系数执行逆变换，以在像素域中创建所述第二运动补偿的预测；

从当前帧中的块减去所述第二运动补偿的预测，以产生剩余帧；以及

对所述剩余帧编码。

2.一种编码器，包括：

运动补偿预测模块，用于执行运动补偿，以为第一块生成第一运动补偿的预测；

第二预测模块，用于接收所述运动补偿的预测，并根据空间域中的多个预测为待编码的第二块生成第二运动补偿的预测，其中所述第二预测模块通过以下步骤生成所述多个预测中的每一个：

利用变换，为所述第一块生成块变换系数，

减法器，用于从当前帧中的块减去所述第二运动补偿的预测，以产生剩余帧；以及

编码器，用于对所述剩余帧编码。

3.一种制造产品，具有一个或多个其上存储有指令的计算机可读介质，所述指令在被系统执行时使系统执行包括下列步骤的方法：

利用空间域中的多个预测，根据所述第一运动补偿的预测，为待编码的第二块生成第二运动补偿的预测，包括通过以下步骤生成所述多个预测中的每一个：

利用变换为所述第一块生成块变换系数，

对所述剩余帧编码。

4.一种方法，包括：

利用来自之前解码的帧的第一块生成预测的块；

响应于所述预测的块，利用空间域中的多个预测生成运动补偿的预测，包括通过以下步骤生成所述多个预测中的每一个：

利用变换为所述预测的块生成块变换系数，

利用所述块变换系数生成待编码的第二块的预测的变换系数，以及

对所述预测的变换系数执行逆变换，以在像素域中创建运动补偿的预测；

对剩余帧解码；以及

将所述剩余帧加到所述运动补偿的预测。

5.一种装置，包括：

运动补偿单元，用于利用来自之前解码的帧的第一块生成预测的块；

第二预测模块，用于响应于所述预测的块，根据空间域中的多个预测生成运动补偿的预测，其中所述第二预测模块通过以下步骤生成所述多个预测中的每一个：

利用变换为所述预测的块生成块变换系数，

解码器，用于对剩余帧解码；以及

加法器，用于将所述剩余帧加到所述预测。