CN1735213A

CN1735213A - 一种用于采用了混合方向预测和上升小波的图像编码的系统和方法

Info

Publication number: CN1735213A
Application number: CNA2005100922556A
Authority: CN
Inventors: 吴枫; 李世鹏
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-07-03
Filing date: 2005-07-04
Publication date: 2006-02-15
Anticipated expiration: 2025-07-04
Also published as: KR20060049812A; US7565020B2; JP2006074733A; US20060008164A1; JP4889248B2; EP1641277A2; EP1641277B1; EP1641277A3; CN1735213B; KR101203369B1

Abstract

一种提供了一种使用混合方向预测和上升小波技术的对采用了图像内的空间相关性的图像和视频进行编码的有效策略的系统和方法。

Description

一种用于采用了混合方向预测和上升小波的图像编码的系统和方法

背景

技术领域

本发明涉及一种用于对图像数据进行编码和解码的系统和方法。本发明尤其涉及一种改进了的编码和解码方法，其通过利用混合方向预测和上升小波技术以在一幅图像内使用空间相关。该编码方法也可以被用于对视频序列进行帧内编码。

背景技术

随着数码相机数量的迅速增加，图像压缩在现代生活中扮演了重要的角色。在过去的几十年中，许多压缩方法都已经得到发展。这些包括早期的基于差分脉码调制技术(DPCM)的压缩方法[1]，基于离散余弦变换(DCT)的压缩方法[1]-[4]和基于小波的压缩方法[5]-[20]。基于DCT的方法，例如JPEG[1]，通常提供了低计算解决办法，但是它们在实现理想的可伸缩性上有困难。

与基于DCT的压缩方法比较，基于小波的方法尤其需要更强的计算能力。另一方面，小波变换[21]提供了空间-频率域中的多尺度的图像显示。除了便于压缩的能量压缩和去相关特性，小波变换的一个主要优点是它固有的可伸缩性。例如，基于小波的JPEG2000标准[7]不仅提供了优于基于DCT的JPEG标准的压缩性能，而且还提供了速率、质量和分辨率上的可伸缩性，这是消费者和网络应用非常希望的。

事实上，自然图像通常包括丰富的方向特性，它们一般被近似为当地水平面上的线性边缘。这些边缘也许既不垂直也不水平。然而，最主流的图像编码方法没有考虑这种因素[1]，[5]-[7]。二维(2D)DCT或小波变换总是在水平和垂直方向执行。这导致了高频系数的大量级。此外，在低比特率下，在图像边缘可以清楚观察到作为臭名昭著的Gibbs失真的量化效应。这个问题已被许多研究人员意识到[3]，[4]，[8]-[20]。Feig等以一种与基于分形的图像压缩[3]相似的方式将空间预测引入到JPEG方法编码。就综合考虑PSNR/比特率而言，它并没有优于完全的基于DCT的方法。然而，在非常低的比特率下，它产生了少得多的块失真和明显更好的视觉质量。Kondo等对DCT块执行方向预测，它能由四个相邻的编码的DCT块中的一个预测[4]。新的视频编码标准H.264也已经成功地将基于块的空间预测技术应用到帧内编码。已经表明它在编码效率上具有显著的效果，是优于那些没进行空间预测的方法的[22]。

有许多人已经调查了小波/子频段编码方法的这个问题。Ikonomopoulos等提出了一套确定的适应于不同方向的结构相关性的方向滤波器[8]。Li等将子频段分解合并到Ikonomopoulos的方法中[9]。Bamberger等使用了基于矩形图像采样的滤波器组[10]-[12]。它能将图像分解成许多不同的方向组成。近来被Candes等发展的Ridgelet和Curvelet是另一种具有极性采样的变换[13][14]。Mahesh等将采样图像六角形地分解成在频率和方向上可选择的子频段[15]。Taubman等提出了一种方法，其中输入图像在小波变换前首先被重采样[16]。重采样过程能将图像边缘旋转到水平或垂直方向。Wang等采用了类似于Taubman等的想法，但是进一步提出重叠的延伸部分避免了不同方向区域的边界周围的编码失真[17]。基于小波包的类似工作也已经得到报道[18][19]。

然而，少数作者已经提出将方向预测用于基于上升的小波变换。小波变换能用两种方法实现：基于卷积和基于上升。上升实施方式由Daubechies提出。由Daubechies等发展的上升结构是小波变换的一种有效和流行的实施方式，其中每个有限冲击响应(FIR)小波滤波器能被分解成几个上升阶段[23]。小波变换的卷积实施方式使得空间预测非常困难地被合并，而小波技术潜在地虑及了空间预测的合并。然而，由Daubechies提出的技术并没有使用任何空间方向信息。Boulgouris等提出了一种自适应上升技术来使预测误差的方差最小化[20]。与Ikonomopoulos的想法类似，它由五点形采样得到几个方向滤波器，并用中值运算选取它们中的一个。但是，它在无损耗图像编码中没有表现出显著的效果。

因此，需要的是一种用于对图像数据，例如，比如说视频数据进行编码或解码的系统和方法，其中通过一种方法使比特流能被编码，该方法利用了一幅图像内的空间相关性并且没有在高频系数中产生大的系数。该系统和方法应该也是有计算效率的。

注意在本说明书的剩余部分中，其记载指的是由包含在一对括号内的数字编号标识的各个不同的出版物。例如，这种参考文献可以通过列举被识别，“参考文献[1]”或仅仅是“[1]”。在详细描述部分的末尾可以发现与每个编号对应的出版物的列表。

发明内容

本发明涉及一种用于对图像数据进行编码和/或解码的编解码器的系统和方法。在本发明的系统和方法中，方向的空间预测被合并到传统的基于上升的小波变换中。本发明的系统和方法提供了一种新颖、有效和灵活的数字信号处理(DSP)上升技术。本发明的系统和方法的DSP上升能使用流行的Haar，5/3和9/7滤波器，但是具有其它上升方法中不存在的几个特性。例如，在每个上升阶段，预测或更新信号并不总是如它们在其它上升方法中一样是来自于水平或垂直采样。预测和更新信号能沿图像线性边缘被选择，以减少高通系数的量级。此外，出于精确的空间预测的目的，预测或更新信号可以来自于分形采样，其能和任何插值方法计算。那就是说，本发明的DSP上升技术对插值方法没有限制。而且，为了保证理想的重建，预测和更新的采样用整数表达。而且，当2D变换被分成两个1D变换时，这两个1D变换在DSP上升中不一定是垂直的。然而，在水平和垂直方向进行分割以产生四个矩形的子频段。

本发明的编码系统的一个实施方式工作如下。一个二维(2D)信号被输入到该系统。然后通过使用方向预测和上升小波，该2D信号被变换。更特别的是，使用方向预测和上升小波的2D信号的变换包括在垂直方向执行1D小波变换以及在水平方向执行1D小波变换。每个1D垂直和水平小波变换然后被分割成偶数和奇数的多相采样。通过利用沿图像中的边缘选择的预测信号，从邻近的偶数的多相采样中预测奇数的多相采样。然后通过利用预测的奇数的多相采样(也被称作预测的留数)以更新偶数的多相采样，以及预测的奇数的多相采样(例如留数)和更新的偶数的多相采样的系数被输出并被熵编码。熵编码的系数然后能被输出到比特流。

本发明的系统和方法也采用了有效估计和编码方向数据的技术，因此增加了空间预测的精度并减少了附加位。这是实现本发明的DSP上升方法中高性能的关键。本发明的一个实施方式中的编码/解码方法是在JPEG2000方式的编解码器中实现的，其中DSP上升取代了传统的上升。

除了刚才描述的优点，当结合附图，从以下详细的描述来看，本发明其它的优点将是明显的。

附图说明

结合以下的描述、附加的权利要求和附图，本发明的特别的特征、方面和优点将变得更好理解，其中：

图1是描述一种组成用来实现本发明的例举系统的通用目的计算装置的框图。

图2是本发明编码方法的概况的流程图。

图3是2D方向的空间预测上升的示例性的流程图。

图4是普通的1D传统的上升变换的简化的方框图，(a)分解方和(b)合成方。

图5是一个举例的图像和四个经过传统的上升分解得到的子频段。图5A表示了原始图像。图5B表示了低低(LL)子频段。图5B表示了低高(LH)子频段。图5C表示了高低(HL)子频段和图5D表示了高高(HH)子频段。

图6表示了对应于本发明系统和方法的DSP上升方法中的垂直变换的角度。

图7表示了普通的1D的DSP上升变换，(a)分解方和(b)合成方。

图8A到8D表示了由本发明的DSP上升分解得到的四个子频段。图8A表示了低低(LL)子频段。图8B表示了低高(LH)子频段。图8C表示了高低(HL)子频段和图8D表示了高高(HH)子频段。

图9A、9B和9C表示了三个用于估计根据本发明的系统和方法的方位角的分区模式。图9A是16×16像素块分区；图9B是8×8像素块分区。图9C是4×4像素块分区。

图10表示了根据本发明的系统和方法的图像中的角度估计的过程的流程图。

图11表示了根据本发明的系统和方法的宏块处的角度和模式估计的流程图。

图12表示了根据本发明的系统和方法的方位角的预测。

优选实施方式的详细描述

在以下本发明优选实施方式的描述中，可以参考形成其组成部分的附图，而且附图是通过图解本发明可被实践的具体实施方式来表示的。应该理解，在不偏离本发明的范围之下，可以利用其它实施方式并可以作出结构的改变。

1.0 例举的操作环境

图1表示了一种合适的计算系统环境100的一个例子，本发明可以在它上面实现。该计算系统环境100仅是一种合适的计算环境的一个例子，目的不在于限制本发明的使用或功能的范围。计算环境100不应该被解释成具有与示例性的操作环境100中表示的任何一个组成部分或其组成部分的组合相关的依赖性或规格。

本发明对于许多其它通用目的或专用目的的计算系统环境或配置是可操作的。适用于本发明的众所周知的计算系统、环境、和/或配置的例子包括，但不限于，个人电脑、服务器电脑、手持或膝上型电脑、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子产品、网络PC、小型计算机、大型计算机、包括以上系统或装置的任何一种的分布式计算环境，以及诸如此类。

本发明可以用计算机可执行指令的通用环境来描述，例如被计算机执行的程序模块。通常，程序模块包括子程序、程序、对象、变量、数据结构等，程序模块执行特定的任务或实现特定的抽象的数据类型。本发明也可以在分布式计算环境中被实践，其中由通过通信网络连接的远程处理设备执行任务。在分布式计算环境中，程序模块可以处于包括存储装置的本地和远程计算机存储媒体中。

参考图1，用于实现本发明的示例性的系统包括一个以计算机110的形式的通用目的计算装置。计算机110的组成部分可以包括，但不限于，处理单元120，系统存储器130，和将包括系统存储器的各种系统组成部分连接到处理单元120的系统总线121。系统总线121可以是包括存储器总线或存储控制器、外围总线、和使用多种总线结构的任一种的局部总线的几种类型的总线结构的任何一种。通过举例的方式，并不是限制，这种总线结构包括工业标准结构(ISA)总线，微通道结构(MCA)总线，增强工业标准结构(EISA)总线，视频电子标准协会(VESA)局部总线，和也被知晓为Mezzanine总线的外设部件互连(PCI)总线。

典型地，计算机110包括多种计算机可读介质。计算机可读介质可以是任何可用的能被计算机110访问的介质，它包括易失和非易失介质，可移动和不可移动介质。通过举例的方式，并没有限制，计算机可读介质可以包括计算机存储介质和传播介质。计算机存储介质包括易失和非易失、可移动和不可移动存储器，由用于存储例如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术，CD-ROM、数字多功能盘(DVD)或其它光盘存储器，盒式磁带、磁带、磁盘存储器或其它磁性存储装置、或任何能被用来存储所要求的信息并能被计算机110访问的其它介质。传播介质典型地包括了计算机可读指令、数据结构、程序模块或例如载波或其它传输机制的调制数据信号中的其它数据并还包括任何信息传输介质。术语“调制数据信号”指的是一种信号，它具有一个或多个特征，该特征以一种对信号中的信息进行编码的方式被设置或变更。用举例的方式，并没有限制，传播介质包括例如有线网络或直接有线连接的有线介质，和例如声、RF、红外和其它无线介质的无线介质。以上的任意组合应该也被包括在计算机可读介质的范围内。

系统存储器130包括以例如只读存储器(ROM)131和随机存储器(RAM)132的易失和/或非易失存储器形式的计算机存储介质。一个基本的输入/输出系统133(BIOS)典型地被存储在ROM131中，它包含了例如在启动时帮助在计算机110内的元件之间传输信息的基本程序。RAM132典型地包含了被处理单元120直接访问和/或即时操作的数据和/或程序模块。通过举例的方式，并不是限制，图1表示了操作系统134、应用程序135、其它程序模块136、和程序数据137。

计算机110也可以包括其它可移动/不可移动、易失/非易失计算机存储介质。仅通过举例的方式，图1表示了从不可移动、非易失的磁性介质读取或写入的硬盘驱动器141，可从可移动、非易失的磁盘152读取或写入的磁盘驱动器151，和从例如CD ROM或其它光学介质的可移动、非易失的光盘156读取或写入的光盘驱动器155。其它能被用于示例性的操作环境中的可移动/不可移动、易失/非易失的计算机存储介质包括，但不限于，盒式磁带、闪存卡、数字多功能盘、数字录象带、固态RAM、固态ROM，以及诸如此类。硬盘驱动器141典型地通过例如接口140的一个不可移动的存储器接口被连接到系统总线121，以及磁盘驱动器151和光盘驱动器155典型地通过例如接口150的可移动存储器接口被连接到系统总线121。

上述以及由图1表示的驱动器和它们相关的计算机存储介质提供计算机可读指令、数据结构、程序模块和用于计算机110的其它数据的存储。在图1中，例如，硬盘驱动器141被表示成存储操作系统144、应用程序145、其它程序模块146、和程序数据147。注意这些组成部分可以与操作系统134、应用程序135、其它程序模块136、和程序数据137相同或不同。操作系统144、应用程序145、其它程序模块146、和程序数据147在这儿被用不同的数字表示，表明至少它们是不相同的。一个用户可以通过例如键盘162和被广泛称作鼠标、跟踪球或触摸垫的指示设备161的输入装置将命令和信息输入到计算机110中。其它输入装置(没有表示)可以包括麦克风、操纵杆、游戏垫、卫星反射器、扫描仪，或诸如此类。这些和其它的输入装置常常通过被连接到系统总线121的用户输入接口160被连接到处理单元120，但是可以通过其它例如并行端口、游戏端口或通用串行总线(USB)的接口或总线结构连接。监视器191或其它类型的显示装置通过例如视频接口190的接口也被连接到系统总线121。除了监视器，计算机也可以包括其它例如扬声器197和打印机196的外围输出设备，其可通过输出外围接口195被连接。本发明的特殊意义在于，能拍摄图像序列164的照相机163(例如数字/电子照相机或摄像机，或胶片/相片扫描仪)也能够被包括作为个人电脑110的输入装置。而且，虽然仅描绘了一个照相机，多个照相机可以被包括作为个人电脑110的输入装置。由一个或多个照相机拍摄的图像164通过合适的照相机接口165被输入到计算机110中。这个接口165被连接到系统总线121，由此使得图像被选择路径并存储到RAM132、或一个其它与计算机110相关的数据存储装置中。然而，注意到图像数据能从任何一个上述的计算机可读介质被输入到计算机110中，而不要求使用照相机163。

计算机110可以在对一个或多个例如远程计算机180的远程计算机使用逻辑连接的网络环境中操作。远程计算机180可以是个人电脑、服务器、路由器、网络PC、同等装置或其它普通的网络节点、并且典型地包括许多或全部上述的与计算机110相关的元件，尽管在图1中只表示了存储装置181。图1表示的逻辑连接包括一个局域网(LAN)171和一个广域网(WAN)173，但是也包括其它网络。这种网络环境在办公室、企业计算机网、内联网和互联网是常见的。

当用于LAN网络环境中时，计算机110通过网络接口或适配器170被连接到LAN171。当用于WAN网络环境中时，计算机110典型地包括一个调制解调器172或其它在例如互联网的WAN173上建立通信的装置。调制解调器172可以是内置的或外置的，它可通过用户输入接口160、或其它合适的机制被连接到系统总线121。在网络环境中，被描述的与计算机110相关的程序模块或它的部分可以被存储在远程存储装置中。通过举例的方式，并不是限制，图1表示了处于存储装置181上的远程应用程序185。应该理解表示的网络连接是示例性的，以及建立计算机之间通信连接的其它手段可以被采用。

现在在讨论了示例性的操作环境后，该描述部分的剩余部分将描述体现本发明的程序模块。

2.0 一种用于采用了混合方向预测和上升小波的图像编码的系统和方法

将在以下段落更详细地讨论本发明的图像编码系统和方法。本发明的概况和传统的上升技术的概况一起提出。然后参考传统的上升，比较和细述方向预测和上升技术。插值方法、预测角度估计和编码也被讨论。最后，本发明示例性的工作环境也被讨论。

2.1 发明概况

在图2中表示了本发明的系统和方法的概况。如处理操作202所示，表示图像的二维(2D)信号被输入到系统中。如处理操作204所示和图3所细述的，通过使用基于图像中的边缘和上升小波的方向预测，该2D信号然后被变换。变换的系数然后被输出(处理操作206)并被熵编码(处理操作208)。熵编码的系数然后被输出到如处理操作210所示的比特流。

如图3所示，使用了方向预测和上升小波的2D信号的变换包括在垂直方向执行1D小波变换(处理操作302)和在水平方向执行1D小波变换(处理操作304)。应该注意这两个处理操作顺序上可以颠倒。

处理操作302和304的特性如下。如处理操作306所示，第一1D小波变换沿垂直方向(处理操作306)被分成偶数和奇数的多相采样。“预测留数”或奇数的多相采样通过使用沿图像中的边缘选择的预测信号由邻近的偶数的多相采样预测(处理操作308)。然后偶数的多相采样通过使用预测的奇数的多相采样被更新，其中沿和在前预测步骤相同的方向选择更新的信号(处理操作310)。

类似地，第二1D小波变换被分成沿水平方向的偶数和奇数的多相采样(处理操作312)。“预测留数”或奇数的多相采样通过使用沿图像中的边缘选择的预测信号由邻近的偶数的多相采样预测(处理操作314)。然后偶数的多相采样通过使用预测的奇数的多相采样被更新，其中沿和在前预测步骤相同的方向选择更新的信号(处理操作316)。如图2所示，“预测留数”和更新的偶数的多相采样的系数然后被输出。

本发明的系统和方法将方向的空间预测合并到传统的基于上升的小波变换中以提供一种有效和灵活的DSP-上升图像编码技术。在本发明的一些实施例中，使用了流行的Haar，5/3和9/7滤波器。然而，本发明的系统和方法具有以下以前没有被其它上升方法采用的特征。

●在每个上升阶段，预测或更新信号并不总是来自于水平或垂直采样。它们能沿图像线性边缘被选择以减小高通系数的量级。

●出于精确的空间预测的目的，预测或更新信号可以来自于部分采样，这可由当今的插值技术计算。本发明的上升方法对插值方法没有限制。

●为了保证理想的重建，预测和更新的采样总是在整数位。

●当2D变换被分成两个1D变换，这两个1D变换在本发明的DSP-上升中不一定是垂直的。例如，在传统的上升中，两个1D变换总是在水平和垂直方向进行。默认第二1D变换垂直于第一1D变换。但是，在许多情况中，如果第一1D变换沿某一方向进行，第二1D变换的垂直方向不一定是最佳预测。在根据本发明的系统和方法中，第二变换能自由选择最佳预测方向并不被第一1D变换的方向所限制。但是要在水平和垂直方向实行将采样分成奇数和偶数的多相采样以产生四个矩形的子频段。

此外，本发明的系统和方法也采用了有效地对方向数据进行估计和编码的技术，因此提高了空间预测的精度并减少了附加位。这对于实现本发明的DSP-上升方法中的高性能是很关键的。本发明的一个实施例是在JPEG2000方式的编解码器中实行的，其中DSP-上升取代了传统的上升。

为了充分理解本发明和传统的上升技术之间的区别，以下部分记载和比较了传统上升的概况。

2.2 传统上升的概况

现在将回顾一下作为一个讨论根据本发明的系统和方法的开端的由Daubechies等在[23]中提出的传统上升。一个特别的图像被用来清楚地解释现有的小波/子频段图像编码方法中存在的问题。小波变换的基本思想是用存在于大部分真实生活信号中的相关结构来构造一个稀疏估计。邻近的采样和频率比那些离得很远的要更相关。

x(m，n)_m，n∈Z是2D信号。没有一般性损耗，可以假定该信号首先在垂直方向上进行1D小波变换(例如在图像中的每行进行垂直小波分解)以及然后是在水平方向(例如在图像中的每列进行水平小波分解)。根据[23]中给出的技术，每个1D小波变换能被分解成一个或多个上升阶段。上升可以被看作一种利用空间域技术分析和合成给定信号的方法。一般，一个典型的上升阶段包括三个阶段：分割，预测和更新。在分割阶段，输入信号被分成两个不相交集，奇数的和偶数的采样。在预测阶段，偶数的采样被用来预测奇数的系数。该预测的值被从奇数的系数中减去以给出预测中的误差。在更新步骤中，偶数的系数和预测中的误差结合，其被通过一个更新函数以对偶数的系数提供更新。上升步骤很容易被颠倒。那就是说，有可能由误差预测的系数和偶数的系数的更新来重建原始信号。

更特别的是，以下将更详细地描述和垂直1D小波变换相关的上升阶段。

首先，1D垂直小波变换的所有采样被分成两个部分：偶数的多相采样和奇数的多相采样，

\{\begin{matrix} x_{e} (m, n) = x (m, 2 n) \\ x_{o} (m, n) = x (m, 2 n + 1) \end{matrix} - - - (1)

在预测步骤，从邻近的偶数的多相采样中预测奇数的多相采样。用以下方程计算预测留数h(m，n)，

h (m, n) = x_{o} (m, n) - P_{x_{e}} (m, n) . - - - (2)

由于现在将讨论垂直变换，每个x_o(m，n)的预测是第m列邻近的偶数的系数的线性组合，

P_{x_{e}} (m, n) = \underset{i}{Σ} p_{i} x_{e} (m, n + i) . - - - (3)

值得注意p_i与传统上升中的变量m无关。因此，方程(3)的冲击响应函数可以被简化成1D形式，即

P (z) = Σ_{i = i_{h}}^{i_{e}} P_{i} z^{i} . - - - (4)

其中z是Z域中的变量以及p_i是预测参数，其由小波滤波器决定。一般，仅当有限数量的系数p_i是非零的情况下才考虑FIR小波滤波器。此处设i_b和i_e分别为最小和最大的整数i，其中p_i是非零的。在方程(2)的计算后，通过用预测留数h(m，n)代替x_o(m，n)来得到x(m，n)的新的表达式。它等价于x(m，n)。给出奇数的多相采样的预测和预测留数，就可用方程(2)理想地重建原始的奇数的多相采样。

在更新步骤，偶数的多相采样被替换成

l(m，n)＝x_e(m，n)+U_h(m，n) 0 (5)

此处U_h(m，n)是第m列中邻近的预测留数的线性组合，

U_{h} (m, n) = \underset{j}{Σ} u_{j} h (m, n + j) . - - - (6)

类似地，以下给出方程(6)的有限冲击响应函数

U (z) = Σ_{j = j_{h}}^{j_{e}} u_{j} z^{j} . - - - (7)

此处j_b和j_e分别是最小和最大的整数j，其中u_j是非零的。u_j是更新参数，其由小波滤波器所决定。这个步骤一般又是可颠倒的。给出l(m，n)和h(m，n)，就可理想地重建偶数的多相采样。

变量p_i和u_j是滤波参数。非零滤波参数的数目和它们的量级通常依使用的小波滤波器而不同。然而，具有不同滤波器的1D基于上升的变换一般可用图4所示的框架来描述。图4(a)是前向的基于上升的变换。图4(b)是逆向的基于上升的变换。变量K是上升阶段的数目(对于Haar和5/3滤波器K＝1以及对于9/7滤波器K＝2)。滤波器是线性时不变算符并完全由它的冲击响应确定。有限冲击响应滤波器(FIR)是仅当有限数量的滤波器系数是非零的情况。为了方便比较本发明的DSP上升技术和传统的上升，以下列出Haar、5/3和9/7滤波器的FIR函数，

Haar : \{\begin{matrix} P_{0} (z) = - 1 \\ U_{0} (z) = 1 / 2 \\ s_{0} = s_{1} = 1 \end{matrix} - - - (8)

5 / 3 : \{\begin{matrix} P_{0} (z) = - (1 + z) / 2 \\ U_{0} (z) = (1 + z^{- 1}) / 4 \\ s_{0} = s_{1} = 1 \end{matrix} - - - (9)

9 / 7 : \{\begin{matrix} P_{0} (z) = - 1.586134 \times (1 + z) \\ U_{0} (z) = - 0.05298 \times (1 + z^{- 1}) \\ P_{1} (z) = 0.882911 \times (1 + z) \\ U_{1} (z) = 0.443506 \times (1 + z^{- 1}) \\ s_{0} = 1.230174 \\ s_{1} = 1 / s_{0} \end{matrix} - - - (10)

1D水平上升变换以和上述关于垂直上升变换相同的方式被实行，但是它在m维上执行。从以上讨论中，可以发现方程(3)和(6)的预测总是邻近的整数采样或在水平或垂直方向的高通系数的组合。当编码图像的许多边缘既不水平也不垂直时，以下讨论的问题出现了。

为了清楚地解释该问题，如图5(a)所示，使用了用于2D小波变换一个特别的图像。它由四行方块组成：第一行具有水平条纹的四个方块，第二行和第四行具有倾斜条纹的四个方块，和第三行具有垂直条纹的四个方块。在传统的2D上升变换后，得到了图5(b)、(c)、(d)和(e)表示的四个子频段。这些子频段由将2D小波通过低通和高通滤波器所得到。起初，用垂直的1D变换对2D小波进行操作，这产生了由低通系数定义的图像和由高通系数定义的图像。然后用水平的1D变换对2D小波进行操作，这产生了由低通系数和高通系数定义的图像。这四个图像然后被合并成四个被描绘的子频段。在低高(LH)子频段，仅第一行被水平变换完全移除。在高低(HL)子频段，仅第三行被垂直变换完全移除。在高高(HH)子频段，具有倾斜条纹的行在水平和垂直变换后仍然保持。可以清楚地观察到，那些高通子频段包含许多纹理信息。这在低比特率下会产生低的编码效率和差的视觉质量。

2.3 采用了本发明的混合方向预测和上升小波的图像编码的系统和方法的上升结构

传统的上升和根据本发明的系统和方法的DSP上升的主要区别在于方程(3)和(7)。不同于传统的上升总是在水平或垂直方向产生预测，本发明的DSP上升技术利用了局部空间相关性。如图6所示，假定像素在角度θ_v处具有强相关性，其中整数像素由标记“”表示，二分之一像素由标记“×”表示以及四分之一像素由标记“+”表示。在本发明的DSP上升系统和方法中，x(m，2n+1)的预测来自于图6中由箭头指出的偶数的多相采样。这些依如下计算，

{P_{x}}_{e} (m, n) = \underset{i}{Σ} p_{i} x_{e} (m + sign (i - 1) tg (θ_{v}), n + i) - - - (11)

其中tg()＝sin()/cos()。

相应的有限冲击响应函数是

P (z_{1}, z_{2}) = Σ_{i = i_{h}}^{i_{e}} p_{i} {z_{1}}^{sign (i - 1) tg (θ_{v})} z_{2}^{i} . - - - (12)

由于预测总是由偶数的多相采样计算，如果方位角已知，DSP上升可以用方程(2)理想地重建奇数的多相采样。

在更新步骤，本发明的DSP上升技术使用了和预测步骤相同的方位角以最小化对角度数据进行编码的必要的位数。因此，偶数的多相采样的预测被给作

U_{h} (m, n) = \underset{j}{Σ} u_{j} h (m + sign (j) tg (θ_{v}), n + j) . - - - (13)

相应的有限冲击响应函数是

U (z_{1}, z_{2}) = Σ_{j = j_{b}}^{j_{e}} u_{j} z_{1}^{sign (j) tg (θ_{v})} z_{2}^{j} . - - - (14)

显然，它也保证了理想的重建。

本发明的DSP上升系统和方法可以采用不同的小波滤波器，其同样可用如图6所示的框架来描述。如下给出建议的Haar、5/3和9/7滤波器的FIR函数，

Haar : \{\begin{matrix} P_{0} (z_{1}, z_{2}) = - z_{1}^{- tg (θ_{v})} \\ U_{0} (z_{1}, z_{2}) = z_{1}^{tg (θ_{v})} / 2 \\ s_{0} = s_{1} = 1 \end{matrix} - - - (15)

5 / 3 : \{\begin{matrix} P_{0} (z_{1}, z_{2}) = - (z_{1}^{- tg (θ_{v})} + z_{1}^{tg (θ_{v})} z_{2}) / 2 \\ U_{0} (z_{1}, z_{2}) = (z_{1}^{tg (θ_{v})} + z_{1}^{- tg (θ_{v})} z_{2}^{- 1}) / 4 \\ s_{0} = s_{1} = 1 \end{matrix} - - - (16)

9 / 7 : \{\begin{matrix} P_{0} (z_{1}, z_{2}) = - 1.586134 \times (z_{1}^{- tg (θ_{v})} + z_{1}^{tg (θ_{v})} z_{2}) \\ U_{0} (z_{1}, z_{2}) = - 0.05298 \times (z_{1}^{tg (θ_{v})} + z_{1}^{- tg (θ_{v})} z_{2}^{- 1}) \\ P_{1} (z_{1}, z_{2}) = 0.882911 \times (z_{1}^{- tg (θ_{v})} + z_{1}^{tg (θ_{v})} z_{2}) \\ U_{1} (z_{1}, z_{2}) = 0.443506 \times (z_{1}^{tg (θ_{v})} + z_{1}^{- tg (θ_{v})} z_{2}^{- 1}) \\ s_{0} = 1.230174 \\ s_{1} = 1 / s_{0} \end{matrix} . - - - (17)

与方程(8)、(9)和(10)比较，传统上升可以被视作本发明的DSP上升的一个特殊情况，其中θ_v等于零。特别地，当1D小波变换被分解成多于一个的上升阶段(例如9/7滤波器)，除了第一上升阶段，通过将θ_v设置为零可使空间预测在其它阶段无效，这因为在前的上升阶段已经消除了方向相关性。

上述讨论已经叙述了本发明的DSP上升中的1D垂直变换。水平变换以相似的方式在m维中实行。值得注意的是水平变换的方位角θ_h并不要求与θ_v垂直，以使水平变换能找到分解的最佳方向。

图8表示了本发明的DSP上升分解之后的结果。在HL子频段，在垂直变换后仅具有水平条纹的行保留。在垂直和水平变换后，在HH子频段没有任何行保留。由于垂直变换后的下采样过程，本发明的DSP上升技术不能找到准确的预测方向。但是即使在这种情况下，LH子频段的能量比传统上升分解的要小得多。

2.4 插值

出于准确的空间预测的目的，本发明的DSP上升允许方位角指向分数像素。换句话说，用于方程(12)和(13)的tg(θ)可以不是整数。因此，在这种情况下需要插值技术。

如图6所示，x(m，2n+1)的预测使用了x(m-1，2n+2)和x(m，2n+2)之间以及x(m，2n)和x(m+1，2n)之间的二分之一像素。一般，不能求得这些二分之一像素的值。插值是计算分数像素值的方法。有许多方法，例如，线性插值是

y＝(x(m-1，2n+2)+x(m，2n+2)+1)＞＞1.

通过使用方程(12)为例来讨论插值技术。首先，为了理想地重建，被用来对分数像素插值的整数像素应该属于x_e(m，n)。该技术不能使用任何来自x_o(m，n)的整数像素。插值一般可被描述成

x_{e} (m + sign (i - 1) tg (θ), n + i) = \underset{k}{Σ} a_{k} x_{e} (m + k, n + i) . - - - (18)

此处k是sign(i-1)tg(θ)附近的整数以及a_k是插值滤波器的参数。在方程(18)的z变换之后，得到了

z_{1}^{sign (i - 1) tg (θ_{v})} = Σ_{k = k_{b}}^{k_{e}} a_{k} z_{1}^{k} - - - (19)

参数a_k具有有限数目的非零系数。在这个实施例中，采用了流行的Sinc插值，其决定了值a_k。方程(14)的插值以相同的方式实现。

2.5 方向估计

每个采样的方位角θ_v和θ_h在给定的块大小下局部地估计，例如一个16×16的块。如图8所示，一个16×16的块能被划分成三个模式：16×16(图9A)，8×8(图9B)和4×4(图9C)。在16×16的模式中，所有的像素具有相同的方位角。在4×4的模式中，每个方块具有16个方位角以及在4×4的子块中的所有像素具有相同的角度。此外，预测的角度越精确，空间预测就越准确。由视频编码中的运动补偿的知识，本发明的实施例优选于将预测精度提高到四分之一像素。

大体上，在图10中表示了图像中角度估计的过程。如处理操作1002、1004和1006所示，对于图像中的每个宏块，可从不同的块大小和垂直方向中的候选角中找到最佳预测角和模式。然后实行1D垂直变换(处理操作908)。如处理操作1010、1012和1014所示，对于图像中的每个宏块，从不同的块大小和水平方向中的候选角中找到最佳预测角和模式。然后执行1D垂直变换，如处理操作1016所示。

图11表示了宏块中角度和模式估计的过程。如处理操作1102、1104、1106所示，可以找到16×16的宏块中的最佳角度、8×8的宏块中的最佳角度和4×4的子块中的最佳角度。然后基于处于块模式水平的这三个最佳角度找到最佳模式(处理操作1108)。在用于垂直和水平变换的方程(20)和(21)中给出了确定最佳角度和模式的准则。

建议用R-D法则来确定每个16×16的块的预测模式和方位角。以下给出用于在垂直上升变换中估计模式和方位角的准则，

E = Σ_{m = m_{0}}^{m_{0} + 16} Σ_{n = n_{0}}^{n_{0} + 8} | h (m, n) | + λ_{v} R_{v} . - - - (20)

此处，h(m，n)是垂直变换后的高通系数，其可以由方程(2)计算。R_v是对模式和方位角编码的位数；λ_v是拉格朗日因子；以及(m₀，n₀)是h(m，n)的左上方像素的座标。

在对估计的方向数据进行垂直上升变换后，可以得到低通信号l(m，n)和高通信号h(m，n)。它们继续被用水平变换处理。一般而言，h(m，n)具有较少能量。不需要在垂直分解后用另一组预测模式和角度对高通子频段进行水平变换。因此，h(m，n)在水平方向被分解。

有另一组分解l(m，n)的预测模式和角度，这与用于垂直分解的不同。以下给出新的准则，

E = Σ_{m = m_{1}}^{m_{1} + 8} Σ_{n = n_{1}}^{n_{1} + 8} | lh (m, n) | + λ_{h} R_{h} . - - - (21)

此处，lh(m，n)是LH子频段的系数。R_h是进行模式和方位角编码的位数。λ_h是拉格朗日因子。以及(m₁，n₁)是lh(m，n)的左上方像素的座标。

2.6 方位角编码

用固定的但是自适应映射的可变长编码(VLC)表对方位角编码。如图12所示，假定当前块的角度c被编码。即将用邻近块的角度a、b和d来预测编码角。可用以下准则来选择哪个角度被用作预测，

p = \{\begin{matrix} d & abs (b - d) > abs (b - a) \\ a & abs (b - d) \leq abs (b - a) \end{matrix} . - - - (22)

换句话说，如果角度b和d具有更大的差值，那么角度a被用作预测；否则角度d被用作预测。

VLC表的码元根据预测角度被自适应分配。预测角度作为最短码元被给出，以及从短到长的码元根据其它角度和预测角度之间的绝对差值被分配给这些角度。之后，用预定义的表对当前角度c进行编码。

2.7 根据本发明的系统和方法的示例性的应用

除了图像编码，提出的DSP上升也能被用于许多其它领域。现在，讨论本发明的系统和方法的两个示例性的应用：空间可缩放视频编码和低延迟小波视频编码。

2.7.1 空间可缩放视频编码

空间可缩放性是视频编码中非常需要的特性，特别是随着无线网络和便携装置的增加。这是一个很难解决的难题。许多研究已经表明空间可缩放性将会大大地损害编码效率。实现空间可缩放性的方案之一首先是将视频序列分解成几个四个一组的低分辨率的序列以及然后将它们共同或分别编码。然而，这些序列的高通序列很难用现有的运动补偿方法压缩。在本发明的DSP上升技术的帮助下，高通序列具有少得多的能量，这是因为用方向空间变换大大地消除了像素之间的相关性。用内编码压缩每个高通序列。

2.7.2 低延迟3D小波视频编码

MPEG需要关于可缩放视频编码的建议。大部分被提议的方法都利用了时域小波分解。这些方法中的一个大问题是由于多层时域分解故延迟是相当大的。它不能满足来自低延迟和实时应用的要求。根据提出的本发明的DSP上升，3D小波视频编码方法能减少时域分解的数量。用方向空间预测能消除低频段的帧之间的相关性。

出于解释和说明的目的，已经提供了在前的本发明的描述。它并不是详尽的或是将本发明限制于公开的具体形式。鉴于上述思想，许多改进和变化是可能的。本发明的范围不应该被这份详细的描述所限制，而是应该由此处所附的权利要求所限制。

Claims

1.一种用于对二维(2D)信号进行编码的系统，包括：

一个通用计算装置；

一个包括了可由通用计算装置执行的程序模块的计算机程序，其中计算装置被计算机程序的程序模块命令来执行：

输入一个二维(2D)信号，

通过使用基于一个图像中边缘的空间相关性和至少一个上升小波的方向性预测来变换所述的2D信号，以此获得表示二维信号的输出系数、基于该图像中的边缘的方位角、和表示图像方块大小的模式，和

对输出系数、方位角和模式进行熵编码由此产生输入信号的编码形式。

2.如权利要求1所述的系统，其中对所述的2D信号进行变换的程序模块，包含的子模块会：

在垂直方向用子模块实现一个第一一维小波变换；

在垂直方向将该第一一维小波变换分成偶数和奇数的多相采样；

由邻近的偶数的多相采样预测奇数的多相采样，其中在沿该图像的边缘的角度定向选择预测信号；

用所述的预测的奇数的多相采样更新偶数的多相采样，其中在沿该图像的边缘的角度定向选择更新信号；和

输出预测的和偶数的多相采样的系数

在水平方向用子模块实现一个第二一维小波变换；

在水平方向将该第二一维小波变换分成偶数和奇数的多相采样；

输出预测的和偶数的多相采样的系数。

3.如权利要求2所述的系统，其中对于垂直方向的第一一维小波变换和水平方向的第二一维小波变换，用预测的奇数的多相采样更新偶数的多相采样，其中沿和预测奇数的多相采样相同的方向的角度选择更新信号。

4.如权利要求1所述的系统进一步包括将熵编码系数、方位角和模式输出到比特流的程序模块。

5.如权利要求2所述的系统，其中第一1D变换的角度不垂直于第二1D变换的角度。

6.如权利要求2所述的系统，其中用来对输入信号的熵编码形式进行解码的有：

熵解码输入信号和方位角和模式的熵编码形式，

将输入信号分成两个一维信号，

对于用来解码所述信号的每个一维信号，

提取预测的奇数的和更新的偶数的多相采样的系数，

用预测的奇数的多相采样和更新的偶数的多相采样来提取原始的偶数的多相采样，其中根据解码角度和模式来使用预测的奇数的多相采样，

用原始的偶数的多相采样和预测的奇数的多相采样来提取原始的奇数的多相采样，其中根据解码角度和模式来使用原始的偶数的多相采样；

合并偶数的和奇数的多相采样来创建一个一维小波变换，和

创建一个基于解码的一维信号的图像。

7.如权利要求2所述的系统，其中由被方位角和模式定义的偶数的多相采样选择预测的信号。

8.如权利要求7所述的系统，其中方位角被用于更新偶数的多相采样以使对角度数据编码必需的位数最小化。

9.如权利要求2所述的系统，其中预测的信号或更新的信号来自于分数采样。

10.如权利要求9所述的系统，其中分数采样用插值方法计算。

11.如权利要求10所述的系统，其中对于属于x_e(m，n)的分数象素，插值被描述成

x_{e} (m + sign (i - 1) tg (θ), n + i) = \underset{k}{Σ} a_{k} x_{e} (m + k, n + i)

其中k是sign(i-1)tg(θ)附近的整数以及a_k是插值滤波器的参数。

12.如权利要求2所述的系统，其中预测的和更新的采样被表示成整数。

13.如权利要求2所述的系统，其中通过采用使用了该图像中象素块的方位角估计方向数据。

14.如权利要求13所述的系统，其中用来估计方向数据的有：

将一个图像块划分成三组越来越小的方块的块模式，其中第一块模式是大象素块，第二块模式比第一象素块小以及第三块模式是第二象素块的子集，并且其中在第一块模式中所有象素具有相同的方位角；并且其中第三块模式的每个块具有16个方位角以及第三块模式中的所有象素具有相同的角度；

被用来估计用于垂直方向中小波变换的方位角的是

Σ_{m + m_{0}}^{m_{0} + 16} Σ_{n = n_{0}}^{n_{0} + 8} | h (m, n) | + λ_{v} R_{v}

其中h(m，n)是在垂直方向中小波变换后的高通系数；R_v是对块模式和方位角编码的位数；λ_v是优化因子以及(m₀，n₀)是h(m，n)的左上方象素的坐标；和

被用来估计用于水平方向中小波变换的方位角的是

Σ_{m = m_{1}}^{m_{1} + 8} Σ_{n = n_{1}}^{n_{1} + 8} | lh (m, n) | + λ_{h} R_{h} .

其中lh(m，n)是低高子频段的系数；R_h是对模式和方位角编码的位数；λ_h是优化因子以及(m₁，n₁)是lh(m，n)的左上方象素的坐标。

15.如权利要求14所述的系统，其中第一块模式的块大小是16×16象素，第二块模式的块大小是8×8象素以及第三块模式的块大小是4×4象素。

16.如权利要求13所述的系统，其中通过利用邻近块的方位角对块的方位角编码，其中假定第一行的具有相应的角度b和角度d的两个方块在所述的具有角度a和角度c的第一行下的第二行方块之上，如果角度b和d之间的绝对差值大于角度b和a之间的绝对差值，那么角度a被用作预测；否则角度d被用作预测。

17.如权利要求1所述的系统，其中该输入信号包含一个视频信号。

18.一种用于对图像数据编码的计算机可实现的方法，包括使用接收输入信号且提供与输入信号对应的量化系数的输出的可逆变换部分的处理操作，量化系数的输出至少部分基于由矩阵上升和与图像中的边缘对应的方向预测获得的可逆变换。

19.如权利要求18所述的计算机可实现的方法，其中使用接收输入信号且提供与输入信号一致的量化系数的输出的可逆变换部分的处理操作，量化系数的输出至少部分基于由矩阵上升和与图像中的边缘对应的方向预测获得的可逆变换，包括：

输入二维(2D)信号；以及

变换使用了方向预测和至少一个上升小波的所述的2D信号，包括：

实行垂直方向中的一维(1D)小波变换；

实行水平方向中的一维小波变换；

其中每个一维小波变换包括，

将垂直方向中的一维小波变换分成偶数和奇数的多相采样；

由邻近的偶数的多相采样预测奇数的多相采样，其中以沿图像中边缘的角度定向选择预测信号；以及

用所述的预测的奇数的多相采样更新偶数的多相采样，其中以沿图像中边缘的角度定向选择更新信号；

输出预测的和偶数的多相采样的系数；以及

熵编码输出系数和表示图像中边缘的角度，由此产生整数形式的输入信号的编码形式。

20.如权利要求19所述的计算机可实现的方法，其中用块状的图像数据计算表示图像中边缘的角度。

21.如权利要求19所述的计算机可实现的方法，其中用输出系数和表示图像中边缘的角度对表示块状图像数据的模式进行熵编码。

22.如权利要求19所述的计算机可实现的方法，其中所述的处理操作被存储在计算机可读介质上。

23.如权利要求19所述的计算机可实现的方法，其中输入信号包含图像信号。

24.如权利要求19所述的计算机可实现的方法，其中输入信号包含视频信号。

25.如权利要求19所述的计算机可实现的方法，其中Haar滤波器被用于实现垂直方向或水平方向中的一维小波变换中。

26.如权利要求19所述的计算机可实现的方法，其中5/3滤波器被用于实现垂直方向或水平方向中的一维小波变换中。

27.如权利要求19所述的计算机可实现的方法，其中9/7滤波器被用于实现垂直方向或水平方向中的一维小波变换中。

28.如权利要求19所述的计算机可实现的方法，其中用来计算来自偶数的多相采样的x(m，2n+1)的预测的为，

P_{x_{c}} (m, n) = \underset{i}{Σ} p_{i} x_{e} (m + sign (i - 1) tg (θ_{v}), n + i)

其中tg()＝sin()/cos()。

29.如权利要求19所述的计算机可实现的方法，其中给出偶数的多相采样的预测为

U_{h} (m, n) = \underset{j}{Σ} u_{j} h (m + sign (j) tg (θ_{v}), n + j) .

30.如权利要求19所述的计算机可实现的方法，其中用来估计表示图像中边缘的角度的处理操作为：

对于一组块状图像数据的每一个方块，

由一组垂直方向中的候选角和图像块大小模式中找到最佳预测角和图像块大小模式；

在实行1D垂直变换时使用垂直方向中的最佳预测角和图像块大小模式；

由一组水平方向中的候选角和图像块大小模式中找到最佳预测角和图像块大小模式；以及

在实行1D水平变换时使用水平方向中的最佳预测角和图像块大小模式。

31.一种对由使用基于表示图像中边缘的空间相关性的角度、至少一个上升小波和表示图像块大小的模式的方向预测获得的输入信号的熵编码形式解码的计算机可实现的方法，包含的处理操作有：

对输入信号和方位角和模式的熵编码形式进行熵解码，

将输入信号分成两个一维信号，

对于每个一维信号用来对所述信号解码的有，

提取预测的奇数的和更新的偶数的多相采样的系数，

使用预测的奇数的多相采样和更新的偶数的多相采样来提取原始的偶数的多相采样，其中根据解码的角度和模式来使用预测的奇数的多相采样。

使用原始的偶数的多相采样和预测的奇数的多相采样来提取原始的奇数的多相采样，其中根据解码的角度和模式来使用原始的偶数的多相采样；

结合偶数的和奇数的多相采样来创建一个一维小波变换，以及

创建一个基于解码的一维信号的图像。