CN1316161A - 基于区域的规模可变的图像编码 - Google Patents

基于区域的规模可变的图像编码 Download PDF

Info

Publication number
CN1316161A
CN1316161A CN99810425.6A CN99810425A CN1316161A CN 1316161 A CN1316161 A CN 1316161A CN 99810425 A CN99810425 A CN 99810425A CN 1316161 A CN1316161 A CN 1316161A
Authority
CN
China
Prior art keywords
definition
data
multiresolution
interest
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99810425.6A
Other languages
English (en)
Other versions
CN100341331C (zh
Inventor
王孟
学东·杨
利·曲
布伦特·西蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Accelerator Corp
Original Assignee
Digital Accelerator Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Accelerator Corp filed Critical Digital Accelerator Corp
Publication of CN1316161A publication Critical patent/CN1316161A/zh
Application granted granted Critical
Publication of CN100341331C publication Critical patent/CN100341331C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/127Prioritisation of hardware or computational resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/129Scanning of coding units, e.g. zig-zag scan of transform coefficients or flexible macroblock ordering [FMO]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets

Abstract

公开了一种用于对数字静态图像进行编码和解码以便产生一个规模可变的基于内容的可以随机地访问的压缩位流的基于区域的系统、方法和体系结构。根据本系统,将初始图像数据分解和排序为多分辨率子图像阶层。然后确定感兴趣区域。定义一个用于识别感兴趣区域的区域掩模并且将它编码。然后根据多分辨率系数的幅值将这些数据分类以便产生规模可变的基于内容的可以随机地访问的压缩位流。

Description

基于区域的规模可变的图像编码
本发明一般涉及图像编码,更具体地涉及规模可变的和基于内容的可以随机地访问的数字静态图像的压缩和解压。
因特网和数字媒体应用的快速发展提出持续的和不断增长的要求,需要一种新的图像编码工具,用于将通常大的和琐碎的原始图像数据文件减缩为压缩形式。然而,在设计新的编码工具时,开发者提出的要求已不再只是所得位流的紧凑性。终端用户以及它们的应用不断地要求一些特征,例如规模可变性、针对误差的稳固性以及基于内容的可访问性。
照片或动画影片是人类眼睛所看到的三维对象的二维表示。这些用于记录二维图像的方法是“连续的”或“模拟的”重现。数字图像是这些模拟图像的不连续逼近,其中这些模拟图像由一串邻近的具有变化的颜色或强度的点或画面元素(像素)组成。在计算机或电视显示器上,数字图像由投影至玻璃屏幕上的像素表示,以供操作人员观看。专用于描绘具体图像的像素数量称为它的分辨率,也即,所用像素愈多则其分辨率愈高。
中等分辨率的单色图像-黑白图像称为“灰度”-中每条水平线包含640个像素。一个典型图像包括480条水平行或线,而这些线中的每条线包含640个像素。因此,在单个640×480像素的图像中总共显示了307,200个像素。如果单色图像的每个像素需要一个字节的数据来描述它(即或黑或白),则只是一个黑白图像就总共需要307,200个字节来描述它。现代灰度图像使用不同级别的强度来描绘黑度,因此使用八位或256个级别的灰度。所得图像文件因此更大。
对于彩色图像,图像中每个像素的颜色通常由三个变量决定:红(R)、绿(G)和蓝(B)。按照不同比例将这些颜色混合起来,计算机就可以显示色谱的不同颜色。可用于表示三种颜色中的每一种的品种愈多,则可以显示的颜色愈多。例如为表示256种红色浓淡,需要一个八位数。这个颜色的值的范围因而是0-255。因此用于表示一个像素所需的总位数是24位-红、绿和蓝各八位,通常称为RGB888格式。因此,一个给定的RGB画面具有三个平面,红、绿和蓝,以及画面中每个像素的颜色范围是0-16.78百万,或R×G×B=256×256×256。因此一个640×480像素的标准彩色图像需要在计算机系统中存储或表示大约7.4兆位的数据。将水平和垂直分辨率乘以表示全彩色范围所需位数即640×480×24=7,372,800位,即得此数。
标准的、通常可用的硬件虽然是不断增长地快速和可供使用,但仍然发现在处理这类规模的文件时慢而不实用。在交互式应用和因特网使用的情况下,这点更为突出。交互式应用要求对多媒体数据进行非常快的多方向处理。由于它们持续地保持大的规模,图像文件已经成为开发真实的、交互式计算机应用程序的限制速率的因素。在因特网的情况下,终端用户和应用程序更为调制解调器和其他传输媒体的缓慢步伐所限制。例如,由于普通电话公司使用的实际线路和交换功能,使得一秒期间当今能够在电话线上传输的信息量限制为每秒33,600位。因此,在此波特率下,具有7,372,800位的数据的单个全彩色RGB888640×480像素页面在传输时将占用大约三分半钟。
有许多用于压缩图像数据的方法,并且是熟悉技术的人所熟知的。这些方法中的某些方法是“无损失”压缩;即,在解码和解压时它们恢复原始数据而不损失或省略数据。因为它们的相对减缩比是小的,然而这些无损失技术不能满足对于图像压缩技术的所有现有要求。其他压缩方法是不可逆的并且称为“有损失”。这些不可逆方法能够提供大量压缩,但其结果是损失数据。在图像文件中,通过将人类眼睛对其具有有限的敏感度或者没有敏感度的图像的某些方面省略而实际上得到高压缩比。在编码后,对该减缩的数据集应用逆过程以便将它解压和恢复原始图像的合理的摹真本。有损失压缩技术也可与无损失方法一起使用于数据压缩和图像保真度的可变混合。
压缩的位流的紧凑性通常由与相应的未压缩图像数据的规模相比较的流的规模来量度。紧凑性的定量量度为压缩比或者选代地为位率,其中:
压缩比=(原始图像数据的总字节数)/(压缩图像所需总字节数)
位率=(解压所需总字节数)/(原始图像的像素数)
一般而言,压缩比愈高(或位率愈低),则压缩位流的紧凑性愈高。对于所有数据压缩技术而言,紧凑性始终是主要关心的内容。
压缩图像文件的最通用格式中的一个是GIF格式。GIF代表“图形图像格式”,它由Compuserve公司开发来提供一种装置,用于从一个拨号顾客传送图像至另一个顾客,甚至能越过不同计算机硬件平台。它是相对的旧格式,曾经设计于处理256种颜色的调色板-与24位颜色不同的8位。开发出来后,对于大多数个人计算机而言,它是近于现代的技术。
“GIF”格式使用8位颜色查询表(有时称为CLUT)来识别颜色值。如果原始图像是8位灰度照片,则“GIF”格式产生一个压缩的无损失图像文件。灰度图像通常只有256级灰度。使用压缩信息的“运行长度编码”(RLE)机制来进行压缩,同时存储GIF文件。如果原始文件是24位彩色图形图像,则首先将它映射为一个8位CLUT,然后使用RLE进行压缩。在将原始24位(16.7百万)颜色重新映射为有限的8位(256种颜色)CLUT时会有损失。RLE编码将重现一个未压缩图像,它与重现映射的8位图像完全相同,但与原始24位图像不同。当在一行像素间有许多着色变化时,RLE不是压缩图像的有效方法。当多行像素具有相同颜色或者当只使用很有限数量的颜色时,它非常有效。
静态图像格式的其他实际标准是JPEG格式。JPEG代表联合照片专家组。JPEG使用有损失压缩方法来建立最终文件。JPEG文件可以比它们的GIF关系更进一步压缩,以及它们能够比GIF格式中使用的8位表保持更深的颜色。大部分JPEG压缩软件向用户提供在图像质量与压缩量之间的选择。在10∶1压缩比的情况下,大部分图像看起来很像原始图像,并且保持很好的全彩色再现。如果压至100∶1,则图像将会包含块状图像的人为现象,这实际上将降低质量。不像GIF,JPEG在压缩图像时不单独使用RLE,它使用渐进式工具组来得到最终文件。
JPEG首先根据图像的亮度和色度将图像自其原始颜色空间改换为归一化颜色空间(一个有损失过程)。亮度对应于光亮信息而色度则对应于色调信息。测试结果表明人类眼睛对亮度变化比对颜色或色调变化更为敏感。使用离散余弦变换(DCT)将数据记录于8×8像素块上,这也产生某些图像损失。它有效地在这些离散区域内将图像重新采样,然后使用更有效的标准的RLE编码(也可用其他编码方案)来产生最终文件。编码比例愈高则图像损失愈大,因此愈能觉察到8×8像素人为现象。
所涉及的技术的一个要求是它们应该具有规模可变性的特性/属性。规模可变性用来量度在多大范围内压缩的位流能够部分地解码并且使用于传输的终端。在满足渐进式处理的这种需要时,规模可变性已经成为新一代数字图像编码技术的标准要求。通常以像素精度和空间分辨率表示的规模可变性是静态图像压缩的两个基本要求。
为在保证图像保真度的同时达到规模可变性,在图像压缩技术的最新成就中已包括根据“小波”的多分辨率分解。小波是算术函数,只在二次大战之后才首先得到广泛的学术应用。小波一词从以下事实导得:基本函数(或“母小波”)一般积分为零,因此围绕x轴“波动”。其他特性例如小波是标准正交或对称的特性能用于保证正和逆小波变换的快速和容易的计算,即在解码中尤其有用。
基于小波的变换的另一个重要优点是可以用更紧凑的方式用小波来表示许多类型的信号或图像。例如,为达到同样精度,具有不连续性的图像和具有尖峰的图像通常采用实际上比基于正弦或余弦的函数更少的小波基本函数。这意味着基于小波的方法具有获得更高图像压缩比的潜力。对于同样精度,根据小波系数重现的图像看起来比使用福里哀(正弦或余弦)变换所得图像更好。这似乎标示着小波方案所产生的图像更易为人类视觉系统所接受。
小波将图像变换为其原始图像的粗糙的低分辨率版本,然后一系列增强操作为图像增加细而又细的细节。此多分辨率性质很好地适用于网络化应用,其中要求规模可变性和优美的退化。例如,多机种网络可能包括非常高的带宽部分和28.8调制解调器连接以及它们之间的所有元件。很好的做法是将同样视频信号送至网络的所有部分,将更细的细节抛掉并且将低分辨率图像送至网络中具有低带宽的各部分。它将粗糙的低分辨率图像包卷于到达整个网络的最高优先级包中,从而使小波很好地适用于这种应用。这些增强操作属于低优先级包,这些包可能送达网络的较低带宽部分。
编码图像的低分辨率性质也在有噪音通信信道例如无线网络或有故障网络中支持优美的退化。包含低分辨率基本图像的高优先级包被重新传输,如果出现误差则将增强操作取消。
基于内容的编码和可访问性是图像压缩领域中进一步的新方向。先前公开的编码技术例如JPEG并不支持用于规定和操纵图像的具体区域的能力。基于内容的随机可访问性也不是任何新的基于小波技术中所要求的功能。举几个例子,对此特征提出要求的终端用户应用包括多媒体数据库查询,因特网服务器-客户交互操作,图像内容产生和编辑,远程医疗诊断和交互式娱乐。
对多媒体数据库的基于内容的查询要求得到那些能够查找具有感兴趣对象的图像材料的机制的支持。基于内容的对因特网或本地盘组的超连接可使图像内所需对象用作信息漫游的入口点。基于内容的编辑允许内容供应商以面向对象或基于区域的方式操纵图像材料的属性。基于内容的交互操作允许数字内容订户或远程研究者根据他们的感兴趣区域来选择性地控制图像信息传输。简而言之,此基于内容的可访问性允许将语义上有意义的视觉对象用作图像数据的表示、解释、操纵和检索的基础。
本发明的一个目的是提供图像压缩中的基于区域的编码。根据本发明的一个方面,提供了一种基于区域的方法,用于将数字静态图像编码和解码,以便产生一个规模可变的内容可访问的压缩位流,该方法包括以下步骤:将初始图像数据分解和排序为多分辨率子图像阶层;确定感兴趣区域;定义一个用于识别感兴趣区域的区域掩模;为感兴趣区域将区域掩模编码;确定随后分辨率级别的区域掩模;及根据多分辨率系数的幅值将区域数据扫描和渐进式地进行分类。
根据本发明的另一个方面,提供了一种设备,用于对数字静态图像进行基于区域的编码和解码,以便产生一个规模可变的内容可访问的压缩位流,该设备包括:用于将初始图像数据分解和排序为多分辨率子图像阶层的装置;用于确定感兴趣区域的装置;用于定义一个用于识别感兴趣区域的区域掩模的装置;用于为感兴趣区域将区域掩模编码的装置;用于确定随后分辨率级别的区域掩模的装置;及根据多分辨率系数的幅值将区域数据扫描和渐进式地进行分类的装置。
根据本发明的又一个方面,提供了一种基于区域的系统,用于对数字静态图像进行编码和解码,以便产生一个规模可变的内容可访问的压缩位流,该系统包括以下步骤:将初始图像数据分解和排序为多分辨率子图像阶层;确定感兴趣区域;定义一个用于识别感兴趣区域的区域掩模;为感兴趣区域将区域掩模编码;确定随后分辨率级别的区域掩模;及根据多分辨率系数的幅值将区域数据扫描和渐进式地进行分类。
结合以下附图和说明来考虑本发明,将能更好地理解本发明,附图中类似名词用于标示类似特征。
图1是本压缩系统和体系结构的详细的多路径流表示。
图2是对图像“Lena”的使用基于小波的变换所得多分辨率分解阶层的表示。
图3是感兴趣区域的编码的本发明“几何”方案的原理表示。
图4是应用于感兴趣区域的编码的“领先1”概念的图形表示。
图5是应用于静态图像“Lena”的三种类型的区域信息方案的表示。
图6是使用应用于静态图像“Lena”的离散余弦变换(DCT)的重要区域的编码的表示。
图7是区域阶层形成方法的流程图。
图8是算法A51和随后分辨率级别的区域掩模的向下采样的操作的流程图。
图9是用于扫描区域编码数据的两个不同方法的表示。
图10是使用区域收缩方法对区域数据进行扫描的优选方法的流程图。
图11是在系统的压缩侧的多路复用器内将数据包装的顺序的详细流程图。
图12是压缩系统的多路复用器的内部体系结构的流程图。
图13是系统的解压侧的多路分解器的内部体系结构的流程图。
图14是解压系统和体系结构的详细多路径流表示。
图1表示用于图像数据压缩的方法和系统的总体系结构。在本发明的优选实施例中,初始图像数据作为位图图像输入至系统,通过本发明的系统后作为压缩位流输出。
压缩编码过程的第一步是将初始数据变换或分解为多分辨率分解阶层或MDH。本发明的优选实施例应用离散小波变换来完成此分解。读者知道有其他变换可供使用,在本发明中它们可以完全一样好地提供使用。此外,为完成初始图像数据的内容可访问的压缩,并不必须完成此基于分辨率的分解。本发明的基础是能够以许多不同格式处理数据的模块体系结构。
在多分辨率分解之后,优选实施例的下一个阶段是MDH数据的区域格式化和编码。读者能注意到,此步骤可应用于初始图像数据,或者应用于已经使用不同技术变换为多分辨率阶层的数据。系统的这个步骤分为两部分,区域阶层的形成或确定以及这些区域形状的随后编码。这些数据形成多区域数据通道,用于本发明系统的下一个阶段中。
在根据数据的“区域的”性质将数据编码之后,必须将数据再一次分类以便为终端用户保留规模可变性。“区域化”数据的渐进式分类是系统的独一的和新颖的方法,用于有效地和可压缩地组织数据以便保持图像保真性,它的规模可变性和基于内容的可访问性。
在完成系统的分类阶段之后,接着完成数据的平均信息量编码。平均信息量编码是技术中熟知的数据压缩的无损失方法。它基于统计学预测方法,以及进一步对最终数据流的紧凑特性作出贡献。
最后,包括一个多路复用或MUX模块,用于管理从以上过程步骤中获得的不同类型数据的流动。本发明的多路复用器允许用户通过渐进式传输控制来使数据的“位束”(bit-budget)流向解压器。对于此特征的要求可能是由数据传输中有限可用资源或者终端用户处理用的有限可用资源所提出的。在进行多路复用之后,可通过不同媒体将所得压缩位流传输至本发明的解码部分。
图2是在将本发明的初始图像数据编码过程中第一步的图形阐述。如前所述,有数个不同方法可用于将初始图像数据分解或变换从而组织不同分辨率级别。读者可以回忆,这是为了实现规模可变的和/或优美的退化传输所需的阶层。现在可用的不同类型的变换包括小波、KL变换、小波包变换、上举(lifting)方案、窗口福里哀变换和离散余弦变换。在本发明的优选实施例中,所用的具体小波是基于上举方案的。然而熟悉技术的人知道本发明的体系结构支持其他小波变换或者为终端用户的具体目的而设计的其他变换。
在图2中我们看到使用优选实施例的小波将数据集lx,y通过基于多分辨率的变换所得典型结果。测试图像“Lena”已根据分辨率级别变换为数据阶层并且表示在三个空间方向内。这是“多分辨率分解阶层”或MDH数据集。本发明按照缺省方式实现3或5个不同分解级别。在图2中我们还看到在每个分辨率级别上由HL、HH和LH表示的三个空间方向,其中HL表示水平平面上的高通扫描和垂直平面上的低通扫描,HH表示两个平面上都是高通扫描以及LH是水平平面上的低通扫描和垂直平面上的高通扫描。LL或两个平面上都是低通扫描的情况用于表示在任何具体分辨率级别上的无意义信息,但可在阶层中随后的分辨率级别上解释。
在已经以此方式将数据分解和组织后,过程中的下一步是将数据编码以便允许实现以上所述的内容可访问性。为完成此目的,本发明首先定义一个“感兴趣区域”,其次将一个“掩模”公式化以便描述它,然后将该信息编码以使它成为压缩数据流的一部分。
为完成本系统这个阶段中提出的重要概念是几何渐进式编码的想法。当试图完成基于区域的编码而同时保留规模可变性时强制性的做法是将顺序V(分辨率系数的幅值-MDH数据)与多区域数据(即与关系R)关联起来。这导致图3中提出的编码的几何方案。在现有技术中,组合方案(左侧)使用采样值(在变换系数平面中的零)来预测较高的分辨率级别中一组零出现的可能性。也就是在此基础上获得表示的紧凑性。与此同时,应该知道在分辨率低级别上传输期间出现的任何误差都会在预测的每个级别上造成严重的反响。
在本发明采用的几何方案(右侧)中,通过使用一个几何形状来覆盖采样(零)的大集合,然后将此形状编码而获得表示的紧凑性。在此方案中,MDH中的感兴趣区域以几何对象的形式来表示,然后将类似区域和曲线和紧凑代码都公式化以便描述这些几何对象。几何对象的紧凑编码使用图4中的领先1曲线C。使用此公式化和编码方法所得优点包括区域的精细描述、这些区域的紧凑表示和针对以上所述类型的传输误差的稳固性。
因此,给出MDH中系数子集{Cij}后,无论这些系数的扫描顺序如何,它们的绝对值的分布都包含三部分(图4)。领先1曲线C包含自最高有效位开始查找所有系数的二进制表示的第一非零位。细化区段包含领先1之后的所有系数的二进制位。零区段包含在所有系数的领先1之前的所有零。因此,如果所有系数的数量是n*N位,及细化区段的区域是|x|位,及零区段的区域是|0|位,则|x|+|0|=(n-1)*N位,因为曲线C的长度是N。
为完成这些数据的无损失编码,必须精确地记录曲线C和细化区段的信息。以紧凑性表示的编码器的性能根据它将零区段编码的能力来确定,或者等效地根据它将曲线C编码的能力来确定。为实现以顺序V表示的规模可变性,希望曲线C不在其高度上增长。这通过以下所述的渐进式部分分类过程来完成。
为回至建立多区域数据的过程起点,本发明的优选实施例设想三种用于确定感兴趣区域的方法。在图5中我们看到系统支持:
1.用户定义区域。在此方案中,该区域或由交互式过程(即其中用户使用输入设备例如鼠标来规定感兴趣区域),或由另一个应用程序来确定。然后根据此用户定义区域将“掩模”公式化。这个区域公式化方法由图5a)表示。
2.铺贴。在铺贴方案中,找到标准规模的象素块来形成区域。在JPEG中可以考虑例如8×8的块为通过铺贴规定的区域。当处理非常大的图像例如计算机辅助设计和制造中生成的图像时,铺贴也可用作区域形成的合适方法。在图5b)中阐述区域公式化的铺贴方法。
3.自动化区域公式化。此自动化过程由图5c)表示。自动化区域阶层公式化的任务是将MDH数据或原始图像数据分段为几何区域阶层。在本发明中发展了一种变换域分段方案。在此过程的优选实施例中,通过测量区域的绝对值或通过测量“区域重要性”来将MDH数据分段为空间分离的区域,其中区域重要性是感兴趣区域内所有系数的总重要性的组合量度。在本发明中,我们考虑两种类型的区域重要性:平均重要性和加权重要性。平均区域重要性是该区域内所有系数的系数重要性的平均值,以及加权区域重要性是该区域内所有系数的系数重要性的加权平均值。
本发明的自动化区域公式化是通过使用两个分段算法中的一个来完成的。这些算法中的第一个是全逻辑方案,其中阈值2n-1,2n-2,…,20用于顺序地将MDH数据排序,其中知道最大MDH系数(|Cij|)<2n
第二个分段方案是基于部分逻辑方案的。在此方案中,由专家用户确定,只将2的一定幂次用作阈值。
在使用任何一个方案对MDH数据加用阈值后,对MDH平面上的每个空间位置标上一个与相应的阈值有关的独一标记。因此,如果“n”个阈值用于方案中,则整个MDH平面标上n+1个不同标记。此标记集形成区域掩模。
在图5(c)中,我们看到图像Lena的自动化分段的结果。在多分辨率分解阶段期间生成的MDH系数分为三个范围。在本发明的优选实施例中,这些范围是0-15、16-31和32-64。
回忆到MDH数据结构包含多分辨率级别和多空间方向,可以想象,MDH数据的分段操作可以如下完成:将一个公共掩模加于所有分辨率级别和所有方向上;将不同掩模加于不同方向上而为每个方向内的所有分辨率级别保留一个公共掩模;将不同掩模加于不同分辨率级别上而为任何给定分辨率级别的所有方向保留一个公共掩模;或者将不同掩模加于不同分辨率和方向。
在本发明的优选实施例中,由于不同方向之间的自身类似性,已经选择第一方案。在任何给定分辨率级别上,边界信息(与忙碌区域或具有高反差区域相关的信息)包含于集合HH1、HL1和LH1中。一般而言,由于集合HH、HL和LH在不同方向扑获到低通特征,它们之中没有一个能单独提供该分辨率级别上的完整边界描述。当三个方向中的任何一个内出现一个事件时,必须恰当地确定边界“事件”。因此以下操作用于分辨率级别1处的公共重要性测试。
H1=max{HH1,HL1,LH1}。
也即,一个区域的重要性由在该位置处三个方向中的任何一个内出现的最大值所决定。
对此操作的选代做法是:H1=a*HH1+b*HL1+c*LH1,其中a+b+c=1。
对不同分辨率和方向使用公共掩模的其他理由包括不同分辨率级别处的自身类似性和只有一个掩模时的计算效率。这就是计算一个公共掩模通常在计算上比计算多个掩模便宜。
区域形状编码的任务是为在区域形成步骤中产生的区域掩模找到一个正确的和紧凑的代码。形状代码的紧凑性和正确性两者都对整个编码系统的效率有着直接影响。在本发明的体系结构中,支持多个形状编码方案,但在优选实施例中使用以下基于DCT的区域通道。
在此方案中,使用区域掩模的福里哀特性将它编码。通过在频域内进行低通滤波,可以使用高正确度和使用少量DCT系数将多区域掩模的全局形状进行编码。图6阐述如同加于Lena图像上一样的DCT编码区域掩模的图形例子。通过使用DCT变换来描述掩模,可以实际上完成压缩操作。
在MDH数据的情况下,只使用一个DCT来在最高分辨率级别上生成公共掩模。通过向下采样来得到低分辨率级别上的其他掩模。图7阐述从区域公式化阶段开始的通过基于区域的数据表的编码的数据流动。此过程称为算法A50,它是一个自底向顶的区域阶层形成方法并且包括以下步骤:
(1)计算H1=max{LH1,HL1,HH1},即
对于k=1至N:H1[k]=max(LH1[k],HL1[k],HH1[k]);
(2)将区域形成方案用于公共重要性掩模H1上以便获得一个分区掩模M1。
(3)将低通滤波器用于DCT变换过的掩模M1上以便获得M1
(4)将M1′向下采样以便在较低分辨率级别上获得掩模M2,M3,…,ML(见下面的算法A51)
(5)将掩模{M1′,M2,…,ML}加于相应的系数层上以便将MDH分段为各区域。
在以上步骤(3)之后,使用算法A51来完成过程以便将最高分辨率级别(M1)处的掩模转换后用于较低分辨率级别,如图8中所阐述。
算法A51:掩模向下采样
假设theta1>theta2>theta3。假设M1中的区域都标上theta值。
For(I=2,3…,b)
For(Mi的所有x和y)
    Mi(x,y)=max{Mi-1(2x,2y),Mi-1(2x,2y+1),Mi-1(2x+1,2y),Mi-1(2x+2,2y+2)}
虽然有其他方法用于获得较低分辨率级别上的掩模,但上面给出的向下采样算法(A51)精确地保留不同分辨率级别上的区域形状。还有,以上算法在计算上是有效的。
再参照图1,现在数据已经通过多分辨率分解以及区域公式化和编码两者。在此阶段中已经根据数据的图形内容将数据重新组织,虽然区域分段过程在所有方向内保留不同分辨率级别上的区域形状,但它不保留在不同级别和方向的相应的区域内系数值范围。换言之,在不同分辨率级别上和所有方向内继承了关系R,但一般而言并不能精确地保留顺序V。渐进式分类的任务是为所有区域通道重新建立顺序V。
数据的渐进式分类的第一步是对由区域形成和编码所生成的区域进行扫描。当扫描这些数据,当在扫描过程中遇到MDH系数时,就建立它们的相应的表。对于熟悉技术的人很明显,取决于准备扫描和转换为线性表的数据的特性,可以通过确定用于扫描区域数据的最佳方法而取得效率。
一般而言,设想两种扫描顺序;线性扫描和基于“区域收缩”原理的扫描。本发明的优选实施例使用软件开关来确定采用两个扫描策略中的哪个。这个开关表征数据的特征,然后实施合适的策略。
对区域形成和编码中生成的数据进行扫描的第一方法是每个系数的简单线性分析和列表。在此策略中,从区域数据的顶部一行的最左位置处开始对系数扫描以及一行一行地继续下去,一直下至底部一行的最右位置。应用于具体区域的这个策略阐述于图9(a)中。虽然该线性扫描策略便于实施,但此方法的主要问题是它可能破坏数据所固有的下降或上升顺序,从而败坏最终得到的位流的紧凑性。在山脊地形或类似的轮廓形状的情况下这的确如此。然而,对于精确模式和缓慢变化的值,线性扫描是相对地有效的。
用于扫描基于区域的系数的第二策略是基于区域收缩原理的。此方法阐述于图9(b)中并且以算术形式表示于下面的算法A62中。
算法A62
输入:标记L,掩模[m][n],inBuf[m][n];输出:outBuf[N].步骤1    K=0;
    J0=min{J;mask[I][J]=L};
    J1=max{J:maxk[I][J]=L};步骤2    While(J0<=J1)do
    {步骤2.1    For(J=J0;J<=J1;J++){
               While((Find I0=left{I:mask[J][I]=L})=true)do
            {
                  Find I1=right{I:mask[J][I]=L});
                  Append inBuf[J][I0]to outBuf[K++];
                  Mask[J][I0]=NIL;
                  If(I1<>I0){
                        Append InBuf[J][I1]to outBuf[K++];
                        Mask[J][I1]=NIL;
                  }
             }
        }步骤2.2    (Update J0 and J1.)
        J0=min{J:mask[J][I]=L};
        J1=max{J:mask[J][I]=L};
    }
图10进一步阐述区域收缩过程。对于很多情况例如山脊地形,区域收缩的扫描方法可以有效地和高效率地保留数据的幅值数量级。
无论使用何种扫描顺序来产生区域R的线性表L,总是需要进行分类以便建立顺序V。在本发明中,采用的方法是部分地按照顺序上升至领先1曲线的级别。因此,给定一个表L={C1,C2,Cm},即分解系数所生成的表,就实施以下渐进式编码算法:
算法A620。渐进式分类
步骤1对于L中的每一项Ci,输出第n个msb(Ci);
步骤2对于具有msb=1的项目,输出跟随于msb之后的值,并且将它们从L中取消
步骤3使n=n-1并回至步骤1
此算法部分地而不是全部地将表“L”分类直至2的幂次。它的渐进式过程的含意在于可在任何给定点将输出数据截尾但却使解码器收到最有价值的信息。最后,它并不扩展表L:为得到L的完全的无损失的分类,分类输出的总长度与L相同。
当许多项目都具有很小值时,算法A620将遇到效率不高的问题。在此情况下,使用相当多数量的位束来记录每个项目的二进制表示中领先1之前的0。以下算法确定和使用阈值“b”来将这些低值系数与具有较高值的系数分离,从而改进此性能。
算法A621双分区渐进式分类
步骤1对于预定的0<=b<=n ,为L中的每一项Ci检查是否|Ci|<2b,将那些具有大于阈值的值的项目输出至L1以及那些具有较小值的项目输出至L2;
步骤2对于L1中的那些项目使用算法A620,从n开始;
步骤3对于L2中的那些项目使用算法A620,从b开始;
对渐进式分类有两个基本要求。(1)当将分类过程的输出位流解码时,它应该按照V的下降顺序产生数据。(2)当在任何点处将位流截尾从而只将部分数据重建时,应该在重建数据中使信息量最大。
平均信息量编码
再参照图1,可以看出系统中的下一个阶段是数据的平均信息量编码。平均信息量编码是数据压缩技术中熟知的一个无损失方法。它是基于二进制代码的固有特性和类似数据串的重复性的。它是基于预测方法的。在本发明中,由于从本发明的渐进式分类中所得两种数据类型的统计学特性不同,已经使用两种不同平均信息量编码方法。类型B数据是用于形成领先1曲线的数据,而类型A数据是用于在领先1曲线之下的精确区段中的所有数据的。这可从图中看出。
多路复用
编码系统中的多路复用和解码系统中的多路分解这一对功能向编码器和解码器提供交互手段,用于对压缩图像的位率和质量提供灵活控制。
位束控制中的交互性由以下事实反映出来:编码器和解码器两者都可对位束的确定和定位过程进行控制。多路复用器确定和使用一个基本位束(BBB)来确定压缩位流的总位数。在多路分解过程中,使用一个解码位束(DBB)来在解码前进一步选择性地删节位流。
多路复用器的功能阐述于图12中,它包括:
(1)给定用于将整个图像编码的基本位束(BBB)后,确定每个分辨率级别和区域通道的位束。
(2)将来自不同通道的数据交织成单个位流。在截尾之后,把来自不同区域、方向和分辨率级别的分类的、截尾的数据打包以便产生最终位流。阐述于图11中的用于将数据打包的缺省顺序是:
a.在不同分辨率级别处从最低分辨率至最高分辨率将数据打包,即其顺序为级别5->级别4->级别3->级别2->级别1。
b.在每个分辨率级别内,对三个方向不规定优选顺序。缺省顺序是按照顺序HL->LH->HH来扫描数据。
c.在给定的分辨率级别的具体方向内,从最高区域标记向最低标记扫描区域。
在已经建立了压缩位流之后,本发明的优选实施例设想一个解码过程,能够用于重建图像。取决于位束和在建立压缩位流期间所采取的步骤,可以使用针对初始图像数据的完全保真度来恢复原始图像,或者选代地稍微损失些信息。
作为本系统的编码侧的多路复用器的补充,在本发明的解码侧包括了一个多路分解部件,它在图13中得到阐述。本发明的优选实施例的附加特征是用户能够在系统的解码端确定他们自己的位束以及可能使用任意的确定值来将数据截尾。此“解码位束”是在多路分解步骤之前确定的并且阐述于图10中。
图14阐述本系统的解码侧的其余部分。对于极大部分而言,该解码过程只简单地是系统的编码侧出现的步骤的逆步骤。
多路分解器的功能(图14)是
(1)将压缩位流拆包为单独的数据表;及
(2)使用解码位束(DBB)来将数据表截尾。为向应用提供以空间区域、空间分辨率、像素精度和空间方向表示的全色谱规模可变性,设计了一组位束控制方案。
可以在不背离权利要求书中定义的本发明范围的情况下对本发明实施例作出不同变动、修改和调整。

Claims (29)

1.一种基于区域的、用于将数字静态图像编码和解码从而产生规模可变的内容可访问的压缩位流的方法,包括以下步骤:
将初始图像数据分解和排序为多分辨率子图像阶层;
确定感兴趣区域;
定义一个用于识别感兴趣区域的区域掩模;
为感兴趣区域将区域掩模编码;
确定随后分辨率级别的区域掩模;及
根据多分辨率系数的幅值将区域数据扫描和渐进式地进行分类。
2.权利要求1中定义的方法,其中多分辨率子图像阶层在小波变换的基础上组成。
3.权利要求1中定义的方法,其中多分辨率子图像阶层在基于福里哀的变换的基础上组成。
4.权利要求1中定义的方法,其中多分辨率子图像阶层使用初始图像数据组成。
5.权利要求1中定义的方法,其中通过自动化过程来确定感兴趣区域。
6.权利要求1中定义的方法,其中通过用户定义来确定感兴趣区域。
7.权利要求1中定义的方法,其中在福里哀变换的基础上将区域掩模编码。
8.权利要求1中定义的方法,其中在小波变换的基础上将区域掩模编码。
9.权利要求1中定义的方法,其中以线性方式扫描基于区域的数据以便建立多分辨率系数表。
10.权利要求1中定义的方法,其中使用区域收缩协议来扫描基于区域的数据以便建立多分辨率系数表。
11.权利要求1中定义的方法,其中使用渐进式部分分类规范将多分辨率系数表分类。
12.权利要求1中定义的方法,其中使用渐进式分类规范及使用在预定分区基础上划分的数据将多分辨率系数表分类。
13.权利要求1中定义的方法,还包括使用软件开关来确定平均信息量编码的最佳方法的步骤。
14.权利要求1中定义的方法,还包括使用多路复用协议把来自不同区域和分辨率通道的压缩数据组合为一个集成的位流从而允许编码器和解码器两者都能选择性地和交互地控制位束和压缩图像质量的步骤。
15.一种用于对数字静态图像进行基于区域的编码和解码以便产生一个规模可变的内容可访问的压缩位流的设备,该设备包括:
用于将初始图像数据分解和排序为多分辨率子图像阶层的装置;
用于确定感兴趣区域的装置;
用于定义一个用于识别感兴趣区域的区域掩模的装置;
用于为感兴趣区域将区域掩模编码的装置;
用于确定随后分辨率级别的区域掩模的装置;及
根据多分辨率系数的幅值将区域数据扫描和渐进式地进行分类的装置。
16.权利要求15中定义的设备,其中使用小波变换来组成多分辨率子图像阶层。
17.权利要求15中定义的设备,其中使用基于福里哀的变换来组成多分辨率子图像阶层。
18.权利要求15中定义的设备,其中使用初始图像数据来组成多分辨率子图像阶层。
19.权利要求15中定义的设备,其中通过自动化过程来确定感兴趣区域。
20.权利要求15中定义的设备,其中由用户来确定感兴趣区域。
21.权利要求15中定义的设备,其中使用福里哀变换将区域掩模编码。
22.权利要求15中定义的设备,其中使用小波变换将区域掩模编码。
23.权利要求15中定义的设备,其中以线性方式扫描基于区域的数据以便建立多分辨率系数表。
24.权利要求15中定义的设备,其中使用区域收缩协议来扫描基于区域的数据以便建立多分辨率系数表。
25.权利要求15中定义的设备,其中使用渐进式部分分类规范将多分辨率系数表分类。
26.权利要求15中定义的设备,其中使用渐进式分类规范及使用在预定分区基础上划分的数据将多分辨率系数表分类。
27.权利要求15中定义的设备,它在确定平均信息量编码的最佳装置中使用软件开关。
28.权利要求15中定义的设备,还包括用于把来自不同区域和分辨率通道的压缩数据组合为一个集成的位流从而允许编码器和解码器两者都能选择性地和交互地控制位束和压缩图像质量的多路复用装置。
29.一种基于区域的、用于对数字静态图像进行编码和解码以便产生一个规模可变的内容可访问的压缩位流的系统,包括以下步骤:
将初始图像数据分解和排序为多分辨率子图像阶层;
确定感兴趣区域;
定义一个用于识别感兴趣区域的区域掩模;
为感兴趣区域将区域掩模编码;
确定随后分辨率级别的区域掩模;及
根据多分辨率系数的幅值将区域数据扫描和渐进式地进行分类。
CNB998104256A 1998-07-15 1999-07-15 基于区域的规模可变的图像编码 Expired - Fee Related CN100341331C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US9312498P 1998-07-15 1998-07-15
US60/093,124 1998-07-15

Publications (2)

Publication Number Publication Date
CN1316161A true CN1316161A (zh) 2001-10-03
CN100341331C CN100341331C (zh) 2007-10-03

Family

ID=22237324

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB998104256A Expired - Fee Related CN100341331C (zh) 1998-07-15 1999-07-15 基于区域的规模可变的图像编码

Country Status (10)

Country Link
EP (1) EP1095519B1 (zh)
JP (1) JP4215269B2 (zh)
CN (1) CN100341331C (zh)
AT (1) ATE364966T1 (zh)
AU (1) AU769818B2 (zh)
CA (1) CA2337430C (zh)
CZ (1) CZ2001173A3 (zh)
DE (1) DE69936304T2 (zh)
RU (1) RU2001104340A (zh)
WO (1) WO2000004721A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6804403B1 (en) 1998-07-15 2004-10-12 Digital Accelerator Corporation Region-based scalable image coding
WO2000010131A1 (en) 1998-08-10 2000-02-24 Digital Accelerator Corporation Embedded quadtree wavelets in image compression
CA2261833A1 (en) * 1999-02-15 2000-08-15 Xue Dong Yang Method and system of region-based image coding with dynamic streaming of code blocks
US6580759B1 (en) * 2000-11-16 2003-06-17 Koninklijke Philips Electronics N.V. Scalable MPEG-2 video system
FR2822331B1 (fr) * 2001-03-19 2003-07-04 Canon Kk Codage et decodage de signal numerique, avec segmentation hierarchique
US6882755B2 (en) * 2001-10-19 2005-04-19 Hewlett-Packard Development Company, L.P. Image transmission for low bandwidth with region of interest
JP3941668B2 (ja) * 2002-11-11 2007-07-04 松下電器産業株式会社 細胞の観察方法
KR102385188B1 (ko) 2017-09-29 2022-04-12 삼성전자주식회사 외부 전자 장치에서 생성된 정보를 이용하여 이미지 데이터를 처리하는 방법 및 전자 장치
US11678085B2 (en) * 2020-11-16 2023-06-13 Sony Semiconductor Solutions Corporation Data compression method, data compression device, solid-state imaging device, data decompression device and electronic system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940011607B1 (ko) * 1990-07-10 1994-12-22 후지쓰 가부시끼가이샤 화상데이타 부호화 장치 및 방법
US5748903A (en) * 1995-07-21 1998-05-05 Intel Corporation Encoding images using decode rate control
AUPO329396A0 (en) * 1996-10-28 1996-11-21 Commonwealth Scientific And Industrial Research Organisation Image transmission

Also Published As

Publication number Publication date
EP1095519B1 (en) 2007-06-13
CZ2001173A3 (cs) 2001-08-15
JP4215269B2 (ja) 2009-01-28
AU4597699A (en) 2000-02-07
DE69936304D1 (de) 2007-07-26
CA2337430C (en) 2005-05-24
JP2002521880A (ja) 2002-07-16
CN100341331C (zh) 2007-10-03
CA2337430A1 (en) 2000-01-27
RU2001104340A (ru) 2003-01-27
EP1095519A1 (en) 2001-05-02
WO2000004721A1 (en) 2000-01-27
ATE364966T1 (de) 2007-07-15
AU769818B2 (en) 2004-02-05
DE69936304T2 (de) 2008-02-14

Similar Documents

Publication Publication Date Title
US7027647B2 (en) Coder matched layer separation for compression of compound documents
US6941024B2 (en) Coder matched layer separation and interpolation for compression of compound documents
EP1598781B1 (en) Adaptive compression of multi-level images
Lin et al. Compound image compression for real-time computer screen image transmission
CN1250003C (zh) 用于改善压缩图像色度信息的方法和系统
JP4773678B2 (ja) 文書システム
US6804403B1 (en) Region-based scalable image coding
CN1547724A (zh) 使用golomb-rice的无损失帧内编码
CA2261833A1 (en) Method and system of region-based image coding with dynamic streaming of code blocks
CN1218356A (zh) 数据压缩方法
Cheng et al. Document compression using rate-distortion optimized segmentation
CN100341331C (zh) 基于区域的规模可变的图像编码
CN1498501A (zh) 视频数据压缩和解压缩的方法
CN1220803A (zh) 一个数字化图像的向量量化和逆向量量化的方法和设备
CN1533182A (zh) 用于规定数字图像信号的质量模式的方法和装置
Senapati Development of novel image compression algorithms for portable multimedia applications
Xue Clustering and Segmentation with Application in Document Image Processing
Saba JPEG XR scalable coding for remote image browsing applications
KHARATE IMAGE COMPRESSION
Lin Region-based image modeling and coding
Misic Mixed raster content for processing of colored engravings
JPH06217147A (ja) カラー文書画像の伝送方法
CN1505383A (zh) 用于网路传输及即时描绘的小波式编解码模型贴图分割与渐进式传送方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: DAC INTERNATIONAL CO., LTD.

Free format text: FORMER OWNER: DIGITAL ACCELERATOR CORP.

Effective date: 20050729

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20050729

Address after: British West Indies Barbados

Applicant after: Digital Accelerator Corp

Address before: British Columbia Canada

Applicant before: Digital Accelerator Corp.

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: ETI IP HOLDINGS CO., LTD.

Free format text: FORMER OWNER: DAC INTERNATIONAL CO., LTD.

Effective date: 20090710

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090710

Address after: British Columbia

Patentee after: Digital Accelerator Corp.

Address before: British West Indies Barbados

Patentee before: Digital Accelerator Corp

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20071003

Termination date: 20170715

CF01 Termination of patent right due to non-payment of annual fee