CN1386376A

CN1386376A - 用于编码图像的方法和装置

Info

Publication number: CN1386376A
Application number: CN01802111.5A
Authority: CN
Inventors: A·维特罗; H·孙
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-05-26
Filing date: 2001-03-08
Publication date: 2002-12-18
Anticipated expiration: 2021-03-08
Also published as: EP1289301A4; WO2001091467A1; EP1289301A1; JP4786114B2; EP1289301B1; US6650705B1; CN1199467C

Abstract

图像首先被分割成图像对象。在图像未被压缩的场合,分割是用分段面进行。在图像被压缩的场合,分割是采用信号分离器。即时地、从被分割过的各对象抽出形状特征。组合所抽出的形状特征,对各对象即时地决定时间分辨率。随后,时间分辨率被用于作为被压缩过的输出图像编码或代码转换各种图像对象。

Description

用于编码图像的方法和装置

技术领域

本发明涉及一般编码和代码转换多重图像对象，特别是涉及控制采用了可变时间分辨率的多重图像对象的编码和代码转换的系统。

背景技术

近年来，开发出了用于通信被编码过的信息的多个标准。对于图像序列，作为使用最广泛的标准，有MPEG-1(用于动画的存储和取出)、MPEG-2(用于数字电视)、以及H.263。请参照〖ISO/IEC JTC1CD 11172、MPEG、“Information Technology-Coding of MovingPictures and Associated Audio for Digital Storage Media upto about 1.5Mbit/s-Part2：Coding of Moving PicturesInformation”1991年、LeGall、“MPEG：A Video CompressionStandard for Multimedia Applications”Communications of theACM、34卷4期、46页-58页、1991年、ISO/IEC DIS 13818-2、MPEG-2、“Information Technology-Generic Coding of MovingPictures and Associated Audio Information-Part2：Video”1994年、ITU-T SGXV、DRAFT H.263、“Video Coding for Low BitrateCommunication”1996年、ITU-T SGXVI、DRAFT13 H.263+Q15-A-60rev.0、“Video Coding for Low Bitrate Communication”1977年〗。

这些标准，是以图像序列的空间和时间压缩为主来使用的较低级的技术规范。作为共同的特征，这些标准，是对每个帧进行压缩。通过采用这些标准，对于范围很广的应用可以实现高压缩比。

在MPEG-4(多媒体应用)等新的图像编码标准中(参照“Information Technology--Generic Coding of audio/visualobjects”ISO/IEC FDIS 14496-2(MPEG4 Visual)、1998年11月)，可以作为个别的图像对象平面(VOP)编码和译码任意形状的对象。对象可以是可视的、语音、自然的、合成的、图元、复合的或它们的组合。图像对象被构成为能形成复合对象或“景物”。

新近浮出水面的MPEG-4标准，意欲使集成自然和合成材料的、访问是很普遍的交互式图像等多媒体应用成为可能。MPEG-4考虑了基于内容的相互作用。例如，有时想从一个图像将移动的人物或对象“剪贴”到其他图像上。在这种类型的应用中，假定多媒体内容中的对象，是用某种类型的分割处理来进行识别的。例如，可参照由Lin等人在1999年6月4日所提出的美国专利申请第09/326,750号、“Method for Ordering Image Spaces to Search for ObjectSurfaces”。

在图像发送中，这些压缩标准是为减低网络所需带宽(可利用的位速率)的量所必要的。网络可以表示无线通道或因特网。无论在哪种情况下，网络，在要发送内容的时候由于必须要分解资源，所以，限定容量和内容。

长年以来，在使设备能稳定发送图像内容、使内容的质量适应于可利用的网络资源的体系结构和处理过程方面付出了巨大努力。为了分配每个编码时间的位(Bit)数采用速率控制。速率控制，要确保由编码器所生成的位流满足缓冲器制约。

速率控制过程，试图使被编码过的信号的质量为最好，同时，要提供一定的位速率。关于基于MPEG-2等帧的编码，请参照1998年12月8日由Uz等人所发布的美国专利第5,847,761号“Method forperforming rate control in a video encoder which provides abit budget for each frame while employing virtual buffers andvirtual buffer verifiers”。关于基于MPEG-4等对象的编码，请参照1999年10月19日由Sun和Vetro所发布的美国专利第5,969,764号“Adaptive video coding method”。

在内容已经被编码了的场合，流，例如，为了对付可利用的位速率的减少在通过网络被发送之前，有时还要变换已经压缩过的位流。位流变换或“代码转换”，可以分类成位速率变换、分辨率变换、以及语法变换。在位速率变换中，包含有恒定的位速率(CBR)与可变的位速率(VBR)之间的位速率换算和变换。位速率换算的基本功能，是接收输入位流、生成符合接收设备的新的负荷制约的被换算过的输出位流。位流定标器，是使源位流与接收负荷一致的代码转换器或过滤器。

如图7所示，通常，换算可由代码转换器100来完成。在完美的情况下，代码转换器拥有译码器110和编码器120。被压缩的输入位流101，由输入速率Rin完全译码，由新的输出速率Rout102编码，生成输出位流103。通常，输出速率比输入速率还低。但是，实际上，将被译码过的位流编码是非常复杂的，所以，不进行在代码转换器中的完全译码和完全编码、而代之以对被压缩过的或部分被译码过的位流进行代码转换。

在“Architectures for MPEG compressed bitstream scaLing”、IEEE Transactions on Circuits and Systems for VideoTechnology、1996年4月刊中，由Sun等人公布了对MPEG-2的初期研究。在这个文献中，示出了改变了复杂性和体系结构的4个速率降低方法。

图8示出了例示的方法。在这个体系结构中，图像位流只是部分的被译码。具体的说，输入位流201的宏块，被210可变长译码(VLD)。输入位流，还被220延迟、被230逆量化(IQ)、生成离散余弦变换(DCT)系数。一旦给与了所希望的输出位速率，部分被译码过的数据被240分析、将新的量化器的设定在250中应用于DCT宏块。这些被再量化的宏块，接着，被260可变长编码(VLC)，可形成较低速率的新输出位流203。这个方式，比图7所示的方式还要简单得多。原因是再次使用运动向量，而不必要逆DCT操作。

在由Assuncao等人所作的最新研究中，在1998年12月刊载于IEEE Transactions on Circuits and Systems for VideoTechnology、953到957页的“A frequency domain video transcoderfor dynamic bit-rate reduction of MPEG-2 bitstreams”中，对于相同任务的被简化了的体系结构，作了描述。Assuncao等人，采用了在频域中工作的移动补偿(MC)回路用于漂移补偿。为进行频域内的宏块的迅速计算得到了近似矩阵。拉格朗日最优化被应用在用于代码转换的最佳量化器换算。

Sorial等人的其他研究、“Joint transcoding of multiple MPEGVideo bitstreams”、Proceedings of the International Symposiumon Circuits and Systems、1999年5月刊，示出了共同代码转换多重MPEG-2位流的方法。也请参照由Vetro等人于1999年10月1日所提出的美国专利申请第09/410，552号“Estimating Rate-Distortion Characteristics of Binary Shape Date”。

若依据现有的压缩标准，为了编码纹理信息所分配的位(Bit)数，由量化参数(QP)来控制。上述的文献也是同样的。根据原来位流中所包含的信息变更QP，这样，来降低纹理位的速率。为了高效的实施，信息，通常在被压缩过的域内被直接抽取，它可包含有关宏块的移动或DCT宏块的残余能量的度量。这个类型的分析，在图8的位分配分析器240中可以找到。

除了上述现有的代码转换法外，还刊载出了几个新的代码转换法。请参照例如，2000年2月14日由Vetro等人所提出的美国专利申请第09/504,323号“Object-Based Bitstream Transcoder”。在这个文献中，对于克服现有代码转换系统的限制的信息发送系统，作了阐述。现有的系统，在可降低的速率的量中受到某些制约。另外，现有的系统，不考虑整体的感知质量，说得更确切些，是控制PSNR等客观的量度。

在由Vetro等人所阐述的系统中，变换更加灵活，质量的测量也从现有的每位不同中挣脱出来。

Vetro，用非常特有的方法归纳整理图像内容。在基于对象的帧结构内，各个图像对象用不同的质量被代码转换。质量的区别，可以与空间质量或时间上的分辨率(质量)相关联。

时间分辨率在景物内的对象间变化时，重要的是，所有的对象相互要维持某种类型的时间同步。若能维持时间同步，接收设备就能这样构成对象：能规定所重新构筑的景物内的所有的像素。

在景物内没有规定的像素，可以由背景和前景对象来生成。或者，重复的对象，用不同的时间分辨率被取样，在所重新构成的景物内出现“空洞(holes)”。因此，在改变编码或代码转换中的多重对象的时间分辨率的场合，维持同步，是至关重要的。

为了进一步例示这点，让我们来考虑这样的景物：有比较静止的背景对象(例如，空白的墙壁)和正在移动的人等活动的前景对象。背景，由比较低的时间分辨率(例如，每1秒10帧)可以编码。前景对象，由每秒30帧的比较高的时间分辨率编码。只要前景对象不大移动，这是良好的。但是，万一前景对象相对于背景一移动，在背景的部分就出现“空洞”，不能由前景对象堵住。

本发明的目的，是要解决上述问题，使其能够用可变时间分辨率进行多重对象的编码和代码转换。

面向由MPEG标准委员会所进行的最近的标准化的机构，正式上是被叫做“Multimedia Content Description Interface”的MPEG-7。请参照“MPEG-7 Context、Objectives and TechnicalRoadmap”、ISO/IEC N2861、1999年7月号。实质上，这个标准，计划要导入可以用来描述各种类型的多媒体内容的描述符集和描述方式。描述符和描述方式，与内容本身相关连，并考虑特定用户所关心的材料的迅速而高效的检索。重要的是要注意，这个标准，不是取代以前的编码标准，而是将它构筑在其它标准(特别是，MPEG-4)表述之上。这是由于，将多媒体内容分解为不同的对象、将特有的描述符集合分配给了各对象的缘故。另外，这个标准，与保存内容的形式是独立的。

期望MPEG-7的主要应用，是在检索和取得方面的应用。请参照“MPEG-7 Applications”、ISO/IEC N2861、1999年7月。在简单的应用中，用户要指定特定对象的几个属性。在这个低级的表现中，这些属性，可以包含记述特定对象的纹理、移动、以及形状的描述符。表现、比较形状的方法，在由Lin等人于1999年6月4日所提出的美国专利申请第09/326,759号“Method for Ordering Image Spacesto Represent Object Shapes”中，作了阐述，描述移动动作的方法，在由Divakaran等人于1999年9月27日所提出的美国专利申请第09/406,444号“Activity Descriptor for Video Sequences”中，作了阐述。为了得到较高级的表现，可以考虑将几个低级的描述符组合起来的更复杂的记述方式。事实上，这些记述方式，可以包含其它的记述方式。请参照“MPEG-7 Multimedia Description SchemesWD(V1.0)”ISO/IEC N3113、1999年12月和由Lin等人于1999年8月30日所提出的美国专利申请第09/385,169号“Method forrepresenting and comparing multimedia content”。

用这些描述符和描述方式，用户可以访问用编码器或代码转换器在过去不能得到的图像内容的特性。例如，这些特性，可以表示被假定为是代码转换器不能访问的未来预测信息。编码器或代码转换器访问这些特性，是仅在起初由内容得到这些特性的场合，亦即，在预先处理内容、并将其存储到拥有相关的元数据的数据库的场合。

信息本身可以是语法或语义。所谓语法信息，是指内容的物理上的和逻辑上的信号方式，而所谓语义信息，是指内容的概念上的意思。对于图像序列，语法要素可以与特定对象的颜色、形状、以及移动有关。另一方面，语义要素则可指事件的时间和场所、图像序列内的人名等不能从低级描述符中抽出的信息。

希望维持基于用于拥有可变时间分辨率的景物中的图像对象的对象的编码器或代码转换器内的同步。再者，希望用图像内容元数据来识别这样的变化。

发明内容

本发明提供图像的编码装置和方法。本发明的编码可以由编码器或代码转换器来完成。图像首先被分割成图像对象。在编码器的场合，这个分割是使用分段面来进行，而在代码转换器的场合，是使用信号分离器。即时地从各个对象中抽出形状特征。形状特征可以通过测定各个对象的形状即时地是如何展开的来获得。可以采用汉明或豪斯多夫距离测量。所抽出的形状特征，由速率或代码转换器控制单元进行组合，对于各对象即时地决定时间分辨率。时间分辨率被用来编码各种各样的图像对象。根据需要在进行时间分辨率决定中的折衷权衡的同时，还可以考虑移动特征和编码的复杂性。

图像是未被压缩的数据的场合，在编码器中进行分割、组合、以及编码。对于被压缩过的图像，多路分解、组合、以及编码是在代码转换器中进行。后者的场合，压缩图像中的对象的边界块，被用来抽出形状特征。在本发明的一个模式中，不同的对象可以有不同的时间分辨率或帧速率。

附图说明

图1是由2个图像对象重新构筑的景物的方框图，

图2是由具有不同的时间分辨率的2个图像对象重新构筑的景物的方框图，

图3是本发明的编码器的方框图，

图4是本发明的代码转换器的方框图，

图5是本发明的编码方法的流程图，

图6是由图5的方法所采用的例示的编码方法的流程图，

图7是现有的代码转换器的方框图，

图8是现有的部分译码器/编码器的方框图。

实施方式

关于可变时间分辨率编码和代码转换的概述

本发明提供用于一边编码和代码转换在景物中的多重图像对象一边控制时间分辨率的方法和装置。时间分辨率控制器，可以进行具有可变时间分辨率和不同时间分辨率的对象的编码、代码转换、以及重新构筑。基于对象的编码方式的主要优点之一，是对象的空间和时间分辨率双方可以独立变化。

希望为对人的面部等更感兴趣的对象提供更高的空间质量。这同样也适用于时间分辨率。但是，在时间分辨率中，存在有重大的微妙性。即，必须要维持景物内的对象间的同步，以便于能规定所再构筑的景物内的所有的画素。需要注意的是，压缩图像的图像再构筑，是由大部分的图像标准(MPEG-1/2/4)的技术规范部分来规定，是由现有的译码器来处理。因此，对于译码器，在本说明书中不再赘述。

本说明书中记载的方法和装置，可适用于基于对象的编码和代码转换系统、以及实时性和非实时性应用。输入图像，在编码过程中不压缩、而在代码转换过程中被压缩。输出图像，在编码过程中和代码转换过程被压缩。在本说明书中记载的机构和技巧，可以无缝地集成到现有设备的总体结构中。结构问题

图1表示2个图像对象、即被分割成了前景对象301和后景对象302的景物303。景物，通过组合2个对象可以进行再构筑。在这个简单的例子中，前景对象是移动的人，后景对象是静止的墙壁。需要注意的是：前景对象和后景对象的画素，在初始的帧中，规定景物内的所有的画素。在将这2个对象用同样的时间分辨率编码的场合，在接收设备内的图像再构筑中在对象的构成方面没有问题。所再构筑的景物303内的画素都被规定了。

但是，在对象用不同的时间分辨率被编码的场合，要产生问题。例如，用15Hz的帧速率编码背景，而前景，用第1速率的2倍30Hz的帧速率被编码。一般，2个对象具有独立的移动，在各帧中改变与各自相关连的画素。再者，需要注意的是，尽管前景对象还可以做到相对比较静止，但却具有较背景对象更高的内部移动。例如，前景纹理丰富，具有移动的双眼、嘴唇以及其他移动的面部的特征部分，相反，背景是空白的墙壁。因此，希望要用比背景更高的空间和时间分辨率来编码前景。

在本实施例子中，如图2的图像序列所示，前景对象相对于背景对象在移动。在从序列401到403中，时间从左移向右。此处，序列401，是用比较低的时间分辨率所编码过的背景对象；序列402，是用比较高的时间分辨率所编码过的前景对象；序列403，是被再构筑过的景物。在序列403中，在每隔1帧中产生空洞404。这些空洞，在不更新相邻的对象或重复的对象的场合，是由1个对象的移动而产生的。空洞，是与哪个对象都不能关联的景物的未被覆盖的区域，且画素未被规定。当再同步(例如隔1帧)对象时空洞就消失。形状变形度量

用于控制和执行关于本发明的对象的时间分辨率的决定的方法和装置，表示在景物中的形状变化(变形)量。在本说明书中，对于为此目的所能抽出的许多的形状特征作了阐述。例如，1个形状特征，测定即时的对象的形状差。在抽出和比较了各种各样的对象的形状特征之后，编码器，可以决定在编码过程中或代码转换过程中对于各对象所使用的时间分辨率的量。

要即时地测定关于各对象的形状差。形状差，与对象间的时间分辨率中的变动量成反比。在固定的时间量中，小的差，表示较大的变动，而大的差，则表示较小的变动。如果再同步对象的间隔的持续时间变的更长，所保存的位(Bit)，可以被分配给要求更好质量的对象。时间度量

最佳合成对象的方法按如下的方式动作。定期的对图像进行采样，即时地找出各对象形状间的差。在对象的形状差即时地小的场合，增加用于测定差的采样周期。将采样周期一直持续增加到差比指定的阈值D还大。在这个时刻，输出帧，决定再同步拥有该差的图像对象，或者要合成对象的新的频率。频率可以是基于同步帧之间的平均、最小、或中间时间间隔的。这个频率，可以用来决定对于每个各种图像对象的最佳的时间速率。基于差的形状特征

为了简单起见，考虑仅在2个景物之间的、即从1个帧到下个帧的形状特征的差。但是，这样的形状特征，还可能与在各种各样的辅助提示级别上的景物相关联。辅助提示级别，在2000年4月11日由Vetro等人所提出的美国专利申请第09/546,717号、“AdaptableBitstream Video Delivery System”中被定义了。在本申请中参照这个文献作了引用。

用抽出形状特征的辅助提示级别(cue level)，时间控制器，可以提供用于达到景物内的对象的时间分辨率的各种各样的方法。这些方法，可以适用于编码器和代码转换器双方。汉明距离

在本申请中考虑的第1个差，就是众所周知的汉明距离。汉明距离测定作为2个形状间的差的画素个数。首先，考虑2元形状，即，分割(α)值仅可以是0或1的场合。此处，0指的是分段面中的透明画素；1指的是分段面中的不透明画素。这种情况下，汉明距离d，由下式定义：

d = Σ_{n = 0}^{N - 1} Σ_{m = 0}^{M - 1} | α_{1} (m, n) - α_{2} (m, n) |

其中，α₁(m，n)和α₂(m，n)是不同时间中对应的分段面。豪斯多夫距离

另一个被广泛采用的形状差测定，是豪斯多夫距离。豪斯多夫距离，是作为2个画素集合间的最大函数来被定义的。

h(A，B)＝max{min{d(a，b)}}

其中，a和b，分别是2个图像对象的集合A和B的画素，d(a，b)是这些画素间的欧几里德距离。上述的度量，表示到集合B最近似画素的集合A中的画素的最大距离。原因是这个度量不是对称的。即，h(A，B)和h(B，A)是不等的，更一般定义，用下式表示。

H(A，B)＝max{h(A，B)，h(B，A)}

需要注意的是：这些差的测定，在画素-域内计算时是最准确的，但在上述的计算中还可以采用来自压缩-域的近似数据。画素-域数据，虽然在编码器中容易得到，但对于代码转换器来说，译码形状数据，在计算上不能实现。而代之以，用某种计算上有效的方法可以近似数据。基于宏块的形状特征

例如，在MPEG-4中，形状，用各种各样不同的摸式编码、在宏块级别上进行。例如，在模式内，形状宏块，作为不透明宏块、透明宏块、或边界宏块被编码。不言而喻，边界块来规定对象的形状。这些编码模式，可以用来再构筑2元形状的宏块级别的轮廓。不言而喻，不如画素级别的量度准确，但在复杂性观点上来看是完全可以实现的。编码器的结构

图3表示基于本发明的对象的编码器500。编码器具有：开关510、形状编码器520、移动预估器530、移动补偿器540、移动编码器550、纹理编码器560、VOP存储器570、多路转换器580、输出缓冲器590、以及元数据存储单元591。编码器，还具有：用于进行QP纹理分析器、时间分析器、形状分析器、以及元数据分析器593～596的速率控制单元(RCU)592。向编码器500的输入，是基于对象的图像(输入)501。图像由图像序列数据、以及规定各图像对象的边界的分段面(α)构成。编码器的动作

形状编码器520，处理各对象的形状，通过MUX580和缓冲器590将形状编码的结果写入输出位流(输出)509。形状数据还可用于移动预估器530、移动补偿器540、以及纹理编码器560。特别是形状数据还被用来抽出关于各对象的形状特征。将对象及其关联的形状和移动特征，存储到VOP存储器570。

在移动预估器530中，对于个各宏块决定移动向量。移动向量还被编码、并通过MUX和缓冲器将其写入到输出位流。用从移动预估器所得到的移动向量，由存储在VOP存储器570中的图像对象数据形成移动被补偿过的预测。由输入对象被541减去这个预测、并生成残余宏块的集合。这些残余的宏块，被加到纹理编码器，并将相应的数据写入输出位流。纹理编码依据由RCU提供的QP控制信号来动作。

RCU592的量化参数(QP)，参与对各图像对象选择适当的量化参数QP。这是用模式、通过依据所分配的速率预估表预估对应的量化参数QP来进行的。下面详细阐述时间分析。简单说来，时间分析参与在编码过程中和代码转换过程中控制各对象的时间分辨率。

在现有技术中，如上所述(参照图8)，为了避免构成问题，所有图像对象的时间分辨率都是同样的。因此，在现有技术中，关于各种各样的对象的时间分辨率，并未被分开独立考虑。另外在现有技术中，时间分析，在缓冲器有溢出危险的情况下提供了用来跳过所有图像对象的信号。本发明，提供更良好的解决方法。例如，比较静止的对象，用比较快移动对象还慢的帧速率编码，可以降低整个位速率。

在本发明中，考虑可变时间质量。在本发明中，用可变时间分辨率可以进行图像对象的编码和代码转换。

形状分析595，抽出由时间分析所用的形状特征，参与决定可变时间分辨率是否能不发生问题的完成、即，即使在各种各样的对象的的时间编码速率不同的场合下能否避免空洞。形状分析，可以在实时编码模式中作用。此处，数据，是由VOP存储器570取得。但是，在编码器还从与形状特征(即，已经存在的内容的记述)相关联的元数据存储单元591接收元数据的场合，这样的元数据，可以用来替代来自VOP存储器570的形状数据，或可以与形状数据一起使用。元数据由元数据分析处理，与形状分析同样，元数据，帮助决定对各图像对象的最佳的时间分辨率时的时间分析。代码转换器的结构

图4表示基于本发明的另一种实施方式的对象的代码转换器600高级方框图。此处，输入图像是已经被压缩过的。代码转换器600，具有：信号分离器(DE-MUX)601、多路转换器(MUX)602、以及输出缓冲器603。代码转换器600，还具有：基于依据控制信息604由代码转换控制单元(TCU)610所作用的一个或1个以上对象的代码转换器630。单元TCU，具有：现状分析器、QP纹理分析器、时间分析器、以及元数据分析器611～614。

被压缩过的输入位流605，由信号分离器分割成基于1个或1个以上对象的基本位流。基于对象的位流，可以是串行或并行的。位流605的整体位速率是R_in。来自代码转换器600的被压缩过的位流606具有整体位速率R_out，且R_out＜R_in。信号分离器601，将1个或1个以上的基本位流提供给基于对象的各代码转换器630，基于对象的代码转换器，将对象数据给与TCU610。

代码转换器，换算基本位流。在被转交给输出缓冲器603之前，由多路转换器602构成被换算过的基本位流，并由此将其转交给接收设备。输出缓冲器603，还将速率反馈信息608给与TCU。

如上所述，由TCU提供被转交给各代码转换器的控制信息604。如图4所示，TCU担负着形状数据和纹理的分析611、612。在分析过程中，TCU还可以使用网络数据609。TCU还进行元数据分析614。通过时间质量的分析，使采用可变时间分辨率的代码转换成为可能。编码/代码转换方法

图5表示本发明的用于编码和代码转换图像输入701的方法700的步骤。在这个方法中所使用的图像输入701，在编码器500的情况下，是未被压缩的图像，在代码转换器600的情况下，是被压缩过的图像。在步骤710中，图像输入701被分割成对象711。步骤720中，从各对象中即时地抽出形状特征721。形状抽出，如上所述，可以是根据距离和宏块进行。步骤730中，即时地从各对象有选择的抽出移动特征。在为决定最佳的时间分辨率所抽出的可考虑的其它特征中，包括有编码复杂性、例如，空间复杂性、DCT复杂性、纹理复杂性等。在步骤740中，组合所抽出的特征，在步骤750中，在编码和代码转换各种对象711的时候，来决定所用的时间分辨率741。例示的编码方案

图6表示几个基于即时分析图像对象的展开形状的例示的编码方案。此处，输入是第1和第2所抽出的对象序列801～802。图线810和820，画出了形状特征，例如，在时间(t)内的形状差(Δ)。需要注意的是：时间t₁和t₂间的对象性状是比较一定的。图线811和821，有选择的画出了经过一定时间的各对象内部移动特征。要注意的是：第1对象内部移动非常小，而第2对象内部移动却非常高。结合器850(RCU592或TCU610)，考虑用大致是最大、合计、比较、或其他的组合函数所抽出的特征，来决定在实际编码中如何将所得到的位最好地在各对象间进行分配。

在方案831中，在时间区间[t₁、t₂]中，第1对象完全不编码，将所得到的所有位分配给第2对象。这可以有在时间t₁和t₂中图像的质量达到可观察的显著突然变化的效果。在较好的方案832中，在时间区间[t₁、t₂]中，可以用更低的时间分辨率，或者最好是逐渐减少分辨率，而后逐渐增加。在方案833中，在时间区间[t₀、t₁]和[t₂、t_end]中将更多的位分配给第2对象，接着，在时间区间[t₁、t₂]中，反映第2对象的更高的内部移动。

上述的新的自由度，使基于对象的代码转换框架对于网络应用成为非常富有特色且是热切希望的。正如MPEG-2和H.263编码标准那样，MPEG-4应用移动补偿和DCT来活用图像的空间-时间冗余。结果，基于本发明的对象的代码转换器的核心，是适应上述的MPEG-2代码转换器。主要的区别是，形状信息被包含在位流内，关于纹理编码，为了预测关于块内的DC和AC要配置工具。

要注意到纹理的代码转换实际上依赖于形状数据，这点也很重要。换句话说，不能简单的分析、忽视形状数据。顺应位流的文法依赖于编码形状数据。

显然，基于本发明的对象的输入和输出位流605、606，与基于现有的帧的图像程序截然不同。另外，MPEG-2不容许动态的帧跳跃。在MPEG-2中，GOP结构和基准帧通常都是被固定的。

非实时方案的场合，内容651和对应的内容描述符652被存储在数据库中。内容描述符，由特征抽出器640生成，这个特征抽出器640，接收基于输入对象的位流605。一到了发送内容的时间，输入位流，如上所述，被给与信号分离器601和代码转换器。元数据，在TCU内被发送给元数据分析器614。时间分析的功能性

基于对象的编码器和代码转换器中的时间控制器的主要目的，是要避免上述的(参照图2)结构问题、使接收设备侧的构成景物的质量为最高。为了在这些制约之下使质量最好，要尽量活用信号内的时间冗余。

根据大部分的图像编码方式，在移动补偿过程中，要除去时间冗余。但是，对于所有的编码单元或宏块要指定移动向量，可能是超出了实际需要。除了对于移动向量的位，还必须要编码移动补偿差的残余。重要的是，为了要使质量为最高，没有必要在每个时间来编码所有的对象。这样，这些保存位，在不同的时间中，还可以用于其他重要的对象。

在非实时的方案中，时间控制器，用形状变形量度(规格)，来表示景物内的形状中的移动量。这个测定，可以与在美国专利申请第09/546,717号中所规定那样的各种辅助提示级别上的景物有关连。时间控制器可以提供给与景物内的对象的时间分辨率冲击的各种方法。这些方法，可以适用于编码器和代码转换器。

在实时的方案中，时间控制器以同样的方式作用。但是，由于潜在的制约限定了观察，所以只考虑因果数据。故此，时间编码决定，是被当即进行的。

如上所述，形状变形量度的抽出，可以在画素或压缩域中进行。需要注意的是，不管变形信息是从何处抽出，在时间控制的决定过程中可以导入容许误差。换言之，在规定领域中的增益是相当大的场合，有的应用，也可以容许少量没有被规定的领域。

这种场合，规定[0，1]间的加权值。此处，0意味着在形状的边界没有移动；1意味着形状边界完全不同。加权值是先前所规定过的形状变形度量的函数，可以对应于百分数或规格化值。另一方面，在全然不考虑结构问题的应用中，这个加权值，不存在。更确切的说，只有极端的加权值(即，0或1)是有效的。

在接收没有规定某种可容许量的画素的状况下，利用简单的后处理插补技术或基于误差-隐蔽的其他技术可以回收这些画素。可变时间分辨率编码的效果和优点

本发明的时间控制器提供以下效果和优点。

决定利用可变时间分辨率可以编码或代码转换对象的瞬间。将被固定的不均匀的帧速率分配给图像分割的对象。抽出或找出关键帧，以便可进行内容的摘要。

改善位分配或对于对象形状的变化大的图像的部分(帧)保存位。这样的帧，要求比形状信息需要的更多的位。为了维持纹理信息的质量还可以要求附加位。

通过例示上述实施方式说明了本发明，不言而喻，在本发明的精神和范围内，可以进行各种适应性修改和改变。因此，附加的权利要求范围的目的在于，涵盖在本发明的真正精神和范围内的这样的所有的变形和修改。

Claims

1.一种用于编码图像的方法，包含

将上述图像分割成多个对象的步骤；

从各对象中即时地抽出形状特征的步骤；

将上述形状特征即时地组合、并即时地决定关于各对象的时间分辨率的步骤；

根据上述对象对应的时间分辨率对各对象进行编码的步骤。

2.权利要求1记载的用于编码图像的方法，其中

上述图像是未经压缩的数据，

在编码器中进行上述分割、组合以及编码。

3.权利要求1记载的用于编码图像的方法，其中

上述图像是压缩过的数据，

在代码转换器中进行上述分割、组合以及编码。

4.权利要求1记载的用于编码图像的方法，其中

依据不同的相应的时间分辨率来编码至少2个对象。

5.权利要求1记载的用于编码图像的方法，还包含

即时地测定各对象的形状差，进而抽出各对象的形状特征的步骤。

6.权利要求5记载的用于编码图像的方法，其中

被编码过的对象的时间分辨率，与上述被编码过的对象相关的形状差成比例。

7.权利要求5记载的用于编码图像的方法，其中

上述形状差，是测定作为上述对象间的差的画素数的汉明距离。

8.权利要求3记载的用于编码图像的方法，其中

上述被分割过的对象，有2元形状，由下式来定义汉明距离d：

d = Σ_{n = 0}^{N - 1} Σ_{m = 0}^{M - 1} | α_{1} (m, n) - α_{2} (m, n) |

其中，α₁(m，n)和α₂(m，n)是不同时间内对应的分段面。

9.权利要求5记载的用于编码图像的方法，其中

上述形状差，是作为与上述对象相关的画素集合间的最大函数所定义的豪斯多夫距离。

10.权利要求9记载的用于编码图像的方法，其中

上述最大函数是

h(A，B)＝max{min{d(a，b)}}

其中，a和b是第1和第2对象集合A和B的各自的画素，d(a，b)是上述画素间的欧几里德距离。

11.权利要求1记载的用于编码图像的方法，其中

上述图像包含多个帧，各个帧包含多个宏块，上述宏块作为不透明块、透明块以及边界块被编码。

12.权利要求1记载的用于编码图像的方法，还包含

将上述对象的形状特征作为元数据来编码的步骤。

13.权利要求1记载的用于编码图像的方法，还包含

即时地抽出来自各对象的移动特征的步骤；

将上述移动特征和上述形状特征即时地组合起来、进而即时地决定关于各对象的时间分辨率的步骤。

14.权利要求1记载的用于编码图像的方法，还包含

从各对象即时地抽出编码的复杂性的步骤；

将上述编码的复杂性和上述形状特征组合起来、进而即时地决定关于各对象的时间分辨率的步骤。

15.权利要求1记载的用于编码图像的方法，其中

可从上述图像的多个辅助提示级别抽出上述对象的上述形状特征。

16.一种用于编码图像的装置，包括

将上述图像分割成多个对象的装置；

从各对象即时地抽出形状特征的装置；

即时地组合上述形状特征、并即时地决定有关各对象的时间分辨率的装置；

根据上述对象对应的时间分辨率对各对象进行编码的步骤。

17.权利要求16记载的用于编码图像的装置，其中

上述分割和抽出的装置，具有形状编码器、移动预估器、移动补偿器以及纹理编码器。

18.权利要求16记载的用于编码图像的装置，其中

将上述对象和形状特征存储到存储器内。

19.权利要求16记载的用于编码图像的装置，其中

上述图像不被压缩，

上述组合的装置是速率控制单元。

20.权利要求16记载的用于编码图像的装置，其中

上述图像被压缩，

上述组合的装置是代码转换控制单元。