技术背景
在这个对综合处理音频、视频及其他像素值的多媒体时代中,现有的信息媒体,即,报纸、杂志、电视、广播、电话和其他用于向人们传递信息的方式,近来已经包括在多媒体的范围中。通常,所说的多媒体不仅表示字符,还有图像,声音,以及尤其是图像等,它们彼此相联系。然而,为了将前面提到的现有的信息媒体包括在多媒体的范围中,绝对需要用数字的形式表示这样的信息。
然而,当以数字信息量的形式计算包含在每一种前面所述的信息媒体中的信息量时,如果为字符时,每字符的信息量为1~2字节,如果是声音(电话音质)时,所需要的信息量是每秒钟64k比特或者更高,如果是运动图像(目前的电视接收画质)时,为每秒钟100M比特或者更高。因此,对于前面所述的信息媒体而言,当如此大量的信息以数字化的形式出现时,处理它们不现实的。例如,尽管视频电话已经通过利用传输速率为64Kbit/s~1.5Mbit/s的综合服务数字网络(ISDN)投入实用,但是不可能直接通过ISDN发送电视和摄像机的视频。
应对这样的情况,需要信息压缩技术,例如,在视频电话中应用符合由ITU-T(国际通信联盟通信标准部)推荐的H.261和H.263标准的运动图像压缩技术。并且,根据符合MPEG-1标准的信息压缩技术,可以将图像信息和音频信息一起存储在普通音乐CD(紧致盘)中。
这里,MPEG(运动图像专家组)是由ISO/IEC(国际标准化组织/国际电气技术委员会)进行标准化的关于运动图像信号压缩的国际标准,MPEG-1是用于将电视信号信息压缩至将近百分之一的标准,从而运动图像信号可以以1.5Mbit/s的速率传输。进一步地,由于由MPEG-1标准获得的传输速率为大约1.5Mbit/s的中等质量速度,因此,从满足进一步改善图像质量的需求的意图出发制定的MPEG-2,允许以和电视广播相同的质量进行数据传输,运动图像信号通过它以2~15Mbit/s的速率传输。并且,推动MPEG-1和MPEG-2标准化的工作组(ISO/IECJTC1/SC29/WG11)对MPEG-4进行了标准化。MPEG-4提供了比MPEG-1和MPEG-2更高的压缩率,并且能够进行基于对象的编码/解码/操作,能够提供这个多媒体时代需要的新功能。在标准化的开始阶段,MPEG-4的目标是提供低比特率的编码方法,但是它已经扩展成为支持更多通用的处理隔行扫描图像以及高比特率编码的编码标准。目前,已经由ISO/IEC和ITU-T联合研究将MPEG-4AVC和ITU-T H.264标准化,作为提供更高压缩率的下一代编码方法。
一般地,在运动图像编码中,通过减少时间和空间方向上的冗余压缩信息量。因此,在目标为减少时间冗余的图像间预测编码中,参照前或后的图像,逐块地执行运动预测和预测图像生成,然后基于获得的预测图像和当前待编码的图像中的图像的差值进行编码。这里,术语“图像”代表一幅图像。在逐行图像的情况下,“图像”表示帧,但是,在隔行图像的情况下,它表示帧或者场。这里,“隔行图像”是包括捕获时间上分离的两场的帧图像。在隔行图像的编码和解码中,可以将一帧作为:(1)跟本身一样的一帧,(2)两场,或者(3)在帧内以每块为基础的帧结构或者场结构而处理。
通过不参照任何图像的图像内预测进行编码的图像将被称为I图像。通过只参照一幅图像的图像间预测进行编码的图像将被称为P图像。以及,通过同时参照两幅图像的使用图像间预测编码的图像将被称为B图像。对于B图像,可以参照从在显示顺序上前面/后面图像的任意组合的两幅图像。对于作为基本编码/解码单元的每个块,可以确定参照图像(参照图像)。通过调用在编码比特流中较先描述的参照图像作为第一参照图像,以及通过调用在比特流中较晚描述的参照图像作为第二参照图像,将在这些参照图像之间做出区分。注意到,作为对这些类型图像编码和解码的条件,用于参照的图像需要已经被编码和解码。
P图像和B图像使用运动补偿图像间预测进行编码。通过使用运动补偿图像间预测的编码是在图像间预测编码中使用了运动补偿的编码方法。与仅仅基于一幅参考图像中的像素值进行预测的方法不同,运动估计是一种能够改进预测精度并减少数据量的技术,这通过估计图像内每一部分的运动量(下文中称为“运动矢量”)以及进一步在考虑此运动量的情况下进行预测实现。例如,可以通过利用估计当前待编码图像的运动矢量并随后利用对预测值和当前编码图像之间的预测残差进行编码,就可以通过运动补偿减小数据量,其中所述预测值通过只转换(shifting)相应的运动矢量的量获得。在此技术中,由于在解码时需要运动矢量信息,所以运动矢量同样被以编码形式记录或者发送。
在逐宏块的基础上估算运动矢量。更具体地,宏块应该在当前编码图像中预先固定,从而通过在参考图像中的搜索区域内查找与此宏块最相似的参考块的位置估算运动矢量。
图1为说明了比特流的数据结构的例子的简图。如图1所示,该比特流具有以下的层次结构。该比特流(流)由多于一个的图像组(GOP)构成。通过使用GOP作为基本编码单元,使得既能够编辑运动图像又能够进行随机访问。每个GOP由多个图像构成,其中每个图像为I图像,P图像,和B图像中的一个。每一图像进一步由多个片(slice)构成。每一片进一步由多个宏块构成,片为每一图像中的带状区域。并且,每个流,GOP,图像,以及片包括用于表示每个单元结束点的同步信号(sync)和所述的每个单元共有数据的标题(header)。
注意,如果数据不是以形成序列流的比特流,而是以数据包等分块单元的形式发送,那么标题和与标题不同的数据部分,可以分别发送。在此情况下,标题和数据部分将不被编入如图1所示的相同的比特流中。然而,在采用数据包的情况下,即使当标题和数据部分不是连续传输时,相应于该数据部分的标题也只是在另一数据包中发送。因此,即使当标题和数据部分不编入同一比特流时,参照图1所述的编码比特流的概念也可以用于数据包。
图2为示出了已有的图像编码装置的结构的框图。在此附图中,图像编码装置1是用于对输入图像信号Vin进行压缩编码的工具,从而输出已经通过进行可变长度编码等编码成为比特流的编码图像信号Str。此图像编码装置1包括运动估计单元ME,运动补偿单元MC,减法单元Sub,正交变换单元T,量化单元Q,反量化单元IQ,反正交变换单元IT,加法单元Add,图像存储器PicMem,开关SW,以及可变长度编码单元VLC。
图像信号Vin输入到减法单元Sub和运动估计单元ME。减法单元Sub基于逐块计算在输入图像信号Vin中每一图像和在每一预测图像之间的差,作为预测误差,并将此计算的预测误差输出到正交变换单元T。该正交变换单元T在预测误差的基础上进行正交变换,将其变换为频率系数,并将此频率系数输出至量化单元Q。该量化单元Q将此输入的频率系数进行量化,并将该量化值Qcoef输出至可变长度编码单元VLC。
该反量化单元IQ对离散值Qcoef进行反量化,从而将它们变为频率系数,并将此频率系数输出至反正交变换单元IT。该反正交变换单元IT对此频率系数进行逆频率变换,从而将其转换为预测误差,并将此预测误差输出至加法单元Add。该加法单元Add将每一预测误差和从运动补偿单元MC输出的每一预测图像相加,从而形成解码图像。表示应该保存此解码图像时该开关SW变为ON,并且将此解码图像保存到图像存储器PicMem中。
同时,基于宏块接收图像信号Vin的运动估计单元ME,从存储在图像存储器PicMem中的解码图像中探测最接近此输入图像信号Vin的图像区域,并确定表示此区域的位置的运动矢量MV。对通过进一步分解宏块得到的每个块估算运动矢量。完成这一步后,可以使用不止一幅图像作为参照图像。将利用标识号(参照索引Index)标识用于估计运动矢量的参照图像。存储在图像存储器中PicMem中的各个图像的图像号与参照索引Index相关联。
基于上述处理中探测的运动矢量和参考索引Index,运动补偿单元MC从存储在图像存储器PicMem中的解码图像中读出最优图像作为预测图像。
可变长度编码单元VLC对量化值Qcoef,参照索引Index,以及运动矢量MV的每一个进行可变长度编码,从而以编码流Str输出它们。
图3为示出了已有图像解码装置结构的框图。在此附图中,为与图2所示的图像编码装置的单元工作方式相同的单元分配了相同的标记,并且省略了对它们的描述。
可变长度解码单元VLD将编码流Str解码为量化值Qcoef,参照索引Index,以及运动矢量MV。将这些量化值Qcoef,参照索引Index,以及运动矢量MV输入至图像存储器PicMem,运动补偿单元MC,以及反量化单元IQ,在其中进行解码处理。在此解码过程中进行的处理与在图2中已有的图像编码装置中进行的处理相同。
(非专利文件)ITU-T Rec.H.264|ISO/IEC 14496-10 AVC JointFinal Committee Draft of Joint Video Specification(2002-8-10)。
然而,根据已有的图像编码装置,难以对所有包含很多像素的图像和所有包含各种内容的图像采用高压缩率。因而这样的已有图像编码装置需要能够在提供高压缩率的同时提高图像质量。
更具体地,该已有图像编码装置使用固定尺寸的块作为进行正交变换的单元(正交变换尺寸)。这使得对于既包括具有诸如高、低分辨率图像这样多种内容的图像,又包括在亮度和色彩上有多种或者不多变化的图像的运动图像信号,难以获得高压缩率。原因是,举个例子说,在MPEG-1,MPEG-2,以及MPEG-4的情况下,正交变换尺寸为8×8像素,然而,在MPEG-4 AVC,即,ITU-T H.264的情况下,正交变换的尺寸为4×4像素。在这一点上,由于像素间的相关性更强,并且相对于低分辨率图像而言,显示器(例如CRT)的像素密度更高,所以对于高分辨率图像(例如HDTV),人们相信使用更大的正交变换尺寸更为理想。并且,在很多情况下,对于具有较少高频分量的内容,使用较大的正交变换尺寸也更加理想,然而,对于具有大量高频分量的内容,使用较小的正交变换尺寸更为理想。
实施本发明的最佳方式
下面参照图4~21描述了本发明的实施例;
<图像编码装置>
图4为框图,示出了根据本发明的实施例的图像编码装置的构成。在此附图中,图像编码装置1包括判定单元DE,运动估计单元ME,运动补偿单元MC,减法单元Sub,正交变换单元T1,量化单元Q1,反量化单元IQ1,反正交变换单元IT1,加法单元Add,图像存储器PicMem,开关SW,可变长度编码单元VLC1。
判定单元DE判定(1)将由正交变换单元T1对其进行正交变换的块的块尺寸Tsize(下文中称为“正交变换尺寸”)以及(2)加权矩阵Wmatrix,其用于改变在量化单元Q1中使用的量化矩阵。存在两种正交变换尺寸Tsize,第一尺寸和第二尺寸,其基于每个宏块进行有选择性判定。这里,第一尺寸将表示4×4像素,第二尺寸将表示8×8像素。至于加权矩阵Wmatrix,对于第一尺寸有加权矩阵W4,对于第二尺寸有加权矩阵W8。
基于编码的当前图像的分辨率,在亮度和颜色上是否有很多变化(高频分量),以及编码流Str的比特率等,判定正交变换尺寸。例如,判定单元DE以下列方式选择正交变换尺寸:
例1:当前编码图像的分辨率水平等于或者大于第一阈值时,判定单元DE选择第二尺寸,而当前编码图像的分辨率水平小于第一阈值时,判定单元DE选择第一尺寸。HDTV等的分辨率水平可以作为第一阈值;
例2:编码后的比特率等于或者大于第二阈值时,判定单元DE选择第二尺寸,而编码后的比特率小于第二阈值时,判定单元DE选择第一尺寸。例如,第二阈值可以是10Mbps;并且
例3:从前面的正交变换的结果中,判定单元DE判断高频分量的数量,并且当此高频分量的数量大于第三阈值的时候,选择第二尺寸,而当此数量小于第三阈值时,判定单元DE选择第一尺寸。换句话说,在这里利用对高于第“n”阶的频率系数的数量或者值进行计数,判断是否有大量的高频分量。
在上述的例子1~3中,判定单元DE可以根据用于运动补偿的块尺寸进一步判定正交变换尺寸。
图5A~5G为简图,示出了在图像间编码时用于运动补偿的块尺寸(下文中称为“运动补偿尺寸”)。这些图中,图5A示出了16×16像素的运动补偿尺寸,图5B示出了16×8像素,图5C示出了8×16像素,图5D示出了8×8像素。进一步地,图5D中示出的8×8像素的运动补偿尺寸可以进一步分割成下面的尺寸之一,用作运动补偿尺寸:图5E所示的8×4像素,图5F所示的4×8像素,图5G所示的4×4像素。在用作运动补偿尺寸的块尺寸和用作正交变换尺寸的块尺寸之间最好具有一致性,从而简化处理并且在块边界上的赝像不会扩散。考虑到这些,判定单元DE以这样一种方法判定正交变换尺寸,在此方法中正交变换尺寸变得小于运动补偿尺寸。
更具体地,在图像间编码的情况下,当运动补偿尺寸为图5A~5D中所示(16×16像素,16×8像素,8×16像素,8×8像素)时,包含有正好一个或者更多个图5D所示的8×8像素块。在这些情况下,由于通过在8×8像素块基础上进行正交变换获得更高的效率,判定单元DE将选择第二尺寸(8×8像素)作为正交变换尺寸。同时,当运动补偿尺寸比如图5E~5G所示的8×8像素小时,判定单元DE将选择第一尺寸(4×4像素)。
判定单元DE在第一尺寸和第二尺寸之间转换正交变换尺寸越频繁,则图像编码装置和图像解码装置的结构变得越复杂。但是,利用它可以获得更好的编码效率。
注意到判定单元DE可以基于片段/图像/GOP/序列,而不是基于宏块,判定正交变换尺寸。并且,在从图像编码装置外部说明正交变换尺寸的情况下,判定单元DE可以使用此说明的尺寸作为正交变换尺寸Tsize。
运动补偿单元MC根据由运动估计单元ME估算的运动矢量读取参考块,从而从此参考块生成预测图像,并将此生成的预测图像输出到减法单元Sub。为每个块输出预测图像,其中该块具有从图5A~5G所示的运动补偿尺寸中选择的运动补偿尺寸。
减法单元Sub计算在图像信号Vin中的图像和对于每个具有从图5A~5G所示的运动补偿尺寸中选择的运动补偿尺寸的块的预测图像之间的差异,作为预测误差,并且将此计算的预测误差输出到正交变换单元T1。
正交变换单元T1对预测误差进行正交变换,从而将其转换为针对每个具有从判定单元DE输出的正交变换尺寸Tsize的块的频率系数,并且将该结果输出到量化单元Q。这里,参照图6A和6B,描述了在正交变换尺寸Tsize为第二尺寸(8×8像素)的情况下,所进行的正交变换。在图6A左侧所示的为16×16像素的亮度宏块。由于在内部图像编码的情况下,第二尺寸被指定为正交变换尺寸Tsize,因此正交变换单元T1基于8×8像素块进行正交变换。进一步地,如图6A右侧所示,正交变换单元T1综合四个经过正交变换的8×8像素块的四个DC分量,以生成2×2像素亮度DC块,然后对此亮度DC块进行2×2像素块正交变换。注意,可能会省略生成亮度DC块和进行2×2像素块正交变换。同时,由于在图像间编码的情况下,第二尺寸被指定为正交变换尺寸Tsize,因此正交变换单元T1基于8×8像素块进行正交变换。在此情况下,将不会进行生成亮度DC块和进行正交变换。
图6B左侧所示的为8×8像素色度宏块。一般地,对于图像信号而言,色度信号相对于亮度信号,在水平和垂直方向上都只有一半数量的像素。这样,在色度宏块中的像素数量为8×8像素。在内部图像编码的情况下,正交变换单元T1基于4×4像素块进行正交变换,此像素块是指定为正交变换尺寸Tsize的第二尺寸的尺寸的一半。然后,正交变换单元T1综合四个经过正交变换的4×4色度块的四个DC分量,以生成一个2×2像素色度DC块,然后基于此色度DC块进行2×2像素块正交变换。注意,可能会省略生成色度DC块和进行2×2像素块正交变换。同时,由于在图像间编码的情况下,正交变换单元T1基于4×4像素块进行正交变换,其中该像素块尺寸是被指定为正交变换尺寸Tsize的第二尺寸的尺寸一半。在此情况下,将不会进行生成色度DC块和进行2×2像素块正交变换。
如上所述,当正交变换尺寸Tsize指定第二尺寸时,在内部图像编码的情况下,正交变换单元T1对亮度块和色度块进行两步正交变换,而在图像间编码的情况下,进行单步正交变换。同时,当正交变换尺寸Tsize表示第一尺寸时,由于在第一尺寸和第二尺寸之间的差别是在块尺寸上的不同,所以正交变换单元T1进行如在第二尺寸情况下的正交变换,但是在内部图像编码和图像间编码的情况下都将进行单步编码。
量化单元Q1将从正交变换单元T1输入的4×4-或者8×8像素频率系数块量化,并且将量化的值Qcoef输入到可变长度编码单元VLC。由此,量化单元Q1根据由判定单元DE确定的加权矩阵Wmatrix对量化矩阵加权,并且使用此加权量化矩阵对该频率系数块进行量化。图7A和7B为说明加权矩阵的简图。当正交变换的尺寸为第一尺寸时,从判定单元DE输入的加权矩阵Wmatrix将为图7B所示的4×4像素加权矩阵W4mat,而当正交变换的尺寸为第二尺寸时,加权矩阵Wmatrix将为图7A所示的8×8像素加权矩阵W8mat。通过使用加权矩阵,在对正交变换的频率分量量化时,量化步骤的尺寸基于每个频率分量变化。众所周知,在MPEG-2中使用加权矩阵提高了编码效率,由于在本实施例中,在多个正交变换尺寸间进行切换,以此可以通过对每个正交变换尺寸采用不同的加权矩阵,进一步提高编码效率。在图7A中,W8i,j(“i”和“j”分别为0~7中的任意数字)表示将施加到八行中第“i”行和八列中第“j”列分量上的权重。在图7B中,W4i,j(“i”和“j”分别为0~3中的任意数字)表示将施加到四行中第“i”行和四列中第“j”列分量上的权重。
反量化单元IQ1对量化值Qcoef进行反量化,从而将它们转换为频率系数,并且将此频率系数输出到反正交变换单元IT1。换句话说,根据从判定单元DE输入的加权矩阵Wmatrix,反量化单元IQ1进行与量化单元Q1所进行的处理相反的处理。
反正交变换单元IT1对从反量化单元IQ1接收的频率系数块进行反频率变换,以将其变换为预测误差,并将此预测误差输出到加法单元Add。换句话说,针对每个具有从判定单元DE输入的正交变换尺寸Tsize的块,反正交变换单元IT1进行与正交变换单元T1进行的处理相反的处理。
针对每个具有与已由减法单元Sub在上面进行过处理的块相同运动补偿尺寸的块,加法单元Add将预测误差与从运动补偿单元MC输出的预测图像相加,并生成解码图像。
当表示此解码图像应该保存时开关SW变为ON,并且将该解码图像保存到图像存储器PicMem中。
同时,基于宏块接收图像信号Vin的运动估计单元ME,从存储在图像存储器PicMem中的解码图像中估算最靠近此输入图像信号Vin的图像区域,并确定表示此区域位置的运动矢量MV。对于每个利用进一步分割宏块获得的块进行估算运动矢量。当完成这一步之后,可以使用多于一幅图像作为参考图像。用于估算运动矢量的参考图像将由标识号(参考索引Index)表示。存储在图像存储器PicMem中的各幅图像的图像编号与参考索引相关联。
基于在上述步骤中探测的运动矢量和参考索引Index,运动补偿单元MC从存储在图像存储器PicMem中的解码图像中读取最佳图像作为预测图像。
可变长度编码单元VLC1对于每个量化值Qcoef,参考索引Index,以及运动矢量MV进行可变长度编码,以将它们作为编码流Str输出。在此过程中,可变长度编码单元VLC 1根据每个正交变换尺寸Tsize生成尺寸信息TsizeFlag,并对此尺寸信息TsizeFlag和加权矩阵Wmatrix进行编码。有两种类型的加权矩阵Wmatrix:用于8×8正交变换的加权矩阵W8mat和用于4×4正交变换的加权矩阵W4mat。
图8为流程图,示出了在根据本实施例的图像编码装置中进行的编码过程。判定单元DE基于每个宏块确定正交编码尺寸Tsize和加权矩阵Wmatrix(S10)。将基于此确定的正交变换尺寸Tsize和加权矩阵Wmatrix进行正交变换和量化。进一步地,对于每个预定的部分,即,下列部分中的某一个:序列,GOP,图像,片,以及宏块,可变长度编码单元VLC1按照使得表示Tsize的尺寸信息TsizeFlag被编入编码流Str的方式进行编码。这里,尺寸信息TsizeFlag为下列意义中的任意一种:(A)在预定部分中的所有正交变换尺寸为8×8像素;(B)在预先确定的部分中的所有正交变换尺寸为4×4像素;以及(C)在预先确定的部分中不知道所有正交变换尺寸为8×8像素还是4×4像素(即,4×4像素块和8×8像素块混用)。注意,并不需要将所有的尺寸信息TsizeFlag(A)~(C)相互区分开,因此可能只在例如(A)和(C)之间,(B)和(C)之间进行区分。进一步地,当不应该有4×4和8×8正交变换混用时,可能只在(A)和(B)之间进行区分。
如图9A所示,当基于每个GOP将尺寸信息TsizeFlag编码作为预定部分时,可变长度编码单元VLC1判断是否此部分内的所有的正交变换尺寸Tsize为第二尺寸(8×8像素)或者第一尺寸(4×4像素)(S11和S12)。
当判断的结果表明只有8×8像素块时,可变长度编码单元VLC1对表示GOP中所有的正交变换块尺寸都为8×8像素的尺寸信息TsizeFlag进行编码(S13),并且对用于8×8像素块的加权矩阵W8mat进行编码(S14)。图10B示出了在此情况下生成的编码流Str。
当判断的结果表明只有4×4像素块时,可变长度编码单元VLC1对表示GOP中所有的正交变换块尺寸都为4×4像素的尺寸信息TsizeFlag进行编码(S15),并且对用于4×4像素块的加权矩阵W4mat进行编码(S16)。图10C示出了在此情况下生成的编码流Str。
当判断的结果表明既不能将全部正交变换块归为8×8像素块,也不能全部归为4×4像素块时(即,混合使用它们),可变长度编码单元VLC1对表示GOP中所有的正交变换块尺寸不仅仅为4×4像素或者8×8像素的尺寸信息TsizeFlag进行编码(S17),并且对用于4×4像素块的加权矩阵W4mat和用于8×8像素块的加权矩阵W8mat进行编码(S18)。图10A示出了在此情况下生成的编码流Str。注意,为了通知解码装置每个宏块的正交变换尺寸Tsize为第一尺寸还是第二尺寸,可变长度编码单元VLC 1最好采用基于宏块编入正交变换尺寸Tsize的方式进行编码。
在上面的描述中,给出了在可变长度编码单元VLC1基于每个GOP对尺寸信息TsizeFlag进行编码的情况下的例子,但是可变长度编码单元VLC1可以基于每个片段对尺寸信息TsizeFlag进行编码,如图9B所示。在此情况下,将如图11A~11C所示对加权矩阵进行编码。
图11A示出了在预定部分内部混合第一尺寸和第二尺寸的情况下,编码流的结构。在此编码流的报头中,(在将要编码的当前图像之前)对表示上述两种正交变换尺寸混和的尺寸信息TsizeFlag进行编码,并且将8×8正交变换加权矩阵W8mat和4×4正交变换加权矩阵W4mat在尺寸信息TsizeFlag之后编码。注意,8×8正交变换加权矩阵W8mat和4×4正交变换加权矩阵W4mat不必按照此顺序,因此这两种类型的矩阵可以确定为按照相反的顺序排列。图11B示出了在预定部分内只使用第二尺寸进行正交变换的情况下,编码流的结构。在此编码流的报头中,(在将要编码的当前图像之前)对表示8×8正交变换尺寸的尺寸信息TsizeFlag进行编码,并且将8×8正交变换加权矩阵W8mat在尺寸信息TsizeFlag之后编码。图11C示出了在预定部分内部只使用第一尺寸进行正交变换的情况下,编码流的结构。在此编码流的报头中,(在将要编码的当前图像之前)对表示4×4正交变换尺寸的尺寸信息TsizeFlag进行编码,并且将4×4正交变换加权矩阵W4mat在尺寸信息TsizeFlag之后编码。
进一步地,如图9C所示,可变长度编码单元VLC1可以基于宏块对尺寸信息TsizeFlag进行编码。然而,在图9C的情况下,可以对正交变换尺寸Tsize本身而不是尺寸信息TsizeFlag进行编码。上述的图9A~9C,分别表示在何处插入尺寸信息TsizeFlag。在对于构成大量图像的每个流或者序列,将正交变换尺寸转换到另一尺寸的情况下,最好将尺寸信息TsizeFlag插入到每个流或者序列的顶部,如图9A所示。在整个流或者序列中尺寸和图像质量变化不大的情况下,这是有效的。同时,在图像内容按照一幅一幅图像改变,并且因此对于每个图像需要将正交变换尺寸转换到另一尺寸的情况下,最好将尺寸信息TsizeFlag置于每幅图像的顶部,如图9B所示。进一步地,在宏块的基础上需要将正交变换尺寸转换到另一尺寸的情况下,最好将尺寸信息TsizeFlag置于每个宏块的顶部,如图9C所示。
<变化>
(1)图12为流程图,示出了图8所示的图像编码过程的变化的例子。此附图示出了当在上述的尺寸信息TsizeFlag(B)和(C)之间进行区分的情况下,进行的编码处理。与图8中显示的步骤相同的步骤分配了相同的标记。利用此结构,尺寸信息TsizeFlag说明了上述在预定部分中是否所有的正交变换尺寸都为4×4像素,并且将用1比特表示这种说明。
(2)最好为每个加权矩阵W8mat和加权矩阵W4mat设置最优值。然而,当判定单元DE基于每个流或者每个图像确定加权矩阵Wmatrix时,可以从加权矩阵W4mat导出加权矩阵W8mat,反之亦然。
图13为流程图,示出了在从加权矩阵W8mat导出加权矩阵W4mat的情况下,进行的图像编码过程。相对图8所示的流程图,该流程图新加入了步骤19。为与图8中步骤相同的步骤分配了相同的标记,并省略了对其的描述。这里,只描述了图8和9的不同点。在步骤S19中,可变长度编码单元VLC1按照下列方式从8×8加权矩阵W8mat导出4×4加权矩阵W4mat,并对导出的加权矩阵W4mat进行编码:
W4i,j=K*W82i,2j(“i”和“j”分别为0~3中任意一个,“K”为常数)
注意,正交变换单元T1按照类似的方式导出加权矩阵W4mat,以使用它进行正交变换。
还要注意,可变长度编码单元VLC1可以不对导出的4×4加权矩阵W4mat进行编码。
并且,甚至当在这些类型的编码中已经按照相同的正交变换尺寸进行处理后,量化单元Q1和反量化单元IQ1也可以对内部图像编码和图像间编码使用不同的加权矩阵。进一步地,量化单元Q1和反量化单元IQ1可以对亮度信号和色度信号使用不同的加权矩阵。
同样,量化单元Q1和反量化单元IQ1可以从大量的加权矩阵中选择用于量化的加权矩阵。
进一步地,量化单元Q1和反量化单元IQ1可以使用加权矩阵只对较大正交变换尺寸(例如第二尺寸)的量化矩阵进行加权,而不使用加权矩阵对另一尺寸(第一尺寸)的量化矩阵进行加权,其中使用加权矩阵对较大正交变换尺寸(例如第二尺寸)特别有效。
<图像解码装置>
图14为框图,示出了根据本发明的本实施例的解码工具的构成。
在此附图中,为与图4中所示图像编码装置中显示的元件相同的元件分配了相同的标记,并因此省略了对它们的描述。
由可变长度编码单元VLD1对编码流Str进行解码。此解码的结果包括加权矩阵Wmatrix和正交变换尺寸Tsize。反量化单元IQ1使用加权矩阵Wmatrix对量化矩阵进行加权,并且使用该加权的量化矩阵进行反量化。反正交变换单元IT1根据确定的正交变换尺寸Tsize进行反正交变换。其他的操作与图3的框图中描述操作相同,图3示出了实现现有图像解码方法的图像解码装置。
图15为流程图,示出了由本实施例的图像解码装置进行的可变长度解码过程。如此附图中所示,可变长度解码单元VLD1对合并在编码流Str中的尺寸信息TsizeFlag进行解码(S30),并判断此尺寸信息TsizeFlag是否表示只存在具有第二尺寸(8×8像素)的块(S31)。当判断只存在具有第二尺寸的块的时候,可变长度解码单元VLD1对加权矩阵W8mat进行解码(S33)。同时,当此尺寸信息TsizeFlag不表示只应用了8×8正交变换,并且当此尺寸信息TsizeFlag表示只存在具有第一尺寸(4×4像素)的块的时候(S32),可变长度解码单元VLD1对4×4加权矩阵W4mat进行解码(S34)。进一步地,当尺寸信息TsizeFlag不表示只应用了4×4正交变换时,可变长度解码单元VLD1对8×8加权矩阵W8mat和4×4加权矩阵W4mat进行解码(S35)。然后根据此解码的结果进行反量化和反正交变换。
注意,当没有加权矩阵W4mat在编码流Str中编码时,图像解码装置可以从加权矩阵W8mat导出加权矩阵W4mat。图16为流程图,示出了在从加权矩阵W8mat导出加权矩阵W4mat的情况下,进行的图像解码过程。相对图15,此流程图新增加了步骤S36。在步骤S36中,按照与图13中所示的步骤S19相同的方式,从加权矩阵W8mat导出加权矩阵W4mat。
如上所述,根据本实施例的图像解码装置能够正确地对由图4所示的图像编码装置编码的编码流Str进行解码。注意,上述正交变换尺寸Tsize为可以从可变长度解码单元VLD1获得。然而,在正交变换尺寸Tsize被转换为依赖于上述的运动补偿块尺寸的另一尺寸的情况下,可以基于此运动补偿块尺寸导出正交变换尺寸Tsize。
进一步地,如果在上述实施例中用于实现图像编码方法和图像解码方法的程序被记录在例如软盘的记录介质上的时候,那么可以在独立的计算机系统中方便地进行上述实施例中给出的过程。
图17A,17B,和17C为简图,说明了存储用于实现根据上述实施例的图像编码方法和图像解码方法的程序的记录介质。
图17B示出了软盘外部视图的顶视图,它的剖面示意图,以及软盘本身,而图17A说明了软盘作为记录介质本身的物理形式的例子。软盘FD容纳在外壳F中,在软盘FD的表面上从外围开始,沿着径向形成大量的同心磁道Tr,每条磁道在角度方向上被分为16个扇区Se。因此,在存储上述程序的软盘中,作为此程序的图像编码方法和图像解码方法被记录在软盘FD上分配给它的区域上。
同时图17C示出了用于在软盘FD上记录和从上面读取程序的结构。当要在软盘FD上记录实现上述图像编码方法和图像解码方法的程序的时候,将通过计算机系统Cs,利用软盘驱动器FDD写入此程序。同时,当要利用软盘FD上的程序在计算机系统Cs中建立图像编码方法和图像解码方法的时候,将通过软盘驱动器FDD从软盘FD中读取该程序,然后发送至计算机系统Cs。
上面给出的描述基于记录介质为软盘的假设,但是也可能使用光盘。此外,记录介质不局限于此,可以使用如IC卡,ROM盒式磁带之类的任何其他能够记录程序的介质。
下面描述了在上述实施例中所示的图像编码方法和图像解码方法的应用实例,以及使用它们的系统。
图18为框图,示出了实现内容分配服务的内容提供系统ex100的整体结构。提供通信服务的区域被分成所需尺寸的小区,基站ex107~ex110位于各小区内,其中基站为固定无线站。
在此内容提供系统ex100中,如计算机ex111,PDA(个人数字助理)ex112,摄像机ex113,手机ex114,以及带摄像机的手机ex115这样的设备通过互联网服务提供商ex102,电话网络ex104,以及基站ex107~ex110,分别连接到互联网ex101上。
然而,内容提供系统ex100不局限于如图18所示的组合,并且可以用它们中任意组合相连。同样,每个设备可以直接连接电话网络ex104,而不通过固定无线基站ex107~ex110。
摄像机ex113是诸如数字视频摄像机此类能够拍摄运动图像的设备。手机可以为PDC(个人数字通讯)系统,CDMA(码分多址)系统,W-CDMA(宽带码分多址)系统或者GSM(全球数字移动通讯系统)系统,PHS(个人手提电话)系统等的手机,并且可以是它们当中的任意一种。
进一步地,流服务器ex103通过基站ex109以及电话网络ex104连接到摄像机ex113,能够基于用户利用使用摄像机ex113传输的编码数据,实现实时分配等功能。摄像机ex113或者服务器等能够进行数据发送处理的设备可以对拍摄的数据进行编码。同样,利用照相机ex116拍摄的图像数据可以通过计算机ex111发送到流服务器ex103,照相机ex116是诸如数字相机之类的能够拍摄静态和运动图像的设备。在这种情况下,照相机ex116或者计算机ex111可以对运动图像数据进行编码。在这种情况下,包含在计算机ex111或者照相机ex116中的LSI ex117进行编码处理。注意用于编码和解码的软件可以一起存储在某种存储介质中(如CD-ROM,软盘以及硬盘),此存储介质是能够被计算机ex111等读取的记录介质。进一步地,装备有摄像机的手机ex115可以发送运动图像数据。利用包含在手机ex115中的LSI对此运动图像数据进行编码。
在此内容提供系统ex100中,按照与上述实施例相同的方式对已经由用户利用摄像机ex113、照相机ex116等拍摄的内容(例如,音乐现场视频)进行编码,并发送到流服务器ex103,并且流服务器ex103按照客户机的请求向它们进行内容数据的流的分配。这里的客户机包括计算机ex111,PDA ex112,摄像机ex113,手机ex114等能够对上述编码数据进行解码的设备。具有上述结构的内容提供系统ex100为能够使客户机接收并再现编码数据,并通过允许客户机实时接收,解码以及再现数据,实现个人广播的系统。
上述实施例中提出的图像编码装置和图像解码装置可以用于在组成上述系统中的每个设备中进行编码和解码。
给出了对手机的说明作为例子。
图19为简图,示出了采用上面实施例中所述图像编码方法和图像解码方法的手机ex115。手机ex115具有:用于向/从基站ex110发射/接收无线电波的天线ex201,能够拍摄视频和静止图像的摄像单元ex203,如CCD照相机,用于显示数据的显示单元ex202,如液晶显示器,其通过对由摄像单元ex203拍摄的视频等和通过天线ex201接收的视频等进行解码获得此数据,装有一组操作按键ex204的主体,用于输出声音的声音输出单元ex208,如扬声器,用于输入声音的声音输入单元ex205,如麦克风,用于存储编码数据和解码数据的记录介质ex207,数据为诸如由照相机拍摄的运动图像和静态图像数据,接收的电子邮件数据和运动图像数据或者静态图像数据,以及用于使记录介质ex207能够连接到手机ex115的插槽单元ex206。记录介质ex207采用闪存器件,这是一种EEPROM(电可擦除与可编程只读存储器),为可电擦除以及重写的非易失性的存储器,装在塑料盒中,如SD卡。
下一步,参照图20,对手机ex115进行了描述。在手机ex115中,主控单元ex311主要用于控制显示单元ex202,且具有操作按键ex204的主体的每个单元的配置方式是:其中使得电源电路单元ex310,操作输入控制单元ex304,图像编码单元ex312,摄像机接口单元ex303,LCD(液晶显示屏)控制单元ex302,图像解码单元ex309,多路复用/解复用单元ex308,记录/再现单元ex307,调制解调器电路单元ex306,以及声音处理单元ex305通过同步总线ex313互连。
当用户操作打开通话结束(call-end)按键或者电源按键时,电源电路单元ex310从电池块向每个单元供电,并且激活装有摄像机的数字手机ex115,使其处于准备状态。
在手机ex115中,在主控单元ex311控制下,声音处理单元ex305将利用声音输入单元ex205在通话模式下接收的语音信号转化为数字语音数据,主控单元ex311包括CPU,ROM,RAM等,调制解调器电路单元ex306对其进行扩频处理,发射/接收电路单元ex301对该数据进行数模转换处理与频率变换处理,以通过天线ex201发射结果。同样,在手机ex115中,在通话模式下由天线ex201接收的数据被放大并进行频率变换处理与模数转换处理,调制解调器电路单元ex306对结果进行逆扩频处理,声音处理单元ex305将其转化为模拟语音数据,以通过声音输出单元ex208将其输出。
进一步地,当在数据通信模式中发送电子邮件时,通过主体上操作按键ex204输入的电子邮件的文本数据通过操作输入控制单元ex304送到主控单元ex311。在主控单元ex311中,经过调制解调器电路单元ex306对该文本数据进行扩频处理,并且发射/接收电路单元ex301对其进行数模转换处理和频率变换处理,处理的结果通过天线ex201发射至基站ex110。
当在数据通信模式中发射图像数据时,由摄像单元ex203拍摄的图像数据通过摄像机接口单元ex303提供给图像编码单元ex312。当没有发射图像数据时,也可以通过摄像机接口单元ex303和LCD控制单元ex302在显示单元ex202上直接显示由摄像单元ex203拍摄的此图像数据。
包括根据本发明的图像编码装置的图像编码单元ex312,使用上述实施例中给出的图像编码装置所采用的编码方法,对由摄像单元ex203提供的图像数据进行压缩编码,从而将其转化为编码图像数据,并将其发送至多路复用/解复用单元ex308。在这时候,当摄像单元ex203进行拍摄的时候,手机ex115通过声音处理单元ex305,以数字语音数据的形式将利用声音输入单元ex205接收的语音发送到多路复用/解复用单元ex308。
多路复用/解复用单元ex308使用预定的方法,对由图像编码单元ex312提供的编码图像数据和由声音处理单元ex305提供的语音数据进行复用,调制解调器电路单元ex306对得到的复用数据进行扩频处理,并且发射/接收电路单元ex301对结果进行数模转换处理和频率变换处理,以通过天线ex201发射经过处理的数据。
在数据通信模式中,当接收与网页等链接的运动图像文件数据时,调制解调器电路单元ex306对通过天线ex201从基站ex110接收的接收信号进行逆扩频处理,并将得到的复用数据发送至多路复用/解复用单元ex308。
为了对通过天线ex201接收的复用数据进行解码,多路复用/解复用单元ex308将复用数据分为图像数据的编码比特流和语音数据的编码比特流,并且通过同步总线ex313将此编码图像数据提供给图像解码单元ex309,将语音数据提供给声音处理单元ex305。
下面,包括根据本发明的图像解码装置的图像解码单元ex309,使用与上述实施例所示的编码方法对应的解码方法,对图像数据的编码比特流数据进行解码,以生成用于再现的运动图像数据,并通过LCD控制单元ex302将此数据提供给显示单元ex202。从而,比如说,显示包括在与网页链接的运动图像文件中的运动图像数据。同时,声音处理单元ex305将语音数据转换为模拟语音信号,然后将其提供给声音输出单元ex208。从而,比如说,再现包含在与网页链接的运动图像文件中的语音数据。
注意到上述系统不是唯一的例子,因此,在卫星/地面数字广播已经成为最近谈论的话题的背景下,至少上述实施例中的图像编码装置或者图像解码装置可以被如图21所示的数字广播系统采用。更具体地,在广播站ex409中,利用无线电波向用于通信或者广播的卫星ex410发射视频信息的编码比特流。接收到它之后,广播卫星ex410发射无线电波用于广播,装备有卫星广播接收设备的机房的天线ex406接收此无线电波,诸如电视(接收机)ex401和机顶盒(STP)ex407之类的装置对此编码比特流进行解码并再现该解码数据。上述实施例中所述的图像解码装置可以应用在再现装置ex403中,用于对记录在存储介质ex402上的编码比特流进行读取和解码,存储介质ex402为如CD和DVD的记录介质。在此情况下,在监视器ex404上显示再现的视频信号。也可以设想,该图像解码装置应用在与用于有线电视的电缆ex405或者用于卫星/地面广播的天线ex406相连的机顶盒ex407中,从而在电视监视器ex408上再现它。在此情况下,电视机而不是机顶盒可能采用该图像解码装置。或者,装有天线ex411的汽车ex412可以从卫星ex410,基站ex107等接收信号,以在显示器,比如装在汽车ex412上的车载导航系统ex413上再现运动图像。
进一步地,也可以利用上述实施例给出的图像编码装置,对图像信号进行编码并在记录介质上记录结果。例子包括用于将图像信号记录在DVD光盘ex421上的DVD记录器,以及记录器ex420,例如用于将图像信号记录在硬盘上的硬盘记录器。并且,图像信号还可以记录在SD卡ex422中。如记录器ex420装备有上述实施例中给出的图像解码装置,就可以再现记录在DVD光盘ex421或者SD卡ex422中,并将其显示在监视器ex408上。
可以设想,在图20所示的配置之外,将没有摄像单元ex203和摄像机接口单元ex303的配置作为车载导航系统ex413的配置。同样也适用于计算机ex111,电视(接收机)ex401等。
至于诸如手机ex114的终端,具有编码器和解码器的发射/接收终端,以及只具有编码器的发射终端和只具有解码器的接收终端都可能成为实施的形式。
如上所述,可以将上述实施例中给出的图像编码方法和图像解码方法应用到上述的设备与系统中的任意一个中。因此,可以获得上述实施例中描述的效果。
通过这样的发明描述,显然可以以多种方法改变本发明的实施例。这样的改变不被视为背离本发明的精神和范围,并且对于本领域的技术人员,所有这样的修改将显而易见并且包含在下述的权利要求的范围内。