CN100417229C

CN100417229C - 编码装置和编码方法

Info

Publication number: CN100417229C
Application number: CNB2005100833232A
Authority: CN
Inventors: 佐藤数史; 竺逸雯; Y·亚加萨基
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-07-07
Filing date: 2005-07-07
Publication date: 2008-09-03
Anticipated expiration: 2025-07-07
Also published as: US20060013299A1; JP2006025077A; CN1719905A; JP4247680B2

Abstract

公开了一种编码装置、编码方法、编码方法程序以及记录编码方法程序的记录媒体。本发明适用于利用卫星广播、有线电视、因特网、蜂窝电话等传送电影以及在诸如光盘、磁光盘、闪速存储器等记录媒体上记录电影。以这种方式，编码装置还可构造成用作解码装置和图像转换装置。本发明的一个实施例可简化这种编码装置的整体构造。本发明的一个实施例在编码过程之前检测帧内预测和帧间预测的最佳预测模式。该实施例根据所检测的最佳预测模式来检测表明差异数据大小的变量IntraSAD、InterSAD和(X)。该实施例根据变量IntraSAD、InterSAD和(X)来确定图像的目标代码量。

Description

编码装置和编码方法

相关申请的交叉引用

本发明包含与2004年7月7日提交给日本专利局的日本专利申请JP 2004-200255有关的主题，通过引用将其完整内容结合于本文中。

技术领域

本发明涉及编码装置、编码方法、编码方法程序以及记录编码方法程序的记录媒体。本发明适用于例如利用卫星广播、有线电视、因特网、蜂窝电话等传送电影，以及在诸如光盘、磁光盘、闪速存储器等记录媒体上记录电影。编码装置可在编码过程之前检测帧内预测和帧间预测的最佳预测模式。编码装置可根据所检测的最佳预测模式来检测表明差异数据大小的变量。利用此变量，编码装置可设置各图像的目标代码量。以这种方式，编码装置还可被构造为用作解码装置以及图像转换装置。本发明的一个实施例可简化这种编码装置的整体构造。

背景技术

近来，在广播电台、家庭等处越来越多地使用通过有效地利用图像数据冗余度来传送和记录电影而有效地传送和存储图像数据的装置。例如，这类装置适合特定系统、如MPEG(活动图像专家组)。该装置被构造成利用正交变换、如离散余弦变换和运动补偿来压缩图像数据。

作为这些系统其中之一，MPEG2被定义为通用图像编码系统。MPEG2系统被定义成适合隔行扫描系统和运行扫描系统，并且适合标准分辨率图像和高分辨率图像。目前，MPEG2系统广泛用于从专业人员到消费者的各种各样应用。具体来说，例如，MPEG2将基于隔行扫描的标准分辨率的720×480像素的图像数据压缩到4至8Mbps的比特率。MPEG2将基于隔行扫描的高分辨率的1920×1088像素的图像数据压缩到18至22 Mbps的比特率。MPEG2可确保高图像质量以及高压缩率。

但是，MPEG2是面向广播的高质量编码系统，并且不适合具有比MPEG1更少的代码量的高压缩率的编码系统。随着近年来广泛使用便携终端，预计越来越需要具有比MPEG1更少的代码量的高压缩率的编码系统。根据这些情况，基于MPEG4的编码标准在1998年12月被ISO/IEC(国际标准化组织/国际电工委员会)14496-2批准为国际标准。

这种系统促进了最初针对远程会议的图像编码的H26L(ITU-TQ6/16 VCEG)的标准化。该系统导致更多增加的计算量，但确保比MPEG2和MPEG4更高的编码效率。作为MPEG4活动的一部分，基于H26L结合了各种功能。提出一种编码系统来确保高得多的编码效率。这种系统的标准化被推广为增强压缩视频编码的联合模型。在2003年3月，这些系统被命名为H264和MPEG-4 Part10(AVC：高级视频编码)，并被确立为国际标准。

图3是说明基于AVC的编码装置的框图。编码装置1从多个帧内预测模式和帧间预测模式中选择最佳预测模式。编码装置1根据预测模式从视频数据中减去预测值，从而产生差异数据。编码装置1按照正交变换、量化和变长编码来处理差异数据。以这种方式，视频数据经过帧内编码和帧间编码。

在编码装置1中，模/数转换器(A/D)2对视频信号S1进行模数转换，从而输出视频数据D1。图像重排缓冲器3接收从模/数转换器2输出的视频数据D1。图像重排缓冲器3根据与编码装置1的编码过程有关的GOP(图像组)结构重新排列视频数据D1的各帧以便输出。

减法器4接收从图像重排缓冲器3输出的视频数据D1。在帧内编码过程中，减法器4产生并输出视频数据D1与从帧内预测器5产生的预测值之间的差异数据D2。在帧间编码过程中，减法器4产生并输出视频数据D1与从运动预测器/补偿器6产生的预测值之间的差异数据D2。正交变换器7接收来自减法器4的输出数据D2。正交变换器7执行正交变换过程，诸如离散余弦变换、Karhunen-Loeve变换等。正交变换器7输出变换系数数据D3作为过程结果。

量化器8在速率控制器9的速率控制下使用量化标度，以及量化并输出变换系数数据D3。无损编码装置10根据无损编码过程、诸如变长编码、算术编码等处理来自量化器8的输出数据，并输出处理后的数据。此外，无损编码装置10还从帧内预测器5和运动预测器/补偿器6获取有关与帧内编码关联的帧内预测模式的信息以及有关与帧间编码关联的运动矢量的信息。无损编码装置10把这些信息分配给输出数据D4中的首标信息，并输出它。

累积缓冲器11积累来自无损编码装置10的输出数据D4，并以后续传输通路的传输速率输出所述输出数据D4。速率控制器9监测累积缓冲器11的未使用容量，以便监测因编码过程所产生的代码量。根据监测结果，速率控制器9改变量化器8中的量化标度，以便控制从编码装置1所产生的代码量。

逆量化器13对来自量化器8的输出数据进行逆量化，从而再现量化器8的输入数据。逆正交变换器14根据逆正交变换处理来自逆量化器13的输出数据，从而再现正交变换器7的输入数据。解块滤波器15从来自逆正交变换器14的输出数据中消除块失真以输出数据。帧内预测器5或运动预测器/补偿器6产生预测值。在适当的情况下，帧存储器16把这个预测值加至来自解块滤波器15的输出数据，以便记录此数据作为参考图像信息。

在帧间编码过程中，运动预测器/补偿器6按照帧存储器16中的参考图像信息根据预测帧检测从图像重排缓冲器3输出的视频数据的运动矢量。利用所检测的运动矢量，运动预测器/补偿器6执行帧存储器16中的参考图像信息的运动补偿，以便产生预测图像信息。运动预测器/补偿器6把基于预测图像信息的预测值输出到减法器4。

在帧内编码过程中，帧内预测器5根据在帧存储器16中积累的参考图像信息来确定帧内预测模式。根据确定结果，帧内预测器5从参考图像信息中产生预测图像信息的预测值，并把预测值输出到减法器4。

以这种方式，编码系统分别在帧间编码和帧内编码过程中，根据与帧间预测关联的运动补偿产生差异数据D2，以及根据帧内预测产生差异数据D2。系统被构造成按照正交变换、量化和变长编码来处理这些差异数据D2并传送它们。

图4是框图，说明在上述编码过程之后对编码数据D4解码的解码装置。在解码装置20中，累积缓冲器21暂时存储经由传输通路输入的编码数据D4。无损解码装置22按照变长解码、算术解码等对来自累积缓冲器21的输出数据解码。以这种方式，无损解码装置22再现编码装置1中的无损编码装置10的输入数据。当输出数据经过帧内编码时，无损解码装置22对首标中存储的与帧内预测模式有关的信息解码，以便把数据传送给帧内预测器23。当输出数据经过帧间编码时，无损解码装置22对首标中存储的与运动矢量有关的信息解码，以便把数据传送给预测器/补偿器24。

逆量化器25对来自无损解码装置22的输出数据进行逆量化。以这种方式，逆量化器25再现输入到编码装置1的量化器8的变换系数数据D3。逆正交变换器26接收从逆量化器25输出的变换系数数据，并执行四元逆正交变换过程。以这种方式，逆正交变换器26再现输入到编码装置1的正交变换器7的差异数据D2。

加法器27接收从逆正交变换器26输出的差异数据D2。在帧内编码过程中，加法器27相加差异数据D2和基于从帧内预测器23产生的预测图像的预测值，并输出结果。在帧间编码过程中，加法器27相加差异数据D2和基于从运动预测器/补偿器24产生的预测图像的预测值，并输出结果。以这种方式，加法器27再现编码装置1的减法器4的输入数据。

解块滤波器28从来自加法器27的输出数据中消除块失真并输出数据。图像重排缓冲器29根据GOP结构重新排列和输出从解块滤波器28输出的视频数据帧。数/模(D/A)转换器30对来自图像重排缓冲器29的输出数据进行数/模转换，并输出数据。

帧存储器31记录并保存来自解块滤波器28的输出数据作为参考图像信息。在帧间编码过程中，运动预测器/补偿器24根据从无损解码装置22通知的运动矢量信息来执行对帧存储器31中所保存的参考图像信息的运动补偿。运动预测器/补偿器24产生基于预测图像的预测值，并把预测值输出给加法器27。在帧内编码过程中，帧内预测器23根据从无损解码装置22通知的帧内预测模式中的预测图像、从帧存储器31所保存的参考图像信息中产生预测值。帧内预测器23把预测值输出给加法器27。

按照上述编码过程的帧内编码提供帧内4×4预测模式和帧内16×16预测模式。AVC被构造成执行各由4×4像素组成的块单元中的差异数据D2的正交变换。帧内4×4预测模式产生与用于正交变换过程的块单元中的帧内预测关联的预测值。另一方面，16×16预测模式产生与用于正交变换过程的多个块单元中的帧内预测关联的预测值。多个块由水平的两个块和垂直的两个块组成。

如图5所示，帧内4×4预测模式提供由4×4像素a至p组成的块来产生预测值。13个相邻像素A至M的部分被用作预测像素来产生预测值。预测像素用来产生预测值。13个像素A至M按照以下方式形成。四个像素A至D在垂直方向与块的扫描起始边相邻。四个像素E至H与在四个像素A至D的扫描终止边的像素D邻接。四个像素I至L在水平方向与块的扫描起始边相邻。像素M位于四个水平相邻像素I至L的扫描起始边处的像素I上方。

帧内4×4预测模式按照用于产生预测值的13个像素A至M与4×4像素a至p之间的相对关系来定义预测模式0至8，如图6和图7所示。如图6所示，例如，模式0和1利用与用于产生预测值的13个像素A至M垂直和水平相邻的像素A至D和I至L来产生预测值。

更明确地说，如图8(A)中的箭头所示，模式0利用垂直相邻像素A至D来产生预测值。在这个模式中，预测像素被分配给4×4像素a至p中的第一列垂直邻接像素a、e、i和m之上的像素A来产生预测值。此外，预测像素被分配给第二列像素b、f、j和n之上的像素B。预测像素分别被分配给第三列像素c、g、k和o以及第四列像素d、h、l和p之上的像素C和D。预测像素A至D的像素值被定义为像素a至p的预测值。模式0仅当预测像素A至D在此模式中有意义时才生效。

如图8(B)所示，模式1利用水平相邻像素I至L来产生预测值。在这个模式中，预测像素被分配给4×4像素a至p中的第一行水平邻接像素a至d的左侧的像素I来产生预测值。预测像素被分配给第二行水平邻接像素e至h的左侧的像素J。预测像素分别被分配给第三行像素i至k以及第四行像素m至p左侧的像素K和L。预测像素I至L的像素值被定义为像素a至p的预测值。模式1仅当预测像素I至L在此模式中有意义时才生效。

如图8(C)所示，模式2利用与该块垂直和水平相邻的13个像素A至M中的像素A至D和I至L来产生预测值。当像素A至D和I至L都有意义时，下式可用来产生像素a至p的预测值。

[式1]

(A+B+C+D+I+J+K+L+4)＞＞3

在模式2中，当像素A至D都无意义时，式(2)用来产生预测值。当像素I至L都无意义时，式(3)用来产生预测值。当像素A至D和I至L都无意义时，预测值被设置为128。

[式2]

(I+J+K+L+2)＞＞2

[式3]

(A+B+C+D+2)＞＞2

如图8(D)所示，模式3利用13个像素A至M中的水平邻接像素A至H来产生预测值。模式3仅当像素A至H中的像素A至D和I至M都有意义时才生效。下式用来产生像素a至p的预测值。

[式4]

a ：(A+2B+C+2)＞＞2

b，e ：(B+2C+D+2)＞＞2

c，f，i ：(C+2D+E+2)＞＞2

d，g，j，m ：(D+2E+F+2)＞＞2

h，k，n ：(E+2F+G+2)＞＞2

l，o ：(F+2G+H+2)＞＞2

p ：(G+3H+2)＞＞2

如图8(E)所示，模式4利用13个像素A至M中与4×4像素块a至p相邻的像素A至D和I至M来产生预测值。模式4仅当像素A至D和I至M都有意义时才生效。下式用来产生像素a至p的预测值。

[式5]

m ：(J+2K+L+2)＞＞2

i，n ：(I+2J+K+2)＞＞2

a，j，o ：(M+2I+J+2)＞＞2

a，f，k，p ：(A+2M+I+2)＞＞2

b，g，l ：(M+2A+B+2)＞＞2

c，h ：(A+2B+C+2)＞＞2

d ：(B+2C+D+2)＞＞2

如图8(F)所示，模式5与模式4相似，利用13个像素A至M中与4×4像素块a至p相邻的像素A至D和I至M来产生预测值。模式5仅当像素A至D和I至M都有意义时才生效。下式用来产生像素a至p的预测值。

[式6]

a，j ：(M+A+1)＞＞1

b，k ：(A+B+1)＞＞1

c，l ：(B+C+1)＞＞1

d ：(C+D+1)＞＞1

e，n ：(I+2M+A+2)＞＞2

f，o ：(M+2A+B+2)＞＞2

g，p ：(A+2B+C+2)＞＞2

h ：(B+2C+D+2)＞＞2

i ：(M+2I+J+2)＞＞2

m ：(I+2J+K+2)＞＞2

如图8(G)所示，模式6与模式4和模式5相似，利用13个像素A至M中与4×4像素块a至p相邻的像素A至D和I至M来产生预测值。模式6仅当像素A至D和I至M都有意义时才生效。下式用来产生像素a至p的预测值。

[式7]

a，g ：(M+I+1)＞＞1

b，h ：(I+2M+A+2)＞＞2

c ：(M+2A+B+2)＞＞2

d ：(A+2B+C+2)＞＞2

e，k ：(I+J+1)＞＞1

f，l ：(M+2I+J+2)＞＞2

i，o ：(J+K+1)＞＞1

j，p ：(I+2J+K+2)＞＞2

m ：(K+L+1)＞＞1

n ：(J+2K+L+2)＞＞2

如图8(H)所示，模式7利用与4×4像素块a至p顶部相邻的四个像素A至D以及四个像素A至D之后的三个像素E至G来产生预测值。模式7仅当像素A至D和I至M都有意义时才生效。下式用来产生像素a至p的预测值。

[式8]

a ：(A+B+1)＞＞1

b，i ：(B+C+1)＞＞1

c，i ：(C+D+1)＞＞1

d，k ：(D+E+1)＞＞1

f ：(E+F+1)＞＞1

e ：(A+2B+C+2)＞＞2

f，m ：(B+2C+D+2)＞＞2

g，n ：(C+2D+E+2)＞＞2

h，o ：(D+2E+F+2)＞＞2

p ：(E+2F+G+2)＞＞2

如图8(I)所示，模式8利用13个像素A至M中与4×4像素块的左侧相邻的四个像素I至L来产生预测值。模式8仅当像素A至D和I至M都有意义时才生效。下式用来产生像素a至p的预测值。

[式9]

a ：(I+J+1)＞＞1

b ：(I+2J+K+2)＞＞2

c，o ：(J+K+1)＞＞1

d，f ：(J+2K+L+2)＞＞2

g，i ：(K+L+1)＞＞1

h，j ：(K+3L+2)＞＞2

k，l，m，n，o，p ：L

在帧内16×16预测模式中，如图9所示，块B由16×16像素P(0，15)至P(15，15)组成以产生预测值。对于组成该块的像素P(0，15)至P(15，15)以及与宏块MB上方和左侧相邻的像素P(0，-1)至P(15，-1)和P(-1，0)至P(-1，15)定义预测像素。这些预测像素用来产生预测值。

如图10所示，帧内16×16预测模式定义预测模式0至3。在这些模式之中，模式0仅当与宏块MB顶部相邻的像素P(0，-1)至P(15，-1)(假定x或y在P(x，-1)中为-1至15)有意义时才生效。下式用来产生组成块B的像素P(0，15)至P(15，15)的预测值。如图11(A)所示，与块B相邻的像素P(0，-1)至P(15，-1)的像素值用来产生块B的垂直方向上的邻接像素的预测值。

[式10]

Pred(x，y)＝P(x，-1)；x，y＝0..15

模式1仅当与块B的左侧相邻的像素P(-1，0)至P(-1，15)(假定x或y在P(-1，y)中为-1至15)有意义时才生效。下式用来产生组成块B的像素P(0，15)至P(15，15)的预测值。如图11(B)所示，与块B相邻的像素P(-1，0)至P(-1，15)的像素值用来产生块B的水平方向上的邻接像素的预测值。

[式11]

Pred(x，y)＝P(-1，y)；x，y＝0..15

模式2仅当与块B顶部和左侧相邻的像素P(0，-1)至P(15，-1)和P(-1，0)至P(-1，15)都有意义时才生效。下式用来查找预测值。如图11(C)所示，像素P(0，-1)至P(15，-1)和P(-1，0)至P(-1，15)的像素值的平均值用来产生组成块B的像素的预测值。

[式12]

Pred (x, y) = [Σ_{x^{'} = 0}^{15} P (x^{'}, - 1) + Σ_{y^{'} = 0}^{15} P (- 1, y^{'}) + 16] > > 5

其中x，y＝0..15

在模式2中，可能存在以下情况：在与块B顶部和左侧相邻的像素P(0，-1)至P(15，-1)和P(-1，0)至P(-1，15)之中，像素P(-1，0)至P(-1，15)无意义。在这种情况下，式(13)用于根据在有效侧的相邻像素的平均值来产生像素的预测值。当与左侧相邻的像素P(-1，0)至P(-1，15)无意义时，使用式(14)。同样在这种情况下，在有效侧的相邻像素的平均值还用来产生组成块B的像素的预测值。当与块B顶部和左侧相邻的像素P(0，-1)至P(15，-1)和P(-1，0)至P(-1，15)中没有一个有意义时，预测值设置为128。

[式13]

Pred (x, y) = [Σ_{y^{'} = 0}^{15} P (- 1, y^{'}) + 8] > > 4

其中x，y＝0..15

[式14]

Pred (x, y) = [Σ_{x^{'} = 0}^{15} P (x^{'}, - 1) + 8] > > 4

其中x，y＝0..15

模式3仅当与块B顶部和左侧相邻的像素P(0，-1)至P(15，-1)和P(-1，0)至P(-1，15)都有意义时才生效。下式用来产生预测值。如图11(D)所示，对角线运算过程用来产生像素的预测值。

[式15]

Pred(x，y)＝Clip1((a+b·(x-7)+c·(y-7)+16)＞＞5)

a＝16·(P(-1，15)+P(15-1))

b＝(5·H+32)＞＞6

c＝(5·V+32)＞＞6

H = Σ_{x = 1}^{8} x \cdot (P (7 + x, - 1) - P (7 - x, - 1))

V = Σ_{y = 1}^{8} y \cdot (P (- 1,7 + y) - P (- 1,7 - y))

以这种方式，编码装置1的帧内预测器5输入从用于I、P和B图像的图像重排缓冲器3输出的视频数据D1。帧内预测器5执行所谓的帧内预测，根据帧存储器16中所保存的参考图像信息来选择最佳预测模式。对于所选预测模式下的帧内编码，帧内预测器5根据参考图像信息以所选预测模式产生预测值，并把预测值输出到减法器4。帧内预测器5将预测模式通知无损编码装置10，以便与编码数据D4一起传送预测模式。相反，解码装置20的帧内预测器23根据随编码数据D4所传送的预测模式中的信息来计算预测值，并把所计算的值输出到加法器27。

如图12所示，帧间编码采用多个参考帧。任一个参考帧Ref被选择用于待处理的帧Org，使得运动补偿是可行的。可能存在以下情况：与用于运动补偿的块对应的一部分隐藏在紧靠前面的帧中。可能存在另一种情况：闪光临时改变紧靠前面的帧的整个像素值。在这些情况下，高精度运动补偿可改进数据压缩效率。

如图13(A1)所示，运动补偿参照16×16像素块应用于各块。此外，根据可变MCBlock大小，树形结构的运动补偿得到支持。相应地，如图13(A2)至13(A4)所示，16×16像素块可在水平或垂直方向上一分为二，从而提供16×8、8×16和8×8像素的子宏块。子宏块具备彼此无关的运动矢量和参考帧，从而能够进行运动补偿。如图13(B1)至13(B4)所示，8×8像素的子宏块进一步被划分为8×8、8×4、4×8和4×4像素块。这些块具备彼此无关的运动矢量和参考帧，从而能够进行运动补偿。在以下描述中，16×16像素的最大基本块在运动补偿方面被称作宏块。

运动补偿采用6抽头FIR滤波器来提供1/4像素精度的运动补偿。在图14中，代码A表示1像素精度的像素值。代码b至d表示1/2像素精度的像素值。代码e1至e3表示1/4像素精度的像素值。在这种情况下，下列计算首先通过采用值1、-5、20、20、-5和1对6抽头FIR滤波器的抽头输入加权来执行。以这种方式，像素值b或d以水平或垂直邻接像素之间的1/2像素精度来计算。

[式16]

F＝A_-2-5·A_-1+20·A₀+20·A₁-5·A₂+A₃

b，d＝Clip1((F+16)＞＞5)

以1/2精度计算的像素值b或d用于通过采用值1、-5、20、20、-5和1对6抽头FIR滤波器的抽头输入加权来执行下列计算。以这种方式，像素值c以水平和垂直邻接像素之间的1/2像素精度来计算。

[式17]

F＝b_-2-5·b_-1+20·b₀+20·b₁-5·b₂+b₃

或

F＝d_-2-5·d_-1+20·d₀+20·d₁-5·d₂+d₃

c＝Clip1((F+512)＞＞10)

以1/2精度计算的像素值b至d被用于根据线性内插来执行下列计算，并以1/4像素精度计算像素e1至e3。用于式(16)和(17)中加权的归一化过程在所有垂直和水平内插过程完成之后执行。

[式18]

e₁＝(A+b+1)＞＞1

e₂＝(b+d+1)＞＞1

e₃＝(b+c+1)＞＞1

以这种方式，编码装置1的运动预测器/补偿器6利用多个预测帧根据P和B图像中的宏块和子宏块、以1/4像素精度检测运动矢量。按照帧存储器16中所保存的参考图像信息由编码过程级(codingprocess level)和轮廓(profile)来定义预测帧。运动预测器/补偿器6根据参考帧以及具有最小预测误差的块来检测运动矢量。当以这种方式检测时，运动预测器/补偿器6采用参考帧和块对于帧存储器16中所保存的参考图像信息以1/4像素精度执行运动补偿，以及执行所谓的帧间预测过程。当把帧间预测用于帧间编码过程时，运动预测器/补偿器6根据运动补偿把像素值作为预测值输出到减法器4。运动预测器/补偿器6将参考帧、块和运动矢量通知无损编码装置10，并将它们与编码数据D4一起传送。另一方面，解码装置20的运动预测器/补偿器24采用随编码数据D4传送的参考帧、块和运动矢量对帧存储器16中所保存的参考图像信息以1/4像素精度执行运动补偿，并产生预测值。运动预测器/补偿器24把这个预测值输出到加法器27。在P和B图像方面，编码装置1根据按照帧内预测器5的帧内预测结果以及按照运动预测器/补偿器6的帧间预测结果选择帧内编码或帧间编码。根据选择结果，帧内预测器5和运动预测器/补偿器6分别按照帧内预测和帧间预测输出预测值。

相反，例如，速率控制器9采用根据TM5(MPEG-2测试模型5)的技术来提供速率控制。基于TM5的速率控制技术通过执行图15中的过程来控制量化器8的量化标度。开始此过程时，速率控制器9从步骤SP1转移到步骤SP2。速率控制器9计算组成一个GOP的图像之中未编码图像的目标代码量，以便向图像分配位。TM5根据以下两个假设来计算各图像的代码分配量。

第一假设是，各图像类型具有用于对图像编码的平均量化标度与所产生代码量之间的恒定积，除非图像变化。基于此，速率控制对图像编码，然后更新参数X_i、X_p和X_b(全局复杂度度量)，以便利用下式表示各图像类型的图像复杂度。利用这些参数X_i、X_p和X_b，基于TM5的速率控制估算量化标度与所产生代码量之间的关系，以便对下一个图像编码。

[式19]

X_i＝S_iQ_i

X_p＝S_pQ_p

X_b＝S_bQ_b

在式(19)中，变量的下标表示I、P和B图像。S_i、S_p和S_b表示根据图像的编码过程所产生的代码位数量。Q_i、Q_p和Q_b表示用于对图像编码的平均量化标度代码。下式利用目标代码量比特率(比特/秒)提供参数X_i、X_p和X_b的初始值。

[式20]

X_i＝160×bit_rate/115

X_p＝60×bit_rate/115

X_b＝42×bit_rate/115

第二假设是，当下式保持K_p与K_b之间的关系时，整体图像质量始终为最佳，其中K_p为P图像的量化标度代码与I图像的量化标度之比，以及K_b为B图像的量化标度代码与I图像的量化标度之比。

[式21]

K_p＝1.0；K_b＝1.4

也就是说，这个假设表示，通过将B图像的量化标度始终设置成I或P图像的量化标度的1.4倍，整体图像质量保持为最佳。B图像比I和P图像更粗略地量化，以便使分配给B图像的代码量更经济。作为补偿，更多代码量被分配给I和P图像，以便提高这些图像的图像质量。另外，这提高了参考I和P图像的B图像的图像质量。因此，整体图像质量被认为是最佳的。

以这种方式，速率控制器9采用按照下式的计算来计算分配给图像的位数量T_i、T_p和T_b。在下式中，N_p或N_b各表示没有在待处理的GOP中编码的P或B图像的数量。

[式22]

T_{i} = \max {\frac{R}{1 + \frac{N_{p} X_{p}}{X_{i} K_{p}} + \frac{N_{b} X_{b}}{X_{i} K_{b}}}, bit_rate / (8 xpicture_rate)}

T_{p} = \max {\frac{R}{N_{p} + \frac{N_{b} K_{p} X_{b}}{K_{b} X_{p}}}, bit_rate / (8 xpicture_rate)}

T_{b} = \max {\frac{R}{N_{b} + \frac{N_{p} K_{b} X_{p}}{K_{p} X_{b}}}, bit_rate / (8 xpicture_rate)}

根据上述两个假设，速率控制器9估算为图像所产生的代码量。当图像具有不同于针对代码分配的图像类型时，速率控制器9估算针对分配的图像的所产生代码量是在图像质量优化条件下图像所产生的代码量的多少倍。根据这个假设，速率控制器9估算GOP中的未编码图像与具有针对代码分配的图像类型的相等数量的图像之间的对应关系。根据这个估算结果，速率控制器9计算分配给各图像的位数量。当计算待分配的位数量时，速率控制器9把下限设置为考虑到经常需要的代码数量、如首标等的某个值。

基于TM5的速率控制则进入步骤SP3，利用虚拟缓冲器控制来执行速率控制过程。

速率控制过程提供与图像类型对应的三种独立的虚拟缓冲器，以便确保在步骤SP2找到的用于分配给图像的位数量T_i、T_p和T_b与实际产生的代码数量之间的对应关系。根据虚拟缓冲器的容量，此过程在宏块单元中在反馈控制下计算量化器8的量化标度。

下式用于首先计算三种虚拟缓冲器的占用率。式中，d₀ ⁱ、d₀ ^p和d₀ ^b表示虚拟缓冲器的初始占用量；B_j表示从图像开始到第j个宏块的所产生位数量；以及MB_cnt表示一个图像中的宏块数量。

[式23]

d_{j}^{i} = d_{0}^{i} + B_{j - 1} - \frac{T_{i} \times (j - 1)}{MB_cnt}

d_{j}^{p} = d_{0}^{p} + B_{j - 1} - \frac{T_{p} \times (j - 1)}{MB_cnt}

d_{j}^{b} = d_{0}^{b} + B_{j - 1} - \frac{T_{b} \times (j - 1)}{MB_cnt}

根据从式(23)得出的计算结果，过程采用下式来计算第j个宏块的量化标度。

[式24]

Q_{j} = \frac{d_{j} \times 31}{r}

式中，r表示控制反馈响应的反应参数。根据TM5，下式用于提供反应参数r和初始值d_o ⁱ、d_o ^p和d_o ^b。

[式25]

r = \frac{2 \times bit_rate}{picture_rate}

d_{0}^{i} = 10 \times r / 31;

d_{0}^{p} = K_{p} d_{0}^{i};

d_{0}^{b} = K_{b} d_{0}^{i}

TM5速率控制进入步骤SP4，校正在步骤SP3求出的、考虑到可视特性的量化标度。这执行考虑到可视特性的最佳量化。最佳量化过程通过根据宏块的活动校正在步骤SP3求出的量化标度来执行。目的是对于其中视觉劣化易于注意到的平淡部分进行更细微地量化，或者对于其中视觉劣化较难以注意到的复杂图案进行更粗略地量化。

通过下式来计算16×16像素的各宏块相对于构成宏块的各由8×8像素组成的四个块的活动。计算采用总共八个块的像素，即帧DCT模式中的四个块以及场DCT模式中的四个块。这表明宏块的亮度等级的平滑度。

[式26]

{act}_{j} = 1 + \min (\underset{sblk = 1.8}{var_sblk})

var_sblk = \frac{1}{64} Σ_{k = 1}^{64} {(P_{k} - \overset{&OverBar;}{P})}^{2}

\overset{&OverBar;}{P} = \frac{1}{64} Σ_{k = 1}^{64} P_{k}

在这个等式中，P_k表示原始图像上的亮度信号块中的像素值。为了通过在只有宏块的一部分包含平淡部分时提供精细步长来防止图像质量劣化，等式(26)采用最小值。

在利用这个等式求出活动之后，速率控制器9采用下式对活动归一化，以便求出归一化活动Nact_j，其值的范围是从0.5到2。在等式中，avg_act表示最近编码图像中的活动act_j的平均值。

[式27]

{Nact}_{j} = \frac{2 \times {act}_{j} + avg_act}{{act}_{j} + 2 \times avg_act}

速率控制器9采用归一化活动Nact_j来执行下式的计算，以及校正在步骤SP3所计算的量化标度Q_j，从而控制量化器8。

[式28]

mquant_j＝Q_j×Nact_j

根据上述两个假设，基于TM5的速率控制把代码数量分发给图像和宏块。提供反馈控制以便利用实际产生的代码数量依次校正已分发的代码数量。以这种方式，量化标度被控制而被依次编码。

但是，这种基于反馈的速率控制利用已编码帧的特性来提供代码数量控制。相应地，图像质量稳定性可能受到损害。常数值被分配给用于I、P和B图像的量化标度比率作为目标值。这些比率根据序列而服从不同的最佳值。

下面将根据前馈控制是可用的假设来描述最佳速率控制。假定下式提供失真D与量化标度之间的关系。

[式29]

D＝aQ^m

下式定义成本函数F。式中，N表示GOP中包含的帧数，且被定义为1≤i≤N。

[式30]

F = \frac{1}{N} \underset{i}{Σ} D_{i}

成本函数F在下式的限制条件下求解，其中假定R为所有未编码帧的代码分配数量。能够计算最佳分配代码数量R_i。

[式31]

R = \underset{i}{Σ} R_{i}

一般来说，这个计算可通过下式采用Lagrange乘法器方法来求解。

[式32]

= \frac{a}{N} \underset{i}{Σ} g {(R_{i})}^{m} - λ (R - \underset{i}{Σ} R_{i})

= \frac{a}{N} \underset{i}{Σ} Q_{i}^{m} - λ (R - \underset{i}{Σ} f (Q_{i}))

当R＝f(Q)以及Q＝g(R)时，成本函数F在下列条件下产生最小值。

[式33]

以这种方式，最佳分配代码数量R_i可通过解这些联立方程来求出。下式表示MPEG2 TM5中的复杂度参数X。因此，在量化标度Q与代码数量R之间建立式(35)中的关系。

[式34]

Q·R^α＝X

[式35]

log R＝a·log Q+b

式中，α是确定量化器8中的量化特性(速率-量化特性)的参数。假定α为固定值，则式(32)可由下式表达。解此方程可得式(37)。

[式36]

= \frac{a}{N} \underset{i}{Σ} X_{i}^{m} \cdot R_{i}^{- αm} - λ (R - \underset{i}{Σ} R_{i})

R_{i} = {(\frac{aαm}{Nλ} X_{i}^{m})}^{\frac{1}{1 + αm}}

R = \underset{i}{Σ} R_{i} = \underset{i}{Σ} {(\frac{aαm}{Nλ} X_{i}^{m})}^{\frac{1}{1 + αm}}

λ^{\frac{1}{1 + αm}} = \frac{1}{R} \underset{i}{Σ} {(\frac{aαm}{N} \cdot X_{i}^{m})}^{\frac{1}{1 + αm}}

[式37]

R_{i} = R \cdot \frac{X_{i}^{\frac{m}{1 + αm}}}{\underset{i}{Σ} X_{i}^{\frac{m}{1 + αm}}}

Q_{i} = \frac{X_{i}^{\frac{1}{1 + αm}}}{R^{α} {\underset{i}{Σ} X_{i}^{\frac{m}{1 + αm}}}}

式(37)提供归纳根据MPEG2 TM5的代码数量分配的解。假定相应的图像类型保持恒定量化特性，将此式代入下式可得出式(21)中的关系表达式。以这种方式，基于TM5的速率控制采用1.0和1.4的固定值用于比率K_p和K_b。但是，通过根据前馈控制预先检测复杂度参数X，能够更适当地分配代码数量。

[式38]

α = 1; K_{p} = {(\frac{X_{1}}{X_{p}})}^{\frac{1}{m + 1}}; K_{b} = {(\frac{X_{1}}{X_{B}})}^{\frac{1}{m + 1}}

在这种编码装置方面，例如，JP-A No.56827/2004提出各种设计方案来实现解码过程等。

编码装置1与各种记录装置结合，不仅可处理基带提供的视频数据，而且还可处理从网络媒体和包装媒体提供的视频数据。这种网络媒体和包装媒体采用MPEG2等压缩视频数据。当处理这种视频数据时，编码装置不仅用作对压缩视频数据解码的解码装置，而且还用作转换数据压缩格式的图像转换装置。

当编码装置构造成用作解码装置以及图像转换装置时，显然希望简化整体构造。

[专利文件1]JP-A No.56827/2004

发明内容

考虑了上述方面而提出本发明。需要构造一种用作解码装置和图像转换装置的编码装置。在这种情况下，希望提供能够简化整体构造的编码装置、编码方法、编码方法程序以及记录编码方法程序的记录媒体。

要解决上述问题，本发明的一个实施例应用于一种编码装置，它采用编码部件从多个帧内预测模式和帧间预测模式中选择最佳预测模式，通过按照所选预测模式从视频数据中减去预测值来产生差异数据，对差异数据执行正交变换、量化和变长编码过程，以及按照帧内编码和帧间编码对视频数据编码。根据本发明的实施例提供：帧内预测部件，用于在编码部件编码之前预先为至少一个GOP利用视频数据来选择最佳预测模式，并在最佳预测模式中检测表明差异数据的大小的帧内预测变量；帧间预测部件，用于在编码部件编码之前预先为至少一个GOP利用视频数据选择最佳预测模式，并在最佳预测模式中检测表明差异数据的大小的帧间预测变量；难度计算部件，用于将帧内预测的变量与帧间预测的变量进行比较，并在最佳预测模式中检测表明差异数据的大小的变量；以及速率控制部件，用于根据表明差异数据的大小的变量在图像之中分发要分配给一个GOP的数据量，从而计算各图像的目标代码量，并根据目标代码量为编码部件的编码过程提供速率控制。

本发明的另一个实施例应用于一种编码方法，它采用编码部件从多个帧内预测模式和帧间预测模式中选择最佳预测模式，通过按照所选预测模式从视频数据中减去预测值来产生差异数据，对差异数据执行正交变换、量化和变长编码过程，以及按照帧内编码和帧间编码对视频数据编码。根据本发明的实施例包括以下步骤：在编码部件编码之前预先为至少一个GOP利用视频数据来选择最佳预测模式，并在最佳预测模式中检测表明差异数据的大小的帧内预测变量；在编码部件编码之前预先为至少一个GOP利用视频数据选择最佳预测模式，并在最佳预测模式中检测表明差异数据的大小的帧间预测变量；将帧内预测的变量与帧间预测的变量进行比较，并在最佳预测模式中检测表明差异数据的大小的变量；以及根据表明差异数据的大小的变量在图像之中分发要分配给一个GOP的数据量，从而计算各图像的目标代码量，并根据目标代码量为编码部件的编码过程提供速率控制。

本发明的又一个实施例应用于一种由计算部件执行以控制编码部件的操作的编码方法程序。编码方法程序包括以下步骤：在编码部件编码之前预先为至少一个GOP利用视频数据来选择最佳预测模式，并在最佳预测模式中检测表明差异数据的大小的帧内预测变量；在编码部件编码之前预先为至少一个GOP利用视频数据选择最佳预测模式，并在最佳预测模式中检测表明差异数据的大小的帧间预测变量；将帧内预测的变量与帧间预测的变量进行比较，并在最佳预测模式中检测表明差异数据的大小的变量；以及根据表明差异数据的大小的变量在图像之中分发要分配给一个GOP的数据量，从而计算各图像的目标代码量，并根据目标代码量为编码部件的编码过程提供速率控制。

本发明的又一个实施例应用于一种用于记录由计算部件执行以控制编码部件的操作的编码方法程序的记录媒体。编码方法程序包括以下步骤：在编码部件编码之前预先为至少一个GOP利用视频数据来选择最佳预测模式，并在最佳预测模式中检测表明差异数据的大小的帧内预测变量；在编码部件编码之前预先为至少一个GOP利用视频数据选择最佳预测模式，并在最佳预测模式中检测表明差异数据的大小的帧间预测变量；将帧内预测的变量与帧间预测的变量进行比较，并在最佳预测模式中检测表明差异数据的大小的变量；以及根据表明差异数据的大小的变量在图像之中分发要分配给一个GOP的数据量，从而计算各图像的目标代码量，并根据目标代码量为编码部件的编码过程提供速率控制。

此实施例的结构可应用于编码装置，以便包括：帧内预测部件，用于在编码部件编码之前预先为至少一个GOP利用视频数据来选择最佳预测模式，并在最佳预测模式中检测表明差异数据的大小的帧内预测变量；帧间预测部件，用于在编码部件编码之前预先为至少一个GOP利用视频数据选择最佳预测模式，并在最佳预测模式中检测表明差异数据的大小的帧间预测变量；难度计算部件，用于将帧内预测的变量与帧间预测的变量进行比较，并在最佳预测模式中检测表明差异数据的大小的变量；以及速率控制部件，用于根据表明差异数据的大小的变量在图像之中分发要分配给一个GOP的数据量，从而计算各图像的目标代码量，并根据目标代码量为编码部件的编码过程提供速率控制。可能存在将编码装置构造为用作解码装置和图像转换装置的情况。在这种情况下，表明差异数据大小的变量例如可由通过解码装置得到的各图像的量化标度与代码量之间的相乘值来代替。这使得能够通过有效地利用在解码过程中检测到的各种信息来提供速率控制。以这种方式，该构造可简化为确保起图像转换装置的作用。

当需要将编码装置配置成用作解码装置和图像转换装置时，上述实施例可提供能够简化整体构造的编码方法、编码方法程序以及记录编码方法程序的记录媒体。

根据本发明的实施例，当编码装置可配置成用作解码装置和图像转换装置时，整体构造可得到简化。

通过以下描述，本发明的其它和进一步的目的、特征和优点将会更为全面。

附图说明

图1是框图，表示根据本发明的实施例1的编码装置；

图2是流程图，表示图1的编码装置中的速率控制器9的过程；

图3是框图，表示基于AVC的编码装置；

图4是框图，表示基于AVC的解码装置；

图5是示意图，表示涉及帧内4×4预测模式的预测像素；

图6是示意图，表示帧内4×4预测模式中的预测模式；

图7是示意图，描述帧内4×4预测模式；

图8是示意图，表示帧内4×4预测模式的每个模式；

图9是示意图，表示涉及帧内16×16预测模式的预测像素；

图10是示意图，描述帧内16×16预测模式；

图11是示意图，表示帧内16×16预测模式中的预测模式；

图12是示意图，表示基于AVC的参考帧；

图13是示意图，表示基于AVC的运动补偿；

图14是示意图，表示基于AVC的运动补偿精度；以及

图15是流程图，表示基于TM5的速率控制。

具体实施方式

参照附图更详细地描述本发明的实施例。

[实施例1]

(1)实施例的构造

图1是框图，表示根据本发明的一个实施例的编码装置。例如，DVD播放器等再现MPEG2压缩编码数据DMPEG。电视调谐器输出模拟视频信号S1。记录和再现装置在记录媒体、如光盘上记录编码数据DMPEG以及视频信号S1。编码装置41可应用于这种记录和再现装置，根据AVC压缩编码数据DMPEG和视频信号S1，以及输出编码数据D4。

在编码装置41中，A/D转换器(A/D)42对视频信号S1进行模数转换，并输出视频数据D11。

为解码装置43提供基于MPEG2的编码数据DMPEG，该装置对编码数据DMPEG解码，以及输出基于基带的视频数据D12。在这个过程中，解码装置43向复杂度计算器44通知通过为编码数据DMPEG的每个首标提供的控制代码所检测的量化标度q和所产生代码量b。

响应来自解码装置43的通知，复杂度计算器44计算编码数据DMPEG中的帧的平均量化标度Q，以及计算为各帧所产生的代码量B。复杂度计算器44采用平均量化标度Q和所产生代码量B来执行以下计算。复杂度计算器44计算表明通过对编码数据DMPEG解码所得到的视频数据D12的AVC编码的难度的复杂度参数X，并向编码部分45通知复杂度参数X。

[式39]

X＝Q·B

A/D转换器42在控制器(未示出)控制下输出视频数据D11。解码装置43输出视频数据D12。有选择地为视频存储器46提供视频数据D11或D12，将它存储指定的周期，并将它输出到编码部分45。在这个过程中，视频存储器46在相当于至少一个GOP的周期、视频数据输出到解码装置43之前的时间点把所存储视频数据输出到帧内预测器47和帧间预测器48。这使帧内预测器47和帧间预测器48能够在解码装置43编码之前处理一个GOP的视频数据。从解码装置43输出的视频数据D12可被输入视频存储器46，以及输出到编码部分45。在这种情况下，在前输出的一个GOP周期被调整为与视频数据D12关联的编码数据DMPEG的一个GOP周期。

帧内预测器47对于从视频存储器46所提供的视频数据执行帧内预测。原始帧内预测参照已解码参考图像信息来执行。帧内预测器47利用原始图像的图像信息而不是已解码参考图像信息来执行帧内预测。原始帧内预测在帧内4×4预测模式与帧内16×16预测模式之间选择最佳预测模式。帧内预测47仅采用帧内4×4预测模式来选择最佳预测模式。

对于依次输入的视频数据中的4×4像素块，下式用于根据组成块的原始图像来表示视频数据的像素值。

[式40]

[{Org}_{i, i}] = [\begin{matrix} {Org}_{0,0} & {Org}_{1,0} & {Org}_{2,0} & {Org}_{3,0} \\ {Org}_{0,1} & {Org}_{1,1} & {Org}_{2,1} & {Org}_{3,1} \\ {Org}_{0, 2} & {Org}_{1,2} & {Org}_{2,2} & {Org}_{3,2} \\ {Org}_{0,3} & {Org}_{1,3} & {Org}_{2,3} & {Org}_{3,3} \end{matrix}]

不是利用已解码视频数据，帧内预测器47根据参照图8(A)至8(I)所述、利用块的相邻像素的计算来计算下式所表示的预测值。式中，模式可采用0至8中的任一个。

[式41]

[{Ref}_{i, j} (Mode)]

= [\begin{matrix} {Ref}_{0,0} (Mode) & {Ref}_{1,0} (Mode) & {Ref}_{2,0} (Mode) & {Ref}_{3,0} (Mode) \\ {Ref}_{0,1} (Mode) & {Ref}_{1,1} (Mode) & {Ref}_{2,1} (Mode) & {Ref}_{3,1} (Mode) \\ {Ref}_{0,2} (Mode) & {Ref}_{1,2} (Mode) & {Ref}_{2,2} (Mode) & {Ref}_{3,2} (Mode) \\ {Ref}_{0,3} (Mode) & {Ref}_{1,3} (Mode) & {Ref}_{2,3} (Mode) & {Ref}_{3,3} (Mode) \end{matrix}]

此外，帧内预测器47根据下式利用来自原始图像的视频数据的像素值和预测值来执行计算。帧内预测器47计算在各模式的帧内编码期间在每个块中产生的差异数据D2(参见图3)的绝对差之和SAD(mode)。帧内预测器47利用各模式的绝对差之和SAD(mode)计算最小值。帧内预测器47检测与最小值关联的模式，以便检测帧内4×4预测模式中的最佳模式。在这些计算过程中，例如通过仅计算奇数或偶数行上的奇数或偶数抽样点，所谓的交替抽样技术可用来减少计算量。

[式42]

SAD (Mode) = Σ_{i, j = 0}^{3} | {Ref}_{i, j} (Mode) - {Org}_{i, j} |

帧内预测器47对各由4×4像素组成的、构成16×16像素的宏块的所有块重复这种计算，以检测块的最佳模式。帧内预测器47采用最佳模式的式(42)的绝对差之和SAD(mode)(SAD(Block，BestMode(Block))来执行下式的计算。帧内预测器47把涉及最佳模式的差异数据D2的绝对差之和SAD(mode)相加起来。以这种方式，帧内预测器47对表明从4×4预测模式计算的残留大小的变量求和，以产生表明16×16像素宏块中的残留大小的变量IntraSAD。帧内预测器47把这个变量IntraSAD输出到难度计算器49。

[式43]

IntraSAD = Σ_{Block = 0}^{15} SAD (Block, Best_Mode (Block))

另一方面，帧间预测器48对于从视频存储器46提供的视频数据执行帧间预测。原始帧间预测参照已解码参考图像信息来执行。帧间预测器48利用原始图像的图像信息而不是已解码参考图像信息来执行帧间预测。帧间预测器48省略子宏块的运动矢量检测和运动补偿过程。以这种方式，帧间预测器48只对16×16像素的宏块检测参考帧和运动矢量，以便执行帧间预测。帧间预测器48以一个像素的精度检测运动。

帧间预测器48按照依次输入视频数据中的16×16像素块对参考帧的每一个执行下式的计算。式中，参考帧的帧号Ref的范围是0≤Ref≤Nref-1，其中Nref是参考帧的数量。

[式44]

SAD ({mv}_{16 \times 16} (Ref)) = Σ_{i, j = 0}^{15} | {Ref}_{i, j} ({mv}_{16 \times 16} (Ref)) - {Org}_{i, j} |

帧间预测器48从计算结果中检测各参考帧的最小值，并使用此最小值来检测各参考帧的16×16运动矢量mv16×16(Ref)。在计算过程中，分级运动检索可用来检测来自各参考帧的16×16运动矢量。或者，交替抽样技术可用来减少计算量。作为参考，按照以下方式执行分级运动检索以检测运动矢量。例如，运动矢量以4像素间隔来检测。所检测的运动矢量用来缩小检测运动矢量的范围以及重新检测运动矢量。这些过程依次重复。在运动矢量检索的±8像素的范围内以1像素的精度来检测16×16运动矢量mv16×16。

帧间预测器48根据涉及参考帧的16×16运动矢量mv16×16(Ref)利用式(44)的计算结果SAD(mv16×16(Ref))来执行下式的计算。当采用涉及最佳参考帧的运动矢量执行帧内编码过程时，帧间预测器48计算最佳参考帧以及表明残留大小的变量InterSAD。帧间预测器48把变量InterSAD输出到难度计算器49。在式(45)中，argRef表示Ref作为变量而改变。

[式45]

InterSAD＝arg_Refmin(SAD(mv_16×16(Ref)))

难度计算器49采用从帧内预测器47和帧间预测器48所通知的变量IntraSAD和InterSAD来执行下式的计算，并选择较小的变量。在这种情况下，所选变量对应于最佳编码系统。当P和B图像针对根据与编码部分45的编码过程关联的GOP结构的预测时，难度计算器49执行下式的计算。当I图像针对预测时，难度计算器49取消下式的计算，并把从帧内预测器47输出的变量IntraSAD赋值给变量BD(m)。

[式46]

BD(m)＝min(IntraSAD(m)，InterSAD(m))

难度计算器49检测各宏块的变量BD(m)，并执行下式的计算以便对各图像的变量BD(m)求和。式中，Ω表示一个图像中包含的所有宏块的集合。

[式47]

X = \underset{m &Element; Ω}{Σ} BD (m)

难度计算器49计算表明从视频存储器46输出的视频数据D1的基于AVC的编码过程的难度的难度参数X。难度计算器49把难度参数X通知给编码部分45。复杂度计算器44通过将帧的平均量化标度Q与所产生的代码量B相乘来计算复杂度参数X。换言之，复杂度参数X提供表明产生编码数据D4的编码过程实际检测到的编码过程的难度的信息。另一方面，难度计算器49所计算的复杂度参数X表示在基于AVC的编码过程中所产生的差异数据的绝对差之和。换言之，这个复杂度参数X提供表明在基于AVC的编码过程中所预测的编码过程的难度的信息。

编码部分45允许速率控制器45A利用从复杂度计算器44和难度计算器49输出的参数X来执行速率控制过程。因此，编码部分45根据基于AVC的编码来处理从视频存储器46输出的视频数据D1，并输出视频数据D1。

编码部分45与参照图3所述的编码装置1同样配置，但有以下差别。从视频存储器46输出的视频数据D1被直接输入图像重排缓冲器3而没有使用模/数转换器2。速率控制器45A用来代替速率控制器9。当依次输入的视频数据D1对应于编码数据DMPEG时，通过把I、P和B图像相应地设置为编码数据DMPEG中的I、P和B图像的设定，对视频数据D1编码。以这种方式，编码部分45配置成根据AVC对依次输入的视频数据D1执行帧间编码和帧内编码，并输出编码数据D4。

速率控制器45A执行下式的计算以便计算对各图像的代码分配量R_i。当待编码的视频数据D1对应于视频信号S1时，等式采用从难度计算器49输出的参数X。当待编码的视频数据D1对应于编码数据DMPEG时，等式采用从复杂度计算器44输出的参数X。在等式中，R表示对整个未编码帧的代码分配量(0≤i≤N-1)。

[式48]

R_{i} = R \cdot \frac{X_{i}^{\frac{1}{2}}}{\underset{i}{Σ} X_{i}^{\frac{1}{2}}}

速率控制器45A在各GOP的开始处计算代码分配量R_i的初始值。每当一帧编码结束时，速率控制器45A根据累积缓冲器11中的数据量来检测实际产生的代码量，并对所有未编码帧校正代码分配量R。速率控制器45A计算对下一帧的代码分配量R_i。速率控制器45A对每个GOP重复这些过程。在各帧中，速率控制器45A采用实际产生的代码量依次校正从帧的代码分配量所检测的宏块的代码分配量。速率控制器45A采用所检测的代码分配量来设置量化器8的量化标度。在这些过程中，速率控制器45A根据活动来校正量化器8的量化标度。

图2是流程图，表示速率控制器45A进行的速率控制过程以及与复杂度计算器44和难度计算器49关联的过程。当过程开始时，速率控制器45A从步骤进入步骤SP12来确定待处理的视频数据D1是否对应于模拟视频信号S1。当结果为肯定时，速率控制器45A进入步骤SP13，从难度计算器49获取参数X。

在步骤SP13的步骤SP13-1，难度计算器49将参数X初始化为0值。在步骤SP13-2和SP13-3，帧内预测器47和帧间预测器48分别计算变量IntraSAD和InterSAD。在步骤SP13-4，难度计算器49将变量IntraSAD与InterSAD进行比较。

当来自帧内预测器47的变量IntraSAD的值更小时，在步骤SP13-5选取来自帧内预测器47的变量IntraSAD。当来自帧内预测器48的变量InterSAD的值更小时，在步骤SP13-6选取来自帧内预测器48的变量InterSAD。以这种方式，难度计算器49检测一个宏块的变量SAD。难度计算器49对一帧重复这个过程。在步骤SP13-7，难度计算器49累积变量，以便检测组成GOP的一帧的参数X。参数X的检测重复进行相当于一个GOP的次数。

在从难度计算器49得到一个GOP的参数X之后，速率控制器45A从步骤SP13进入步骤SP14，利用式(48)的计算来计算一个图像的代码分配量。在步骤SP15，速率控制器45A确定量化器8的量化标度，与上述图15中的步骤SP3相似。在步骤SP16，速率控制器45A根据活动来校正量化器8的量化标度，与上述图15中的步骤SP4相似。速率控制器45A进入步骤SP17，结束此过程。速率控制器45A在GOP单元中重复这个过程，以便执行速率控制过程。

当步骤SP12中的结果为否定时，速率控制器45A从步骤SP12进入步骤SP18，从复杂度计算器44获取一个GOP的参数X。在步骤SP14，速率控制器45A采用从复杂度计算器44得到的参数X来计算代码分配量，并执行速率控制过程。在步骤SP18，复杂度计算器44配置成在图像的单元中重复变量X的计算。

(2)实施例的操作

根据上述构造，考虑在编码装置41(图1)中对模拟视频信号S1编码。在这种情况下，模/数转换器42把视频信号S1转换为视频数据D1。视频数据D1则经由视频存储器46输入到编码部分45。在编码部分45中，图像重排缓冲器3根据编码过程的GOP结构重新排列视频数据D1中的帧的顺序(参见图3)。然后视频数据D1被输入到帧内预测器5以及运动预测器/补偿器6。根据图像，从多个帧内预测模式和帧间预测模式中选择最佳预测模式。减法器4从视频数据D1中减去所选预测模式中的预测值，从而产生差异数据D2。通过有效地使用邻接帧之间的相关性以及水平和垂直相关性，视频数据D1在数据量方面被减少。具有减少的数据量的视频数据D1产生差异数据D2。通过正交变换、量化和变长编码过程，差异数据D2在数据量方面进一步减少，从而产生编码数据D4。以这种方式，视频信号S1根据帧内编码和帧间编码被处理，然后被记录在记录媒体上。

在过程序列中，视频数据D1在编码部分45中的过程之前至少一个GOP被输入帧内预测器47和帧间预测器48(图1)。帧内预测器47和帧间预测器48分别选择帧内预测和帧间预测的最佳预测模式。利用差异数据D2的绝对差之和，帧内预测器47和帧间预测器48计算表明最佳预测模式中所产生的差异数据D2的大小的变量IntraSAD和InterSAD。难度计算器49将变量IntraSAD与InterSAD进行比较，以便根据帧内预测和帧间预测来检测最佳预测模式。难度计算器49检测表明最佳预测模式中产生的差异数据D2的大小的变量BD(m)。

在视频数据D1中，变量BD(m)在图像单元中被计算，从而产生变量X。利用变量X，速率控制器45A在图像之间分发要分配给一个GOP的数据量，以便计算各图像的目标代码量。速率控制过程根据目标代码量来执行。

以这种方式，利用预先对一个GOP所检测的变量X，在根据前馈控制的速率控制下对视频数据D1编码。因此，视频数据D1可通过向图像适当分发代码量以及通过确保高图像质量来编码。

可通过利用表明差异数据D2的大小的基于图像的变量X来分发要分配给一个GOP的数据量，计算各图像的目标代码量。目标代码量可用来执行速率控制过程，用于与解码部件结合。甚至在可能存在转换由类似编码方法所编码的编码数据的格式的情况时，通过有效地使用与编码数据有关的信息，速率控制也是可用的。因此，整体构造可得到简化。

编码装置41可把基于MPEG2的编码数据DMPEG的格式转换为基于AVC的编码数据D4。在这种情况下，解码装置43对基于MPEG2的编码数据DMPEG进行解码，从而将它转换为视频数据D12。视频数据D12被输入编码部分45，然后被编码为基于AVC的编码数据D4。

在过程序列中，编码数据DMPEG使量化标度q和数据量b可对于各宏块被检测。复杂度计算器44对检测结果求和，以便检测通过将平均量化标度Q与帧单元中的数据量B相乘所产生的值X。相乘值X表示编码过程的复杂度。当根据编码数据DMPEG对视频数据D12编码时，编码装置41采用从复杂度计算器44输出的变量X来取代从难度计算器49输出的变量X。要分配给一个GOP的数据量在图像之间分发，以便计算各图像的目标代码量。速率控制过程根据目标代码量来执行。

以这种方式，有效地利用在解码过程中检测到的各种信息，编码装置41可为编码数据DMPEG提供速率控制。这使得能够简化构造并确保起图像转换装置的作用。

同样在这种情况下，利用过去的基于MPEG2的编码结果，最终提供速率控制。根据前馈控制的速率控制可用于对视频数据D12编码。因此，视频数据D12可通过适当地向图像分发代码量以及通过确保优于根据反馈控制的速率控制的高图像质量，借助于帧内预测和帧间预测来编码。

以这种方式，帧内预测器47和帧间预测器48用来检测变量X。编码装置41可允许帧内预测器47和帧间预测器48以比用于编码部分45中的帧内预测和帧间预测的更为简单的构造来执行帧内预测和帧间预测。总体上，简单构造可用于对视频数据D1编码。

也就是说，编码部分45提供帧内预测的帧内预测模式。这个模式产生预测值，从而在块单元中通过多种技术产生具有不同大小的两种或两种以上块的差异数据D2。相反，帧内预测器47从两种或两种以上块中选择最小块的最佳预测模式，并检测帧内预测的变量IntraSAD。这使得能够通过简单过程以实际上足够的精度来检测最佳预测模式以及帧内预测的变量IntraSAD。

明确地说，编码装置41采用两种或两种以上块，即4×4和16×16像素块。帧内预测器47仅在4×4预测模式中对4×4像素块处理视频数据。这可简化此过程。

编码部分45为帧内预测提供过程，从而参照从已解码输出数据产生的视频数据来选择最佳预测模式。帧内预测器47根据涉及所谓的原始图像的视频数据D1选择最佳预测模式。在这方面，对一个GOP预先从视频存储器46输出视频数据D1。根据此构造，前馈控制用来提供速率控制。这使得能够省略解码部件、存储来自解码部件的解码结果的存储器等的构造。整体构造可得到简化，同时确保实际上足够的精度。

编码部分45提供帧间预测的帧间预测模式。这个模式产生预测值，从而在块单元中通过多种技术产生具有不同大小的两种或两种以上块的差异数据D2。相反，帧间预测器48从两种或两种以上块中选择最大块的最佳预测模式，并检测帧间预测的变量InterSAD。这还使得能够通过简单过程以实际上足够的精度来检测最佳预测模式以及帧间预测的变量InterSAD。

明确地说，编码装置41采用两种或两种以上块，即4×4、4×8、8×4、8×8、8×16和16×8像素的子宏块以及16×16像素的块或宏块。帧间预测器48仅对16×16像素的宏块处理视频数据。这可简化此过程。

不同大小的块允许帧内预测器47和帧间预测器48检测变量。帧内预测器47合计并输出帧内预测的变量，以便对应于帧间预测器48的块大小。简化构造的目的是为过程提供不同的块大小。这使得能够根据相应变量来检测最佳预测模式。

编码部分45采用帧间预测的帧间预测模式从多个参考帧中以小于一个像素的1/4像素的精度检测运动矢量。相反，帧间预测器48以一个像素的精度检测运动矢量。以这种方式，简单的过程可用于以实际上足够的精度来检测最佳预测模式，并检测帧间预测的变量InterSAD。

(3)实施例的效果

上述构造使得能够在编码过程之前检测帧内预测和帧间预测的最佳预测模式。该构造还实现根据所检测的最佳预测模式来检测表明差异数据大小的变量。该变量用来设置各图像的目标代码量。以这种方式，当编码装置可配置成用作解码装置和图像转换装置时，整体构造可得到简化。

也就是说，视频数据根据正交变换、量化和变长编码来处理，从而产生编码数据DMPEG。当编码数据DMPEG被处理时，其量化标度与数据量相乘，从而产生相乘值X。利用相乘值X，要分配给一个GOP的数据量被分发给图像，并执行速率控制过程。以这种方式，该构造可简化为确保起图像转换装置的作用。

在块单元中通过多种技术，用于编码的多个帧内预测模式可产生具有不同大小的两种或两种以上块的预测值。在这种情况下，作为帧内预测部件的帧内预测器47从两种或两种以上块中选择最小块的最佳预测模式，并检测帧内预测的变量。这使得能够通过简单过程以实际上足够的精度来检测最佳预测模式以及帧内预测的变量。

更明确地说，两种或两种以上的块可包括4×4和16×16像素块。帧内预测器部件可以仅在4×4预测模式中对于4×4像素块来处理视频数据。这可简化此过程。

编码部件可参照已解码视频数据来选择最佳预测模式。在这种情况下，帧内预测部件参照原始视频数据来选择最佳预测模式。整体构造可得到简化，同时确保实际上足够的精度。

在块单元中通过多种技术，多个帧间预测模式产生具有不同大小的两种或两种以上的块的预测值。相反，作为帧间预测部件的帧间预测器48从两种或两种以上块中选择最大块的最佳预测模式，并检测帧间预测的变量。这使得能够通过简单过程以实际上足够的精度来检测最佳预测模式以及帧间预测的变量。

明确地说，两种或两种以上的块包括4×4、4×8、8×4、8×8、8×16、16×8和16×16像素块。帧间预测部件仅对16×16像素的宏块处理视频数据。这可简化此过程。

帧内预测的变量被求和并输出，以便对应于帧间预测部件所用的块大小。简化构造的目的是为过程提供不同的块大小。这使得能够根据相应变量来检测最佳预测模式。

编码部件提供多个帧间预测模式。这些模式采用以小于一个像素的像素精度从多个参考帧中检测的运动矢量，并通过执行对相应参考帧的运动补偿来产生预测值。相反，帧间预测部件以一个像素的精度检测运动矢量，以便检测最佳预测模式。以这种方式，简单的过程可用于以实际上足够的精度来检测最佳预测模式，并检测帧间预测的变量。

[实施例2]

根据这个实施例，计算机运行编码程序。以这种方式，计算机提供与以上参照实施例1所述的编码装置41的块对应的功能块。计算机执行与编码装置41的那些等效的过程。编码程序可通过预先安装在计算机中来提供。此外，编码程序可通过经由网络、如因特网下载来提供。或者，编码程序可通过记录在记录媒体上来提供。可能有各种记录媒体可用，例如光盘、磁光盘等等。

如这个实施例那样，计算机可运行处理程序以便构造与根据实施例1的编码装置41相似的功能块来用于编码。在这种情况下，实施例2还可提供与实施例1相似的效果。

[实施例3]

在上述实施例中，已经描述了利用差异数据中的绝对差之和来检测涉及帧内预测和帧间预测的变量的情况。但是，本发明不限于此。各种参数可根据需要广泛被应用，例如差异数据的平方和来取代差异数据中的绝对差之和。

在上述实施例中，已经描述了根据与参考图像信息和运动补偿关联的精度以及根据与预测模式关联的块类型来简化编码部件中帧内预测和帧间预测的帧内预测部件和帧间预测部件中的过程的情况。但是，本发明不限于此。当可确保实际上足够的吞吐量时，帧内预测部件和帧间预测部件可用来执行与编码部件中的帧内预测和帧间预测相同的过程。

在上述实施例中，已经描述了把模拟视频信号和基于MPEG2的编码数据编码为基于AVC的编码数据的情况。但是，本发明不限于此。本发明可广泛应用于把各种视频数据和编码数据编码为基于AVC的编码数据以及编码为类似于AVC的编码数据的情况。

在上述实施例中，已经描述了将本发明应用于记录装置的情况。但是，本发明不限于此，并且例如可广泛应用于视频数据的传送。

例如，本发明可应用于借助于卫星广播、有线电视、因特网、蜂窝电话等传送电影以及在诸如光盘、磁光盘、闪速存储器等记录媒体上记录电影。

本领域的技术人员应当理解，根据设计要求和其它因素，可出现各种修改、组合、子组合及变更，只要它们处于所附权利要求及其等效物的范围内。

Claims

1. 一种编码装置，它采用编码部件从多个帧内预测模式和帧间预测模式中选择编码时的最佳预测模式，通过按照所述选择的预测模式从视频数据中减去预测值来产生差异数据，对所述差异数据执行正交变换、量化和变长编码过程，所述编码装置包括：

帧内预测部件，用于在所述编码部件编码之前预先为至少一个图像组利用所述视频数据来选择最佳帧内预测模式，并在所述最佳帧内预测模式中检测表明差异数据的大小的帧内预测变量；

帧间预测部件，用于在所述编码部件编码之前预先为至少一个图像组利用所述视频数据来选择最佳帧间预测模式，并在所述最佳帧间预测模式中检测表明差异数据的大小的帧间预测变量；

难度计算部件，用于将所述帧内预测变量与所述帧间预测变量进行比较，并在最佳帧间和帧内预测模式中选择出的最佳预测模式检测当前帧的表明差异数据的大小的变量；

速率控制部件，用于根据表明所述差异数据的大小的变量在图像之中分发要分配给一个图像组的数据量，从而计算各图像的目标代码量，并根据所述目标代码量为所述编码部件的编码过程提供速率控制；

解码部件，用于接收所述编码部件输出的编码数据，并对所述编码数据解码；以及

复杂度检测部件，用于检测涉及所述编码数据的所述量化过程中一帧数据的平均量化标度与从所述解码部件输出的视频数据的图像单元中的一帧图像的编码数据的数据量之间的相乘值，

其中，当所述编码部件对从所述解码部件输出的视频数据编码时，

所述速率控制部件不根据表明所述差异数据的大小的变量在图像之中分发要分配给一个图像组的数据量以计算各图像的目标代码量，也不根据所述目标代码量为所述编码部件的编码过程提供速率控制，但是

根据所述相乘值在图像之中分发要分配给一个图像组的数据量，从而计算各图像的目标代码量，并根据所述目标代码量为所述编码部件的编码过程提供速率控制。

2. 如权利要求1所述的编码装置，其特征在于，

在块单元中通过多种技术，所述多个帧内预测模式产生具有不同大小的两种或两种以上的块的所述预测值；以及

所述帧内预测部件从所述两种或两种以上的块中选择最小块的最佳预测模式作为所述最佳帧内预测模式，并检测所述帧内预测变量。

3. 如权利要求2所述的编码装置，其特征在于，

所述两种或两种以上的块包括4×4和16×16像素块。

4. 如权利要求1所述的编码装置，其特征在于，

所述编码部件参照通过对从所述编码部件输出的数据解码所产生的已解码视频数据来选择所述编码时的最佳预测模式；以及

所述帧内预测部件在所述编码部件编码之前预先为至少一个图像组参照用于产生差异数据的所述视频数据来选择所述最佳帧内预测模式。

5. 如权利要求1所述的编码装置，其特征在于，

在块单元中通过多种技术，所述多个帧间预测模式产生具有不同大小的两种或两种以上的块的所述预测值；以及

所述帧间预测部件从所述两种或两种以上的块中选择最大块的最佳预测模式作为所述最佳帧间预测模式，并检测所述帧间预测变量。

6. 如权利要求5所述的编码装置，其特征在于，

所述两种或两种以上的块包括4×4、4×8、8×4、8×8、8×16、16×8和16×16像素块。

7. 如权利要求2所述的编码装置，其特征在于，

所述帧间预测部件从所述两种或两种以上的块中选择最大块的最佳预测模式作为所述最佳帧间预测模式，并检测所述帧间预测变量；以及

所述帧内预测部件合计并输出所述帧内预测变量，以使所述帧内预测变量对应于所述帧间预测部件所用的块大小。

8. 如权利要求1所述的编码装置，其特征在于，

所述帧内预测部件选择与按照所述多个帧内预测模式得到的最小的差异数据对应的帧内预测模式，并将所述选择的帧内预测模式定义为所述最佳帧内预测模式。

9. 如权利要求1所述的编码装置，其特征在于，

所述帧间预测部件选择与按照所述多个帧间预测模式得到的最小的差异数据对应的帧间预测模式，并将所述选择的帧间预测模式定义为所述最佳帧间预测模式。

10. 如权利要求1所述的编码装置，其特征在于，

所述编码部件提供多个帧间预测模式，它们采用以小于一个像素的像素精度从多个参考帧中检测的运动矢量，并通过执行对相应参考帧的运动补偿来产生预测值；以及

所述帧间预测部件以一个像素的精度检测运动矢量，以便检测最佳帧间预测模式。

11. 一种编码方法，它采用编码部件从多个帧内预测模式和帧间预测模式中选择编码时的最佳预测模式，通过按照所述选择的预测模式从视频数据中减去预测值来产生差异数据，对所述差异数据执行正交变换、量化和变长编码过程，所述编码方法包括以下步骤：

在所述编码部件编码之前预先为至少一个图像组利用所述视频数据来选择最佳帧内预测模式，并在所述最佳帧内预测模式中检测表明差异数据的大小的帧内预测变量；

在所述编码部件编码之前预先为至少一个图像组利用所述视频数据来选择最佳帧间预测模式，并在所述最佳帧间预测模式中检测表明差异数据的大小的帧间预测变量；

将所述帧内预测变量与所述帧间预测变量进行比较，并在最佳帧内和帧间预测模式中选择出的最佳预测模式中检测当前帧的表明差异数据的大小的变量；

根据表明所述差异数据的大小的变量在图像之中分发要分配给一个图像组的数据量，从而计算各图像的目标代码量，并根据所述目标代码量为所述编码部件的编码过程提供速率控制；

由解码部件接收通过正交变换、量化和变长编码过程从视频数据产生的编码数据，并对所述视频数据解码；以及

检测涉及所述编码数据的所述量化过程中一帧数据的平均量化标度与从所述解码部件输出的视频数据的图像单元中的一帧图像的编码数据的数据量之间的相乘值，

其中，当所述编码部件对从所述解码部件输出的视频数据编码时，不根据表明所述差异数据的大小的变量在图像之中分发要分配给一个图像组的数据量以计算各图像的目标代码量，也不根据所述目标代码量为所述编码部件的编码过程提供速率控制，但是根据所述相乘值在图像之中分发要分配给一个图像组的数据量，从而计算各图像的目标代码量，并根据所述目标代码量为所述编码部件的编码过程提供速率控制。