JP5122288B2

JP5122288B2 - 中間レイヤ残余値予測を用いて符号化されたビデオシーケンスを生成および符号化されたビデオシーケンスを復号化するための装置および方法

Info

Publication number: JP5122288B2
Application number: JP2007536022A
Authority: JP
Inventors: ハイコシュヴァルツ; デトレフマルペ; トーマスウィーガント
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2004-10-15
Filing date: 2005-09-21
Publication date: 2013-01-16
Anticipated expiration: 2025-09-21
Also published as: WO2006042612A1; JP2008517499A; EP1800488A1

Description

本発明は、ビデオ符号化システムに関し、特に、ビデオ符号化規格Ｈ．２６４／ＡＶＣまたは新しいＭＰＥＧビデオ符号化システムに関連して用いられるスケーラブルビデオ符号化システムに関する。

Ｈ．２６４／ＡＶＣ規格は、ＩＴＵ−Ｔのビデオ符号化専門家グループＶＣＥＧとＩＳＯ／ＩＥＣの動画像符号化専門家グループ（ＭＰＥＧ）とのビデオ標準化プロジェクトの結果である。この標準化プロジェクトの主たる目標は、非常に良好な圧縮特性を有し、同時にネットワークで使いやすいビデオ表現を生成する明瞭なビデオ符号化概念を提供することであって、これは、ビデオ電話のような「会話型」のアプリケーションおよび会話型でないアプリケーション（保存、放送、ストリーム転送）の双方を含む。

前述の規格ＩＳＯ／ＩＥＣ１４４９６−１０と別に、その規格に関するいくつかの発表がある。単なる例であるが、参考文献として、ラルフ・シェーファー（ＲａｌｆＳｃｈａｅｆｅｒ）、トーマス・ウィーガント（ＴｈｏｍａｓＷｉｅｇａｎｄ）およびハイコ・シュヴァルツ（ＨｅｉｋｏＳｃｈｗａｒｚ）の「新たなＨ．２６４−ＡＶＣ規格（ＥｍｅｒｇｉｎｇＨ．２６４−ＡＶＣｓｔａｎｄａｒｄ）」、ＥＢＵテクニカルレビュー（ＥＢＵＴｅｃｈｎｉｃａｌＲｅｖｉｅｗ）、２００３年１月がある。さらに、トーマス・ウィーガント（ＴｈｏｍａｓＷｉｅｇａｎｄ）、ゲーリーＪ．サリバン（ＧａｒｙＪ．Ｓｕｌｌｉｖａｎ）、ゲスレ・ブジョンテガート（ＧｅｓｌｅＢｊｏｎｔｅｇａａｒｄ）およびアジェイ・ロスラ（ＡｊａｙＬｏｔｈｒａ）の専門出版物「Ｈ．２６４／ＡＶＣビデオ符号化規格の概説（ＯｖｅｒｖｉｅｗｏｆｔｈｅＨ．２６４／ＡＶＣＶｉｄｅｏＣｏｄｉｎｇＳｔａｎｄａｒｄ）」、ビデオ技術の回路およびシステムについてのＩＥＥＥトランザクション（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ）、２００３年７月、および、デトレフ・マープ（ＤｅｔｌｅｖＭａｒｐｅ）、ハイコ・シュヴァルツ（ＨｅｉｋｏＳｃｈｗａｒｚ）およびトーマス・ウィーガント（ＴｈｏｍａｓＷｉｅｇａｎｄ）の専門出版物「Ｈ．２６４／ＡＶＣビデオ圧縮規格におけるコンテクストベースの適応バイナリ算術符号化（Ｃｏｎｔｅｘｔ−ｂａｓｅｄａｄａｐｔｉｖｅＢｉｎａｒｙＡｒｉｔｈｍｅｔｈｉｃＣｏｄｉｎｇｉｎｔｈｅＨ．２６４／ＡＶＣＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎＳｔａｎｄａｒｄ）」、ビデオ技術の回路およびシステムについてのＩＥＥＥトランザクション（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ）、２００３年９月は、そのビデオ符号化規格の種々特徴について細かくその概要を記載している。

しかしながら、さらによく理解するために、図９〜図１１を参照しながらビデオ符号化／復号化アルゴリズムの概要を説明する。

図９は、ビデオコーダの全体構造を示し、それは一般に２つの異なるステージで構成されている。通常、第１ステージでは、一般的なビデオ関連の操作が行われて出力データが生成され、このデータは、図９の８０で示すように第２ステージでエントロピー符号化される。このデータは、データ８１ａ、量子化変換係数８１ｂおよび動きデータ８１ｃからなり、これらのデータ８１ａ、８１ｂ、８１ｃは、エントロピーコーダ８０に送られ、エントロピーコーダ８０の出力端に符号化されたビデオ信号が生成される。

具体的には、入力ビデオ信号はそれぞれ区分化されマクロブロックに分割され、各マクロブロックは１６×１６ピクセルを有する。次に、マクロブロックのスライス群およびスライスへの関連付けが選択され、これにより、図８に示すように、各々のスライスの各々のマクロブロックは、操作ブロックのネット毎に処理される。なお、ビデオピクチャに各種のスライスが存在する場合、マクロブロックを効率的に並行処理することが可能であることに注意すべきである。マクロブロックのスライス群およびスライスへの関連付けは、図８のブロックコーダ制御８２を介して実行される。各種のスライスがあって以下のように定義される。
Ｉスライス：Ｉスライスは、スライスの全てのマクロブロックがイントラ予測を用いて符号化されるスライスである。
Ｐスライス：Ｐスライスの特定のマクロブロックは、Ｉスライスの符号化タイプに加えて、予測ブロックごとに少なくとも１つの動き補償予測信号を有するインター予測を用いて符号化することも可能である。
Ｂスライス：Ｂスライスの特定のマクロブロックは、Ｐスライスで利用可能なコーダタイプに加えて、予測ブロックごとに２つの動き補償予測信号を有するインター予測を用いて符号化することも可能である。

上述の３つのコーダタイプは、以前の規格のタイプと非常に似ているが、後述するように参照ピクチャを用いるという点が異なる。次の２つのコーダタイプは、Ｈ．２６４／ＡＶＣ規格における新しいものである。
ＳＰスライス：それは、スイッチＰスライスとも言われ、異なる事前に符号化されたピクチャの間での効率的な切り替えが可能なように符号化される。
ＳＩスライス：ＳＩスライスは、スイッチＩスライスとも言われ、直接ランダムアクセスおよびエラー修復目的のために、ＳＰスライス中でマクロブロックの正確な適合を可能にする。

概して言えば、スライスはマクロブロックのシーケンスであり、マクロブロックは、フレキシブルなマクロブロックの順番ＦＭＯの機能が用いられない場合に、ラスタースキャンの順に処理され、それもその規格に定義されている。図１１に示すように、ピクチャを１つまたはいくつかのスライスに区分化することができる。このように、ピクチャは１つまたはいくつかのスライスの集合となる。ビットストリームからはスライスのシンタックスエレメントを分析（シンタックス分析）することができ、コーダとデコーダとに用いられる参照ピクチャが同一であれば、他のスライスからのデータを必要とせずに、スライスが表現するピクチャの範囲内でサンプルの値を正しく復号化できるので、そういった意味でスライスは相互に独立している。ただし、スライス境界間のデブロッキングフィルタを用いるため、他のスライスからの特定の情報が必要となることがある。

ＦＭＯ機能は、スライス群の概念を用いて、ピクチャを、スライスおよびマクロブロックに区分化する方法を変更する。各々のスライス群は、マクロブロックからスライス群へのマッピングによって定義されるマクロブロックのセットであり、ピクチャパラメータセットとスライスヘッダからの特定の情報とで特定される。このマクロブロックのスライス群へのマッピングは、ピクチャ中の各々のマクロブロックのスライス群識別番号で構成され、これにより関連マクロブロックがどのスライス群に属するかが特定される。各々のスライス群は、１つまたはいくつかのスライスに区分化でき、スライスは、同一のスライス群の中のマクロブロックのシーケンスであり、個別のスライス群のマクロブロックのセット内でラスタサンプリングの順に処理される。

各々のマクロブロックを、スライスコーダタイプに応じて１つまたはいくつかのコーダタイプにおいて送信することができる。全てのスライスコーダタイプにおいて、イントラ_-4×₄またはイントラ_-16×₁₆と言われるタイプのイントラ符号化がサポートされ、さらに、クロマ予測モードおよびＩ_-PCM予測モードがサポートされている。

イントラ_-4×₄モードは、各々の４×４クロマブロックの個別の予測に基づいており、際立って詳細なピクチャ部分を符号化するために適している。他方、イントラ_-16×₁₆モードは、１６×１６クロマブロック全体の予測を実行し、ピクチャの「ソフト」領域を符号化するためにより適している。

これら２つのクロマ予測タイプに加え、別のクロマ予測が実行される。イントラ_-4×₄およびイントラ_-16×₁₆に代わるタイプとして、Ｉ_-4×₄コーダタイプでは、コーダは予測および変換符号化を単にスキップし、その代わりに符号化されたサンプルの値を直接送信することができる。Ｉ_-PCMモードは、以下の目的を有する。すなわち、そのモードは、コーダがサンプルの値を正確に表現できるようにする。そのモードは、非常に変則的な画面内容の値を、データを拡大することなく正確に表現する方法を提供する。さらに、そのモードは、コーダが、符号化効率を損なうことなくマクロブロックを取り扱うために必要とする、ビット数に対する厳格な境界を決定することを可能にする。

イントラ予測が変換領域内において実行されていた従前のビデオ符号化規格（すなわちＨ．２６３プラスおよびＭＰＥＧ−４ビジュアル）と対照的に、Ｈ．２６４／ＡＶＣにおけるイントラ予測は、予測されるブロックの左側および上部にそれぞれ位置する既に符号化されたブロックの隣接サンプルを参照しながら、常に空間領域で実行される（図１０）。送受信エラーが発生したような特定の状況において、これはエラーの伝播につながることがあり、このエラー伝播は、イントラ符号化されたマクロブロック中の動き補償により引き起こされる。このように、イントラ符号化モードによる信号化には限界があり、イントラ符号化された隣接マクロブロックの予測が可能なだけである。

イントラ_-4×₄モードを用いた場合、空間的に隣接するサンプルの各々の４×４ブロックが予測される。隣接するブロック中にあり、先に復号化されたサンプルを用いて、４×４ブロックの１６のサンプルが予測される。各々の４×４ブロックに対し９つの予測モードのいずれか１つを用いることができる。「ＤＣ予測」（これは、ある値を用いて４×４ブロック全体の予測をする）に加えて、８方向の予測モードが特定される。これらのモードは、異なった角度のエッジといったピクチャ中の方向構造を予測するために適している。

イントラマクロブロックコーダタイプに加えて、各種の予測または動き補償コーダタイプが、Ｐマクロブロックタイプとして特定されている。Ｐマクロブロックのどのタイプも、マクロブロックをブロックフォームに区分化する特定のパーティションに対応し、そのフォームが動き補償予測に用いられる。１６×１６、１６×８、８×８または８×１６のルマブロックサイズのサンプルのパーティションは、シンタックスでサポートされる。８×８サンプルのパーティションの場合、各々の８×８パーティションに対して追加シンタックスエレメントが送信される。このシンタックスエレメントは、それぞれの８×８パーティションを、さらに８×４、４×８または４×４ルマサンプルおよび対応するクロマサンプルのパーティションに区分化するかどうかを特定している。

予測符号化された各々のＭ×Ｍルマブロックに対する予測信号は、並進動きベクトルおよびピクチャ参照インデックスにより特定されたそれぞれの参照ピクチャの領域をシフトすることによって得られる。そのため、４つの８×８パーティションを用いてマクロブロックを符号化する場合、さらに、各々の８×８パーティションを４つの４×４パーティションに区分化する場合、単一のＰマクロブロックに対し最大量１６の動きベクトルをいわゆるモーションフィールド内で送信することができる。

Ｈ．２６４／ＡＶＣでは、量子化パラメータスライスＱＰを用いて、変換係数の量子化が算出される。このパラメータは、５２個の値を取ることができる。これらの値は、量子化パラメータに関する値１の増加が、量子化ステップ幅の約１２％の増加となるように処理される。このことは、量子化パラメータが６増大すると、量子化ステップ幅は丁度２倍になることを意味する。なお、ステップサイズが約１２％変化することは、ビットレートが約１２％低下することでもある。

ブロックの量子化変換係数は、一般にジグザグ経路でサンプリングされ、エントロピー符号化法を用いて処理される。クロマ成分の２×２ＤＣ係数は、ラスタスキャンシーケンスでサンプリングされ、Ｈ．２６４／ＡＶＣ内での全ての逆変換操作は、１６ビットの整数値の加算およびシフト操作だけを用いて実施することができる。

図９を参照すると、入力信号は、まず、あらゆるピクチャに対し、ビデオシーケンスのピクチャ毎に１６×１６ピクセルのマクロブロックに区分化される。次に、各ピクチャは減算器８４に送られ、減算器は、そのピクチャから、コーダに内蔵されたデコーダ８５から供給された元のピクチャを差し引く。差し引き結果は、空間領域における残余信号であり、次に、これが変換されスケールされさらに量子化され（ブロック８６）、ライン８１ｂ上に量子化変換係数が得られる。減算器８７４に供給される減算信号を生成するために、量子化変換係数は、最初に、再スケールされさらに逆変換され（ブロック８７）、加算器８８に送られ、その出力がデブロッキングフィルタ８９に供給される。この出力ビデオ信号は、たとえばデコーダによって復号化され、たとえば制御のために、デブロッキングフィルタの出力端でモニタすることができる（出力端９０）。

出力端９０における復号化された出力信号を用いて、ブロック９１において動き推定が実行される。図９に見られるように、ブロック９０における動き推定のため、元のビデオ信号のピクチャが供給される。この規格では、２つの異なる動き推定、すなわち前方向動き推定および後方向動き推定が可能である。前方向動き推定においては、現在のピクチャの動きは以前のピクチャに関して推定される。一方、後方向動き推定においては、現在のピクチャの動きは将来のピクチャを用いて推定される。動き推定（ブロック９１）の結果は、動き補償ブロック９２に送られ、ここで、具体的に、図９の場合のようにスイッチ９３がインター予測モードに切り替えられたときに、動き補償インター予測が実行される。一方、スイッチ９３がイントラフレーム予測に切り替えられているときには、ブロック４９０を用いてイントラフレーム予測が実行される。したがって、動きデータは必要でない、というのはイントラフレーム予測においては動き補償は実行されないからである。

動き推定ブロック９１は、動きデータおよびモーションフィールドをそれぞれ生成し、動きデータおよびモーションフィールドは、動きベクトルで構成されており、これらはそれぞれデコーダに送信されて、対応する逆予測、すなわち、変換係数と動きデータを用いた再構成を実施することができる。なお、前方向予測の場合には、動きベクトルを、直前のピクチャおよび先行するいくつかのピクチャからそれぞれ計算することができる。後方向予測の場合には、直後に隣接する将来のピクチャを使用して、当然、さらに将来のピクチャも使用して現在のピクチャを計算することができる。

図９に示したビデオ符号化概念の不利な点として、簡単なスケーラビリティを備えていないことがある。この分野で公知のように、「スケーラビリティ」という用語は、コーダがスケールされたデータストリームを送信するコーダ／デコーダ概念を言う。スケールされたデータストリームは、ベーススケーリングレイヤおよび１つまたはいくつかの拡張スケーリングレイヤを含む。ベーススケーリングレイヤは、一般に低品質であるが低いデータレートでもある符号化される信号の表現を含む。拡張スケーリングレイヤは、ビデオ信号のさらなる表現を含み、通常、ベーススケーリングレイヤにおけるビデオ信号の表現と併せて、ベーススケーリングレイヤに関して改良された品質の表現を提供する。反面、拡張スケーリングレイヤには、当然、個別のビット要求量があり、レイヤを拡張する毎に、符号化される信号を表すビット数は増加する。

設計および性能によっては、デコーダは、ベーススケーリングレイヤだけを復号化し、符号化された信号により表されるピクチャ信号の比較的品質の悪い表現を提供する。しかし、さらなるスケーリングレイヤを「追加」するごとに、デコーダは、（ビットレートを犠牲にして）段階的に信号の品質を向上する。

実施およびコーダからデコーダへの伝送路によっては、少なくともベーススケーリングレイヤだけが送信される、というのは通常ベーススケーリングレイヤのビットレートはとても低いので、かなり制限された伝送路でも十分だからである。伝送路に、アプリケーションに対するそれ以上のバンド幅がない場合、ベーススケーリングレイヤだけが送信され、拡張スケーリングレイヤは送信されないことになる。その結果、デコーダは、ピクチャ信号の低品質な表現しか生成できない。スケーリングが行われず、データレートが高すぎて伝送システムが対応できないような場合に比べれば、低品質の表現にはそれなりの利点がある。１つまたはいくつかの拡張レイヤの送信が可能な伝送路の場合には、コーダはデコーダに１つまたはいくつかの拡張レイヤを送信することになり、必要に応じて段階的に出力ビデオ信号の品質を向上することができる。

ビデオシーケンスの符号化に関して、２つの異なるスケーリングに区別することができる。１つのスケーリングは時間スケーリングであり、ビデオシーケンスの全てのビデオフレームを送信せず、データレートを減らすために、たとえば、２番目毎、３番目毎、４番目毎などにだけ送信する。

もう１つのスケーリングは、ＳＮＲスケーラビリティ（ＳＮＲ＝信号対ノイズ比）であり、各々のスケーリングレイヤ、たとえば、ベーススケーリングレイヤと、第１、第２、第３、…拡張スケーリングレイヤとの双方が、全ての時間情報を含むがその品質は違っている。このように、ベーススケーリングレイヤは、低いデータレートであるが低い信号ノイズ比を有し、これに段階的に１つずつ拡張スケーリングレイヤを加えることによって、この信号ノイズ比を改善することができる。

図９に示したコーダ概念は、残余値だけが減算器８４によって生成され、その後処理されるという事実に基づいている点に問題がある。これらの残余値は、図９に示した装置の中で予測アルゴリズムに基づいて計算され、この装置は、ブロック８６、８７、８８、８９、９３、９４および８４を用いた閉ループを形成しており、量子化パラメータは、この閉ループに、すなわちブロック８６、８７に入力される。これでたとえば単純なＳＮＲスケーラビリティが実施された場合、あらゆる予測残余信号は、最初に粗い量子化ステップ幅で量子化され、次に、拡張レイヤを用いて、段階的により細かな量子化ステップ幅に量子化されることになり、以下のような結果をもたらすことになろう。逆量子化および予測に起因して、特に、一方で元のピクチャ、他方で量子化ピクチャを用いて行われる動き推定（ブロック９１）および動き補償（ブロック９２）に関して、コーダおよびデコーダの双方で量子化器のステップ幅の「発散」が生じる。このことにより、コーダ側で拡張スケーリングレイヤを生成することに深刻な問題が生じることになる。さらに、デコーダ側での拡張スケーリングレイヤの処理については、少なくともＨ．２６４／ＡＶＣ規格に定義されたエレメントに関しては不可能になる。この理由は、前記のように図９において示したビデオコーダ中の量子化が含まれている閉ループにある。

２００３年１２月２日〜５日のサンディエゴでの第９回ＪＶＴ会議で発表された、ハイコ・シュヴァルツ（ＨｅｉｋｏＳｃｈｗａｒｚ）、デトレフ・マープ（ＤｅｔｌｅｖＭａｒｐｅ）およびトーマス・ウィーガント（ＴｈｏｍａｓＷｉｅｇａｎｄ）の標準化文書ＪＶＴ−Ｉ０３２ｔ１、題名「Ｈ．２６４／ＡＶＣのＳＮＲスケーラブル拡張（ＳＮＲ−ＳｃａｌａｂｌｅＥｘｔｅｎｓｉｏｎｏｆＨ．２６４／ＡＶＣ）」の中で、Ｈ．２６４／ＡＶＣに対するスケーラブル拡張が発表されており、これには、（同等なまたは異なる時間的精度を有する）時間および信号ノイズ比の双方に関するスケーラビリティが含まれている。そこでは、時間サブバンドパーティションのリフティング表現が紹介されており、動き補償予測に対し既知の方法の使用が可能となっている。

Ｊ．−Ｒ．オーム（Ｏｈｍ）の「ＭＣＴＦフレーム間ウェーブレット構造の複雑性および遅延解析（ＣｏｍｐｌｅｘｉｔｙａｎｄｄｅｌａｙａｎａｌｙｓｉｓｏｆＭＣＴＦｉｎｔｅｒｆｒａｍｅｗａｖｅｌｅｔｓｔｒｕｃｔｕｒｅｓ）」、ＩＳＯ／ＩＥＣＪＴＣ１／ＷＧ１１Ｄｏｃ．Ｍ８５２０、２００２年７月の中に、ビデオコーダアルゴリズムに基づくウェーブレットが記載されており、ウェーブレット解析およびウェーブレット合成のため、リフティング実施が用いられている。また、Ｄ．トーブマン（Ｔａｕｂｍａｎ）の「ビデオの逐次的改善：基本問題、これまでの努力および新しい方向（Ｓｕｃｃｅｓｓｉｖｅｒｅｆｉｎｅｍｅｎｔｏｆｖｉｄｅｏ：ｆｕｎｄａｍｅｎｔａｌｉｓｓｕｅｓ，ｐａｓｔｅｆｆｏｒｔｓａｎｄｎｅｗｄｉｒｅｃｔｉｏｎｓ）」、ＳＰＩＥ（ＶＣＩＰ‘０３）のプロシーディング、２００３年、第５１５０巻、６４９−６６３頁にもスケーラビリティについてのコメントがあるが、コーダの大幅な変更が必要と記載されている。本発明によれば、一方で、スケーラビリティ可能性を保持し、他方で、具体的には例えば動き補償に対し、その規格に適合するエレメントに基づくことが可能なコーダ／デコーダ概念を実現する。

図３に関してコーダ／デコーダのさらなる詳細を参照する前に、まず、コーダ側の基本的リフティングスキームおよびデコーダ側の逆リフティングスキームについて、それぞれ図４に関して説明する。リフティングスキームとウェーブレット変換との結合のバックグラウンドの詳しい説明については、Ｗ．スウェルデンス（Ｓｗｅｌｄｅｎｓ）の「双直交ウェーブレットのカスタム設計構造（Ａｃｕｓｔｏｍｄｅｓｉｇｎｃｏｎｓｔｒｕｃｔｉｏｎｏｆｂｉｏｒｔｈｏｇｏｎａｌｗａｖｅｌｅｔｓ）」、Ｊ．Ａｐｐｌ．Ｃｏｍｐ．Ｈａｒｍ．Ａｎａｌ．、１９９６年、第３巻（Ｎｏ．２）、１８６−２００頁、およびＩ．ドウベチーズ（Ｄａｕｂｅｃｈｉｅｓ）およびＷ．スウェルデンス（Ｓｗｅｌｄｅｎｓ）の「ウェーブレット変換のリフティングステップへのファクタリング（ＦａｃｔｏｒｉｎｇｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍｓｉｎｔｏｌｉｆｔｉｎｇＳｔｅｐｓ）」、Ｊ．ＦｏｕｒｉｅｒＡｎａｌ．Ａｐｐｌ．、１９９８年、第４巻（Ｎｏ．３）、２４７−２６９頁を参照することができる。一般に、リフティングスキームは、多相分解ステップ、予測ステップおよび更新ステップの３つのステップで構成される。

分解ステップは、入力側データストリームを、下側ブランチ４０ａに対する同一の第１のコピーと、上側ブランチ４０ｂに対する同一のコピーとに区分化するステップを含む。さらに、上側ブランチ４０ｂの同一のコピーは時間ステージ（ｚ^-1）によって遅延され、奇数インデックスｋを有するサンプルＳ_2k+1と偶数インデックスを有するサンプルＳ_2kとは、同様に、それぞれのデシメータおよびダウンサンプラー４２ａ、４２ｂをそれぞれ通過する。デシメータ４２ａおよび４２ｂは、２番目毎のサンプルを排除することによって、それぞれ、上側および下側ブランチ４０ｂ、４０ａにおけるサンプルの数を削減する。

第２領域ＩＩは、予測ステップと関係しており、予測演算子４３および減算器４４を含む。第３領域は、更新ステップであり、更新演算子４５および加算器４６を含む。出力側には、２つの正規化器４７、４８があり、ハイパス信号ｈ_kを正規化し（正規化器４７）、正規化器４８を通してローパス信号ｌ_kを正規化する。

具体的には、多相分解では、所定の信号ｓ［ｋ］は、偶数および奇数サンプルに区分化される。相関構造は、通常、局所的特徴を示すので、偶数および奇数の多相成分は、高い相関性を有する。このように、最終ステップにおいて、整数サンプルを用いて、奇数サンプルの予測（Ｐ）が実行される。各々の奇数サンプルｓ_odd［ｋ］＝ｓ［２ｋ＋１］に対応する予測演算子（Ｐ）は、隣接する偶数サンプルｓ_even［ｋ］＝ｓ［２ｋ］の一次結合である、すなわち、

となる。

予測ステップの結果として、奇数サンプルは、これらそれぞれの予測残余値で置き換えられ、

となる。

なお、Ｉ．ドウベチーズ（Ｄａｕｂｅｃｈｉｅｓ）およびＷ．スウェルデンス（Ｓｗｅｌｄｅｎｓ）の「ウェーブレット変換のリフティングステップへのファクタリング（Ｆａｃｔｏｒｉｎｇｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍｓｉｎｔｏｌｉｆｔｉｎｇｓｔｅｐｓ）」、Ｊ．ＦｏｕｒｉｅｒＡｎａｌ．Ａｐｐｌ．、１９９８年、第４巻（Ｎｏ．３）、２４７−２６９頁の中で説明されているように、予測ステップは、２チャンネルフィルタバンクによるハイパスろ波を実行することに等しい。

リフティングスキームの第３ステップにおいて、偶数サンプルｓ_even［ｋ］を予測残余値ｈ［ｋ］の一次結合で置き換えることによって、ローパスろ波が実行される。それぞれの更新演算子Ｕは、次式

により与えられる。

偶数サンプルを次式

で置き換えることによって、所定の信号ｓ［ｋ］を、最終的にｌ（ｋ）およびｈ（ｋ）で表すことができ、各信号は、半分のサンプルレートを有する。更新ステップおよび予測ステップの双方は完全に可逆的なので、対応する変換は、厳密にサンプリングされた完全な再構成フィルタバンクと解釈することができる。実際に、ウェーブレットフィルタの一切の双直交ファミリを、１つまたはいくつかの予測ステップおよび１つまたはいくつかの更新ステップによって、実現することができる。前記で説明したように、ローパスおよびハイパス成分を正規化するため、正規化器４７および４８には、適切に選択されたスケーリングファクタＦ_lおよびＦ_hが供給される。

逆リフティングスキームは、合成フィルタバンクに相当し、図４の右側に示されている。これは、単に、逆の順に逆符号向きの予測および更新演算子のアプリケーションで構成されており、その後に偶数および奇数の多相成分を用いた再構成が続く。具体的には、図４の右側のデコーダは、この場合もやはり、第１デコーダ領域Ｉ、第２デコーダ領域ＩＩおよび第３デコーダ領域ＩＩＩを含む。第１デコーダ領域では、更新演算子４５の作用がキャンセルされる。これは、さらなる正規化器５０によって正規化されているハイパス信号を、更新演算子４５に供給することで達成される。次に、デコーダ側の更新演算子４５の出力信号は、図４の加算器４６と対照的な減算器５２に供給される。同様に、予測器４３の出力信号が処理され、次に、その出力信号はコーダ側のように減算器ではなく、加算器５３に供給される。次に、ファクタ２による信号のアップサンプリングが各々のブランチで行われる（ブロック５４ａ、５４ｂ）。次に、上側ブランチは１サンプル分だけ将来に向かってシフトされ、これは下側ブランチを遅延させることと同じであって、加算器５５で上側ブランチおよび下側ブランチ上のデータストリームの加算が実行され、合成フィルタバンクの出力端において再構成された信号ｓ_kが得られる。

いくつかのウェーブレットは、それぞれ、予測器４３および更新演算子４５によって実施することができる。いわゆるヘアーウェーブレットを実施する場合、予測演算子および更新演算子は次式で与えられ、

ここで、

であり、これらの式は、それぞれ、ヘアーフィルタの非正規化ハイパスおよびローパス（分析）出力信号に対応する。

５／３双直交スプラインウェーブレットの場合は、このウェーブレットのローパスおよびハイパス分析フィルタは、それぞれ５つおよび３つのフィルタタップを有し、対応するスケーリング関数は２次Ｂスプラインである。ＪＰＥＧ２０００のような、静止ピクチャに対するコーダアプリケーションにおいて、このウェーブレットは時間サブバンドコーダスキームに用いられる。リフティング環境において、対応する５／３変換の予測および更新演算子は次式

で与えられる。

図３は、コーダ側およびデコーダ側の双方が典型的な４つのフィルタレベルを有するコーダ／デコーダ構造のブロック図である。コーダに関しては、図３から、第１フィルタレベル、第２フィルタレベル、第３フィルタレベルおよび第４フィルタレベルとも同様であることが分かる。また、デコーダに関しても各フィルタレベルは同じである。コーダ側において、各々のフィルタレベルは、中心エレメントとして、後方向予測器Ｍ_i0および前方向予測器Ｍ_i1６１を含む。後方向予測器６０は、原理的に図４の予測器４３に相当し、前方向予測器６１は、図４の更新演算子に相当する。

なお、図４と違って、図４は、サンプルのストリームに関し、あるサンプルは奇数インデックス２ｋ＋１を有し、別のサンプルは偶数インデックス２ｋを有している。しかしながら、図１に関して既に説明したように、図３の表記は、サンプルの群ではなく、ピクチャの群に関するものである。あるピクチャが、たとえばいくつかのサンプルおよびピクチャをそれぞれ有する場合、そのピクチャ全体が送られる。次に、次のピクチャも送り込まれ、以下続く。このように、奇数および偶数サンプルはもうないが、奇数および偶数ピクチャはある。本発明によれば、奇数および偶数サンプルについて述べたリフティングスキームは、奇数および偶数ピクチャにそれぞれ適用され、これらピクチャの各々は複数のサンプルを有する。このように、図４のサンプル毎の予測器４３は、後方向動き補償予測６０となり、サンプル毎の更新演算子４５は、ピクチャ毎の前方向動き補償予測６１となる。

なお、動きフィルタは、動きベクトルで構成され、ブロック６０および６１に対する係数を表しており、２つの連続する関連ピクチャに対して計算され、さらにコーダからデコーダへのサイド情報として送信される。しかしながら、ここで、図９を参照して説明したように、Ｈ．２６４／ＡＶＣ規格で標準化されているエレメント９１、９２を用いて容易に、モーションフィールドＭ_i0およびモーションフィールドＭ_i1を計算できることは本発明の概念の主な利点である。このように、本発明の概念では、新しい予測器／更新演算子を用いる必要はなく、機能性および効率性について検証され確認され、ビデオ規格に記載された既存のアルゴリズムを、前方向または後方向の動き補償に用いることができる。

具体的には、図３に示された使用フィルタバンクの一般的構造は、入力端６４に送り込まれた１６ピクチャの群のビデオ信号の時間的分解を示す。この分解は、ビデオ信号の２進の時間的分解であり、図３に示され、４つのレベル２⁴＝１６のピクチャを有する実施の形態、すなわち１６ピクチャの群サイズの実施の形態において、最小の時間的解像度を有する表現、すなわち、出力端２８ａおよび２８ｂからの信号を達成することが必要である。このように、１６ピクチャをグループ化すれば、１６ピクチャの遅延につながり、このことにより、図３に示す４つのレベルの概念では、インタラクティブなアプリケーションに対していろいろ問題が生じる。このように、インタラクティブなアプリケーションを狙いとするのであれば、４または８ピクチャの群のようなもっと小さなピクチャの群を形成することが望ましい。次に、それに応じて遅延も低減され、インタラクティブなアプリケーションへの使用も可能となる。保存目的等のように双方向性が必要でない場合には、群中のピクチャ数すなわち群サイズを、それに応じて３２、６４などの数に増大することができる。

このように、ヘアベースでの動き補償リフティングスキームのインタラクティブなアプリケーションが用いられ、これはＨ．２６４／ＡＶＣ中にあるように後方向動き補償予測（Ｍ_i0）からなり、前方向動き補償（Ｍ_i1）を含む更新ステップをさらに含む。予測ステップおよび更新ステップの双方は、Ｈ．２６４／ＡＶＣに示されているように、動き補償処理を用いる。さらに、動き補償ばかりでなく、図９に参照番号８９で示されているデブロッキングフィルタ８９も用いられる。

第２フィルタレベルは、同様に、ダウンサンプラー６６ａ、６６ｂ、減算器６９、後方向予測器６７、前方向予測器６８および加算器７０、ならびに、第２レベルの第１および第２ハイパスピクチャを追加処理手段の出力部に出力するためのその追加処理手段を含み、第２レベルの第１および第２ローパスピクチャは、加算器７０の出力端に出力される。

さらに、図３のコーダは、第３レベルおよび第４レベルを含み、１６ピクチャの群は第４レベルの入力端６４に送られる。第４レベルで、ＨＰ４とも称するハイパス出力端７２からは、量子化パラメータＱによって量子化され、これに応じて処理された８つのハイパスピクチャが出力される。同様に、８つのローパスピクチャは、第４フィルタレベルのローパス出力端７３に出力され、第３フィルタレベルの入力端７４に送り込まれる。このレベルも、同様に、ＨＰ３とも称するハイパス出力端７５に４つのハイパスピクチャを生成し、さらにローパス出力端７６に４つのローパスピクチャを生成するために有効であり、これは第２フィルタレベルの入力端１０に送り込まれ分解される。

ここで、あるフィルタレベルで処理されるピクチャの群は、必ずしも元のビデオシーケンスに直接由来するビデオピクチャである必要はなく、１段上のフィルタレベルによってそのフィルタレベルのローパス出力端から出力されるローパスピクチャとすることができる。

さらに、単に、第４フィルタレベルを削除してピクチャの群を入力端７４に送り込むだけで、図３に示した１６ピクチャに対するコーダ概念を容易に８ピクチャに低減することができる。同様に、図３に示した概念を、第５フィルタレベルを加え、第５フィルタレベルのハイパス出力端から１６ハイパスピクチャを出力し、第５フィルタレベルの出力端の１６ローパスピクチャを第４フィルタレベルの入力端６４に送り込むことによって、３２ピクチャの群に拡張することも可能である。

コーダ側のツリーのような概念を、デコーダ側にも適用するが、今度は、コーダ側のように高レベルからより低レベルへではなく、デコーダ側では、低レベルからより高レベルへの処理となる。そのため、データストリームは、概略的にネットワーク抽象化レイヤ１００と呼ぶ伝送媒体から受信されるが、受信されたビットストリームは、まず、逆向き追加処理手段を用いて逆向き追加処理され、図３の手段３０ａの出力端に第１レベルの第１ハイパスピクチャの再構成されたバージョンおよび図３のブロック３０ｂの出力端に第１レベルのローパスピクチャの再構成されたバージョンが得られる。次に、図４の右半分と類似のやり方で、まず、前方向動き補償予測が予測器６１を介して逆処理され、次に予測器６１の出力信号がローパス信号の再構成されたバージョンから差し引かれる（減算器１０１）。

減算器１０１の出力信号は後方向補償予測器６０に送り込まれ、予測結果が生成されて、これが、加算器１０２によりハイパスピクチャの再構成されたバージョンに加えられる。次に、下側ブランチ１０３ａ、１０３ｂ中の双方の信号は、アップサンプラ１０４ａおよび１０４ｂを用いて２倍のサンプルレートにもたらされ、このとき、上側ブランチの信号は、実施に応じて、遅延または［加速］される。なお、そのアップサンプリングは、ブリッジ１０４ａ、１０４ｂによって、単に、ピクチャあたりのサンプル数に対応する数のゼロを挿入することによって実行される。上側ブランチ１０３ｂでは、下側ブランチ１０３ａに対しピクチャがｚ^-1で示すエレメントによって遅延されシフトするため、加算器１０６の加算により、加算器１０６の出力側に、２つの第２レベルのローパスピクチャが連続して発生する。

次に、第１および第２の第２レベルのローパスピクチャの再構成されたバージョンは、デコーダ側の第２レベルの逆フィルタに送り込まれ、同じ実施の逆フィルタバンクによって、送信された第２レベルのハイパスピクチャと再び結合され、第２レベルの出力端１０１に４つの第３レベルのローパスピクチャのシーケンスが得られる。４つの第３レベルのローパスピクチャは、次に、第３レベルの逆フィルタレベルによって、送信されてきた第３レベルのハイパスピクチャと結合され、第３レベルの逆フィルタの出力端１１０に、連続したフォーマットの８つの第４レベルのローパスピクチャを得る。次に、これら８つの第３レベルのローパスピクチャは、同様に、第４レベルの逆フィルタによって、入力端ＨＰ４を介して伝送媒体１００から受信した８つの第４レベルのハイパスピクチャと結合され、第１レベルに関して説明したように、第４レベルの逆フィルタの出力端１１２に、再構成された１６ピクチャの群を得る。

このように、分析フィルタバンクの各ステージ毎に、元の複数のピクチャまたは１つ上位のレベルで生成されたローパス信号を表す複数のピクチャのうちのいずれかの２つのピクチャが、ローパス信号とハイパス信号とに分解される。ローパス信号は、入力ピクチャに共通する特徴を表現すると考えることができ、ハイパス信号は、入力ピクチャの間の違いを表現すると考えることができる。合成フィルタバンクの対応するステージでは、２つの入力ピクチャは、ローパス信号とハイパス信号とを用いて再び再構成される。合成ステップでは、分析ステップの逆操作が実行され、分析／合成フィルタバンク（当然ながら量子化は含まない）によって完全な再構成が保証される。

発生する損失は、２６ａ、２６ｂ、１８のような追加処理手段における量子化に起因するものだけである。非常に細かい量子化を行えば、良好な信号ノイズ比が達成される。反対に、量子化を非常に粗く実行すれば、相対的に悪い信号ノイズ比となるが、反面、低いビットレートすなわち低いビット要求が達成される。

図３に示した概念において、ＳＮＲスケーラビリティがなくても、時間スケーリング制御を実施することができる。そこで、時間スケーリング制御１２０が用いられ、それは、その入力側に、ハイパスおよびローパスのそれぞれの出力、ならびに、追加処理手段（２６ａ、２６ｂ、１８…）からのそれぞれの出力を得て、これらの部分的データストリームＴＰ１、ＨＰ１、ＨＰ２、ＨＰ３、ＨＰ４から、スケールされたデータストリームを生成するように形成される。部分的データストリームは、ベーススケーリングレイヤ中に第１ローパスピクチャおよび第１ハイパスピクチャの処理されたバージョンを有する。次に、第２ハイパスピクチャの処理されたバージョンを第１拡張スケーリングレイヤに適応することができる。第３レベルのハイパスピクチャの処理されたバージョンを第２拡張スケーリングレイヤに適応することができ、また、第４レベルのハイパスピクチャの処理されたバージョンは第３拡張スケーリングレイヤに導入される。これにより、デコーダは、ベーススケーリングレイヤだけに基づいて、時間低品質で低レベルのローパスピクチャのシーケンス、すなわち、ピクチャの群毎に２つの第１レベルのローパスピクチャを生成することがまず可能となる。各拡張スケーリングレイヤを加える毎に、群毎の再構成されたピクチャの数は常に２倍になる。通常、デコーダの機能は、スケーリング制御によって制御され、制御は、データストリーム中にいくつのスケーリングレイヤが含まれているか、復号化の際、デコーダはいくつのスケーリングレイヤを考慮する必要があるかを、それぞれ検知するように形成されている。

２００３年１２月８日〜１２日のハワイ・ワイコロアでの第１０回ＪＶＴ会議で発表された、ハイコ・シュヴァルツ（ＨｅｉｋｏＳｃｈｗａｒｚ）、デトレフ・マープ（ＤｅｔｌｅｖＭａｒｐｅ）およびトーマス・ウィーガント（ＴｈｏｍａｓＷｉｅｇａｎｄ）のＪＶＴ文書ＪＶＴ−Ｊ０３５、題名「Ｈ．２６４／ＡＶＣのＳＮＲスケーラブル拡張（ＳＮＲ−ＳｃａｌａｂｌｅＥｘｔｅｎｓｉｏｎｏｆＨ．２６４／ＡＶＣ）」は、図３および図４に図示した時間的分解スキームのＳＮＲスケーラブル拡張を記載している。具体的には、時間スケーリングレイヤは個別の「ＳＮＲスケーリングサブレイヤ」に区分化され、ＳＮＲベースレイヤは、特定の時間スケーリングレイヤが第１のより粗い量子化ステップ幅で量子化されてＳＮＲベースレイヤを得るようにして得られる。次に、まず逆量子化が実行され、元の信号から逆量子化の結果信号を差し引いて差分信号が得られ、次に、これがより細かい量子化ステップ幅で量子化されて第２スケーリングレイヤが得られる。しかしながら、第２スケーリングレイヤは、そのより細かい量子化ステップ幅で再量子化され、元の信号から、再量子化の後に得られた信号を差し引いてさらなる差分信号が得られ、これも再び、より細かい量子化ステップ幅で量子化されて、第２ＳＮＲスケーリングレイヤとＳＮＲ拡張レイヤとがそれぞれ表現される。

このように、動き補償時間フィルタリング（ＭＣＴＦ）に基づく上述したスケーラビリティスキームは、時間スケーラビリティおよびＳＮＲスケーラビリティに関し、高い柔軟性を備えていることが分かる。しかしながら、ピクチャを最高品質で符号化する場合、これら複数のスケーリングレイヤの合計ビットレートが、スケーラビリティなしで達成可能なビットレートをはるかに超えてしまうという問題がまだ残っている。これら複数のスケーリングレイヤに対するサイド情報に起因して、スケーラブルコーダが、スケールされない場合のビットレートを全く達成できない可能性もある。しかしながら、複数のスケーリングレイヤを有するデータストリームのビットレートを、スケーリングされない場合のビットレートにできるだけ近付けるようにすべきではある。

さらに、スケーラビリティ概念では、全てのスケーラビリティタイプに対する高い柔軟性、すなわち、時間および空間とＳＮＲとの双方に関し、高い柔軟性を提供すべきである。

低解像度のピクチャは既に十分であるが、さらに高い時間的解像度が必要な場合に、高い柔軟性は特に重要である。このような状況は、たとえば、ボールに加えて多くの人間が同時に動くチームスポーツのビデオのようなピクチャの中で起こる早い変化などにより生じる。

ラルフ・シェーファー（ＲａｌｆＳｃｈａｅｆｅｒ）、トーマス・ウィーガント（ＴｈｏｍａｓＷｉｅｇａｎｄ）およびハイコ・シュヴァルツ（ＨｅｉｋｏＳｃｈｗａｒｚ）の「新たなＨ．２６４−ＡＶＣ規格（ＥｍｅｒｇｉｎｇＨ．２６４−ＡＶＣｓｔａｎｄａｒｄ）」、ＥＢＵテクニカルレビュー（ＥＢＵＴｅｃｈｎｉｃａｌＲｅｖｉｅｗ）、２００３年１月トーマス・ウィーガント（ＴｈｏｍａｓＷｉｅｇａｎｄ）、ゲーリーＪ．サリバン（ＧａｒｙＪ．Ｓｕｌｌｉｖａｎ）、ゲスレ・ブジョンテガート（ＧｅｓｌｅＢｊｏｎｔｅｇａａｒｄ）およびアジェイ・ロスラ（ＡｊａｙＬｏｔｈｒａ）の専門出版物「Ｈ．２６４／ＡＶＣビデオ符号化規格の概説（ＯｖｅｒｖｉｅｗｏｆｔｈｅＨ．２６４／ＡＶＣＶｉｄｅｏＣｏｄｉｎｇＳｔａｎｄａｒｄ）」、ビデオ技術の回路およびシステムについてのＩＥＥＥトランザクション（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ）、２００３年７月デトレフ・マープ（ＤｅｔｌｅｖＭａｒｐｅ）、ハイコ・シュヴァルツ（ＨｅｉｋｏＳｃｈｗａｒｚ）およびトーマス・ウィーガント（ＴｈｏｍａｓＷｉｅｇａｎｄ）の専門出版物「Ｈ．２６４／ＡＶＣビデオ圧縮規格におけるコンテクストベースの適応バイナリ算術符号化（Ｃｏｎｔｅｘｔ−ｂａｓｅｄａｄａｐｔｉｖｅＢｉｎａｒｙＡｒｉｔｈｍｅｔｈｉｃＣｏｄｉｎｇｉｎｔｈｅＨ．２６４／ＡＶＣＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎＳｔａｎｄａｒｄ）」、ビデオ技術の回路およびシステムについてのＩＥＥＥトランザクション（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ）、２００３年９月ハイコ・シュヴァルツ（ＨｅｉｋｏＳｃｈｗａｒｚ）、デトレフ・マープ（ＤｅｔｌｅｖＭａｒｐｅ）およびトーマス・ウィーガント（ＴｈｏｍａｓＷｉｅｇａｎｄ）の「Ｈ．２６４／ＡＶＣのＳＮＲスケーラブル拡張（ＳＮＲ−ＳｃａｌａｂｌｅＥｘｔｅｎｓｉｏｎｏｆＨ．２６４／ＡＶＣ）」、第９回ＪＶＴ会議の標準化文書ＪＶＴ−Ｉ０３２ｔ１、２００３年１２月２日〜５日、サンディエゴＪ．−Ｒ．オーム（Ｏｈｍ）の「ＭＣＴＦフレーム間ウェーブレット構造の複雑性および遅延解析（ＣｏｍｐｌｅｘｉｔｙａｎｄｄｅｌａｙａｎａｌｙｓｉｓｏｆＭＣＴＦｉｎｔｅｒｆｒａｍｅｗａｖｅｌｅｔｓｔｒｕｃｔｕｒｅｓ）」、ＩＳＯ／ＩＥＣＪＴＣ１／ＷＧ１１Ｄｏｃ．Ｍ８５２０、２００２年７月Ｄ．トーブマン（Ｔａｕｂｍａｎ）の「ビデオの逐次的改善：基本問題、これまでの努力および新しい方向（Ｓｕｃｃｅｓｓｉｖｅｒｅｆｉｎｅｍｅｎｔｏｆｖｉｄｅｏ：ｆｕｎｄａｍｅｎｔａｌｉｓｓｕｅｓ，ｐａｓｔｅｆｆｏｒｔｓａｎｄｎｅｗｄｉｒｅｃｔｉｏｎｓ）」、ＳＰＩＥ（ＶＣＩＰ‘０３）のプロシーディング、２００３年、第５１５０巻、６４９−６６３頁Ｗ．スウェルデンス（Ｓｗｅｌｄｅｎｓ）の「双直交ウェーブレットのカスタム設計構造（Ａｃｕｓｔｏｍｄｅｓｉｇｎｃｏｎｓｔｒｕｃｔｉｏｎｏｆｂｉｏｒｔｈｏｇｏｎａｌｗａｖｅｌｅｔｓ）」、Ｊ．Ａｐｐｌ．Ｃｏｍｐ．Ｈａｒｍ．Ａｎａｌ．、１９９６年、第３巻（Ｎｏ．２）、１８６−２００頁Ｉ．ドウベチーズ（Ｄａｕｂｅｃｈｉｅｓ）およびＷ．スウェルデンス（Ｓｗｅｌｄｅｎｓ）の「ウェーブレット変換のリフティングステップへのファクタリング（ＦａｃｔｏｒｉｎｇｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍｓｉｎｔｏｌｉｆｔｉｎｇＳｔｅｐｓ）」、Ｊ．ＦｏｕｒｉｅｒＡｎａｌ．Ａｐｐｌ．、１９９８年、第４巻（Ｎｏ．３）、２４７−２６９頁ハイコ・シュヴァルツ（ＨｅｉｋｏＳｃｈｗａｒｚ）、デトレフ・マープ（ＤｅｔｌｅｖＭａｒｐｅ）およびトーマス・ウィーガント（ＴｈｏｍａｓＷｉｅｇａｎｄ）の「Ｈ．２６４／ＡＶＣのＳＮＲスケーラブル拡張（ＳＮＲ−ＳｃａｌａｂｌｅＥｘｔｅｎｓｉｏｎｏｆＨ．２６４／ＡＶＣ）」、第１０回ＪＶＴ会議のＪＶＴ文書ＪＶＴ−Ｊ０３５、２００３年１２月８日〜１２日、ハワイ・ワイコロア

本発明の目的は、スケーラブル概念であるという事実にもかかわらず、できるだけ低いビットレートを提供する柔軟性のある符号化／復号化するための概念を提供することである。

この目的は、請求項１による符号化されたビデオシーケンスを生成するための装置、請求項１５による符号化されたビデオシーケンスを生成するための方法、請求項１６による符号化されたビデオシーケンスを復号化するための装置、請求項１７による符号化されたビデオシーケンスを復号化するための方法または請求項１８によるコンピュータプログラムによって達成される。

本発明は、ビットレート削減が、スケーリングレイヤ内で実行される動き補償予測によって得られるだけでなく、一定のピクチャ品質を有するさらなるビットレート削減が、ベースレイヤのような低位レイヤの、拡張レイヤのような高位レイヤへの動き補償予測の後で、残余ピクチャの中間スケーリングレイヤ予測を実行することによって得られるという知見に基づいている。

個別に考慮された異なるスケーリングレイヤ、これらは望ましくは解像度に関してまたは信号ノイズ比に関してスケールされるものであるが、これらの残余値は、同じ時間スケーリングレイヤ内において、動き補償予測後の残余値の間で相関を有するということが発見された。本発明では、デコーダ側の中間レイヤ結合器に対応する中間レイヤ予測器を拡張スケーリングレイヤに対してコーダ側に備えることによって、これらの相関が有利に活用される。望ましくは、この中間レイヤ予測器は、適応的に設計され、たとえば、各々のマクロブロックに対して、中間レイヤ予測が価値のあるものかどうか、あるいは予測することがむしろビットレートの増加につながるのかどうかを決定するようになっている。後者の場合は、予測残余信号がその後のエントロピーコーダに関して拡張レイヤの元の動き補償残余信号より大きくなる場合である。しかしながら、この状態は多くの場合には起こらず、中間レイヤ予測器がアクティブにされて大きなビットレート削減をもたらす。

さらに、本発明の好適な実施の形態において、拡張レイヤの動きデータの予測も、実行される。このように、それは、ＳＮＲまたは解像度に関するように、異なる品質スケーリングレイヤ中で、異なるスケーリングレイヤにおけるモーションフィールドが、互いに相関を有し、動きデータ予測子を提供することによって本発明によるビットレート削減に有利に用いられうることをさらに示す。この実施において、予測は個別の動きデータが拡張レイヤに対して計算されないという点で実行することができるが、ベースレイヤの動きデータは最終的にアップサンプリングの後に送信される。しかしながら、これは、動きデータが特に拡張レイヤに対して計算される場合よりも拡張レイヤにおける動き補償残余信号が大きくなるという事実になる。しかしながら、この不利な点は、伝送の間に拡張レイヤのために節約される動きデータによる節減がおそらくより大きな残余値によって生じるビットレート増加より大きい場合に、差が生じない。

しかしながら、個別のモーションフィールドは、実施において拡張レイヤのために計算することができ、ベースレイヤのモーションフィールドは、計算に組み入れられるか、または、モーションフィールド残余値だけを送信する予測器として用いられる。この実施は、２つのスケーリングレイヤの動きデータ相関が完全に利用され、動きデータの残余値が動きデータ予測の後にできるだけ小さいという効果を有する。しかしながら、この概念の不利な点は、追加の動きデータ残余値を送信しなければならないという事実である。

本発明の好適な実施の形態において、さらに、ＳＮＲスケーラビリティが用いられる。これは、量子化が拡張レイヤにおいてよりも、より粗い量子化パラメータを有するベースレイヤにおいて実行されることを意味する。より粗い量子化器ステップ幅によって量子化され、再構成されるベース動き予測の残余値は、このことにより中間レイヤ予測器に対する予測信号として用いられる。純粋なＳＮＲスケーラビリティの場合、それは、コーダ側の全てのスケーリングレイヤに対して１つのモーションフィールドを計算するために十分でありうる。拡張レイヤの動きデータに関して、これは、また、さらなる拡張動きデータを送信する必要がないが、ベースレイヤからの拡張動きデータが拡張レイヤに対する逆の動き補償のためにコーダ側に完全に用いられうることを意味する。しかしながら、動きデータの計算が用いられる場合、異なる量子化パラメータが、量子化パラメータが導入される異なるモーションフィールドをもたらす。

空間スケーラビリティが用いられる場合、ベーススケーリングレイヤが拡張スケーリングレイヤより粗い空間解像度を有することを意味し、拡張スケーリングレイヤのより低い空間解像度から変換し次にそれを中間レイヤ予測器に提供することを意味するベース動き予測の残余値を補間することが好ましい。

さらに、各スケーリングレイヤに対して動き情報の個別の計算を実行することが好ましい。しかしながら、本発明の好適な実施の形態において、動きデータ予測がデータレート削減のためにここで用いられ、それは、予測されない動きデータより低いデータレートを要求する動きデータ残余値だけを送信するために、（スケーリング後の）低位のスケーリングレイヤの動きデータの完全な伝送にあり、または、より高位のスケーリングレイヤの動きベクトルを予測するためのより低位のスケーリングレイヤのアップサンプルされた動きベクトルを使用することからなりうる。この場合、中間レイヤ予測器および拡張動きデータ予測器の両方を適応的に設計することが好ましい。

本発明の好適な実施の形態において、ベーススケーリングレイヤおよび拡張スケーリングレイヤが、空間解像度において、さらに、用いられた量子化器ステップ幅を意味する用いられた量子化パラメータにおいて異なるという点で、結合されたスケーラビリティが用いられる。この場合、たとえば、ラグランジュ最適化によるベーススケーリングレイヤに対する前の量子化パラメータから始まって、ベースレイヤのための量子化パラメータ、ベースレイヤの動きデータのためのひずみおよびビット要求の結合が計算される。動き補償予測の後に得られる残余値および用いられるベース動きデータは、それにより、より高位のスケーリングレイヤのそれぞれのデータの予測のために用いられ、より高位のスケーリングレイヤのためのより細かなスケーリングパラメータから再び始まって、動きデータのビット要求、量子化パラメータおよびひずみの結合、拡張動きデータが計算されうる。

本発明の好適な実施の形態が添付図面に関して以下において説明されるが、これらの図としては：
図１ａは、本発明のコーダの好適な実施の形態であり、
図１ｂは、図１ａのベースピクチャコーダの詳細な表現であり、
図１ｃは、中間レイヤ予測フラグの機能の説明であり、
図１ｄは、動きデータフラグの説明であり、
図１ｅは、図１ａの拡張動き補償器１０１４の好適な実施であり、
図１ｆは、図２の拡張動きデータ決定手段１０７８の好適な実施であり、
図１ｇは、拡張動きデータを計算し、さらに、必要に応じて、信号伝達および残余データ伝送のために拡張動きデータ処理するための３つの好適な実施の形態の概略表現であり、
図２は、本発明のデコーダの好適な実施の形態であり、
図３は、４つのレベルを有するデコーダのブロック図であり、
図４は、時間サブバンドフィルタバンクのリフティング分解を説明するためのブロック図であり、
図５ａは、図４に示すリフティングスキームの機能の表現であり、
図５ｂは、一方向予測（ヘアウェーブレット）および双方向予測（５／３変換）を有する２つの好適なリフティング仕様の表現であり、
図５ｃは、リフティングスキームによって処理される２つのピクチャの任意に選択に対する動き補償および参照インデックスを有する予測および更新演算子の好適な実施の形態であり、
図５ｄは、マクロブロック毎に、元のピクチャ情報をハイパスピクチャに挿入可能なイントラモードの表現であり、
図６ａは、マクロブロックモードを信号伝達するための略図表現であり、
図６ｂは、本発明の好適な実施の形態による空間スケーラビリティにおける動きデータのアップサンプリングのための略図表現であり、
図６ｃは、動きベクトル差分に対するデータストリームシンタックスの略図表現であり、
図６ｄは、本発明の好適な実施の形態による残余値シンタックス拡張の略図表現であり、
図７は、たとえば８ピクチャの群の時間シフトを説明するための概略図であり、
図８は、１６ピクチャの群に対するローパスピクチャの好適な時間配置であり、
図９は、マクロブロックに対するＨ．２６４／ＡＶＣ規格によるコーダに対する基本的なコーダ構造を説明するための概略ブロック図であり、
図１０は、現在のシンタックスエレメントＣの左側および上部にそれぞれ隣接する２つのピクセルエレメントＡおよびＢで構成されるコンテクスト配列であり、
図１１は、ピクチャのスライスへのパーティションの表現である。

図１ａは、ベーススケーリングレイヤおよび拡張スケーリングレイヤを有する符号化されたビデオシーケンスを生成するための装置の好適な実施の形態を示す。８、１６または任意の数のピクチャの群を有する元のビデオシーケンスは、入力端１０００を介して送り込まれる。出力側では、符号化されたビデオシーケンスは、ベーススケーリングレイヤ１００２および拡張スケーリングレイヤ１００４を含む。拡張スケーリングレイヤ１００４およびベーススケーリングレイヤ１００２は、出力側に単一のスケーラブルビットストリームを生成するビットストリームマルチプレクサに供給される。ただし、実施によっては、２つのスケーリングレイヤの別々の伝送も可能であり、一部の場合には有用である。図１ａは、２つのスケーリングレイヤ、すなわち、ベーススケーリングレイヤおよび拡張スケーリングレイヤを生成するためのコーダを示す。必要な場合、１つまたはいくつかのさらなる拡張レイヤを生成するコーダを得るためには、図１に示す拡張スケーリングレイヤ１００４にベーススケーリングレイヤ１００２によりデータが供給されるように、拡張スケーリングレイヤの機能が繰り返され、より高次の拡張スケーリングレイヤに必ず１段下の拡張スケーリングレイヤによりデータが供給される。

ＳＮＲスケーラビリティ、または空間スケーラビリティ、または空間およびＳＮＲスケーラビリティを結合したスケーラビリティのような、各種スケーリングタイプの内容に言及する前に、まず、本発明の基本原理について説明する。最初に、コーダは、ベース動きデータを計算するためのベース動き補償器またはベース動き推定器１００６を含み、これは、ベース動き補償器１００６が入力側から得るピクチャの群の中の別のピクチャに関して、現在のピクチャ中のマクロブロックがどのように動いたかを示す。動きデータを計算するための技法、具体的には、基本的にデジタルビデオピクチャ中のピクセルの領域であるマクロブロックに対する動きベクトルを計算するための技法が知られている。望ましくは、ビデオ符号化規格Ｈ．２６４／ＡＶＣの中に標準化されているように、動き補償計算が用いられる。これによって、後のピクチャのマクロブロックが考慮され、先のピクチャと比較してマクロブロックがどのように「動いた」かが決定される。この動き（ｘｙ方向における）は、２次元の動きベクトルで示され、ブロック１００６によってあらゆるマクロブロックに対して計算され、さらに動きデータライン１００８を介してベースピクチャコーダ１０１０に供給される。次に、次のピクチャに対して、前のピクチャから次のピクチャにマクロブロックがどのように動いたかが計算される。

１つの実施において、この新しい動きベクトルは、ある意味では第２から第３ピクチャへの動きを示し、２次元ベクトルとして送信することもできる。ただし、効率上の理由から、動きベクトル差分だけを送信することが望ましく、この差分とは、第２から第３ピクチャへのマクロブロックの動きベクトルと、第１から第２ピクチャへのマクロブロックの動きベクトルとの差分のことである。また、これに換えて、直前のピクチャでなく、さらに先行するピクチャへ参照し、それらとの差分をそれぞれ使用することもできる。

ブロック１００６によって計算された動きデータは、次にベース動き予測器１０１２に供給され、この予測器は、動きデータおよびピクチャの群を使用するために、残差ピクチャのベースシーケンスを計算するように設計されている。このように、ベース動き予測器は動き補償を実行するが、この動き補償は、ある意味では動き補償器および動き推定器それぞれによって準備されたものである。次に、この残差ピクチャのベースシーケンスは、ベースピクチャコーダに供給される。ベースピクチャコーダは、その出力端にベーススケーリングレイヤを出力するように形成されている。

さらに、本発明のコーダは、拡張動きデータを検知するための拡張動き補償器または拡張動き推定器１０１４を含む。これらの拡張動きデータは、拡張動き予測器１０１６に供給され、この拡張動き予測器は、出力側に残差ピクチャの拡張シーケンスを生成し、さらにこれらを下流の中間レイヤ予測器１０１８に供給する。このように、拡張動き予測器は動き補償を実行するが、この動き補償は、ある意味では動き補償器および動き推定器それぞれによって準備されたものである。

中間レイヤ予測器は、出力側に拡張予測残差ピクチャを計算するように形成されている。実施によっては、中間レイヤ予測器は、ブロック１０１６から得るデータに加え、すなわち残差ピクチャの拡張シーケンスに加え、点線のバイパスライン１０２０を介してブロック１０１２から供給される残差ピクチャのベースシーケンスを用いる。またこれに換えて、ブロック１０１８は、ブロック１０１２の出力端から供給され、補間器１０２２によって補間された残差ピクチャの補間されたシーケンスも用いることができる。同様に、上記に換えて、中間レイヤ予測器は、ベースピクチャコーダ１０１０の出力端１０２４から提供されるように、残差ピクチャの再構成されたベースシーケンスを提供することもできる。図１ａから分かるように、残差ピクチャのこの再構成されたベースシーケンスは、補間されること（１０２２）も補間されないこと（１０２０）もできる。このように、一般的に、中間レイヤ予測器は、残差ピクチャのベースシーケンスを用いて動作し、中間レイヤ予測器の入力端１０２６での情報は、たとえば、ブロック１０１２の出力端からの残差ピクチャのベースシーケンスの再構成または補間によって導出される。

中間レイヤ予測器１０１８の下流に、拡張ピクチャコーダ１０２８があり、これは、符号化された拡張スケーリングレイヤ１００４を得るために、拡張予測残差ピクチャを符号化するように形成されている。

本発明の好適な実施の形態において、中間レイヤ予測器は、マクロブロック毎およびピクチャ毎に、中間レイヤ予測器１０１８が拡張動き予測器１０１６から得るそれぞれの信号からその出力端１０２６の信号を差し引くように形成されている。この減算結果で得られる信号は、拡張予測残差ピクチャのピクチャ中のマクロブロックを表している。

本発明の好適な実施の形態において、中間レイヤ予測器は適応的に形成されている。あらゆるマクロブロックに対して、中間レイヤ予測フラグ１０３０が提供され、この中間レイヤ予測フラグは、中間レイヤ予測器に対して、予測を実行する必要があることを示すか、または、他の表示状態で、予測を実行する必要はないが、拡張動き予測器１０１６の出力端での対応するマクロブロックがさらなる予測をしないでそのまま拡張ピクチャコーダ１０２８に供給されることを示す。この適応実施では、中間レイヤ予測が有用な場合にだけ実行されるという効果があり、中間レイヤ予測が実行されないが拡張動き予測器１０１６の出力データが直接的に符号化される場合に比べて、予測残余信号が低い出力ピクチャレートになる。

空間スケーラビリティの場合、デシメータ１０３２は、拡張スケーリングレイヤとベーススケーリングレイヤとの間に備えられ、入力端における特定の空間解像度を有するビデオシーケンスを、出力端におけるより低い解像度を有するビデオシーケンスに変換するように形成されている。純粋なＳＮＲスケーラビリティが用いられている場合、すなわち、２つのスケーリングレイヤに対するベースピクチャコーダ１０１０および１０２８が、それぞれ異なる量子化パラメータ１０３４および１０３６で動作する場合には、デシメータ１０３２は備えられない。これは、図１ａのバイパスライン１０３８によって概略的に示されている。

さらに、空間スケーラビリティの場合では、補間器１０２２を備える必要がある。純粋なＳＮＲスケーラビリティの場合では、補間器１０２２は備えられない。代わりに、図１ａに示すように、バイパスライン１０２０が採用される。

１つの実施において、拡張動き補償器１０１４は、個々のモーションフィールドを全部計算するか、あるいは、ベース動き補償器１００６によって計算されるモーションフィールドを直接的に（バイパスライン１０４０）またはアップサンプラ１０４２によってアップサンプリングした後に用いるように形成されている。空間スケーラビリティの場合は、ベース動きデータの動きベクトルをより高い解像度にアップサンプルするために、たとえばスケールするために、アップサンプラ１０４２を備える必要がある。たとえば、拡張解像度がベース解像度の２倍の高さおよび幅であれば、拡張レイヤ中のマクロブロック（１６×１６輝度サンプル）が、ベースレイヤ中のサブマクロブロック（８×８輝度サンプル）に対応するピクチャの領域をカバーすることになる。

このように、拡張スケーリングレイヤのマクロブロックに対してベース動きベクトルの使用を可能にするために、ベース動きベクトルは、そのｘ成分およびｙ成分において２倍にされ、すなわち２倍にスケールされる。これについては、図６ｂを参照しながらさらに詳しく説明する。

一方、ＳＮＲスケーラビリティだけの場合には、全てのスケーリングレイヤに対してモーションフィールドは同じである。そのため、これは一度しか計算する必要がなく、高位のあらゆるスケーリングレイヤは、より低位のスケーリングレイヤが計算したものを直接使用することができる。

中間レイヤ予測のために、ベース動き予測器１０１２の出力端の信号を用いることもできる。これに換えて、ライン１０２４上の再構成された信号を用いることもできる。これらの２つの信号のうちのいずれを予測に用いるかの選択は、スイッチ１０４４によって行われる。ライン１０２４上の信号は、それが既に量子化過程を経ているという点で、ブロック１０１２の出力端の信号とは異なっている。このことは、ブロック１０１２の出力端の信号と対比すると、ライン１０２４上の信号は量子化エラーを有することを意味する。中間レイヤ予測のためにライン１０２４上の信号を用いる選択には、ＳＮＲスケーラビリティが単独でまたは空間スケーラビリティと結合して用いられている場合に特に利点があり、その理由は、この場合、ベースピクチャコーダ１０１０によって発生される量子化エラーは、より高位のスケーリングレイヤに「持ち運ばれる」、すなわち、ブロック１０１８の出力信号は、第１スケーリングレイヤによって発生される量子化エラーを含み、次にそれが入力端１０３６において通常はより細かな量子化ステップ幅および違った量子化パラメータ２をそれぞれ有する拡張ピクチャコーダによって量子化され、さらに拡張スケーリングレイヤ１００４に書き込まれることになるからである。

中間レイヤ予測フラグ１０３０と似たように、動きデータフラグ１０４８がピクチャコーダに送り込まれ、動きデータについての対応する情報が拡張スケーリングレイヤ１００４に含められ、後でデコーダに使用されることになるが、このことについては、図２を参照して説明する。

純粋な空間スケーラビリティが用いられる場合、ベース動き予測器１０１２の出力信号すなわち残差ピクチャのベースシーケンスを、ライン１０２４上の信号の代わりに、すなわちベース残差ピクチャの再構成されたシーケンスの代わりに用いることができる。

実施に応じて、このスイッチの制御を、手動でまたは予測利益関数に基づいて行うことができる。

なお、望ましくは、全ての予測、すなわち、動き予測、拡張動きデータ予測および中間レイヤ残余値予測は、適応的に設計されている。具体的には、たとえば、残差ピクチャのベースシーケンスのピクチャ中において、必ずしもあらゆるマクロブロックまたはサブマクロブロックに対して、動きデータ予測残余値が存在する必要はない。このように、残差ピクチャのベースシーケンスのピクチャは、「残差ピクチャ」と呼ばれているにもかかわらず、予測されないマクロブロックおよびサブマクロブロックをもそれぞれ含むことができる。この状況は、たとえば、ピクチャの中に新しいオブジェクトが生じたことが検知された場合に起こることになる。ここでは、動き補償予測は役立たなく、その理由は、予測残差信号が、ピクチャにおいて元の信号よりも大きくなってしまうからである。ブロック１０１６での拡張動き予測では、このような場合、このブロック（たとえばマクロブロックまたはサブマクロブロック）に対する予測演算子および最終的には更新演算子の双方が非アクティブにされる。

ここで、明確化のために、たとえば、残差ピクチャのベースシーケンスが、仮に、動き予測残余信号を実際に含む１つのブロックを有する残差ピクチャのベースシーケンスの１枚の残差ピクチャだけであったとしても、これを残差ピクチャのベースシーケンスということにする。ただし、典型的なアプリケーションの場合、実際には、どの残差ピクチャも動き予測残余データを有する多数のブロックを有する。

本発明の意味において、これを残差ピクチャの拡張シーケンスに対しても適用する。あのように、拡張レイヤにおける状態もベースレイヤの状態と同様なことになる。このように、本発明の意味において、残差ピクチャの拡張シーケンスは、ピクチャのシーケンスということになり、極端な場合には、単一の「残差ピクチャ」の単一のブロックだけが動き予測残余値を有し、このピクチャ中の他の全てのブロック中さらには他の全ての「残差ピクチャ」中には、他の全てのピクチャ／ブロックに対して動き補償付予測および必要な場合に動き補償更新が非アクティブにされているので、残差が存在しないこともある。

本発明では、これは、拡張予測残差ピクチャを計算する中間レイヤ予測器にも適用する。典型的には、拡張予測残差ピクチャは、シーケンスとして存在することになる。一方、中間レイヤ予測器も、望ましくは、同様に適応的に形成される。たとえば、ベースレイヤから拡張レイヤへのベースレイヤの残余データ予測が、単一の「残差ピクチャ」の単一のブロックだけに有用であり、このピクチャの他の全てのブロックに対して、および、必要に応じて拡張予測残差ピクチャのシーケンスの他の全てのピクチャに対しては、中間レイヤ残余データ予測が非アクティブにされていることが検知された場合、本発明の文脈において、明確化のために、このシーケンスでも拡張予測残差ピクチャということにする。なお、これに関連して、中間レイヤ予測器が残余データを予測できるのは、ベースレイヤ中の残差ピクチャの対応するブロックにおいて動き補償残余値が既に計算され、さらにこのブロックに対応するブロック（たとえば同一のｘ、ｙ位置）に対する動き補償予測も拡張シーケンスの残差ピクチャ中で既に実行されて、このブロックにおいて残差値が動き補償予測による拡張レイヤ中に存在する場合だけである。実際の動き補償予測残余値が、考慮される双方のブロックに存在する場合においてだけ、望ましくは中間レイヤ予測器がアクティブになり、ベースレイヤのピクチャ中の残差値のブロックを拡張レイヤのピクチャ中の残差値のブロックに対する予測子として用い、次にこの予測の残余値だけすなわち考慮されたピクチャのこのブロック中の拡張予測残差データだけを拡張ピクチャコーダに送信する。

以下に、図１ｂを参照しながら、ベースピクチャコーダ１０１０、拡張ピクチャコーダ１０２８およびその他のピクチャコーダの詳細事例を説明する。ピクチャコーダは、入力側で、残差ピクチャの群を受信し、それらをマクロブロック毎に変換器１０５０に供給する。次に、変換されたマクロブロックは、ブロック１０５２においてスケールされ、さらに量子化パラメータ１０３４、１０３６、・・・を用いて量子化される。ブロック１０５２の出力端からは、用いられた量子化パラメータ、すなわち、マクロブロックに対して用いられた量子化ステップ幅およびマクロブロックのスペクトル値に対する量子化インデックスが出力される。次に、この情報は、図１ｂには示されていないが、エントロピーコーダステージに供給され、これはハフマンコーダ、望ましくは算術コーダを含み、Ｈ．２６４／ＡＶＣによる周知のＣＡＢＡＣ概念で動作する。また、手段１０５２の出力信号はブロック１０５４にも供給され、ここでは逆スケーリングおよび再量子化が実行されて、量子化インデックスを量子化パラメータとともに数値に変換し、次に、それはブロック１０５６の逆変換器に供給されて、残差ピクチャの再構成された群を得る。これは、残差ピクチャの元の群に比べて、変換ブロック１０５０の入力端での量子化エラーを有し、量子化エラーは、量子化パラメータおよび量子化ステップ幅にそれぞれ依存する。本発明の残余値予測を実行するために、スイッチ１０４４の制御によって、１つの信号または他の信号が補間器１０２２または直接に中間レイヤ予測器１０１８に供給される。

中間レイヤ予測器フラグ１０３０の簡単な実施が図１ｃに示されている。中間レイヤ予測フラグがセットされていると、中間レイヤ予測器１０１８はアクティブにされる。しかしながら、フラグがセットされていなければ、中間レイヤ予測器は非アクティブにされ、このマクロブロックまたはそのマクロブロックに従属するサブマクロブロックに対して、同時キャスト操作が実行される。前述のように、この理由は、予測によるコーダ利得が実際にはコーダ損失になってしまう、すなわち、ブロック１０１６の出力端での対応するマクロブロックを伝送した方が、予測残余値が用いられる場合よりも後のエントロピー復号化において、より良いコーダ利得が提供されるということである。

動きデータフラグ１０３０の簡単な実施が図１ｄに示されている。フラグがセットされていると、拡張レイヤの動きデータがベースレイヤのアップサンプルされた動きデータから導出される。ＳＮＲスケーラビリティの場合、アップサンプラ１０４２は必要ない。ここで、フラグ１０４８がセットされていると、拡張レイヤの動きデータを、ベース動きデータから直接導出することができる。なお、この動きデータ「導出」は、動きデータの直接引用であることも、動きデータ予測値を得るために、ブロック１０１４がベースレイヤから得られる動きベクトルをブロック１０１４によって計算された拡張スケーリングレイヤに対して対応する動きベクトルから差し引くという実際の予測であることもある。拡張レイヤの動きデータ（どのようなタイプの予測も実行されなかった場合）または予測の残余値（実際の予測が実行された場合）が、図１ａに示した出力端を介して拡張ピクチャコーダ１０２８に供給され、最後には、拡張スケーリングレイヤビットストリーム１００４に含まれることになる。しかしながら、スケーリングの有無にかかわらず、ベーススケーリングレイヤから動きデータの全面的な引き継ぎが実行される場合、それらは拡張スケーリングレイヤビットストリーム１００４の中に書き込まれる必要はない。拡張スケーリングレイヤビットストリーム中の動きデータフラグ１０４８によってそのことを信号伝達するだけで十分である。

図２は、ベーススケーリングレイヤ１００２および拡張スケーリングレイヤ１００４を含む符号化されたビデオシーケンスを復号化するための装置を示す。拡張スケーリングレイヤ１００４およびベーススケーリングレイヤ１００２は、ビットストリームデマルチプレクサから取り出すことができ、これは、共通のビットストリームからベーススケーリングレイヤ１００２および拡張スケーリングレイヤ１００４の両方を抽出するために、両方のスケーリングレイヤをそれぞれ有するスケーラブルビットストリームを分離する。ベーススケーリングレイヤ１００２は、ベースピクチャデコーダ１０６０に供給され、ベースピクチャデコーダは、残差ピクチャのベースシーケンスおよびベース動きデータを得るためにベーススケーリングレイヤを復号化するように形成され、これらは出力ライン１０６２に適用される。次に、ライン１０６２上の出力信号は、ベース動き結合器１０６４に供給され、ベース動き結合器は、出力側に第１スケーリングレイヤの復号化されたピクチャを出力するために、ブロック１０１２のコーダ中に導入されたベース動き予測子をキャンセルする。さらに、本発明のデコーダは、出力ライン１０６８に拡張予測残差ピクチャを得るために、拡張スケーリングレイヤ１００４を復号化するための拡張ピクチャデコーダ１０６６を含む。さらに、出力ライン１０６８は、動きデータフラグ１０７０、または、拡張スケーリングレイヤ１００４中に拡張動きデータまたは拡張動きデータ残余値が実際に存在する場合にはこれらの拡張動きデータなどの動きデータ情報を含む。一方、ライン１０６２上の復号化されたベースシーケンスは、補間器１０７０によって補間され、または、図１ａの中間レイヤ予測器１０１８によって実行される中間レイヤ予測をキャンセルするために、変更されないまま（ライン１０７２）中間レイヤ結合器１０７４に供給されることになる。このように、中間レイヤ結合器は、残差ピクチャの拡張シーケンスを得るために、拡張予測残差ピクチャと、ライン１０６２上の補間された（１０７０）またはされてない（１０７２）復号化されたベースシーケンスについての情報とを結合するように形成されている。この拡張シーケンスは、最終的に、拡張動き結合器１０７６に提供され、その拡張動き結合器は、ベース動き結合器１０６４と同様に、拡張レイヤ中に実行されている動き補償をキャンセルする。拡張動き結合器１０７６は、ブロック１０７６中の動き結合のための動きデータを提供するために、動きデータ算定手段１０７８に結合する。この動きデータを、実際に、出力端１０６８から拡張ピクチャデコーダによって提供される拡張レイヤに対する全拡張動きデータとすることができる。これに換えて、拡張動きデータを、動きデータ残余値とすることもできる。双方の場合とも、対応するデータは、拡張動きデータライン１０８０を介して動きデータ決定手段１０７８に供給される。ただし、動きデータフラグ１０７０が、拡張レイヤに対して個別拡張動きデータが送信されていないと信号伝達している場合、必要な動きデータは、ベースレイヤから、ライン１０８２を介して、用いられたスケーラビリティに応じて、直接（ライン１０８４）、または、アップサンプラ１０８６によるアップサンプリングの後に、取られる。

さらに、イントラブロックの中間レイヤ予測の場合、動きデータ残余値がなく、拡張動き結合器１０７６とベース動き結合器１０６４との間の対応するつながりはデコーダ側に設けられ、デコーダは、空間スケーラビリティのある場合には補間器１０９０を、または、ＳＮＲスケーラビリティだけが用いられている場合にはバイパスラインを有する。２つのレイヤの間の選択的イントラブロック予測の場合には、予測残余信号だけがそのイントラブロックに対する拡張レイヤに送信され、ビットストリーム中の対応する信号伝達情報によってイントラブロックが示される。この場合、拡張動き結合器も、以下に説明する機能に加えて、このマクロブロックに対する加算を実行し、すなわち、マクロブロック残余値と低位のスケーリングレイヤからのマクロブロック値との結合を実行し、さらに得られたマクロブロックを実際の逆動き補償処理に供給する。

以下に、図３〜図５ｄを参照しながら、ベース動き予測器１０１２または拡張動き予測器１０１６、および、逆処理エレメント、すなわち拡張動き結合器１０７６またはベース動き補償器１０６４の好適な実施の形態を説明する。

基本的には、任意の動き補償予測アルゴリズムを、すなわち、図９の９２に示した動き補償アルゴリズムも用いることができる。このように、従来の動き補償アルゴリズムも、図１に示したシステムに追随するが、図４に参照番号４５で示した更新演算子Ｕは非アクティブにされる。これにより、ピクチャの群は、元のピクチャと、残余ピクチャと、予測残余信号とに、または、ピクチャによっては残差ピクチャとに変換される。しかしながら、図４に示したような更新演算子がアクティブであり、たとえば図５ａ〜図５ｄに例示したように計算される、既知の動き補償スキームで拡張が実施される場合、標準的な動き補償予測計算は、動き補償時間フィルタリングともいわれるいわゆるＭＣＴＦ処理となる。ここで、元のピクチャは更新演算子によって重み付けされた予測残余信号と結合されるので、従来の動き補償の標準ピクチャおよびイントラピクチャは、それぞれ、更新演算を介してローパスピクチャとなる。

本発明の好適な実施の形態において、図１ａおよび図２に関して既に説明したように、このようなＭＣＴＦ処理は、あらゆるスケーリングレイヤに対して実行され、ＭＣＴＦ処理は、望ましくは、図３〜図５ｄおよび図７〜図８を参照して説明するようなやり方で実行される。

以下に、図４およびその後の図５ａ〜図５ｄを参照しながら動き補償予測フィルタの好適な実施の形態を説明する。既に説明したように、動き補償時間フィルタ（ＭＣＴＦ）は、３つのステップ、すなわち多相分解、予測および更新の３ステップを有する一般的なリフティングスキームで構成される。対応する分析／合成フィルタバンク構造を図４に示す。分析側では、所定の信号の奇数サンプルは、予測演算子Ｐとハイパス信号Ｈとを用いて、偶数サンプルの一次結合によって予測残余値にろ波される。対応するローパス信号ｌは、更新演算子を用いて、予測残余値ｈの一次結合を、入力信号ｓの偶数サンプルに加えることによって形成される。変数ｈおよびｌの数式的な関係を図４に示し、演算子ＰおよびＵの基本的な実施の形態を図５ａに示す。

予測ステップおよび更新ステップの双方とも完全に逆処理することが可能なので、対応する変換を、厳密にサンプルされた完全な再構成フィルタバンクと見なすことができる。合成フィルタバンクは、合算プロセスにおいて、逆の順に配置された逆符号の予測演算子および更新演算子のアプリケーションを含み、その合算プロセスでは偶数および奇数の多相成分が用いられる。ハイパス／ローパス成分の正規化のために、対応するスケーリングファクタＦ_lおよびＦ_hが用いられる。これらのスケーリングファクタを必ず用いる必要はないが、符号化の過程で量子化ステップサイズを選択する際にそれらを用いることができる。

ｆ［ｘ、ｋ］は、空間座標ｘ＝（ｘ，ｙ）^Tを示し、ｋは時間座標である。ヘアウェーブレットのリフティング表現を用いた時間的分解に対する予測演算子Ｐおよび更新演算子Ｕは、図５ｂの左側に示す式で与えられる。５／３変換については、対応する演算子が図５ｂの右側に示すように得られる。動き補償時間フィルタリングに対する拡張は、図５ｃに示すように、予測演算子および更新演算子を変形することにより得られる。具体的には、ｒ＞０の参照インデックスを参照することになり、これにより一般的ピクチャ適応動き補償フィルタリングが可能となる。これらの参照インデックスを介し、図４に示したシナリオにおいて、時間的に引き続く２つのピクチャをハイパスピクチャとローパスピクチャとに分解できるだけでなく、たとえば、第１ピクチャを動き補償されたやり方で、シーケンスの第３ピクチャでろ波することができる。これに換えて、参照インデックスを適切に選択することによって、たとえば、シーケンス群のあるシーケンスの同じ１つのピクチャを、動きベクトルに対するベースとして活用できるようにすることができる。このことは、参照インデックスによって、たとえば、全ての動きベクトルがシーケンスの第４ピクチャに関連付けられている８ピクチャのシーケンスにおいて、これらの８ピクチャを図４のフィルタスキームで処理した結果として、単一のローパスピクチャを得、さらに７ハイパスピクチャ（拡張ピクチャ）および元のシーケンスの同じ１つのピクチャに関連する全ての動きベクトルを得ることができ、１つの拡張ピクチャがあらゆる動きベクトルに関連付けられている。

このように、あるシーケンスの同じ１つのピクチャがいくつかのさらなるピクチャのフィルタリングのための基準として用いられる場合、これは２のファクタによらない時間的解像度スケーリングにつながり、ある種のアプリケーションには有利である。常に、同一のピクチャ、すなわち、たとえば８ピクチャのシーケンスの第４ピクチャが、図４の分析フィルタバンクの下側ブランチに送り込まれる。ローパスピクチャは、あらゆるフィルタリングにおいて同一であり、言い換えれば、ピクチャのシーケンスの最終的に必要な単一のローパスピクチャである。更新パラメータがゼロの場合、ベースピクチャは、下側ブランチを通って「通過」となる。これに対して、ハイパスピクチャは、常に、元のシーケンスの対応する他のピクチャと予測演算子とに依存し、入力ピクチャに関連付けられる動きベクトルが予測に用いられる。このように、この場合、最終的に得られたローパスピクチャは、ピクチャの元のシーケンスの特定のピクチャに関連付けられ、また、各々のハイパスピクチャも、元のシーケンスのピクチャに関連付けられ、元のピクチャの偏差は、シーケンスの選択されたベースピクチャ（これは図４の分析フィルタバンクの下側ブランチに供給される）からのシーケンス（動き補償）にまさに対応する。あらゆる更新パラメータＭ₀₁、Ｍ₁₁、Ｍ₂₁およびＭ₃₁がゼロに等しい場合、それは、第４レベルの下側ブランチ７３中に送り込まれるピクチャが、底部に向けて「通過」となることである。ある意味では、ローパスピクチャＴＰ１は「繰り返して」フィルタバンクに供給され、一方、他のピクチャは、参照インデックスによって制御され、１つずつ図３の入力端６４に導入される。

前の式からも分かるように、動き補償フィルタリングに対する予測および更新演算子は、それぞれ、２つの異なるウェーブレットに対して異なった予測を提供する。ヘアウェーブレットが用いられる場合、一方向動き補償予測が達成される。しかしながら、５／３スプラインウェーブレットが用いられる場合、２つの演算子は双方向動き補償予測を特定する。

双方向補償予測は、通常、一方向予測と比べて、予測残余値のエネルギーを低減するが、動きベクトルレートを増加するので、一方向および双方向予測の間での切り替えをダイナミックに行うことが望ましく、このことは、ピクチャに依存している制御信号に依存する５／３スプラインウェーブレットおよびヘアウェーブレットのリフティング表現の間での切り替えを可能にすることを意味する。本発明の概念は、時間フィルタリングに対する閉じたフィードバックループを用いずに、２つのウェーブレットの間でこのマクロブロック毎の切り替えを可能にし、また、柔軟性および特にデータレートの節減をサポートし、信号適応的なやり方で最適に実行することができる。

モーションフィールドまたは一般に動き予測データフィールドＭ_PおよびＭ_Uを理想的に表現するために、Ｈ．２６４／ＡＶＣ中のＢスライスの既存のシンタックスを使用することができる。

ペアワイズピクチャ分解ステージをカスケードすることによって、２項分解的なツリー構造が得られ、これにより、８ピクチャの群に対する例を図７に示すように、２ⁿピクチャの群は、２^n-1残余ピクチャと単一のローパス（またはイントラ）ピクチャとに分解される。具体的には、図７は、第１レベルのフィルタの出力端２２における第１レベルのハイパスピクチャＨＰ１、および第１レベルのフィルタの出力端２４における第１レベルのローパスピクチャを示している。第２レベルのフィルタの出力端１６における２つのローパスピクチャＴＰ２、および第２レベルから得られたハイパスピクチャが、第２レベルのピクチャとして図７に示されている。第３レベルのローパスピクチャは、第３レベルのフィルタの出力端７６に適用され、第３レベルのハイパスピクチャは、処理されたフォームで出力端７５に適用される。８ピクチャの群はもともと８ピクチャで構成することができ、そのため、図３のデコーダは第４レベルのフィルタなしに用いられる。ただし、８ピクチャの群が、第４レベルのフィルタの出力端７３で用いられるような８ローパスピクチャの群である場合、本発明のＭＣＴＦ分解を、ベース動き予測器、拡張動き予測器として、さらに、ベース動き結合器または拡張動き結合器として、それぞれ用いることができる。

このように、この分解では、２ⁿピクチャの群、（２^n+1-2）モーションフィールド記述、（２^n-1）残余ピクチャおよび単一のローパス（またはイントラ）ピクチャが送信される。

ベース動き補償器および拡張動き補償器の双方は、望ましくは、ベース制御パラメータおよび拡張制御パラメータによってそれぞれ制御され、量子化パラメータ（１０３４または１０３６）および動き情報の最適な結合が計算され、この結合は特定のレートに固定されている。これは、特定の最大ビットレートに関して最適の比率を得るために、以下の方法に従って実行される。このように、比較的粗い量子化パラメータを意味する低いビットレートにおいては、比較的細かい量子化パラメータが取られる高位のスケーリングレイヤに対するよりも、動きベクトルがより重要であることが分かる。このように、粗い量子化、従ってより低いビットレートの場合、より高位のスケーリングレイヤに対するよりも、少ない動きデータが計算される。そこで、より高位のスケーリングレイヤでは、高位のスケーリングレイヤの場合に比べて残余データに関して動きデータが比例的に重要である低ビットレートの場合よりも、良好な品質および高ビットレートでの最適状態のために、ある程度多くの動きデータを計算するためにサブマクロブロックモードに移行することが望ましい。以下に、これについて説明する。

元のピクチャまたは前の分析ステージで生成されるローパス信号を表すピクチャであるピクチャＡおよびＢが与えられる。さらに、ルマサンプルａ［］およびｂ［］の対応する配列が提供される。動き記述Ｍ_i0は、次のようにマクロブロック毎に推定される。
ピクチャＢ内のマクロブロックｉの可能な全てのマクロブロックおよびサブマクロブロックパーティションに対して、関連動きベクトル

は、ラグランジュ関数

を最小化することによって計算され、ここで、劣化数式項は次式

で与えられる。
ここで、Ｓは、参照ピクチャＡ内の動きベクトル検索領域を特定する。Ｐは、考慮されたマクロブロックパーティションまたはサブマクロブロックパーティションによってカバーされる領域である。Ｒ（ｉ，ｍ）は、動きベクトルｍの全ての成分を送信するために必要なビット数を特定し、λは固定ラグランジュ乗数である。

最初に、動き検索が所定の検索領域Ｓ中の全ての整数サンプルの正確な動きベクトルを通して進む。次に、最善の整数動きベクトルを用いて、８つの周囲の半分サンプルの正確な動きベクトルがテストされる。最後に、最善の半分サンプルの正確な動きベクトルを用いて、８つの周囲の４分の１サンプルの正確な動きベクトルがテストされる。半分および４分の１の正確な動きベクトルの改善に対する数式項

は、補間演算子として解釈される。

一般に、マクロブロックモードおよびサブマクロブロックに対するモード決定は、同じアプローチをたどる。次のラグランジュ関数を最小化するモードｐ_iは、可能なマクロブロックまたはサブマクロブロックモードＳ_modeの所定のセットから選択される。

劣化数式項は、次式

で与えられ、ここで、Ｐは、マクロブロックまたはサブマクロブロック領域を特定し、ｍ［ｐ，ｘ，ｙ］は、マクロブロックまたはサブマクロブロックのモードｐおよびルマ位置（ｘ，ｙ）を含むパーティションまたはサブマクロブロックパーティションに関連付けられる動きベクトルである。

レート数式項Ｒ（ｉ，ｐ）は、コーダモードｐの選択に関連付けられるビット数を表す。動き補償コーダモードでは、同モードは、マクロブロックモード（適用される場合）と、サブマクロブロックモードおよびその複数モード（適用される場合）のそれぞれと、動きベクトルおよびその複数ベクトルのそれぞれとに対するビットを含む。イントラモードでは、同モードは、マクロブロックモードと量子化されたルマおよびクロマ変換係数レベルの配列とに対するビットを含む。

可能なサブマクロブロックモードのセットは、

で与えられる。

可能なマクロブロックモードのセットは、

で与えられ、ここで、ＩＮＴＲＡモードは、予測ステップで用いられるモーションフィールド記述Ｍ_i0が推定される場合にだけ用いられる。

ラグランジュ乗数λは、モーションフィールドが推定される分解ステージのハイパスピクチャまたはピクチャＱＰ_Hiに対するベースレイヤ量子化パラメータに基づいて、次式

に従って設定される。

本発明によれば、図８に示す分解スキームが用いられ、これは、時間スケーラビリティとコーダ効率との間で賢明な折衷ができるよう想定されたものである。元のピクチャのシーケンスは、入力ピクチャＡ、Ｂ、Ａ、Ｂ、Ａ、Ｂ、・・・、Ａ、Ｂのシーケンスとして取り扱われる。このように、このスキームでは、最適な時間スケーラビリティ（ローパスピクチャ間の等距離）のステージを提供する。ローパスピクチャのシーケンスは、以降の全ての分解ステージに対して入力信号として用いられるが、入力ピクチャＢ、Ａ、Ａ、Ｂ、Ｂ、Ａ、・・・Ａ、Ｂのシーケンスとして取り扱われ、以降の２チャンネル分析スキームでは、分解されるローパスピクチャ間のスペースは、図８で分かるように、小さく保たれている。

以下に、動きデータ中間レイヤ予測および残余データ中間レイヤ予測の双方の好適な実施に関して、図６ａ〜図６ｄを参照する。空間およびＳＮＲスケーラビリティをそれぞれ得るために、基本的には、低位のスケーリングレイヤの動きデータおよびテクスチャデータは、高位のスケーリングレイヤの予測のために用いられる。ここで、特に空間スケーラビリティにおいて、動きデータが空間拡張レイヤの復号化のための予測として用いられる前に、動きデータのアップサンプリングが必要となる。ベースレイヤ表現の動き予測データは、ＡＶＣの既存のＢスライスシンタックスのサブセットを用いて送信される。望ましくは、２つの追加マクロブロックモードが、拡張レイヤのモーションフィールドの符号化のために導入される。

第１マクロブロックモードは、「ｂａｓｅ＿ｌａｙｅｒ＿ｍｏｄｅ」であり、第２モードは、「ｑｐｅｌ＿ｒｅｆｉｎｅｍｅｎｔ＿ｍｏｄｅ」である。これらの２つの追加マクロブロックモードを信号伝達するために、図１に示すように、シンタックスエレメントｍｂ＿ｍｏｄｅに先立って、２つのフラグ、すなわちＢＬＦｌａｇおよびＱｒｅｆＦｌａｇがマクロブロックレイヤシンタックスに加えられる。このように、第１フラグＢＬＦｌａｇ１０９８は、ベースレイヤモードを信号伝達し、もう一方のフラグ１１００は、Ｑｐｅｌｒｅｆｉｎｅｍｅｎｔｍｏｄｅを記号表示する。このようなフラグがセットされると、その値は１となり、データストリームは図６ａに示すようになる。このように、フラグ１０９８が１の値である場合、フラグ１１００およびシンタックスエレメントマクロブロックモード１１０２はこれ以上重要性がない。一方、フラグ１０９８の値がゼロの場合、そのフラグはセットされておらず、フラグ１１００が用いられ、フラグ１１００がセットされれば、エレメント１１０２に再びブリッジをすることになる。しかしながら、双方のフラッグ１０９８および１１００の値がゼロ場合、すなわち両方ともセットされていない場合、マクロブロックモードは、シンタックスエレメント１１０２において評価される。

ＢＬＦｌａｇ＝１の場合、対応するマクロブロックに対して、ベースレイヤモードが用いられ、さらなる情報は用いられない。このマクロブロックモードは、ベースレイヤの対応するマクロブロックのマクロブロックパーティションを含む動き予測情報が、このようにして拡張レイヤのために直接用いられていることを示す。なお、本明細書のこの箇所および全体を通して、「ベースレイヤ」という用語は、現在考慮されている拡張レイヤに関して１段低位のレイヤを表す。ベースレイヤが半分の空間解像度を有するレイヤを表す場合、動きベクトルフィールド、すなわちマクロブロックパーティションを含む動きベクトルのフィールドは、図６ｂに示すように、それに応じてスケールされる。この場合、現在のマクロブロックは、ベースレイヤのモーションフィールドの８×８サブマクロブロックと同じ領域を含む。このように、対応するベースレイヤのマクロブロックが、直接的に１６×１６、１６×８または８×１６モードに符号化されている場合、または、対応するベースレイヤのサブマクロブロックが、８×８モードまたは直接８×８モードに符号化されている場合、現在のマクロブロックに対して１６×１６モードが用いられる。一方、ベースレイヤのサブマクロブロックが８×４、４×８または４×４モードに符号化されている場合、現在のマクロブロックに対するモードは、マクロブロックモード＝１６×８、８×１６または８×８（ただし全てのサブマクロブロックモード＝８×８）となる。ベースレイヤのマクロブロックがＩＮＴＲＡマクロブロックを表している場合、現在のマクロブロックは、ＩＮＴＲＡ＿ＢＡＳＥ、すなわち、ベースレイヤからの予測を有するマクロブロックに設定される。現在マクロブロックのマクロブロックパーティションについては、ベースレイヤブロックの対応するマクロブロック／サブマクロブロックパーティションに対するのと同じ参照インデックスが用いられる。関連動きベクトルは２倍にされる。この倍率は、図６ｂに示す状況、すなわち、ベースレイヤ１１０２が、拡張レイヤ１０４の半分のピクセル領域およびピクセル数をそれぞれ含む状況で適用される。ベースレイヤ空間解像度の拡張レイヤ空間解像度に対する比率が１／２でない場合、対応するスケーリング倍率が動きベクトルに対して用いられる。

しかしながら、フラグ１０９８がゼロに等しく、フラグ１１００が１に等しい場合、マクロブロックモードｑｐｅｌ＿ｒｅｆｉｎｅｍｅｎｔ＿ｍｏｄｅが信号伝達される。フラグ１１００は、望ましくは、ベースレイヤが現在レイヤの半分の空間解像度を有するレイヤを表す場合にだけ存在する。そうでない場合は、マクロブロックモード（ｑｐｅｌ＿ｒｅｆｉｎｅｍｅｎｔ＿ｍｏｄｅ）は、実施可能なマクロブロックモードのセットには含まれない。この場合のマクロブロックは、ベースレイヤモードと同様である。マクロブロックパーティション、参照インデックスおよび動きベクトルは、ベースレイヤモードにおけるように導出される。ただし、各々の動きベクトルに対して、あらゆる動きベクトル成分に対するさらなる４分の１サンプルの動きベクトルのリファインメント−１．０または＋１があり、これは追加して送信され、導出された動きベクトルに加えられる。

フラグ１０９８＝０でフラグ１１００＝０の場合、すなわち、フラグ１１００が存在しない場合、通常通り、マクロブロックモードと、対応参照インデックスと、動きベクトル差分とが特定される。このことは、動きデータの全体セットが、ベースレイヤに対して行われたのと同様に、拡張レイヤに対して送信されることを意味する。しかしながら、本発明によれば、（空間動きベクトル予測子の代わりに）現在の拡張レイヤ動きベクトルに対する予測子として、ベースレイヤ動きベクトルを用いる可能性が提供される。このように、リストＸ（Ｘは０から１までの間の値）により、考慮された動きベクトルの参照インデックスリストが特定される。引き続くすべての状態が真であれば、図６ｃに示すように、あらゆる動きベクトルの差分について、次のようなフラグＭｖＰｒｄＦｌａｇが送信される。
− 現在のマクロブロック／サブマクロブロックパーティションを含むベースレイヤマクロブロックは、ＩＮＴＲＡマクロブロックモードでは符号化されない。
− 現在のマクロブロック／サブマクロブロックパーティショの上部左のサンプルをカバーするベースレイヤマクロブロック／サブマクロブロックパーティションは、リストＸまたは双予測を使用する。
− 現在のマクロブロック／サブマクロブロックパーティションの上部左のサンプルを含むベースレイヤマクロブロック／サブマクロブロックパーティションのリストＸ参照インデックスは、現在のマクロブロック／サブマクロブロックパーティションのリストＸ参照インデックスに等しい。

図６ｃのフラグ１１０６が存在しない場合、または、このフラグ１１０６＝０の場合、ＡＶＣ規格と同様に空間動きベクトル予測子が特定される。そうでない場合、フラグ１１０６が存在して＝１の場合、動きベクトル予測子として対応するベースレイヤベクトルが用いられる。この場合、現在のマクロブロック／サブマクロブロックパーティションのリストＸ動きベクトル（Ｘ＝０または１）は、ベースレイヤマクロブロック／サブマクロブロックパーティションの場合によってスケールされたリストＸ動きベクトルに、送信されたリストＸ動きベクトル差分を加算することによって得られる。

このように、フラグ１０９８、１１００および１１０６は、併せて、図１ａにそれぞれ概略的に示したような動きデータフラグ１０４８および動きデータ制御信号１０４８を実施できるやり方を表している。もちろん、異なった他の信号伝達のやり方もあり、送信器と受信器との間で、当然一定の取り決めを用いて信号伝達情報を削減することができる。

ここで、図１の拡張動き補償器１０１４および図２の拡張動きデータ決定手段１０７８それぞれの具体的な実施について、さらなる詳細を図１ｅ、１ｆおよび１ｇに関して説明する。

図１ｅを参照すると、拡張動き補償器１０１４は、基本的に２つのことを行わなければならないことが分かる。すなわち、それは、第一に、拡張動きデータ、典型的には全動きベクトルを計算し、さらにそれを拡張動き予測器１０１６に供給しなければならなく、その結果、それは、従来技術では通常ブロック毎に適応的に実行される残差ピクチャの拡張シーケンスを得るために、符号化されていないフォームのこれらのベクトルを用いることができる。もう一方の事項は、拡張動きデータを処理すること、すなわち、次に、動き補償予測に用いられる動きデータをできるだけ圧縮してビットストリームに書き込むことである。何かをビットストリームに書き込むためには、図１ｅに示すように、それぞれのデータを拡張ピクチャコーダ１０２８に送り込む必要がある。このように、拡張動きデータ処理手段１０１４ｂは、拡張動きデータ計算手段１０１４ａが決定した拡張動きデータに含まれる冗長性を、ベースレイヤに関して、できる限り削減するための機能を有する。

本発明によれば、ベース動きデータまたはアップサンプルされたベース動きデータについては、拡張動きデータ計算手段１０１４ａが、実際に用いられる拡張動きデータの計算に用いることもでき、または、拡張動きデータの処理、すなわち拡張動きデータの圧縮のためだけに用いることもできるが、これらのことは拡張動きデータの計算には重要ではない。図１ｇの１．）および２．）の２つの可能性は、拡張動きデータの計算において、ベース動きデータおよびアップサンプルされたベース動きデータが用いられている実施の形態を示し、図１ｂの３．）は、ベース動きデータについての情報が拡張動きデータの計算に用いられないが、残余データの符号化およびキャプチャだけにそれぞれ用いられる場合を示す。

図１ｆは、拡張動きデータ決定手段１０７８のデコーダ側の実施を示し、これはブロック毎の制御を行うための制御モジュール１０７８ａを有し、これにはビットストリームからと拡張ピクチャデコーダ１０６６からとの信号情報伝達がそれぞれ含まれる。さらに、拡張動きデータ決定手段１０７８は、拡張動きデータ再構成手段１０７８ｂを含み、これは、復号化されたベース動きデータまたは復号化されたアップサンプリングベース動きデータだけを用いて、または、復号化されたベース動きデータについての情報と拡張動きデコーダ１０６６によって拡張スケーリングレイヤ１００４から抽出された残余データからの情報とを結合することによって、拡張動きデータフィールドの動きベクトルを実際に決定し、次に、この動きベクトルを、コーダ側の動き補償予測を逆処理するための共通結合器として形成することができる拡張動き結合器１０７６によって、用いることができる。

以下に、図１ｇに概略を示す各種の実施の形態を参照する。図６ａに関して既に説明したように、ＢＬＦｌａｇ１０９８は、拡張動き予測のためのアップスケールされたベース動きデータの全面的な引き継ぎを信号伝達する。この場合、手段１０１４ａは、ベース動きデータを全面的に引き継ぐように、さらに、異なるレイヤからの異なる解像度の場合には、アップスケールされたフォームで動きデータを引き継ぎ、これらをそれぞれ手段１０１６に送信するように形成されている。しかしながら、モーションフィールドまたは動きベクトルについての情報は、拡張ピクチャコーダには送信されない。代わりに、マクロブロックまたはサブマクロブロックのどちらかの各ブロックに対して個別のフラグ１０９８だけが送信される。

デコーダ側では、図１ｆの手段１０７８ａが１つのブロックに対してフラグ１０９８を復号化し、それがアクティブであった場合、ベースレイヤにある復号化されたベース動きデータ、または、復号化されたアップサンプルされたベース動きデータを用いて、拡張動きデータを計算し、次に、それをブロック１０７６に供給する。この場合、手段１０７８は、動きベクトル残余データを必要としない。

本発明の第２の実施の形態では、フラグＱｒｅｆＦｌａｇ１１００によって信号伝達され、ベース動きベクトルは、手段１０１４ａによって実行される拡張動きデータ計算に組み入れられる。図１ｇの部分２．）および上記で説明したように、動きデータ計算および動きベクトルｍの計算は、それぞれ、数式項

の最小値を検索することによって実行される。

現在のピクチャＢのブロックと、特定の潜在的な動きベクトルによりシフトされた先行するおよび／または後続するピクチャのブロックとの差分は、ひずみ数式項Ｄに導入される。図１ａの１０３６で示した拡張ピクチャコーダの量子化パラメータは、ファクタλに導入される。数式項Ｒは、潜在的な動きベクトルを符号化するために用いられるビット数についての情報を提供する。

通常、検査は、いろいろな潜在的な動きベクトルの間で実行され、あらゆる新しい動きベクトルに対してひずみ数式項Ｄが計算され、レート数式項Ｒが計算され、一定であることが望ましいが変化させることもできる拡張量子化パラメータ１０３６が検討される。上記の合計数式項がいろいろな潜在的な動きベクトルに対して評価され、最小結果の合計を提供する動きベクトルが用いられる。

次に、本発明によれば、ベースレイヤからの対応するブロックのベース動きベクトルも、このインタラクティブな検索に組み入れられる。ベクトルが検索基準を満たす場合、先と同様に、フラグ１１００だけを送信しなければならないが、このブロックに対する残余値または他のどんなものも送信してはならない。このように、ベース動きベクトルがブロックに対する基準（前の数式項の最小化）を満たす場合、手段１０１４ａは、それを手段１０１６に送信するために動きベクトルを用いる。ただし、フラッグ１１００だけが拡張ピクチャコーダに送信される。

デコーダ側では、手段１０７８ｂがベース動きデータからのこのブロックに対する動きベクトルを決定するためにフラグ１１００を復号化する場合、手段１０７８ａが手段１０７８ｂを制御するが、その理由は拡張ピクチャデコーダが残余データを送信していないからである。

第２の実施の形態の変形例において、ベース動きベクトルだけでなく、そのベース動きベクトルから導出され（わずかに）違いのある複数のベース動きベクトルも検索に組み入れられる。実施によっては、動きベクトルのどの成分も、個別に１インクリメント増加させたり低減させたりでき、または同じままにしておくことができる。このインクリメントは、動きベクトルの特定の粒度、たとえば、解像度ステップ、半分解像度ステップまたは４分の１解像度ステップを表すことができる。このような違いのあるベース動きベクトルが検索基準を満たす場合、その違い、すなわち＋１、０または−１のインクリメントの値が「残余データ」としてフラグ１１００に追加して送信される。

フラグ１１００によってアクティブにされて、デコーダは、データストリーム中のインクリメントを探し、さらにベース動きベクトルまたはアップサンプルされたベース動きベクトルをリカバーし、拡張レイヤにおける対応するブロックに対する動きベクトルを得るために、ブロック１０７８において、そのインクリメントと対応するベース動きベクトルとを結合する。

フラグ１１０６によって信号伝達される第３の実施の形態において、動きベクトルの決定を、基本的には任意に実行することができる。この全面的な柔軟性に関して、手段１０１４ａは、拡張動きデータを、たとえば、第２の実施の形態に関連して説明した最小化オブジェクトに従って決定することができる。次に、決定された動きベクトルは、ベースレイヤからの情報を配慮することなく、コーダ側の動き補償予測に用いられる。ただし、この場合、拡張動きデータ処理１０１４ａは、実際の算術符号化の前の冗長度削減のための動きベクトル処理にベース動きベクトルを組み入れるように形成される。

このように、Ｈ．２６４／ＡＶＣ規格に従って、動きベクトル差分の伝送が実行され、隣接するブロックの間の差分はピクチャ内で決定される。この実施において、この差分をいろいろな隣接するブロックの間で形成し、その中で最小の差分を選択することができる。次に、本発明によれば、ピクチャ中の対応するブロックに対するベース動きベクトルは、動きベクトル差分に対して最も好適な予測子のためのこの検索に組み入れられる。そのベース動きベクトルが、予測子として最小の残差値を提供するという基準を満たす場合、それがフラグ１１０６によって信号伝達され、その残差値だけがブロック１０２８に送信される。そのベース動きベクトルがこの基準を満たさない場合、フラグ１１０６はセットされず、空間動きベクトル差分計算が実行される。

しかしながら、より簡単なコーダ実施においては、インタラクティブな検索の代わりに、単に常に適応的に決定されたブロックに対して、それぞれのベース動きベクトルおよびそのアップサンプルされたそれぞれのバージョンを予測子として用いることができる。

本発明によれば、残余データの中間レイヤ予測も実行される。これについては、以下に説明する。動き情報が１つのレイヤから次のレイヤへと変更される場合、残余情報を予測することが有利なことも不利になることもあり、ＭＣＴＦ分解の場合、ベースレイヤからの拡張レイヤのハイパス情報のそれぞれの予測がそうである。現在のレイヤのブロックに対する動きベクトルが、対応するベースレイヤの動きベクトルに類似し、さらに、マクロブロック毎に、対応するベースレイヤの対応する動きベクトルに類似している場合、符号化されたベースレイヤ残余信号（ハイパス信号）が拡張残余信号（拡張ハイパス信号）の予測に用いられ、これにより、拡張残余信号とベースレイヤ再構成（図１ａのライン１０２４）との差分だけが符号化されれば、コーダ効率が上がる可能性が高い。しかしながら、動きベクトルが類似していない場合、残余信号の予測が、コーダ効率を向上させる可能性は非常に低いものとなる。その結果、残余信号およびハイパス信号それぞれの予測には、適応アプローチが用いられる。この適応アプローチ、すなわち中間レイヤ予測器がアクティブか否かによる適応アプローチについては、差分信号に基づく利点の実際の計算により実行することができ、または、マクロブロックに対するベーススケーリングレイヤの動きベクトルが、拡張スケーリングレイヤ中の対応するマクロブロックに対して、どのくらい違っているかの推定に基づいて実行することができる。この差異が特定の閾値より小さい場合、中間レイヤ予測器が制御ライン１３０を介してアクティブにされる。しかしながら、この差異が特定の閾値より大きい場合、このマクロブロックに対する中間レイヤ予測器は非アクティブにされる。

フラグＲｅｓＰｒｄＦｌａｇ１１０８が送信される。このフラグ１１０８＝１の場合、ベースレイヤの再構成された残余信号が、拡張レイヤの現在のマクロブロックの残余信号の予測のために使用され、拡張レイヤの現在の残余信号とそのベースレイヤの再構成との間の差分の近似値だけが符号化される。そうでない場合には、フラグ１１０８は存在しないかまたはゼロに等しい。ここで、拡張レイヤ中の現在のマクロブロックの残余信号は、ベースレイヤからの予測なしに符号化される。

ベースレイヤが、拡張レイヤの半分の空間解像度を有するレイヤを表す場合、残存信号は、補間フィルタを用いてアップサンプルされ、その後、ベースレイヤのアップサンプルされた残余信号が予測信号として用いられる。このフィルタは、６タップを有する補間フィルタであって、より低い解像度によるベースレイヤ中には存在しなかった拡張レイヤのより高い空間解像度の値を補間するために、周囲からの値ができるだけ良好な補間データを得るために用いられる。

しかしながら、変換ブロックのエッジの値が補間され、さらに補間フィルタが補間のための別の変換ブロックの値しか使用できないときは、これをやめるが、考慮されたブロックの外側で補間フィルタの値を合成して、できるだけアーチファクトの発生が少ない補間が起こるようにすることが望ましい。

いわゆるコア実験に基づいて、動きおよび残余値の中間レイヤ予測によって、ＡＶＣベースのＭＣＴＦアプローチにおいてコーダ効率が大幅に改善されることが判明した。特定のテストポイントに対して、１ｄＢより高いＰＳＮＲゲインが得られた。特に、あらゆる空間解像度に対して（ベースレイヤを例外として）非常に低いビットレートでは、再構成品質の改善が明確に確認できた。

状況によっては、本発明の方法は、ハードウエアまたはソフトウエアで実施しうる。この実施は、その方法が実行されるように、プログラム可能なコンピュータシステムと協働する、電子的に読み取り可能な制御信号を有する、デジタル記憶媒体、特に、ディスクまたはＣＤ上で実行することができる。そのため、本発明は、一般に、コンピュータプログラム製品がコンピュータ上で実行されるときに、機械で読み取り可能なキャリアに格納された本発明の方法を実行するためのプログラムコードを有するコンピュータプログラム製品にも存在する。言い換えると、本発明は、コンピュータプログラムがコンピュータ上で実行されるときに、この方法を実行するためのプログラムコードを有するコンピュータプログラムとして実現することができる。

さらに、本発明は、関連制御文字とともに第１スケーリングレイヤおよび第２スケーリングレイヤを有するスケーラブルデータストリームが各種のデコーダ側の手段のために格納されたコンピュータ読み取り可能な媒体に関する。このように、コンピュータ読み取り可能な媒体を、データストリームがプロバイダから受信者に送信されるデータキャリアまたはインターネットとすることもできる。

図１ａは、本発明のコーダの好適な実施の形態である。図１ｂは、図１ａのベースピクチャコーダの詳細な表現である。図１ｃは、中間レイヤ予測フラグの機能の説明である。図１ｄは、動きデータフラグの説明である。図１ｅは、図１ａの拡張動き補償器１０１４の好適な実施である。図１ｆは、図２の拡張動きデータ決定手段１０７８の好適な実施である。図１ｇは、拡張動きデータを計算し、さらに、必要に応じて、信号伝達および残余データ伝送のために拡張動きデータ処理するための３つの好適な実施の形態の概略表現である。図２は、本発明のデコーダの好適な実施の形態である。図３は、４つのレベルを有するデコーダのブロック図である。図４は、時間サブバンドフィルタバンクのリフティング分解を説明するためのブロック図である。図５ａは、図４に示すリフティングスキームの機能の表現である。図５ｂは、一方向予測（ヘアウェーブレット）および双方向予測（５／３変換）を有する２つの好適なリフティング仕様の表現である。図５ｃは、リフティングスキームによって処理される２つのピクチャの任意に選択に対する動き補償および参照インデックスを有する予測および更新演算子の好適な実施の形態である。図５ｄは、マクロブロック毎に、元のピクチャ情報をハイパスピクチャに挿入可能なイントラモードの表現である。図６ａは、マクロブロックモードを信号伝達するための略図表現である。図６ｂは、本発明の好適な実施の形態による空間スケーラビリティにおける動きデータのアップサンプリングのための略図表現である。図６ｃは、動きベクトル差分に対するデータストリームシンタックスの略図表現である。図６ｄは、本発明の好適な実施の形態による残余値シンタックス拡張の略図表現である。図７は、たとえば８ピクチャの群の時間シフトを説明するための概略図である。図８は、１６ピクチャの群に対するローパスピクチャの好適な時間配置である。図９は、マクロブロックに対するＨ．２６４／ＡＶＣ規格によるコーダに対する基本的なコーダ構造を説明するための概略ブロック図である。図１０は、現在のシンタックスエレメントＣの左側および上部にそれぞれ隣接する２つのピクセルエレメントＡおよびＢで構成されるコンテクスト配列である。図１１は、ピクチャのスライスへのパーティションの表現である。

Claims

ベーススケーリングレイヤ（１００２）および拡張スケーリングレイヤ（１００４）を有する符号化されたビデオシーケンスを生成するための装置であって、前記装置は、
現在のピクチャ中のマクロブロックがピクチャの群中の別のピクチャに関してどのように動いたかを示すベース動きデータを計算するためのベース動きデータ計算器（１００６）と、
前記ベース動きデータを用いて残差ピクチャのベースシーケンスを計算するためのベースシーケンス計算器（１０１２）と、
残差ピクチャの前記ベースシーケンスから前記符号化されたベーススケーリングレイヤ（１００２）を計算するように形成されているベースピクチャコーダ（１０１０）と、
拡張動きデータを決定するための拡張データ計算器（１０１４）と、
前記拡張動きデータを用いて残差ピクチャの拡張シーケンスを計算するための拡張シーケンス計算器（１０１６）と、
残差ピクチャの前記拡張シーケンスを用いさらに残差ピクチャの前記ベースシーケンスについての情報（１０２６）を用いて拡張予測残差ピクチャを計算するための中間レイヤ予測器（１０１８）であって、前記中間レイヤ予測器（１０１８）は、中間レイヤ予測信号（１０３０）に応じて残差ピクチャの前記拡張シーケンスからブロックの予測または使用を適応的に適用するように形成され、さらに前記中間レイヤ予測信号（１０３０）は、前記符号化されたビデオシーケンスに含まれている中間レイヤ予測器と、
前記符号化された拡張スケーリングレイヤ（１００４）を得るために前記拡張予測残差ピクチャを符号化するための拡張ピクチャコーダ（１０２８）とを備える、装置。
前記ベースピクチャコーダ（１０１０）は、ベース量子化パラメータ（１０３４）を用いて量子化を実行するように形成され、
前記拡張ピクチャコーダ（１０２８）は、拡張量子化パラメータ（１０３６）を用いて量子化を実行するように形成され、前記拡張量子化パラメータ（１０３６）は、前記ベース量子化パラメータ（１０３４）よりも細かな量子化を実行することができ、
前記ベースピクチャコーダ（１０１０）は、再構成されたベースシーケンスを得るために前記ベース量子化パラメータを用いて量子化された残差ピクチャの前記ベースシーケンスを再構成するように形成され、さらに
前記中間レイヤ予測器（１０１８）は、残差ピクチャの前記拡張シーケンスを用い、さらに残差ピクチャの前記再構成されたベースシーケンスを残差ピクチャの前記ベースシーケンスについての情報として用いて、前記拡張予測残差ピクチャを計算するように形成されている、請求項１に記載の装置。
前記ピクチャの群の解像度を間引きするためのデシメータ（１０３２）であって、前記デシメータ（１０３２）は、前記拡張データ計算器（１０１４）に提供されるピクチャの群の拡張解像度よりも低いベース解像度を有するピクチャの群を前記ベース動きデータ計算器（１００６）に提供するように形成されているデシメータと、
残差ピクチャの補間されたベースシーケンスを得るために残差ピクチャの前記ベースシーケンスまたは残差ピクチャの再構成されたベースシーケンスを空間的に補間するための補間器（１０２２）であって、残差ピクチャの補間されたベースシーケンスを残差ピクチャの前記ベースシーケンスについての情報（１０２６）として前記中間レイヤ予測器（１０１８）に供給することができる補間器とをさらに備える、請求項１または請求項２に記載の装置。
前記ベース動きデータを前記拡張解像度に適応するための動きデータアップサンプラ（１０４２）をさらに備える、請求項３に記載の装置。
前記ベース動きデータ計算器（１００６）は、マクロブロックに対して２次元の動きベクトルを計算するように形成されている、請求項１ないし請求項４のいずれかに記載の装置。
前記ベースシーケンス計算器（１０１２）は、残差ピクチャの前記ベースシーケンスの残差ピクチャのマクロブロックを得るために前記ベース動きデータを用いて予測されるマクロブロックを現在のマクロブロックから差し引くように形成されている、請求項１ないし請求項５のいずれかに記載の装置。
前記中間レイヤ予測器（１０１８）は、残差ピクチャの前記拡張シーケンスからのブロックの使用と比較して予測を適用することによってコーダ利得を増加することができるかどうかを、ブロックに対して適応的に決定するように形成されている、請求項１ないし請求項６のいずれかに記載の装置。
前記中間レイヤ予測器（１０１８）は、拡張予測残差ピクチャのマクロブロックを得るために、残差ピクチャの前記ベースシーケンス、残差ピクチャの再構成されたベースシーケンス、残差ピクチャの補間されたベースシーケンスまたは残差ピクチャの再構成され補間されたベースシーケンスからのマクロブロックを用いて予測されるマクロブロックを、残差ピクチャの前記拡張シーケンスの現在のマクロブロックから差し引くように形成されている、請求項１ないし請求項７のいずれかに記載の装置。
前記ベース動きデータ計算器（１００６）は、前記ベース量子化パラメータ（１０３４）、量子化によって生じるひずみ数式項および前記ベース動きデータを送信するためのデータレートに基づいて、前記ベース動きデータを計算するように形成されている、請求項２に記載の装置。
前記拡張データ計算器（１０１４）は、前記拡張量子化パラメータ（１０３６）、ひずみ数式項および前記拡張動きデータを送信するためのデータレートに基づいて、前記拡張動きデータを計算するように形成されている、請求項２または請求項９に記載の装置。
前記拡張データ計算器（１０１４）は、前記ベース動きデータまたはモード制御信号に基づくスケールされた動きデータを使用するように形成されている、請求項１ないし請求項１０のいずれかに記載の装置。
前記ベーススケーリングレイヤ（１００２）は、前記拡張スケーリングレイヤ（１００４）より低い解像度を有し、前記拡張データ計算器（１０１４）は、制御信号（１０４８）に基づく残余動きデータを決定するように形成され、さらに前記拡張ピクチャコーダ（１０２８）は、前記残余動きデータを前記拡張スケーリングレイヤ（１００４）に符号化するように形成されている、請求項１ないし請求項１１のいずれかに記載の装置。
前記ベースシーケンス計算器（１０１２）および前記拡張シーケンス計算器（１０１６）は、動き補償予測を実行するように形成されている、請求項１ないし請求項１２のいずれかに記載の装置。
前記ベースシーケンス計算器（１０１２）および前記拡張シーケンス計算器は、少なくとも１つのローパスおよびいくつかのハイパスピクチャへの動き補償時間的分解を得るために、動き補償予測に加えて動き補償更新を実行するように形成されている、請求項１ないし請求項１２のいずれかに記載の装置。
ベーススケーリングレイヤ（１００２）および拡張スケーリングレイヤ（１００４）を有する符号化されたビデオシーケンスを生成するための方法であって、前記方法は、
現在のピクチャ中のマクロブロックがピクチャの群中の別のピクチャに関してどのように動いたかを示すベース動きデータを計算するステップ（１００６）と、
前記ベース動きデータを用いて残差ピクチャのベースシーケンスを計算するステップ（１０１２）と、
残差ピクチャの前記ベースシーケンスから前記符号化されたベーススケーリングレイヤ（１００２）を計算するために残差ピクチャの前記ベースシーケンスについての情報を符号化するステップ（１０１０）と、
拡張動きデータを決定するステップ（１０１４）と、
残差ピクチャの拡張シーケンスを計算するステップ（１０１６）と、
残差ピクチャの前記拡張シーケンスを用いさらに残差ピクチャの前記ベースシーケンスについての情報（１０２６）を用いて拡張予測残差ピクチャを計算するステップ（１０１８）であって、前記拡張予測残差ピクチャを計算するステップ（１０１８）は、中間レイヤ予測信号（１０３０）に応じて残差ピクチャの前記拡張シーケンスからブロックの予測または使用を適応的に適用し、さらに前記中間レイヤ予測信号（１０３０）は、前記符号化されたビデオシーケンスに含まれている計算するステップと、
前記符号化された拡張スケーリングレイヤ（１００４）を得るために前記拡張予測残差ピクチャを符号化するステップ（１０２８）とを備える、方法。
ベーススケーリングレイヤ（１００２）および拡張スケーリングレイヤ（１００４）を有する符号化されたビデオシーケンスを復号化するための装置であって、ブロックに対する前記符号化されたビデオシーケンスは、ブロックが中間レイヤ予測によりまたは中間レイヤ予測なしで生成されたかどうかを示す、中間レイヤ予測制御信号（１０３０）を有し、前記装置は、
残差ピクチャの復号化されたベースシーケンスおよびベース動きデータを得るために前記ベーススケーリングレイヤを復号化するためのベースピクチャデコーダ（１０６０）と、
拡張予測残差ピクチャを得るために前記拡張スケーリングレイヤを復号化するための拡張ピクチャデコーダ（１０６６）と、
残差ピクチャの拡張シーケンスを得るために、残差ピクチャの前記復号化されたベースシーケンスまたは残差ピクチャの補間されたベースシーケンスと前記拡張予測残差ピクチャとを結合するための中間レイヤ結合器（１０７４）と、
残差ピクチャの前記拡張シーケンスおよび拡張動きデータを用いて前記拡張スケーリングレイヤのピクチャのシーケンスを得るように形成されている拡張動き結合器（１０７６）とを備え、
前記装置は、前記中間レイヤ予測制御信号（１０３０）が考慮されたブロックに対する中間レイヤ予測を示す場合にだけ、前記中間レイヤ結合器（１０７４）をアクティブにするようにさらに形成されている、装置。
ベーススケーリングレイヤ（１００２）および拡張スケーリングレイヤ（１００４）を有する符号化されたビデオシーケンスを復号化するための方法であって、ブロックに対する前記符号化されたビデオシーケンスは、ブロックが中間レイヤ予測によりまたは中間レイヤ予測なしで生成されたかどうかを示す、中間レイヤ予測制御信号（１０３０）を有し、前記方法は、
残差ピクチャの復号化されたベースシーケンスおよびベース動きデータを得るために前記ベーススケーリングレイヤを復号化するステップ（１０６０）と、
拡張予測残差ピクチャを得るために前記拡張スケーリングレイヤを復号化するステップ（１０６６）と、
残差ピクチャの拡張シーケンスを得るために、残差ピクチャの前記復号化されたベースシーケンスまたは残差ピクチャの補間されたベースシーケンスと前記拡張予測残差ピクチャとを結合するステップ（１０７４）であって、前記結合するステップ（１０７４）は、前記中間レイヤ予測制御信号（１０３０）が考慮されたブロックに対する中間レイヤ予測を示す場合にだけ、アクティブにされるステップと、
残差ピクチャの前記拡張シーケンスおよび拡張動きデータを用いて前記拡張スケーリングレイヤのピクチャのシーケンスを得るために拡張動き結合（１０７６）を実行するステップとを備える、方法。
請求項１５または請求項１７に記載の方法をコンピュータに実行させるためのコンピュータプログラム。