JP2006060790A

JP2006060790A - 動き補償時間フィルタリングにおける適応アップデート

Info

Publication number: JP2006060790A
Application number: JP2005203287A
Authority: JP
Inventors: Feng Wu; ウーフェン; Jizheng Xu; スージーチョン; Seong Lee; ソンリー
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-07-12
Filing date: 2005-07-12
Publication date: 2006-03-02
Anticipated expiration: 2025-07-12
Also published as: JP5276252B2; EP1617676A2; CN1735208A; KR101203338B1; EP1617676B1; KR20060092825A; EP1617676A3; US20060008038A1; US8442108B2; CN1735208B

Abstract

【課題】スケーラブルなビデオの符号化および復号化のための技法およびツールを提供する。
【解決手段】ビデオエンコーダおよびデコーダは、それぞれ、リフティングベースの動き補償時間フィルタリングにおける適応アップデートオペレーションを行う。このエンコーダは、予測ステージにおいて、奇数イメージについての動き補償予測し、ハイパスイメージを計算する。アップデートステージでは、このエンコーダは、このハイパスイメージ上で動き補償を行って、動き補償アップデートを計算する。知覚規準に基づいて、このアップデートを偶数イメージと適応的に組み合わせてローパスイメージを形成する。このデコーダは、アップデートステージでは、動き補償を行ってアップデートを計算する。このエンコーダは、知覚規準に基づいて、このアップデートをローパスイメージと適応的に組み合わせて偶数フレームを再構成する。
【選択図】図９

Description

スケーラブルなビデオ符号化および復号化のための技法およびツールについて記載する。例えば、ビデオエンコーダおよびビデオデコーダは、リフティングベースの動き補償時間フィルタリング（ｌｉｆｔｉｎｇ−ｂａｓｅｄｍｏｔｉｏｎ−ｃｏｍｐｅｎｓａｔｅｄｔｅｍｐｏｒａｌｆｉｌｔｅｒｉｎｇ）における適応アップデートオペレーションを行う。

デジタルビデオは、大量のストレージ容量および伝送容量を消費する。典型的な未加工のデジタルビデオシーケンスは、毎秒１５フレームまたは３０フレームを含んでいる。各フレームは、数万または数十万のピクセル（ｐｉｘｅｌ）（画素（ｐｅｌ）とも呼ぶ）を含むことがあり、ここで各ピクセルは、ピクチャの小さなエレメントを表している。未加工の形式においては、コンピュータは一般に、合計２４ビットの３つのサンプルのセットとしてピクセルを表現する。例えば、ピクセルは、ピクセルのグレースケールコンポーネントを定義する（用語「輝度（ｌｕｍｉｎａｎｃｅ）」および「ルマ（ｌｕｍａ）」は、本明細書中で区別なく使用されるので、ルマサンプルとも呼ばれる）８ビットの輝度サンプルと、ピクセルのカラーコンポーネントを定義する（用語「クロミナンス（ｃｈｒｏｍｉｎａｎｃｅ）」および「クロマ（ｃｈｒｏｍａ）」は、本明細書中で区別なく使用されるので、クロマサンプルとも呼ばれる）２つの８ビットのクロミナンスサンプルとを含むことができる。このように、典型的な未加工のデジタルビデオシーケンスの毎秒ビット数、すなわちビットレートは、毎秒５百万ビット以上になることがある。

多くのコンピュータおよびコンピュータネットワークでは、未加工のデジタルビデオを処理するリソースが不足する。この理由から、エンジニアは、（符号化（ｃｏｄｉｎｇ）またはエンコーディングとも呼ばれる）圧縮を使用して、デジタルビデオのビットレートを低減する。圧縮により、このビデオをより低ビットレートの形式に変換することによってビデオを格納し、伝送するコストが低減される。（復号化（ｄｅｃｏｄｉｎｇ）とも呼ばれる）伸張は、この圧縮された形式から元のビデオのバージョンを再構成する。「コーデック」とは、エンコーダ／デコーダシステムのことである。圧縮は、ロスレス（ｌｏｓｓｌｅｓｓ）とすることができるが、この場合には、ビデオの品質は影響を受けないが、ビットレートの低減は、このビデオデータの（時にエントロピーと呼ばれる）変動性の固有量によって制限される。または、圧縮は、ロッシー（ｌｏｓｓｙ）とすることもできるが、この場合は、ビデオ品質が影響を受けるが、達成可能なビットレートの低減は、さらに劇的となる。ロッシー圧縮は、しばしばロスレス圧縮と共に使用されることもある（ロッシー圧縮は、情報の近似を確立し、ロスレス圧縮を適用して、この近似を表現する）。

ビデオ圧縮の一般原則として、品質は、ビットレートに関連して直接に変化する。所与のビデオシーケンスでは、このシーケンスが高品質でエンコードされる場合、このシーケンスについてのビットレートは、より高くなり、このシーケンスが低品質でエンコードされる場合には、このシーケンスについてのビットレートは、より低くなる。時間分解能（例えば、毎秒７．５枚、１５枚、３０枚、または６０枚のビデオフレーム）、空間分解能（例えば、ビデオフレーム当たり１７６×１４４（ＱＣＩＦ）ピクセル、３５２×２８８（ＣＩＦ）ピクセル、または７０４×５７６（４ＣＩＦ）ピクセル）、およびサンプル分解能（例えば、ピクセル当たり８ビット、１６ビット、または２４ビット）を含め、様々なファクタが、未加工のビデオシーケンスのビットレートおよび品質に影響を及ぼす可能性がある。品質およびビットレートは、時間分解能、空間分解能、および／またはサンプル分解能を上下に変化させることによって変化させることができる。

品質およびビットレートは、ロッシー圧縮中に、簡略化、または情報内容の削除によって導入される歪み量にも依存する。これは、例えば再構成されるときのビデオにおけるぼやけ（ｂｌｕｒｒｉｎｅｓｓ）、ブロック歪み（ｂｌｏｃｋｉｎｅｓｓ）、粒状性（ｇｒａｉｎｉｎｅｓｓ）の量に影響を及ぼす。別の言い方をすれば、ロッシー圧縮では、このシーケンスの品質を低下させて、エンコーダで、より低ビットレートを達成することができるようになる。

別の原則としては、品質およびビットレートは、細部および動きの点でビデオシーケンスの複雑さに依存する。ある固定品質レベルでは、複雑なシーケンスは、一般的に簡単なシーケンスよりもエンコードするために多くのビットを必要とする。これを逆の面から見ると、ある固定ビットレートでエンコードされるときには、この複雑なシーケンスは、一般的に簡単なシーケンスよりも低品質を有することになる。

いくつかのシナリオでは、単一のビットレート／品質レベルにおいてビデオをエンコードすることが、必要とされるすべてであることもある。例えば、ビデオが、単一タイプのデバイスでの再生のためにエンコードされている場合、またはビデオが、電話回線上のポイントツーポイントのビデオ会議での再生のためにエンコードされている場合には、単一のビットレート／品質レベルでこのビデオを単純にエンコードすることが望ましいこともある。しかし、他の多くのシナリオにおいては、複数のビットレートおよび品質レベルでビデオをエンコードすることが望ましい。例えば、インターネット上でビデオをストリーミングする際には、ビデオサーバにはしばしば、様々な機能を有するデバイスにビデオを提供し、そして／または様々な速度および信頼性特性を有する各種のネットワーク環境上でビデオを配信する。

様々なネットワーク要件および再生要件に対処する１つの方法は、複数のビットレートおよび品質レベルでこの同じビデオシーケンスをエンコードすることであり、これにより、複数の独立した圧縮ビデオビットストリームのためにストレージおよび伝送の非効率性がもたらされる可能性がある。代替方法として、サブバンドビデオまたはウェーブレットビデオエンコーディングは、単一のスケーラブルな圧縮ビデオビットストリーム中においてマルチ分解能の形でビデオシーケンスをエンコードする方法を提供する。サブバンドまたはウェーブレットエンコーディングを用いて、ビデオシーケンスは、異なる時間および空間のサブバンドに分解される。

簡単な例として、ビデオシーケンスは、（大ざっぱに、このシーケンスの低フレームレートバージョンに対応する）低分解能時間サブバンドと、（この低分解能時間サブバンドと組み合わせて元のフレームレートシーケンスを再構成することができる）高分解能時間サブバンドとに分けられる。個々のビデオフレームについての情報も同様に、低分解能空間サブバンドと、複数のより高分解能の空間サブバンドとに分けることができる。時間および空間分解は、一緒に使用することができる。どちらのタイプの分解も、例えば、低分解能サブバンドをさらに分解するように繰り返すことができる。伝送のために特定のサブバンドを選択し、または異なる分解能でデコードすることによって、時間および空間スケーラビリティを実施することができる。

さらに、個別のサブバンドについての情報は、複数レイヤのビット分解能を有するビットプレーンとして表現することもできる。元のエンコードされた情報に対する忠実度を、このサブバンドについてのビットのすべてではなく一部を伝送することによって（ビットレートと共に）選択的に低下させることができる。または、忠実度を、このサブバンドについてのこれらのビットのすべてより少ないビットをデコードすることによって（処理要件と共に）選択的に低下させることもできる。

A. N. Netravali and B. Prasada, "Adaptive Quantization of Picture Signals Using Spatial Masking," Proc. IEEE, vol. 65, pp. 536-548 (April 1977) Bjontegaard et al., "H.263 Anchors-Technical Description" Chen et al., "Improved MC-EZBC with Quarter-pixel Motion Vector" Y. A. Andreopoulos et al., "A New Method for Complete-to-Overcomplete Discrete Wavelet Transforms," Proc. IEEE Conf. Digital Signal Proc. (2002) X. Li, L. Kerofsky, S. Lei, "All-phase Motion Compensated Prediction for High Performance Video Coding," Proc. ICIP, vol. 3, pp. 538-541 (2001)

スケーラブルなビデオ符号化およびビデオ復号化技法は、圧縮ビットストリームの様々な空間、時間およびビット忠実度のスケーラビリティを容易にするが、既存のスケーラブルなビデオ符号化およびビデオ復号化技法には、いくつかの短所が存在する。

既存のスケーラブルなビデオ符号化およびビデオ復号化技法は、低ビットレートにおいて非スケーラブルな技法に匹敵するパフォーマンスを提供していない。スケーラブルなビデオ符号化およびビデオ復号化技法のパフォーマンスは、より高いビットレートおよび品質において良好であるが、これらの技法では、非スケーラブルなビデオ符号化およびビデオ復号化技法に比べて、低ビットレートにおいて使用するビット数があまりにも多すぎる。

さらに、多くの既存のハードウェアおよびソフトウェアツールは、特定の非スケーラブルなビデオ符号化およびビデオ復号化技法に従って設計されたものである。かかるツールのユーザは、新しいスケーラブルなビデオ符号化およびビデオ復号化技法、ならびに既存のツールと互換性のないツールに投資したがらないこともある。さらに、コンテンツプロバイダは、普及しているインストールベースのビデオデコーディングツールと互換性のないエンコードコンテンツを生成したがらないこともある。

時には、デコーダが、その元の空間分解能よりも低い空間分解能でビデオを再生することがある。例えば、デコーダデバイスに、小型スクリーンしかない場合、またはより高い空間分解能情報が、ネットワークによって落とされる場合には、これが起こる可能性がある。しかし、時間分解が、エンコーディング中の元の空間分解能で行われるときには、より低い空間分解能でのデコーディングには問題がある。既存のスケーラブルなビデオ復号化技法では、この復号化シナリオに十分に対処することができない。

最後に、既存のスケーラブルなビデオ符号化およびビデオ復号化技法では、エンコーディングおよびデコーディング中における、ある種の決定における歪みの知覚を計算に入れることができない。具体的には、既存のスケーラブルなビデオ符号化技法では、ある種の時間分解における低分解能時間サブバンド中の過剰な量の知覚可能な歪みが導入される。

デジタルビデオの圧縮および伸張の決定的な重要性を考えれば、スケーラブルなビデオ符号化および復号化が、十分に開発された分野であることは、驚くべきことではない。しかし、以前のスケーラブルなビデオ符号化技法および復号化技法の利点が何であろうとも、これらの技法には、以下の技法およびツールの利点を有していない。

本明細書に記載の技法およびツールは、スケーラブルなビデオ符号化および復号化のパフォーマンスを改善する。詳細には、ビデオエンコーダおよび／またはデコーダは、エンコーディングおよびデコーディング中における、ある種の決定における歪みの知覚を計算に入れる。例えば、かかる決定は、動き補償時間フィルタリングにおけるアップデートオペレーションに関係する。適応アップデートオペレーションが、圧縮ビデオビットストリームから再構成される低フレームレートビデオの知覚品質を改善する。同時に、この適応アップデートオペレーションは、この圧縮ビデオビットストリームから再構成される高フレームレートビデオについても依然として有効である。

第１のセットのツールおよび技法によれば、３Ｄサブバンドビデオエンコーダなどのエンコーダが、予測ステージおよびアップデートステージを含む動き補償時間フィルタリングを行う。このエンコーダは、人間の視覚システムのモデル（例えば、最小弁別値モデル）に少なくとも部分的に基づいて、アップデート情報を適応する。例えば、このエンコーダは、１つまたは複数のイメージ依存のしきい値を設定し、ここで、このイメージ依存のしきい値は、フラットエリアではより低く、ノイズのあるエリアでは、より高い。次いで、エンコーダは、エンコーディングの際にこの適応化の結果を使用する。

第２のセットのツールおよび技法によれば、３Ｄサブバンドビデオデコーダなどのデコーダが、予測ステージおよびアップデートステージを含む逆動き補償時間フィルタリングを行う。このデコーダは、人間の視覚システムのモデルに少なくとも部分的に基づいて、アップデート情報を適応し、次いでデコーディングの際にこの適応化の結果を使用する。

第３のセットのツールおよび技法によれば、３Ｄサブバンドビデオエンコーダなどのエンコーダが、知覚規準に少なくとも部分的に基づいてリフティングベースの動き補償時間フィルタリングのための１つまたは複数のしきい値を計算する。例えば、このエンコーダは、アップデートすべき複数のイメージのそれぞれについてイメージごとのアップデートしきい値を計算する。次いで、このエンコーダは、この１つまたは複数のアップデートしきい値に従ってアップデート情報をしきい値化する。

第４のセットのツールおよび技法によれば、３Ｄサブバンドビデオデコーダなどのデコーダが、知覚規準に少なくとも部分的に基づいて、逆動き補償時間フィルタリングのための１つまたは複数のアップデートしきい値を計算する。次いで、このデコーダは、この１つまたは複数のアップデートしきい値に従ってアップデート情報をしきい値化する。

本明細書に記載の技法およびツールについての前述および他の目的、特徴、および利点は、添付図面を参照して進められる以下の詳細な説明から、さらに明らかになろう。

３次元（「３Ｄ」）ウェーブレットまたはサブバンドビデオ符号化において、ビデオは、いくつかの時間および空間変換を通して多くの時間−空間サブバンドに分解される。これらのサブバンドは、これらの一部をスケーラビリティのために落とすことができるという点である程度独立している。例えば、低空間分解能ビデオをデコードするために、これらの空間ハイパスサブバンドを落とし、デコーダは、空間ローパスサブバンド中において、この受信データだけでデコーディングを行う。

本明細書に記載の様々な技法およびツールは、独立に使用することができる。これらの技法およびツールのいくつかは、（例えば、組み合わされたエンコーディングおよび／またはデコーディングプロセスの異なるフェーズにおいて）組み合わせて使用することができる。

Ｉ．動作環境例
図１は、記載の実施形態のいくつかを実施することができる適切なコンピューティング環境（１００）の一般化された例を示している。この記載の技法およびツールは、広範な汎用または専用のコンピューティング環境中で実施することができるので、コンピューティング環境（１００）は、使用または機能の範囲についてどのような限定も示唆することを意図していない。

図１を参照すると、コンピューティング環境（１００）は、少なくとも１つの処理装置（１１０）およびメモリ（１２０）を含んでいる。図１において、この最も基本的な構成（１３０）は、破線内に含められている。処理ユニット（１１０）は、コンピュータ実行可能命令を実行し、実プロセッサでも、また仮想プロセッサでもよい。マルチ処理システムにおいては、複数の処理ユニットが、コンピュータ実行可能命令を実行して、処理能力を増大する。メモリ（１２０）は、揮発性メモリ（例えば、レジスタ、キャッシュ、ＲＡＭなど）、不揮発性メモリ（例えば、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなど）、またはこれら２つの何らかの組合せとすることができる。メモリ（１２０）は、本明細書に記載の技法のうちの１つまたは複数の技法を使用するビデオエンコーダおよび／またはデコーダを実施するソフトウェア（１８０）を格納する。

コンピューティング環境は、追加の機能を有することもできる。例えば、コンピューティング環境（１００）は、ストレージ（１４０）、１つまたは複数の入力デバイス（１５０）、１つまたは複数の出力デバイス（１６０）、および１つまたは複数の通信接続（１７０）を含んでいる。バス、コントローラ、ネットワークなどの相互接続メカニズム（図示せず）は、コンピューティング環境（１００）のコンポーネントを相互接続する。通常、オペレーティングシステムソフトウェア（図示せず）は、コンピューティング環境（１００）中で実行される他のソフトウェアのための動作環境を提供し、コンピューティング環境（１００）のコンポーネントのアクティビティを調整する。

ストレージ（１４０）は、リムーバブルまたは非リムーバブルとすることができ、磁気ディスク、磁気テープもしくは磁気カセット、ＣＤ−ＲＯＭ、ＤＶＤ、または情報を格納するために使用することができ、コンピューティング環境（１００）内でアクセスすることができる他の任意の媒体を含んでいる。ストレージ（１４０）は、ソフトウェア（１８０）のための命令を格納する。

入力デバイス（１５０）は、コンピューティング環境（１００）に入力を提供するキーボード、マウス、ペン、トラックボールなどのタッチ入力デバイス、音声入力デバイス、スキャニングデバイス、または他のデバイスとすることができる。オーディオまたはビデオエンコーディングでは、入力デバイス（１５０）は、アナログまたはデジタル形式でオーディオまたはビデオ入力を受け入れるサウンドカード、ビデオカード、ＴＶチューナカード、または同様なデバイス、あるいはコンピューティング環境（１００）中にオーディオまたはビデオサンプルを読み込むＣＤ−ＲＯＭまたはＣＤ−ＲＷとすることもできる。出力デバイス（１６０）は、コンピューティング環境（１００）から出力を提供するディスプレイ、プリンタ、スピーカ、ＣＤ−ライタ、または他のデバイスとすることができる。

通信接続（１７０）は、通信媒体を介して他のコンピューティングエンティティへの通信を可能にする。この通信媒体は、コンピュータ実行可能命令、オーディオまたはビデオの入力または出力、他のデータなどの情報を変調データ信号の形で搬送する。変調データ信号とは、信号中の情報を符号化するようにその１つまたは複数の特性を設定または変更した信号のことである。例として、限定するものではないが、通信媒体には、電気的な、光学的な、ＲＦの、赤外線の、音響の、または他の搬送波を用いて実施されるワイヤまたはワイヤレス技法が含まれる。

これらの技法およびツールは、コンピュータ読取り可能媒体の一般的なコンテキストで説明することができる。コンピュータ読取り可能媒体は、コンピューティング環境内でアクセスすることができる使用可能な任意の媒体である。例として、限定するものではないが、コンピューティング環境（１００）に関して、コンピュータ読取り可能媒体は、メモリ（１２０）、ストレージ（１４０）、通信媒体、およびこれらの任意の組合せを含む。

これらの技法およびツールは、コンピューティング環境内においてターゲットの実プロセッサまたはターゲットの仮想プロセッサ上で実行される、プログラムモジュール中に含まれる命令などのコンピュータ実行可能命令の一般的なコンテキストで説明することができる。一般的に、プログラムモジュールは、特定のタスクを行い、特定の抽象データ型を実装するルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などを含む。これらのプログラムモジュールの機能は、様々な実施形態中において必要に応じてプログラムモジュール間で、組み合わせたり、または分けたりすることができる。プログラムモジュールについてのコンピュータ実行可能命令は、ローカルコンピューティング環境または分散コンピューティング環境内で実行することができる。

提示の目的で、この詳細な説明では、「信号」、「判定する」、および「適用する」のような用語を使用して、コンピューティング環境中におけるコンピュータオペレーションを説明する。これらの用語は、コンピュータによって行われるオペレーションについての高位の抽象化であり、人間によって行われる動作と混同すべきではない。これらの用語に対応する実際のコンピュータオペレーションは、実装形態に応じて変わる。

ＩＩ．ビデオエンコーダおよびビデオデコーダ例
図２は、様々な記載の実施形態と共に実施することができる一般化したビデオエンコーダシステム（２００）のブロック図である。図４は、４レイヤの時間分解の後に１レイヤの空間分解が続く一般化されたエンコーダ（４００）を示している。図３は、様々な記載の実施形態と共に実施することができる一般化したビデオデコーダシステム（３００）のブロック図である。図５は、４レイヤの（逆）時間分解および２レイヤの（逆）空間分解を有する組み合わされたエンコーダ／デコーダシステム（５００）を示している。

これらのエンコーダおよびデコーダ内のモジュール間に示される関係は、これらのエンコーダおよびデコーダ中における情報の主要なフローを示している。他の関係については、簡潔に示すために示していない。特に、動き情報は別として、図２および３は、ビデオのシーケンス、フレーム、マクロブロック、ブロックなどのために使用されるエンコーダ設定、モード、テーブルなどを示すサイド情報を示していない。かかるサイド情報は、場合によってはこのサイド情報のエントロピーエンコーディングの後に、この出力ビットストリーム中で送られる。

所望の実施形態および圧縮のタイプに応じて、図面に示すエンコーダまたはデコーダのモジュールを追加し、省略し、複数のモジュールに分け、他のモジュールと組み合わせ、そして／または同様なモジュールと置き換えることができる。代替の実施形態において、異なるモジュールおよび／または他のモジュール構成を有するエンコーダまたはデコーダは、これら記載の技法の１つまたは複数を行う。例えば、図２は、エンコーダシステム（２００）中の時間分解（２１０）から空間分解（２３０）のダウンストリームを示しているが、このエンコーダシステム（２００）は、代替的にまたは追加的に時間分解（２１０）を始める前に１つまたは複数のレイヤの空間分解を含むこともできる。かかるケースにおいては、対応するデコーダシステム（３００）は、逆時間分解（３１０）の後に１つまたは複数のレイヤの逆空間分解を含むことができる。

３Ｄサブバンドビデオ符号化は、中程度または高ビットレートにおける（例えば、Ｈ．２６４またはＶＣ−１規格による）最新の非スケーラブルなビデオ符号化に匹敵するパフォーマンスを達成する。しかし、従来の非スケーラブルなアプローチに比べて、３Ｄサブバンドビデオ符号化における動きベクトルを符号化するのに費やされるビット量は、比較的大きい。その結果、３Ｄサブバンドビデオ符号化は、通常、低ビットレートにおける非スケーラブルなアプローチよりも悪く、ここで、動きベクトルを符号化するのに費やされるビットは、この全体のビットレートのより大きなパーセンテージを計算に入れる。

Ａ．ビデオエンコーダ例
３Ｄサブバンドビデオ符号化は、ビデオの複数レベルの空間／時間サブバンド分解を使用することにより、複数レベルの空間および／または時間スケーラビリティを提供するエレガントな方法である。図２は、一般的な３Ｄサブバンドビデオ符号化スキーム（２００）を示している。エンコーダ（２００）は、ビデオピクチャのシーケンス（２０５）（例えば、プログレッシブビデオフレーム、インターレースビデオフレーム、またはインターレースビデオフレームのフィールド）を受け取り、圧縮ビデオ情報（２９５）を出力として生成する。ビデオエンコーダの特定の実施形態は、通常、一般化されたエンコーダ（２００）の変形形態または補足バージョンを使用する。

エンコーダ（２００）は、時間サブバンド変換（２１０）によってビデオ信号を分解する。図２は、低分解能サブバンドおよび高分解能サブバンドへの単一レベルの時間分解についての出力を示しているが、この時間分解は、４レベル、５レベル、または他の何らかのレベルの分解を含むこともできる。

図２において、時間分解（２１０）は、動き補償時間フィルタリング（「ＭＣＴＦ」）であり、エンコーダ（２００）は、動き推定（２２０）を行ってこのビデオ信号についての動き情報を計算する。動き推定（２２０）の正確な戦略は、実装形態に依存し、例えば、サブピクセル精製が後に続く整数ピクセル検索、スパイラル検索パターン、実際のまたはモデル化した残差符号化コスト、動き情報符号化コスト、動き予測モードなどを考慮したレート−歪み関数の最小化を含むことがある。

いくつかの実施形態においては、エンコーダ（２００）は、動き推定（２２０）における（４×４から１６×１６までの）動きベクトルの可変サイズブロックについての動きベクトルを計算し、かかる動きベクトルをＭＣＴＦ中で適用する。例えば、１６×１６のマクロブロックでは、エンコーダ（２００）は、１つの１６×１６パーティション、２つの１６×８パーティション、２つの８×１６パーティション、４つの８×８パーティションについての１つ（または複数）の動きベクトルを計算し、ここで、各８×８パーティションは、さらに２つの８×４パーティション、２つの４×８パーティション、あるいは４つの４×４パーティションに分けることができる。または、エンコーダ（２００）は、より高い空間分解能ビデオ（例えば、ＣＩＦ）のより大きなブロック（例えば、３２×３２）についての動きベクトルを計算して、より低い空間分解能のビデオ（例えば、ＱＣＩＦ）だけをデコードするときに動きベクトルの使用を容易にする。あるいはまた、エンコーダ（２００）は、他のサイズのブロックについての動きベクトルを計算する。

動き推定（２２０）およびＭＣＴＦの動き精度は、実装形態に依存する。例えば、動き推定（２２０）およびＭＣＴＦは、４分の１ピクセル動きベクトルを使用する。あるいはまた、動き推定（２２０）およびＭＣＴＦは、他の何らかの精度を有する動き情報を使用する。例えば、ＱＣＩＦビデオだけをデコードするときに４分の１ピクセル動きベクトルの使用を容易にするために、エンコーダ（２００）は、ＣＩＦビデオについての２分の１ピクセル動きベクトル、および／または４ＣＩＦビデオについての整数ピクセル動きベクトルを計算する。

動き推定（２２０）およびＭＣＴＦの方向は、前方、後方、双方向、またはイントラとすることができる。いくつかの実施形態においては、エンコーダ（２００）は、パーティションごとにマクロブロックの動き推定（２２０）および補償方向を前方、後方、双方向、またはイントラとして設定する。あるいはまたは、エンコーダ（２００）は、これらの方向を他の何らかのレベルに設定し、そして／または何らかの方向（例えば、イントラ）を可能にしない。

いくつかの実装形態においては、リファレンスフレームを（例えば、簡単な繰り返しパディングにより）パッドして、このリファレンスフレームの外側の動き推定／補償を可能にすることができる。リファレンスフレーム上のサブピクセル補間は、バイリニアフィルタ、バイキュービックフィルタ、シンクフィルタまたは他の何らかのフィルタを使用して、分数動き推定／補償についてのサンプル値を生成する。いくつかの実装形態においては、このエンコーダは、オーバーラップブロック動き補償（「ＯＢＭＣ」）を使用する。あるいはまたは、動きベクトル範囲がリファレンスフレーム境界内にあるように制限され、そして／またはＯＢＭＣが使用されない。

ＭＣＴＦのいくつかの例について、以下に５／３双直交ウェーブレット構造を使用して説明する。あるいはまたは、エンコーダ（２００）は、別の数および／またはタイプの時間サブバンド変換（２１０）（例えばハール（Ｈａａｒ））および／または動き推定（２２０）を行う。図２は、フル空間分解能ビデオが時間的に変換される空間ドメインＭＣＴＦを示している。あるいはまたは、エンコーダ（２００）は、時間分解（２１０）の前に１つまたは複数の空間サブバンド変換を含み、このＭＣＴＦは、初期空間分解からの空間サブバンド上のインバンドＭＣＴＦである。

時間変換（２１０）の後、エンコーダ（２００）は、１つまたは複数の２次元（「２Ｄ」）空間サブバンド変換（２３０）を適用して、これらの信号をさらに分解する。図２は、２レベルの２Ｄ空間分解についての出力を示しており、ここで、水平および垂直方向に低い空間分解能を有するサブバンドは、さらに水平および垂直方向に分解される。例えば、この２Ｄ空間サブバンド変換は、ダイディック離散ウェーブレット変換（「ＤＷＴ」）である。このウェーブレットフィルタは、例えば、９／７ＤＷＴフィルタ、または５／３ＤＷＴフィルタの代わりとすることができる。あるいはまたは、エンコーダ（２００）は、空間サブバンド変換の（３や４など）別の数を行い、そして／または別のタイプの空間サブバンド変換（２３０）を行う。

時間変換（２１０）および空間変換（２３０）の後に、これらの信号は、入力ビデオ（２０５）の異なる空間−時間分解能に対応する異なる空間−時間サブバンドに編成される。エンコーダ（２００）は、これらのサブバンドをエントロピー符号化する（２４０）。例えば、エンコーダ（２００）は、いくつかの実施形態における３Ｄ最適切捨てを用いた埋込みブロック符号化（「ＥＢＣＯＴ」）を使用する。ＪＰＥＧ２０００は、２Ｄ形式のＥＢＣＯＴを使用し、かかる実装形態におけるエンコーダ（２００）は、基本的に２ＤＥＢＣＯＴを３Ｄ符号化へと拡張する。時間および空間変換によって生成される各サブバンドは、独立に符号化される３Ｄ符号化ブロックに分割される。符号化ブロックごとに、エンコーダ（２００）は、ビットプレーン符号化およびコンテキストベースの算術符号化を使用する。あるいはまたは、エンコーダ（２００）は、サブバンド情報についての他の何らかの形式のエントロピー符号化を使用する。

エンコーダ（２００）はまた、動き情報（例えば、動きベクトル、動きモード選択情報）も符号化する（２５０）。例えば、エンコーダ（２００）は、マクロブロックのパーティション、動き推定／補償の方向、動きベクトル情報をエントロピーエンコードする簡単な可変長コードなどの何らかの形式のエントロピー符号化を使用する。動きベクトルについては、エンコーダ（２００）は、この動きベクトルとその予測の間の差をエンコードする。この動きベクトル予測値は、以前にエンコード／デコードされた動きベクトルからの中央予測を使用するか、または他の何らかの動きベクトル予測技法を使用して計算することができる。あるいはまたは、エンコーダ（２００）は、動き情報についての他および／または追加の符号化（２５０）技法を使用する。

サブバンド変換（２１０、２３０）のプロパティにより、エンコーダ（２００）は、空間スケーラビリティおよび時間／フレームレートスケーラビリティを当然にサポートする。さらに、サブバンド係数のビットプレーン符号化により、エンコーダ（２００）は、一般に品質／信号対雑音比（「ＳＮＲ」）スケーラビリティもサポートする。

これらのスケーラビリティは、インターネットやワイヤレスネットワークなどのエラーを起こしやすいネットワーク上でビデオ伝送を行うのに非常に有用である。異なるサブバンドは、異なるレベルのエラー訂正または伝送エラーに対する復元力で伝送するためにエンコードすることができる。または、異なるサブバンドは、異なる優先順位レベルで伝送することができ、ここでネットワークは、優先順位付けされた伝送をサポートする。

これらの様々なスケーラビリティはまた、たとえ異なるデバイスが、異なるメモリリソース、計算能力、ディスプレイサイズ、アクセス可能な帯域幅などを有するとしても、これらの異なるデバイスが、この同じ圧縮ビデオストリームを共有するのを助けることもできる。このようにして、異なるビットレートでのビデオ（２０５）をエンコードするタスクが、簡単化される。

複数レベルの時間分解の１つの利点は、ビデオ信号内における時間冗長度を大きな範囲で活用することができることである。最初の数レベルの時間サブバンド変換は、近くのフレームとの間における時間冗長度を活用することができ、最後の数レベルの時間サブバンド変換は、長い距離にわたってのフレーム間の依存性を利用することができる。

図４は、４レイヤの時間分解と１レイヤの空間分解を有する３Ｄサブバンドビデオエンコーダ（４００）の一例を示している。基本的に、図４は、図２における時間サブバンド変換（２１０）の１つの考えられうる拡張を示しており、異なるレベルの時間分解についてのデータフローも示している。図４はまた、時間分解および空間分解についての新しい表記法も導入している。

図４において、エンコーダ（４００）は、４レベルの時間サブバンド変換を毎秒ｆフレームのフレームレートを有するビデオに適用する。時間サブバンド変換の各レベルＴ_ｉは、そのレベルに対する信号入力を２つの時間サブバンド、すなわち時間ローパスサブバンドと時間ハイパスサブバンドに分割する。この場合には、各サブバンドは、そのレベルに対する入力ビデオ信号の半分のフレームレートを有する。図４において、項ｔ−Ｌ_ｉおよびｔ−Ｈ_ｉは、それぞれｉ番目の時間変換Ｔ_ｉ後の出力ローパスサブバンドおよびハイパスサブバンドを示している。ｔ−Ｌ_ｉもｔ−Ｈ_ｉも共に、フレームレートｆ／２^ｉを有する。図４において、この信号ｔ−Ｌ_ｉは、時間サブバンド変換Ｔ_ｉ＋１を用いて数回の繰り返しについて分解されて、長期依存性を活用し、このデコーダによってデコードすることができるより低いフレームレートビデオを可能にする。

簡単な数字の例を用いて例示するために、この入力ビデオが毎秒３０フレーム（「ｆｐｓ」）のＣＩＦビデオであるものと想定する。第１の時間分解からの出力ハイパスサブバンドｔ−Ｈ_１がそうであるように、第１の時間分解からの出力ローパスサブバンドｔ−Ｌ_１は、１５ｆｐｓビデオである。第２の時間分解からの出力サブバンドｔ−Ｌ_２およびｔ−Ｈ_２は、７．５ｆｐｓビデオであり、第３の時間分解からの出力サブバンドｔ−Ｌ_３およびｔ−Ｈ_３は、３．７５ｆｐｓビデオである。最後に、第４の時間分解からの出力サブバンドｔ−Ｌ_４およびｔ−Ｈ_４は、１．８７５ｆｐｓビデオである。空間分解能は、この例における出力ローパスサブバンドおよびハイパスサブバンドのすべてについてＣＩＦである。

フレーム間の動き情報は、異なるレベルで推定され、各レベルの時間変換は、現在のレベルの動き軌跡に沿って行われる。時間分解の各レベルは、このように動きベクトルを生成し、この動きベクトルは後に符号化される。図４では、４レベルの時間変換に対応する４組の動きベクトルがある。

次いで、この出力時間ローパスサブバンドｔ−Ｌ_４、および出力時間ハイパスサブバンドｔ−Ｈ_１、ｔ−Ｈ_２、ｔ−Ｈ_３、およびｔ−Ｈ_４は、単一レベル２Ｄ空間サブバンド変換Ｓ_１で分解され、これは、それぞれの入力サブバンドをローパス水平、ローパス垂直（「ＬＬ」）サブバンド、ローパス水平、ハイパス垂直（「ＬＨ」）サブバンド、ハイパス水平、ローパス垂直（「ＨＬ」）サブバンド、およびハイパス水平、ハイパス垂直（「ＨＨ」）サブバンドに分割する。あるいはまたは、エンコーダ（４００）は、時間分解レベルの前および／または後において、他および／または追加のレベルの空間分解を含むか、またはエンコーダ（４００）は、異なる空間分解パターンを使用する。

図４について、上で開始した数字の例を継続すると、ローパスサブバンドｔ−Ｌ_４は、ＣＩＦ空間分解能を有する。単一レベル２Ｄ空間サブバンド変換Ｓ_１により、時間サブバンドｔ−Ｌ_４は、ＬＬサブバンド、ＬＨサブバンド、ＨＬサブバンド、およびＨＨサブバンドに分解される。ＬＬサブバンド、ＬＨサブバンド、ＨＬサブバンド、およびＨＨサブバンドのそれぞれは、ＱＣＩＦ分解能を有する。同様に、時間ハイパスサブバンドｔ−Ｈ_１、ｔ−Ｈ_２、ｔ−Ｈ_３、およびｔ−Ｈ_４のそれぞれは、ＣＩＦ分解能で開始し、ＱＣＩＦ分解能のＬＬ、ＬＨ、ＨＬ、およびＨＨサブバンドに分解される。

この空間分解されたサブバンドは次いで、エントロピー符号化され、出力される。

Ｂ．ビデオデコーダ例
図３は、一般的な３Ｄサブバンドビデオデコーディングスキーム（３００）を示している。デコーダ（３００）は、圧縮ビデオ情報（３９５）を受け取り、ビデオピクチャ（３０５）のシーケンス（例えば、プログレッシブビデオフレーム、インターレースビデオフレーム、またはインターレースビデオフレームのフィールド）を出力として生成する。ビデオデコーダの特定の実施形態は、通常、一般化されたデコーダ（３００）の変形形態または補足バージョンを使用する。

デコーダ（３００）は、この空間−時間サブバンドの一部またはすべてについての情報（３９５）をエントロピーデコードする（３４０）。ビデオ情報（３９５）は、依然として異なる空間−時間サブバンド中に編成され、これは、入力ビデオ（２０５）の異なる空間−時間分解能に対応する。このようにして、デコーダ（３００）は、この圧縮ビットストリーム（３９５）の一部を無視して、異なる空間−時間分解能の間で選択することができ、あるいは、デコーダ（３００）は、デコーダ（３００）が実際に受け取る圧縮ビットストリーム（３９５）のあるサブセットだけをデコードすることができる（３４０）。デコーダ（３００）は基本的に、デコーダ（３００）がデコードする情報についてエンコーダ（２００）中で行われるエントロピー符号化（２４０）の逆を行う。例えば、デコーダ（３００）は、３ＤＥＢＣＯＴを使用してエンコードされた情報を受け取り、デコードする（３４０）。あるいはまたは、デコーダ（３００）は、このサブバンド情報の一部またはすべてについてのエントロピーデコーディングの他の何らかの形式を使用する。

デコーダ（３００）が逆ＭＣＴＦ（「ＩＭＣＴＦ」）を行うとき、デコーダ（３００）は、動き情報（例えば、動きベクトル、動きモード選択情報）をデコードし（３５０）、多くの場合に、エンコーダ（２００）で行われた符号化（２５０）の逆を実行する。例えば、デコーダ（３００）は、単純な可変長コードの復号化など何らかの形式のエントロピーデコーディングを使用する。動きベクトルについては、デコーダ（３００）は、中央予測または他の何らかの動きベクトル予測技法を使用して動きベクトル予測を計算し、次いでデコーダ（３００）は、この動きベクトル予測を動きベクトル差分値と組み合わせる。あるいはまたは、デコーダ（３００）は、他および／または追加のデコーディング（３５０）技法を使用する。

デコーダ（３００）は、１つまたは複数の２Ｄ逆空間サブバンド変換（３３０）を適用してこのビデオを空間的に再構成する。図３は、２レベルの２Ｄ逆空間分解についての入力および出力を示している。例えば、この２Ｄ逆空間サブバンド変換は、ダイアディック逆ＤＷＴ（「ＩＤＷＴ」）である。あるいはまたは、デコーダ（３００）は、別の数および／またはタイプの逆空間サブバンド変換（３３０）を行う。

デコーダ（３００）は、さらに逆時間サブバンド変換（３１０）によってこのビデオ信号を再構成する。図３は、低分解能サブバンドおよび高分解能サブバンドからの単一レベルの時間再構成についての出力を示しているが、この時間合成は、４レベル、５レベルまたは他の何らかの数の合成を含むこともできる。

図３において、逆時間変換（３１０）は、ＩＭＣＴＦを使用しており、デコーダ（３００）は、このビデオ信号についてのデコードされた（３５０）動き情報を使用して動き補償を行う。一般に、この動き情報およびＩＭＣＴＦの属性（例えば、動き補償についてのパーティション、動きベクトル精度、動き補償の方向、リファレンスフレームパディングの使用、サブピクセル補間、ＯＢＭＣの使用）は、対応するエンコーダ（２００）におけるものと同様であり、圧縮ビデオビットストリーム（３９５）中において通知される。ＩＭＣＴＦのいくつかの例については、以下で説明する。あるいはまたは、デコーダ（３００）は、別の数および／またはタイプの逆時間サブバンド変換（３１０）および／または動き補償を行う。図３は、フル空間分解能ビデオが逆時間変換を使用して再構成される空間ドメインＩＭＣＴＦを示している。あるいはまたは、デコーダ（３００）は、インバンドＭＣＴＦを行う。

図４のエンコーダ（４００）を参照すると、対応するデコーダは、ｔ−Ｌ_ｉのみからｆ／２^ｉのフレームレートのビデオを再構成することができよう。または、このデコーダは、（後続の時間ハイパスサブバンド情報ｔ−Ｈ_ｉ＋１などを含む）ｔ−Ｌ_ｉおよびｔ−Ｈ_ｉの両方からｆ／２^ｉ−１のフレームレートのビデオを再構成することもできよう。

図５は、４レイヤの時間分解および２レイヤの空間分解をこのエンコーダ中に有し、また対応する数の逆変換をこのデコーダ中に有する３Ｄサブバンドビデオエンコーダ−デコーダ（「コーデック」）システム（５００）を示している。基本的に、図５は、図２および３のエンコーダ（２００）およびデコーダ（３００）の考えられうる他のバージョンを示している。図５では、時間および空間分解、ならびにこれらの逆オペレーションについての別の簡単な表記法も導入している。

図５において、このエンコーダは、４レベルの時間サブバンド変換Ｔ_ｉ（すなわち、Ｔ_１、Ｔ_２、Ｔ_３、およびＴ_４）をビデオに対して適用し、２レベルの空間サブバンド変換Ｓ_ｉ（すなわち、Ｓ_１およびＳ_２）をこの時間分解の結果に対して適用している。次いでこのエンコーダは、エントロピー符号化Ｅを行う。このデコーダは、エントロピー復号化Ｅ^−１を行い、２レベルの逆空間サブバンド変換Ｓ_ｉ ^−１（すなわち、Ｓ_２ ^−１およびＳ_１ ^−１）をこのエントロピー復号化の結果に対して行う。次いで、このデコーダは、４レベルの逆時間サブバンド変換Ｔ_ｉ ^−１（すなわち、Ｔ_４ ^−１、Ｔ_３ ^−１、Ｔ_２ ^−１、およびＴ_１ ^−１）をこの空間再構成の結果に対して適用する。

ＩＩＩ．動き補償時間フィルタリング
符号化効率を改善するために、（代替的に、本明細書中においては動き補償時間フィルタリング（「ＭＣＴＦ」）と呼ばれる）動き位置合わせ時間変換が、時間分解において適用されて、効率的に時間冗長度を取り除く。ＭＣＴＦの主なアイデアは、時間分解が適用される間に、異なるフレーム間でピクセルを位置合わせすることである。動き位置合わせ３Ｄ符号化スキームは、スケーラビリティ機能、ならびに他の符号化スキームに比べて劣化がなく、さらに良好でさえある符号化効率を実現することができる。

様々なＭＣＴＦスキームのうちでも、リフティングベースのＭＣＴＦは、柔軟で効率的な実装形態を提供する。図６は、５／３双直交ウェーブレットについてのリフティングベースのＭＣＴＦスキームにおける入力ビデオフレームと、時間ローパスフレームと、時間ハイパスフレームとの間の関係を示している。

図６は、このＭＣＴＦに入力される４つの元のインデックスされたビデオフレームについてのピクセルの列を示している。（これらの入力フレームそれ自体は、例えば以前のレベルのＭＣＴＦからの時間ローパスサブバンド出力とすることができる。）図６におけるこのリフティングベースのウェーブレット変換は、２つの基本ステージ、すなわち動き補償予測（「ＭＣＰ」）ステージおよび動き補償アップデート（「ＭＣＵ」）ステージを伴う。

奇数フレーム（例えば、フレームＩ_２ｉ＋１）についての予測ステージにおいては、１つまたは複数の隣接した偶数フレーム（例えば、フレームＩ_２ｉおよびＩ_２ｉ＋２）からの動き補償が、この奇数フレームのピクセルについての動き補償予測を示している。ハイパスフレーム（例えば、Ｈ_ｉ）は、基本的に奇数フレームと、奇数フレームについての動き補償予測との間の差である。

アップデートステージにおいては、１つまたは複数の使用可能なハイパスフレーム（例えば、Ｈ_ｉおよびＨ_ｉ−１）の動き補償が、動き補償アップデートを示している。ローパスフレーム（例えば、Ｌ_ｉ）は、基本的にこのアップデートと偶数フレーム（例えば、フレームＩ_２ｉ）の間の差である。

図７は、エンコーダ中のリフティングを伴う従来のＭＣＴＦを示しており、図８はデコーダ中の対応するＩＭＣＴＦを示している。図７および８、ならびに本願中の他のどこにおいても一貫性を保つために、偶数ビデオフレームは、動き補償予測についてのリファレンスとなり、ローパスフレームの形成のために使用され、奇数ビデオフレームは、ＭＣＰの対象となり、ハイパスビデオフレームの形成のために使用される。あるいはまたは、奇数フレームと偶数フレームの役割が切り換えられる。

図７のＭＣＴＦ（７００）では、偶数ビデオフレームは、ＭＣＰ（７１０）中においてリファレンスとして使用される。特定の奇数ビデオフレームＩ_２ｉ＋１では、このエンコーダは、隣接する偶数フレームＩ_２ｉおよびＩ_２ｉ＋２のうちの一方または両方から動き補償予測を計算する。この予測と元の奇数フレームＩ_２ｉ＋１との間の差が、時間ハイパスフレームＨ_ｉとなる。

このハイパスフレームＨ_ｉは、ＭＣＵ（７２０）においてリファレンスとして使用される。特定の偶数ビデオフレームＩ_２ｉでは、このエンコーダは、隣接する奇数フレームについてのハイパスフレームＨ_ｉ−１およびＨ_ｉのうちの一方または両方から動き補償アップデートを計算する。このアップデートと元の偶数フレームＩ_２ｉの組み合わせが、時間ローパスフレームＬ_ｉである。

例えば、ビデオフレームシーケンスＩ_０，Ｉ_１，．．．，Ｉ_２ｎ−１が、図７のＭＣＴＦ（７００）を用いて処理されるものと想定する。この予測モジュール７１０は、以下のように連続した偶数フレームＩ_２ｉおよびＩ_２ｉ＋２からこの奇数フレームＩ_２ｉ＋１についての予測Ｐ（Ｉ_２ｉ＋１）を計算する。

ここで、ＭＶ_{２ｉ＋１−＞２ｉ}は、フレームＩ_２ｉ＋１からフレームＩ_２ｉへの動きベクトルを意味し、ＭＶ_{２ｉ＋１−＞２ｉ＋２}は、類似の意味を有し、ＭＣ（）は、隣接した偶数フレームからの現在の奇数フレームの予測の少なくとも一部分を生成する動き補償を意味する。（式（１）は、この動きベクトルが適用されるマクロブロック、マクロブロックパーティション、または奇数フレームの他の部分についてのＭＣＰを示すように意図され、かかるＭＣＰは、この奇数フレームの他のマクロブロック、マクロブロックパーティションなどについて繰り返される。）いくつかのケースでは、このエンコーダは、ＭＣ寄与に対する対応する変化および式（１）において重み付けを用いて、（ハール変換におけるような）動き補償予測を計算するときに、これらの隣接する偶数フレームの一方だけ（両方ではない）を考慮し、あるいは、このエンコーダは、イントラ圧縮を使用してこの奇数フレームの一部またはすべてをエンコードする。埋込みベースレイヤコーデックに関連して、このエンコーダは、以下で説明するように隣接する偶数フレーム以外のフレームをリファレンスフレームとして使用することができる。

次いで、この予測モジュール（７１０）は、以下のように、このハイパスフレームＨ_ｉを計算する。

Ｈ_ｉ＝Ｉ_２ｉ＋１−Ｐ（Ｉ_２ｉ＋１）（２）
この予測ステップ（７１０）に続いて１レベル時間変換を完了するアップデートステップ（７２０）において、このエンコーダは、以下のように近隣のハイパスフレームから偶数フレームＩ_２ｉについてのアップデートＵ（Ｉ_２ｉ）を計算する。

ここで、ＭＣ（）は、隣接するハイパスフレームからこの偶数フレームについてのアップデートの少なくとも一部を生成する動き補償を意味する。簡単な近似として、このＭＣＵについての動きベクトルは、このＭＣＰについての対応する動きベクトルの逆ベクトルとして導き出される。（式（３）は、動きベクトルが適用されるマクロブロック、マクロブロックパーティション、または偶数フレームの他の部分についてのＭＣＵを示すように意図され、かかるＭＣＵは、他のマクロブロック、マクロブロックパーティションなどについて繰り返される。）いくつかのケースでは、このエンコーダは、ＭＣ寄与に対する対応する変化および式（３）において重み付けを用いて動き補償アップデートを計算するときに、これらのハイパスフレームの一方だけ（両方ではない）を考慮し、あるいは、このエンコーダは、このハイパスフレームのどちらも考慮しない。

次いで、このエンコーダは、以下のようにローパスフレームを生成する。

Ｌ_ｉ＝Ｉ_２ｉ＋Ｕ（Ｉ_２ｉ）（４）
図８のＩＭＣＴＦ（８００）において、ハイパスフレームＨ_ｉは、ＭＣＵ（８２０）におけるリファレンスとして使用される。特定の偶数ビデオフレームＩ_２ｉでは、このデコーダは、隣接する奇数ビデオフレームについてのハイパスフレームＨ_ｉ−１およびＨ_ｉの一方または両方から動き補償アップデートを計算する。偶数フレームについてのこのアップデートと対応する時間ローパスフレームＬ_ｉの間の差が再構成される偶数フレームＩ_２ｉとなる。

再構成されるときに、この偶数ビデオフレームは、ＭＣＰ（８１０）においてリファレンスとして使用される。特定の奇数ビデオフレームＩ_２ｉ＋１では、このデコーダは、これらの隣接する再構成された偶数フレームＩ_２ｉおよびＩ_２ｉ＋２のうちの一方または両方から動き補償予測を計算する。この奇数フレームＩ_２ｉ＋１についてのこの予測と対応する時間ハイパスフレームＨ_ｉの組み合わせが、再構成される奇数フレームＩ_２ｉ＋１である。

このエンコーダ中において、この予測ステップは、通常、予測のために使用される動きベクトルと共に（空間分解およびエントロピー符号化で）このハイパスフレームをエンコードするために必要なビットレートを最小化し、または低下しようと試みる。したがって、ハイパスフレームＨ_ｉは、基本的に関連する偶数インデッックスされた元の１つ（または複数）のビデオフレームからの対応する奇数インデックスされた入力ビデオフレームＩ_２ｉ＋１の双方向ＭＣＰ（あるいは場合に応じて前方ＭＣＰまたは後方ＭＣＰ）からの残差である。次いで、この元の偶数インデックスされたフレームＩ_２ｉは、ローパスフレームとしてこの予測残差を用いてアップデートされる。

このハイパスフレームのエネルギーは、動きモデルの成功に依存しており、この成功は、動きの複雑さ、フレームにまたがる動きの一様性、およびその動きモデルそれ自体に依存している。動き予測が正確な場合には、この予測残差は、通常小さな大きさを有する。しかし、動きが真に捕捉されるときでさえ、アップデートステップは、これらのステップが動き軌跡に沿ってローパスフィルタリングに起因するノイズおよびエイリアシングを削減することができる点で依然として有用である。一般に、アップデートステップは、ローパスフレームにおける高周波数部分の除去を容易にし、それによって符号化効率を改善する。

（例えば、複雑な予測できない動き、またはこの動きモデルそれ自体の短所に起因して）動き予測が不正確となる場合には、オブジェクトの特徴が整合せず、いくつかの問題が引き起こされる。不正確な動き予測は、これらのハイパスサブバンドフレーム中に複数のエッジおよび増加エネルギーをもたらすことがある。これは、ハイパスサブバンドそれ自体のエンコーディングについての圧縮のパフォーマンスを害するだけでなく、これらのアップデートステップ中に時間ローパスフレームに対してゴーストエッジおよび等高線を付加する。

より一般的には、アップデートステップは、時間スケーラビリティが可能になるときにデコーディングパフォーマンスに影響を及ぼす可能性がある。特に、一部の時間ハイパスフレームが、例えば限られたチャンネル帯域幅またはデバイス機能に起因して部分的にまたは完全に脱落するとき、このデコーダで問題が生じる可能性がある。（しばしば、ＩＭＣＴＦにおける時間スケーラビリティは、この時間変換ドメイン中でこのハイパスサブバンドを切り捨てながら、時間ローパスサブバンドを保持することによって達成される。）動き予測が効率的でないときに、ハイパスフレームは、エンコーディングにおけるこのアップデートステップ中にローパスフレーム（すなわち、より低いフレームレートビデオ）に対するアーティファクトをもたらす。ビデオが、時間ローパスフレームだけから再構成されるときに、ハイパスの寄与のどれも、このデコーダ中のＭＣＵによって取り除かれない。または、時間ハイパスフレーム情報が粗く量子化される場合、このハイパスフレームからの寄与がこのデコーダ中のこのＭＣＵにおいて近似的にしか取り除かれないので、時間ローパスフレームの品質が影響を受けることがある。したがって、このローパスフレームのエンコーディングに対して、より多くのビットが割り当てられたとしても、ローパスフレーム中のゴースト化を取り除くことはできない。

１つの可能な解決策は、このエンコーダ中のこのリフティングベースのＭＣＴＦにおいてこれらのアップデートステップをスキップすることである。しかし、アップデートステップは、動き軌跡に沿ったローパスフィルタリングに起因するノイズおよびエイリアシングを削減できるので、これは全体的な符号化パフォーマンスをかなり低下させる可能性がある。さらに、アップデートステップは、時間ハイパスサブバンドおよび時間ローパスサブバンドの間に歪みを拡散させることによってこのデコーダにおける全体的な歪みを低減することができる。

ＩＶ．ＭＣＴＦおよびＩＭＣＴＦにおける適応アップデートステージ
いくつかの実施形態においては、スケーラブルなビデオエンコーダが、リフティングベースのＭＣＴＦにおけるアップデートステップを適応的に行い、そして／またはスケーラブルなビデオデコーダが、ＩＭＣＴＦにおけるアップデートステップを適応的に行う。人間の視覚システムのプロパティを利用することによって、これらの適応アップデートステップは、時間ローパスサブバンドからデコードされる低フレームレートビデオの知覚可能な視覚品質を改善する。同時に、従来のアップデートステップに比べて、これらの適応アップデートステップは、時間ローパスサブバンドと時間ハイパスサブバンドの両方から復号化されるより高いフレームレートのビデオについて満足の行くパフォーマンスを維持する。

Ａ．エンコーダおよびデコーダ例
適応アップデートスキームは、（１）できるだけ多くの元のアップデート情報を付加すること、（２）同時にこれらのアップデートステップによって導入される視覚アーティファクトを低減することという、２つの相容れない目標の間の良好なトレードオフを達成する。

図９は、エンコーダ中における適応アップデートオペレーションを伴うＭＣＴＦフレームワーク（９００）を示しており、図１０は、デコーダ中における適応アップデートオペレーションを伴うＩＭＣＴＦフレームワーク（１０００）を示している。例えば、これらのフレームワーク（９００、１０００）は、図２〜５を参照して説明したようなエンコーダおよび／またはデコーダ中に組み込まれる。あるいはまたは、これらの適応アップデートオペレーションは、別のエンコーダおよび／またはデコーダに組み込まれる。

図９を参照すると、ＭＣＴＦフレームワーク（９００）は、予測（９１０）およびアップデート（９２０）ステージを含んでいる。これらのステージは、基本的に図７を参照して説明したように進行する。

ＭＣＴＦフレームワーク（９００）は、人間の視覚システム（「ＨＶＳ」）モデル（９３０）を使用して、視覚品質の点でこの予測ステップからの信号を評価する。例えば、エンコーダは、このＨＶＳモデル（９３０）に従って偶数フレーム中の情報を評価する。いくつかの実装形態においては、ＨＶＳモデル（９３０）は、最小弁別値（「ＪＮＤ」）メトリックを使用する。他の実装形態においては、ＨＶＳモデル（９３０）は、他の知覚規準を使用する。

ＨＶＳモデル（９３０）は、しきい値（９４０）ステージに対してしきい値情報を提供し、このステージは、このしきい値情報の点でアップデート（９２０）ステージの結果を評価し、適用する。例えば、ＨＶＳモデル（９３０）は、このモデルに従って評価された偶数フレームのピクセルごとにしきい値を提供する。しきい値の様々な例およびアップデートオペレーションにおけるそれらの使用について、以下で説明する。あるいはまたは、ＨＶＳモデル（９３０）は、異なるしきい値情報を提供する。

しきい値（９４０）ステージの結果は、アップデート情報が、歪みが特に知覚可能なイメージの一部分において制限され、このイメージの他の部分についてはそれほど制限されないことである。したがって、アップデート情報は、このアップデート情報が偶数フレームに適用される前に、人間の知覚に応じて適応的に除去または制限することができる。

図１０を参照すると、ＩＭＣＴＦフレームワーク（１０００）は、予測（１０１０）およびアップデート（１０２０）ステージも含んでいる。これらのステージは、基本的には図８を参照して説明したように進行する。

ＩＭＣＴＦフレームワーク（１０００）は、ＨＶＳモデル（１０３０）を使用して、視覚品質の点で信号を評価する。例えば、デコーダは、ＨＶＳモデル（１０３０）に従ってローパスフレーム中の情報を評価する。いくつかの実装形態においては、ＨＶＳモデル（１０３０）は、最小弁別値（「ＪＮＤ」）メトリックを使用する。他の実施形態においては、ＨＶＳモデル（１０３０）は、他の知覚規準を使用する。

ＨＶＳモデル（１０３０）は、しきい値（１０４０）ステージにしきい値情報を提供し、このステージは、このしきい値情報の点でアップデート（１０２０）ステージの結果を評価し、適用する。例えば、ＨＶＳモデル（１０３０）は、このモデルに従って評価されたローパスフレームのピクセルごとにしきい値を提供する。様々な例のしきい値およびアップデートオペレーションにおけるそれらの使用については、以下で説明する。あるいはまたは、ＨＶＳモデル（１０３０）は、異なるしきい値情報を提供する。

図９と１０を比べると、このエンコーダ側におけるＨＶＳモデル（９３０）は、偶数フレームに対して適用されるのに対して、このデコーダ側におけるＨＶＳモデル（１０３０）は、ローパスフレームに対して適用される。たとえ同じＨＶＳモデル（９３０、１０３０）が、このエンコーダ側およびデコーダ側で使用される場合でも、これらのしきい値は少し異なることがある。しきい値が、対応する偶数およびローパスフレームについて非常に似ている可能性があるので、そしてエンコーダおよびデコーダの状態間の偏移は（時間にわたって累積し、悪化していくのとは反対に）フレームに局所的であるので、これは許容可能である。

さらに、図９および１０のフレームワーク（９００、１０００）では、しきい値は、ＭＣＴＦ／ＩＭＣＴＦのレベルごとに計算される。このように、これらのしきい値は、時間的に対応するフレームについてさえ、ＭＣＴＦ／ＩＭＣＴＦの異なるレベルにおいて異なることがある。

このように、いくつかの実装形態においては、エンコーダ側のＭＣＴＦ（９００）およびデコーダ側のＩＭＣＴＦ（１０００）は、ＨＶＳモデル（９３０、１０３０）中で同じＪＮＤメトリックを適用する。これらのしきい値は、このエンコーダおよびデコーダ中で独立に計算され適用されるので、これらのしきい値またはしきい値化オペレーションに関連する符号化オーバーヘッドは存在しない。あるいはまたは、エンコーダは、デコーダに対してしきい値情報または決定を通知するか、あるいはデコーダは、このエンコーダとは異なるＨＶＳモデルを適用する。

Ｂ．ＨＶＳモデルおよびしきい値化オペレーション例
このエンコーダ中の適応アップデートステップは、一般にＬ_ｉ＝Ｉ_２ｉ＋ｆ（Ｕ_２ｉ）のように表すことができる。関数ｆ（）は、偶数フレームＩ_２ｉについてのアップデートＵ_２ｉに対して適用される適応関数である。Ｌ_ｉは、結果として得られるローパスフレームである。

この適応関数は、人間の視覚モデルの成果および発展を利用している。広範な研究が、人間の視覚システムに基づくコンピューティングモデルを開発するために行われてきた。様々なモデルにおいて、知覚規準は、この空間および時間ドメインにおけるコントラストおよび輝度変化の変動レベルの刺激に対するこのＨＶＳの感度に不整合性があるという観察に基づいている。

このＨＶＳの数多くのコンピューティングモデルのうちでも、ＪＮＤは、知覚符号化し、画像透かしに広く使用されている。ＪＮＤは、動乱が人間にとってちょうど識別できるようになるまで増加された輝度エッジの振幅の関数として定義される可視性しきい値を使用する。詳細については、非特許文献１を参照されたい。ＪＮＤは、このＨＶＳのテクスチャマスキングプロパティと密接に関連している。この規準によれば、ノイズは、フラットエリアまたはテクスチャの少ないエリアでは、より明らかであり、またノイズは、エッジおよびテクスチャを伴うエリアではあまり明らかではない。

ＪＮＤしきい値は、イメージに依存する。アップデート情報が、このＪＮＤしきい値より小さいままである限り、「アップデート残差」の透過性が、このローパスフレーム中において達成される。このように、ＪＮＤは、適応アップデートスキームにおけるＨＶＳモデルのようにうまく機能する。

適応アップデートスキームの一実装形態においては、このＪＮＤモデルは以下のように定義される。

ここで、σ_ｘ ^２（ｉ，ｊ）は、座標（ｉ，ｊ）をもつピクセル上に中心を置くウィンドウ中のイメージｘの局所分散を示す。ＪＮＤは、輝度サンプルだけから計算して計算の複雑さを低下させることができる。または、ＪＮＤは、輝度サンプルとクロミナンスサンプルの両者から計算することもできる。このウィンドウのサイズは、実装形態に依存する。一例のウィンドウサイズは、３×３であり、別のウィンドウサイズは、５×５である。θは、特定のイメージについて選択することができるチューニングパラメータである。このイメージが非定常ガウス形であると仮定すると、これは、ノイズ可視性関数の値と同じである。このチューニングパラメータθは、このＪＮＤ定義におけるコントラスト調整の役割を果たす。このチューニングパラメータθをイメージ依存にするために、以下のように計算することができる。

ここで、σ_ｘmax ^２は、ある所与のイメージについての最大局所分散であり、Ｄ∈［５０，１００］は、実験的に決定されるパラメータである。このＪＮＤ定義によれば、このＪＮＤ値は、σ_ｘ ^２（ｉ，ｊ）が小さいので、フラットエリア中では小さくなり、逆の場合も同様である。

このエンコーダ中の適応アップデートを表現するためのより正確な方法は、以下のようになる。

Ｌ_ｉ＝Ｉ_２ｉ＋ｆ（Ｉ_２ｉ，Ｕ_２ｉ）（７）
ここで、

ＪＮＤ_Ｉ2iは、上で定義したＪＮＤ_ｘ（ｉ，ｊ）の一例であり、Ｓは、実装形態依存の強さのファクタを表し、例えば１２．５である。このＪＮＤ関数は、視覚マスキングに関連する局所フレーム特性と適応可能である。局所強度分散が大きい場合、ＪＮＤは、比較的大きくなり（式（５）に従って１に近づき）、慌しいかまたは詳細なエリアを示す。他方、局所強度分散が小さい場合には、ＪＮＤは、比較的小さくなり（式（５）に従って０に近づき）、フラットエリアを示す。このＪＮＤ関数は、このエンコーダ中においては、アップデートされるべき偶数インデックスフレームから計算され、このデコーダ中においては、この偶数インデックスフレーム（実際には、そのローパスイメージ近似）から計算される。その結果、この適応アップデートにより、ハイパスフレームに起因するゴーストアーティファクトを効果的に軽減し、時間スケーラビリティについての符号化パフォーマンスを改善することができる。

上で指摘したように、いくつかの実装形態においては、このエンコーダおよびデコーダは、（式（８）中のインデッックス値に対する変化と共に）この同じＪＮＤメトリックおよびしきい値化を使用し、この適応アップデートオペレーションでは、符号化し、このデコーダに送達すべきどのようなオーバーヘッドも存在しない。このエンコーダおよびデコーダは、異なるイメージ（エンコーダにおける元のフレーム、デコーダにおける再構成ローパスバージョン）上で動作するが、実験結果では、このデコーダにおける結果として得られるアップデートマスクが、このエンコーダにおけるそれと非常に近い近似であることが示された。

あるいはまたは、このエンコーダおよび／またはデコーダは、ＪＮＤの別の定義、別のＨＶＳモデル、および／または他のしきい値化オペレーションを使用する。例えば、他および／または追加のパラメータを使用することができる。

Ｃ．適応アップデート技法例
図１１から１３は、適応アップデートオペレーションについての技法（１１００、１２００、１３００）を示している。図９を参照して説明したエンコーダなどのエンコーダは、図１１および１２に示す技法（１１００、１２００）を行い、図１０を参照して説明したデコーダなどのデコーダは、図１１および１３に示す技法（１１００、１３００）を行う。あるいはまたは、別のエンコーダまたはデコーダが、これらの技法（１１００、１２００、１３００）を行う。

図１１は、適応アップデートオペレーションについての単純化され、一般化された技法（１１００）を示している。このエンコーダまたはデコーダは、この適応アップデートについてのしきい値を計算する（１１２０）。次いで、このエンコーダまたはデコーダは、この適応アップデートオペレーションを行う（１１６０）。

図１２は、ＭＣＰについての追加の詳細を含め、エンコーダ中における適応アップデートオペレーションについての詳細な技法（１２００）を示している。

ローパスフレームを計算することになる現在の偶数フレームについて、このエンコーダは、しきい値を計算する（１２２０）。例えば、このエンコーダは、以前のセクションにおいて説明したように現在の偶数フレームのピクセルについてのＪＮＤを計算する。あるいはまたは、このエンコーダが、他の何らかのメトリックを使用してこれらのしきい値を計算する（１２２０）。

ＭＣＰでは、このエンコーダは、例えば前方および／または後方に進んで隣接する奇数フレームを予測し、現在の偶数フレームから１つまたは複数の動き補償予測を計算する（１２３０）。このエンコーダは、他の偶数フレームからこれらの隣接する奇数フレームについての１つまたは複数の他の動き補償予測を計算することもできる（１２３０）（または、かかる予測は、先の偶数フレームから前に計算されている場合もある）。次いで、このエンコーダは、この１つ（または複数）の動き補償予測およびその対応する１つ（または複数）の隣接の奇数フレームから１つまたは複数のハイパスフレームを計算する（１２４０）。

次に、このエンコーダは、１つまたは複数のハイパスフレームからこの現在の偶数フレームについての動き補償予測アップデートを計算する（１２５０）。例えば、このエンコーダは、この現在の偶数フレームからＭＣＰ中に計算された（１２３０）動き情報を逆方向に適用する。あるいはまたは、このエンコーダは、異なるメカニズムを使用してこのアップデートを計算する（１２５０）。

次いで、このエンコーダは、この現在の偶数フレームについての適応アップデートを行い（１２６０）、結果としてローパスフレームを得る。例えば、このエンコーダは、前のセクションにおいて説明したようにこの動き補償アップデートおよびＪＮＤしきい値を使用して適応しきい値化オペレーションを行う。あるいはまたはこのエンコーダは、異なるしきい値化メカニズムを使用してこの適応アップデートを行う（１２６０）。

このエンコーダは、このＭＣＴＦを継続すべきか否かを判定し（１２９０）、継続すべき場合には次の偶数フレームを用いて継続する。

図１３は、デコーダ中の適応アップデートオペレーションについての詳細な技法（１３００）を示しており、異なるフレームレートにおいて復号化するための別個の経路を含んでいる。

このデコーダは、復号化についての時間分解能を決定する（１３１０）。この時間分解能は、ユーザレベル設定または他の何らかの設定に従って決定し、このデコーダがどれだけ多くの情報（例えば、エラーを起こしやすいチャネル上の時間ローパス情報だけ）を実際に受け取るかに従って決定し、または他の何らかの方法で決定することができる。または、デコーダは、これらの復号化経路のうちのちょうど１つだけを有することもある。例えば、あるデコーダは、低フレームレート経路を含むことがあり、別のデコーダは、高フレームレート経路を含むことがあり、それぞれのデコーダのリソースを適合させることができる。

低フレームレート経路において、このデコーダは、（例えば、このローパスフレームをこの現在のフレームとして使用して）受け取ったローパスフレーム情報から現在の偶数フレームを計算する（１３１２）。ハイパス情報および動き情報が無視され、または受け取られないので、この適応アップデートオペレーションは、行われない。かかる情報がない場合でも、この偶数フレームに対する顕著な歪みの付加はエンコーディング中に制限されているので、現在の偶数フレームの品質は、エンコーディング中の適応アップデートオペレーションによって、（従来のＩＭＣＴＦに比べて）改善される。

この高フレームレート経路において、この現在の偶数フレームでは、このデコーダは、このデコーダによって受け取られた対応するローパスフレームからしきい値を計算する（１３２０）。例えば、このデコーダは、前のセクションで説明したように、このローパスフレームのピクセルについてのＪＮＤを計算する。あるいはまたは、このデコーダは、他の何らかのメトリックを使用してこれらのしきい値を計算する（１３２０）。

このデコーダは、１つまたは複数のハイパスフレームからこの現在の偶数フレームについての動き補償アップデートを計算する（１３３０）。例えば、このデコーダは、この現在の偶数フレームからこのＭＣＰ中に計算された（１２３０）動き情報を逆方向に適用する。あるいはまたは、このデコーダは、異なるメカニズムを使用してこのアップデートを計算する（１３３０）。

次いで、このデコーダは、このローパスフレームに対して適応アップデートを行って（１３６０）、この現在の偶数フレームを再構成する。例えば、このデコーダは、前のセクションにおいて説明したように、このアップデートおよびＪＮＤしきい値を使用して適応しきい値化オペレーションを行う。あるいはまたは、このデコーダは、異なるしきい値メカニズムを使用してこの適応アップデートを実行する（１３６０）。

ＭＣＰでは、このデコーダは、例えば前方および／または後方に進んで隣接する奇数フレームを予測し、この再構成された現在の偶数フレームから１つまたは複数の動き補償予測を計算する（１３７０）。（隣接する奇数フレームについての他の動き補償予測は、先の偶数フレームから前に計算されている場合もある。）次いで、このデコーダは、この奇数フレームおよびその対応するハイパスフレームについての動き補償予測から再構成奇数フレームを計算する（１３８０）。

このデコーダは、このＩＭＣＴＦを継続すべきか否かを判定し（１３９０）、継続すべき場合には、次の偶数フレームを用いて継続する。

図１２および１３に示す様々なオペレーションを分け、他のオペレーションと組み合わせ、あるいは順序を変更することができる。例えば、図１２は、ある種のオペレーションを並列に示しているが、これらのオペレーションは、代わりに直列に行うこともできる。

Ｖ．３Ｄサブバンドビデオの符号化および復号化における埋込みベースレイヤコーデック
いくつかの実施形態においては、スケーラブルなビデオエンコーダは、埋込みベースレイヤコーデックを含んでおり、スケーラブルなビデオデコーダは、埋込みベースレイヤデコーダを含んでいる。基本的に、この埋込みベースレイヤコーデックによって生み出されたビットストリームは、低ビットレートのベースレイヤの３Ｄサブバンドビデオ符号化ビットストリームとしての役割を果たす。いくつかのスケーラブルなビデオ符号化／復号化システムのコンテキストにおいては、例えば、このベースレイヤは、このシステムについての最小の空間、時間およびＳＮＲ分解能でビデオを提供し、それに対して追加の拡張レイヤを追加してこのシステムについての最大の空間、時間およびＳＮＲ分解能までのスケーラビリティを提供する。（エンコーディングおよびデコーディングにおけるベースレイヤの正確な役割は、様々な実施形態中で異なる。）例えば、３Ｄサブバンドビデオエンコーダは、埋込みビデオコーデックを含み、３Ｄサブバンドビデオデコーダは、対応する埋込みビデオデコーダを含む。

多くのタイプの埋込みコーデックでは、これは、低ビットレートにおける符号化パフォーマンスを改善し、ここで従来の３Ｄサブバンド符号化における動き情報をエンコードするのに費やされるビットは、この使用可能なビットレートの非効率的な割合を消費し、この埋込みビデオコーデックは、相対的により効率的となる。いくつかのケースにおいては、この埋込みベースレイヤコーデックは、３Ｄサブバンド符号化に関連する制約なしで、閉ループ時間予測、インループフィルタリング、レート歪み最適化などの利点を提供する。同時に、中程度およびそれより高いビットレートにおける３Ｄサブバンド符号化の利点（例えば、空間および時間スケーラビリティ）は、保たれる。

３Ｄサブバンドビデオ符号化にコーデックを埋め込む別の利点は、これが、この埋込みコーデックおよび対応するデコーダとの互換性を提供することである。例えば、ＭＰＥＧ−１コーデックが埋め込まれる場合、ＭＰＥＧ−１復号化機能を有するどのレシーバでも、（たとえ、このＭＰＥＧ−１コーデックが、それ自体は符号化パフォーマンスを改善しないとしても）この圧縮ビデオの大雑把なバージョンを復号化することができる。Ｈ．２６４コーデックまたはＶＣ−１コーデックが埋め込まれている場合には、互換性を別としてもこれにより、低ビットレートにおける符号化パフォーマンスが改善される。

本明細書に記載のこれらの技法およびツールは、パフォーマンスおよび／または互換性の点で利点を有するシステムだけに限定されない。パフォーマンスおよび互換性は別として、スケーラブルなビデオエンコーダにベースレイヤコーデックを埋め込むこと、およびスケーラブルなビデオデコーダにベースレイヤデコーダを埋め込むことには、他の利点もあり得る。

Ａ．エンコーダおよびデコーダ例
図１４ないし１９は、エンコーダまたはデコーダ中にベースレイヤコーデックまたはベースレイヤデコーダを埋め込むための３つの異なるスキームをそれぞれ示している。このエンコーダにおいて、このベースレイヤのためのコーデックは、時間サブバンド変換の間に埋め込まれ、この時間サブバンド変換は空間サブバンド変換によって後続されている。追加の空間サブバンド変換は、この時間サブバンド変換の前および／または後に配置することができ、対応する変更が、同様にデコーダ中でも可能である。このベースレイヤコーデックは、この様々な変換の間の異なる位置に配置することができ、対応する変更が、このデコーダ中で可能である。

一般に、この埋込みコーデックの配置が、ベースレイヤビデオについてのフレームレートおよび空間分解能を設定する。図１４ないし１９に示す３つのスキームの間の比較を簡単化するために、このベースレイヤ分解能を、この元のビデオの４分の１のフレームレート、および２分の１の空間分解能になるように設定する。したがって、元のビデオが３０ｆｐｓＣＩＦビデオである場合、例えばこのベースレイヤビデオは、７．５ｆｐｓＱＣＩＦビデオとなる。

このように、このベースレイヤコーデックが、図１４、１６、および１８のエンコーダ中においては、２つの時間サブバンド変換の後にあり、このベースレイヤデコーダが、図１５、１７、および１９のデコーダ中においては、最後の２つの逆時間サブバンド変換の前にある。このベースレイヤコーデックおよびデコーダの配置を時間変換の間に変更することが、ベースレイヤフレームレートを変更するための１つの方法である。例えば、図１４、１６および１８は、ベースレイヤモジュールを埋め込んでｔ−Ｌ_２サブバンドを入力として受け入れることを示しており、あるいはまたこのベースレイヤモジュールは、ｔ−Ｌ_１サブバンド変換または別のサブバンド変換の後に配置される。一般に、時間変換の間のこの配置は、このベースレイヤビデオにとって望まれるフレームレートに依存する。

図１４、１６、および１８において、このベースレイヤについての空間分解能の変更は、何らかの任意ファクタによって（この埋込みコーデックまたはデコーダに隣接する）サンプリングオペレーションまたは空間サブバンド変換オペレーションによって達成される。このサンプリング／空間サブバンド変換オペレーションの比率を変更することが、ベースレイヤ空間分解能を変更する１つの方法である。

図１４、１６および１８は、時間サブバンド変換モジュールＴ、空間サブバンド変換モジュールＳ、ＭＶ符号化モジュールおよびエントロピー符号化モジュール、ならびにこれらのモジュールとの間の入力および出力を含んでいる。図１５、１７、および１９は、逆時間サブバンド変換モジュールＴ^−１、逆空間サブバンド変換モジュールＳ^−１、そしてＭＶ復号化モジュールおよびエントロピー復号化モジュール、ならびにこれらのモジュールとの間の入力および出力を含んでいる。一般に、これらのモジュールおよびこれらの入出力の役割は、図２ないし５を参照して説明したものである。

図１４、１６および１８に示すベースレイヤコーデックは、図１５、１７、および１９に対応するベースレイヤデコーダと共に規格に準拠したビットストリーム（例えば、ＭＰＥＧ−１、ＭＰＥＧ−２、ＭＰＥＧ−４、Ｈ．２６１、Ｈ．２６３、Ｈ．２６４／ＡＶＣ、またはＶＣ−１）を生成するコーデックとすることができる。または、このベースレイヤコーデック／デコーダは、商用製品（例えば、ＷＭＶ８、ＷＭＶ９）とすることもできる。さらに一般的には、このベースレイヤコーデック／デコーダは、所望のパフォーマンスおよび／または互換性のプロパティを有する使用可能な任意のコーデック／デコーダとすることもできる。

１．第１のスキーム
図１４は、第１のスキームによる３Ｄサブバンドエンコーダ（１４００）を示している。このエンコーダ（１４００）は、埋込みベースレイヤコーデック（１４２０）、ならびにこのベースレイヤコーデック（１４２０）のまわりのダウンサンプリングモジュール（１４１０）およびアップサンプリングモジュール（１４３０）を含んでいる。

このダウンサンプリングモジュール（１４１０）およびアップサンプリングモジュール（１４３０）は、オプションである。これらは、この埋込みコーデック（１４２０）によって符号化されたビデオが、この埋込みコーデック（１４２０）に対する時間サブバンド入力よりも低い空間分解能を有するときに使用される。そうでない場合には、このダウンサンプリングモジュール（１４１０）およびアップサンプリングモジュール（１４３０）は、スキップすることができる。

図１４の破線の長方形は、２レベルの時間分解の後のベースレイヤコーデック（１４２０）に関連したオペレーションを取り囲んでいる。このベースレイヤでは、入力ビデオは、毎秒ｆ／４フレームであり、この分解能は、ダウンサンプリングモジュール（１４１０）によって低下させることができる。したがって、このベースレイヤビデオは、元のビデオの低フレームレートで（場合によっては）低空間分解能の表現を提供する。

ダウンサンプリングモジュール（１４１０）は、簡単なサブサンプリング、ローパスフィルタ、または他の何らかのフィルタリングメカニズムを使用して、このｔ−Ｌ_２時間サブバンドをダウンサンプルする。例えば、ダウンサンプリングモジュール（１４１０）は、水平方向または垂直方向に２のファクタだけ空間分解能を低下させる。いくつかの実装形態においては、ダウンサンプリングモジュール（１４１０）は、非特許文献２で説明されているような「ＭＰＥＧ」フィルタまたはＤａｕｂｅｃｈｉｅｓ９／７ＤＷＴフィルタを適用する。より一般的には、ダウンサンプリングモジュール（１４１０）は、埋込みコーデック（１４２０）に対する入力の空間分解能を任意の比率だけ変更して、所望のベースレイヤ空間分解能を達成し、そして／またはベースレイヤコーデック（１４２０）について許容される入力空間分解能をマッチさせる。

埋込みコーデック（１４２０）は、この埋込みコーデック（１４２０）についての通常のオペレーションのうちのどれかを使用して、（ｔｓ−ＬＬサブバンドとして示される）ダウンサンプルされたｔ−Ｌ_２サブバンドを符号化する。埋込みコーデック（１４２０）は、このベースレイヤ分解能で出力ベースレイヤビットストリーム（１４９５）を生成し、ここで、ベースレイヤビットストリーム（１４９５）は、対応するベースレイヤデコーダと互換性がある。エンコーダ（１４００）中において後のエンコーディングのために、埋込みコーデック（１４２０）はまた、この埋込みコーデック（１４２０）についての対応する復号化オペレーションを使用してこのｔｓ−ＬＬサブバンドをデコードし、再構成されたサブバンドｔｓ−ＬＬ’を生成する。

アップサンプリングモジュール（１４３０）は、何らかのフィルタリングメカニズムを使用して、このベースレイヤコーデック（１４２０）から再構成された出力サブバンドｔｓ−ＬＬ’をアップサンプリングし、時間サブバンドｔ−Ｌ_２の再構成バージョンｔ−Ｌ_２’を生成する。この再構成されたサブバンドｔ−Ｌ_２’は、ｔ−Ｌ_２と同じ分解能を有する。例えば、アップサンプリングモジュール（１４３０）は、水平方向または垂直方向に２のファクタだけ空間分解能を増大させる。いくつかの実装形態においては、アップサンプリングモジュール（１４３０）は、簡単な６−タップフィルタ｛−１、５、２０、２０、５、−１｝、非特許文献３に見られるような８−タップシンクフィルタ、またはＤａｕｂｅｃｈｉｅｓ９／７ＩＤＷＴフィルタを適用する。アップサンプリングフィルタは、ダウンサンプリングフィルタをミラーする必要はない（例えば、このＭＰＥＧフィルタをダウンサンプリングについて使用し、ＩＤＷＴフィルタをアップサンプリングについて使用することもできる）。より一般的には、アップサンプリングモジュール（１４３０）は、埋込みコーデック（１４２０）からの出力の空間分解能を任意の比率だけ変更して、ダウンサンプリングモジュール（１４１０）の前に有していた空間分解能にこのビデオを再構成する。

この元の時間サブバンドｔ−Ｌ_２から、エンコーダ（１４００）は、再構成されたバージョンｔ−Ｌ_２’を差し引く。これは、差、または残差、サブバンドｔ−Ｌ_２”を生成する。ベースレイヤコーデック（１４２０）が効率的（例えば、ＶＣ−１またはＨ．２６４／ＡＶＣ）であり、ベースレイヤビットレートが適当であるとき、この差分サブバンドがあまりエネルギーをもたないようになり、このベースレイヤ品質は、比較的良好となることがある。他方、ベースレイヤコーデック（１４２０）が、あまり効率的でなく、ベースレイヤビットレートが適当でないときには、この差分サブバンドがより多くのエネルギーをもつようになり、このベースレイヤ品質が比較的劣ることがある。

エンコーダ（１４００）は、この異なるサブバンドｔ−Ｌ_２”に関して２つのさらなるレベルの時間分解を行う。最後に、エンコーダ（１４００）は、これらのそれぞれのサブバンド（例えば、ｔ−Ｈ_１、ｔ−Ｈ_２、ｔ−Ｈ_３、ｔ−Ｈ_４、およびｔ−Ｌ_４）に関して空間変換およびエントロピー符号化を行って、スケーラブルなビットストリームを生成する。

図１５は、この第１のスキームによる対応する３Ｄサブバンドデコーダ（１５００）を示している。デコーダ（１５００）は、埋込みベースレイヤデコーダ（１５２０）、ならびにこのベースレイヤデコーダ（１５２０）の後にアップサンプリングモジュール（１５３０）を含んでいる。

アップサンプリングモジュール（１５３０）は、オプションである。このモジュールは、埋込みデコーダ（１５２０）によって復号化されたビデオが、ダウンストリームの逆時間変換レベルに出力される時間サブバンドｔ−Ｌ_２よりも低い空間分解能を有するときに使用される。そうでない場合には、アップサンプリングモジュール（１５３０）は、スキップすることができる。

図１５における破線長方形は、２つの追加レベルの逆時間分解の前のベースレイヤデコーダ（１５２０）に関連したオペレーションを取り囲んでいる。このベースレイヤでは、このビデオは、毎秒ｆ／４フレームであり、この空間分解能は低下することもできる。したがって、このベースレイヤは、このビデオの低フレームレートで（場合によっては）低空間分解能の表現を与える。実際に、この低フレームレートで（場合によっては）低空間分解能を有するビデオは、ベースレイヤデコーダ（１５２０）を用いて直接に復号化し、出力することができる。

そうでない場合には、デコーダ（１５００）は、このデコーダ（１５００）がこのビデオを再構成するために使用することになるこのスケーラブルなビットストリームからのサブバンド（例えば、ｔ−Ｈ_１、ｔ−Ｈ_２、ｔ−Ｈ_３、ｔ−Ｈ_４、およびｔ−Ｌ_４）のうちのどれであれエントロピー復号化および逆空間分解を行う。デコーダ（１５００）は、第３レベルおよび第４レベルの逆時間分解を行って、ｔ−Ｈ_３サブバンド、ｔ−Ｈ_４サブバンドおよびｔ−Ｌ_４サブバンド、ならびに関連する動き情報からこの差分サブバンドｔ−Ｌ_２”を再構成する。

埋込みデコーダ（１５２０）は、このベースレイヤ分解能で符号化されたビデオについてのベースレイヤビットストリーム（１５９５）を受け取る。この適切な復号化オペレーションを使用して、埋込みデコーダ（１５２０）は、このベースレイヤビットストリーム（１５９５）中における圧縮されダウンサンプルされたサブバンドｔｓ−ＬＬを復号化し、このサブバンドの再構成バージョンｔｓ−ＬＬ’を生成する。

アップサンプリングモジュール（１５３０）は、何らかのフィルタリングメカニズムを使用してベースレイヤデコーダ（１５２０）から再構成されたサブバンドｔｓ−ＬＬ’をアップサンプルし、時間サブバンドｔ−Ｌ_２の再構成バージョンｔ−Ｌ_２’を生成する。この再構成されたサブバンドｔ−Ｌ_２’は、ｔ−Ｌ_２と同じ分解能を有している。例えば、アップサンプリングモジュール（１５３０）は、水平方向または垂直方向に２のファクタだけ空間分解能を増大させる。より一般的には、アップサンプリングモジュール（１５３０）は、埋込みデコーダ（１５２０）からの出力の空間分解能を任意の比率だけ変更して、任意のベースレイヤダウンサンプリングの前に有していた空間分解能にこのビデオを再構成する。

デコーダ（１５００）は、この再構成された差分サブバンドｔ−Ｌ_２”をこの対応する再構成されたサブバンドｔ−Ｌ_２’に加える。これにより、時間ローパスサブバンドｔ−Ｌ_２の再構成バージョンが生成され、これがこの逆時間分解の残りへ入力される。

２．第２のスキーム
図１６は、第２のスキームによる３Ｄサブバンドエンコーダ（１６００）を示している。エンコーダ（１６００）は、埋込みベースレイヤコーデック（１６２０）、ならびにこのベースレイヤコーデック（１６２０）のまわりのＤＷＴモジュール（１６１０）およびＩＤＷＴモジュール（１６３０）を含んでいる。

図１４に示すダウンサンプリングモジュール（１４１０）およびアップサンプリングモジュール（１４３０）と同様に、ＤＷＴモジュール（１６１０）およびＩＤＷＴモジュール（１６３０）は、オプションである。これらは、埋込みコーデック（１６２０）によって符号化されるビデオが、この埋込みコーデック（１６２０）に入力される時間サブバンドｔ−Ｌ_２よりも低い空間分解能を有するときに使用される。そうでない場合には、ＤＷＴモジュール（１６１０）およびＩＤＷＴモジュール（１６３０）は、スキップすることができる。

図１６における破線長方形は、２レベルの時間分解の後のベースレイヤコーデック（１６２０）に関連したオペレーションを取り囲んでいる。ＤＷＴモジュール（１６１０）は、ｔ−Ｌ_２時間サブバンドを処理し、ローパスサブバンドｔｓ−ＬＬを生成する。一般的に、ＤＷＴモジュール（１６１０）は、埋込みコーデック（１６２０）への入力の空間分解能を変更して、所望のベースレイヤ空間分解能を達成し、そして／またはベースレイヤコーデック（１６２０）について許容される入力空間分解能をマッチさせる。ＤＷＴモジュール（１６１０）はまた、ＩＤＷＴモジュール（１６３０）にルートされる空間ハイパスサブバンドｔｓ−ＬＨ、ｔｓ−ＨＬ、およびｔｓ−ＨＨも生成する。

埋込みコーデック（１６２０）は、この埋込みコーデック（１６２０）についての通常のオペレーションのうちのどれかを使用して、ｔｓ−ＬＬサブバンドをエンコードする。埋込みコーデック（１６２０）は、このベースレイヤ分解能における出力ベースレイヤビットストリーム（１６９５）を生成する。埋込みコーデック（１６２０）はまた、この埋込みコーデック（１６２０）についての対応する復号化オペレーションを使用して、ｔｓ−ＬＬサブバンドを復号化し、この再構成されたサブバンドｔｓ−ＬＬ’を生む。

この元のｔｓ−ＬＬサブバンドから、エンコーダ（１６００）は、その再構成バージョンｔｓ−ＬＬ’を差し引く。これにより、残差サブバンドｔｓ−ＬＬ”が生成される。図１４のエンコーダ（１４００）についての場合のように、ベースレイヤコーデック（１６２０）が、効率的であり、ベースレイヤビットレートが適当であるとき、この残差ｔｓ−ＬＬ”は、通常、多くのエネルギーをもたない。他方、ベースレイヤコーデック（１６２０）が、あまり効率的でなく、またはベースレイヤビットレートが適当でないときには、この残差ｔｓ−ＬＬ”は、より多くのエネルギーをもつこともある。

この残差サブバンドｔｓ−ＬＬ”およびこの空間ハイパスサブバンドｔｓ−ＬＨ、ｔｓ−ＨＬおよびｔｓ−ＨＨから、ＩＤＷＴモジュール（１６３０）は、新しい残差サブバンドｔ−Ｌ_２”を生成する。この新しい残差サブバンドｔ−Ｌ_２”は、ＤＷＴモジュール（１６１０）に入力されたサブバンドｔ−Ｌ_２と同じ空間分解能を有する。

エンコーダ（１６００）は、この残差サブバンドｔ−Ｌ_２”上で２つのさらなるレベルの時間分解を行う。最後に、エンコーダ（１６００）は、これらのそれぞれのサブバンド（例えば、ｔ−Ｈ_１、ｔ−Ｈ_２、ｔ−Ｈ_３、ｔ−Ｈ_４およびｔ−Ｌ_４）上で空間変換およびエントロピー符号化を行って、スケーラブルなビットストリームを生成する。

図１７は、第２のスキームによる対応する３Ｄサブバンドデコーダ（１７００）を示している。デコーダ（１７００）は、埋込みベースレイヤデコーダ（１７２０）、ならびにこのベースレイヤデコーダ（１７２０）のまわりのＤＷＴモジュール（１７１０）およびＩＤＷＴモジュール（１７３０）を含んでいる。

ＤＷＴモジュール（１７１０）およびＩＤＷＴモジュール（１７３０）は、オプションである。これらは、埋込みデコーダ（１７２０）によって復号化されるビデオが、ダウンストリームの逆時間変換レベルに出力される時間サブバンドｔ−Ｌ_２よりも低い空間分解能を有するときに使用される。そうでない場合には、ＤＷＴモジュール（１７１０）およびＩＤＷＴモジュール（１７３０）は、スキップすることができる。

図１７における破線長方形は、２つの追加レベルの逆時間分解の前のベースレイヤデコーダ（１７２０）に関連したオペレーションを取り囲んでいる。このベースレイヤは、このビデオの低フレームレートで（場合によっては）低空間分解能の表現を提供し、かかるより低品質のビデオは、ベースレイヤデコーダ（１７２０）を用いて直接に復号化し、出力することができる。

そうでない場合には、デコーダ（１７００）は、このデコーダ（１７００）がビデオを再構成するために使用することになるスケーラブルなビットストリームからのサブバンド（例えば、ｔ−Ｈ_１、ｔ−Ｈ_２、ｔ−Ｈ_３、ｔ−Ｈ_４、およびｔ−Ｌ_４）のうちのどれであれエントロピー復号化および逆空間分解を行う。デコーダ（１７００）は、第３レベルおよび第４レベルの逆時間分解を行って、ｔ−Ｈ_３サブバンド、ｔ−Ｈ_４サブバンドおよびｔ−Ｌ_４サブバンド、ならびに関連する動き情報から残差サブバンドｔ−Ｌ_２”を再構成する。

ＤＷＴモジュール（１７１０）は、この残差サブバンドｔ−Ｌ_２”を処理し、空間ローパス残差サブバンドｔｓ−ＬＬ”、ならびに空間ハイパスサブバンドｔｓ−ＬＨ”、ｔｓ−ＨＬ”およびｔｓ−ＨＨ”の再構成バージョンを生成する。一般的に、ＤＷＴモジュール（１７１０）は、ローパス残差サブバンドｔｓ−ＬＬ”が、空間分解能の点で埋込みデコーダ（１７２０）の出力をマッチさせるように、空間分解能を変更する。

埋込みデコーダ（１７２０）は、このベースレイヤ分解能で符号化されたビデオについてのベースレイヤビットストリーム（１７９５）を受け取る。適切な復号化オペレーションを使用して、埋込みデコーダ（１７２０）は、ベースレイヤビットストリーム（１７９５）中における圧縮され変換されたサブバンドｔｓ−ＬＬを復号化し、このサブバンドの再構成バージョンｔｓ−ＬＬ’を生成する。

デコーダ（１７００）は、埋込みデコーダ（１７２０）から出力される対応する再構成されたサブバンドｔｓ−ＬＬ’にこの再構成された残差サブバンドｔｓ−ＬＬ”を加える。これにより、この元のｔｓ−ＬＬサブバンドの再構成バージョンが生成される。

次いでＩＤＷＴモジュール（１７３０）は、この再構成されたｔｓ−ＬＬサブバンドを、このＤＷＴモジュール（１７１０）から出力される空間ハイパスサブバンドｔｓ−ＬＨ”、ｔｓ−ＨＬ”およびｔｓ−ＨＨ”と組み合わせる。これにより、時間ローパスサブバンドｔ−Ｌ_２の再構成バージョンが生成され、これがこの逆時間分解の残りに入力される。

３．第３のスキーム
最初の２つの符号化スキームにおいては、そのベースレイヤコーデックは、これらの時間変換中に埋め込まれ、残差信号は、後の時間変換においてさらに分解される。対照的に、第３の符号化スキームにおいては、（残差フレームとは反対に）この後の時間変換は、時間ローパスフレームに適用される。

図１８は、第３のスキームによる３Ｄサブバンドエンコーダ（１８００）を示している。エンコーダ（１８００）は、埋込みベースレイヤコーデック（１８２０）、ならびにこのベースレイヤコーデック（１８２０）のまわりのダウンサンプリングモジュール（１８１０）およびアップサンプリングモジュール（１８３０）を含んでいる。図１８における破線長方形は、２レベルの時間分解の後のベースレイヤコーデック（１８２０）に関連したオペレーションを取り囲んでいる。図１４に示すエンコーダ（１４００）の対応するモジュールのように、ダウンサンプリングモジュール（１８１０）およびアップサンプリングモジュール（１８３０）は、オプションである。この第２および第３の時間変換の間のスケーラブルなビデオと同様に、このベースレイヤビデオは、毎秒ｆ／４フレームであり、この分解能は、ダウンサンプリングモジュール（１８１０）によって低下させることができる。したがって、このベースレイヤビデオは、この場合にも元のビデオの低フレームレートで（場合によっては）低空間分解能の表現を提供する。

ダウンサンプリングモジュール（１８１０）は、簡単なサブサンプリング、ローパスフィルタ、または他の何らかのフィルタリングメカニズムを使用して、このｔ−Ｌ_２時間サブバンドをダウンサンプルする。一般に、ダウンサンプリングモジュール（１８１０）は、埋込みコーデック（１８２０）に対する入力の空間分解能を任意の比率だけ変更して、所望のベースレイヤ空間分解能を達成し、そして／またはベースレイヤコーデック（１８２０）にとって許容される入力空間分解能をマッチさせる。

埋込みコーデック（１８２０）は、この埋込みコーデック（１８２０）についての通常のオペレーションのうちのどれかを使用して、（ｔｓ−ＬＬサブバンドとして示す）ダウンサンプルされたｔ−Ｌ_２サブバンドをエンコードする。埋込みコーデック（１８２０）は、このベースレイヤ分解能における最低ビットレートで出力ベースレイヤビットストリーム（１８９５）を生成し、ここで、ベースレイヤビットストリーム（１８９５）は、対応するベースレイヤデコーダと互換性がある。エンコーダ（１８００）において後のエンコーディングのために、埋込みコーデック（１８２０）はまた、埋込みコーデック（１８２０）についての対応する復号化オペレーションを使用して、このｔｓ−ＬＬサブバンドもデコードし、再構成されたサブバンドｔｓ−ＬＬ’を生成する。

アップサンプリングモジュール（１８３０）は、何らかのフィルタリングメカニズムを使用して、ベースレイヤコーデック（１８２０）からこの再構成された出力サブバンドｔｓ−ＬＬ’をアップサンプルし、時間サブバンドｔ−Ｌ_２の再構成バージョンｔ−Ｌ_２’を生成する。この再構成されたサブバンドｔ−Ｌ_２’は、ｔ−Ｌ_２と同じ分解能を有する。一般に、アップサンプリングモジュール（１８３０）は、埋込みコーデック（１８２０）からの出力の空間分解能を任意の比率だけ変更して、ダウンサンプリングモジュール（１８１０）より前に有していた空間分解能までこのビデオを復元する。

エンコーダ（１８００）は、この元の（プレベースレイヤ処理）時間サブバンドｔ−Ｌ_２に関して第３レベルおよび第４レベルの時間変換を行う。この第３の時間変換および第４の時間変換では、エンコーダ（１８００）は、時間ハイパスサブバンドｔ−Ｈ_３およびｔ−Ｈ_４についての動き補償予測を計算する。予想されるように、時間サブバンドｔ−Ｌ_２は、この第３レベルの時間変換における動き補償についての候補リファレンスフレーム（例えば、ｔ−Ｌ_２の偶数フレーム）を提供し、時間サブバンドｔ−Ｌ_３は、この第４レベルの時間変換における動き補償についての候補リファレンスフレーム（例えば、ｔ−Ｌ_３の偶数フレーム）を提供する。この第３のスキームによれば、アップサンプルされ、再構成されたサブバンドｔ−Ｌ_２’における時間的に対応するピクチャは、この動き補償についての追加の候補リファレンスフレームとしての役割を果たす。例えば、（ｔ−Ｌ_２の奇数インデックスされたフレームと同じ時刻を有する）ｔ−Ｌ_２’の代替フレームがこの第３レベルの時間変換におけるｔ−Ｌ_２の奇数インデックス付けされたフレームのＭＣＰについてのリファレンスとして使用可能である。（ｔ−Ｌ_３の対応する奇数インデックス付けされたフレームと同じ時刻を有する）ｔ−Ｌ_２’のあらゆる第４のフレームがこの第４レベルの時間変換におけるｔ−Ｌ_３の時間的に対応する奇数インデックス付けされたフレームのＭＣＰについてのリファレンスとして使用可能である。

図２０は、埋込みベースレイヤコーデックに続く時間変換における動き補償についての様々なリファレンスの組合せのケースを示している。これらの候補リファレンスフレームは、この入力時間ローパスサブバンドからのフレーム（例えば、偶数フレーム）を含んでいる。これらの候補リファレンスフレームはまた、このベースレイヤのアップサンプルされた出力からの時間的に対応する（例えば、同じ時刻の）再構成されたフレームも含んでいる。例えば、図２０の組合せ（１）において、このハイパスサブバンドフレームＨは、（ローパスサブバンドフレームＬに対応する）以前の時間サブバンドの偶数フレームからの第１の動き補償予測を使用し、（ハイパスサブバンドフレームＨと時間的に同時配置された）ベースレイヤからのアップサンプルされた再構成からの第２の動き補償予測を使用する。それに応じて、このハイパスサブバンドフレームＨは、（この対応するローパスサブバンドフレームＬを生成するために）動き補償のために使用される偶数フレームをアップデートするためにのみ使用される。このベースレイヤからのリファレンスがこの予測ステップにおいて使用される場合には、この対応するアップデートステップは、それのために必要ではない。

いくつかの実施形態においては、このエンコーダは、マクロブロックごとのベースで動き補償についての１つ（または複数）のリファレンスフレームを選択し、切り換える。あるいはまたは、このエンコーダが、他の何かのベースで（例えば、現在の奇数フレームごと、動きベクトルおよびマクロブロックパーティションごとに）動き補償についての１つ（または複数）のリファレンスフレームを選択し、切り換える。

図１８に戻ると、最後の時間分解の後に、このベースレイヤ出力ｔ−Ｌ_２’のフレームレートは、最後の時間ローパスサブバンドｔ−Ｌ_４のフレームレートの４倍となる。この最後の時間ローパスサブバンドｔ−Ｌ_４から、エンコーダ（１８００）は、ベースレイヤ出力ｔ−Ｌ_２’の時間的に対応するアップサンプルされた再構成フレームを差し引く。これにより、残差サブバンドｔ−Ｌ_４’が生成される。最後に、エンコーダ（１８００）は、これらのそれぞれのサブバンド（例えば、ｔ−Ｈ_１、ｔ−Ｈ_２、ｔ−Ｈ_３、ｔ−Ｈ_４、およびｔ−Ｌ_４’）上で空間変換およびエントロピー符号化を行って、このスケーラブルなビットストリームを生成する。

図１９は、第３のスキームによる対応する３Ｄサブバンドデコーダ（１９００）を示している。デコーダ（１９００）は、埋込みベースレイヤデコーダ（１９２０）、ならびにこのベースレイヤデコーダ（１９２０）の後のアップサンプリングモジュール（１９３０）を含んでいる。

図１５に示すデコーダ（１５００）のように、このアップサンプリングモジュール（１９３０）は、オプションである。このアップサンプリングモジュールは、埋込みデコーダ（１９２０）によって復号化されるビデオが、ダウンストリームの逆時間変換レベルによって使用される時間サブバンドフレームよりも低い空間分解能を有するときに、使用される。そうでない場合には、アップサンプリングモジュール（１９３０）は、スキップすることができる。

図１９における破線長方形は、４レベルの逆時間分解の前のベースレイヤデコーダ（１９２０）に関連するオペレーションを取り囲んでいる。他のベースレイヤデコーダのように、この低いベースレイヤフレームレートで（場合によっては）低空間分解能を有するビデオは、ベースレイヤデコーダ（１９２０）を用いて直接に復号化し、出力することができる。

そうでない場合には、デコーダ（１９００）は、このデコーダ（１９００）がこのビデオを再構成するために使用することになるスケーラブルなビットストリームからのサブバンド（例えば、ｔ−Ｈ_１、ｔ−Ｈ_２、ｔ−Ｈ_３、ｔ−Ｈ_４、およびｔ−Ｌ_４’）のうちのどれであれエントロピー復号化および逆空間分解を行う。

埋込みデコーダ（１９２０）は、このベースレイヤ分解能でエンコードされたビデオについてのベースレイヤビットストリーム（１９９５）を受け取る。この適切な復号化オペレーションを使用して、埋込みデコーダ（１９２０）は、ベースレイヤビットストリーム（１９９５）中のこの圧縮されダウンサンプルされたサブバンドｔｓ−ＬＬを復号化し、このサブバンドの再構成バージョンｔｓ−ＬＬ’を生成する。アップサンプリングモジュール（１９３０）は、何らかのフィルタリングメカニズムを使用してベースレイヤデコーダ（１９２０）からこの再構成されたサブバンドｔｓ−ＬＬ’をアップサンプルし、時間サブバンドｔ−Ｌ_２の再構成バージョンｔ−Ｌ_２’を生成する。

デコーダ（１９００）は、このアップサンプルされたベースレイヤ出力ｔ−Ｌ_２’のこれらの時間的に対応する（例えば、同じ時刻の）フレームにこの残差サブバンドｔ−Ｌ_４’を加える。これにより、時間ローパスサブバンドｔ−Ｌ_４の再構成バージョンが生成され、これが第４レベルの逆時間分解に入力される。

デコーダ（１９００）は、第３レベルおよび第４レベルの逆時間分解を行って、この再構成されたｔ−Ｈ_３サブバンド、ｔ−Ｈ_４サブバンド、およびｔ−Ｌ_４サブバンド、ならびに関連する動き情報から時間サブバンドｔ−Ｌ_２を再構成する。この第３および第４の逆時間変換では、デコーダ（１９００）は、時間ハイパスサブバンドｔ−Ｈ_３およびｔ−Ｈ_４についての動き補償予測を計算する。この時間サブバンドｔ−Ｌ_３は、第４レベルの時間変換におけるＭＣＰについての再構成されたリファレンスフレーム（例えば、ｔ−Ｌ_３の再構成された偶数フレーム）を有し、時間サブバンドｔ−Ｌ_２は、第３レベルの時間変換におけるＭＣＰについての再構成されたリファレンスフレーム（例えば、ｔ−Ｌ_２の再構成された偶数フレーム）を有する。アップサンプルされ、再構成されたサブバンドｔ−Ｌ_２’における時間的に対応する（例えば、同じ時刻の）ピクチャは、この第３レベルおよび第４レベルの逆時間変換におけるＭＣＰについての追加のリファレンスフレームとしての役割を果たすことができる。

Ｂ．ベースレイヤ情報の追加的使用例
後方互換性を提供し、低ビットレートビデオについてのレート歪みの点での圧縮効率を改善することを別として、ベースレイヤからの出力は、追加の使用を有することができる。

１．ベースレイヤからの動きベクトルの再利用
リフティングベースのＭＣＴＦを用いた３Ｄサブバンド符号化において、このＭＣＰステップについての動きベクトルは、動き推定によって得られる。いくつかの実装形態においては、この動き推定プロセスは、ＭＰＥＧ２、Ｈ．２６４／ＡＶＣなど既存のビデオ規格に準拠したエンコーダについての従来の動き推定に類似している。さらに、ハールおよび５／３時間変換は、従来のＰ−ピクチャおよびＢ−ピクチャの動き補償プロセスにそれぞれ類似している。

ＭＰＥＧ２、ＭＰＥＧ−４、Ｈ．２６４／ＡＶＣなど既存の規格と互換性のあるベースレイヤコーデックでは、インターピクチャ（Ｐ−ピクチャまたはＢ−ピクチャ）についてのインター圧縮を使用して符号化されたブロックは、通常、関連する動き情報を有している。一方では、３Ｄサブバンド符号化において、このベースレイヤコーデックからダウンストリームの時間分解のレベル（例えば、図１４、１６、および１８における第３レベルおよび第４レベル）におけるハイパスサブバンドは、このベースレイヤ出力において時間的に対応するピクチャを見出すことができる。（特に第３のスキームによる）多くのケースでは、かかるハイパスサブバンドについての動き情報と、このベースレイヤ中の時間的に対応するピクチャ間の動き情報との間には高い類似性が存在する。この相関関係に基づいて、エンコーダおよび／またはデコーダは、いくつかの目的のためにこのベースレイヤコーデックからの動きベクトルを再利用することができる。

ベースレイヤ動きベクトルの追加の使用の一例においては、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、時間的に対応するハイパスサブバンドフレームについてのブロックについての実際の動きベクトルとしてベースレイヤ動きベクトルを単に使用している。（このベースレイヤフレームおよびハイパスサブバンドフレームが異なる空間分解能を有するときには、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、それに応じてベースレイヤ動きベクトルをスケールすることができる。）特に、この３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、低ビットレートにおいてこの目的のためにベースレイヤ動きベクトルを使用する。このベースレイヤ動きベクトルがこのベースレイヤビットストリームの一部として既に通知されているので、当然これによって、動き情報についてのオーバーヘッドが減少する。多くのケースでは、動き予測精度の損失の点でのペナルティは、わずかである。

ベースレイヤ動きベクトルの追加使用の別の例においては、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、動きベクトル予測中に、ベースレイヤコーデックからの動きベクトルを使用する。従来の動きベクトルの符号化および復号化の一部として、動きベクトル予測は、現在の動きベクトルの値についての予測を提供する。次いで、この現在の動きベクトルは、この予測された動きベクトルに対する差分として表現し、通知することができる。エンコーダもデコーダも、近隣のブロックの以前に再構成された動きベクトルから現在の動きベクトルについての予測された動きベクトルを選択し、導き出す。

いくつかの実施形態においては、時間ハイパスサブバンドの１ブロックについての現在の動きベクトルについての予測された動きベクトルを選択し導き出すときに、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、時間的に対応するベースレイヤフレームの空間的に対応するブロックからの動きベクトルを使用する。例えば、この３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、この予測された動きベクトルとしてベースレイヤからの動きベクトルを使用する。または、この３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、この予測された動きベクトルが選択される候補として（例えば、これらの候補のうちの中央値として）ベースレイヤからの動きベクトルを使用する。

ベースレイヤ動きベクトルの追加の使用のさらに他の例において、３Ｄサブバンドエンコーダは、ベースレイヤ動きベクトルを使用して動き推定をスピードアップする。例えば、このサブバンドエンコーダは、動き推定の初期にこの対応するベースレイヤ動きベクトルを考慮し、適切な現在の動きベクトルをより速やかに見出す。

同様に、この３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、このベースレイヤからの動きモード（例えば、ブロックパーティション、方向）情報を再利用することができる。いくつかのケースでは、時間的に対応するハイパスサブバンドフレームのブロックについての実際のモード情報としてベースレイヤモード情報を使用することができる。または、このベースレイヤモード情報は、モード情報の予測のために、または動き推定をスピードアップするために使用することができる。

図２１ないし２３は、このベースレイヤからの動き情報が、ベースレイヤの後の時間分解における時間ハイパスサブバンドにとって特に有用となる様々な符号化構造（フレームタイプのパターン）を示している。図２１において、このベースレイヤの符号化構造は、３Ｄサブバンド符号化についての共通の構造に適応的に調整される。３枚のＢ−ピクチャは、２枚のＩ−またはＰ−ピクチャの間に挿入され、（Ｈ．２６４／ＡＶＣにおいて使用される格納されたＢ−ピクチャのような）第２のＢ−ピクチャが、この第１および第３のＢ−ピクチャについてのリファレンスとして使用される。このようにして、このベースレイヤ中のＢ−ピクチャの動きベクトルは、３Ｄサブバンド符号化において、時間的に対応するハイパスサブバンドフレームのために非常に自然に再利用することができる。

このベースレイヤコーデックについてのある種の既存の規格との互換性を確保するために、図２２のフレームワークは、このベースレイヤについての従来の符号化構造を使用するが、３Ｄサブバンド符号化についてのフレームタイプのパターンを調整する。３枚のＢ−ピクチャが、このベースレイヤ中の２枚のＩ／Ｐ−ピクチャ間に挿入されるが、この３枚のＢ−ピクチャは、リファレンスとしてこれらのＩ／Ｐ−ピクチャだけしか取らない（動き補償リファレンスとしてＢ−ピクチャを取らない）。３Ｄサブバンド符号化スキームにおいて、このパターンは、２つのローパスサブバンド間で生成される３つのハイパスサブバンドを含んでいる。

図２３は、一般のパターンを示している。このベースレイヤにおいて、３Ｄサブバンド符号化におけるハイパスサブバンドに時間的に対応するピクチャは、Ｂ−またはＰ−ピクチャを用いて符号化される。図２１および２２に示すパターンは、５／３時間分解に適しているのに対して、図２３に示すパターンは、（Ｐ−ピクチャおよびＢ−ピクチャの関連にそれぞれ対応する）ハール時間分解および５／３時間分解に適応的に使用することができる。

２．ベースレイヤからのイントラ領域の予測
ビデオシーケンスにおいて閉塞または不規則な動きが存在するとき、動き推定は、時間ハイパスサブバンドにおけるいくつかのブロックについてあまりマッチしないブロックしか見出すことができない。イントラ符号化モードが有効にされないときには、これらのケースについての強制インター予測が、符号化パフォーマンスを悪化させ、視覚品質に悪影響を及ぼすことがある。

Ｈ．２６４／ＡＶＣ規格において、イントラ予測技法は、ＭＣＰが機能しなくなるケースに対処する。イントラ予測においては、現在のブロックについての予測値は、近隣の再構成されたピクセルから空間予測によって得られる。しかし、オープンループＭＣＴＦ構造を有する３Ｄサブバンド符号化においては、かかる空間予測は、ミスマッチおよびエラードリフトを導入する傾向にある。

前述の第１および第２の埋込みベースレイヤ符号化スキームにおいては、ベースレイヤの符号化および復号化を終了した後に、３Ｄサブバンド符号化についてのさらなる時間分解が差分情報に関して行われる。（図１４において、例えば、この差分情報は、この入力時間サブバンドｔ−Ｌ_２と、このベースレイヤコーデックからの出力ｔｓ−ＬＬ’のアップサンプルされたバージョンｔ−Ｌ_２’との間の残差である。）通常、この差分は、高周波数エネルギーしか有さず、その空間冗長度は低い。それゆえ、ブロックが、このベースレイヤコーデック中においてイントラモードで符号化されるとき、この３Ｄサブバンド符号化における後の時間分解におけるイントラ予測は通常、不必要に行われる。これは、符号化パフォーマンスおよび視覚品質を改善しつつ、オープンループ３Ｄサブバンド符号化におけるイントラ予測に関連するミスマッチの問題を回避する助けとなる。

他方、前述の第３の埋込みベースレイヤ符号化スキームにおいては、３Ｄサブバンド符号化についてのさらなる時間分解は、差分情報に関して行われない。しかし、この第３のスキームにおいては、このベースレイヤコーデックの出力は、候補リファレンスピクチャを提供することができ、この候補リファレンスピクチャは、空間イントラ予測を使用して符号化されたブロックを含むことができる。このベースレイヤ出力からのリファレンスピクチャのイントラ符号化ブロックに対して動き補償を行うことは、ＭＣＴＦにおけるＭＣＰが、そうでなければあまりマッチしないブロックしか見出せない状況に対処する助けとなることができる。このベースレイヤ出力からのリファレンスピクチャはまた、後の３Ｄサブバンド符号化におけるローパスサブバンドについての予測値として使用することもできる。３Ｄサブバンドエンコーダは、このベースレイヤからのイントラモード情報を使用して、後のＭＣＰ、または他の予測についてこのベースレイヤ出力からのリファレンスピクチャをいつ使用すべきかを決定することができる。

３．さらなる時間分解についての動き推定
純粋な３Ｄサブバンド符号化において、また前述の第３のスキームによる埋込みベースレイヤコーデックを用いた３Ｄサブバンド符号化において、動き推定が元のローパスサブバンド上で行われて、より高レベルのハイパスサブバンドおよび動き情報を得る。かかる動き推定では、動き情報を符号化するコストに対する残差情報を符号化するコストを重み付けする「ラムダ」パラメータなど、多くの従来の動き推定パラメータが効果的に組み込まれる。

しかし、前述の第１および第２のスキームによる埋込みベースレイヤコーデックを用いた３Ｄサブバンド符号化では、さらなる時間分解についての動き推定が、差分情報に関して行われる。このように、この動き推定は、従来の動き推定パラメータを適応させ、さらなる時間分解における近隣のフレーム間の時間冗長度を活用する。例えば、このエンコーダは、ラムダパラメータを調整して、時間分解に対する異なる入力を計算に入れる。

Ｃ．ベースレイヤコーデックまたはベースレイヤデコーダを使用するための技法例
図２４は、埋込みベースレイヤコーデックによるスケーラブルなエンコーディングのための技法（２４００）を示している。図２５は、埋込みベースレイヤデコーダによるスケーラブルなデコーディングのための技法（２５００）を示している。図１４、１６、または１８を参照して説明したものなどの３Ｄサブバンドエンコーダは、図２４に示す技法（２４００）を行い、図１５、１７、または１９を参照して説明したものなどの３Ｄサブバンドデコーダは、図２５に示す技法（２５００）を行う。あるいはまたは、別のエンコーダまたはデコーダが、これらの技法（２４００、２５００）を行う。

図２４を参照すると、３Ｄサブバンドエンコーダは、サブバンド符号化を使用してこのビデオの１つまたは複数のレイヤをエンコードする（２４１０）。これは、ベースレイヤコーデックへの入力を生成する。例えば、この３Ｄサブバンドエンコーダは、１つまたは複数のレベルのＭＣＴＦを行い、時間ローパスサブバンドを生成して時間ハイパスサブバンドについての動き情報を見出し、このベースレイヤコーデックに対するベースフレームレートビデオ入力として使用する。あるいはまたは、３Ｄサブバンドエンコーダは、このステージにおいて他および／または追加のタイプのエンコーディングを行う。

この３Ｄサブバンドエンコーダは、このベースレイヤコーデックを用いてこのベースレイヤビデオをエンコードする（２４３０）。例えば、このベースレイヤコーデックは、Ｈ．２６４／ＡＶＣ、ＭＰＥＧ−２、ＶＣ−１、またはＷＭＶ９コーデックであり、対応する圧縮ビデオビットストリームおよび再構成された出力ビデオを生成する。動き情報およびイントラモード情報は、この圧縮ビデオビットストリームの一部であり、この情報は、この３Ｄサブバンドエンコーダに対して他の何らかの形式で別に提供することができる。

次いで、この３Ｄサブバンドエンコーダは、このベースレイヤコーデックからの結果を使用してこのビデオについての１つまたは複数のレイヤをエンコードする（２４５０）。例えば、この３Ｄサブバンドエンコーダは、ベースレイヤ符号化および復号化の結果から計算された差分情報に関して１つまたは複数のレベルの時間分解を行う。または、この３Ｄサブバンドエンコーダは、このベースレイヤコーデックからの再構成されたビデオ中のリファレンスピクチャを使用して時間ローパスサブバンドに関して１つまたは複数のレベルの時間分解を行う。または、この３Ｄサブバンドエンコーダは、エンコーディングまたは時間分解中の決定に際して、動き情報および／またはイントラモード情報を使用する。あるいはまたは、この３Ｄサブバンドエンコーダは、後続のサブバンド符号化における他の何らかの方法でこのベースレイヤコーデックからの結果を使用し、またはこの後続のエンコーディング（２４５０）をスキップする。

このエンコーダは、この符号化プロセスを継続すべきか否かを判定し（２４９０）、継続すべき場合には、次のフレームを用いて継続する。

図２５を参照すると、３Ｄサブバンドデコーダが、ベースレイヤデコーダを用いてこのベースレイヤビデオをデコードする（２５３０）。例えば、このベースレイヤデコーダは、Ｈ．２６４／ＡＶＣ、ＭＰＥＧ−２、ＶＣ−１、またはＷＭＶ９デコーダであり、このデコーダは、対応する圧縮ビデオビットストリームをパースし、デコードし、そして再構成された出力ビデオを生成する。

この３Ｄサブバンドデコーダは、デコーディングのための分解能を決定する（２５４０）。この分解能は、ユーザレベル設定または他の何らかの設定に従って決定することもでき、このデコーダが実際にどれだけ多くの情報を（例えば、ただこのベースレイヤビデオだけ、または１つまたは複数の追加レイヤも）受け取るかに従って決定することができ、または他の何らかの方法で決定することができる。あるいはまたは、３Ｄサブバンドデコーダは、これらの復号化経路のうちのただ１つだけを有する。例えば、１つのデコーダは、１つのベースレイヤ経路を含むことができるが、別のデコーダは、ベースレイヤ＋スケーラブルなレイヤ経路を含み、これらのそれぞれのデコーダのリソースを合わせる。

より高い分解能のビデオをデコードしない場合（判定２５４０の「ｎｏ」の経路出力）、この３Ｄサブバンドデコーダは、ステージ（２５９０）で継続する。

そうでない場合には、この３Ｄサブバンドデコーダは、このベースレイヤ復号化からの結果を使用してこのビデオについての１つまたは複数の追加レイヤをデコードする（２５５０）。例えば、この３Ｄサブバンドデコーダは、差分情報に関して１つまたは複数のレベルの逆時間分解を行い、次いで、このベースレイヤ復号化の結果に対してこの再構成された差分情報を加える。または、この３Ｄサブバンドデコーダは、１つまたは複数のレベルの逆時間分解を行って、このベースレイヤデコーダからの再構成されたビデオ中のリファレンスピクチャを使用して時間ローパスサブバンドを再構成する。あるいはまたは、この３Ｄサブバンドデコーダは、後続のサブバンド復号化に際して他の何らかの方法でこのベースレイヤデコーダからの結果を使用する。

最後に、このデコーダは、この復号化プロセスを継続すべきか否かを判定し（２５９０）、継続すべき場合には、次のフレームを用いて継続する。

図２４および２５に示す様々なオペレーションは、分割し、他のオペレーションと組み合わせたり、または順序変更したりすることができる。

ＶＩ．ＳＤＭＣＴＦエンコードされたビデオをデコードする際の空間スケーラビリティ
一般に、ＭＣＴＦが３Ｄサブバンドビデオ符号化においていつ行われるかに応じてＭＣＴＦの２つのカテゴリが存在する。インバンドＭＣＴＦ（「ＩＢＭＣＴＦ」）と呼ばれる第１のカテゴリにおいては、エンコーダは、まずビデオを空間的に分解し、次いでこのサブバンド／ウェーブレットドメインでＭＣＴＦを行う。次いで、このエンコーダは、さらなる空間分解を行うことができる。ＭＣＴＦ空間ドメインＭＣＴＦ（「ＳＤＭＣＴＦ」）と呼ばれる第２のカテゴリにおいては、エンコーダは、空間分解の前にこの空間ドメイン中でＭＣＴＦを直接に行う。同様に、復号化中に、ＩＭＣＴＦ空間ドメインＩＭＣＴＦ（「ＳＤＩＭＣＴＦ」）またはＩＭＣＴＦインバンドＩＭＣＴＦ（「ＩＢＩＭＣＴＦ」）を行うことができる。

このように、ＳＤＭＣＴＦを用いた３Ｄサブバンド符号化においては、この全体のビデオは、空間ドメインおよび後続の空間変換におけるいくつかの動き位置合わせ時間変換によって分解される。図５は、４レベルの（逆）時間変換と２レベルの（逆）空間変換を有し、デコーディングの際の空間スケーラビリティのない完全なエンコーディングおよびデコーディングスキームを示している。このデコーディングプロセスは、図５中においてまさしくエンコーディングの逆になっている。

一般に、ＩＢＭＣＴＦのパフォーマンスは、ある特定のビットレートについての品質の点でＳＤＭＣＴＦスキームのパフォーマンスほど良好ではない。この理由のために、多くの３Ｄサブバンドエンコーダは、ＳＤＭＣＴＦを使用している。しかし、いくつかのアプリケーションにおいては、デコーダは、より低い空間分解能バージョンのビデオ出力を生成する。例えば、ＣＩＦ分解能（３５２×２８８ピクセル）の元のビデオでは、１レベルの空間スケーラビリティを用いてデコードするために、３Ｄサブバンドデコーダは、このデコードされたビデオのＱＣＩＦバージョン（１７６×１４４ピクセル）を生成する。このデコーダがより小さな画面デバイス（例えば、セルラビデオ電話）に関連する場合、またはこのデコーダが、信頼できない接続を介したより低い空間分解能サブバンド情報しか受け取らない場合には、これはこのケースに該当し得る。しかし、動き情報、リファレンスピクチャなどはフル空間分解能の点で表現されるので、ビデオ上のＭＣＴＦオペレーションが、空間ドメイン中で行われるときに、これらのシナリオは問題となる。

このセクションでは、より低い空間分解能での出力のためにＳＤＭＣＴＦエンコードされたビデオをデコードするときにおけるデコーディングパフォーマンスを改善するための様々なメカニズムについて説明している。いくつかの実施形態においては、例えば、３Ｄサブバンドビデオデコーダは、ある何らかの分解能（例えば、ＣＩＦ）においてＳＤＭＣＴＦを使用してエンコードされたビデオを受け取るが、より低い分解能（例えばＱＣＩＦ）の出力のためにこのビデオをデコードする。この３Ｄサブバンドデコーダは、いくつかの異なるメカニズムのいずれかを使用してデコーディングパフォーマンスを改善する。

Ａ．ＳＤＭＣＴＦビデオをデコードする際の簡単な空間スケーラビリティスキーム
図２６は、ＳＤＭＣＴＦエンコードされたビデオについての圧縮ビデオビットストリームからより低い空間分解能ビデオをデコードし、出力するための２つの簡単なスキーム（２６００、２６５０）を示している。このより低い空間分解能ビデオは、フル空間分解能から、図２６における１レベルの空間スケーラビリティだけ異なっている。

第１のスキーム（２６００）は、直接の解決策を提供している。３Ｄサブバンドデコーダは、まず（ＣＩＦビデオとして示される）フル空間分解能ビデオを復元する。（この第２の逆空間変換についての空間ハイパス（「ＳＨ」）サブバンドがないという想定の下で、このデコーダは、この第２の逆空間変換においてＳＨサブバンドを空（ＳＨ＝０）として取り扱う。）逆時間分解の後に、この３Ｄサブバンドデコーダは、（空間変換として示す）フィルタを用いてフル空間分解能ビデオを（ＱＣＩＦとして示す）この出力分解能にまでダウンサンプルする。このデコーダは、ＳＤＩＭＣＴＦを行い、このデコーダは、中間ステップにおいて、ＣＩＦビデオをデコードするときに、多くの復号化リソース（例えば、計算リソース、リファレンスピクチャバッファ）を使用する。

他方、第２のスキーム（２６５０）において、３Ｄサブバンドデコーダは、ＩＢＩＭＣＴＦを行う。第２のスキーム（２６５０）は、低分解能ビデオをデコードするヒューリスティックな方法を示している。第１のスキーム（２６００）と同様に、第２のスキーム（２６５０）は、エントロピー復号化および４レベルの逆時間変換を含んでいる。第２のスキーム（２６５０）は、事実上、第１のスキーム（２６００）よりも１つ少ない逆空間変換を含んでいる。（第２のスキーム（２６５０）について示す第２の逆空間変換および後続の空間変換は、互いに打ち消し合い、省略することができる。）

第２のスキーム（２６５０）において、この３Ｄサブバンドデコーダは、基本的に空間ローパス（「ＳＬ」）サブバンド（第１の逆空間変換の出力）を元のビデオの全体として取り扱い、ＳＬサブバンド分解能において逆時間変換を行う。これにより、空間スケーラビリティなしに復号化プロセスが近似され、これには計算上の複雑さが少なく、また（リファレンスピクチャなどについての）バッファ要件が低いという利点が存在する。さらに、このビデオの元の分解能および空間スケーラビリティは、デコーダに対して全くトランスペアレントにすることができる。スキーム（２６５０）のパフォーマンスは、低ビットレートで満足の行くものであるが、高ビットレートではそうではない。特に、ビットレートが増大するにつれて、たとえこのビットレートが非常に高いとしても、高品質の低空間分解能ビデオを再構成することは難しくなり、または不可能になる。

図２６に示す２つの復号化スキーム（２６００、２６５０）の間における違いは、このＭＣＰおよびＭＣＵステップがどのようにＩＭＣＴＦ中で行われるかにある。図２７は、１レベルのＩＭＣＴＦにおける２つのスキーム（２６００、２６５０）についてのＭＣＰを示している。特に、図２７は、リファレンスピクチャにおける使用可能なＳＬサブバンド情報（ＳＨサブバンド情報もそうではない）からの予測ステップにおけるＳＬリフティング信号の生成を示している。

このＳＤＩＭＣＴＦでは、このＳＬリフティング信号は、以下のように生成される。

ここで、ＩＮＴＰ_ＳＤは、リファレンスピクチャ情報についての空間ドメインにおけるピクセル上の補間を示し、ＭＣＰ_ＳＤは、この空間ドメインにおけるＭＣＰを示す。ＤＷＴは、線形オペレーションであり、以下のようになる。

ＤＷＴ（Ｆ_１＋Ｆ_２）＝ＤＷＴ（Ｆ_１）＋ＤＷＴ（Ｆ_２）（１０）
ＳＬ分解能バッファを使用してこの中間結果を保持するために、このＤＷＴは、この空間ドメイン予測をこのＳＬドメイン中の予測にまで低減する。

ＩＢＩＭＣＴＦでは、このＳＬリフティング信号は、以下のように生成される。

ここで、ＩＮＴＰ_ＳＬは、リファレンスピクチャ情報についてのＳＬドメインにおけるピクセル上の補間を示し、ＭＣＰ_ＳＬは、このＳＬドメインにおけるＭＣＰを示す。簡単のために、同じ補間フィルタが、ＩＮＴＰ_ＳＤおよびＩＮＴＰ_ＳＬについて使用される。

Ｂ．理論的分析
様々なファクタにより、ＳＤＭＣＴＦエンコードされたビデオの３Ｄサブバンド復号化における空間スケーラビリティによる問題がもたらされる。１つのファクタは、このＳＬドメインにおける補間および動き補償の非効率性である。他のファクタは、（エンコーディングにおけるＭＣＴＦの位置と比較した）ＩＭＣＴＦの位置である。さらに他のファクタは、動き補償によって引き起こされるサブバンドにまたがるパワースペクトルリークである。

これらのファクタを別として、様々なエンコーディング／デコーディング機能が、エンコーダにおけるＳＤＭＣＴＦと、デコーダにおけるＩＢＩＭＣＴＦとの間のミスマッチをもたらす可能性がある。かかる２つの機能は、動きベクトルスケーリングおよびＯＢＭＣである。このセクションでは、簡単のために、動きベクトルの精度が、ＩＢＩＭＣＴＦにおいては変更されず、動き補償のために使用されるサブピクセル補間は、ＩＢＩＭＣＴＦ中にこの動き情報を活用するのに十分に良いと仮定する。この場合も簡単のために、ＯＢＭＣが無効にされ、ＭＣＰオペレーションは、この適用可能な動きベクトルだけによる簡単なピクセルフェッチ化オペレーションであると仮定する。これらの簡単化した仮定を用いたとしても、この先行する段落にリストアップしたファクタが、ＩＢＩＭＣＴＦのパフォーマンスを低下させることがある。

１．補間
（バイリニアフィルタや８タップのシンクフィルタなどの）同じ補間フィルタが空間ドメイン補間とＳＬドメイン補間との両方について使用されるときでも、フレーム中の同じ位置におけるある所与の部分ピクセルは、これら２つのオペレーションの異なるスケールに起因して異なるセットのピクセルから補間される。これは、これらのサブピクセル補間されたリファレンスピクチャの間のミスマッチを生じる。

このＳＬドメイン中の補間は、別の理由のために最適でないことがある。ウェーブレット変換の間引き態様に起因して、この空間ＬＬバンドだけでは、元のビデオの全体のローパス信号の完全な表現ではない。すなわち、そのハイパス信号を考慮することなく、またはそのハイパス信号がいつ存在しないとき、このローパス信号の一部が、フェーズ位置の半分において失われる。この間引きの１つの帰結が、空間ＬＬバンドのシフト変動プロパティである。ＬＬバンドの非完全性に起因して、補間されたローパスフレームを得るときに、（オペレーション（１２）に示すように）このＬＬバンド中において直接に補間を行うことが、最適でないことがある。

および

代替案は、オーバコンプリートウェーブレット表現への変換を介してハーフピクセル補間を行うことである。ＳＬサブバンドからのオーバコンプリート表現は、コンプリートツーオーバコンプリートＤＷＴ（図示せず）、または逆ＤＷＴおよびＤＷＴオーバコンプリートＤＷＴ（「ＯＣＤＷＴ」）（オペレーション１３に示す）によって生成することができる。このＩＤＷＴとＯＣＤＷＴを加えた組合せは、１レベルの補間としての役割を果たす。これら残りのレベルの補間は、オペレーション（１３）においてＩＮＴＰ_{ＯＣ−ＬＬ}として示す、オーバコンプリートウェーブレットドメインにおける従来の補間を用いて行うことができる。

従来のオーバコンプリートウェーブレット表現への変換は、ＳＬドメイン中におけるハーフピクセル補間しか提供しない。ＳＬドメイン中におけるクォータピクセル動きベクトル精度またはより繊細な動きをサポートするために、このデコーダは、連続フェーズオーバコンプリートウェーブレット変換（「ＣＰＯＣＷＴ」）を使用することができる。このＳＬサブバンドにおけるクォータピクセル位置では、このデコーダは、オペレーション（１４）に示すように空間ドメイン中で補間を行う。次いで、補間されたフレームのローパスサブバンドがＤＷＴによって得られる。ＤＷＴは、スケールの影響を受けやすいオペレーションである。このエンコーダにおいてこのＤＷＴをマッチさせるために、このデコーダは、この補間フレーム中のｍ−サンプルされたピクセル上でこのＯＣＤＷＴを行い、ここで、ｍｘｍは、このＯＣＤＷＴの前の空間ドメイン補間のファクタである。オペレーション（１４）において、ＤＳＤＷＴは、この空間ドメイン補間されたフレームを多くのサブフレームへとダウンサンプルすること、これらのそれぞれのサブフレーム上でＯＣＤＷＴを行うこと、およびこの得られた係数をインターリーブし戻すことを表す。このように、ＤＳＤＷＴは、１種のＯＣＤＷＴである。

オペレーション（１２）ないし（１４）のそれぞれに従って、このデコーダは、ｍｘｍリファレンスピクチャ上でこのＳＬドメインにおける動き補償予測を行う。

２．ＤＷＴとＭＣＰの位置交換
ＩＢＩＭＣＴＦでは、たとえインバンド補間が、（１４）におけるような空間ドメイン補間で置き換えられたとしても、ＭＣＰについてのリファレンスピクチャは、依然としてローパスフレームである（このＭＣＰは、このウェーブレットドメインで行われる）。このエンコーダと比較して、このＤＷＴおよびＭＣＰのこの予想される順序が、交換される（ここでは、このエンコーダ中において、ＭＣＰは、ＤＷＴに先行している）。しかし、ＤＷＴおよびＭＣＰオペレーションは、ＤＷＴのシフト変動プロパティに起因して蓄積可能ではない。

ＤＷＴ（ＭＣＰ_ＳＤ（Ｆ_ＳＤ））≠ＭＣＰ_ＳＬ（ＤＷＴ（Ｆ_ＳＤ）（１５）、および
ＩＤＷＴ（ＭＣＰ_ＳＬ（Ｆ_ＳＬ））≠ＭＣＰ_ＳＤ（ＩＤＷＴ（Ｆ_ＳＬ））（１６）。

簡単のために、ＭＣＰが簡単なブロックベースの動きシフトオペレーションを伴う仮定すると、式（１５）は、以下のように示すことができる。現在のフレームが、ブロックＢ＝｛Ｂ_ｉ｜ｉ＝１，．．．，ｍ｝に分割され、これらのブロックについての動きベクトルが、ＭＶ＝｛ｍｖ_ｉ｜ｉ＝１，．．．，ｍ｝であると仮定する。
Ｆ_ｒｅｆ ^ｉは、このリファレンスフレームＦ_ｒｅｆの新しいバージョンであり、ここでブロックＢ_ｉによって参照されるピクセルだけが保持され、他のピクセルはゼロに設定される。

（１８）における第１の不等式は、ＤＷＴのシフト変動プロパティに起因している。（１８）における第２の不等式は、動きが非常に複雑なときのＭＣＰにおける動きシフト中の重複および露出に起因している。

可能な解決策は、オペレーション（１９）に示すようにＤＷＴより前に、この空間ドメインにこのＭＣＰを移動することである。この場合には、このＭＣＰは、ＳＤＩＭＣＴＦの一部である。

３．動きシフトによるパワースペクトルリーク
３Ｄウェーブレット符号化において、空間−時間サブバンドは通常、独立しているものと仮定している。多くのアプリケーションにおいて、空間−時間サブバンドは、意のままに落とされ、特にハイパスサブバンドについては、そうである。しかし、ＭＣＴＦを伴う３Ｄサブバンド符号化において、近隣のフレームのローパスサブバンドおよびハイパスサブバンドは、動きシフトによって導入されるパワースペクトルリークに起因した類似性を有する。

１つの空間サブバンド中の信号を収容するだけのフレームが動きに従ってシフトされるとき、この信号の一部は、他の空間サブバンドへと移動することになる。図２８は、簡単なグローバルな動きについての現象を示している。図２８の第１行においては、元のフレームＯｒｇが、２つの部分、すなわちＳＬ信号ＡとＳＨ信号Ｂとに分割される。第２行においては、このＳＬ信号Ａを収容するだけのフレームが、簡単なイメージドメイン動きシフト（「ＩＭＳ」）を用いてこの空間ドメイン中でシフトされ、このシフトされたフレームは、今やＳＨ信号を収容する。同様に、図２８の第３行においては、このＳＨ信号Ｂを収容するだけのフレームが、この空間ドメイン中でシフトされ、このシフトされたフレームは、今やＳＬ信号を収容する。動きが複雑なときには、スペクトルリーク問題は、より深刻になる。

このように、ＳＬ情報を使用して、ＩＭＣＴＦではなく、エンコーダ中のＳＤＭＣＴＦにより、リファレンスフレームのＳＬコンポーネントは、これらのフレームのＳＨコンポーネントの一部を予測する。それゆえ、たとえデコーダが、最初にＳＬサブバンド情報しか有していないとしても、このデコーダは、ＩＭＣＴＦの各レベルの中間結果中に、意味のあるＳＨサブバンド情報を得る。しかし、このデコーダが、ＳＬ分解能バッファを使用してＩＭＣＴＦのレベル間に中間結果を保持するとき、このデコーダは、ＩＭＣＴＦの次のレベルにおけるＭＣＰに有用であった可能性のあるＳＨサブバンド情報を落とす。

さらに、リファレンスフレームのＳＨコンポーネントは、これらのフレームのＳＬコンポーネントの一部を予測する。これらのＳＬコンポーネントを符号化するために、エンコーダは、リファレンスフレーム中のＳＨサブバンド情報を活用することができる。このデコーダが、これらのＳＨコンポーネントにアクセスすることができないとき、ＳＨサブバンドの不在が、ある種のドリフトをもたらす。（例えば、このエンコーダが、（ＳＨ情報を含む）フル分解能フレームからのＭＣＰを行うが、このデコーダは、ＳＬ情報しか有していないとき。）この帰結は、ＰＳＮＲの頭打ちである（このＰＳＮＲ曲線は、比較的低ビットレートのところで、水平に向きを変える）。

Ｃ．空間スケーラビリティを有するＳＤＭＣＴＦエンコードされたビデオをデコードするための改善されたスキームの例
いくつかの実施形態においては、３Ｄサブバンドデコーダは、いくつかの技法のいずれかを使用して、より低い空間分解能出力のためにＳＤＭＣＴＦエンコードされたビデオをデコードするときにおける復号化パフォーマンスを改善する。これらの技法は、復号化パフォーマンスをステップバイステップで改善し、大抵の場合、このエンコーダおよび伝送されたビットストリームに対して何の変更も必要としない。集約すると、これらの技法は、柔軟な復号化スキームに様々な複雑さのレベルの様々なオプションを提供する。

いくつかのスキームにおいては、デコーダは、復号化に追加のリソースを割り当てる。一般に、このデコーダは、追加の計算リソースが復号化に向けられるときに良好なビデオを再構成する。さらに、このデコーダは、追加のバッファリソースがリファレンスピクチャ情報を格納することに向けられるときに、良好なビデオを再構成する。

または、エンコーダまたはデコーダは、ＳＬビデオの復号化のためにＳＨサブバンド情報を強調する。例えば、ＳＨサブバンド情報をＩＭＣＴＦ決定中に組み入れるために、このデコーダがＳＬ分解能ビデオを再構成しているにすぎないときでさえ、ビットストリーム抽出機構が、これらを完全に落とす代わりに、ＳＨ係数に帯域幅を割り当てる。

このセクションにおける様々な図（すなわち、図２９ないし３４）は、１レベルの空間スケーラビリティを示している。あるいはまたは、３Ｄサブバンドデコーダが、複数レベルの空間スケーラビリティについてのビデオを出力する。同じ線に沿って、このセクション中の様々な図は、ＣＩＦ分解能で、ＭＣＴＦを用いてエンコードされた元のビデオについてＱＣＩＦビデオを出力する３Ｄサブバンドデコーダを示している。本明細書に記載の技法およびツールは、ＣＩＦ分解能およびＱＣＩＦ分解能での使用に限定されない。

このセクション中の図面の多くでは、動きベクトルは、元の分解能ではハーフピクセル精度を有し、ＳＬ分解能ではクォータピクセル精度を有する。これは、サブピクセル補間などのオペレーションに影響を及ぼす。あるいはまたは、これらの動きベクトルが、他の精度を有し、このデコーダが、それに応じて多少ともサブピクセル補間を行う。さらに、このセクション中のいくつかの図面は、補間についてのシンクフィルタを示しているが、代わりにデコーダが、別のタイプのフィルタ（例えば、バイリニア、バイキュービック）を使用する。

最後に、このセクション中の様々な図面は、ダイアディックのＤＷＴオペレーションおよびＩＤＷＴオペレーションを示している。あるいはまたは、デコーダが、空間変換および逆空間変換についての他のオペレーションを使用する。

１．スキームＡ：ＩＢＩＭＣＴＦ（ベースライン）
後のスキームとの比較のために、図２９は、復号化中に専用の追加の計算リソースまたはバッファリソースなしのＩＢＩＭＣＴＦを示している。図２９におけるスキームは、図２６のＩＢＩＭＣＴＦデコーダ（２６５０）中における１レベルのＩＭＣＴＦに対応する。図２９に示すオペレーションは、このウェーブレットドメイン中で行われる。

図２９によれば、３Ｄサブバンドデコーダは、ＳＬバッファ（２９１０）を使用して、リファレンスピクチャ情報としての使用のためのＳＬサブバンド情報を格納する。このＳＬサブバンド情報の効果的な分解能はＱＣＩＦである。

このデコーダは、４×４のシンクフィルタを使用してサブピクセル補間（２９２０）を行う。（このＳＬドメイン中におけるＭＣＰについての動きベクトル精度は、クォータピクセル精度である。）これは、サブピクセル補間されたリファレンスフレーム（２９３０）を生成する。この補間されたリファレンスフレームの効果的な分解能は、４ＣＩＦ（７０４×５７６ピクセル）である。

このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム（２９３０）を使用してこのＳＬドメイン中でＭＣＰ（２９４０）を行う。このＭＣＰ_ＳＬ（２９４０）は、このＳＬドメイン中で予測（２９５０）を生成する。この場合にも、この予測（２９５０）の実効的な分解能は、ＱＣＩＦである。

２．スキームＢ：最適化されたＩＢＩＭＣＴＦ
第２タイプのスキームにおいて、３Ｄサブバンドデコーダは、補間オペレーションおよび／またはＭＣＰオペレーションをこの空間ドメイン中に移動することによってＩＭＣＴＦを改善する。このデコーダは、リファレンスピクチャ情報についてのＳＬ分解能バッファをやはり使用する。図３０は、この逆時間変換が最適化された逆時間変換ＯＴ_ｉ ^−１として示されるこの第２タイプのスキームについての一般化されたフレームワークを示している。図３１、３２、および３３は、この第２タイプのスキームの様々なバリエーションによる１レベルのＩＭＣＴＦの例を示している。

ａ．スキームＢ１
図３１に示すスキーム（スキームＢ１）によれば、３Ｄサブバンドデコーダは、ＳＬバッファ（３１１０）を使用して、リファレンスピクチャ情報としての使用のためのＳＬサブバンド情報を格納する。このデコーダは、このバッファされたＳＬサブバンド情報を使用して、ＩＤＷＴオペレーション（３１２０）を行う。このＳＨサブバンドは、ＩＤＷＴオペレーション（３１２０）において、空（ＳＨ＝０）として得られる。このＩＤＷＴオペレーション（３１２０）は、このようにこのＳＬサブバンド情報からリファレンスフレーム（３１３０）を生成する。このＳＬサブバンドの実効的な分解能がＱＣＩＦであるときに、このリファレンスフレーム（３１３０）の実効的な分解能はＣＩＦである。

次いでこのデコーダは、このリファレンスフレーム（３１３０）上でＯＣＤＷＴ（３１４０）を実行し、オーバコンプリート表現（３１５０）を生成する。あるいはまたは、このデコーダは、ＩＤＷＴ（３１２０）およびＯＣＤＷＴ（３１４０）ではなくてコンプリートツーオーバコンプリートＤＷＴを行う。どちらにしても、オーバコンプリート表現（３１５０）は、ハーフピクセルＭＣＰに適したフェーズシフト値を含んでいる。

クォータピクセルＭＣＰについての準備では、次いでこのデコーダは、２×２のシンクフィルタを使用して、サブピクセル補間（３１６０）を行う。これは、サブピクセル補間されたリファレンスフレーム（３１７０）を生成する。この補間されたリファレンスフレーム（３１７０）の実効的な分解能は４ＣＩＦである。

このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム（３１７０）を使用して、このＳＬドメイン中でＭＣＰ（３１８０）を行う。このＭＣＰ_ＳＬ（３１８０）は、このＳＬドメイン中で予測（３１９０）を生成する。この場合にも、この予測（３１９０）の実効的な分解能は、ＱＣＩＦである。

ｂ．スキームＢ２
図３２に示すスキーム（スキームＢ２）によれば、３Ｄサブバンドデコーダは、ＳＬバッファ（３２１０）を使用して、リファレンスピクチャ情報として使用するためのＳＬサブバンド情報を格納する。このデコーダは、このバッファされたＳＬサブバンド情報を使用して、ＩＤＷＴオペレーション（３２２０）を行う。このＳＨサブバンドは、ＩＤＷＴオペレーション（３２２０）において空（ＳＨ＝０）として得られる。このＩＤＷＴオペレーション（３２２０）は、このようにしてこのＳＬサブバンド情報からリファレンスフレーム（３２３０）を生成する。このＳＬサブバンドの実効的な分解能がＱＣＩＦであるときには、このリファレンスフレーム（３２３０）の実効的な分解能は、ＣＩＦである。

このデコーダは、２×２のシンクフィルタを使用して、サブピクセル補間（３２４０）を行う。これにより、分解能が水平方向および垂直方向に２のファクタだけ増大されたサブピクセル補間されたリファレンスフレーム（３２５０）が生成される。この補間されたリファレンスフレーム（３２５０）の効果的な分解能は、４ＣＩＦである。

次いで、このデコーダは、この補間されたリファレンスフレーム（３２５０）上でＤＳＤＷＴ（３２６０）オペレーションを行う。これにより、このリファレンスフレーム情報のオーバコンプリート表現（３２７０）が生成される。このオーバコンプリート表現（３２７０）は、クォータピクセルＭＣＰに適したフェーズシフト値を含んでいる。

このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム（３２７０）を使用して、このＳＬドメイン中でＭＣＰ（３２８０）を実行する。このＭＣＰ_ＳＬ（３２８０）は、このＳＬドメイン中で予測（３２９０）を生成する。この場合にも、この予測（３２９０）の実効的な分解能は、ＱＣＩＦである。

ｃ．スキームＢ３
図３３に示すスキーム（スキームＢ３）によれば、３Ｄサブバンドデコーダは、ＳＬバッファ（３３１０）を使用して、リファレンスピクチャ情報として使用するためのＳＬサブバンド情報を格納する。このデコーダは、このバッファされたＳＬサブバンド情報を使用して、ＩＤＷＴオペレーション（３３２０）を行う。このＳＨサブバンドは、このＩＤＷＴオペレーション（３３２０）において空（ＳＨ＝０）として得られる。ＩＤＷＴオペレーション（３３２０）は、このようにしてこのＳＬサブバンド情報からリファレンスフレーム（３３３０）を生成する。ＳＬサブバンドの実効的な分解能がＱＣＩＦであるときには、このリファレンスフレーム（３３３０）の実効的な分解能は、ＣＩＦである。

このデコーダは、２×２のシンクフィルタを使用して、サブピクセル補間（３３４０）を行う。これにより、分解能が水平方向および垂直方向に２のファクタだけ増大されたサブピクセル補間されたリファレンスフレーム（３３５０）が生成される。この補間されたリファレンスフレーム（３３５０）の実効的な分解能は、４ＣＩＦである。

このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム（３３５０）を使用して、この空間ドメイン中でＭＣＰ（３３６０）を行う。（ハーフピクセル精度動きベクトルを有する）ＭＣＰ_ＳＤ（３３６０）は、この空間ドメイン中で予測（３３７０）を生成する。このケースでは、予測（３３７０）の実効的な分解能は、ＣＩＦである。

このデコーダは、この予測３３７０上でＤＷＴオペレーション（３３８０）を行い、この予測（３３７０）のより低い空間分解能バージョン（３３９０）を生成する。より低い空間分解能予測（３３９０）の実効的な分解能は、ＱＣＩＦである。

３．スキームＣ：ＳＤＩＭＣＴＦ
図３４は、復号化中に専用の追加の計算リソースおよびバッファリソースを有するＳＤＩＭＣＴＦを示している。図３４中のこのスキームは、図２６のＳＤＩＭＣＴＦデコーダ（２６００）における１レベルのＩＭＣＴＦに対応する。図３４に示すこれらのオペレーションは、この空間ドメイン中で行われる。スキームＢ３と比較して、スキームＣにおけるリファレンスピクチャバッファは、ＳＤバッファであり、このデコーダは、ＩＭＣＴＦのレベルごとにＩＤＷＴオペレーションおよびＤＷＴオペレーションを行わない。このように、中間結果におけるＳＨ情報は、後のＳＤＩＭＣＴＦにおいて使用するために保持される。

スキームＣによれば、３Ｄサブバンドデコーダは、ＳＤバッファ（３４１０）を使用して、リファレンスピクチャ情報として使用するための空間ドメイン情報を格納する。この第１の逆時間変換では、最後の逆空間変換は、ＳＬサブバンド情報からＳＤバッファ（３４１０）中にこの情報を生成する。後続の逆時間変換では、ＳＤバッファ（３４１０）中の情報は、先の逆時間変換から保持され、ＳＤバッファ（３４１０）中の情報は、パワースペクトルリークに起因して生成されるＳＨ情報を含むことができる。ＳＤバッファ（３４１０）中のこの情報の実効的な分解能は、ＣＩＦである。

このデコーダは、２×２のシンクフィルタを使用して、サブピクセル補間（３４２０）を行う。これにより、分解能が水平方向および垂直方向に２のファクタだけ増大されたサブピクセル補間されたリファレンスフレーム（３４３０）が生成される。この補間されたリファレンスフレーム（３４３０）の実効的な分解能は、４ＣＩＦである。

このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム（３４３０）を使用して、この空間ドメイン中でＭＣＰ（３４４０）を行う。（ハーフピクセル精度動きベクトルを有する）ＭＣＰ_ＳＤ（３４４０）は、この空間ドメイン中で予測（３４５０）を生成する。このケースでは、予測（３４５０）の実効的な分解能は、ＣＩＦである。

４．スキームＤ：ＳＨ係数を有するＳＤＩＭＣＴＦ
ＳＨドリフト問題を取り扱うために、帯域幅が、ビットストリーム抽出機構中のＳＨ係数に対して割り当てられる。これは、ＳＬ分解能ビデオ出力のために復号化するときに、ＳＨサブバンド情報が単に落とされることに従う従来の空間スケーラビリティとは異なっている。

ＳＨ係数についての最適レートを決定するために、低空間分解能ビデオの歪みを低下させることに対するこのＳＨ係数の寄与が測定される。（対照的に、従来の空間スケーラビリティの実行では、この全体の元の空間分解能ビデオの歪みを低下させることに対するこのＳＨ係数の寄与が測定される。）換言すれば、低空間分解能ビデオだけが出力されるときでさえ、ＳＨサブバンドについての利得ファクタをＳＬビデオにおける歪みを低下させる際にこのＳＨサブバンドの利点（例えば、改善された動き補償予測精度）を計算に入れるよう考慮する。このようにして、このＳＨサブバンド情報は、ＳＬビデオの復号化にキャリーフォワードされる可能性がより高い。

スキームＤにおいては、まるでこのデコーダが元の分解能のビデオを抽出していたかのように、ＳＨサブバンドについての現在の利得ファクタが、ＳＬビデオを復号化するときに使用される。ＳＬサブバンドとＳＨサブバンドの両方の係数を、最終的なビットストリーム中に含めることが許される。あるいはまたは、元の空間分解能復号化およびＳＬ復号化についてのＳＨサブバンドについて異なる利得ファクタが計算される。

スキームＤにおいては、３Ｄサブバンドデコーダは、ＳＬビデオを復号化するときに、１レベルのＩＭＣＴＦについて図３４に示す復号化フレームワークを使用する。このリファレンスピクチャバッファ（３４１０）は、ＳＤバッファである。第１の逆時間変換では、たとえこの最後の出力ビデオが、事実上ＳＬ分解能しか有さないことになるとしても、このＳＤバッファは、ＳＬサブバンド情報および（少なくとも何らかの）ＳＨサブバンド情報を使用して再構成されるリファレンスピクチャ情報を含んでいる。中間結果におけるＳＨ情報はまた、後のＳＤＩＭＣＴＦにおいて使用するために保持される。

このデコーダは、２×２のシンクフィルタを使用して、サブピクセル補間（３４２０）を行う。これにより、分解能が水平方向および垂直方向に２のファクタだけ増大されたサブピクセル補間されたリファレンスフレーム（３４３０）が生成される。このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム（３４３０）を使用して、この空間ドメイン中でＭＣＰ（３４４０）を行う。（ハーフピクセル精度動きベクトルを有する）ＭＣＰ_ＳＤ（３４４０）は、この空間ドメイン中で予測（３４５０）を生成する。

５．比較
以下のテーブルは、スキームＡ、Ｂ１、Ｂ２、Ｂ３、ＣおよびＤの特徴を比較したものである。

あるいはまたは、このデコーダは、空間ドメイン補間、空間ドメイン動き補償、空間ドメインリファレンスピクチャバッファ、および／またはＳＨ情報の使用の他の何らかの組合せを使用して、より低い空間分解能出力についてのＳＤＭＣＴＦエンコードされたビデオを復号化するときに復号化パフォーマンスを改善する。

ＶＩ．連続フェーズオーバコンプリートサブバンド変換
ＩＢＭＣＴＦおよびＩＢＩＭＣＴＦに伴う１つの問題は、動き推定および動き補償に関するウェーブレット変換のシフト変動性の影響をいかにして低下させるかというものである（このイメージドメインにおけるシフト／動きは、この変換ドメインに直接にマップしない）。いくつかの技法では、整数のピクセル動きをこの変換ドメインにマップする（例えば、非特許文献４、非特許文献５参照）。このセクションでは、この変換ドメインにおいて分数のピクセル動きをフェーズ変化にマップするための技法について説明する。そうすることによって、動き推定および補償をより精度良くで行うことができ、これは、符号化パフォーマンスにかなり影響を及ぼすことがある。

このセクションでは、１レベルの１次元のウェーブレット変換の一例と共に連続フェーズオーバコンプリートサブバンド変換（「ＣＰＯＳＴ」）について示す。ｐ−ピクセルのＣＰＯＳＴの分解プロセスは、４つのシーケンシャルステージ：すなわち（１）ｐ−ピクセル補間、（２）連続シフティング、（３）ダウンサンプリング、および（４）ウェーブレット変換を有する。

（ｐ＝１、１／２、１／４、１／８、．．．）についての連続的なｐ−ピクセルフェーズオーバコンプリート変換を考える。ｐ＝１のときに、ＣＰＯＳＴは、整数のピクセルフェーズオーバコンプリートケースとなる。ｐの他の値は、サブピクセルフェーズオーバコンプリートケースを提示する。この入力信号が、この離散時間ドメインにおけるシーケンス｛ｘ（ｎ）｝、ｎ＝０、１、２、３、．．．．であるとする。このエンコーダまたはデコーダは、最初に｛ｘ（ｎ）｝のｐ−ピクセル補間を行い、次いでこのｐ−ピクセル補間シーケンスを２／ｐ−１回、連続的にシフトし、このシフトしたシーケンスをダウンサンプリングする。これは、｛ｘ_ｐ ^ｉ（ｎ）｝、ｉ＝０，1，．．．，２／ｐ−１によって記述される｛ｘ（ｎ）｝の１組の連続的なフェーズシフティングシーケンスを生成する。最後に、このエンコーダまたはデコーダは、｛ｘ_ｐ ^ｉ（ｎ）｝に関してウェーブレット分解変換を行う。

ｐ＝１／２のケースでは、この連続的なフェーズシフティングシーケンスは、以下のようになる。｛ｙ（ｎ）｝は、｛ｘ（ｎ）｝の１／２−ピクセル補間ポイントから構成されるシーケンスである。

．．．ｘ（ｎ）ｙ（ｎ）ｘ（ｎ＋１）ｙ（ｎ＋１）ｘ（ｎ＋２）ｙ（ｎ＋２）ｘ（ｎ＋３）ｙ（ｎ＋３）．．．
０−フェーズ．．．ｘ（ｎ）ｘ（ｎ＋１）ｘ（ｎ＋２）．．．
１／２−フェーズ．．．ｙ（ｎ）ｙ（ｎ＋１）ｙ（ｎ＋２）．．．
１−フェーズ．．．ｘ（ｎ＋１）ｘ（ｎ＋２）ｘ（ｎ＋３）．．．
３／２−フェーズ．．．ｙ（ｎ＋１）ｙ（ｎ＋２）ｙ（ｎ＋３）．．．
２ＤＣＰＯＳＴは、水平方向および垂直方向に沿った２つのシーケンシャルな１ＤＣＰＯＳＴをそれぞれ行うことによって、実施することができる。

このウェーブレットドメインにおいて、この連続的なｐ−ピクセルフェーズシフティングシーケンスは、１組の予測フィルタＦ_ｐ ^ｉ（ｚ）ｉ＝０，１，．．．，２／ｐ−１を使用して取得することができる。これらのフィルタは、このサブピクセル補間シーケンスを連続的にシフトすること、およびこれらのシフトしたシーケンスをダウンサンプルすることと等価である。ｐ−ピクセルＣＰＯＳＴのこの分解プロセスは、｛ｘ（ｎ）｝に対するフィルタの適用として提示することができ、これは、ハイパスフィルタＧ_Ｈ（ｚ）で、そして別個にこのウェーブレット分解変換のためにローパスフィルタＧ_Ｌ（ｚ）で結果を処理し、次いでダウンサンプリングすることがその後に続く。（ｉ＝０，１，．．．，２／ｐ−１）についてのｌ_ｐ ^ｉ（ｎ）およびｈ_ｐ ^ｉ（ｎ）は、ＣＰＯＳＴのそれぞれローパスおよびハイパス係数である。ｚドメインにおいて、Ｘ（ｚ）およびｘ_ｐ ^ｉ（ｚ）は、それぞれ｛ｘ（ｎ）｝および｛ｘ_ｐ ^ｉ（ｎ）｝のｚ変換である。Ｌ_ｐ ^ｉ（ｚ）およびＨ_ｐ ^ｉ（ｚ）は、それぞれｌ_ｐ ^ｉ（ｎ）およびｈ_ｐ ^ｉ（ｎ）のｚ変換である。

ｐ−ピクセルＣＰＯＳＴの分解プロセスは、以下の行列式に対応する。

式（２２）は、元のシーケンスの、シフティングなしのウェーブレット分解変換を提示する。式（２３）は、連続的なサブフェーズシフティングシーケンスのウェーブレット分解変換を提示する。式（２３）および（２４）が、このＣＰＯＳＴを構成する。Ｌ_ｐ ^ｉ（ｚ），Ｈ_ｐ ^ｉ（ｚ）と、Ｌ_ｐ ^０（ｚ），Ｈ_ｐ ^０（ｚ）の間の関係については、（２０）〜（２３）から、

（２２）〜（２４）から

ここで

またここでＧ^−１（ｚ）は、Ｇ（ｚ）の逆行列である。

（２５）によると、変換行列Ｔ_ｐ ^ｉ（ｚ）および逆変換行列ＩＴ_ｐ ^ｉ（ｚ）は、元のシーケンス（すなわち、０−フェーズシフティングシーケンス）のウェーブレット変換から取得して、このサブピクセルフェーズシフティングシーケンスのウェーブレット変換を得ることができる。

（２６）から、式（２８）が存在する場合には、オーバコンプリートウェーブレット変換後のサブピクセル補間の結果は、この離散時間ドメインにおけるサブピクセル補間後のオーバコンプリートウェーブレット変換の結果に等しくなる。そうでない場合には、オーバコンプリートウェーブレット変換後のサブピクセル補間の結果は、この離散時間ドメインにおけるサブピクセル補間後のオーバコンプリートウェーブレット変換の結果に等しくない。

一般的に、式（２８）は存在せず、これは、インバンドビデオ符号化についてのサブピクセル補間とオーバコンプリートウェーブレット変換の順序を交換しないことを示唆する。しかし、（２５）によると、そのウェーブレット変換係数から元のシーケンスのＣＰＯＳＴ係数を導き出すことができる。

このＣＰＯＳＴ法は、この整数ピクセルフェーズオーバコンプリートウェーブレット変換だけでなく、このサブピクセルフェーズオーバコンプリートウェーブレット変換も実現する。５−３ウェーブレット変換および６−タップ補間フィルタを伴う、ｐ＝１／２についての連続的なフェーズオーバコンプリート変換行列係数が続く。変換行列Ｔ_１／２ ^１（ｚ）、Ｔ_１／２ ^２（ｚ）、およびＴ_１／２ ^３（ｚ）についての各エレメントの係数は、以下の通りである。

Ｔ_１／２ ^１（０，０）＝［０．００９８ −０．０９５７０．８８６７０．２２２７ −０．０２１５−０．００２０］
Ｔ_１／２ ^１（０，１）＝［−０．００２４０．０４８８ −０．２２９００．３２４２ −０．１４４００．００２００．０００５］
Ｔ_１／２ ^１（１，０）＝［０．０３９１ −０．２３４４０．３４３８ −０．１４０６ −０．００７８］
Ｔ_１／２ ^１（１，１）＝［−０．００９８０．１５８２０．３６３３ −０．５３５２０．０２１５０．００２０］
Ｔ_１／２ ^２（０，０）＝［−０．０６２５０．５６２５０．５６２５ −０．０６２５］
Ｔ_１／２ ^２（０，１）＝［０．０１５６２５ −０．２５０．４６８７５ −０．２５０．０１５６２５］
Ｔ_１／２ ^２（１，０）＝［−０．２５０．５ −０．２５］
Ｔ_１／２ ^２（１，１）＝［０．０６２５ −０．５６２５ −０．５６２５０．０６２５］
Ｔ_１／２ ^３（０，０）＝［−０．００２０ −０．０２１５０．２２２７０．８８６７ −０．０９５７０．００９８］
Ｔ_１／２ ^３（０，１）＝［０．０００５０．００２０ −０．１４４００．３２４２ −０．２２９００．０４８８ −０．００２４］
Ｔ_１／２ ^３（１，０）＝［−０．００７８ −０．１４０６０．３４３８ −０．２３４４０．０３９１］
Ｔ_１／２ ^３（１，１）＝［０．００２００．０２１４８ −０．５３５２０．３６３３０．１５８２ −０．００９８］

記載の本発明の原理を適用することができる多くの考えられうる実施形態に鑑み、例示した実施形態は、単に好ましい例であるにすぎず、本発明の範囲を限定するものと解釈すべきではないことを理解されたい。そうではなく、本発明の範囲は、添付の特許請求の範囲によって定義される。したがって、我々は、これらの請求項の範囲および趣旨に含まれるすべてを発明として請求する。

スケーラブルなビデオ符号化およびビデオ復号化のための一般化された動作環境を示すブロック図である。記載の一実施形態と共に実施することができる一般化されたビデオエンコーダを示すブロック図である。記載の一実施形態と共に実施することができる一般化されたビデオデコーダを示すブロック図である。記載の一実施形態と共に実施することができる一般化されたビデオエンコーダを示すブロック図である。記載の一実施形態と共に実施することができる一般化されたビデオエンコーダおよびデコーダを示すブロック図である。動き補償時間フィルタリング（「ＭＣＴＦ」）における、入力ビデオフレーム、時間ローパスフレーム、および時間ハイパスフレームの間の関係を示す図である。エンコーダにおけるＭＣＴＦを示すブロック図である。デコーダにおける逆ＭＣＴＦ（「ＩＭＣＴＦ」）を示すブロック図である。エンコーダ中の適応アップデートステージを有するＭＣＴＦを示すブロック図である。デコーダ中の適応アップデートステージを有するＩＭＣＴＦを示すブロック図である。適応アップデートオペレーションについての技法を示すフローチャートである。適応アップデートオペレーションについての技法を示すフローチャートである。適応アップデートオペレーションについての技法を示すフローチャートである。３Ｄサブバンドエンコーダ中にベースレイヤコーデックを埋め込むためのスキームを示すブロック図である。３Ｄサブバンドデコーダ中にベースレイヤデコーダを埋め込むためのスキームを示すブロック図である。３Ｄサブバンドエンコーダ中にベースレイヤコーデックを埋め込むためのスキームを示すブロック図である。３Ｄサブバンドデコーダ中にベースレイヤデコーダを埋め込むためのスキームを示すブロック図である。３Ｄサブバンドエンコーダ中にベースレイヤコーデックを埋め込むためのスキームを示すブロック図である。３Ｄサブバンドデコーダ中にベースレイヤデコーダを埋め込むためのスキームを示すブロック図である。ベースレイヤコーデックまたはデコーダがリファレンス候補を提供するときの異なるリファレンスフレームの組合せを示す図である。３Ｄサブバンドコーデックおよび埋込みベースレイヤコーデックを用いてエンコードするためのフレームのパターンを示す図である。３Ｄサブバンドコーデックおよび埋込みベースレイヤコーデックを用いてエンコードするためのフレームのパターンを示す図である。３Ｄサブバンドコーデックおよび埋込みベースレイヤコーデックを用いてエンコードするためのフレームのパターンを示す図である。埋込みベースレイヤコーデックを有する３Ｄサブバンドエンコーダを用いたスケーラブルなエンコーディングのための一技法を示すフローチャートである。埋込みベースレイヤデコーダを有する３Ｄサブバンドデコーダを用いたスケーラブルなデコーディングのための一技法を示すフローチャートである。より低い空間分解能で出力するためのＳＤＭＣＴＦエンコードビデオをデコードするための２つのスキームを示すブロック図である。ＳＤＩＭＣＴＦおよびＩＢＩＭＣＴＦにおける動き補償予測を示す図である。動きシフトに起因するパワースペクトルリークを示す図である。より低い空間分解能で出力するためのＳＤＭＣＴＦエンコードビデオをデコードするためのベースラインスキームを示す図である。より低い空間分解能で出力するためのＳＤＭＣＴＦエンコードビデオをデコードするための一般化されたスキームを示すブロック図である。より低い空間分解能で出力するためのＳＤＭＣＴＦエンコードビデオをデコードするための１つのスキームを示す図である。より低い空間分解能で出力するためのＳＤＭＣＴＦエンコードビデオをデコードするための１つのスキームを示す図である。より低い空間分解能で出力するためのＳＤＭＣＴＦエンコードビデオをデコードするための１つのスキームを示す図である。より低い空間分解能で出力するためのＳＤＭＣＴＦエンコードビデオをデコードするための１つのスキームを示す図である。

符号の説明

１００コンピューティング環境
１１０処理ユニット
１２０メモリ
１３０基本構成
１４０ストレージ
１５０入力デバイス
１６０出力デバイス
１７０通信接続
１８０ソフトウェア
２００エンコーダ
２０５ビデオピクチャ
２１０時間サブバンド変換
２２０動き推定
２３０２Ｄ空間サブバンド変換
２４０エントロピー符号化
２５０ＭＶおよびモード符号化
２９５圧縮情報
３００デコーダ
３０５ビデオピクチャ
３１０時間逆ＳＢ変換
３３０２Ｄ空間逆ＳＢ変換
３４０エントロピー復号化
３５０ＭＶおよびモード復号化
３９５圧縮情報
４００３Ｄサブバンドエンコーダ
５００コーデック
７００エンコーダのＭＣＴＦ
７１０予測
７２０アップデート
８００デコーダのＭＣＴＦ
８１０予測
８２０アップデート
９００エンコーダの適応アップデートを伴うＭＣＴＦ
９１０予測
９２０アップデート
９３０ＨＶＳ
９４０しきい値
１０００デコーダの適応アップデートを伴うＭＣＴＦ
１０１０予測
１０２０アップデート
１０３０ＨＶＳ
１０４０しきい値
１４００３Ｄサブバンドエンコーダ
１４１０ダウンサンプリング
１４２０ベースレイヤコーデック
１４３０アップサンプリング
１４９５ベースレイヤビットストリーム
１５００３Ｄサブバンドデコーダ
１５２０ベースレイヤデコーダ
１５３０アップサンプリング
１５９５ベースレイヤビットストリーム
１６００３Ｄサブバンドエンコーダ
１６１０ＤＷＴ
１６２０ベースレイヤコーデック
１６３０ＩＤＷＴ
１６９５ベースレイヤビットストリーム
１７００３Ｄサブバンドデコーダ
１７１０ＤＷＴ
１７２０ベースレイヤデコーダ
１７３０ＩＤＷＴ
１７９５ベースレイヤビットストリーム
１８００３Ｄサブバンドエンコーダ
１８１０ダウンサンプリング
１８２０ベースレイヤコーデック
１８３０アップサンプリング
１８９５ベースレイヤビットストリーム
１９００３Ｄサブバンドデコーダ
１９２０ベースレイヤデコーダ
１９３０アップサンプリング
１９９５ベースレイヤビットストリーム
２６００ＳＤＩＭＣＴＦデコーダ
２６５０ＩＢＩＭＣＴＦデコーダ
２９１０ＳＬバンド（ＱＣＩＦ）
２９２０シンク４×４
２９３０ＳＬバンドからのリファレンス（４ＣＩＦ）
２９４０ＭＣＰ_ＳＬ
２９５０ＳＬバンド（ＱＣＩＦ）
３０００ＩＢＩＭＣＴＦデコーダ
３１１０ＳＬバンド（ＱＣＩＦ）
３１２０ＳＨ＝０でのＩＤＷＴ
３１３０ＳＬバンドからのリファレンス（ＣＩＦ）
３１５０ＬＬについてのオーバコンプリートリファレンス（ＣＩＦ）
３１６０シンク２×２
３１７０リファレンス（４ＣＩＦ）
３１８０ＭＣＰ_ＳＬ
３１９０ＭＣ予測（ＱＣＩＦ）
３２１０ＳＬバンド（ＱＣＩＦ）
３２２０ＳＨ＝０でのＩＤＷＴ
３２３０ＳＬバンドからのリファレンス（ＣＩＦ）
３２４０シンク２×２
３２５０リファレンス（４ＣＩＦ）
３２６０ＤＳＤＷＴ
３２７０ＬＬについてのＤＳオーバコンプリートリファレンス（４ＣＩＦ）
３２８０ＭＣＰ_ＳＬ
３２９０ＭＣ予測（ＱＣＩＦ）
３３１０ＳＬバンド（ＱＣＩＦ）
３３２０ＳＨ＝０でのＩＤＷＴ
３３３０ＳＬバンドからのリファレンス（ＣＩＦ）
３３４０シンク２×２
３３５０リファレンス（４ＣＩＦ）
３３６０ＭＣＰ_ＳＤ
３３７０ＭＣ予測（ＣＩＦ）
３３８０ＤＷＴ
３３９０ＭＣ予測（ＱＣＩＦ）
３４１０リファレンス（ＣＩＦ）
３４２０シンク２×２
３４３０リファレンス（４ＣＩＦ）
３４４０ＭＣＰ_ＳＤ
３４５０ＭＣ予測（ＣＩＦ）

Claims

予測ステージおよびアップデートステージを含む、動き補償時間フィルタリングまたは逆動き補償時間フィルタリングの方法であって、
アップデート情報を適応させることであって、前記適応させることは人間の知覚システムのモデルに少なくとも部分的に基づくことと、
エンコーディングまたはデコーディングにおいて前記適応させることの結果を適用することと
を備えることを特徴とする方法。
前記モデルは、最小弁別値モデルであることを特徴とする請求項１に記載の方法。
エンコーダおよびデコーダは、前記適応させることについて同じメトリックを使用することを特徴とする請求項１に記載の方法。
前記適応させることは、１つまたは複数のイメージ依存のしきい値を設定することを特徴とする請求項１に記載の方法。
前記１つまたは複数のイメージ依存のしきい値は、空間近傍におけるサンプル値の分散に依存して変化することを特徴とする請求項４に記載の方法。
前記１つまたは複数のイメージ依存のしきい値は、フラットエリアではより低く、ノイズのあるエリアではより高いことを特徴とする請求項４に記載の方法。
前記１つまたは複数のイメージ依存のしきい値は、コントラスト調整チューニングパラメータに依存して変化し、前記１つまたは複数のイメージ依存のしきい値は、強度パラメータによってさらに修正されることを特徴とする請求項４に記載の方法。
前記適応させることは、
適用可能なしきい値の絶対値より小さな前記アップデート情報のこれらの部分を通過させることと、
前記アップデート情報の他の部分の符号によって修正された前記適用可能なしきい値に前記アップデート情報の他の部分を制限することと
を備えることを特徴とする請求項１に記載の方法。
エンコーディング中に、前記予測ステージにおいて、１つまたは複数の第１のイメージごとに、
前記第１のイメージについての動き補償予測を１つまたは複数の第２のイメージを参照して計算することと、
前記第１のイメージと、前記動き補償予測の間の差分としてハイパスイメージを計算することと、
前記１つまたは複数のハイパスイメージ上で動き補償を実行することと
をさらに備え、
前記１つまたは複数の動き補償されたハイパスイメージは、前記アップデート情報に寄与し、前記適応させることは、前記１つまたは複数の第２のイメージのうちの１つと前記アップデート情報を組み合わせてローパスイメージを形成することを含み、前記適用することは、後続の空間分解および／またはエントロピーエンコーディングを含むことを特徴とする請求項１に記載の方法。
デコーディング中に、１つまたは複数のハイパスイメージ上で動き補償を行うことをさらに備え、前記１つまたは複数の動き補償されたハイパスイメージは、前記アップデート情報に寄与し、前記適応させることは、前記アップデート情報をローパスイメージと組み合わせることを含み、前記適応させることは、後続の動き補償予測および／または表示を含むことを特徴とする請求項１に記載の方法。
コンピュータ実行可能命令を格納したコンピュータ読取り可能媒体であって、前記コンピュータ実行可能命令によってプログラムされたコンピュータシステムに、
１つまたは複数の知覚規準に少なくとも部分的に基づいて、リフティングベースの動き補償時間フィルタリング、または逆動き補償時間フィルタリングのための１つまたは複数のアップデートしきい値を計算することと、
前記１つまたは複数のアップデートしきい値に従って、アップデート情報をしきい値化することと
を備える方法を行わせることを特徴とするコンピュータ読取り可能媒体。
前記１つまたは複数のアップデートしきい値は、アップデートされるべき複数のイメージのそれぞれについてイメージごとに計算されることを特徴とする請求項１１に記載のコンピュータ読取り可能媒体。
前記１つまたは複数のアップデートしきい値は、空間近傍におけるサンプル値の分散に依存して変化することを特徴とする請求項１１に記載のコンピュータ読取り可能媒体。
前記１つまたは複数のアップデートしきい値は、フラットエリアではより低く、ノイズのあるエリアではより高いことを特徴とする請求項１１に記載のコンピュータ読取り可能媒体。
前記１つまたは複数のアップデートしきい値は、コントラスト調整チューニングパラメータに依存して変化することを特徴とする請求項１１に記載のコンピュータ読取り可能媒体。
前記１つまたは複数のアップデートしきい値は、強度パラメータに依存して変化することを特徴とする請求項１１に記載のコンピュータ読取り可能媒体。
前記しきい値化することは、
前記１つまたは複数のアップデートしきい値のうちの適用可能なアップデートしきい値よりも小さい前記アップデート情報のこれらの部分を通過させることと、
前記アップデート情報の他の部分の符号によって修正される前記適用可能なアップデートしきい値に前記アップデート情報の他の部分を制限すること
を備えることを特徴とする請求項１８に記載の方法。
請求項１１に記載のコンピュータ読取り可能媒体を含むことを特徴とするビデオエンコーダ。
請求項１１に記載のコンピュータ読取り可能媒体を含むことを特徴とするビデオデコーダ。
ビデオピクチャ情報を格納する１つまたは複数のバッファと、知覚規準およびバッファされたビデオピクチャ情報に基づいて計算されたアップデートしきい値を考慮して、動き補償時間フィルタリングまたは逆動き補償時間フィルタリング中にアップデートオペレーションを適応的に行うための手段とを備えたことを特徴とするツール。