JP2006060790A - 動き補償時間フィルタリングにおける適応アップデート - Google Patents

動き補償時間フィルタリングにおける適応アップデート Download PDF

Info

Publication number
JP2006060790A
JP2006060790A JP2005203287A JP2005203287A JP2006060790A JP 2006060790 A JP2006060790 A JP 2006060790A JP 2005203287 A JP2005203287 A JP 2005203287A JP 2005203287 A JP2005203287 A JP 2005203287A JP 2006060790 A JP2006060790 A JP 2006060790A
Authority
JP
Japan
Prior art keywords
subband
decoder
video
update
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005203287A
Other languages
English (en)
Other versions
JP5276252B2 (ja
Inventor
Feng Wu
ウー フェン
Jizheng Xu
スー ジーチョン
Seong Lee
ソン リー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006060790A publication Critical patent/JP2006060790A/ja
Application granted granted Critical
Publication of JP5276252B2 publication Critical patent/JP5276252B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】スケーラブルなビデオの符号化および復号化のための技法およびツールを提供する。
【解決手段】ビデオエンコーダおよびデコーダは、それぞれ、リフティングベースの動き補償時間フィルタリングにおける適応アップデートオペレーションを行う。このエンコーダは、予測ステージにおいて、奇数イメージについての動き補償予測し、ハイパスイメージを計算する。アップデートステージでは、このエンコーダは、このハイパスイメージ上で動き補償を行って、動き補償アップデートを計算する。知覚規準に基づいて、このアップデートを偶数イメージと適応的に組み合わせてローパスイメージを形成する。このデコーダは、アップデートステージでは、動き補償を行ってアップデートを計算する。このエンコーダは、知覚規準に基づいて、このアップデートをローパスイメージと適応的に組み合わせて偶数フレームを再構成する。
【選択図】図9

Description

スケーラブルなビデオ符号化および復号化のための技法およびツールについて記載する。例えば、ビデオエンコーダおよびビデオデコーダは、リフティングベースの動き補償時間フィルタリング(lifting−based motion−compensated temporal filtering)における適応アップデートオペレーションを行う。
デジタルビデオは、大量のストレージ容量および伝送容量を消費する。典型的な未加工のデジタルビデオシーケンスは、毎秒15フレームまたは30フレームを含んでいる。各フレームは、数万または数十万のピクセル(pixel)(画素(pel)とも呼ぶ)を含むことがあり、ここで各ピクセルは、ピクチャの小さなエレメントを表している。未加工の形式においては、コンピュータは一般に、合計24ビットの3つのサンプルのセットとしてピクセルを表現する。例えば、ピクセルは、ピクセルのグレースケールコンポーネントを定義する(用語「輝度(luminance)」および「ルマ(luma)」は、本明細書中で区別なく使用されるので、ルマサンプルとも呼ばれる)8ビットの輝度サンプルと、ピクセルのカラーコンポーネントを定義する(用語「クロミナンス(chrominance)」および「クロマ(chroma)」は、本明細書中で区別なく使用されるので、クロマサンプルとも呼ばれる)2つの8ビットのクロミナンスサンプルとを含むことができる。このように、典型的な未加工のデジタルビデオシーケンスの毎秒ビット数、すなわちビットレートは、毎秒5百万ビット以上になることがある。
多くのコンピュータおよびコンピュータネットワークでは、未加工のデジタルビデオを処理するリソースが不足する。この理由から、エンジニアは、(符号化(coding)またはエンコーディングとも呼ばれる)圧縮を使用して、デジタルビデオのビットレートを低減する。圧縮により、このビデオをより低ビットレートの形式に変換することによってビデオを格納し、伝送するコストが低減される。(復号化(decoding)とも呼ばれる)伸張は、この圧縮された形式から元のビデオのバージョンを再構成する。「コーデック」とは、エンコーダ/デコーダシステムのことである。圧縮は、ロスレス(lossless)とすることができるが、この場合には、ビデオの品質は影響を受けないが、ビットレートの低減は、このビデオデータの(時にエントロピーと呼ばれる)変動性の固有量によって制限される。または、圧縮は、ロッシー(lossy)とすることもできるが、この場合は、ビデオ品質が影響を受けるが、達成可能なビットレートの低減は、さらに劇的となる。ロッシー圧縮は、しばしばロスレス圧縮と共に使用されることもある(ロッシー圧縮は、情報の近似を確立し、ロスレス圧縮を適用して、この近似を表現する)。
ビデオ圧縮の一般原則として、品質は、ビットレートに関連して直接に変化する。所与のビデオシーケンスでは、このシーケンスが高品質でエンコードされる場合、このシーケンスについてのビットレートは、より高くなり、このシーケンスが低品質でエンコードされる場合には、このシーケンスについてのビットレートは、より低くなる。時間分解能(例えば、毎秒7.5枚、15枚、30枚、または60枚のビデオフレーム)、空間分解能(例えば、ビデオフレーム当たり176×144(QCIF)ピクセル、352×288(CIF)ピクセル、または704×576(4CIF)ピクセル)、およびサンプル分解能(例えば、ピクセル当たり8ビット、16ビット、または24ビット)を含め、様々なファクタが、未加工のビデオシーケンスのビットレートおよび品質に影響を及ぼす可能性がある。品質およびビットレートは、時間分解能、空間分解能、および/またはサンプル分解能を上下に変化させることによって変化させることができる。
品質およびビットレートは、ロッシー圧縮中に、簡略化、または情報内容の削除によって導入される歪み量にも依存する。これは、例えば再構成されるときのビデオにおけるぼやけ(blurriness)、ブロック歪み(blockiness)、粒状性(graininess)の量に影響を及ぼす。別の言い方をすれば、ロッシー圧縮では、このシーケンスの品質を低下させて、エンコーダで、より低ビットレートを達成することができるようになる。
別の原則としては、品質およびビットレートは、細部および動きの点でビデオシーケンスの複雑さに依存する。ある固定品質レベルでは、複雑なシーケンスは、一般的に簡単なシーケンスよりもエンコードするために多くのビットを必要とする。これを逆の面から見ると、ある固定ビットレートでエンコードされるときには、この複雑なシーケンスは、一般的に簡単なシーケンスよりも低品質を有することになる。
いくつかのシナリオでは、単一のビットレート/品質レベルにおいてビデオをエンコードすることが、必要とされるすべてであることもある。例えば、ビデオが、単一タイプのデバイスでの再生のためにエンコードされている場合、またはビデオが、電話回線上のポイントツーポイントのビデオ会議での再生のためにエンコードされている場合には、単一のビットレート/品質レベルでこのビデオを単純にエンコードすることが望ましいこともある。しかし、他の多くのシナリオにおいては、複数のビットレートおよび品質レベルでビデオをエンコードすることが望ましい。例えば、インターネット上でビデオをストリーミングする際には、ビデオサーバにはしばしば、様々な機能を有するデバイスにビデオを提供し、そして/または様々な速度および信頼性特性を有する各種のネットワーク環境上でビデオを配信する。
様々なネットワーク要件および再生要件に対処する1つの方法は、複数のビットレートおよび品質レベルでこの同じビデオシーケンスをエンコードすることであり、これにより、複数の独立した圧縮ビデオビットストリームのためにストレージおよび伝送の非効率性がもたらされる可能性がある。代替方法として、サブバンドビデオまたはウェーブレットビデオエンコーディングは、単一のスケーラブルな圧縮ビデオビットストリーム中においてマルチ分解能の形でビデオシーケンスをエンコードする方法を提供する。サブバンドまたはウェーブレットエンコーディングを用いて、ビデオシーケンスは、異なる時間および空間のサブバンドに分解される。
簡単な例として、ビデオシーケンスは、(大ざっぱに、このシーケンスの低フレームレートバージョンに対応する)低分解能時間サブバンドと、(この低分解能時間サブバンドと組み合わせて元のフレームレートシーケンスを再構成することができる)高分解能時間サブバンドとに分けられる。個々のビデオフレームについての情報も同様に、低分解能空間サブバンドと、複数のより高分解能の空間サブバンドとに分けることができる。時間および空間分解は、一緒に使用することができる。どちらのタイプの分解も、例えば、低分解能サブバンドをさらに分解するように繰り返すことができる。伝送のために特定のサブバンドを選択し、または異なる分解能でデコードすることによって、時間および空間スケーラビリティを実施することができる。
さらに、個別のサブバンドについての情報は、複数レイヤのビット分解能を有するビットプレーンとして表現することもできる。元のエンコードされた情報に対する忠実度を、このサブバンドについてのビットのすべてではなく一部を伝送することによって(ビットレートと共に)選択的に低下させることができる。または、忠実度を、このサブバンドについてのこれらのビットのすべてより少ないビットをデコードすることによって(処理要件と共に)選択的に低下させることもできる。
A. N. Netravali and B. Prasada, "Adaptive Quantization of Picture Signals Using Spatial Masking," Proc. IEEE, vol. 65, pp. 536-548 (April 1977) Bjontegaard et al., "H.263 Anchors-Technical Description" Chen et al., "Improved MC-EZBC with Quarter-pixel Motion Vector" Y. A. Andreopoulos et al., "A New Method for Complete-to-Overcomplete Discrete Wavelet Transforms," Proc. IEEE Conf. Digital Signal Proc. (2002) X. Li, L. Kerofsky, S. Lei, "All-phase Motion Compensated Prediction for High Performance Video Coding," Proc. ICIP, vol. 3, pp. 538-541 (2001)
スケーラブルなビデオ符号化およびビデオ復号化技法は、圧縮ビットストリームの様々な空間、時間およびビット忠実度のスケーラビリティを容易にするが、既存のスケーラブルなビデオ符号化およびビデオ復号化技法には、いくつかの短所が存在する。
既存のスケーラブルなビデオ符号化およびビデオ復号化技法は、低ビットレートにおいて非スケーラブルな技法に匹敵するパフォーマンスを提供していない。スケーラブルなビデオ符号化およびビデオ復号化技法のパフォーマンスは、より高いビットレートおよび品質において良好であるが、これらの技法では、非スケーラブルなビデオ符号化およびビデオ復号化技法に比べて、低ビットレートにおいて使用するビット数があまりにも多すぎる。
さらに、多くの既存のハードウェアおよびソフトウェアツールは、特定の非スケーラブルなビデオ符号化およびビデオ復号化技法に従って設計されたものである。かかるツールのユーザは、新しいスケーラブルなビデオ符号化およびビデオ復号化技法、ならびに既存のツールと互換性のないツールに投資したがらないこともある。さらに、コンテンツプロバイダは、普及しているインストールベースのビデオデコーディングツールと互換性のないエンコードコンテンツを生成したがらないこともある。
時には、デコーダが、その元の空間分解能よりも低い空間分解能でビデオを再生することがある。例えば、デコーダデバイスに、小型スクリーンしかない場合、またはより高い空間分解能情報が、ネットワークによって落とされる場合には、これが起こる可能性がある。しかし、時間分解が、エンコーディング中の元の空間分解能で行われるときには、より低い空間分解能でのデコーディングには問題がある。既存のスケーラブルなビデオ復号化技法では、この復号化シナリオに十分に対処することができない。
最後に、既存のスケーラブルなビデオ符号化およびビデオ復号化技法では、エンコーディングおよびデコーディング中における、ある種の決定における歪みの知覚を計算に入れることができない。具体的には、既存のスケーラブルなビデオ符号化技法では、ある種の時間分解における低分解能時間サブバンド中の過剰な量の知覚可能な歪みが導入される。
デジタルビデオの圧縮および伸張の決定的な重要性を考えれば、スケーラブルなビデオ符号化および復号化が、十分に開発された分野であることは、驚くべきことではない。しかし、以前のスケーラブルなビデオ符号化技法および復号化技法の利点が何であろうとも、これらの技法には、以下の技法およびツールの利点を有していない。
本明細書に記載の技法およびツールは、スケーラブルなビデオ符号化および復号化のパフォーマンスを改善する。詳細には、ビデオエンコーダおよび/またはデコーダは、エンコーディングおよびデコーディング中における、ある種の決定における歪みの知覚を計算に入れる。例えば、かかる決定は、動き補償時間フィルタリングにおけるアップデートオペレーションに関係する。適応アップデートオペレーションが、圧縮ビデオビットストリームから再構成される低フレームレートビデオの知覚品質を改善する。同時に、この適応アップデートオペレーションは、この圧縮ビデオビットストリームから再構成される高フレームレートビデオについても依然として有効である。
第1のセットのツールおよび技法によれば、3Dサブバンドビデオエンコーダなどのエンコーダが、予測ステージおよびアップデートステージを含む動き補償時間フィルタリングを行う。このエンコーダは、人間の視覚システムのモデル(例えば、最小弁別値モデル)に少なくとも部分的に基づいて、アップデート情報を適応する。例えば、このエンコーダは、1つまたは複数のイメージ依存のしきい値を設定し、ここで、このイメージ依存のしきい値は、フラットエリアではより低く、ノイズのあるエリアでは、より高い。次いで、エンコーダは、エンコーディングの際にこの適応化の結果を使用する。
第2のセットのツールおよび技法によれば、3Dサブバンドビデオデコーダなどのデコーダが、予測ステージおよびアップデートステージを含む逆動き補償時間フィルタリングを行う。このデコーダは、人間の視覚システムのモデルに少なくとも部分的に基づいて、アップデート情報を適応し、次いでデコーディングの際にこの適応化の結果を使用する。
第3のセットのツールおよび技法によれば、3Dサブバンドビデオエンコーダなどのエンコーダが、知覚規準に少なくとも部分的に基づいてリフティングベースの動き補償時間フィルタリングのための1つまたは複数のしきい値を計算する。例えば、このエンコーダは、アップデートすべき複数のイメージのそれぞれについてイメージごとのアップデートしきい値を計算する。次いで、このエンコーダは、この1つまたは複数のアップデートしきい値に従ってアップデート情報をしきい値化する。
第4のセットのツールおよび技法によれば、3Dサブバンドビデオデコーダなどのデコーダが、知覚規準に少なくとも部分的に基づいて、逆動き補償時間フィルタリングのための1つまたは複数のアップデートしきい値を計算する。次いで、このデコーダは、この1つまたは複数のアップデートしきい値に従ってアップデート情報をしきい値化する。
本明細書に記載の技法およびツールについての前述および他の目的、特徴、および利点は、添付図面を参照して進められる以下の詳細な説明から、さらに明らかになろう。
3次元(「3D」)ウェーブレットまたはサブバンドビデオ符号化において、ビデオは、いくつかの時間および空間変換を通して多くの時間−空間サブバンドに分解される。これらのサブバンドは、これらの一部をスケーラビリティのために落とすことができるという点である程度独立している。例えば、低空間分解能ビデオをデコードするために、これらの空間ハイパスサブバンドを落とし、デコーダは、空間ローパスサブバンド中において、この受信データだけでデコーディングを行う。
本明細書に記載の様々な技法およびツールは、独立に使用することができる。これらの技法およびツールのいくつかは、(例えば、組み合わされたエンコーディングおよび/またはデコーディングプロセスの異なるフェーズにおいて)組み合わせて使用することができる。
I.動作環境例
図1は、記載の実施形態のいくつかを実施することができる適切なコンピューティング環境(100)の一般化された例を示している。この記載の技法およびツールは、広範な汎用または専用のコンピューティング環境中で実施することができるので、コンピューティング環境(100)は、使用または機能の範囲についてどのような限定も示唆することを意図していない。
図1を参照すると、コンピューティング環境(100)は、少なくとも1つの処理装置(110)およびメモリ(120)を含んでいる。図1において、この最も基本的な構成(130)は、破線内に含められている。処理ユニット(110)は、コンピュータ実行可能命令を実行し、実プロセッサでも、また仮想プロセッサでもよい。マルチ処理システムにおいては、複数の処理ユニットが、コンピュータ実行可能命令を実行して、処理能力を増大する。メモリ(120)は、揮発性メモリ(例えば、レジスタ、キャッシュ、RAMなど)、不揮発性メモリ(例えば、ROM、EEPROM、フラッシュメモリなど)、またはこれら2つの何らかの組合せとすることができる。メモリ(120)は、本明細書に記載の技法のうちの1つまたは複数の技法を使用するビデオエンコーダおよび/またはデコーダを実施するソフトウェア(180)を格納する。
コンピューティング環境は、追加の機能を有することもできる。例えば、コンピューティング環境(100)は、ストレージ(140)、1つまたは複数の入力デバイス(150)、1つまたは複数の出力デバイス(160)、および1つまたは複数の通信接続(170)を含んでいる。バス、コントローラ、ネットワークなどの相互接続メカニズム(図示せず)は、コンピューティング環境(100)のコンポーネントを相互接続する。通常、オペレーティングシステムソフトウェア(図示せず)は、コンピューティング環境(100)中で実行される他のソフトウェアのための動作環境を提供し、コンピューティング環境(100)のコンポーネントのアクティビティを調整する。
ストレージ(140)は、リムーバブルまたは非リムーバブルとすることができ、磁気ディスク、磁気テープもしくは磁気カセット、CD−ROM、DVD、または情報を格納するために使用することができ、コンピューティング環境(100)内でアクセスすることができる他の任意の媒体を含んでいる。ストレージ(140)は、ソフトウェア(180)のための命令を格納する。
入力デバイス(150)は、コンピューティング環境(100)に入力を提供するキーボード、マウス、ペン、トラックボールなどのタッチ入力デバイス、音声入力デバイス、スキャニングデバイス、または他のデバイスとすることができる。オーディオまたはビデオエンコーディングでは、入力デバイス(150)は、アナログまたはデジタル形式でオーディオまたはビデオ入力を受け入れるサウンドカード、ビデオカード、TVチューナカード、または同様なデバイス、あるいはコンピューティング環境(100)中にオーディオまたはビデオサンプルを読み込むCD−ROMまたはCD−RWとすることもできる。出力デバイス(160)は、コンピューティング環境(100)から出力を提供するディスプレイ、プリンタ、スピーカ、CD−ライタ、または他のデバイスとすることができる。
通信接続(170)は、通信媒体を介して他のコンピューティングエンティティへの通信を可能にする。この通信媒体は、コンピュータ実行可能命令、オーディオまたはビデオの入力または出力、他のデータなどの情報を変調データ信号の形で搬送する。変調データ信号とは、信号中の情報を符号化するようにその1つまたは複数の特性を設定または変更した信号のことである。例として、限定するものではないが、通信媒体には、電気的な、光学的な、RFの、赤外線の、音響の、または他の搬送波を用いて実施されるワイヤまたはワイヤレス技法が含まれる。
これらの技法およびツールは、コンピュータ読取り可能媒体の一般的なコンテキストで説明することができる。コンピュータ読取り可能媒体は、コンピューティング環境内でアクセスすることができる使用可能な任意の媒体である。例として、限定するものではないが、コンピューティング環境(100)に関して、コンピュータ読取り可能媒体は、メモリ(120)、ストレージ(140)、通信媒体、およびこれらの任意の組合せを含む。
これらの技法およびツールは、コンピューティング環境内においてターゲットの実プロセッサまたはターゲットの仮想プロセッサ上で実行される、プログラムモジュール中に含まれる命令などのコンピュータ実行可能命令の一般的なコンテキストで説明することができる。一般的に、プログラムモジュールは、特定のタスクを行い、特定の抽象データ型を実装するルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などを含む。これらのプログラムモジュールの機能は、様々な実施形態中において必要に応じてプログラムモジュール間で、組み合わせたり、または分けたりすることができる。プログラムモジュールについてのコンピュータ実行可能命令は、ローカルコンピューティング環境または分散コンピューティング環境内で実行することができる。
提示の目的で、この詳細な説明では、「信号」、「判定する」、および「適用する」のような用語を使用して、コンピューティング環境中におけるコンピュータオペレーションを説明する。これらの用語は、コンピュータによって行われるオペレーションについての高位の抽象化であり、人間によって行われる動作と混同すべきではない。これらの用語に対応する実際のコンピュータオペレーションは、実装形態に応じて変わる。
II.ビデオエンコーダおよびビデオデコーダ例
図2は、様々な記載の実施形態と共に実施することができる一般化したビデオエンコーダシステム(200)のブロック図である。図4は、4レイヤの時間分解の後に1レイヤの空間分解が続く一般化されたエンコーダ(400)を示している。図3は、様々な記載の実施形態と共に実施することができる一般化したビデオデコーダシステム(300)のブロック図である。図5は、4レイヤの(逆)時間分解および2レイヤの(逆)空間分解を有する組み合わされたエンコーダ/デコーダシステム(500)を示している。
これらのエンコーダおよびデコーダ内のモジュール間に示される関係は、これらのエンコーダおよびデコーダ中における情報の主要なフローを示している。他の関係については、簡潔に示すために示していない。特に、動き情報は別として、図2および3は、ビデオのシーケンス、フレーム、マクロブロック、ブロックなどのために使用されるエンコーダ設定、モード、テーブルなどを示すサイド情報を示していない。かかるサイド情報は、場合によってはこのサイド情報のエントロピーエンコーディングの後に、この出力ビットストリーム中で送られる。
所望の実施形態および圧縮のタイプに応じて、図面に示すエンコーダまたはデコーダのモジュールを追加し、省略し、複数のモジュールに分け、他のモジュールと組み合わせ、そして/または同様なモジュールと置き換えることができる。代替の実施形態において、異なるモジュールおよび/または他のモジュール構成を有するエンコーダまたはデコーダは、これら記載の技法の1つまたは複数を行う。例えば、図2は、エンコーダシステム(200)中の時間分解(210)から空間分解(230)のダウンストリームを示しているが、このエンコーダシステム(200)は、代替的にまたは追加的に時間分解(210)を始める前に1つまたは複数のレイヤの空間分解を含むこともできる。かかるケースにおいては、対応するデコーダシステム(300)は、逆時間分解(310)の後に1つまたは複数のレイヤの逆空間分解を含むことができる。
3Dサブバンドビデオ符号化は、中程度または高ビットレートにおける(例えば、H.264またはVC−1規格による)最新の非スケーラブルなビデオ符号化に匹敵するパフォーマンスを達成する。しかし、従来の非スケーラブルなアプローチに比べて、3Dサブバンドビデオ符号化における動きベクトルを符号化するのに費やされるビット量は、比較的大きい。その結果、3Dサブバンドビデオ符号化は、通常、低ビットレートにおける非スケーラブルなアプローチよりも悪く、ここで、動きベクトルを符号化するのに費やされるビットは、この全体のビットレートのより大きなパーセンテージを計算に入れる。
A.ビデオエンコーダ例
3Dサブバンドビデオ符号化は、ビデオの複数レベルの空間/時間サブバンド分解を使用することにより、複数レベルの空間および/または時間スケーラビリティを提供するエレガントな方法である。図2は、一般的な3Dサブバンドビデオ符号化スキーム(200)を示している。エンコーダ(200)は、ビデオピクチャのシーケンス(205)(例えば、プログレッシブビデオフレーム、インターレースビデオフレーム、またはインターレースビデオフレームのフィールド)を受け取り、圧縮ビデオ情報(295)を出力として生成する。ビデオエンコーダの特定の実施形態は、通常、一般化されたエンコーダ(200)の変形形態または補足バージョンを使用する。
エンコーダ(200)は、時間サブバンド変換(210)によってビデオ信号を分解する。図2は、低分解能サブバンドおよび高分解能サブバンドへの単一レベルの時間分解についての出力を示しているが、この時間分解は、4レベル、5レベル、または他の何らかのレベルの分解を含むこともできる。
図2において、時間分解(210)は、動き補償時間フィルタリング(「MCTF」)であり、エンコーダ(200)は、動き推定(220)を行ってこのビデオ信号についての動き情報を計算する。動き推定(220)の正確な戦略は、実装形態に依存し、例えば、サブピクセル精製が後に続く整数ピクセル検索、スパイラル検索パターン、実際のまたはモデル化した残差符号化コスト、動き情報符号化コスト、動き予測モードなどを考慮したレート−歪み関数の最小化を含むことがある。
いくつかの実施形態においては、エンコーダ(200)は、動き推定(220)における(4×4から16×16までの)動きベクトルの可変サイズブロックについての動きベクトルを計算し、かかる動きベクトルをMCTF中で適用する。例えば、16×16のマクロブロックでは、エンコーダ(200)は、1つの16×16パーティション、2つの16×8パーティション、2つの8×16パーティション、4つの8×8パーティションについての1つ(または複数)の動きベクトルを計算し、ここで、各8×8パーティションは、さらに2つの8×4パーティション、2つの4×8パーティション、あるいは4つの4×4パーティションに分けることができる。または、エンコーダ(200)は、より高い空間分解能ビデオ(例えば、CIF)のより大きなブロック(例えば、32×32)についての動きベクトルを計算して、より低い空間分解能のビデオ(例えば、QCIF)だけをデコードするときに動きベクトルの使用を容易にする。あるいはまた、エンコーダ(200)は、他のサイズのブロックについての動きベクトルを計算する。
動き推定(220)およびMCTFの動き精度は、実装形態に依存する。例えば、動き推定(220)およびMCTFは、4分の1ピクセル動きベクトルを使用する。あるいはまた、動き推定(220)およびMCTFは、他の何らかの精度を有する動き情報を使用する。例えば、QCIFビデオだけをデコードするときに4分の1ピクセル動きベクトルの使用を容易にするために、エンコーダ(200)は、CIFビデオについての2分の1ピクセル動きベクトル、および/または4CIFビデオについての整数ピクセル動きベクトルを計算する。
動き推定(220)およびMCTFの方向は、前方、後方、双方向、またはイントラとすることができる。いくつかの実施形態においては、エンコーダ(200)は、パーティションごとにマクロブロックの動き推定(220)および補償方向を前方、後方、双方向、またはイントラとして設定する。あるいはまたは、エンコーダ(200)は、これらの方向を他の何らかのレベルに設定し、そして/または何らかの方向(例えば、イントラ)を可能にしない。
いくつかの実装形態においては、リファレンスフレームを(例えば、簡単な繰り返しパディングにより)パッドして、このリファレンスフレームの外側の動き推定/補償を可能にすることができる。リファレンスフレーム上のサブピクセル補間は、バイリニアフィルタ、バイキュービックフィルタ、シンクフィルタまたは他の何らかのフィルタを使用して、分数動き推定/補償についてのサンプル値を生成する。いくつかの実装形態においては、このエンコーダは、オーバーラップブロック動き補償(「OBMC」)を使用する。あるいはまたは、動きベクトル範囲がリファレンスフレーム境界内にあるように制限され、そして/またはOBMCが使用されない。
MCTFのいくつかの例について、以下に5/3双直交ウェーブレット構造を使用して説明する。あるいはまたは、エンコーダ(200)は、別の数および/またはタイプの時間サブバンド変換(210)(例えばハール(Haar))および/または動き推定(220)を行う。図2は、フル空間分解能ビデオが時間的に変換される空間ドメインMCTFを示している。あるいはまたは、エンコーダ(200)は、時間分解(210)の前に1つまたは複数の空間サブバンド変換を含み、このMCTFは、初期空間分解からの空間サブバンド上のインバンドMCTFである。
時間変換(210)の後、エンコーダ(200)は、1つまたは複数の2次元(「2D」)空間サブバンド変換(230)を適用して、これらの信号をさらに分解する。図2は、2レベルの2D空間分解についての出力を示しており、ここで、水平および垂直方向に低い空間分解能を有するサブバンドは、さらに水平および垂直方向に分解される。例えば、この2D空間サブバンド変換は、ダイディック離散ウェーブレット変換(「DWT」)である。このウェーブレットフィルタは、例えば、9/7DWTフィルタ、または5/3DWTフィルタの代わりとすることができる。あるいはまたは、エンコーダ(200)は、空間サブバンド変換の(3や4など)別の数を行い、そして/または別のタイプの空間サブバンド変換(230)を行う。
時間変換(210)および空間変換(230)の後に、これらの信号は、入力ビデオ(205)の異なる空間−時間分解能に対応する異なる空間−時間サブバンドに編成される。エンコーダ(200)は、これらのサブバンドをエントロピー符号化する(240)。例えば、エンコーダ(200)は、いくつかの実施形態における3D最適切捨てを用いた埋込みブロック符号化(「EBCOT」)を使用する。JPEG2000は、2D形式のEBCOTを使用し、かかる実装形態におけるエンコーダ(200)は、基本的に2D EBCOTを3D符号化へと拡張する。時間および空間変換によって生成される各サブバンドは、独立に符号化される3D符号化ブロックに分割される。符号化ブロックごとに、エンコーダ(200)は、ビットプレーン符号化およびコンテキストベースの算術符号化を使用する。あるいはまたは、エンコーダ(200)は、サブバンド情報についての他の何らかの形式のエントロピー符号化を使用する。
エンコーダ(200)はまた、動き情報(例えば、動きベクトル、動きモード選択情報)も符号化する(250)。例えば、エンコーダ(200)は、マクロブロックのパーティション、動き推定/補償の方向、動きベクトル情報をエントロピーエンコードする簡単な可変長コードなどの何らかの形式のエントロピー符号化を使用する。動きベクトルについては、エンコーダ(200)は、この動きベクトルとその予測の間の差をエンコードする。この動きベクトル予測値は、以前にエンコード/デコードされた動きベクトルからの中央予測を使用するか、または他の何らかの動きベクトル予測技法を使用して計算することができる。あるいはまたは、エンコーダ(200)は、動き情報についての他および/または追加の符号化(250)技法を使用する。
サブバンド変換(210、230)のプロパティにより、エンコーダ(200)は、空間スケーラビリティおよび時間/フレームレートスケーラビリティを当然にサポートする。さらに、サブバンド係数のビットプレーン符号化により、エンコーダ(200)は、一般に品質/信号対雑音比(「SNR」)スケーラビリティもサポートする。
これらのスケーラビリティは、インターネットやワイヤレスネットワークなどのエラーを起こしやすいネットワーク上でビデオ伝送を行うのに非常に有用である。異なるサブバンドは、異なるレベルのエラー訂正または伝送エラーに対する復元力で伝送するためにエンコードすることができる。または、異なるサブバンドは、異なる優先順位レベルで伝送することができ、ここでネットワークは、優先順位付けされた伝送をサポートする。
これらの様々なスケーラビリティはまた、たとえ異なるデバイスが、異なるメモリリソース、計算能力、ディスプレイサイズ、アクセス可能な帯域幅などを有するとしても、これらの異なるデバイスが、この同じ圧縮ビデオストリームを共有するのを助けることもできる。このようにして、異なるビットレートでのビデオ(205)をエンコードするタスクが、簡単化される。
複数レベルの時間分解の1つの利点は、ビデオ信号内における時間冗長度を大きな範囲で活用することができることである。最初の数レベルの時間サブバンド変換は、近くのフレームとの間における時間冗長度を活用することができ、最後の数レベルの時間サブバンド変換は、長い距離にわたってのフレーム間の依存性を利用することができる。
図4は、4レイヤの時間分解と1レイヤの空間分解を有する3Dサブバンドビデオエンコーダ(400)の一例を示している。基本的に、図4は、図2における時間サブバンド変換(210)の1つの考えられうる拡張を示しており、異なるレベルの時間分解についてのデータフローも示している。図4はまた、時間分解および空間分解についての新しい表記法も導入している。
図4において、エンコーダ(400)は、4レベルの時間サブバンド変換を毎秒fフレームのフレームレートを有するビデオに適用する。時間サブバンド変換の各レベルTは、そのレベルに対する信号入力を2つの時間サブバンド、すなわち時間ローパスサブバンドと時間ハイパスサブバンドに分割する。この場合には、各サブバンドは、そのレベルに対する入力ビデオ信号の半分のフレームレートを有する。図4において、項t−Lおよびt−Hは、それぞれi番目の時間変換T後の出力ローパスサブバンドおよびハイパスサブバンドを示している。t−Lもt−Hも共に、フレームレートf/2を有する。図4において、この信号t−Lは、時間サブバンド変換Ti+1を用いて数回の繰り返しについて分解されて、長期依存性を活用し、このデコーダによってデコードすることができるより低いフレームレートビデオを可能にする。
簡単な数字の例を用いて例示するために、この入力ビデオが毎秒30フレーム(「fps」)のCIFビデオであるものと想定する。第1の時間分解からの出力ハイパスサブバンドt−Hがそうであるように、第1の時間分解からの出力ローパスサブバンドt−Lは、15fpsビデオである。第2の時間分解からの出力サブバンドt−Lおよびt−Hは、7.5fpsビデオであり、第3の時間分解からの出力サブバンドt−Lおよびt−Hは、3.75fpsビデオである。最後に、第4の時間分解からの出力サブバンドt−Lおよびt−Hは、1.875fpsビデオである。空間分解能は、この例における出力ローパスサブバンドおよびハイパスサブバンドのすべてについてCIFである。
フレーム間の動き情報は、異なるレベルで推定され、各レベルの時間変換は、現在のレベルの動き軌跡に沿って行われる。時間分解の各レベルは、このように動きベクトルを生成し、この動きベクトルは後に符号化される。図4では、4レベルの時間変換に対応する4組の動きベクトルがある。
次いで、この出力時間ローパスサブバンドt−L、および出力時間ハイパスサブバンドt−H、t−H、t−H、およびt−Hは、単一レベル2D空間サブバンド変換Sで分解され、これは、それぞれの入力サブバンドをローパス水平、ローパス垂直(「LL」)サブバンド、ローパス水平、ハイパス垂直(「LH」)サブバンド、ハイパス水平、ローパス垂直(「HL」)サブバンド、およびハイパス水平、ハイパス垂直(「HH」)サブバンドに分割する。あるいはまたは、エンコーダ(400)は、時間分解レベルの前および/または後において、他および/または追加のレベルの空間分解を含むか、またはエンコーダ(400)は、異なる空間分解パターンを使用する。
図4について、上で開始した数字の例を継続すると、ローパスサブバンドt−Lは、CIF空間分解能を有する。単一レベル2D空間サブバンド変換Sにより、時間サブバンドt−Lは、LLサブバンド、LHサブバンド、HLサブバンド、およびHHサブバンドに分解される。LLサブバンド、LHサブバンド、HLサブバンド、およびHHサブバンドのそれぞれは、QCIF分解能を有する。同様に、時間ハイパスサブバンドt−H、t−H、t−H、およびt−Hのそれぞれは、CIF分解能で開始し、QCIF分解能のLL、LH、HL、およびHHサブバンドに分解される。
この空間分解されたサブバンドは次いで、エントロピー符号化され、出力される。
B.ビデオデコーダ例
図3は、一般的な3Dサブバンドビデオデコーディングスキーム(300)を示している。デコーダ(300)は、圧縮ビデオ情報(395)を受け取り、ビデオピクチャ(305)のシーケンス(例えば、プログレッシブビデオフレーム、インターレースビデオフレーム、またはインターレースビデオフレームのフィールド)を出力として生成する。ビデオデコーダの特定の実施形態は、通常、一般化されたデコーダ(300)の変形形態または補足バージョンを使用する。
デコーダ(300)は、この空間−時間サブバンドの一部またはすべてについての情報(395)をエントロピーデコードする(340)。ビデオ情報(395)は、依然として異なる空間−時間サブバンド中に編成され、これは、入力ビデオ(205)の異なる空間−時間分解能に対応する。このようにして、デコーダ(300)は、この圧縮ビットストリーム(395)の一部を無視して、異なる空間−時間分解能の間で選択することができ、あるいは、デコーダ(300)は、デコーダ(300)が実際に受け取る圧縮ビットストリーム(395)のあるサブセットだけをデコードすることができる(340)。デコーダ(300)は基本的に、デコーダ(300)がデコードする情報についてエンコーダ(200)中で行われるエントロピー符号化(240)の逆を行う。例えば、デコーダ(300)は、3D EBCOTを使用してエンコードされた情報を受け取り、デコードする(340)。あるいはまたは、デコーダ(300)は、このサブバンド情報の一部またはすべてについてのエントロピーデコーディングの他の何らかの形式を使用する。
デコーダ(300)が逆MCTF(「IMCTF」)を行うとき、デコーダ(300)は、動き情報(例えば、動きベクトル、動きモード選択情報)をデコードし(350)、多くの場合に、エンコーダ(200)で行われた符号化(250)の逆を実行する。例えば、デコーダ(300)は、単純な可変長コードの復号化など何らかの形式のエントロピーデコーディングを使用する。動きベクトルについては、デコーダ(300)は、中央予測または他の何らかの動きベクトル予測技法を使用して動きベクトル予測を計算し、次いでデコーダ(300)は、この動きベクトル予測を動きベクトル差分値と組み合わせる。あるいはまたは、デコーダ(300)は、他および/または追加のデコーディング(350)技法を使用する。
デコーダ(300)は、1つまたは複数の2D逆空間サブバンド変換(330)を適用してこのビデオを空間的に再構成する。図3は、2レベルの2D逆空間分解についての入力および出力を示している。例えば、この2D逆空間サブバンド変換は、ダイアディック逆DWT(「IDWT」)である。あるいはまたは、デコーダ(300)は、別の数および/またはタイプの逆空間サブバンド変換(330)を行う。
デコーダ(300)は、さらに逆時間サブバンド変換(310)によってこのビデオ信号を再構成する。図3は、低分解能サブバンドおよび高分解能サブバンドからの単一レベルの時間再構成についての出力を示しているが、この時間合成は、4レベル、5レベルまたは他の何らかの数の合成を含むこともできる。
図3において、逆時間変換(310)は、IMCTFを使用しており、デコーダ(300)は、このビデオ信号についてのデコードされた(350)動き情報を使用して動き補償を行う。一般に、この動き情報およびIMCTFの属性(例えば、動き補償についてのパーティション、動きベクトル精度、動き補償の方向、リファレンスフレームパディングの使用、サブピクセル補間、OBMCの使用)は、対応するエンコーダ(200)におけるものと同様であり、圧縮ビデオビットストリーム(395)中において通知される。IMCTFのいくつかの例については、以下で説明する。あるいはまたは、デコーダ(300)は、別の数および/またはタイプの逆時間サブバンド変換(310)および/または動き補償を行う。図3は、フル空間分解能ビデオが逆時間変換を使用して再構成される空間ドメインIMCTFを示している。あるいはまたは、デコーダ(300)は、インバンドMCTFを行う。
図4のエンコーダ(400)を参照すると、対応するデコーダは、t−Lのみからf/2のフレームレートのビデオを再構成することができよう。または、このデコーダは、(後続の時間ハイパスサブバンド情報t−Hi+1などを含む)t−Lおよびt−Hの両方からf/2i−1のフレームレートのビデオを再構成することもできよう。
図5は、4レイヤの時間分解および2レイヤの空間分解をこのエンコーダ中に有し、また対応する数の逆変換をこのデコーダ中に有する3Dサブバンドビデオエンコーダ−デコーダ(「コーデック」)システム(500)を示している。基本的に、図5は、図2および3のエンコーダ(200)およびデコーダ(300)の考えられうる他のバージョンを示している。図5では、時間および空間分解、ならびにこれらの逆オペレーションについての別の簡単な表記法も導入している。
図5において、このエンコーダは、4レベルの時間サブバンド変換T(すなわち、T、T、T、およびT)をビデオに対して適用し、2レベルの空間サブバンド変換S(すなわち、SおよびS)をこの時間分解の結果に対して適用している。次いでこのエンコーダは、エントロピー符号化Eを行う。このデコーダは、エントロピー復号化E−1を行い、2レベルの逆空間サブバンド変換S −1(すなわち、S −1およびS −1)をこのエントロピー復号化の結果に対して行う。次いで、このデコーダは、4レベルの逆時間サブバンド変換T −1(すなわち、T −1、T −1、T −1、およびT −1)をこの空間再構成の結果に対して適用する。
III.動き補償時間フィルタリング
符号化効率を改善するために、(代替的に、本明細書中においては動き補償時間フィルタリング(「MCTF」)と呼ばれる)動き位置合わせ時間変換が、時間分解において適用されて、効率的に時間冗長度を取り除く。MCTFの主なアイデアは、時間分解が適用される間に、異なるフレーム間でピクセルを位置合わせすることである。動き位置合わせ3D符号化スキームは、スケーラビリティ機能、ならびに他の符号化スキームに比べて劣化がなく、さらに良好でさえある符号化効率を実現することができる。
様々なMCTFスキームのうちでも、リフティングベースのMCTFは、柔軟で効率的な実装形態を提供する。図6は、5/3双直交ウェーブレットについてのリフティングベースのMCTFスキームにおける入力ビデオフレームと、時間ローパスフレームと、時間ハイパスフレームとの間の関係を示している。
図6は、このMCTFに入力される4つの元のインデックスされたビデオフレームについてのピクセルの列を示している。(これらの入力フレームそれ自体は、例えば以前のレベルのMCTFからの時間ローパスサブバンド出力とすることができる。)図6におけるこのリフティングベースのウェーブレット変換は、2つの基本ステージ、すなわち動き補償予測(「MCP」)ステージおよび動き補償アップデート(「MCU」)ステージを伴う。
奇数フレーム(例えば、フレームI2i+1)についての予測ステージにおいては、1つまたは複数の隣接した偶数フレーム(例えば、フレームI2iおよびI2i+2)からの動き補償が、この奇数フレームのピクセルについての動き補償予測を示している。ハイパスフレーム(例えば、H)は、基本的に奇数フレームと、奇数フレームについての動き補償予測との間の差である。
アップデートステージにおいては、1つまたは複数の使用可能なハイパスフレーム(例えば、HおよびHi−1)の動き補償が、動き補償アップデートを示している。ローパスフレーム(例えば、L)は、基本的にこのアップデートと偶数フレーム(例えば、フレームI2i)の間の差である。
図7は、エンコーダ中のリフティングを伴う従来のMCTFを示しており、図8はデコーダ中の対応するIMCTFを示している。図7および8、ならびに本願中の他のどこにおいても一貫性を保つために、偶数ビデオフレームは、動き補償予測についてのリファレンスとなり、ローパスフレームの形成のために使用され、奇数ビデオフレームは、MCPの対象となり、ハイパスビデオフレームの形成のために使用される。あるいはまたは、奇数フレームと偶数フレームの役割が切り換えられる。
図7のMCTF(700)では、偶数ビデオフレームは、MCP(710)中においてリファレンスとして使用される。特定の奇数ビデオフレームI2i+1では、このエンコーダは、隣接する偶数フレームI2iおよびI2i+2のうちの一方または両方から動き補償予測を計算する。この予測と元の奇数フレームI2i+1との間の差が、時間ハイパスフレームHとなる。
このハイパスフレームHは、MCU(720)においてリファレンスとして使用される。特定の偶数ビデオフレームI2iでは、このエンコーダは、隣接する奇数フレームについてのハイパスフレームHi−1およびHのうちの一方または両方から動き補償アップデートを計算する。このアップデートと元の偶数フレームI2iの組み合わせが、時間ローパスフレームLである。
例えば、ビデオフレームシーケンスI,I,...,I2n−1が、図7のMCTF(700)を用いて処理されるものと想定する。この予測モジュール710は、以下のように連続した偶数フレームI2iおよびI2i+2からこの奇数フレームI2i+1についての予測P(I2i+1)を計算する。
Figure 2006060790
ここで、MV2i+1−>2iは、フレームI2i+1からフレームI2iへの動きベクトルを意味し、MV2i+1−>2i+2は、類似の意味を有し、MC()は、隣接した偶数フレームからの現在の奇数フレームの予測の少なくとも一部分を生成する動き補償を意味する。(式(1)は、この動きベクトルが適用されるマクロブロック、マクロブロックパーティション、または奇数フレームの他の部分についてのMCPを示すように意図され、かかるMCPは、この奇数フレームの他のマクロブロック、マクロブロックパーティションなどについて繰り返される。)いくつかのケースでは、このエンコーダは、MC寄与に対する対応する変化および式(1)において重み付けを用いて、(ハール変換におけるような)動き補償予測を計算するときに、これらの隣接する偶数フレームの一方だけ(両方ではない)を考慮し、あるいは、このエンコーダは、イントラ圧縮を使用してこの奇数フレームの一部またはすべてをエンコードする。埋込みベースレイヤコーデックに関連して、このエンコーダは、以下で説明するように隣接する偶数フレーム以外のフレームをリファレンスフレームとして使用することができる。
次いで、この予測モジュール(710)は、以下のように、このハイパスフレームHを計算する。
=I2i+1−P(I2i+1) (2)
この予測ステップ(710)に続いて1レベル時間変換を完了するアップデートステップ(720)において、このエンコーダは、以下のように近隣のハイパスフレームから偶数フレームI2iについてのアップデートU(I2i)を計算する。
Figure 2006060790
ここで、MC()は、隣接するハイパスフレームからこの偶数フレームについてのアップデートの少なくとも一部を生成する動き補償を意味する。簡単な近似として、このMCUについての動きベクトルは、このMCPについての対応する動きベクトルの逆ベクトルとして導き出される。(式(3)は、動きベクトルが適用されるマクロブロック、マクロブロックパーティション、または偶数フレームの他の部分についてのMCUを示すように意図され、かかるMCUは、他のマクロブロック、マクロブロックパーティションなどについて繰り返される。)いくつかのケースでは、このエンコーダは、MC寄与に対する対応する変化および式(3)において重み付けを用いて動き補償アップデートを計算するときに、これらのハイパスフレームの一方だけ(両方ではない)を考慮し、あるいは、このエンコーダは、このハイパスフレームのどちらも考慮しない。
次いで、このエンコーダは、以下のようにローパスフレームを生成する。
=I2i+U(I2i) (4)
図8のIMCTF(800)において、ハイパスフレームHは、MCU(820)におけるリファレンスとして使用される。特定の偶数ビデオフレームI2iでは、このデコーダは、隣接する奇数ビデオフレームについてのハイパスフレームHi−1およびHの一方または両方から動き補償アップデートを計算する。偶数フレームについてのこのアップデートと対応する時間ローパスフレームLの間の差が再構成される偶数フレームI2iとなる。
再構成されるときに、この偶数ビデオフレームは、MCP(810)においてリファレンスとして使用される。特定の奇数ビデオフレームI2i+1では、このデコーダは、これらの隣接する再構成された偶数フレームI2iおよびI2i+2のうちの一方または両方から動き補償予測を計算する。この奇数フレームI2i+1についてのこの予測と対応する時間ハイパスフレームHの組み合わせが、再構成される奇数フレームI2i+1である。
このエンコーダ中において、この予測ステップは、通常、予測のために使用される動きベクトルと共に(空間分解およびエントロピー符号化で)このハイパスフレームをエンコードするために必要なビットレートを最小化し、または低下しようと試みる。したがって、ハイパスフレームHは、基本的に関連する偶数インデッックスされた元の1つ(または複数)のビデオフレームからの対応する奇数インデックスされた入力ビデオフレームI2i+1の双方向MCP(あるいは場合に応じて前方MCPまたは後方MCP)からの残差である。次いで、この元の偶数インデックスされたフレームI2iは、ローパスフレームとしてこの予測残差を用いてアップデートされる。
このハイパスフレームのエネルギーは、動きモデルの成功に依存しており、この成功は、動きの複雑さ、フレームにまたがる動きの一様性、およびその動きモデルそれ自体に依存している。動き予測が正確な場合には、この予測残差は、通常小さな大きさを有する。しかし、動きが真に捕捉されるときでさえ、アップデートステップは、これらのステップが動き軌跡に沿ってローパスフィルタリングに起因するノイズおよびエイリアシングを削減することができる点で依然として有用である。一般に、アップデートステップは、ローパスフレームにおける高周波数部分の除去を容易にし、それによって符号化効率を改善する。
(例えば、複雑な予測できない動き、またはこの動きモデルそれ自体の短所に起因して)動き予測が不正確となる場合には、オブジェクトの特徴が整合せず、いくつかの問題が引き起こされる。不正確な動き予測は、これらのハイパスサブバンドフレーム中に複数のエッジおよび増加エネルギーをもたらすことがある。これは、ハイパスサブバンドそれ自体のエンコーディングについての圧縮のパフォーマンスを害するだけでなく、これらのアップデートステップ中に時間ローパスフレームに対してゴーストエッジおよび等高線を付加する。
より一般的には、アップデートステップは、時間スケーラビリティが可能になるときにデコーディングパフォーマンスに影響を及ぼす可能性がある。特に、一部の時間ハイパスフレームが、例えば限られたチャンネル帯域幅またはデバイス機能に起因して部分的にまたは完全に脱落するとき、このデコーダで問題が生じる可能性がある。(しばしば、IMCTFにおける時間スケーラビリティは、この時間変換ドメイン中でこのハイパスサブバンドを切り捨てながら、時間ローパスサブバンドを保持することによって達成される。)動き予測が効率的でないときに、ハイパスフレームは、エンコーディングにおけるこのアップデートステップ中にローパスフレーム(すなわち、より低いフレームレートビデオ)に対するアーティファクトをもたらす。ビデオが、時間ローパスフレームだけから再構成されるときに、ハイパスの寄与のどれも、このデコーダ中のMCUによって取り除かれない。または、時間ハイパスフレーム情報が粗く量子化される場合、このハイパスフレームからの寄与がこのデコーダ中のこのMCUにおいて近似的にしか取り除かれないので、時間ローパスフレームの品質が影響を受けることがある。したがって、このローパスフレームのエンコーディングに対して、より多くのビットが割り当てられたとしても、ローパスフレーム中のゴースト化を取り除くことはできない。
1つの可能な解決策は、このエンコーダ中のこのリフティングベースのMCTFにおいてこれらのアップデートステップをスキップすることである。しかし、アップデートステップは、動き軌跡に沿ったローパスフィルタリングに起因するノイズおよびエイリアシングを削減できるので、これは全体的な符号化パフォーマンスをかなり低下させる可能性がある。さらに、アップデートステップは、時間ハイパスサブバンドおよび時間ローパスサブバンドの間に歪みを拡散させることによってこのデコーダにおける全体的な歪みを低減することができる。
IV.MCTFおよびIMCTFにおける適応アップデートステージ
いくつかの実施形態においては、スケーラブルなビデオエンコーダが、リフティングベースのMCTFにおけるアップデートステップを適応的に行い、そして/またはスケーラブルなビデオデコーダが、IMCTFにおけるアップデートステップを適応的に行う。人間の視覚システムのプロパティを利用することによって、これらの適応アップデートステップは、時間ローパスサブバンドからデコードされる低フレームレートビデオの知覚可能な視覚品質を改善する。同時に、従来のアップデートステップに比べて、これらの適応アップデートステップは、時間ローパスサブバンドと時間ハイパスサブバンドの両方から復号化されるより高いフレームレートのビデオについて満足の行くパフォーマンスを維持する。
A.エンコーダおよびデコーダ例
適応アップデートスキームは、(1)できるだけ多くの元のアップデート情報を付加すること、(2)同時にこれらのアップデートステップによって導入される視覚アーティファクトを低減することという、2つの相容れない目標の間の良好なトレードオフを達成する。
図9は、エンコーダ中における適応アップデートオペレーションを伴うMCTFフレームワーク(900)を示しており、図10は、デコーダ中における適応アップデートオペレーションを伴うIMCTFフレームワーク(1000)を示している。例えば、これらのフレームワーク(900、1000)は、図2〜5を参照して説明したようなエンコーダおよび/またはデコーダ中に組み込まれる。あるいはまたは、これらの適応アップデートオペレーションは、別のエンコーダおよび/またはデコーダに組み込まれる。
図9を参照すると、MCTFフレームワーク(900)は、予測(910)およびアップデート(920)ステージを含んでいる。これらのステージは、基本的に図7を参照して説明したように進行する。
MCTFフレームワーク(900)は、人間の視覚システム(「HVS」)モデル(930)を使用して、視覚品質の点でこの予測ステップからの信号を評価する。例えば、エンコーダは、このHVSモデル(930)に従って偶数フレーム中の情報を評価する。いくつかの実装形態においては、HVSモデル(930)は、最小弁別値(「JND」)メトリックを使用する。他の実装形態においては、HVSモデル(930)は、他の知覚規準を使用する。
HVSモデル(930)は、しきい値(940)ステージに対してしきい値情報を提供し、このステージは、このしきい値情報の点でアップデート(920)ステージの結果を評価し、適用する。例えば、HVSモデル(930)は、このモデルに従って評価された偶数フレームのピクセルごとにしきい値を提供する。しきい値の様々な例およびアップデートオペレーションにおけるそれらの使用について、以下で説明する。あるいはまたは、HVSモデル(930)は、異なるしきい値情報を提供する。
しきい値(940)ステージの結果は、アップデート情報が、歪みが特に知覚可能なイメージの一部分において制限され、このイメージの他の部分についてはそれほど制限されないことである。したがって、アップデート情報は、このアップデート情報が偶数フレームに適用される前に、人間の知覚に応じて適応的に除去または制限することができる。
図10を参照すると、IMCTFフレームワーク(1000)は、予測(1010)およびアップデート(1020)ステージも含んでいる。これらのステージは、基本的には図8を参照して説明したように進行する。
IMCTFフレームワーク(1000)は、HVSモデル(1030)を使用して、視覚品質の点で信号を評価する。例えば、デコーダは、HVSモデル(1030)に従ってローパスフレーム中の情報を評価する。いくつかの実装形態においては、HVSモデル(1030)は、最小弁別値(「JND」)メトリックを使用する。他の実施形態においては、HVSモデル(1030)は、他の知覚規準を使用する。
HVSモデル(1030)は、しきい値(1040)ステージにしきい値情報を提供し、このステージは、このしきい値情報の点でアップデート(1020)ステージの結果を評価し、適用する。例えば、HVSモデル(1030)は、このモデルに従って評価されたローパスフレームのピクセルごとにしきい値を提供する。様々な例のしきい値およびアップデートオペレーションにおけるそれらの使用については、以下で説明する。あるいはまたは、HVSモデル(1030)は、異なるしきい値情報を提供する。
図9と10を比べると、このエンコーダ側におけるHVSモデル(930)は、偶数フレームに対して適用されるのに対して、このデコーダ側におけるHVSモデル(1030)は、ローパスフレームに対して適用される。たとえ同じHVSモデル(930、1030)が、このエンコーダ側およびデコーダ側で使用される場合でも、これらのしきい値は少し異なることがある。しきい値が、対応する偶数およびローパスフレームについて非常に似ている可能性があるので、そしてエンコーダおよびデコーダの状態間の偏移は(時間にわたって累積し、悪化していくのとは反対に)フレームに局所的であるので、これは許容可能である。
さらに、図9および10のフレームワーク(900、1000)では、しきい値は、MCTF/IMCTFのレベルごとに計算される。このように、これらのしきい値は、時間的に対応するフレームについてさえ、MCTF/IMCTFの異なるレベルにおいて異なることがある。
このように、いくつかの実装形態においては、エンコーダ側のMCTF(900)およびデコーダ側のIMCTF(1000)は、HVSモデル(930、1030)中で同じJNDメトリックを適用する。これらのしきい値は、このエンコーダおよびデコーダ中で独立に計算され適用されるので、これらのしきい値またはしきい値化オペレーションに関連する符号化オーバーヘッドは存在しない。あるいはまたは、エンコーダは、デコーダに対してしきい値情報または決定を通知するか、あるいはデコーダは、このエンコーダとは異なるHVSモデルを適用する。
B.HVSモデルおよびしきい値化オペレーション例
このエンコーダ中の適応アップデートステップは、一般にL=I2i+f(U2i)のように表すことができる。関数f()は、偶数フレームI2iについてのアップデートU2iに対して適用される適応関数である。Lは、結果として得られるローパスフレームである。
この適応関数は、人間の視覚モデルの成果および発展を利用している。広範な研究が、人間の視覚システムに基づくコンピューティングモデルを開発するために行われてきた。様々なモデルにおいて、知覚規準は、この空間および時間ドメインにおけるコントラストおよび輝度変化の変動レベルの刺激に対するこのHVSの感度に不整合性があるという観察に基づいている。
このHVSの数多くのコンピューティングモデルのうちでも、JNDは、知覚符号化し、画像透かしに広く使用されている。JNDは、動乱が人間にとってちょうど識別できるようになるまで増加された輝度エッジの振幅の関数として定義される可視性しきい値を使用する。詳細については、非特許文献1を参照されたい。JNDは、このHVSのテクスチャマスキングプロパティと密接に関連している。この規準によれば、ノイズは、フラットエリアまたはテクスチャの少ないエリアでは、より明らかであり、またノイズは、エッジおよびテクスチャを伴うエリアではあまり明らかではない。
JNDしきい値は、イメージに依存する。アップデート情報が、このJNDしきい値より小さいままである限り、「アップデート残差」の透過性が、このローパスフレーム中において達成される。このように、JNDは、適応アップデートスキームにおけるHVSモデルのようにうまく機能する。
適応アップデートスキームの一実装形態においては、このJNDモデルは以下のように定義される。
Figure 2006060790
ここで、σ (i,j)は、座標(i,j)をもつピクセル上に中心を置くウィンドウ中のイメージxの局所分散を示す。JNDは、輝度サンプルだけから計算して計算の複雑さを低下させることができる。または、JNDは、輝度サンプルとクロミナンスサンプルの両者から計算することもできる。このウィンドウのサイズは、実装形態に依存する。一例のウィンドウサイズは、3×3であり、別のウィンドウサイズは、5×5である。θは、特定のイメージについて選択することができるチューニングパラメータである。このイメージが非定常ガウス形であると仮定すると、これは、ノイズ可視性関数の値と同じである。このチューニングパラメータθは、このJND定義におけるコントラスト調整の役割を果たす。このチューニングパラメータθをイメージ依存にするために、以下のように計算することができる。
Figure 2006060790
ここで、σxmax は、ある所与のイメージについての最大局所分散であり、D∈[50,100]は、実験的に決定されるパラメータである。このJND定義によれば、このJND値は、σ (i,j)が小さいので、フラットエリア中では小さくなり、逆の場合も同様である。
このエンコーダ中の適応アップデートを表現するためのより正確な方法は、以下のようになる。
=I2i+f(I2i,U2i) (7)
ここで、
Figure 2006060790
JNDI2iは、上で定義したJND(i,j)の一例であり、Sは、実装形態依存の強さのファクタを表し、例えば12.5である。このJND関数は、視覚マスキングに関連する局所フレーム特性と適応可能である。局所強度分散が大きい場合、JNDは、比較的大きくなり(式(5)に従って1に近づき)、慌しいかまたは詳細なエリアを示す。他方、局所強度分散が小さい場合には、JNDは、比較的小さくなり(式(5)に従って0に近づき)、フラットエリアを示す。このJND関数は、このエンコーダ中においては、アップデートされるべき偶数インデックスフレームから計算され、このデコーダ中においては、この偶数インデックスフレーム(実際には、そのローパスイメージ近似)から計算される。その結果、この適応アップデートにより、ハイパスフレームに起因するゴーストアーティファクトを効果的に軽減し、時間スケーラビリティについての符号化パフォーマンスを改善することができる。
上で指摘したように、いくつかの実装形態においては、このエンコーダおよびデコーダは、(式(8)中のインデッックス値に対する変化と共に)この同じJNDメトリックおよびしきい値化を使用し、この適応アップデートオペレーションでは、符号化し、このデコーダに送達すべきどのようなオーバーヘッドも存在しない。このエンコーダおよびデコーダは、異なるイメージ(エンコーダにおける元のフレーム、デコーダにおける再構成ローパスバージョン)上で動作するが、実験結果では、このデコーダにおける結果として得られるアップデートマスクが、このエンコーダにおけるそれと非常に近い近似であることが示された。
あるいはまたは、このエンコーダおよび/またはデコーダは、JNDの別の定義、別のHVSモデル、および/または他のしきい値化オペレーションを使用する。例えば、他および/または追加のパラメータを使用することができる。
C.適応アップデート技法例
図11から13は、適応アップデートオペレーションについての技法(1100、1200、1300)を示している。図9を参照して説明したエンコーダなどのエンコーダは、図11および12に示す技法(1100、1200)を行い、図10を参照して説明したデコーダなどのデコーダは、図11および13に示す技法(1100、1300)を行う。あるいはまたは、別のエンコーダまたはデコーダが、これらの技法(1100、1200、1300)を行う。
図11は、適応アップデートオペレーションについての単純化され、一般化された技法(1100)を示している。このエンコーダまたはデコーダは、この適応アップデートについてのしきい値を計算する(1120)。次いで、このエンコーダまたはデコーダは、この適応アップデートオペレーションを行う(1160)。
図12は、MCPについての追加の詳細を含め、エンコーダ中における適応アップデートオペレーションについての詳細な技法(1200)を示している。
ローパスフレームを計算することになる現在の偶数フレームについて、このエンコーダは、しきい値を計算する(1220)。例えば、このエンコーダは、以前のセクションにおいて説明したように現在の偶数フレームのピクセルについてのJNDを計算する。あるいはまたは、このエンコーダが、他の何らかのメトリックを使用してこれらのしきい値を計算する(1220)。
MCPでは、このエンコーダは、例えば前方および/または後方に進んで隣接する奇数フレームを予測し、現在の偶数フレームから1つまたは複数の動き補償予測を計算する(1230)。このエンコーダは、他の偶数フレームからこれらの隣接する奇数フレームについての1つまたは複数の他の動き補償予測を計算することもできる(1230)(または、かかる予測は、先の偶数フレームから前に計算されている場合もある)。次いで、このエンコーダは、この1つ(または複数)の動き補償予測およびその対応する1つ(または複数)の隣接の奇数フレームから1つまたは複数のハイパスフレームを計算する(1240)。
次に、このエンコーダは、1つまたは複数のハイパスフレームからこの現在の偶数フレームについての動き補償予測アップデートを計算する(1250)。例えば、このエンコーダは、この現在の偶数フレームからMCP中に計算された(1230)動き情報を逆方向に適用する。あるいはまたは、このエンコーダは、異なるメカニズムを使用してこのアップデートを計算する(1250)。
次いで、このエンコーダは、この現在の偶数フレームについての適応アップデートを行い(1260)、結果としてローパスフレームを得る。例えば、このエンコーダは、前のセクションにおいて説明したようにこの動き補償アップデートおよびJNDしきい値を使用して適応しきい値化オペレーションを行う。あるいはまたはこのエンコーダは、異なるしきい値化メカニズムを使用してこの適応アップデートを行う(1260)。
このエンコーダは、このMCTFを継続すべきか否かを判定し(1290)、継続すべき場合には次の偶数フレームを用いて継続する。
図13は、デコーダ中の適応アップデートオペレーションについての詳細な技法(1300)を示しており、異なるフレームレートにおいて復号化するための別個の経路を含んでいる。
このデコーダは、復号化についての時間分解能を決定する(1310)。この時間分解能は、ユーザレベル設定または他の何らかの設定に従って決定し、このデコーダがどれだけ多くの情報(例えば、エラーを起こしやすいチャネル上の時間ローパス情報だけ)を実際に受け取るかに従って決定し、または他の何らかの方法で決定することができる。または、デコーダは、これらの復号化経路のうちのちょうど1つだけを有することもある。例えば、あるデコーダは、低フレームレート経路を含むことがあり、別のデコーダは、高フレームレート経路を含むことがあり、それぞれのデコーダのリソースを適合させることができる。
低フレームレート経路において、このデコーダは、(例えば、このローパスフレームをこの現在のフレームとして使用して)受け取ったローパスフレーム情報から現在の偶数フレームを計算する(1312)。ハイパス情報および動き情報が無視され、または受け取られないので、この適応アップデートオペレーションは、行われない。かかる情報がない場合でも、この偶数フレームに対する顕著な歪みの付加はエンコーディング中に制限されているので、現在の偶数フレームの品質は、エンコーディング中の適応アップデートオペレーションによって、(従来のIMCTFに比べて)改善される。
この高フレームレート経路において、この現在の偶数フレームでは、このデコーダは、このデコーダによって受け取られた対応するローパスフレームからしきい値を計算する(1320)。例えば、このデコーダは、前のセクションで説明したように、このローパスフレームのピクセルについてのJNDを計算する。あるいはまたは、このデコーダは、他の何らかのメトリックを使用してこれらのしきい値を計算する(1320)。
このデコーダは、1つまたは複数のハイパスフレームからこの現在の偶数フレームについての動き補償アップデートを計算する(1330)。例えば、このデコーダは、この現在の偶数フレームからこのMCP中に計算された(1230)動き情報を逆方向に適用する。あるいはまたは、このデコーダは、異なるメカニズムを使用してこのアップデートを計算する(1330)。
次いで、このデコーダは、このローパスフレームに対して適応アップデートを行って(1360)、この現在の偶数フレームを再構成する。例えば、このデコーダは、前のセクションにおいて説明したように、このアップデートおよびJNDしきい値を使用して適応しきい値化オペレーションを行う。あるいはまたは、このデコーダは、異なるしきい値メカニズムを使用してこの適応アップデートを実行する(1360)。
MCPでは、このデコーダは、例えば前方および/または後方に進んで隣接する奇数フレームを予測し、この再構成された現在の偶数フレームから1つまたは複数の動き補償予測を計算する(1370)。(隣接する奇数フレームについての他の動き補償予測は、先の偶数フレームから前に計算されている場合もある。)次いで、このデコーダは、この奇数フレームおよびその対応するハイパスフレームについての動き補償予測から再構成奇数フレームを計算する(1380)。
このデコーダは、このIMCTFを継続すべきか否かを判定し(1390)、継続すべき場合には、次の偶数フレームを用いて継続する。
図12および13に示す様々なオペレーションを分け、他のオペレーションと組み合わせ、あるいは順序を変更することができる。例えば、図12は、ある種のオペレーションを並列に示しているが、これらのオペレーションは、代わりに直列に行うこともできる。
V.3Dサブバンドビデオの符号化および復号化における埋込みベースレイヤコーデック
いくつかの実施形態においては、スケーラブルなビデオエンコーダは、埋込みベースレイヤコーデックを含んでおり、スケーラブルなビデオデコーダは、埋込みベースレイヤデコーダを含んでいる。基本的に、この埋込みベースレイヤコーデックによって生み出されたビットストリームは、低ビットレートのベースレイヤの3Dサブバンドビデオ符号化ビットストリームとしての役割を果たす。いくつかのスケーラブルなビデオ符号化/復号化システムのコンテキストにおいては、例えば、このベースレイヤは、このシステムについての最小の空間、時間およびSNR分解能でビデオを提供し、それに対して追加の拡張レイヤを追加してこのシステムについての最大の空間、時間およびSNR分解能までのスケーラビリティを提供する。(エンコーディングおよびデコーディングにおけるベースレイヤの正確な役割は、様々な実施形態中で異なる。)例えば、3Dサブバンドビデオエンコーダは、埋込みビデオコーデックを含み、3Dサブバンドビデオデコーダは、対応する埋込みビデオデコーダを含む。
多くのタイプの埋込みコーデックでは、これは、低ビットレートにおける符号化パフォーマンスを改善し、ここで従来の3Dサブバンド符号化における動き情報をエンコードするのに費やされるビットは、この使用可能なビットレートの非効率的な割合を消費し、この埋込みビデオコーデックは、相対的により効率的となる。いくつかのケースにおいては、この埋込みベースレイヤコーデックは、3Dサブバンド符号化に関連する制約なしで、閉ループ時間予測、インループフィルタリング、レート歪み最適化などの利点を提供する。同時に、中程度およびそれより高いビットレートにおける3Dサブバンド符号化の利点(例えば、空間および時間スケーラビリティ)は、保たれる。
3Dサブバンドビデオ符号化にコーデックを埋め込む別の利点は、これが、この埋込みコーデックおよび対応するデコーダとの互換性を提供することである。例えば、MPEG−1コーデックが埋め込まれる場合、MPEG−1復号化機能を有するどのレシーバでも、(たとえ、このMPEG−1コーデックが、それ自体は符号化パフォーマンスを改善しないとしても)この圧縮ビデオの大雑把なバージョンを復号化することができる。H.264コーデックまたはVC−1コーデックが埋め込まれている場合には、互換性を別としてもこれにより、低ビットレートにおける符号化パフォーマンスが改善される。
本明細書に記載のこれらの技法およびツールは、パフォーマンスおよび/または互換性の点で利点を有するシステムだけに限定されない。パフォーマンスおよび互換性は別として、スケーラブルなビデオエンコーダにベースレイヤコーデックを埋め込むこと、およびスケーラブルなビデオデコーダにベースレイヤデコーダを埋め込むことには、他の利点もあり得る。
A.エンコーダおよびデコーダ例
図14ないし19は、エンコーダまたはデコーダ中にベースレイヤコーデックまたはベースレイヤデコーダを埋め込むための3つの異なるスキームをそれぞれ示している。このエンコーダにおいて、このベースレイヤのためのコーデックは、時間サブバンド変換の間に埋め込まれ、この時間サブバンド変換は空間サブバンド変換によって後続されている。追加の空間サブバンド変換は、この時間サブバンド変換の前および/または後に配置することができ、対応する変更が、同様にデコーダ中でも可能である。このベースレイヤコーデックは、この様々な変換の間の異なる位置に配置することができ、対応する変更が、このデコーダ中で可能である。
一般に、この埋込みコーデックの配置が、ベースレイヤビデオについてのフレームレートおよび空間分解能を設定する。図14ないし19に示す3つのスキームの間の比較を簡単化するために、このベースレイヤ分解能を、この元のビデオの4分の1のフレームレート、および2分の1の空間分解能になるように設定する。したがって、元のビデオが30fpsCIFビデオである場合、例えばこのベースレイヤビデオは、7.5fpsQCIFビデオとなる。
このように、このベースレイヤコーデックが、図14、16、および18のエンコーダ中においては、2つの時間サブバンド変換の後にあり、このベースレイヤデコーダが、図15、17、および19のデコーダ中においては、最後の2つの逆時間サブバンド変換の前にある。このベースレイヤコーデックおよびデコーダの配置を時間変換の間に変更することが、ベースレイヤフレームレートを変更するための1つの方法である。例えば、図14、16および18は、ベースレイヤモジュールを埋め込んでt−Lサブバンドを入力として受け入れることを示しており、あるいはまたこのベースレイヤモジュールは、t−Lサブバンド変換または別のサブバンド変換の後に配置される。一般に、時間変換の間のこの配置は、このベースレイヤビデオにとって望まれるフレームレートに依存する。
図14、16、および18において、このベースレイヤについての空間分解能の変更は、何らかの任意ファクタによって(この埋込みコーデックまたはデコーダに隣接する)サンプリングオペレーションまたは空間サブバンド変換オペレーションによって達成される。このサンプリング/空間サブバンド変換オペレーションの比率を変更することが、ベースレイヤ空間分解能を変更する1つの方法である。
図14、16および18は、時間サブバンド変換モジュールT、空間サブバンド変換モジュールS、MV符号化モジュールおよびエントロピー符号化モジュール、ならびにこれらのモジュールとの間の入力および出力を含んでいる。図15、17、および19は、逆時間サブバンド変換モジュールT−1、逆空間サブバンド変換モジュールS−1、そしてMV復号化モジュールおよびエントロピー復号化モジュール、ならびにこれらのモジュールとの間の入力および出力を含んでいる。一般に、これらのモジュールおよびこれらの入出力の役割は、図2ないし5を参照して説明したものである。
図14、16および18に示すベースレイヤコーデックは、図15、17、および19に対応するベースレイヤデコーダと共に規格に準拠したビットストリーム(例えば、MPEG−1、MPEG−2、MPEG−4、H.261、H.263、H.264/AVC、またはVC−1)を生成するコーデックとすることができる。または、このベースレイヤコーデック/デコーダは、商用製品(例えば、WMV8、WMV9)とすることもできる。さらに一般的には、このベースレイヤコーデック/デコーダは、所望のパフォーマンスおよび/または互換性のプロパティを有する使用可能な任意のコーデック/デコーダとすることもできる。
1.第1のスキーム
図14は、第1のスキームによる3Dサブバンドエンコーダ(1400)を示している。このエンコーダ(1400)は、埋込みベースレイヤコーデック(1420)、ならびにこのベースレイヤコーデック(1420)のまわりのダウンサンプリングモジュール(1410)およびアップサンプリングモジュール(1430)を含んでいる。
このダウンサンプリングモジュール(1410)およびアップサンプリングモジュール(1430)は、オプションである。これらは、この埋込みコーデック(1420)によって符号化されたビデオが、この埋込みコーデック(1420)に対する時間サブバンド入力よりも低い空間分解能を有するときに使用される。そうでない場合には、このダウンサンプリングモジュール(1410)およびアップサンプリングモジュール(1430)は、スキップすることができる。
図14の破線の長方形は、2レベルの時間分解の後のベースレイヤコーデック(1420)に関連したオペレーションを取り囲んでいる。このベースレイヤでは、入力ビデオは、毎秒f/4フレームであり、この分解能は、ダウンサンプリングモジュール(1410)によって低下させることができる。したがって、このベースレイヤビデオは、元のビデオの低フレームレートで(場合によっては)低空間分解能の表現を提供する。
ダウンサンプリングモジュール(1410)は、簡単なサブサンプリング、ローパスフィルタ、または他の何らかのフィルタリングメカニズムを使用して、このt−L時間サブバンドをダウンサンプルする。例えば、ダウンサンプリングモジュール(1410)は、水平方向または垂直方向に2のファクタだけ空間分解能を低下させる。いくつかの実装形態においては、ダウンサンプリングモジュール(1410)は、非特許文献2で説明されているような「MPEG」フィルタまたはDaubechies9/7DWTフィルタを適用する。より一般的には、ダウンサンプリングモジュール(1410)は、埋込みコーデック(1420)に対する入力の空間分解能を任意の比率だけ変更して、所望のベースレイヤ空間分解能を達成し、そして/またはベースレイヤコーデック(1420)について許容される入力空間分解能をマッチさせる。
埋込みコーデック(1420)は、この埋込みコーデック(1420)についての通常のオペレーションのうちのどれかを使用して、(ts−LLサブバンドとして示される)ダウンサンプルされたt−Lサブバンドを符号化する。埋込みコーデック(1420)は、このベースレイヤ分解能で出力ベースレイヤビットストリーム(1495)を生成し、ここで、ベースレイヤビットストリーム(1495)は、対応するベースレイヤデコーダと互換性がある。エンコーダ(1400)中において後のエンコーディングのために、埋込みコーデック(1420)はまた、この埋込みコーデック(1420)についての対応する復号化オペレーションを使用してこのts−LLサブバンドをデコードし、再構成されたサブバンドts−LL’を生成する。
アップサンプリングモジュール(1430)は、何らかのフィルタリングメカニズムを使用して、このベースレイヤコーデック(1420)から再構成された出力サブバンドts−LL’をアップサンプリングし、時間サブバンドt−Lの再構成バージョンt−L’を生成する。この再構成されたサブバンドt−L’は、t−Lと同じ分解能を有する。例えば、アップサンプリングモジュール(1430)は、水平方向または垂直方向に2のファクタだけ空間分解能を増大させる。いくつかの実装形態においては、アップサンプリングモジュール(1430)は、簡単な6−タップフィルタ{−1、5、20、20、5、−1}、非特許文献3に見られるような8−タップシンクフィルタ、またはDaubechies9/7IDWTフィルタを適用する。アップサンプリングフィルタは、ダウンサンプリングフィルタをミラーする必要はない(例えば、このMPEGフィルタをダウンサンプリングについて使用し、IDWTフィルタをアップサンプリングについて使用することもできる)。より一般的には、アップサンプリングモジュール(1430)は、埋込みコーデック(1420)からの出力の空間分解能を任意の比率だけ変更して、ダウンサンプリングモジュール(1410)の前に有していた空間分解能にこのビデオを再構成する。
この元の時間サブバンドt−Lから、エンコーダ(1400)は、再構成されたバージョンt−L’を差し引く。これは、差、または残差、サブバンドt−L”を生成する。ベースレイヤコーデック(1420)が効率的(例えば、VC−1またはH.264/AVC)であり、ベースレイヤビットレートが適当であるとき、この差分サブバンドがあまりエネルギーをもたないようになり、このベースレイヤ品質は、比較的良好となることがある。他方、ベースレイヤコーデック(1420)が、あまり効率的でなく、ベースレイヤビットレートが適当でないときには、この差分サブバンドがより多くのエネルギーをもつようになり、このベースレイヤ品質が比較的劣ることがある。
エンコーダ(1400)は、この異なるサブバンドt−L”に関して2つのさらなるレベルの時間分解を行う。最後に、エンコーダ(1400)は、これらのそれぞれのサブバンド(例えば、t−H、t−H、t−H、t−H、およびt−L)に関して空間変換およびエントロピー符号化を行って、スケーラブルなビットストリームを生成する。
図15は、この第1のスキームによる対応する3Dサブバンドデコーダ(1500)を示している。デコーダ(1500)は、埋込みベースレイヤデコーダ(1520)、ならびにこのベースレイヤデコーダ(1520)の後にアップサンプリングモジュール(1530)を含んでいる。
アップサンプリングモジュール(1530)は、オプションである。このモジュールは、埋込みデコーダ(1520)によって復号化されたビデオが、ダウンストリームの逆時間変換レベルに出力される時間サブバンドt−Lよりも低い空間分解能を有するときに使用される。そうでない場合には、アップサンプリングモジュール(1530)は、スキップすることができる。
図15における破線長方形は、2つの追加レベルの逆時間分解の前のベースレイヤデコーダ(1520)に関連したオペレーションを取り囲んでいる。このベースレイヤでは、このビデオは、毎秒f/4フレームであり、この空間分解能は低下することもできる。したがって、このベースレイヤは、このビデオの低フレームレートで(場合によっては)低空間分解能の表現を与える。実際に、この低フレームレートで(場合によっては)低空間分解能を有するビデオは、ベースレイヤデコーダ(1520)を用いて直接に復号化し、出力することができる。
そうでない場合には、デコーダ(1500)は、このデコーダ(1500)がこのビデオを再構成するために使用することになるこのスケーラブルなビットストリームからのサブバンド(例えば、t−H、t−H、t−H、t−H、およびt−L)のうちのどれであれエントロピー復号化および逆空間分解を行う。デコーダ(1500)は、第3レベルおよび第4レベルの逆時間分解を行って、t−Hサブバンド、t−Hサブバンドおよびt−Lサブバンド、ならびに関連する動き情報からこの差分サブバンドt−L”を再構成する。
埋込みデコーダ(1520)は、このベースレイヤ分解能で符号化されたビデオについてのベースレイヤビットストリーム(1595)を受け取る。この適切な復号化オペレーションを使用して、埋込みデコーダ(1520)は、このベースレイヤビットストリーム(1595)中における圧縮されダウンサンプルされたサブバンドts−LLを復号化し、このサブバンドの再構成バージョンts−LL’を生成する。
アップサンプリングモジュール(1530)は、何らかのフィルタリングメカニズムを使用してベースレイヤデコーダ(1520)から再構成されたサブバンドts−LL’をアップサンプルし、時間サブバンドt−Lの再構成バージョンt−L’を生成する。この再構成されたサブバンドt−L’は、t−Lと同じ分解能を有している。例えば、アップサンプリングモジュール(1530)は、水平方向または垂直方向に2のファクタだけ空間分解能を増大させる。より一般的には、アップサンプリングモジュール(1530)は、埋込みデコーダ(1520)からの出力の空間分解能を任意の比率だけ変更して、任意のベースレイヤダウンサンプリングの前に有していた空間分解能にこのビデオを再構成する。
デコーダ(1500)は、この再構成された差分サブバンドt−L”をこの対応する再構成されたサブバンドt−L’に加える。これにより、時間ローパスサブバンドt−Lの再構成バージョンが生成され、これがこの逆時間分解の残りへ入力される。
2.第2のスキーム
図16は、第2のスキームによる3Dサブバンドエンコーダ(1600)を示している。エンコーダ(1600)は、埋込みベースレイヤコーデック(1620)、ならびにこのベースレイヤコーデック(1620)のまわりのDWTモジュール(1610)およびIDWTモジュール(1630)を含んでいる。
図14に示すダウンサンプリングモジュール(1410)およびアップサンプリングモジュール(1430)と同様に、DWTモジュール(1610)およびIDWTモジュール(1630)は、オプションである。これらは、埋込みコーデック(1620)によって符号化されるビデオが、この埋込みコーデック(1620)に入力される時間サブバンドt−Lよりも低い空間分解能を有するときに使用される。そうでない場合には、DWTモジュール(1610)およびIDWTモジュール(1630)は、スキップすることができる。
図16における破線長方形は、2レベルの時間分解の後のベースレイヤコーデック(1620)に関連したオペレーションを取り囲んでいる。DWTモジュール(1610)は、t−L時間サブバンドを処理し、ローパスサブバンドts−LLを生成する。一般的に、DWTモジュール(1610)は、埋込みコーデック(1620)への入力の空間分解能を変更して、所望のベースレイヤ空間分解能を達成し、そして/またはベースレイヤコーデック(1620)について許容される入力空間分解能をマッチさせる。DWTモジュール(1610)はまた、IDWTモジュール(1630)にルートされる空間ハイパスサブバンドts−LH、ts−HL、およびts−HHも生成する。
埋込みコーデック(1620)は、この埋込みコーデック(1620)についての通常のオペレーションのうちのどれかを使用して、ts−LLサブバンドをエンコードする。埋込みコーデック(1620)は、このベースレイヤ分解能における出力ベースレイヤビットストリーム(1695)を生成する。埋込みコーデック(1620)はまた、この埋込みコーデック(1620)についての対応する復号化オペレーションを使用して、ts−LLサブバンドを復号化し、この再構成されたサブバンドts−LL’を生む。
この元のts−LLサブバンドから、エンコーダ(1600)は、その再構成バージョンts−LL’を差し引く。これにより、残差サブバンドts−LL”が生成される。図14のエンコーダ(1400)についての場合のように、ベースレイヤコーデック(1620)が、効率的であり、ベースレイヤビットレートが適当であるとき、この残差ts−LL”は、通常、多くのエネルギーをもたない。他方、ベースレイヤコーデック(1620)が、あまり効率的でなく、またはベースレイヤビットレートが適当でないときには、この残差ts−LL”は、より多くのエネルギーをもつこともある。
この残差サブバンドts−LL”およびこの空間ハイパスサブバンドts−LH、ts−HLおよびts−HHから、IDWTモジュール(1630)は、新しい残差サブバンドt−L”を生成する。この新しい残差サブバンドt−L”は、DWTモジュール(1610)に入力されたサブバンドt−Lと同じ空間分解能を有する。
エンコーダ(1600)は、この残差サブバンドt−L”上で2つのさらなるレベルの時間分解を行う。最後に、エンコーダ(1600)は、これらのそれぞれのサブバンド(例えば、t−H、t−H、t−H、t−Hおよびt−L)上で空間変換およびエントロピー符号化を行って、スケーラブルなビットストリームを生成する。
図17は、第2のスキームによる対応する3Dサブバンドデコーダ(1700)を示している。デコーダ(1700)は、埋込みベースレイヤデコーダ(1720)、ならびにこのベースレイヤデコーダ(1720)のまわりのDWTモジュール(1710)およびIDWTモジュール(1730)を含んでいる。
DWTモジュール(1710)およびIDWTモジュール(1730)は、オプションである。これらは、埋込みデコーダ(1720)によって復号化されるビデオが、ダウンストリームの逆時間変換レベルに出力される時間サブバンドt−Lよりも低い空間分解能を有するときに使用される。そうでない場合には、DWTモジュール(1710)およびIDWTモジュール(1730)は、スキップすることができる。
図17における破線長方形は、2つの追加レベルの逆時間分解の前のベースレイヤデコーダ(1720)に関連したオペレーションを取り囲んでいる。このベースレイヤは、このビデオの低フレームレートで(場合によっては)低空間分解能の表現を提供し、かかるより低品質のビデオは、ベースレイヤデコーダ(1720)を用いて直接に復号化し、出力することができる。
そうでない場合には、デコーダ(1700)は、このデコーダ(1700)がビデオを再構成するために使用することになるスケーラブルなビットストリームからのサブバンド(例えば、t−H、t−H、t−H、t−H、およびt−L)のうちのどれであれエントロピー復号化および逆空間分解を行う。デコーダ(1700)は、第3レベルおよび第4レベルの逆時間分解を行って、t−Hサブバンド、t−Hサブバンドおよびt−Lサブバンド、ならびに関連する動き情報から残差サブバンドt−L”を再構成する。
DWTモジュール(1710)は、この残差サブバンドt−L”を処理し、空間ローパス残差サブバンドts−LL”、ならびに空間ハイパスサブバンドts−LH”、ts−HL”およびts−HH”の再構成バージョンを生成する。一般的に、DWTモジュール(1710)は、ローパス残差サブバンドts−LL”が、空間分解能の点で埋込みデコーダ(1720)の出力をマッチさせるように、空間分解能を変更する。
埋込みデコーダ(1720)は、このベースレイヤ分解能で符号化されたビデオについてのベースレイヤビットストリーム(1795)を受け取る。適切な復号化オペレーションを使用して、埋込みデコーダ(1720)は、ベースレイヤビットストリーム(1795)中における圧縮され変換されたサブバンドts−LLを復号化し、このサブバンドの再構成バージョンts−LL’を生成する。
デコーダ(1700)は、埋込みデコーダ(1720)から出力される対応する再構成されたサブバンドts−LL’にこの再構成された残差サブバンドts−LL”を加える。これにより、この元のts−LLサブバンドの再構成バージョンが生成される。
次いでIDWTモジュール(1730)は、この再構成されたts−LLサブバンドを、このDWTモジュール(1710)から出力される空間ハイパスサブバンドts−LH”、ts−HL”およびts−HH”と組み合わせる。これにより、時間ローパスサブバンドt−Lの再構成バージョンが生成され、これがこの逆時間分解の残りに入力される。
3.第3のスキーム
最初の2つの符号化スキームにおいては、そのベースレイヤコーデックは、これらの時間変換中に埋め込まれ、残差信号は、後の時間変換においてさらに分解される。対照的に、第3の符号化スキームにおいては、(残差フレームとは反対に)この後の時間変換は、時間ローパスフレームに適用される。
図18は、第3のスキームによる3Dサブバンドエンコーダ(1800)を示している。エンコーダ(1800)は、埋込みベースレイヤコーデック(1820)、ならびにこのベースレイヤコーデック(1820)のまわりのダウンサンプリングモジュール(1810)およびアップサンプリングモジュール(1830)を含んでいる。図18における破線長方形は、2レベルの時間分解の後のベースレイヤコーデック(1820)に関連したオペレーションを取り囲んでいる。図14に示すエンコーダ(1400)の対応するモジュールのように、ダウンサンプリングモジュール(1810)およびアップサンプリングモジュール(1830)は、オプションである。この第2および第3の時間変換の間のスケーラブルなビデオと同様に、このベースレイヤビデオは、毎秒f/4フレームであり、この分解能は、ダウンサンプリングモジュール(1810)によって低下させることができる。したがって、このベースレイヤビデオは、この場合にも元のビデオの低フレームレートで(場合によっては)低空間分解能の表現を提供する。
ダウンサンプリングモジュール(1810)は、簡単なサブサンプリング、ローパスフィルタ、または他の何らかのフィルタリングメカニズムを使用して、このt−L時間サブバンドをダウンサンプルする。一般に、ダウンサンプリングモジュール(1810)は、埋込みコーデック(1820)に対する入力の空間分解能を任意の比率だけ変更して、所望のベースレイヤ空間分解能を達成し、そして/またはベースレイヤコーデック(1820)にとって許容される入力空間分解能をマッチさせる。
埋込みコーデック(1820)は、この埋込みコーデック(1820)についての通常のオペレーションのうちのどれかを使用して、(ts−LLサブバンドとして示す)ダウンサンプルされたt−Lサブバンドをエンコードする。埋込みコーデック(1820)は、このベースレイヤ分解能における最低ビットレートで出力ベースレイヤビットストリーム(1895)を生成し、ここで、ベースレイヤビットストリーム(1895)は、対応するベースレイヤデコーダと互換性がある。エンコーダ(1800)において後のエンコーディングのために、埋込みコーデック(1820)はまた、埋込みコーデック(1820)についての対応する復号化オペレーションを使用して、このts−LLサブバンドもデコードし、再構成されたサブバンドts−LL’を生成する。
アップサンプリングモジュール(1830)は、何らかのフィルタリングメカニズムを使用して、ベースレイヤコーデック(1820)からこの再構成された出力サブバンドts−LL’をアップサンプルし、時間サブバンドt−Lの再構成バージョンt−L’を生成する。この再構成されたサブバンドt−L’は、t−Lと同じ分解能を有する。一般に、アップサンプリングモジュール(1830)は、埋込みコーデック(1820)からの出力の空間分解能を任意の比率だけ変更して、ダウンサンプリングモジュール(1810)より前に有していた空間分解能までこのビデオを復元する。
エンコーダ(1800)は、この元の(プレベースレイヤ処理)時間サブバンドt−Lに関して第3レベルおよび第4レベルの時間変換を行う。この第3の時間変換および第4の時間変換では、エンコーダ(1800)は、時間ハイパスサブバンドt−Hおよびt−Hについての動き補償予測を計算する。予想されるように、時間サブバンドt−Lは、この第3レベルの時間変換における動き補償についての候補リファレンスフレーム(例えば、t−Lの偶数フレーム)を提供し、時間サブバンドt−Lは、この第4レベルの時間変換における動き補償についての候補リファレンスフレーム(例えば、t−Lの偶数フレーム)を提供する。この第3のスキームによれば、アップサンプルされ、再構成されたサブバンドt−L’における時間的に対応するピクチャは、この動き補償についての追加の候補リファレンスフレームとしての役割を果たす。例えば、(t−Lの奇数インデックスされたフレームと同じ時刻を有する)t−L’の代替フレームがこの第3レベルの時間変換におけるt−Lの奇数インデックス付けされたフレームのMCPについてのリファレンスとして使用可能である。(t−Lの対応する奇数インデックス付けされたフレームと同じ時刻を有する)t−L’のあらゆる第4のフレームがこの第4レベルの時間変換におけるt−Lの時間的に対応する奇数インデックス付けされたフレームのMCPについてのリファレンスとして使用可能である。
図20は、埋込みベースレイヤコーデックに続く時間変換における動き補償についての様々なリファレンスの組合せのケースを示している。これらの候補リファレンスフレームは、この入力時間ローパスサブバンドからのフレーム(例えば、偶数フレーム)を含んでいる。これらの候補リファレンスフレームはまた、このベースレイヤのアップサンプルされた出力からの時間的に対応する(例えば、同じ時刻の)再構成されたフレームも含んでいる。例えば、図20の組合せ(1)において、このハイパスサブバンドフレームHは、(ローパスサブバンドフレームLに対応する)以前の時間サブバンドの偶数フレームからの第1の動き補償予測を使用し、(ハイパスサブバンドフレームHと時間的に同時配置された)ベースレイヤからのアップサンプルされた再構成からの第2の動き補償予測を使用する。それに応じて、このハイパスサブバンドフレームHは、(この対応するローパスサブバンドフレームLを生成するために)動き補償のために使用される偶数フレームをアップデートするためにのみ使用される。このベースレイヤからのリファレンスがこの予測ステップにおいて使用される場合には、この対応するアップデートステップは、それのために必要ではない。
いくつかの実施形態においては、このエンコーダは、マクロブロックごとのベースで動き補償についての1つ(または複数)のリファレンスフレームを選択し、切り換える。あるいはまたは、このエンコーダが、他の何かのベースで(例えば、現在の奇数フレームごと、動きベクトルおよびマクロブロックパーティションごとに)動き補償についての1つ(または複数)のリファレンスフレームを選択し、切り換える。
図18に戻ると、最後の時間分解の後に、このベースレイヤ出力t−L’のフレームレートは、最後の時間ローパスサブバンドt−Lのフレームレートの4倍となる。この最後の時間ローパスサブバンドt−Lから、エンコーダ(1800)は、ベースレイヤ出力t−L’の時間的に対応するアップサンプルされた再構成フレームを差し引く。これにより、残差サブバンドt−L’が生成される。最後に、エンコーダ(1800)は、これらのそれぞれのサブバンド(例えば、t−H、t−H、t−H、t−H、およびt−L’)上で空間変換およびエントロピー符号化を行って、このスケーラブルなビットストリームを生成する。
図19は、第3のスキームによる対応する3Dサブバンドデコーダ(1900)を示している。デコーダ(1900)は、埋込みベースレイヤデコーダ(1920)、ならびにこのベースレイヤデコーダ(1920)の後のアップサンプリングモジュール(1930)を含んでいる。
図15に示すデコーダ(1500)のように、このアップサンプリングモジュール(1930)は、オプションである。このアップサンプリングモジュールは、埋込みデコーダ(1920)によって復号化されるビデオが、ダウンストリームの逆時間変換レベルによって使用される時間サブバンドフレームよりも低い空間分解能を有するときに、使用される。そうでない場合には、アップサンプリングモジュール(1930)は、スキップすることができる。
図19における破線長方形は、4レベルの逆時間分解の前のベースレイヤデコーダ(1920)に関連するオペレーションを取り囲んでいる。他のベースレイヤデコーダのように、この低いベースレイヤフレームレートで(場合によっては)低空間分解能を有するビデオは、ベースレイヤデコーダ(1920)を用いて直接に復号化し、出力することができる。
そうでない場合には、デコーダ(1900)は、このデコーダ(1900)がこのビデオを再構成するために使用することになるスケーラブルなビットストリームからのサブバンド(例えば、t−H、t−H、t−H、t−H、およびt−L’)のうちのどれであれエントロピー復号化および逆空間分解を行う。
埋込みデコーダ(1920)は、このベースレイヤ分解能でエンコードされたビデオについてのベースレイヤビットストリーム(1995)を受け取る。この適切な復号化オペレーションを使用して、埋込みデコーダ(1920)は、ベースレイヤビットストリーム(1995)中のこの圧縮されダウンサンプルされたサブバンドts−LLを復号化し、このサブバンドの再構成バージョンts−LL’を生成する。アップサンプリングモジュール(1930)は、何らかのフィルタリングメカニズムを使用してベースレイヤデコーダ(1920)からこの再構成されたサブバンドts−LL’をアップサンプルし、時間サブバンドt−Lの再構成バージョンt−L’を生成する。
デコーダ(1900)は、このアップサンプルされたベースレイヤ出力t−L’のこれらの時間的に対応する(例えば、同じ時刻の)フレームにこの残差サブバンドt−L’を加える。これにより、時間ローパスサブバンドt−Lの再構成バージョンが生成され、これが第4レベルの逆時間分解に入力される。
デコーダ(1900)は、第3レベルおよび第4レベルの逆時間分解を行って、この再構成されたt−Hサブバンド、t−Hサブバンド、およびt−Lサブバンド、ならびに関連する動き情報から時間サブバンドt−Lを再構成する。この第3および第4の逆時間変換では、デコーダ(1900)は、時間ハイパスサブバンドt−Hおよびt−Hについての動き補償予測を計算する。この時間サブバンドt−Lは、第4レベルの時間変換におけるMCPについての再構成されたリファレンスフレーム(例えば、t−Lの再構成された偶数フレーム)を有し、時間サブバンドt−Lは、第3レベルの時間変換におけるMCPについての再構成されたリファレンスフレーム(例えば、t−Lの再構成された偶数フレーム)を有する。アップサンプルされ、再構成されたサブバンドt−L’における時間的に対応する(例えば、同じ時刻の)ピクチャは、この第3レベルおよび第4レベルの逆時間変換におけるMCPについての追加のリファレンスフレームとしての役割を果たすことができる。
B.ベースレイヤ情報の追加的使用例
後方互換性を提供し、低ビットレートビデオについてのレート歪みの点での圧縮効率を改善することを別として、ベースレイヤからの出力は、追加の使用を有することができる。
1.ベースレイヤからの動きベクトルの再利用
リフティングベースのMCTFを用いた3Dサブバンド符号化において、このMCPステップについての動きベクトルは、動き推定によって得られる。いくつかの実装形態においては、この動き推定プロセスは、MPEG2、H.264/AVCなど既存のビデオ規格に準拠したエンコーダについての従来の動き推定に類似している。さらに、ハールおよび5/3時間変換は、従来のP−ピクチャおよびB−ピクチャの動き補償プロセスにそれぞれ類似している。
MPEG2、MPEG−4、H.264/AVCなど既存の規格と互換性のあるベースレイヤコーデックでは、インターピクチャ(P−ピクチャまたはB−ピクチャ)についてのインター圧縮を使用して符号化されたブロックは、通常、関連する動き情報を有している。一方では、3Dサブバンド符号化において、このベースレイヤコーデックからダウンストリームの時間分解のレベル(例えば、図14、16、および18における第3レベルおよび第4レベル)におけるハイパスサブバンドは、このベースレイヤ出力において時間的に対応するピクチャを見出すことができる。(特に第3のスキームによる)多くのケースでは、かかるハイパスサブバンドについての動き情報と、このベースレイヤ中の時間的に対応するピクチャ間の動き情報との間には高い類似性が存在する。この相関関係に基づいて、エンコーダおよび/またはデコーダは、いくつかの目的のためにこのベースレイヤコーデックからの動きベクトルを再利用することができる。
ベースレイヤ動きベクトルの追加の使用の一例においては、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、時間的に対応するハイパスサブバンドフレームについてのブロックについての実際の動きベクトルとしてベースレイヤ動きベクトルを単に使用している。(このベースレイヤフレームおよびハイパスサブバンドフレームが異なる空間分解能を有するときには、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、それに応じてベースレイヤ動きベクトルをスケールすることができる。)特に、この3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、低ビットレートにおいてこの目的のためにベースレイヤ動きベクトルを使用する。このベースレイヤ動きベクトルがこのベースレイヤビットストリームの一部として既に通知されているので、当然これによって、動き情報についてのオーバーヘッドが減少する。多くのケースでは、動き予測精度の損失の点でのペナルティは、わずかである。
ベースレイヤ動きベクトルの追加使用の別の例においては、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、動きベクトル予測中に、ベースレイヤコーデックからの動きベクトルを使用する。従来の動きベクトルの符号化および復号化の一部として、動きベクトル予測は、現在の動きベクトルの値についての予測を提供する。次いで、この現在の動きベクトルは、この予測された動きベクトルに対する差分として表現し、通知することができる。エンコーダもデコーダも、近隣のブロックの以前に再構成された動きベクトルから現在の動きベクトルについての予測された動きベクトルを選択し、導き出す。
いくつかの実施形態においては、時間ハイパスサブバンドの1ブロックについての現在の動きベクトルについての予測された動きベクトルを選択し導き出すときに、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、時間的に対応するベースレイヤフレームの空間的に対応するブロックからの動きベクトルを使用する。例えば、この3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、この予測された動きベクトルとしてベースレイヤからの動きベクトルを使用する。または、この3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、この予測された動きベクトルが選択される候補として(例えば、これらの候補のうちの中央値として)ベースレイヤからの動きベクトルを使用する。
ベースレイヤ動きベクトルの追加の使用のさらに他の例において、3Dサブバンドエンコーダは、ベースレイヤ動きベクトルを使用して動き推定をスピードアップする。例えば、このサブバンドエンコーダは、動き推定の初期にこの対応するベースレイヤ動きベクトルを考慮し、適切な現在の動きベクトルをより速やかに見出す。
同様に、この3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、このベースレイヤからの動きモード(例えば、ブロックパーティション、方向)情報を再利用することができる。いくつかのケースでは、時間的に対応するハイパスサブバンドフレームのブロックについての実際のモード情報としてベースレイヤモード情報を使用することができる。または、このベースレイヤモード情報は、モード情報の予測のために、または動き推定をスピードアップするために使用することができる。
図21ないし23は、このベースレイヤからの動き情報が、ベースレイヤの後の時間分解における時間ハイパスサブバンドにとって特に有用となる様々な符号化構造(フレームタイプのパターン)を示している。図21において、このベースレイヤの符号化構造は、3Dサブバンド符号化についての共通の構造に適応的に調整される。3枚のB−ピクチャは、2枚のI−またはP−ピクチャの間に挿入され、(H.264/AVCにおいて使用される格納されたB−ピクチャのような)第2のB−ピクチャが、この第1および第3のB−ピクチャについてのリファレンスとして使用される。このようにして、このベースレイヤ中のB−ピクチャの動きベクトルは、3Dサブバンド符号化において、時間的に対応するハイパスサブバンドフレームのために非常に自然に再利用することができる。
このベースレイヤコーデックについてのある種の既存の規格との互換性を確保するために、図22のフレームワークは、このベースレイヤについての従来の符号化構造を使用するが、3Dサブバンド符号化についてのフレームタイプのパターンを調整する。3枚のB−ピクチャが、このベースレイヤ中の2枚のI/P−ピクチャ間に挿入されるが、この3枚のB−ピクチャは、リファレンスとしてこれらのI/P−ピクチャだけしか取らない(動き補償リファレンスとしてB−ピクチャを取らない)。3Dサブバンド符号化スキームにおいて、このパターンは、2つのローパスサブバンド間で生成される3つのハイパスサブバンドを含んでいる。
図23は、一般のパターンを示している。このベースレイヤにおいて、3Dサブバンド符号化におけるハイパスサブバンドに時間的に対応するピクチャは、B−またはP−ピクチャを用いて符号化される。図21および22に示すパターンは、5/3時間分解に適しているのに対して、図23に示すパターンは、(P−ピクチャおよびB−ピクチャの関連にそれぞれ対応する)ハール時間分解および5/3時間分解に適応的に使用することができる。
2.ベースレイヤからのイントラ領域の予測
ビデオシーケンスにおいて閉塞または不規則な動きが存在するとき、動き推定は、時間ハイパスサブバンドにおけるいくつかのブロックについてあまりマッチしないブロックしか見出すことができない。イントラ符号化モードが有効にされないときには、これらのケースについての強制インター予測が、符号化パフォーマンスを悪化させ、視覚品質に悪影響を及ぼすことがある。
H.264/AVC規格において、イントラ予測技法は、MCPが機能しなくなるケースに対処する。イントラ予測においては、現在のブロックについての予測値は、近隣の再構成されたピクセルから空間予測によって得られる。しかし、オープンループMCTF構造を有する3Dサブバンド符号化においては、かかる空間予測は、ミスマッチおよびエラードリフトを導入する傾向にある。
前述の第1および第2の埋込みベースレイヤ符号化スキームにおいては、ベースレイヤの符号化および復号化を終了した後に、3Dサブバンド符号化についてのさらなる時間分解が差分情報に関して行われる。(図14において、例えば、この差分情報は、この入力時間サブバンドt−Lと、このベースレイヤコーデックからの出力ts−LL’のアップサンプルされたバージョンt−L’との間の残差である。)通常、この差分は、高周波数エネルギーしか有さず、その空間冗長度は低い。それゆえ、ブロックが、このベースレイヤコーデック中においてイントラモードで符号化されるとき、この3Dサブバンド符号化における後の時間分解におけるイントラ予測は通常、不必要に行われる。これは、符号化パフォーマンスおよび視覚品質を改善しつつ、オープンループ3Dサブバンド符号化におけるイントラ予測に関連するミスマッチの問題を回避する助けとなる。
他方、前述の第3の埋込みベースレイヤ符号化スキームにおいては、3Dサブバンド符号化についてのさらなる時間分解は、差分情報に関して行われない。しかし、この第3のスキームにおいては、このベースレイヤコーデックの出力は、候補リファレンスピクチャを提供することができ、この候補リファレンスピクチャは、空間イントラ予測を使用して符号化されたブロックを含むことができる。このベースレイヤ出力からのリファレンスピクチャのイントラ符号化ブロックに対して動き補償を行うことは、MCTFにおけるMCPが、そうでなければあまりマッチしないブロックしか見出せない状況に対処する助けとなることができる。このベースレイヤ出力からのリファレンスピクチャはまた、後の3Dサブバンド符号化におけるローパスサブバンドについての予測値として使用することもできる。3Dサブバンドエンコーダは、このベースレイヤからのイントラモード情報を使用して、後のMCP、または他の予測についてこのベースレイヤ出力からのリファレンスピクチャをいつ使用すべきかを決定することができる。
3.さらなる時間分解についての動き推定
純粋な3Dサブバンド符号化において、また前述の第3のスキームによる埋込みベースレイヤコーデックを用いた3Dサブバンド符号化において、動き推定が元のローパスサブバンド上で行われて、より高レベルのハイパスサブバンドおよび動き情報を得る。かかる動き推定では、動き情報を符号化するコストに対する残差情報を符号化するコストを重み付けする「ラムダ」パラメータなど、多くの従来の動き推定パラメータが効果的に組み込まれる。
しかし、前述の第1および第2のスキームによる埋込みベースレイヤコーデックを用いた3Dサブバンド符号化では、さらなる時間分解についての動き推定が、差分情報に関して行われる。このように、この動き推定は、従来の動き推定パラメータを適応させ、さらなる時間分解における近隣のフレーム間の時間冗長度を活用する。例えば、このエンコーダは、ラムダパラメータを調整して、時間分解に対する異なる入力を計算に入れる。
C.ベースレイヤコーデックまたはベースレイヤデコーダを使用するための技法例
図24は、埋込みベースレイヤコーデックによるスケーラブルなエンコーディングのための技法(2400)を示している。図25は、埋込みベースレイヤデコーダによるスケーラブルなデコーディングのための技法(2500)を示している。図14、16、または18を参照して説明したものなどの3Dサブバンドエンコーダは、図24に示す技法(2400)を行い、図15、17、または19を参照して説明したものなどの3Dサブバンドデコーダは、図25に示す技法(2500)を行う。あるいはまたは、別のエンコーダまたはデコーダが、これらの技法(2400、2500)を行う。
図24を参照すると、3Dサブバンドエンコーダは、サブバンド符号化を使用してこのビデオの1つまたは複数のレイヤをエンコードする(2410)。これは、ベースレイヤコーデックへの入力を生成する。例えば、この3Dサブバンドエンコーダは、1つまたは複数のレベルのMCTFを行い、時間ローパスサブバンドを生成して時間ハイパスサブバンドについての動き情報を見出し、このベースレイヤコーデックに対するベースフレームレートビデオ入力として使用する。あるいはまたは、3Dサブバンドエンコーダは、このステージにおいて他および/または追加のタイプのエンコーディングを行う。
この3Dサブバンドエンコーダは、このベースレイヤコーデックを用いてこのベースレイヤビデオをエンコードする(2430)。例えば、このベースレイヤコーデックは、H.264/AVC、MPEG−2、VC−1、またはWMV9コーデックであり、対応する圧縮ビデオビットストリームおよび再構成された出力ビデオを生成する。動き情報およびイントラモード情報は、この圧縮ビデオビットストリームの一部であり、この情報は、この3Dサブバンドエンコーダに対して他の何らかの形式で別に提供することができる。
次いで、この3Dサブバンドエンコーダは、このベースレイヤコーデックからの結果を使用してこのビデオについての1つまたは複数のレイヤをエンコードする(2450)。例えば、この3Dサブバンドエンコーダは、ベースレイヤ符号化および復号化の結果から計算された差分情報に関して1つまたは複数のレベルの時間分解を行う。または、この3Dサブバンドエンコーダは、このベースレイヤコーデックからの再構成されたビデオ中のリファレンスピクチャを使用して時間ローパスサブバンドに関して1つまたは複数のレベルの時間分解を行う。または、この3Dサブバンドエンコーダは、エンコーディングまたは時間分解中の決定に際して、動き情報および/またはイントラモード情報を使用する。あるいはまたは、この3Dサブバンドエンコーダは、後続のサブバンド符号化における他の何らかの方法でこのベースレイヤコーデックからの結果を使用し、またはこの後続のエンコーディング(2450)をスキップする。
このエンコーダは、この符号化プロセスを継続すべきか否かを判定し(2490)、継続すべき場合には、次のフレームを用いて継続する。
図25を参照すると、3Dサブバンドデコーダが、ベースレイヤデコーダを用いてこのベースレイヤビデオをデコードする(2530)。例えば、このベースレイヤデコーダは、H.264/AVC、MPEG−2、VC−1、またはWMV9デコーダであり、このデコーダは、対応する圧縮ビデオビットストリームをパースし、デコードし、そして再構成された出力ビデオを生成する。
この3Dサブバンドデコーダは、デコーディングのための分解能を決定する(2540)。この分解能は、ユーザレベル設定または他の何らかの設定に従って決定することもでき、このデコーダが実際にどれだけ多くの情報を(例えば、ただこのベースレイヤビデオだけ、または1つまたは複数の追加レイヤも)受け取るかに従って決定することができ、または他の何らかの方法で決定することができる。あるいはまたは、3Dサブバンドデコーダは、これらの復号化経路のうちのただ1つだけを有する。例えば、1つのデコーダは、1つのベースレイヤ経路を含むことができるが、別のデコーダは、ベースレイヤ+スケーラブルなレイヤ経路を含み、これらのそれぞれのデコーダのリソースを合わせる。
より高い分解能のビデオをデコードしない場合(判定2540の「no」の経路出力)、この3Dサブバンドデコーダは、ステージ(2590)で継続する。
そうでない場合には、この3Dサブバンドデコーダは、このベースレイヤ復号化からの結果を使用してこのビデオについての1つまたは複数の追加レイヤをデコードする(2550)。例えば、この3Dサブバンドデコーダは、差分情報に関して1つまたは複数のレベルの逆時間分解を行い、次いで、このベースレイヤ復号化の結果に対してこの再構成された差分情報を加える。または、この3Dサブバンドデコーダは、1つまたは複数のレベルの逆時間分解を行って、このベースレイヤデコーダからの再構成されたビデオ中のリファレンスピクチャを使用して時間ローパスサブバンドを再構成する。あるいはまたは、この3Dサブバンドデコーダは、後続のサブバンド復号化に際して他の何らかの方法でこのベースレイヤデコーダからの結果を使用する。
最後に、このデコーダは、この復号化プロセスを継続すべきか否かを判定し(2590)、継続すべき場合には、次のフレームを用いて継続する。
図24および25に示す様々なオペレーションは、分割し、他のオペレーションと組み合わせたり、または順序変更したりすることができる。
VI.SDMCTFエンコードされたビデオをデコードする際の空間スケーラビリティ
一般に、MCTFが3Dサブバンドビデオ符号化においていつ行われるかに応じてMCTFの2つのカテゴリが存在する。インバンドMCTF(「IBMCTF」)と呼ばれる第1のカテゴリにおいては、エンコーダは、まずビデオを空間的に分解し、次いでこのサブバンド/ウェーブレットドメインでMCTFを行う。次いで、このエンコーダは、さらなる空間分解を行うことができる。MCTF空間ドメインMCTF(「SDMCTF」)と呼ばれる第2のカテゴリにおいては、エンコーダは、空間分解の前にこの空間ドメイン中でMCTFを直接に行う。同様に、復号化中に、IMCTF空間ドメインIMCTF(「SDIMCTF」)またはIMCTFインバンドIMCTF(「IBIMCTF」)を行うことができる。
このように、SDMCTFを用いた3Dサブバンド符号化においては、この全体のビデオは、空間ドメインおよび後続の空間変換におけるいくつかの動き位置合わせ時間変換によって分解される。図5は、4レベルの(逆)時間変換と2レベルの(逆)空間変換を有し、デコーディングの際の空間スケーラビリティのない完全なエンコーディングおよびデコーディングスキームを示している。このデコーディングプロセスは、図5中においてまさしくエンコーディングの逆になっている。
一般に、IBMCTFのパフォーマンスは、ある特定のビットレートについての品質の点でSDMCTFスキームのパフォーマンスほど良好ではない。この理由のために、多くの3Dサブバンドエンコーダは、SDMCTFを使用している。しかし、いくつかのアプリケーションにおいては、デコーダは、より低い空間分解能バージョンのビデオ出力を生成する。例えば、CIF分解能(352×288ピクセル)の元のビデオでは、1レベルの空間スケーラビリティを用いてデコードするために、3Dサブバンドデコーダは、このデコードされたビデオのQCIFバージョン(176×144ピクセル)を生成する。このデコーダがより小さな画面デバイス(例えば、セルラビデオ電話)に関連する場合、またはこのデコーダが、信頼できない接続を介したより低い空間分解能サブバンド情報しか受け取らない場合には、これはこのケースに該当し得る。しかし、動き情報、リファレンスピクチャなどはフル空間分解能の点で表現されるので、ビデオ上のMCTFオペレーションが、空間ドメイン中で行われるときに、これらのシナリオは問題となる。
このセクションでは、より低い空間分解能での出力のためにSDMCTFエンコードされたビデオをデコードするときにおけるデコーディングパフォーマンスを改善するための様々なメカニズムについて説明している。いくつかの実施形態においては、例えば、3Dサブバンドビデオデコーダは、ある何らかの分解能(例えば、CIF)においてSDMCTFを使用してエンコードされたビデオを受け取るが、より低い分解能(例えばQCIF)の出力のためにこのビデオをデコードする。この3Dサブバンドデコーダは、いくつかの異なるメカニズムのいずれかを使用してデコーディングパフォーマンスを改善する。
A.SDMCTFビデオをデコードする際の簡単な空間スケーラビリティスキーム
図26は、SDMCTFエンコードされたビデオについての圧縮ビデオビットストリームからより低い空間分解能ビデオをデコードし、出力するための2つの簡単なスキーム(2600、2650)を示している。このより低い空間分解能ビデオは、フル空間分解能から、図26における1レベルの空間スケーラビリティだけ異なっている。
第1のスキーム(2600)は、直接の解決策を提供している。3Dサブバンドデコーダは、まず(CIFビデオとして示される)フル空間分解能ビデオを復元する。(この第2の逆空間変換についての空間ハイパス(「SH」)サブバンドがないという想定の下で、このデコーダは、この第2の逆空間変換においてSHサブバンドを空(SH=0)として取り扱う。)逆時間分解の後に、この3Dサブバンドデコーダは、(空間変換として示す)フィルタを用いてフル空間分解能ビデオを(QCIFとして示す)この出力分解能にまでダウンサンプルする。このデコーダは、SDIMCTFを行い、このデコーダは、中間ステップにおいて、CIFビデオをデコードするときに、多くの復号化リソース(例えば、計算リソース、リファレンスピクチャバッファ)を使用する。
他方、第2のスキーム(2650)において、3Dサブバンドデコーダは、IBIMCTFを行う。第2のスキーム(2650)は、低分解能ビデオをデコードするヒューリスティックな方法を示している。第1のスキーム(2600)と同様に、第2のスキーム(2650)は、エントロピー復号化および4レベルの逆時間変換を含んでいる。第2のスキーム(2650)は、事実上、第1のスキーム(2600)よりも1つ少ない逆空間変換を含んでいる。(第2のスキーム(2650)について示す第2の逆空間変換および後続の空間変換は、互いに打ち消し合い、省略することができる。)
第2のスキーム(2650)において、この3Dサブバンドデコーダは、基本的に空間ローパス(「SL」)サブバンド(第1の逆空間変換の出力)を元のビデオの全体として取り扱い、SLサブバンド分解能において逆時間変換を行う。これにより、空間スケーラビリティなしに復号化プロセスが近似され、これには計算上の複雑さが少なく、また(リファレンスピクチャなどについての)バッファ要件が低いという利点が存在する。さらに、このビデオの元の分解能および空間スケーラビリティは、デコーダに対して全くトランスペアレントにすることができる。スキーム(2650)のパフォーマンスは、低ビットレートで満足の行くものであるが、高ビットレートではそうではない。特に、ビットレートが増大するにつれて、たとえこのビットレートが非常に高いとしても、高品質の低空間分解能ビデオを再構成することは難しくなり、または不可能になる。
図26に示す2つの復号化スキーム(2600、2650)の間における違いは、このMCPおよびMCUステップがどのようにIMCTF中で行われるかにある。図27は、1レベルのIMCTFにおける2つのスキーム(2600、2650)についてのMCPを示している。特に、図27は、リファレンスピクチャにおける使用可能なSLサブバンド情報(SHサブバンド情報もそうではない)からの予測ステップにおけるSLリフティング信号の生成を示している。
このSDIMCTFでは、このSLリフティング信号は、以下のように生成される。
Figure 2006060790
ここで、INTPSDは、リファレンスピクチャ情報についての空間ドメインにおけるピクセル上の補間を示し、MCPSDは、この空間ドメインにおけるMCPを示す。DWTは、線形オペレーションであり、以下のようになる。
DWT(F+F)=DWT(F)+DWT(F) (10)
SL分解能バッファを使用してこの中間結果を保持するために、このDWTは、この空間ドメイン予測をこのSLドメイン中の予測にまで低減する。
IBIMCTFでは、このSLリフティング信号は、以下のように生成される。
Figure 2006060790
ここで、INTPSLは、リファレンスピクチャ情報についてのSLドメインにおけるピクセル上の補間を示し、MCPSLは、このSLドメインにおけるMCPを示す。簡単のために、同じ補間フィルタが、INTPSDおよびINTPSLについて使用される。
B.理論的分析
様々なファクタにより、SDMCTFエンコードされたビデオの3Dサブバンド復号化における空間スケーラビリティによる問題がもたらされる。1つのファクタは、このSLドメインにおける補間および動き補償の非効率性である。他のファクタは、(エンコーディングにおけるMCTFの位置と比較した)IMCTFの位置である。さらに他のファクタは、動き補償によって引き起こされるサブバンドにまたがるパワースペクトルリークである。
これらのファクタを別として、様々なエンコーディング/デコーディング機能が、エンコーダにおけるSDMCTFと、デコーダにおけるIBIMCTFとの間のミスマッチをもたらす可能性がある。かかる2つの機能は、動きベクトルスケーリングおよびOBMCである。このセクションでは、簡単のために、動きベクトルの精度が、IBIMCTFにおいては変更されず、動き補償のために使用されるサブピクセル補間は、IBIMCTF中にこの動き情報を活用するのに十分に良いと仮定する。この場合も簡単のために、OBMCが無効にされ、MCPオペレーションは、この適用可能な動きベクトルだけによる簡単なピクセルフェッチ化オペレーションであると仮定する。これらの簡単化した仮定を用いたとしても、この先行する段落にリストアップしたファクタが、IBIMCTFのパフォーマンスを低下させることがある。
1.補間
(バイリニアフィルタや8タップのシンクフィルタなどの)同じ補間フィルタが空間ドメイン補間とSLドメイン補間との両方について使用されるときでも、フレーム中の同じ位置におけるある所与の部分ピクセルは、これら2つのオペレーションの異なるスケールに起因して異なるセットのピクセルから補間される。これは、これらのサブピクセル補間されたリファレンスピクチャの間のミスマッチを生じる。
このSLドメイン中の補間は、別の理由のために最適でないことがある。ウェーブレット変換の間引き態様に起因して、この空間LLバンドだけでは、元のビデオの全体のローパス信号の完全な表現ではない。すなわち、そのハイパス信号を考慮することなく、またはそのハイパス信号がいつ存在しないとき、このローパス信号の一部が、フェーズ位置の半分において失われる。この間引きの1つの帰結が、空間LLバンドのシフト変動プロパティである。LLバンドの非完全性に起因して、補間されたローパスフレームを得るときに、(オペレーション(12)に示すように)このLLバンド中において直接に補間を行うことが、最適でないことがある。
Figure 2006060790
Figure 2006060790
および
Figure 2006060790
代替案は、オーバコンプリートウェーブレット表現への変換を介してハーフピクセル補間を行うことである。SLサブバンドからのオーバコンプリート表現は、コンプリートツーオーバコンプリートDWT(図示せず)、または逆DWTおよびDWTオーバコンプリートDWT(「OCDWT」)(オペレーション13に示す)によって生成することができる。このIDWTとOCDWTを加えた組合せは、1レベルの補間としての役割を果たす。これら残りのレベルの補間は、オペレーション(13)においてINTPOC−LLとして示す、オーバコンプリートウェーブレットドメインにおける従来の補間を用いて行うことができる。
従来のオーバコンプリートウェーブレット表現への変換は、SLドメイン中におけるハーフピクセル補間しか提供しない。SLドメイン中におけるクォータピクセル動きベクトル精度またはより繊細な動きをサポートするために、このデコーダは、連続フェーズオーバコンプリートウェーブレット変換(「CPOCWT」)を使用することができる。このSLサブバンドにおけるクォータピクセル位置では、このデコーダは、オペレーション(14)に示すように空間ドメイン中で補間を行う。次いで、補間されたフレームのローパスサブバンドがDWTによって得られる。DWTは、スケールの影響を受けやすいオペレーションである。このエンコーダにおいてこのDWTをマッチさせるために、このデコーダは、この補間フレーム中のm−サンプルされたピクセル上でこのOCDWTを行い、ここで、mxmは、このOCDWTの前の空間ドメイン補間のファクタである。オペレーション(14)において、DSDWTは、この空間ドメイン補間されたフレームを多くのサブフレームへとダウンサンプルすること、これらのそれぞれのサブフレーム上でOCDWTを行うこと、およびこの得られた係数をインターリーブし戻すことを表す。このように、DSDWTは、1種のOCDWTである。
オペレーション(12)ないし(14)のそれぞれに従って、このデコーダは、mxmリファレンスピクチャ上でこのSLドメインにおける動き補償予測を行う。
2.DWTとMCPの位置交換
IBIMCTFでは、たとえインバンド補間が、(14)におけるような空間ドメイン補間で置き換えられたとしても、MCPについてのリファレンスピクチャは、依然としてローパスフレームである(このMCPは、このウェーブレットドメインで行われる)。このエンコーダと比較して、このDWTおよびMCPのこの予想される順序が、交換される(ここでは、このエンコーダ中において、MCPは、DWTに先行している)。しかし、DWTおよびMCPオペレーションは、DWTのシフト変動プロパティに起因して蓄積可能ではない。
DWT(MCPSD(FSD))≠MCPSL(DWT(FSD) (15)、および
IDWT(MCPSL(FSL))≠MCPSD(IDWT(FSL)) (16)。
簡単のために、MCPが簡単なブロックベースの動きシフトオペレーションを伴う仮定すると、式(15)は、以下のように示すことができる。現在のフレームが、ブロックB={B|i=1,...,m}に分割され、これらのブロックについての動きベクトルが、MV={mv|i=1,...,m}であると仮定する。
ref は、このリファレンスフレームFrefの新しいバージョンであり、ここでブロックBによって参照されるピクセルだけが保持され、他のピクセルはゼロに設定される。
Figure 2006060790
(18)における第1の不等式は、DWTのシフト変動プロパティに起因している。(18)における第2の不等式は、動きが非常に複雑なときのMCPにおける動きシフト中の重複および露出に起因している。
可能な解決策は、オペレーション(19)に示すようにDWTより前に、この空間ドメインにこのMCPを移動することである。この場合には、このMCPは、SDIMCTFの一部である。
Figure 2006060790
3.動きシフトによるパワースペクトルリーク
3Dウェーブレット符号化において、空間−時間サブバンドは通常、独立しているものと仮定している。多くのアプリケーションにおいて、空間−時間サブバンドは、意のままに落とされ、特にハイパスサブバンドについては、そうである。しかし、MCTFを伴う3Dサブバンド符号化において、近隣のフレームのローパスサブバンドおよびハイパスサブバンドは、動きシフトによって導入されるパワースペクトルリークに起因した類似性を有する。
1つの空間サブバンド中の信号を収容するだけのフレームが動きに従ってシフトされるとき、この信号の一部は、他の空間サブバンドへと移動することになる。図28は、簡単なグローバルな動きについての現象を示している。図28の第1行においては、元のフレームOrgが、2つの部分、すなわちSL信号AとSH信号Bとに分割される。第2行においては、このSL信号Aを収容するだけのフレームが、簡単なイメージドメイン動きシフト(「IMS」)を用いてこの空間ドメイン中でシフトされ、このシフトされたフレームは、今やSH信号を収容する。同様に、図28の第3行においては、このSH信号Bを収容するだけのフレームが、この空間ドメイン中でシフトされ、このシフトされたフレームは、今やSL信号を収容する。動きが複雑なときには、スペクトルリーク問題は、より深刻になる。
このように、SL情報を使用して、IMCTFではなく、エンコーダ中のSDMCTFにより、リファレンスフレームのSLコンポーネントは、これらのフレームのSHコンポーネントの一部を予測する。それゆえ、たとえデコーダが、最初にSLサブバンド情報しか有していないとしても、このデコーダは、IMCTFの各レベルの中間結果中に、意味のあるSHサブバンド情報を得る。しかし、このデコーダが、SL分解能バッファを使用してIMCTFのレベル間に中間結果を保持するとき、このデコーダは、IMCTFの次のレベルにおけるMCPに有用であった可能性のあるSHサブバンド情報を落とす。
さらに、リファレンスフレームのSHコンポーネントは、これらのフレームのSLコンポーネントの一部を予測する。これらのSLコンポーネントを符号化するために、エンコーダは、リファレンスフレーム中のSHサブバンド情報を活用することができる。このデコーダが、これらのSHコンポーネントにアクセスすることができないとき、SHサブバンドの不在が、ある種のドリフトをもたらす。(例えば、このエンコーダが、(SH情報を含む)フル分解能フレームからのMCPを行うが、このデコーダは、SL情報しか有していないとき。)この帰結は、PSNRの頭打ちである(このPSNR曲線は、比較的低ビットレートのところで、水平に向きを変える)。
C.空間スケーラビリティを有するSDMCTFエンコードされたビデオをデコードするための改善されたスキームの例
いくつかの実施形態においては、3Dサブバンドデコーダは、いくつかの技法のいずれかを使用して、より低い空間分解能出力のためにSDMCTFエンコードされたビデオをデコードするときにおける復号化パフォーマンスを改善する。これらの技法は、復号化パフォーマンスをステップバイステップで改善し、大抵の場合、このエンコーダおよび伝送されたビットストリームに対して何の変更も必要としない。集約すると、これらの技法は、柔軟な復号化スキームに様々な複雑さのレベルの様々なオプションを提供する。
いくつかのスキームにおいては、デコーダは、復号化に追加のリソースを割り当てる。一般に、このデコーダは、追加の計算リソースが復号化に向けられるときに良好なビデオを再構成する。さらに、このデコーダは、追加のバッファリソースがリファレンスピクチャ情報を格納することに向けられるときに、良好なビデオを再構成する。
または、エンコーダまたはデコーダは、SLビデオの復号化のためにSHサブバンド情報を強調する。例えば、SHサブバンド情報をIMCTF決定中に組み入れるために、このデコーダがSL分解能ビデオを再構成しているにすぎないときでさえ、ビットストリーム抽出機構が、これらを完全に落とす代わりに、SH係数に帯域幅を割り当てる。
このセクションにおける様々な図(すなわち、図29ないし34)は、1レベルの空間スケーラビリティを示している。あるいはまたは、3Dサブバンドデコーダが、複数レベルの空間スケーラビリティについてのビデオを出力する。同じ線に沿って、このセクション中の様々な図は、CIF分解能で、MCTFを用いてエンコードされた元のビデオについてQCIFビデオを出力する3Dサブバンドデコーダを示している。本明細書に記載の技法およびツールは、CIF分解能およびQCIF分解能での使用に限定されない。
このセクション中の図面の多くでは、動きベクトルは、元の分解能ではハーフピクセル精度を有し、SL分解能ではクォータピクセル精度を有する。これは、サブピクセル補間などのオペレーションに影響を及ぼす。あるいはまたは、これらの動きベクトルが、他の精度を有し、このデコーダが、それに応じて多少ともサブピクセル補間を行う。さらに、このセクション中のいくつかの図面は、補間についてのシンクフィルタを示しているが、代わりにデコーダが、別のタイプのフィルタ(例えば、バイリニア、バイキュービック)を使用する。
最後に、このセクション中の様々な図面は、ダイアディックのDWTオペレーションおよびIDWTオペレーションを示している。あるいはまたは、デコーダが、空間変換および逆空間変換についての他のオペレーションを使用する。
1.スキームA:IBIMCTF(ベースライン)
後のスキームとの比較のために、図29は、復号化中に専用の追加の計算リソースまたはバッファリソースなしのIBIMCTFを示している。図29におけるスキームは、図26のIBIMCTFデコーダ(2650)中における1レベルのIMCTFに対応する。図29に示すオペレーションは、このウェーブレットドメイン中で行われる。
図29によれば、3Dサブバンドデコーダは、SLバッファ(2910)を使用して、リファレンスピクチャ情報としての使用のためのSLサブバンド情報を格納する。このSLサブバンド情報の効果的な分解能はQCIFである。
このデコーダは、4×4のシンクフィルタを使用してサブピクセル補間(2920)を行う。(このSLドメイン中におけるMCPについての動きベクトル精度は、クォータピクセル精度である。)これは、サブピクセル補間されたリファレンスフレーム(2930)を生成する。この補間されたリファレンスフレームの効果的な分解能は、4CIF(704×576ピクセル)である。
このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム(2930)を使用してこのSLドメイン中でMCP(2940)を行う。このMCPSL(2940)は、このSLドメイン中で予測(2950)を生成する。この場合にも、この予測(2950)の実効的な分解能は、QCIFである。
2.スキームB:最適化されたIBIMCTF
第2タイプのスキームにおいて、3Dサブバンドデコーダは、補間オペレーションおよび/またはMCPオペレーションをこの空間ドメイン中に移動することによってIMCTFを改善する。このデコーダは、リファレンスピクチャ情報についてのSL分解能バッファをやはり使用する。図30は、この逆時間変換が最適化された逆時間変換OT −1として示されるこの第2タイプのスキームについての一般化されたフレームワークを示している。図31、32、および33は、この第2タイプのスキームの様々なバリエーションによる1レベルのIMCTFの例を示している。
a.スキームB1
図31に示すスキーム(スキームB1)によれば、3Dサブバンドデコーダは、SLバッファ(3110)を使用して、リファレンスピクチャ情報としての使用のためのSLサブバンド情報を格納する。このデコーダは、このバッファされたSLサブバンド情報を使用して、IDWTオペレーション(3120)を行う。このSHサブバンドは、IDWTオペレーション(3120)において、空(SH=0)として得られる。このIDWTオペレーション(3120)は、このようにこのSLサブバンド情報からリファレンスフレーム(3130)を生成する。このSLサブバンドの実効的な分解能がQCIFであるときに、このリファレンスフレーム(3130)の実効的な分解能はCIFである。
次いでこのデコーダは、このリファレンスフレーム(3130)上でOCDWT(3140)を実行し、オーバコンプリート表現(3150)を生成する。あるいはまたは、このデコーダは、IDWT(3120)およびOCDWT(3140)ではなくてコンプリートツーオーバコンプリートDWTを行う。どちらにしても、オーバコンプリート表現(3150)は、ハーフピクセルMCPに適したフェーズシフト値を含んでいる。
クォータピクセルMCPについての準備では、次いでこのデコーダは、2×2のシンクフィルタを使用して、サブピクセル補間(3160)を行う。これは、サブピクセル補間されたリファレンスフレーム(3170)を生成する。この補間されたリファレンスフレーム(3170)の実効的な分解能は4CIFである。
このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム(3170)を使用して、このSLドメイン中でMCP(3180)を行う。このMCPSL(3180)は、このSLドメイン中で予測(3190)を生成する。この場合にも、この予測(3190)の実効的な分解能は、QCIFである。
b.スキームB2
図32に示すスキーム(スキームB2)によれば、3Dサブバンドデコーダは、SLバッファ(3210)を使用して、リファレンスピクチャ情報として使用するためのSLサブバンド情報を格納する。このデコーダは、このバッファされたSLサブバンド情報を使用して、IDWTオペレーション(3220)を行う。このSHサブバンドは、IDWTオペレーション(3220)において空(SH=0)として得られる。このIDWTオペレーション(3220)は、このようにしてこのSLサブバンド情報からリファレンスフレーム(3230)を生成する。このSLサブバンドの実効的な分解能がQCIFであるときには、このリファレンスフレーム(3230)の実効的な分解能は、CIFである。
このデコーダは、2×2のシンクフィルタを使用して、サブピクセル補間(3240)を行う。これにより、分解能が水平方向および垂直方向に2のファクタだけ増大されたサブピクセル補間されたリファレンスフレーム(3250)が生成される。この補間されたリファレンスフレーム(3250)の効果的な分解能は、4CIFである。
次いで、このデコーダは、この補間されたリファレンスフレーム(3250)上でDSDWT(3260)オペレーションを行う。これにより、このリファレンスフレーム情報のオーバコンプリート表現(3270)が生成される。このオーバコンプリート表現(3270)は、クォータピクセルMCPに適したフェーズシフト値を含んでいる。
このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム(3270)を使用して、このSLドメイン中でMCP(3280)を実行する。このMCPSL(3280)は、このSLドメイン中で予測(3290)を生成する。この場合にも、この予測(3290)の実効的な分解能は、QCIFである。
c.スキームB3
図33に示すスキーム(スキームB3)によれば、3Dサブバンドデコーダは、SLバッファ(3310)を使用して、リファレンスピクチャ情報として使用するためのSLサブバンド情報を格納する。このデコーダは、このバッファされたSLサブバンド情報を使用して、IDWTオペレーション(3320)を行う。このSHサブバンドは、このIDWTオペレーション(3320)において空(SH=0)として得られる。IDWTオペレーション(3320)は、このようにしてこのSLサブバンド情報からリファレンスフレーム(3330)を生成する。SLサブバンドの実効的な分解能がQCIFであるときには、このリファレンスフレーム(3330)の実効的な分解能は、CIFである。
このデコーダは、2×2のシンクフィルタを使用して、サブピクセル補間(3340)を行う。これにより、分解能が水平方向および垂直方向に2のファクタだけ増大されたサブピクセル補間されたリファレンスフレーム(3350)が生成される。この補間されたリファレンスフレーム(3350)の実効的な分解能は、4CIFである。
このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム(3350)を使用して、この空間ドメイン中でMCP(3360)を行う。(ハーフピクセル精度動きベクトルを有する)MCPSD(3360)は、この空間ドメイン中で予測(3370)を生成する。このケースでは、予測(3370)の実効的な分解能は、CIFである。
このデコーダは、この予測3370上でDWTオペレーション(3380)を行い、この予測(3370)のより低い空間分解能バージョン(3390)を生成する。より低い空間分解能予測(3390)の実効的な分解能は、QCIFである。
3.スキームC:SDIMCTF
図34は、復号化中に専用の追加の計算リソースおよびバッファリソースを有するSDIMCTFを示している。図34中のこのスキームは、図26のSDIMCTFデコーダ(2600)における1レベルのIMCTFに対応する。図34に示すこれらのオペレーションは、この空間ドメイン中で行われる。スキームB3と比較して、スキームCにおけるリファレンスピクチャバッファは、SDバッファであり、このデコーダは、IMCTFのレベルごとにIDWTオペレーションおよびDWTオペレーションを行わない。このように、中間結果におけるSH情報は、後のSDIMCTFにおいて使用するために保持される。
スキームCによれば、3Dサブバンドデコーダは、SDバッファ(3410)を使用して、リファレンスピクチャ情報として使用するための空間ドメイン情報を格納する。この第1の逆時間変換では、最後の逆空間変換は、SLサブバンド情報からSDバッファ(3410)中にこの情報を生成する。後続の逆時間変換では、SDバッファ(3410)中の情報は、先の逆時間変換から保持され、SDバッファ(3410)中の情報は、パワースペクトルリークに起因して生成されるSH情報を含むことができる。SDバッファ(3410)中のこの情報の実効的な分解能は、CIFである。
このデコーダは、2×2のシンクフィルタを使用して、サブピクセル補間(3420)を行う。これにより、分解能が水平方向および垂直方向に2のファクタだけ増大されたサブピクセル補間されたリファレンスフレーム(3430)が生成される。この補間されたリファレンスフレーム(3430)の実効的な分解能は、4CIFである。
このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム(3430)を使用して、この空間ドメイン中でMCP(3440)を行う。(ハーフピクセル精度動きベクトルを有する)MCPSD(3440)は、この空間ドメイン中で予測(3450)を生成する。このケースでは、予測(3450)の実効的な分解能は、CIFである。
4.スキームD:SH係数を有するSDIMCTF
SHドリフト問題を取り扱うために、帯域幅が、ビットストリーム抽出機構中のSH係数に対して割り当てられる。これは、SL分解能ビデオ出力のために復号化するときに、SHサブバンド情報が単に落とされることに従う従来の空間スケーラビリティとは異なっている。
SH係数についての最適レートを決定するために、低空間分解能ビデオの歪みを低下させることに対するこのSH係数の寄与が測定される。(対照的に、従来の空間スケーラビリティの実行では、この全体の元の空間分解能ビデオの歪みを低下させることに対するこのSH係数の寄与が測定される。)換言すれば、低空間分解能ビデオだけが出力されるときでさえ、SHサブバンドについての利得ファクタをSLビデオにおける歪みを低下させる際にこのSHサブバンドの利点(例えば、改善された動き補償予測精度)を計算に入れるよう考慮する。このようにして、このSHサブバンド情報は、SLビデオの復号化にキャリーフォワードされる可能性がより高い。
スキームDにおいては、まるでこのデコーダが元の分解能のビデオを抽出していたかのように、SHサブバンドについての現在の利得ファクタが、SLビデオを復号化するときに使用される。SLサブバンドとSHサブバンドの両方の係数を、最終的なビットストリーム中に含めることが許される。あるいはまたは、元の空間分解能復号化およびSL復号化についてのSHサブバンドについて異なる利得ファクタが計算される。
スキームDにおいては、3Dサブバンドデコーダは、SLビデオを復号化するときに、1レベルのIMCTFについて図34に示す復号化フレームワークを使用する。このリファレンスピクチャバッファ(3410)は、SDバッファである。第1の逆時間変換では、たとえこの最後の出力ビデオが、事実上SL分解能しか有さないことになるとしても、このSDバッファは、SLサブバンド情報および(少なくとも何らかの)SHサブバンド情報を使用して再構成されるリファレンスピクチャ情報を含んでいる。中間結果におけるSH情報はまた、後のSDIMCTFにおいて使用するために保持される。
このデコーダは、2×2のシンクフィルタを使用して、サブピクセル補間(3420)を行う。これにより、分解能が水平方向および垂直方向に2のファクタだけ増大されたサブピクセル補間されたリファレンスフレーム(3430)が生成される。このデコーダは、リファレンスピクチャ情報についての補間されたリファレンスフレーム(3430)を使用して、この空間ドメイン中でMCP(3440)を行う。(ハーフピクセル精度動きベクトルを有する)MCPSD(3440)は、この空間ドメイン中で予測(3450)を生成する。
5.比較
以下のテーブルは、スキームA、B1、B2、B3、CおよびDの特徴を比較したものである。
Figure 2006060790
あるいはまたは、このデコーダは、空間ドメイン補間、空間ドメイン動き補償、空間ドメインリファレンスピクチャバッファ、および/またはSH情報の使用の他の何らかの組合せを使用して、より低い空間分解能出力についてのSDMCTFエンコードされたビデオを復号化するときに復号化パフォーマンスを改善する。
VI.連続フェーズオーバコンプリートサブバンド変換
IBMCTFおよびIBIMCTFに伴う1つの問題は、動き推定および動き補償に関するウェーブレット変換のシフト変動性の影響をいかにして低下させるかというものである(このイメージドメインにおけるシフト/動きは、この変換ドメインに直接にマップしない)。いくつかの技法では、整数のピクセル動きをこの変換ドメインにマップする(例えば、非特許文献4、非特許文献5参照)。このセクションでは、この変換ドメインにおいて分数のピクセル動きをフェーズ変化にマップするための技法について説明する。そうすることによって、動き推定および補償をより精度良くで行うことができ、これは、符号化パフォーマンスにかなり影響を及ぼすことがある。
このセクションでは、1レベルの1次元のウェーブレット変換の一例と共に連続フェーズオーバコンプリートサブバンド変換(「CPOST」)について示す。p−ピクセルのCPOSTの分解プロセスは、4つのシーケンシャルステージ:すなわち(1)p−ピクセル補間、(2)連続シフティング、(3)ダウンサンプリング、および(4)ウェーブレット変換を有する。
(p=1、1/2、1/4、1/8、...)についての連続的なp−ピクセルフェーズオーバコンプリート変換を考える。p=1のときに、CPOSTは、整数のピクセルフェーズオーバコンプリートケースとなる。pの他の値は、サブピクセルフェーズオーバコンプリートケースを提示する。この入力信号が、この離散時間ドメインにおけるシーケンス{x(n)}、n=0、1、2、3、....であるとする。このエンコーダまたはデコーダは、最初に{x(n)}のp−ピクセル補間を行い、次いでこのp−ピクセル補間シーケンスを2/p−1回、連続的にシフトし、このシフトしたシーケンスをダウンサンプリングする。これは、{x (n)}、i=0,1,...,2/p−1によって記述される{x(n)}の1組の連続的なフェーズシフティングシーケンスを生成する。最後に、このエンコーダまたはデコーダは、{x (n)}に関してウェーブレット分解変換を行う。
p=1/2のケースでは、この連続的なフェーズシフティングシーケンスは、以下のようになる。{y(n)}は、{x(n)}の1/2−ピクセル補間ポイントから構成されるシーケンスである。
...x(n) y(n) x(n+1) y(n+1) x(n+2) y(n+2) x(n+3) y(n+3)...
0−フェーズ ...x(n) x(n+1) x(n+2)...
1/2−フェーズ ...y(n) y(n+1) y(n+2)...
1−フェーズ ...x(n+1) x(n+2) x(n+3)...
3/2−フェーズ ...y(n+1) y(n+2) y(n+3)...
2D CPOSTは、水平方向および垂直方向に沿った2つのシーケンシャルな1D CPOSTをそれぞれ行うことによって、実施することができる。
このウェーブレットドメインにおいて、この連続的なp−ピクセルフェーズシフティングシーケンスは、1組の予測フィルタF (z) i=0,1,...,2/p−1を使用して取得することができる。これらのフィルタは、このサブピクセル補間シーケンスを連続的にシフトすること、およびこれらのシフトしたシーケンスをダウンサンプルすることと等価である。p−ピクセルCPOSTのこの分解プロセスは、{x(n)}に対するフィルタの適用として提示することができ、これは、ハイパスフィルタG(z)で、そして別個にこのウェーブレット分解変換のためにローパスフィルタG(z)で結果を処理し、次いでダウンサンプリングすることがその後に続く。(i=0,1,...,2/p−1)についてのl (n)およびh (n)は、CPOSTのそれぞれローパスおよびハイパス係数である。zドメインにおいて、X(z)およびx (z)は、それぞれ{x(n)}および{x (n)}のz変換である。L (z)およびH (z)は、それぞれl (n)およびh (n)のz変換である。
Figure 2006060790
p−ピクセルCPOSTの分解プロセスは、以下の行列式に対応する。
Figure 2006060790
式(22)は、元のシーケンスの、シフティングなしのウェーブレット分解変換を提示する。式(23)は、連続的なサブフェーズシフティングシーケンスのウェーブレット分解変換を提示する。式(23)および(24)が、このCPOSTを構成する。L (z),H (z)と、L (z),H (z)の間の関係については、(20)〜(23)から、
Figure 2006060790
(22)〜(24)から
Figure 2006060790
ここで
Figure 2006060790
またここでG−1(z)は、G(z)の逆行列である。
(25)によると、変換行列T (z)および逆変換行列IT (z)は、元のシーケンス(すなわち、0−フェーズシフティングシーケンス)のウェーブレット変換から取得して、このサブピクセルフェーズシフティングシーケンスのウェーブレット変換を得ることができる。
Figure 2006060790
(26)から、式(28)が存在する場合には、オーバコンプリートウェーブレット変換後のサブピクセル補間の結果は、この離散時間ドメインにおけるサブピクセル補間後のオーバコンプリートウェーブレット変換の結果に等しくなる。そうでない場合には、オーバコンプリートウェーブレット変換後のサブピクセル補間の結果は、この離散時間ドメインにおけるサブピクセル補間後のオーバコンプリートウェーブレット変換の結果に等しくない。
Figure 2006060790
一般的に、式(28)は存在せず、これは、インバンドビデオ符号化についてのサブピクセル補間とオーバコンプリートウェーブレット変換の順序を交換しないことを示唆する。しかし、(25)によると、そのウェーブレット変換係数から元のシーケンスのCPOST係数を導き出すことができる。
このCPOST法は、この整数ピクセルフェーズオーバコンプリートウェーブレット変換だけでなく、このサブピクセルフェーズオーバコンプリートウェーブレット変換も実現する。5−3ウェーブレット変換および6−タップ補間フィルタを伴う、p=1/2についての連続的なフェーズオーバコンプリート変換行列係数が続く。変換行列T1/2 (z)、T1/2 (z)、およびT1/2 (z)についての各エレメントの係数は、以下の通りである。
1/2 (0,0)=[0.0098 −0.0957 0.8867 0.2227 −0.0215−0.0020]
1/2 (0,1)=[−0.0024 0.0488 −0.2290 0.3242 −0.1440 0.0020 0.0005]
1/2 (1,0)=[0.0391 −0.2344 0.3438 −0.1406 −0.0078]
1/2 (1,1)=[−0.0098 0.1582 0.3633 −0.5352 0.0215 0.0020]
1/2 (0,0)=[−0.0625 0.5625 0.5625 −0.0625]
1/2 (0,1)=[0.015625 −0.25 0.46875 −0.25 0.015625]
1/2 (1,0)=[−0.25 0.5 −0.25]
1/2 (1,1)=[0.0625 −0.5625 −0.5625 0.0625]
1/2 (0,0)=[−0.0020 −0.0215 0.2227 0.8867 −0.0957 0.0098]
1/2 (0,1)=[0.0005 0.0020 −0.1440 0.3242 −0.2290 0.0488 −0.0024]
1/2 (1,0)=[−0.0078 −0.1406 0.3438 −0.2344 0.0391]
1/2 (1,1)=[0.0020 0.02148 −0.5352 0.3633 0.1582 −0.0098]
記載の本発明の原理を適用することができる多くの考えられうる実施形態に鑑み、例示した実施形態は、単に好ましい例であるにすぎず、本発明の範囲を限定するものと解釈すべきではないことを理解されたい。そうではなく、本発明の範囲は、添付の特許請求の範囲によって定義される。したがって、我々は、これらの請求項の範囲および趣旨に含まれるすべてを発明として請求する。
スケーラブルなビデオ符号化およびビデオ復号化のための一般化された動作環境を示すブロック図である。 記載の一実施形態と共に実施することができる一般化されたビデオエンコーダを示すブロック図である。 記載の一実施形態と共に実施することができる一般化されたビデオデコーダを示すブロック図である。 記載の一実施形態と共に実施することができる一般化されたビデオエンコーダを示すブロック図である。 記載の一実施形態と共に実施することができる一般化されたビデオエンコーダおよびデコーダを示すブロック図である。 動き補償時間フィルタリング(「MCTF」)における、入力ビデオフレーム、時間ローパスフレーム、および時間ハイパスフレームの間の関係を示す図である。 エンコーダにおけるMCTFを示すブロック図である。 デコーダにおける逆MCTF(「IMCTF」)を示すブロック図である。 エンコーダ中の適応アップデートステージを有するMCTFを示すブロック図である。 デコーダ中の適応アップデートステージを有するIMCTFを示すブロック図である。 適応アップデートオペレーションについての技法を示すフローチャートである。 適応アップデートオペレーションについての技法を示すフローチャートである。 適応アップデートオペレーションについての技法を示すフローチャートである。 3Dサブバンドエンコーダ中にベースレイヤコーデックを埋め込むためのスキームを示すブロック図である。 3Dサブバンドデコーダ中にベースレイヤデコーダを埋め込むためのスキームを示すブロック図である。 3Dサブバンドエンコーダ中にベースレイヤコーデックを埋め込むためのスキームを示すブロック図である。 3Dサブバンドデコーダ中にベースレイヤデコーダを埋め込むためのスキームを示すブロック図である。 3Dサブバンドエンコーダ中にベースレイヤコーデックを埋め込むためのスキームを示すブロック図である。 3Dサブバンドデコーダ中にベースレイヤデコーダを埋め込むためのスキームを示すブロック図である。 ベースレイヤコーデックまたはデコーダがリファレンス候補を提供するときの異なるリファレンスフレームの組合せを示す図である。 3Dサブバンドコーデックおよび埋込みベースレイヤコーデックを用いてエンコードするためのフレームのパターンを示す図である。 3Dサブバンドコーデックおよび埋込みベースレイヤコーデックを用いてエンコードするためのフレームのパターンを示す図である。 3Dサブバンドコーデックおよび埋込みベースレイヤコーデックを用いてエンコードするためのフレームのパターンを示す図である。 埋込みベースレイヤコーデックを有する3Dサブバンドエンコーダを用いたスケーラブルなエンコーディングのための一技法を示すフローチャートである。 埋込みベースレイヤデコーダを有する3Dサブバンドデコーダを用いたスケーラブルなデコーディングのための一技法を示すフローチャートである。 より低い空間分解能で出力するためのSDMCTFエンコードビデオをデコードするための2つのスキームを示すブロック図である。 SDIMCTFおよびIBIMCTFにおける動き補償予測を示す図である。 動きシフトに起因するパワースペクトルリークを示す図である。 より低い空間分解能で出力するためのSDMCTFエンコードビデオをデコードするためのベースラインスキームを示す図である。 より低い空間分解能で出力するためのSDMCTFエンコードビデオをデコードするための一般化されたスキームを示すブロック図である。 より低い空間分解能で出力するためのSDMCTFエンコードビデオをデコードするための1つのスキームを示す図である。 より低い空間分解能で出力するためのSDMCTFエンコードビデオをデコードするための1つのスキームを示す図である。 より低い空間分解能で出力するためのSDMCTFエンコードビデオをデコードするための1つのスキームを示す図である。 より低い空間分解能で出力するためのSDMCTFエンコードビデオをデコードするための1つのスキームを示す図である。
符号の説明
100 コンピューティング環境
110 処理ユニット
120 メモリ
130 基本構成
140 ストレージ
150 入力デバイス
160 出力デバイス
170 通信接続
180 ソフトウェア
200 エンコーダ
205 ビデオピクチャ
210 時間サブバンド変換
220 動き推定
230 2D空間サブバンド変換
240 エントロピー符号化
250 MVおよびモード符号化
295 圧縮情報
300 デコーダ
305 ビデオピクチャ
310 時間逆SB変換
330 2D空間逆SB変換
340 エントロピー復号化
350 MVおよびモード復号化
395 圧縮情報
400 3Dサブバンドエンコーダ
500 コーデック
700 エンコーダのMCTF
710 予測
720 アップデート
800 デコーダのMCTF
810 予測
820 アップデート
900 エンコーダの適応アップデートを伴うMCTF
910 予測
920 アップデート
930 HVS
940 しきい値
1000 デコーダの適応アップデートを伴うMCTF
1010 予測
1020 アップデート
1030 HVS
1040 しきい値
1400 3Dサブバンドエンコーダ
1410 ダウンサンプリング
1420 ベースレイヤコーデック
1430 アップサンプリング
1495 ベースレイヤビットストリーム
1500 3Dサブバンドデコーダ
1520 ベースレイヤデコーダ
1530 アップサンプリング
1595 ベースレイヤビットストリーム
1600 3Dサブバンドエンコーダ
1610 DWT
1620 ベースレイヤコーデック
1630 IDWT
1695 ベースレイヤビットストリーム
1700 3Dサブバンドデコーダ
1710 DWT
1720 ベースレイヤデコーダ
1730 IDWT
1795 ベースレイヤビットストリーム
1800 3Dサブバンドエンコーダ
1810 ダウンサンプリング
1820 ベースレイヤコーデック
1830 アップサンプリング
1895 ベースレイヤビットストリーム
1900 3Dサブバンドデコーダ
1920 ベースレイヤデコーダ
1930 アップサンプリング
1995 ベースレイヤビットストリーム
2600 SDIMCTFデコーダ
2650 IBIMCTFデコーダ
2910 SLバンド(QCIF)
2920 シンク4×4
2930 SLバンドからのリファレンス(4CIF)
2940 MCPSL
2950 SLバンド(QCIF)
3000 IBIMCTFデコーダ
3110 SLバンド(QCIF)
3120 SH=0でのIDWT
3130 SLバンドからのリファレンス(CIF)
3150 LLについてのオーバコンプリートリファレンス(CIF)
3160 シンク2×2
3170 リファレンス(4CIF)
3180 MCPSL
3190 MC予測(QCIF)
3210 SLバンド(QCIF)
3220 SH=0でのIDWT
3230 SLバンドからのリファレンス(CIF)
3240 シンク2×2
3250 リファレンス(4CIF)
3260 DSDWT
3270 LLについてのDSオーバコンプリートリファレンス(4CIF)
3280 MCPSL
3290 MC予測(QCIF)
3310 SLバンド(QCIF)
3320 SH=0でのIDWT
3330 SLバンドからのリファレンス(CIF)
3340 シンク2×2
3350 リファレンス(4CIF)
3360 MCPSD
3370 MC予測(CIF)
3380 DWT
3390 MC予測(QCIF)
3410 リファレンス(CIF)
3420 シンク2×2
3430 リファレンス(4CIF)
3440 MCPSD
3450 MC予測(CIF)

Claims (20)

  1. 予測ステージおよびアップデートステージを含む、動き補償時間フィルタリングまたは逆動き補償時間フィルタリングの方法であって、
    アップデート情報を適応させることであって、前記適応させることは人間の知覚システムのモデルに少なくとも部分的に基づくことと、
    エンコーディングまたはデコーディングにおいて前記適応させることの結果を適用することと
    を備えることを特徴とする方法。
  2. 前記モデルは、最小弁別値モデルであることを特徴とする請求項1に記載の方法。
  3. エンコーダおよびデコーダは、前記適応させることについて同じメトリックを使用することを特徴とする請求項1に記載の方法。
  4. 前記適応させることは、1つまたは複数のイメージ依存のしきい値を設定することを特徴とする請求項1に記載の方法。
  5. 前記1つまたは複数のイメージ依存のしきい値は、空間近傍におけるサンプル値の分散に依存して変化することを特徴とする請求項4に記載の方法。
  6. 前記1つまたは複数のイメージ依存のしきい値は、フラットエリアではより低く、ノイズのあるエリアではより高いことを特徴とする請求項4に記載の方法。
  7. 前記1つまたは複数のイメージ依存のしきい値は、コントラスト調整チューニングパラメータに依存して変化し、前記1つまたは複数のイメージ依存のしきい値は、強度パラメータによってさらに修正されることを特徴とする請求項4に記載の方法。
  8. 前記適応させることは、
    適用可能なしきい値の絶対値より小さな前記アップデート情報のこれらの部分を通過させることと、
    前記アップデート情報の他の部分の符号によって修正された前記適用可能なしきい値に前記アップデート情報の他の部分を制限することと
    を備えることを特徴とする請求項1に記載の方法。
  9. エンコーディング中に、前記予測ステージにおいて、1つまたは複数の第1のイメージごとに、
    前記第1のイメージについての動き補償予測を1つまたは複数の第2のイメージを参照して計算することと、
    前記第1のイメージと、前記動き補償予測の間の差分としてハイパスイメージを計算することと、
    前記1つまたは複数のハイパスイメージ上で動き補償を実行することと
    をさらに備え、
    前記1つまたは複数の動き補償されたハイパスイメージは、前記アップデート情報に寄与し、前記適応させることは、前記1つまたは複数の第2のイメージのうちの1つと前記アップデート情報を組み合わせてローパスイメージを形成することを含み、前記適用することは、後続の空間分解および/またはエントロピーエンコーディングを含むことを特徴とする請求項1に記載の方法。
  10. デコーディング中に、1つまたは複数のハイパスイメージ上で動き補償を行うことをさらに備え、前記1つまたは複数の動き補償されたハイパスイメージは、前記アップデート情報に寄与し、前記適応させることは、前記アップデート情報をローパスイメージと組み合わせることを含み、前記適応させることは、後続の動き補償予測および/または表示を含むことを特徴とする請求項1に記載の方法。
  11. コンピュータ実行可能命令を格納したコンピュータ読取り可能媒体であって、前記コンピュータ実行可能命令によってプログラムされたコンピュータシステムに、
    1つまたは複数の知覚規準に少なくとも部分的に基づいて、リフティングベースの動き補償時間フィルタリング、または逆動き補償時間フィルタリングのための1つまたは複数のアップデートしきい値を計算することと、
    前記1つまたは複数のアップデートしきい値に従って、アップデート情報をしきい値化することと
    を備える方法を行わせることを特徴とするコンピュータ読取り可能媒体。
  12. 前記1つまたは複数のアップデートしきい値は、アップデートされるべき複数のイメージのそれぞれについてイメージごとに計算されることを特徴とする請求項11に記載のコンピュータ読取り可能媒体。
  13. 前記1つまたは複数のアップデートしきい値は、空間近傍におけるサンプル値の分散に依存して変化することを特徴とする請求項11に記載のコンピュータ読取り可能媒体。
  14. 前記1つまたは複数のアップデートしきい値は、フラットエリアではより低く、ノイズのあるエリアではより高いことを特徴とする請求項11に記載のコンピュータ読取り可能媒体。
  15. 前記1つまたは複数のアップデートしきい値は、コントラスト調整チューニングパラメータに依存して変化することを特徴とする請求項11に記載のコンピュータ読取り可能媒体。
  16. 前記1つまたは複数のアップデートしきい値は、強度パラメータに依存して変化することを特徴とする請求項11に記載のコンピュータ読取り可能媒体。
  17. 前記しきい値化することは、
    前記1つまたは複数のアップデートしきい値のうちの適用可能なアップデートしきい値よりも小さい前記アップデート情報のこれらの部分を通過させることと、
    前記アップデート情報の他の部分の符号によって修正される前記適用可能なアップデートしきい値に前記アップデート情報の他の部分を制限すること
    を備えることを特徴とする請求項18に記載の方法。
  18. 請求項11に記載のコンピュータ読取り可能媒体を含むことを特徴とするビデオエンコーダ。
  19. 請求項11に記載のコンピュータ読取り可能媒体を含むことを特徴とするビデオデコーダ。
  20. ビデオピクチャ情報を格納する1つまたは複数のバッファと、知覚規準およびバッファされたビデオピクチャ情報に基づいて計算されたアップデートしきい値を考慮して、動き補償時間フィルタリングまたは逆動き補償時間フィルタリング中にアップデートオペレーションを適応的に行うための手段とを備えたことを特徴とするツール。
JP2005203287A 2004-07-12 2005-07-12 動き補償時間フィルタリングにおける適応アップデート Active JP5276252B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US58792304P 2004-07-12 2004-07-12
US60/587,923 2004-07-12
US11/126,997 US8442108B2 (en) 2004-07-12 2005-05-10 Adaptive updates in motion-compensated temporal filtering
US11/126,997 2005-05-10

Publications (2)

Publication Number Publication Date
JP2006060790A true JP2006060790A (ja) 2006-03-02
JP5276252B2 JP5276252B2 (ja) 2013-08-28

Family

ID=35169236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005203287A Active JP5276252B2 (ja) 2004-07-12 2005-07-12 動き補償時間フィルタリングにおける適応アップデート

Country Status (5)

Country Link
US (1) US8442108B2 (ja)
EP (1) EP1617676B1 (ja)
JP (1) JP5276252B2 (ja)
KR (1) KR101203338B1 (ja)
CN (1) CN1735208B (ja)

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060088461A (ko) * 2005-02-01 2006-08-04 엘지전자 주식회사 영상신호의 엔코딩/디코딩시에 영상블록을 위한 모션벡터를베이스 레이어 픽처의 모션벡터로부터 유도하는 방법 및장치
KR100732961B1 (ko) * 2005-04-01 2007-06-27 경희대학교 산학협력단 다시점 영상의 스케일러블 부호화, 복호화 방법 및 장치
US8275040B2 (en) * 2005-07-22 2012-09-25 Thomson Licensing Method and apparatus for weighted prediction for scalable video coding
CN101278563A (zh) * 2005-08-15 2008-10-01 诺基亚公司 用于视频编码中更新操作的亚像素内插的方法和装置
US7811553B2 (en) * 2005-11-09 2010-10-12 The Gillette Company Molded shaving aid compositions, components and methods of manufacture
EP1809041A1 (en) * 2006-01-11 2007-07-18 Mitsubishi Electric Information Technology Centre Europe B.V. Error concealement for scalable video coding
US8619865B2 (en) * 2006-02-16 2013-12-31 Vidyo, Inc. System and method for thinning of scalable video coding bit-streams
EP1989877A4 (en) * 2006-02-16 2010-08-18 Vidyo Inc SYSTEM AND METHOD FOR DILUTING SCALABLE VIDEO-CODING BITSTRAMS
US8009861B2 (en) * 2006-04-28 2011-08-30 Vobile, Inc. Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures
WO2007139266A1 (en) * 2006-06-01 2007-12-06 Electronics And Telecommunications Research Institute Method and apparatus for video coding on pixel-wise prediction
US8009732B2 (en) * 2006-09-01 2011-08-30 Seiko Epson Corporation In-loop noise reduction within an encoder framework
EP2069930A4 (en) * 2006-10-05 2012-05-30 Waratek Pty Ltd ADVANCED CONTENT DETECTION
KR100856411B1 (ko) * 2006-12-01 2008-09-04 삼성전자주식회사 조도 보상 방법 및 그 장치와 그 방법을 기록한 컴퓨터로 읽을 수 있는 기록매체
JP4799477B2 (ja) * 2007-05-08 2011-10-26 キヤノン株式会社 画像符号化装置及び画像符号化方法
KR101244917B1 (ko) * 2007-06-11 2013-03-18 삼성전자주식회사 조도 보상 방법 및 장치, 이를 이용한 영상의 부호화,복호화 방법 및 장치
US8331444B2 (en) * 2007-06-26 2012-12-11 Qualcomm Incorporated Sub-band scanning techniques for entropy coding of sub-bands
KR101394151B1 (ko) 2007-10-04 2014-05-14 삼성전자주식회사 시감 특성을 이용한 영상 부호화 장치 및 방법
US8179965B2 (en) * 2008-01-23 2012-05-15 Panasonic Corporation Moving picture coding method
PT2279622E (pt) * 2008-04-16 2015-01-02 Fraunhofer Ges Forschung Escalabilidade de intensidade de bits
WO2010010942A1 (ja) * 2008-07-25 2010-01-28 ソニー株式会社 画像処理装置および方法
KR101021249B1 (ko) * 2008-08-05 2011-03-11 동국대학교 산학협력단 적응적 부호화 모드 선택 방법
KR20110059766A (ko) * 2008-09-18 2011-06-03 톰슨 라이센싱 비디오 영상 프루닝 방법 및 장치
US20100149301A1 (en) * 2008-12-15 2010-06-17 Microsoft Corporation Video Conferencing Subscription Using Multiple Bit Rate Streams
TWI463878B (zh) * 2009-02-19 2014-12-01 Sony Corp Image processing apparatus and method
JP5234368B2 (ja) 2009-09-30 2013-07-10 ソニー株式会社 画像処理装置および方法
US8947492B2 (en) * 2010-06-18 2015-02-03 Microsoft Corporation Combining multiple bit rate and scalable video coding
WO2012016354A1 (en) * 2010-08-04 2012-02-09 Nxp B.V. Video player
US20120075346A1 (en) * 2010-09-29 2012-03-29 Microsoft Corporation Low Complexity Method For Motion Compensation Of DWT Based Systems
EP2466580A1 (en) * 2010-12-14 2012-06-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Encoder and method for predictively encoding, decoder and method for decoding, system and method for predictively encoding and decoding and predictively encoded information signal
MA34911B1 (fr) 2011-01-14 2014-02-01 Telefonaktieblaget L M Ericsson Filtrage de déblocage
KR101221495B1 (ko) * 2011-02-28 2013-01-11 동국대학교 산학협력단 적응적 mctf의 rd 최적화 방법
EP2509315B1 (en) * 2011-04-04 2016-08-17 Nxp B.V. Video decoding switchable between two modes of inverse motion compensation
KR101215152B1 (ko) 2011-04-21 2012-12-24 한양대학교 산학협력단 인루프 필터링을 적용한 예측 방법을 이용한 영상 부호화/복호화 방법 및 장치
US9749638B1 (en) * 2011-04-28 2017-08-29 Google Inc. Method and apparatus for encoding video with dynamic quality improvement
CN102857762B (zh) * 2011-07-01 2016-03-30 华为技术有限公司 一种解码过程中块索引信息的获取方法及装置
CN104205844B (zh) * 2011-09-29 2017-09-26 杜比实验室特许公司 降低复杂度的运动补偿的时间处理方法及系统
US9253508B2 (en) * 2011-11-04 2016-02-02 Futurewei Technologies, Inc. Differential pulse code modulation intra prediction for high efficiency video coding
US9883203B2 (en) * 2011-11-18 2018-01-30 Qualcomm Incorporated Adaptive overlapped block motion compensation
JP2013198059A (ja) * 2012-03-22 2013-09-30 Sharp Corp 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法およびプログラム
GB2502047B (en) * 2012-04-04 2019-06-05 Snell Advanced Media Ltd Video sequence processing
US9544587B2 (en) * 2012-05-14 2017-01-10 Google Technology Holdings LLC Scalable video coding with enhanced base layer
WO2013171173A1 (en) * 2012-05-14 2013-11-21 Luca Rossato Decomposition of residual data during signal encoding, decoding and reconstruction in a tiered hierarchy
US9185414B1 (en) * 2012-06-29 2015-11-10 Google Inc. Video encoding using variance
US9635356B2 (en) * 2012-08-07 2017-04-25 Qualcomm Incorporated Multi-hypothesis motion compensation for scalable video coding and 3D video coding
CN102831589B (zh) * 2012-08-29 2015-12-09 上海交通大学 一种利用卷积滤波和抗锯齿分析增强图像分辨率的方法
US20140086328A1 (en) * 2012-09-25 2014-03-27 Qualcomm Incorporated Scalable video coding in hevc
US9491459B2 (en) * 2012-09-27 2016-11-08 Qualcomm Incorporated Base layer merge and AMVP modes for video coding
KR101835358B1 (ko) * 2012-10-01 2018-03-08 지이 비디오 컴프레션, 엘엘씨 향상 레이어 예측에 대한 인터-레이어 예측 기여를 이용한 스케일러블 비디오 코딩
WO2014072571A1 (en) * 2012-10-01 2014-05-15 Nokia Corporation Method and apparatus for scalable video coding
US9225979B1 (en) 2013-01-30 2015-12-29 Google Inc. Remote access encoding
US9609336B2 (en) * 2013-04-16 2017-03-28 Fastvdo Llc Adaptive coding, transmission and efficient display of multimedia (acted)
US9888240B2 (en) 2013-04-29 2018-02-06 Apple Inc. Video processors for preserving detail in low-light scenes
US9313493B1 (en) * 2013-06-27 2016-04-12 Google Inc. Advanced motion estimation
KR102138368B1 (ko) * 2013-07-19 2020-07-27 삼성전자주식회사 적응적 샘플링에 기초한 계층적 움직임 예측 방법 및 움직임 예측 장치
US10009069B2 (en) 2014-05-05 2018-06-26 Nxp B.V. Wireless power delivery and data link
US10014578B2 (en) 2014-05-05 2018-07-03 Nxp B.V. Body antenna system
US9819075B2 (en) 2014-05-05 2017-11-14 Nxp B.V. Body communication antenna
US9819395B2 (en) 2014-05-05 2017-11-14 Nxp B.V. Apparatus and method for wireless body communication
US9812788B2 (en) 2014-11-24 2017-11-07 Nxp B.V. Electromagnetic field induction for inter-body and transverse body communication
US10015604B2 (en) 2014-05-05 2018-07-03 Nxp B.V. Electromagnetic induction field communication
US9819097B2 (en) 2015-08-26 2017-11-14 Nxp B.V. Antenna system
US9807416B2 (en) 2015-09-21 2017-10-31 Google Inc. Low-latency two-pass video coding
CN107925722B (zh) 2015-11-16 2020-05-12 谷歌有限责任公司 用于补偿相机运动的方法和设备
US10320086B2 (en) 2016-05-04 2019-06-11 Nxp B.V. Near-field electromagnetic induction (NFEMI) antenna
US10567775B2 (en) * 2016-10-01 2020-02-18 Intel Corporation Method and system of hardware accelerated video coding with per-frame parameter control
JP7041494B2 (ja) * 2017-11-06 2022-03-24 キヤノン株式会社 画像処理装置および画像処理方法
CN108833916B (zh) * 2018-06-20 2021-09-24 腾讯科技(深圳)有限公司 视频编码、解码方法、装置、存储介质和计算机设备
US10764603B2 (en) 2018-12-31 2020-09-01 Alibaba Group Holding Limited Resolution-adaptive video coding
CN113853792A (zh) 2019-05-11 2021-12-28 北京字节跳动网络技术有限公司 带有参考图片重采样的编解码工具
EP4029245A4 (en) 2019-10-12 2022-11-23 Beijing Bytedance Network Technology Co., Ltd. HIGH LEVEL SYNTAX FOR VIDEO CODING TOOLS
EP4049454A4 (en) * 2019-10-25 2023-11-08 Kakadu R & D Pty Ltd METHOD AND APPARATUS FOR COMPLEXITY CONTROL IN JPEG 2000 (HTJ2K) HIGH-THROUGHPUT CODING
CN111292845B (zh) * 2020-01-21 2020-11-03 梅里医疗科技(洋浦)有限责任公司 一种用于智慧病房的智能护理交互系统
CN113259662B (zh) * 2021-04-16 2022-07-05 西安邮电大学 基于三维小波视频编码的码率控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000506687A (ja) * 1996-03-29 2000-05-30 サーノフ コーポレイション 知覚量を用いて符号化を最適化し自動操作可能な画像圧縮を実行する装置及び方法
JP2001197527A (ja) * 1999-11-11 2001-07-19 Tektronix Inc 実時間人間視覚システム行動モデル化方法
WO2002085026A1 (en) * 2001-04-10 2002-10-24 Koninklijke Philips Electronics N.V. Method of encoding a sequence of frames
WO2003061294A2 (en) * 2001-12-28 2003-07-24 Koninklijke Philips Electronics N.V. Video encoding method
JP2004506355A (ja) * 2000-08-08 2004-02-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ウェーブレット分解に基づくビデオ符号化方法

Family Cites Families (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU1506554A1 (ru) 1987-10-06 1989-09-07 Предприятие П/Я А-1772 Кодер видеосигнала
USRE35910E (en) * 1989-05-11 1998-09-29 Matsushita Electric Industrial Co., Ltd. Moving image signal encoding apparatus and decoding apparatus
JP3303869B2 (ja) 1990-11-30 2002-07-22 株式会社日立製作所 画像符号化方法、画像符号化装置、画像復号化方法
US5136377A (en) * 1990-12-11 1992-08-04 At&T Bell Laboratories Adaptive non-linear quantizer
US5611038A (en) * 1991-04-17 1997-03-11 Shaw; Venson M. Audio/video transceiver provided with a device for reconfiguration of incompatibly received or transmitted video and audio information
US5414469A (en) * 1991-10-31 1995-05-09 International Business Machines Corporation Motion video compression system with multiresolution features
US5300949A (en) * 1992-10-22 1994-04-05 International Business Machines Corporation Scalable digital video decompressor
KR970000683B1 (ko) * 1993-05-31 1997-01-16 삼성전자 주식회사 해상도 가변 적응적 화상압축/복원방법 및 장치
US5495292A (en) * 1993-09-03 1996-02-27 Gte Laboratories Incorporated Inter-frame wavelet transform coder for color video compression
US5592226A (en) 1994-01-26 1997-01-07 Btg Usa Inc. Method and apparatus for video data compression using temporally adaptive motion interpolation
US5828421A (en) * 1994-10-11 1998-10-27 Hitachi America, Ltd. Implementation efficient digital picture-in-picture decoding methods and apparatus
US5821986A (en) * 1994-11-03 1998-10-13 Picturetel Corporation Method and apparatus for visual communications in a scalable network environment
US6002801A (en) * 1995-04-18 1999-12-14 Advanced Micro Devices, Inc. Method and apparatus for improved video decompression by selection of IDCT method based on image characteristics
US5864637A (en) * 1995-04-18 1999-01-26 Advanced Micro Devices, Inc. Method and apparatus for improved video decompression by selective reduction of spatial resolution
US5825929A (en) * 1995-10-05 1998-10-20 Microsoft Corporation Transformation block optimization method
US6957350B1 (en) * 1996-01-30 2005-10-18 Dolby Laboratories Licensing Corporation Encrypted and watermarked temporal and resolution layering in advanced television
US6259631B1 (en) * 1996-09-13 2001-07-10 Texas Instruments Incorporated Row drive circuit equipped with feedback transistors for low voltage flash EEPROM memories
JP3466032B2 (ja) * 1996-10-24 2003-11-10 富士通株式会社 動画像符号化装置および復号化装置
AR016812A1 (es) 1997-08-14 2001-08-01 Samsung Electronics Co Ltd Metodo para transmitir informacion de video comprimida, disposiciones de compresion y de grabacion de video y aparato de reproduccion de video
US6339434B1 (en) * 1997-11-24 2002-01-15 Pixelworks Image scaling circuit for fixed pixed resolution display
US6600785B1 (en) 1997-12-01 2003-07-29 Matsushita Electric Industrial Image processor, image data processor and variable length encoder/decoder
US6239847B1 (en) * 1997-12-15 2001-05-29 Netergy Networks, Inc. Two pass multi-dimensional data scaling arrangement and method thereof
US6873368B1 (en) * 1997-12-23 2005-03-29 Thomson Licensing Sa. Low noise encoding and decoding method
US6229570B1 (en) * 1998-09-25 2001-05-08 Lucent Technologies Inc. Motion compensation image interpolation—frame rate conversion for HDTV
US6501484B1 (en) 1998-09-29 2002-12-31 Globalstreams, Inc. System and method for high definition video rescaling
JP2000165661A (ja) 1998-11-27 2000-06-16 Murata Mach Ltd 画像処理装置及び記録媒体
US6418166B1 (en) * 1998-11-30 2002-07-09 Microsoft Corporation Motion estimation and block matching pattern
AUPP779898A0 (en) 1998-12-18 1999-01-21 Canon Kabushiki Kaisha A method of kernel selection for image interpolation
US6259741B1 (en) * 1999-02-18 2001-07-10 General Instrument Corporation Method of architecture for converting MPEG-2 4:2:2-profile bitstreams into main-profile bitstreams
US6499060B1 (en) 1999-03-12 2002-12-24 Microsoft Corporation Media coding for loss recovery with remotely predicted data units
FR2792798B1 (fr) * 1999-04-26 2001-05-25 Thomson Multimedia Sa Procede et dispositif de quantification pour compression video
US6700933B1 (en) * 2000-02-15 2004-03-02 Microsoft Corporation System and method with advance predicted bit-plane coding for progressive fine-granularity scalable (PFGS) video coding
US6510177B1 (en) * 2000-03-24 2003-01-21 Microsoft Corporation System and method for layered video coding enhancement
US6456663B1 (en) * 2000-03-29 2002-09-24 Matsushita Electric Industrial Co., Ltd. DCT domain down conversion system that compensates for IDCT mismatch
JP4560897B2 (ja) 2000-06-02 2010-10-13 ソニー株式会社 通信装置、通信方法及び媒体
US6647061B1 (en) * 2000-06-09 2003-11-11 General Instrument Corporation Video size conversion and transcoding from MPEG-2 to MPEG-4
US7023922B1 (en) 2000-06-21 2006-04-04 Microsoft Corporation Video coding system and method using 3-D discrete wavelet transform and entropy coding with motion information
KR100370076B1 (ko) * 2000-07-27 2003-01-30 엘지전자 주식회사 다운 컨버젼 기능을 갖는 비디오 디코더 및 비디오 신호를디코딩 하는 방법
US6937291B1 (en) * 2000-08-31 2005-08-30 Intel Corporation Adaptive video scaler
US6940905B2 (en) * 2000-09-22 2005-09-06 Koninklijke Philips Electronics N.V. Double-loop motion-compensation fine granular scalability
DE10048735A1 (de) * 2000-09-29 2002-04-11 Bosch Gmbh Robert Verfahren zur Codierung und Decodierung von Bildsequenzen sowie Einrichtungen hierzu
JP4231620B2 (ja) 2000-10-11 2009-03-04 メディア・テック・ユーエスエイ・インコーポレーテッド 画像処理方法および装置
US20020159484A1 (en) * 2000-12-05 2002-10-31 Murat Azizoglu Coding scheme using a control code map for signal transmission in optical communications networks
US7072525B1 (en) * 2001-02-16 2006-07-04 Yesvideo, Inc. Adaptive filtering of visual image using auxiliary image information
US6831947B2 (en) * 2001-03-23 2004-12-14 Sharp Laboratories Of America, Inc. Adaptive quantization based on bit rate prediction and prediction error energy
US7206453B2 (en) 2001-05-03 2007-04-17 Microsoft Corporation Dynamic filtering for lossy compression
US6907143B2 (en) * 2001-05-16 2005-06-14 Tektronix, Inc. Adaptive spatio-temporal filter for human vision system models
EP2458865A3 (en) 2001-06-29 2014-10-01 NTT DoCoMo, Inc. Apparatuses for image coding and decoding
US20040208247A1 (en) * 2001-07-10 2004-10-21 Eric Barrau Method and device for generating a scalable coded video signal from a non-scalable coded video signal
EP1294196A3 (en) * 2001-09-04 2004-10-27 Interuniversitair Microelektronica Centrum Vzw Method and apparatus for subband encoding and decoding
US6992725B2 (en) * 2001-10-22 2006-01-31 Nec Electronics America, Inc. Video data de-interlacing using perceptually-tuned interpolation scheme
US7639739B2 (en) * 2001-11-02 2009-12-29 The Regents Of The University Of California Technique to enable efficient adaptive streaming and transcoding of video and other signals
ES2610430T3 (es) * 2001-12-17 2017-04-27 Microsoft Technology Licensing, Llc Codificación por omisión de macrobloques
US20050018771A1 (en) * 2002-01-22 2005-01-27 Arnaud Bourge Drift-free video encoding and decoding method and corresponding devices
US7596179B2 (en) * 2002-02-27 2009-09-29 Hewlett-Packard Development Company, L.P. Reducing the resolution of media data
US7317759B1 (en) * 2002-02-28 2008-01-08 Carnegie Mellon University System and methods for video compression mode decisions
US6993078B2 (en) * 2002-03-28 2006-01-31 International Business Machines Corporation Macroblock coding technique with biasing towards skip macroblock coding
JP4724351B2 (ja) * 2002-07-15 2011-07-13 三菱電機株式会社 画像符号化装置、画像符号化方法、画像復号装置、画像復号方法、および通信装置
US7154952B2 (en) 2002-07-19 2006-12-26 Microsoft Corporation Timestamp-independent motion vector prediction for predictive (P) and bidirectionally predictive (B) pictures
US7010037B2 (en) * 2002-08-06 2006-03-07 Koninklijke Philips Electronics N.V. System and method for rate-distortion optimized data partitioning for video coding using backward adaptation
US7072394B2 (en) * 2002-08-27 2006-07-04 National Chiao Tung University Architecture and method for fine granularity scalable video coding
US7379496B2 (en) * 2002-09-04 2008-05-27 Microsoft Corporation Multi-resolution video coding and decoding
EP1422928A3 (en) * 2002-11-22 2009-03-11 Panasonic Corporation Motion compensated interpolation of digital video signals
GB0228556D0 (en) * 2002-12-06 2003-01-15 British Telecomm Video quality measurement
US20060146937A1 (en) * 2003-02-25 2006-07-06 Koninklijke Philips Electronics N.V. Three-dimensional wavelet video coding using motion-compensated temporal filtering on overcomplete wavelet expansions
FR2852773A1 (fr) * 2003-03-20 2004-09-24 France Telecom Procedes et dispositifs de codage et de decodage d'une sequence d'images par decomposition mouvement/texture et codage par ondelettes
US8761252B2 (en) * 2003-03-27 2014-06-24 Lg Electronics Inc. Method and apparatus for scalably encoding and decoding video signal
US7653133B2 (en) * 2003-06-10 2010-01-26 Rensselaer Polytechnic Institute (Rpi) Overlapped block motion compression for variable size blocks in the context of MCTF scalable video coders
US8107535B2 (en) * 2003-06-10 2012-01-31 Rensselaer Polytechnic Institute (Rpi) Method and apparatus for scalable motion vector coding
JP4207684B2 (ja) 2003-06-27 2009-01-14 富士電機デバイステクノロジー株式会社 磁気記録媒体の製造方法、および、製造装置
KR20060038408A (ko) 2003-06-30 2006-05-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 오버컴플릿 웨이브릿 코딩 및 순환성 예측 맵핑을 사용하는비디오 처리를 위한 시스템 및 방법
EP1642463A1 (en) * 2003-06-30 2006-04-05 Koninklijke Philips Electronics N.V. Video coding in an overcomplete wavelet domain
TWI232681B (en) * 2003-08-27 2005-05-11 Mediatek Inc Method of transforming one video output format into another video output format without degrading display quality
KR100519776B1 (ko) * 2003-11-24 2005-10-07 삼성전자주식회사 영상 신호의 해상도 변환 방법 및 장치
KR100597402B1 (ko) * 2003-12-01 2006-07-06 삼성전자주식회사 스케일러블 비디오 코딩 및 디코딩 방법, 이를 위한 장치
KR101117586B1 (ko) * 2003-12-03 2012-02-27 코닌클리케 필립스 일렉트로닉스 엔.브이. Mpeg-2 시스템에서 향상된 범위성 지원을 위한 시스템및 방법
CN1332563C (zh) * 2003-12-31 2007-08-15 中国科学院计算技术研究所 一种视频图像跳过宏块的编码方法
US7471845B2 (en) * 2004-01-06 2008-12-30 Sharp Laboratories Of America, Inc. De-ringing filter
US20050157791A1 (en) * 2004-01-20 2005-07-21 Eastman Kodak Company System and method for video tone scale reduction
JP2005217940A (ja) 2004-01-30 2005-08-11 Ntt Docomo Inc 動画像符号化装置、動画像符号化方法及び動画像符号化プログラム
KR100596705B1 (ko) * 2004-03-04 2006-07-04 삼성전자주식회사 비디오 스트리밍 서비스를 위한 비디오 코딩 방법과 비디오 인코딩 시스템, 및 비디오 디코딩 방법과 비디오 디코딩 시스템
US20050195896A1 (en) * 2004-03-08 2005-09-08 National Chiao Tung University Architecture for stack robust fine granularity scalability
KR101149255B1 (ko) 2004-04-02 2012-05-25 톰슨 라이센싱 복잡도 가변 비디오 인코더를 위한 방법 및 장치
EP1599046A1 (en) 2004-05-19 2005-11-23 THOMSON Licensing Method for coding video data of a sequence of pictures
US20050259729A1 (en) * 2004-05-21 2005-11-24 Shijun Sun Video coding with quality scalability
JP4891234B2 (ja) * 2004-06-23 2012-03-07 エージェンシー フォー サイエンス, テクノロジー アンド リサーチ グリッド動き推定/補償を用いたスケーラブルビデオ符号化
KR100654436B1 (ko) * 2004-07-07 2006-12-06 삼성전자주식회사 비디오 코딩 방법과 디코딩 방법, 및 비디오 인코더와디코더
US8340177B2 (en) 2004-07-12 2012-12-25 Microsoft Corporation Embedded base layer codec for 3D sub-band coding
US20060013305A1 (en) * 2004-07-14 2006-01-19 Sharp Laboratories Of America, Inc. Temporal scalable coding using AVC coding tools
US8243820B2 (en) * 2004-10-06 2012-08-14 Microsoft Corporation Decoding variable coded resolution video with native range/resolution post-processing operation
US9071847B2 (en) * 2004-10-06 2015-06-30 Microsoft Technology Licensing, Llc Variable coding resolution in video codec
DE102004059993B4 (de) * 2004-10-15 2006-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer codierten Videosequenz unter Verwendung einer Zwischen-Schicht-Bewegungsdaten-Prädiktion sowie Computerprogramm und computerlesbares Medium
KR100679022B1 (ko) * 2004-10-18 2007-02-05 삼성전자주식회사 계층간 필터링을 이용한 비디오 코딩 및 디코딩방법과,비디오 인코더 및 디코더
KR20060043115A (ko) * 2004-10-26 2006-05-15 엘지전자 주식회사 베이스 레이어를 이용하는 영상신호의 엔코딩/디코딩 방법및 장치
KR100888963B1 (ko) * 2004-12-06 2009-03-17 엘지전자 주식회사 영상 신호의 스케일러블 인코딩 및 디코딩 방법
KR100888962B1 (ko) * 2004-12-06 2009-03-17 엘지전자 주식회사 영상 신호의 인코딩 및 디코딩 방법
US7801220B2 (en) * 2005-01-07 2010-09-21 Microsoft Corporation In-band wavelet video coding with spatial scalability
KR100714689B1 (ko) * 2005-01-21 2007-05-04 삼성전자주식회사 다 계층 구조 기반의 스케일러블 비디오 코딩 및 디코딩방법, 이를 위한 장치
US20080152251A1 (en) 2005-01-31 2008-06-26 Koninklijke Philips Electronics, N.V. Pyramidal Decomposition for Multi-Resolution Image Filtering
US7876833B2 (en) * 2005-04-11 2011-01-25 Sharp Laboratories Of America, Inc. Method and apparatus for adaptive up-scaling for spatially scalable coding
US8619860B2 (en) * 2005-05-03 2013-12-31 Qualcomm Incorporated System and method for scalable encoding and decoding of multimedia data using multiple layers
EP1727372A1 (en) 2005-05-27 2006-11-29 Thomson Licensing Method and apparatus for encoding and decoding video data,
WO2006129184A1 (en) * 2005-06-03 2006-12-07 Nokia Corporation Residual prediction mode in scalable video coding
US7830961B2 (en) 2005-06-21 2010-11-09 Seiko Epson Corporation Motion estimation and inter-mode prediction
RU2411689C2 (ru) 2005-07-11 2011-02-10 Томсон Лайсенсинг Способ и устройство для адаптивного к макроблоку межслойного предсказания внутренней текстуры
US7216279B2 (en) * 2005-07-19 2007-05-08 Lsi Logic Corporation Testing with high speed pulse generator
US20080123947A1 (en) * 2005-07-22 2008-05-29 Mitsubishi Electric Corporation Image encoding device, image decoding device, image encoding method, image decoding method, image encoding program, image decoding program, computer readable recording medium having image encoding program recorded therein
EP1746839A1 (en) 2005-07-22 2007-01-24 Thomson Licensing Method and apparatus for encoding video data
WO2007044556A2 (en) * 2005-10-07 2007-04-19 Innovation Management Sciences, L.L.C. Method and apparatus for scalable video decoder using an enhancement stream
EP1775958A1 (en) 2005-10-14 2007-04-18 Thomson Licensing Method and apparatus for reconstructing the texture of a spatial enhancement-layer video picture
KR100772868B1 (ko) * 2005-11-29 2007-11-02 삼성전자주식회사 복수 계층을 기반으로 하는 스케일러블 비디오 코딩 방법및 장치
US8023569B2 (en) * 2005-12-15 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for block-based residual upsampling
WO2008090394A2 (en) * 2005-12-29 2008-07-31 Rolls-Royce Power Engineering Plc Second stage turbine airfoil
US8094721B2 (en) 2005-12-29 2012-01-10 Cisco Technology, Inc. Methods and apparatuses for selecting a mode within a compression scheme
GB0600141D0 (en) * 2006-01-05 2006-02-15 British Broadcasting Corp Scalable coding of video signals
US7956930B2 (en) * 2006-01-06 2011-06-07 Microsoft Corporation Resampling and picture resizing operations for multi-resolution video coding and decoding
TW200737993A (en) * 2006-01-09 2007-10-01 Nokia Corp System and apparatus for low-complexity fine granularity scalable video coding with motion compensation
KR100772873B1 (ko) * 2006-01-12 2007-11-02 삼성전자주식회사 스무딩 예측을 이용한 다계층 기반의 비디오 인코딩 방법,디코딩 방법, 비디오 인코더 및 비디오 디코더
US8848789B2 (en) * 2006-03-27 2014-09-30 Qualcomm Incorporated Method and system for coding and decoding information associated with video compression
KR100781524B1 (ko) * 2006-04-04 2007-12-03 삼성전자주식회사 확장 매크로블록 스킵 모드를 이용한 인코딩/디코딩 방법및 장치
US20070274396A1 (en) * 2006-05-26 2007-11-29 Ximin Zhang Complexity adaptive skip mode estimation for video encoding
WO2008004816A1 (en) 2006-07-04 2008-01-10 Electronics And Telecommunications Research Institute Scalable video encoding/decoding method and apparatus thereof
US8120660B2 (en) * 2006-07-10 2012-02-21 Freescale Semiconductor, Inc. Image data up sampling
JP4647558B2 (ja) 2006-07-27 2011-03-09 日本電信電話株式会社 映像符号化並列処理方法,映像符号化装置,映像符号化プログラムおよびその記録媒体
US9014280B2 (en) * 2006-10-13 2015-04-21 Qualcomm Incorporated Video coding with adaptive filtering for motion compensated prediction
US20080095235A1 (en) * 2006-10-20 2008-04-24 Motorola, Inc. Method and apparatus for intra-frame spatial scalable video coding
US8311120B2 (en) * 2006-12-22 2012-11-13 Qualcomm Incorporated Coding mode selection using information of other coding modes
US8199812B2 (en) * 2007-01-09 2012-06-12 Qualcomm Incorporated Adaptive upsampling for scalable video coding
US7983496B2 (en) * 2007-06-26 2011-07-19 Mitsubishi Electric Research Laboratories, Inc. Inverse tone mapping for bit-depth scalable image coding adapted to variable block sizes
US8160132B2 (en) * 2008-02-15 2012-04-17 Microsoft Corporation Reducing key picture popping effects in video
US8953673B2 (en) * 2008-02-29 2015-02-10 Microsoft Corporation Scalable video coding and decoding with sample bit depth and chroma high-pass residual layers
US9338475B2 (en) * 2008-04-16 2016-05-10 Intel Corporation Tone mapping for bit-depth scalable video codec

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000506687A (ja) * 1996-03-29 2000-05-30 サーノフ コーポレイション 知覚量を用いて符号化を最適化し自動操作可能な画像圧縮を実行する装置及び方法
JP2001197527A (ja) * 1999-11-11 2001-07-19 Tektronix Inc 実時間人間視覚システム行動モデル化方法
JP2004506355A (ja) * 2000-08-08 2004-02-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ウェーブレット分解に基づくビデオ符号化方法
WO2002085026A1 (en) * 2001-04-10 2002-10-24 Koninklijke Philips Electronics N.V. Method of encoding a sequence of frames
WO2003061294A2 (en) * 2001-12-28 2003-07-24 Koninklijke Philips Electronics N.V. Video encoding method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6011020433; Lin Luo et al.: 'Advanced Lifting-Based Motion-Threading (MTh) Technique for the 3D Wavelet Video Coding' Proceedings of APIE Visual Communications and Image Processing 2003 Vol.5150, Part.1, 200307, p.707-718, SPIE *

Also Published As

Publication number Publication date
JP5276252B2 (ja) 2013-08-28
EP1617676A2 (en) 2006-01-18
CN1735208A (zh) 2006-02-15
KR101203338B1 (ko) 2012-11-20
EP1617676B1 (en) 2013-10-23
KR20060092825A (ko) 2006-08-23
EP1617676A3 (en) 2011-05-25
US20060008038A1 (en) 2006-01-12
US8442108B2 (en) 2013-05-14
CN1735208B (zh) 2011-12-14

Similar Documents

Publication Publication Date Title
JP5276252B2 (ja) 動き補償時間フィルタリングにおける適応アップデート
JP4989048B2 (ja) 3dサブバンド符号化のための組み込み基本レイヤコーデック
JP4896458B2 (ja) 3dサブバンド符号化のための組み込み基本レイヤコーデック
Andreopoulos et al. In-band motion compensated temporal filtering
US8031776B2 (en) Method and apparatus for predecoding and decoding bitstream including base layer
JP4891234B2 (ja) グリッド動き推定/補償を用いたスケーラブルビデオ符号化
US8873623B2 (en) Apparatus and method for generating a coded video sequence and for decoding a coded video sequence by using an intermediate layer residual value prediction
JP5302010B2 (ja) 多重解像度ビデオ符号化および復号化のための再サンプリングおよび画像サイズ変更の演算方法
JP4844741B2 (ja) 動画像符号化装置及び動画像復号装置と、その方法及びプログラム
EP1589764A2 (en) Method and apparatus for supporting motion scalability
US20060120448A1 (en) Method and apparatus for encoding/decoding multi-layer video using DCT upsampling
US7042946B2 (en) Wavelet based coding using motion compensated filtering based on both single and multiple reference frames
MX2013003871A (es) Metodo y aparato para escalabilidad espacial para hevc.
Pau et al. Motion compensation and scalability in lifting-based video coding
Turaga et al. Unconstrained motion compensated temporal filtering (UMCTF) for efficient and flexible interframe wavelet video coding
Wang Fully scalable video coding using redundant-wavelet multihypothesis and motion-compensated temporal filtering
Ji et al. Architectures of incorporating MPEG-4 AVC into three dimensional subband video coding
Clerckx et al. Complexity scalable motion-compensated temporal filtering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110422

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110720

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110725

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110822

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110825

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110922

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120910

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130517

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5276252

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250