JP2006503518A

JP2006503518A - 高度にスケーラブルな３次元オーバコンプリート・ウェーブレット・ビデオ符号化

Info

Publication number: JP2006503518A
Application number: JP2005501325A
Authority: JP
Inventors: チュルイェ，ジョン; ダーシャール，ミハエラヴァン
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-10-16
Filing date: 2003-10-08
Publication date: 2006-01-26
Also published as: AU2003264804A1; WO2004036919A1; KR20050052532A; EP1554887A1; US20060008000A1

Abstract

本発明は、ビデオを符号化する方法及び装置に関し、異なる周波数サブバンドからなる少なくとも２つの信号にビデオ信号が空間的に分解され、それぞれのサブバンド信号に対し、個別化された動き補償時間フィルタリング方式が信号の内容に従って適応的に適用され、動き補償された時間フィルタリングされたサブバンド信号に対し、テクスチャ符号化が信号の内容に従って適応的に適用される。

Description

本発明は、ビデオ圧縮に関し、より詳細には、適応動き補償時間フィルタリングを使用したオーバコンプリート・ウェーブレット・ビデオ符号化に関する。
本出願は、2002年10月16日に提出された米国仮出願シリアル番号60/418,961号につき35USC119(e)の下で優先権を主張するものであって、引用によりその内容全体が本明細書に組み込まれる。

現在のビデオ符号化アルゴリズムは、動き補償予測符号化によるハイブリッド符号化方式に主に基づいている。かかるハイブリッド方式では、動き補償を使用して時間的な冗長度が低減され、動き補償の残差を変換符号化することで、空間解像度が低減される。しかし、これらハイブリッド符号化方式は、エラー伝播する傾向があり、また、真のスケーラブルビットストリームを提供する観点でのフレキシビリティがない傾向があり、すなわち、同じ圧縮されたビットストリームとは異なる品質、解像度及びフレームレートレイヤを伸張するための能力がない。

対照的に、３次元（３Ｄ）サブバンド／ウェーブレット符号化は、非常にフレキシブルなスケーラブルビットストリーム及びより高いエラー回復力を提供することができる。ウェーブレットに基づいたスケーラブルビデオ符号化方式は、許容される異なるスケーラビリティのタイプの観点で、大きなフレキシビリティを許容する。したがって、異なる能力をもつ様々な装置への異質の無線及び有線ネットワークにわたるビデオ転送について特に有効である。

現在のところ、オーバコンプリート・ウェーブレット（over-complete wavelet）及びフレーム間ウェーブレット（inter-frame wavelet）である、２つのウェーブレットに基づいたビデオ符号化方式が存在する。オーバコンプリート（ＯＷ）ウェーブレットビデオ符号化では、それぞれのフレームについて空間ウェーブレット変換がはじめに実行され、ウェーブレット係数値を予測すること、又はエントロピー符号化における時間的な状況を定義することでフレーム間の冗長度を利用することが続く。フレーム間ウェーブレット符号化では、時間軸に沿ってウェーブレットフィルタリングが実行され、２次元空間ウェーブレット変換が続く。

現在のフレーム間ウェーブレットビデオ符号化方式は、時間的な冗長度を低減するため、動き補償時間フィルタリング（MCTF: Motion Compensated Temporal Filtering）を使用する。ＭＣＴＦは、空間分解が実行される前に時間的な動きの方向で実行される。かかるビデオ符号化方式は、空間領域ＭＣＴＦ（ＳＤＭＣＴＦ）と本明細書では呼ばれる。しかし、動き予測アルゴリズムにより提供される整合の品質は、ＳＤＭＣＴＦビデオ符号化方式を本質的に制限する。たとえば、フレーム間ウェーブレット符号化された系列のなかには、僅かにぼやけたものがある。これは、不完全な動き予測により、フレームの詳細が時間的な高周波サブバンドへの動きを引き起こし、そこから空間的な高周波のサブバンドへの動きを引き起こす。これらのアーチファクトは、量子化されていない、空間的にスケーリングされた系列について視覚的なパフォーマンスの低下を招く。さらに、時間的な分割レベル数の減少によりアーチファクトを減少させることができることが試験で示されている。

現在のＯＷビデオ符号化方式では、ビデオフレームのそれぞれを複数のサブバンドに空間的に分割するためにウェーブレットフィルタリングが使用されており、動き予測を使用して、それぞれのサブバンドの時間的な相関が除かれる。

ウェーブレット領域で動き補償によりウェーブレット係数を予測するための多くの試みがされてきている。しかし、ウェーブレット領域での動き補償は、信号のアライメント及び分析のために選択された離散的なグリッドに非常に依存している。原画像のウェーブレット係数と１画素シフトされた画像のウェーブレット係数との間に非常に大きな差が存在する。このシフト不変の特性は、画像のエッジの周りで頻繁に生じるため、ウェーブレット係数の動き補償が難しくなる。

既存のＯＷビデオ符号化方式は、予測における奇数位相のウェーブレット係数を利用することでウェーブレット領域における動き予測の非効率性を克服する。奇数位相の係数を得る便利な方法は、バンドシフトを実行することである。復号化された前のフレームはデコーダで利用可能であるので、オーバコンプリートな拡張からの予測は、更なるオーバヘッドを必要としない。さらに、最適な位相とウェーブレット領域における動きベクトルとをサーチすることに関する計算上の複雑さは、分数画素の精度で、空間領域における従来の動き予測のそれに匹敵する。

しかし、動き予測／補償のため、従来のＯＷフレームワークは、ＳＮＲスケーラビリティにおけるパフォーマンスのロスになるドリフトに苦しむ。さらに、制限されたレンジの時間的なスケーラビリティは、Ｂフレームを使用して達成することができる。
したがって、改善されたＳＮＲ及び時間的なスケーラビリティをもつウェーブレットに基づいたビデオ符号化方式が必要とされる。

本発明は、ビデオを符号化するための方法及び装置に対処するものである。
本発明の第一の態様によれば、ビデオ信号は、異なるサブバンド周波数からなる少なくとも２つの信号に空間的に分割される。個別化された動き補償時間フィルタリング方式がそれぞれのサブバンド信号に適用される。次いで、テクスチャ符号化（texture coding）が動き補償された時間フィルタリングされたサブバンド信号のそれぞれに適用される。本発明の第二の態様によれば、少なくとも２つの、符号化され、動き補償時間フィルタリングされた、ビデオ信号の異なる周波数サブバンド信号（at least two encoded motion compensated temporally filtered, different frequency sub-band signals of video signal）を含む信号が復号化される。逆動き補償時間フィルタリングは、復号化された少なくとも２つのサブバンド信号のそれぞれに独立に適用される。少なくとも２つのサブバンド信号は、空間的に再構成され、ビデオ信号は、該少なくとも２つの空間的に作り直されたサブバンド信号のうちの少なくとも１つから再構成される。

本発明は、新しいインバンド動き補償時間フィルタリング（IMCTF: Inband Motion Compensated Temporal Filtering）方法を利用した高度にスケーラブルな３次元（３Ｄ）オーバコンプリート・ウェーブレット・ビデオ符号化方式である。本発明のＩＢＭＣＴＦ方法は、先のＩＢＭＣＴＦ符号化方法の問題点を克服するものであって、空間領域の動き補償時間フィルタリングを利用した従来のフレーム間ウェーブレット符号化方法に匹敵するか、又は該方法よりも良好な符号化効率を示す。

図１は、本発明の例示的な実施の形態に係る３次元オーバコンプリート・ウェーブレットビデオエンコーダのブロック図であって、このビデオエンコーダは、本発明のＩＢＭＣＴＦ方法を実行するために使用される場合がある。ビデオエンコーダ１００は、従来の３次元オーバコンプリート・ウェーブレットフィルタリング処理を使用して、入力ビデオのそれぞれのビデオフレームを所望の数の多数のサブバンド１，２，．．．，Ｎに空間的に分解する３次元ウェーブレット変換ユニット１１０を含んでいる。

ビデオエンコーダ１００は、ウェーブレット変換ユニット１１０により発生されたそれぞれのサブバンドについて、区分ユニット１２０ａ、１２０ｂ、１２０ｃをさらに含んでいる。それぞれの区分ユニット１２０ａ、１２０ｂ、１２０ｃは、その関連するサブバンドのウェーブレット係数を、グループとしての符号化のためにグループ・オブ・フレーム（ＧＯＦ）に分解する。

また、ビデオエンコーダ１００は、それぞれのサブバンドについて動き補償時間フィルタリング（ＭＣＴＦ）ユニット１３０ａ，１３０ｂ，１３０ｃを含んでおり、これらユニットは、動き予測器１３１ａ，１３１ｂ，１３１ｃ、及び時間フィルタ１３２ａ，１３２ｂ，１３２ｃを含んでいる。それぞれのＭＣＴＦ１３０ａ、１３０ｂ，１３０ｃは、動き補償時間フィルタリング（ＭＣＴＦ）処理を使用して、それぞれのサブバンドのＧＯＦから時間的な相関又は冗長度を個別に除く。本発明によれば、それぞれのサブバンドの個別のＭＣＴＦの使用により、動き補償時間フィルタリング処理は、他のサブバンドとは独立にそれぞれのサブバンドについて構成することができる。さらに、特定のサブバンドについて選択された時間フィルタリング処理は、異なる基準に基づいている場合がある。

エンコーダは、それぞれのサブバンドについて、テクスチャエンコーダ１４０ａ、１４０ｂ，１４０ｃを更に含んでおり、これらテクスチャエンコーダは、それぞれのサブバンドについてＭＣＴＦユニット１３０ａ，１３０ｂ，１３０ｃにより発生された残差信号及び動き情報（動きベクトル）が最適化されたテクスチャ符号化処理を使用して独立にテクスチャ符号化することを可能にする。次いで、テクスチャ符号化された残差信号及び動き情報は、マルチプレクサ１５０により１つのビットストリームに結合される。別の実施の形態のテクスチャ符号化は、フルサイズの残差フレームの全体的な変化であり、このグローバル変換は、それぞれのサブバンドにＭＣＴＦユニット１３０ａ，１３０ｂ，１３０ｃにより発生された全ての残差信号及び動き情報がフルサイズの残差フレームを発生するために結合された後に適用される。

当業者であれば理解されるように、公知のＩＢＭＣＴＦ方法におけるクリティカル・サンプル・ウェーブレット分解は、周期的なシフト不変である。したがって、ウェーブレット領域における動き予測及び補償を実行することは、非効率的であって、符号化の性能低下を招く。この問題に対処するため、それぞれの動き補償フィルタリングユニット１３０ａ，１３０ｂ，１３０ｃは、図２に示されるように、適応型の高次の補間フィルタ２００を利用して、動き予測器１３１ａ，１３１ｂ，１３１ｃの性能を最大にする。本発明の補間フィルタ２００は、ロウバンドシフティングを実行するロウバンドシフト（ＬＢＳ）ユニット２１０、オーバコンプリート・ウェーブレット係数のインタリーブを実行するインタリーブユニット２２０、及び補間ユニット２３０を含んでいる。ＬＢＳ処理は、シフト不変である、オリジナルウェーブレット係数のオーバコンプリート表現を効率的に発生する１以上の公知のＬＢＳアルゴリズムによりＬＢＳユニット２１０において実現される。ＬＢＳは、１以上の類似のＬＢＳアルゴリズムを使用してエンコーダ及びデコーダでオリジナルのウェーブレット係数のオーバコンプリート展開を有利にも発生し、それにより、従来のフレーム間ウェーブレット符号化方式に比較して、更なる情報が符号化及び転送される必要がない。

インタリーブユニット２２０により実行されるインタリーブ処理は、拡張された参照フレームを発生するため、オーバコンプリート・ウェーブレット係数により提供される異なる位相情報を結合する。したがって、先にＩＢＭＣＴＦに基づくビデオ符号化方法におけるように、個別に位相情報を符号化する必要が存在しない。本発明のインタリーブ処理のため、位相情報は、より高い精度の動きベクトルの一部として固有に符号化される。

拡張された参照フレームから、補間ユニット２３０は、１／２画素，１／４画素，１／８画素，１／１６画素のような分数画素を発生し、この分数画素は、動き予測のために動き予測器１３１ａ，１３１ｂ，１３１ｃにより使用される。補間は、従来の１次元補間フィルタで実現される場合がある。動き予測及びＭＣＴＦの性能を最適化するため、異なるタップをもつ独立に最適化された補間フィルタがそれぞれのサブバンドについて使用することができる。図３は、本発明に係るウェーブレット係数のオーバコンプリート展開による、動き予測のための拡張された参照フレームの発生を例示している。ＨＨサブバンドのオーバコンプリート展開３００における動き予測のための高次の補間を達成するため、たとえば、低いサブバンドを量（１，０）、（０，１）及び（１，１）だけシフトすることで、オリジナルウェーブレット係数３１０から３つの他の位相のウェーブレット係数が生成される。次いで、拡張された参照フレーム３５０を生成するため、４つの位相のウェーブレット係数３１０，３２０，３３０，３４０がインタリーブされる。

本発明のＩＢＭＣＴＦに基づく３次元オーバコンプリート・ウェーブレット・ビデオ符号化方法は、公知の空間領域の動き補償時間フィルタリング（SDMCTF: Spatial Domain Motion Compensated Temporal Filtering）に基づくビデオ符号化方法と比較して改善された空間スケーラビリティのパフォーマンスを提供する。これは、時間フィルタリングがサブバンド（解像度）当たりで実行されるからであり、したがって、より精細な解像度のサブバンドからの情報の損失は、時間方向におけるドリフトを招かない。

先に説明されたように、それぞれのサブバンドについてディスクリートなＭＣＴＦユニット１３０ａ，１３０ｂ，１３０ｃの使用により、様々な解像度で異なる時間フィルタリング技術を使用することが可能である。たとえば、１実施の形態では、低い解像度のサブバンドについて双方向性の時間フィルタリング技術を使用することができ、高い解像度のサブバンドについて順方向の時間フィルタリング技術を使用することができる。時間フィルタリング技術は、歪み又は複雑さの測度を最小化することに基づいて選択することができる（たとえば、低い解像度のサブバンドは少ない画素を有し、より多くの画素数を有する高い解像度のサブバンドについて順方向の予測が実行される）。かかる時間フィルタリングのオプションに関する柔軟性のある選択により、ＭＣＴＦにより実行されたような厳密な１Ｄ＋２Ｄ分解方式から、時間レベルを通して空間サイズの低減をもつ、より一般的な３次元分解方式へと本発明を移し、この場合、高い空間周波数サブバンドは、より長期の時間フィルタリングから省略される。

それぞれのサブバンドについて個別の区分ユニット１２０ａ，１２０ｂ，１２０ｃの使用により、ＧＯＦはサブバンド当たり適応的に決定することができる。たとえば、ＬＬサブバンドは非常に大きなＧＯＦを有し、Ｈサブバンドは、制限されたＧＯＦを使用することができる。ＧＯＦサイズは、系列の特性、複雑さ又は回復力の要件に基づいて変動することができる。先に説明されたように、図４Ａに示されるように、従来のＭＣＴＦの分解方式は、ぼやけた画像を生成する。しかし、異なる時間的な分解レベル及びＧＯＦサイズの使用により、本発明の３次元ウェーブレットビデオ符号化方式はかかる問題点を克服することが可能である。図４Ｂに示されるように、ＬＬ，ＬＨ（ＨＬ）及びＨＨのＧＯＦサイズは、それぞれ８フレーム、４フレーム及び２フレームであり、最大の分解レベル３，２及び１をそれぞれ可能にする。このように、高い空間周波数サブバンドは、より長期の時間フィルタリングから省略される。

様々なサブバンドの時間分解レベルの数は、内容に基づいて決定することができ、又は特定の歪みのメトリックを低減するため、若しくはそれぞれの解像度における所望の時間スケーラビリティに基づいて決定することができる。たとえば、３０，１５及び７．５ＨｚフレームレートがＣＩＦ（３５２×２８８）サイズの解像度で望まれる場合、３０及び１５ＨｚフレームレートがＳＤ（７０４×５７６）サイズの解像度で望まれる場合、ＬＬ空間サブバンドについて、３つのレベルの時間分解が使用され、ＬＨ，ＨＬ及びＨＨサブバンドについて２つのレベルの時間分解を適用することができる。

先に説明したように、それぞれのサブバンドについて個別のテクスチャ符号化ユニット１４０ａ，１４０ｂ，１４０ｃの使用により、様々な空間サブバンドの適応的なテクスチャ符号化が可能となる。たとえば、ウェーブレット又はＤＣＴベースのテクスチャ符号化方式が使用される場合がある。ＤＣＴに基づくテクスチャ符号化が使用される場合、状況をカバーすること及びカバーしないことに効率的に対処するため、イントラ符号化されたブロックをＧＯＦの何処かに有利に挿入することができる。また、ＭＰＥＧ−４／Ｈ．２６Ｌによる「適応型イントラリフレッシュ」コンセプトは、改善された回復量を提供するために容易に利用することができ、異なる回復力を得るために様々なサブバンドについて異なるリフレッシュレートを使用することができる。このことは、高い解像度のサブバンドを隠すために低い解像度のサブバンドを使用することができるので特に利益があり、したがって、回復力がより重要である。

本発明の別の利点は、デコーダの複雑さのスケーラビリティに関する。異なる計算能力及びディスプレイをもつ多くのデコーダが存在する場合、ＳＮＲ／空間／時間スケーラビリティを通して全てのそれらデコーダをサポートするため、同じスケーラブルビットストリームを使用することができる。たとえば、本発明のエンコーダにより生成されたスケーラブルビットストリームは、低い計算上の負荷のみを招く、低い解像度の空間及び時間分解レベルのみをデコードすることができる低い複雑さをもつデコーダによりデコードすることができる。同様に、本発明のエンコーダにより発生されたスケーラブルビットストリームは、完全な空間及び時間解像度を達成するため、全体のビットストリームをデコードすることができる洗練された復号化能力を有するデコーダでデコードすることができる。

図５は、本発明の例示的な実施の形態に係る３次元のオーバコンプリート・ウェーブレット・ビデオデコーダのブロック図である。デコーダは、本発明のエンコーダにより生成されたビットストリームを復号化するために使用される場合がある。ビデオデコーダ４００は、動き情報から符号化されたウェーブレット係数を分離するためにビットストリームを処理するデマルチプレクサ４１０を含む場合がある。

第一のテクスチャデコーダ４２０は、符号化側で実行されたテクスチャ符号化技術の逆に従って、ウェーブレット係数をテクスチャデコードしてそれぞれ個別のサブバンド１，２，．．．Ｎを得る。第一のテクスチャデコーダ４２０により生成されたサブバンドのウェーブレット係数は、サブバンドのそれぞれのＧＯＦに対応する。動きベクトルデコーダ４３０は、符号化側で実行されたテクスチャ符号化技術の逆の処理に従い、それぞれのサブバンドの動き情報をデコードする。復号化された動きベクトル及び残差テクスチャ情報を使用して、それぞれのサブバンドについて独立にＭＣＴＦユニット４４０ａ，４４０ｂ，４４０ｃにより逆ＭＣＴＦが適用され、逆ウェーブレット変換ユニット４５０は、低レベル、中レベル及び高レベル画像を再構成するため、それぞれのサブバンドを空間的に再構成する。ロウバンドシフトブロックは、フルサイズの画像を組み立てるため、再構成されたサブバンド画像を読み出し、次いで、ロウバンドシフトされたウェーブレット分解は、逆ＭＣＴＦユニット４４０ａ，４４０ｂ，４４０ｃについて拡張された参照フレームを提供するために適用される。ディスプレイの解像度に依存して、ビデオ再構成ユニット（図示せず）は、低レベル解像度のビデオを生成するためにサブバンドのうちの１つを使用するか、中レベル解像度のビデオを生成するために２つのサブバンドを使用するか、若しくは高レベル解像度、フルクオリティビデオを生成するために全てのサブバンドを使用する場合がある。

本発明のビデオスキームで利用される各種プロセスは、以下に更に詳細に説明される。
オーバコンプリート・ウェーブレット領域における動き予測及び補償
１．ロウバンドシフト方法（LBS: Low Band Shifting Method）
ウェーブレット変換で実行される間引き処理は、もはやシフト不変ではないウェーブレット係数を生成する。空間領域における動きは、ウェーブレット係数から正確に予測することはできず、符号化効率におけるかなりの損失を生成する。本発明で利用されるＬＢＳアルゴリズムは、ウェーブレット変換のシフト変化の特性を克服する方法を提供する。第一のレベルで、オリジナル及びシフトされた信号は、ロウサブバンド信号とハイサブバンド信号とに分解される。その後、ロウサブバンド信号は、第一のレベルに関して同じやり方で更に分解される。

図６は、２つのレベルに分解について、ＬＢＳアルゴリズムを使用したオーバコンプリート・ウェーブレット展開を示している。１次元（１Ｄ）の定式化は、複数のレベルを有するウェーブレット分解に容易に拡張することができ、２次元（２Ｄ）画像信号にも拡張することができる。ペア（ｍ，ｎ）は、そのサブバンド内のウェーブレット係数がｘ方向でｍ画素のシフト及びｙ方向でｎ画素のシフトにより生成されたことを示している。ＬＢＳアルゴリズムは、入力サブバンドの全ての可能なシフトについてフルセットのウェーブレット係数を発生する。したがって、表現は、空間領域でいずれかのシフトを正確に伝達する。更に説明されるように、特定の空間位置で同じ分解レベルに対応する異なるシフトされたウェーブレット係数は、「クロスフェーズ」ウェーブレット係数と呼ばれる。

図７は、ＬＢＳ方法を使用して得られた２レベルのオーバコンプリート・ウェーブレット変換のビデオを示している。なお、ｎレベルの分解について、オーバコンプリート・ウェーブレット表現は、原画像のストレージスペースよりも大きい３ｎ＋１であるストレージスペースを必要とする。

２．ウェーブレット係数のインタリーブ
本発明の新しいインタリーブ方式は、図６及び図７に示されるものとは異なるオーバコンプリート・ウェーブレット係数を記憶する。１次元のケースの１レベル分解について本発明のインタリーブ方式を例示している図８に示されるように、シフトインタリーブのための係数は、オーバコンプリート領域における新たな座標がオリジナルの空間領域における関連するシフトに対応するように実行される。

インタリーブ方式は、それぞれの分解レベルで再帰的に使用することができ、２次元信号について直接的に拡張することができる。図９は、本発明のインタリーブ処理を実行後の、図７のビデオの最初のフレームのオーバコンプリート・ウェーブレット係数を示している。図９から分かるように、インタリーブされたロウサブバンド信号は、オーバコンプリート・ウェーブレット・ロウパスフィルタを使用して、オリジナルフレームのロウパスフィルタされたバージョンである。本発明のインタリーブ処理により、本発明のＩＢＭＣＴＦ方法は、サブピクセル精度の動き予測及び補償を提供するのを可能にする。先に提案されたＩＢＭＣＴＦ方式は、隣接するウェーブレット係数間のクロスフェーズの依存性を考慮していないので、最適なサブピクセル精度の動き予測及び補償を提供することができない。さらに、インタリーブ処理により、本発明のＩＢＭＣＴＦ方法は、階層的な可変サイズのブロックマッチング、後方動き補償、及びイントラブロックの適応型の挿入を使用することを可能にする。

ウェーブレットブロックの生成
当該技術分野で公知であるように、ウェーブレット分解では、最高周波数のサブバンドにおける係数を除いて、所与のスケールでのそれぞれの係数は、より再生なスケールでの同じオリエンテーションの係数のセットに関連することができる。多くのウェーブレットコーダでは、この関係は、ウェーブレットツリーと呼ばれるデータ構造として係数を表現することで利用される。ＬＢＳアルゴリズムでは、最も低いサブバンドに位置するそれぞれのウェーブレットツリーの係数は、図１０に示されるようなウェーブレットブロックを形成するために再配置される。ウェーブレットブロックの目的は、ウェーブレット係数と画像において空間的に表現されるものとの間で直接的な関連付けを提供することにある。全てのスケール及びオリエンテーションでの関連する係数は、それぞれのブロックに含まれる。

動き予測の構造
空間領域では、ブロックに基づく動き予測は、画像を小さなブロックに通常分割し、絶対平均差（MAD: Mean Absolute Different）を現在のフレームのそれぞれのブロックに対して最小にする参照フレームのブロックを発見する。ＬＢＳアルゴリズムの動き予測は、現在のウェーブレットブロックと参照のウェーブレットブロックとの間の最小ＭＡＤを発生する動きベクトル（ｄｘ，ｄｙ）を発見する。例として、入力画像が第三のレベルにまで分解され（すなわち、入力画像は全体で１０のサブバンドに分解することができる）、変位ベクトルが（ｄｘ，ｄｙ）である場合、図１０におけるｋ番目のウェーブレットブロックのＭＡＤは、以下のように計算される。

ここで、ｘ_i,k＝ｘ_0,k／２ⁱ及びｙ_i,k＝ｙ_0,k／２ⁱであり、図１０に示されるように、（ｘ_0,k，ｙ_0,k）は空間領域におけるｋ番目のウェーブレットブロックに最初の位置を示す。

（外１）

は、ｘよりも大きくない最も大きな整数を示している。ここで、参照フレームのｉ番目のレベルのＨＬサブバンドは、ＨＬ_ref ⁽ⁱ⁾（m,n;x,y）により表され、（m,n）は、空間領域におけるｘ方向及びｙ方向のシフト数を示しており、（x,y）はサブバンド信号の位置である。動き予測の最適な基準は、このＭＡＤを最小にする最適値（ｄｘ，ｄｙ）を発見する。なお、オリジナルのＬＢＳアルゴリズムでは、（ｄｘ，ｄｙ）の整数ではない値について、先の式を使用してＭＡＤを計算するのは可能ではない。より詳細には、従来のＩＢＭＣＴＦビデオ符号化方式におけるＭＡＤは、同じ位相のウェーブレット係数にのみ基づいており、結果的に得られるサブピクセル精度の動き予測及び補償は最適ではない。

しかし、本発明のＩＢＭＣＴＦ方法では、インタリーブ処理により、ＭＡＤ計算は、サブピクセル精度であったとしても、ＳＤＭＣＴＦビデオ符号化方式におけるのと同様に実行することができる。より詳細には、本発明のＩＢＭＣＴＦ方法について変位ベクトル（ｄｘ，ｄｙ）のためのＭＡＤは、以下のように計算される。

ここで、たとえばＬＢＳ＿ＨＬ_ref ⁽ⁱ⁾（ｘ，ｙ）は、本発明のインタリーブ処理を使用した参照フレームの拡張されたＨＬサブバンドを示している。なお、（ｄｘ、ｄｙ）が整数ではない値であってとしても、整数ではない変位についてＭＡＤを発生するため、それぞれ拡張されたサブバンドについて、ＳＤＭＣＴＦのために使用される同じ補間技術を容易に使用することができる。したがって、本発明のＩＢＭＣＴＦビデオ符号化方式は、既存のＩＢＭＣＴＦ符号化方式に比較して、より効率的であって、確かに最適なサブピクセル動き予測を提供する。また、ウェーブレットブロック構造による本発明のＩＢＭＣＴＦビデオ符号化方式では、符号化されるべき動きベクトルの数がＳＤＭＣＴＦのそれに同じであるため、動きベクトルのオーバヘッドを招かない。動き予測は、残差の符号化と密に揃えられるので、符号化性能を改善するため、（残差信号のエントロピーのような）より洗練された動き予測基準が使用される場合がある。

シミュレーション結果
オーバコンプリート・ウェーブレット領域における本発明に係る動き予測及び動き補償がウェーブレット領域でより低い残差エネルギーを生じることを確かめるため、１レベルの時間分解を使用し、ＩＢＭＣＴＦ及びＳＤＭＣＴＦの両者についてＭＡＤを計算する。なお、フレーム間ウェーブレット符号化において、ＭＡＤは空間領域で計算されるが、実際に最小化される必要があるのは、ウェーブレット領域における残差エネルギーである。図１１は、時間的なハイサブバンドフレームについてウェーブレット領域におけるＭＡＤを例示している。ＭＡＤ値は、時間的なハイサブバンドの最初の５０フレームにわたり平均される。ＳＤＭＣＴＦケースについて、ウェーブレット領域における対応するＭＡＤ値は、残差信号のウェーブレット変換後に計算される。なお、ＩＢＭＣＴＦのためのＭＡＤは、ＳＤＭＣＴＦのＭＡＤよりも常に小さく、これは、ＳＤＭＣＴＦに対して本発明のＩＢＭＣＴＦビデオ符号化方式の可能な符号化ゲインを示している。

図１２から図１７は、本発明のＩＢＭＣＴＦビデオ符号化方式のレート歪み性能、及び整数及び１／８画素精度の動き予測のために幾つかのテスト系列についてＳＤＭＣＴＦのレート歪み性能をプロットしたものである。ＭＣＴＦのインバンド構造は、Daubechies９／７フィルタにより実行される２つのレベルの空間分解により計算されており、４つのレベルの分解は、時間方向について使用されている。テクスチャ符号化は、S.T.Hsiang et al.,による“Invertible Three-Dimensional Analysis/Synthesis Systems For Video Coding With Half-Pixel Accurate Motion Compensation” VCIP 1999, SPIE Vol.3653, pp.537-546と題される論文において記載されるＥＺＢＣアルゴリズムにより実行されている。ＳＤＭＣＴＦと同様に、１／８画素を使用したサブピクセル動き予測は、ＩＢＭＣＴＦの符号化性能を大きく改善する。ＩＢＭＣＴＦ及びＳＤＭＣＴＦの全体の符号化性能は、匹敵するものである。しかし、“Coastguard”、“Silent”及び“Stefan”のような幾つかの系列は、０．５ｄＢに及ぶ性能ゲインを示し、“Mobile”系列について、０．３ｄＢの性能の低下を観察することができる。視覚的に、本発明のＩＢＭＣＴＦアルゴリズムは、動き予測のブロッキングアーチファクトがない。これは、動き予測及びフィルタリングがそれぞれサブバンドで行われ、動きの境界がウェーブレット再構成フィルタを使用してフィルタ出力されるためである。

図１８は、本発明の原理を実現するために使用される場合があるシステム５００の例示的な実施の形態である。システム５００は、テレビジョン、セットトップボックス、デスクトップ、ラップトップ又はパームトップコンピュータ、パーソナルデジタルアシスタント（ＰＤＡ）、ビデオカセットレコーダ（ＶＣＲ）、デジタルビデオレコーダ（ＤＶＲ）、ＴｉＶＯ装置等のようなビデオ／イメージストレージ装置、及びこれらの装置と他の装置の一部又は組み合わせを表している場合がある。システム５００は、１以上のビデオ／イメージソース５０１、１以上の入力／出力装置５０２、プロセッサ５０３及びメモリ５０４を含んでいる。ビデオ／イメージソース５０１は、たとえば、テレビ受像機、ＶＣＲ又は他のビデオ／イメージストレージ装置を表している場合がある。ソース５０１は、たとえば、インターネット、ワイドエリアネットワーク、メトロポリタンエリアネットワーク、ローカルエリアネットワーク、地上波放送システム、ケーブルネットワーク、衛星ネットワーク、無線ネットワーク、又は電話ネットワーク、並びにこれらのタイプのネットワークと他のタイプのネットワークの一部又は組み合わせをとおして、１以上のサーバからビデオを受信するための１以上のネットワークコネクションを代替的に表している場合がある。

入力／出力装置５０２、プロセッサ５０３及びメモリ５０４は、通信媒体５０５を通して通信する場合がある。通信媒体５０５は、たとえば、バス、通信ネットワーク、回路、回路カード又は他の装置からなる１以上の内部接続、並びにこれらの通信媒体と他の通信媒体との一部又は組み合わせを表している場合がある。ソース５０１からの入力ビデオデータは、メモリ５０４に記憶され、表示装置５０６に供給される出力ビデオ／イメージを生成するためにプロセッサ５０３により実行される１以上のソフトウェアプログラムに従って処理される。

好適な実施の形態では、本発明の符号化及び復号化原理は、システムにより実行されるコンピュータ読取り可能なコードにより実現される場合がある。コードは、メモリ５０４に記憶され、ＣＤ−ＲＯＭ又はフロッピー（登録商標）ディスクのようなメモリ媒体から読取り／ダウンロードされる場合がある。他の実施の形態では、ハードウェア回路は、本発明を実現するためのソフトウェア命令の代わりに、又は該ソフトウェア命令と組み合わせて使用される場合がある。たとえば、図１、図２及び図５に示される機能的なエレメントは、個別のハードウェアエレメントとして実現される場合がある。

本発明は特定の実施の形態の観点で先に説明されてきたが、本発明は本明細書に開示される実施の形態に限定又は制限されることが意図されていないことを理解されたい。たとえば、限定されるものではないがウェーブレット又はマッチングの遂行を含めて、ＤＣＴ以外の他の変換を利用することもできる。これら及び全ての他のかかる変更及び変形は、特許請求の範囲内にあることが考慮される。

本発明のＩＢＭＣＴＦ方法を実行するために使用される場合がある、本発明の例示的な実施の形態に係る３次元オーバコンプリート・ウェーブレットビデオエンコーダのブロック図である。本発明で使用される適応型高次の補間フィルタのブロック図である。本発明に係るウェーブレット係数のオーバコンプリート展開による動き予測のための拡張された参照フレームの発生を例示する図である。ぼやけた画像を発生する従来のＭＣＴＦのための分解方式を例示する図である。本発明で使用される分解方式を例示する図である。本発明の例示的な実施の形態に係る３次元オーバコンプリート・ウェーブレットビデオデコーダのブロック図である。２つのレベル分割のためのＬＢＳアルゴリズムを使用するオーバコンプリート・ウェーブレット展開を示す図である。ＬＢＳ方法を使用して得られた２レベルのオーバコンプリート・ウェーブレット変換のビデオである。１次元ケースの１レベル分解について本発明のインタリーブ方式を例示する図である。本発明のインタリーブ処理を実行後、図７のビデオの最初のフレームのオーバコンプリート・ウェーブレット係数を示す図である。ＬＢＳアルゴリズムによるウェーブレットブロックの形式を示す図である。時間的な高周波サブバンドフレームについてウェーブレット領域におけるＭＡＤを例示する表である。本発明のＩＢＭＣＴＦビデオ符号化方式のレート歪みの性能のプロット、及び整数及び１／８精度の動き予測について幾つかのテスト系列のためのＳＤＭＣＴＦのプロットである。本発明のＩＢＭＣＴＦビデオ符号化方式のレート歪みの性能のプロット、及び整数及び１／８精度の動き予測について幾つかのテスト系列のためのＳＤＭＣＴＦのプロットである。本発明のＩＢＭＣＴＦビデオ符号化方式のレート歪みの性能のプロット、及び整数及び１／８精度の動き予測について幾つかのテスト系列のためのＳＤＭＣＴＦのプロットである。本発明のＩＢＭＣＴＦビデオ符号化方式のレート歪みの性能のプロット、及び整数及び１／８精度の動き予測について幾つかのテスト系列のためのＳＤＭＣＴＦのプロットである。本発明のＩＢＭＣＴＦビデオ符号化方式のレート歪みの性能のプロット、及び整数及び１／８精度の動き予測について幾つかのテスト系列のためのＳＤＭＣＴＦのプロットである。本発明のＩＢＭＣＴＦビデオ符号化方式のレート歪みの性能のプロット、及び整数及び１／８精度の動き予測について幾つかのテスト系列のためのＳＤＭＣＴＦのプロットである。本発明の原理を実現するために使用される場合があるシステムの例示的な実施の形態である。

Claims

ビデオを符号化する方法であって、
ビデオ信号を供給するステップと、
異なる周波数サブバンドからなる少なくとも２つの信号に該ビデオ信号を空間的に分解するステップと、
個別化された動き補償時間フィルタリング方式をそれぞれのサブバンド信号に適用するステップと、
動き補償された時間フィルタリングされたサブバンド信号のそれぞれをテクスチャ符号化するステップと、
を有する方法。
該空間的に分解するステップは、ウェーブレットフィルタリングにより実行される、
請求項１記載の方法。
該ビデオ信号は、複数のフレームを定義しており、該空間的に分解するステップは、異なる周波数サブバンドからなる少なくとも２つの信号に該ビデオ信号のフレームのそれぞれを空間的に分解するステップを含む、
請求項１記載の方法。
該動き補償時間フィルタリング方式を適用する該ステップの前に、該サブバンド信号のそれぞれを所定の内容を有する時間のグループ・オブ・フレームを表す信号に分割するステップを更に有する、
請求項１記載の方法。
該それぞれのサブバンド信号に適用される該個別化された動き補償時間フィルタリング方式は、該グループ・オブ・フレームの内容に従って個別化される、
請求項４記載の方法。
該動き補償時間フィルタリング方式を適用する該ステップの前に、該サブバンド信号のそれぞれをグループ・オブ・フレームを表す信号に分割するステップを更に有し、少なくとも１つのグループ・オブ・フレーム信号でのフレーム数は、適応的に決定される、
請求項１記載の方法。
該それぞれのサブバンド信号に適用される該個別化された動き補償時間フィルタリング方式は、該サブバンド信号の空間解像度に従って個別化される、
請求項１記載の方法。
該それぞれのサブバンド信号に該個別化された動き補償時間フィルタリング方式を適用する該ステップは、信号コンテンツに依存する、可変の精度による動き予測を使用することで実行される、
請求項１記載の方法。
該それぞれのサブバンド信号に適用される該個別化された動き補償時間フィルタリング方式は、該サブバンド信号の時間的な相関に従って個別化される、
請求項１記載の方法。
該それぞれのサブバンド信号に該個別化された動き補償時間フィルタリング方式を適用するステップは、動き予測の性能を最大にするために個別化された補間フィルタを使用することで実行される、
請求項１記載の方法。
該それぞれのサブバンド信号に適用される該個別化された動き補償時間フィルタリング方式は、該サブバンド信号の特性に従って個別化される、
請求項１記載の方法。
該それぞれのサブバンド信号に該個別化された動き補償時間フィルタリング方式を適用するステップは、多方向の時間フィルタと単方向の時間フィルタからなるグループから選択された時間フィルタを使用することで実行される、
請求項１記載の方法。
該それぞれのサブバンド信号に該個別化された動き補償時間フィルタリング方式を適用する該ステップは、
３つの更なる位相からなるウェーブレット係数を生成するため、該空間的に分解するステップで生成されたウェーブレット係数の位相による該サブバンド信号を少なくとも３回シフトするステップと、
拡張された参照フレームを生成するため、４つの位相からなるウェーブレット係数をインタリーブするステップと、
該拡張された参照フレームを使用して動きを予測するステップと、
を含む請求項１記載の方法。
該空間的に分解するステップは、それぞれの分解レベルが異なる周波数のサブバンドを含む複数の分解レベルを提供するために実行され、該個別化された動き補償時間フィルタリング方式を適用するステップは、該シフトするステップ、該インタリーブするステップ及び該予測するステップを実行することで、それぞれの分解レベルについて再帰的に適用される、
請求項１３記載の方法。
該それぞれのサブバンド信号に該個別化された動き補償時間フィルタリング方式を適用するステップは、
３つの更なる位相からなるウェーブレット係数を生成するため、該空間的に分解するステップで生成されたウェーブレット係数の位相による該サブバンド信号を少なくとも３回シフトするステップと、
拡張された参照フレームを生成するため、４つの位相からなるウェーブレット係数を結合するステップと、
該拡張されたフレームから分数の画素を生成するステップと、
該分数画素に従って動きを予測するステップと、
を含む請求項１記載の方法。
該空間的に分解するステップは、それぞれの分解レベルが異なる周波数サブバンドを含む複数の分解レベルを提供するために実行され、該個別化された動き補償時間フィルタリング方式を適用するステップは、該シフトするステップ、該結合するステップ、該発生するステップ及び該予測するステップを実行することで、それぞれの分解レベルについて再帰的に適用される、
請求項１４記載の方法。
ビデオを符号化するための記憶媒体であって、
異なる周波数サブバンドからなる少なくとも２つの信号にビデオ信号を空間的に分解するためのコードと、
それぞれのサブバンド信号に個別化された動き補償時間フィルタリング方式を適用するためのコードと、
該動き補償時間フィルタリングされたサブバンド信号のそれぞれをテクスチャ符号化するためのコードと、
を含む記憶媒体。
ビデオを符号化するための装置であって、
異なる周波数サブバンドからなる少なくとも２つの信号にビデオ信号を空間的に分解するためのウェーブレット変換ユニットと、
該少なくとも２つのサブバンド信号のそれぞれについて、個別化された動き補償時間フィルタリング方式をその関連するサブバンド信号に適用する動き補償時間フィルタリングユニットと、
該少なくとも２つのサブバンド信号について、その関連する動き補償時間フィルタリングされたサブバンド信号をテクスチャ符号化するテクスチャ符号化ユニットと、
を有する装置。
それぞれのサブバンド信号について、所定の内容を含む時間のグループ・オブ・フレームを表す信号にその関連するサブバンド信号を分割する区分ユニットを更に有する、
請求項１８記載の装置。
それぞれの動き補償時間フィルタリングユニットは、
３つの更なる位相からなるウェーブレット係数を生成するため、ウェーブレット係数の位相によるその関連するサブバンド信号を少なくとも３回シフトするロウバンドシフトユニットと、
拡張された参照フレームを生成するため、４つの位相からなるウェーブレット係数をインタリーブするインタリーブユニットと、
を含む請求項１８記載の装置。
それぞれの動き補償時間フィルタリングユニットは、該拡張されたフレームから分数の画素を生成するための補間ユニットを更に含む、
請求項２０記載の装置。
それぞれの動き補償時間フィルタリングユニットは、該分数の画素に従って動きを予測する動き予測ユニットを更に含む、
請求項２１記載の装置。
ビデオを復号化する方法であって、
少なくとも２つの、符号化され、動き補償時間フィルタリングされた、ビデオ信号の異なる周波数サブバンド信号を含む信号を復号化するステップと、
動き補償時間フィルタリングとは逆の処理を復号化された少なくとも２つのサブバンド信号のそれぞれに独立に適用するステップと、
該少なくとも２つのサブバンド信号を空間的に構成し直すステップと、
該少なくとも２つの空間的に構成し直されたサブバンド信号のうちの少なくとも１つからビデオ信号を再構成するステップと、
を有する方法。
該ビデオ信号は、少なくとも２つの空間的に構成し直されたサブバンド信号の全てから再構成される、
請求項２３記載の方法。
ビデオを復号化するためのメモリ媒体であって、
少なくとも２つの、符号化され、動き補償時間フィルタリングされた、ビデオ信号の異なる周波数サブバンド信号を含む信号を復号化するためのコードと、
動き補償時間フィルタリングとは逆の処理を該復号化された少なくとも２つのサブバンド信号のそれぞれに独立に適用するためのコードと、
該少なくとも２つのサブバンド信号を空間的に構成し直すためのコードと、
該少なくとも２つの空間的に構成し直されたサブバンド信号のうちの少なくとも１つからビデオ信号を再構成するためのコードと、
を有する記憶媒体。
ビデオを復号化する装置であって、
少なくとも２つの、符号化され、動き補償時間フィルタリングされた、ビデオ信号の異なる周波数サブバンド信号を含む信号を復号化するテクスチャ復号化ユニットと、
該少なくとも２つのサブバンド信号のそれぞれについて、動き補償時間フィルタリングとは逆の処理をその関連する復号化された少なくとも２つのサブバンド信号に独立に適用する逆動き補償時間フィルタリングユニットと、
該少なくとも２つのサブバンド信号を空間的に構成し直すための逆ウェーブレット変換ユニットと、
該少なくとも２つの空間的に構成し直されたサブバンド信号のうちの少なくとも１つからビデオ信号を再構成するためのビデオ再構成ユニットと、
を有する装置。