JP2004523994A

JP2004523994A - 一連のフレームを符号化する方法

Info

Publication number: JP2004523994A
Application number: JP2002582623A
Authority: JP
Inventors: ペスケ‐ポペスキュ，ベアトリス; ボトロー，ヴァンサン
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-04-10
Filing date: 2002-04-02
Publication date: 2004-08-05
Also published as: US6983021B2; CN1251509C; US20030026339A1; EP1380174A1; KR20030014705A; CN1461563A; WO2002085026A1

Abstract

本発明は、三次元（３Ｄ）体積と考えられるフレームに対して適用されるフィルタリング段階を含む３Ｄサブバンド分解により一連のフレームを符号化する方法に関する。分解は、現れた領域に対応する二重連結された画素を生じさせる動き推定及び補償の後にフレームの連続する群に適用される。最小化規準は、参照フレームの二重連結された画素の時間的なフィルタリングのために、詳細なサブバンドの最小エネルギーを生じさせる画素を現在フレームから選択するために与えられる。３Ｄ分解の時間的な部分は、リフティングスキームの予測段階において参照フレーム中の隣接するウィンドウからの画素の平均を用いる重なり合った動き補償を含む、リフティングスキームに基づく時間的フィルタリングを含む時間的ウェーブレット変換であり得る。

Description

【０００１】
本発明は、一連のフレームを三次元（３Ｄ）体積として考えたものに対応する３Ｄ空間・時間データに適用される空間及び時間フィルタリング段階を含む３Ｄサブバンド分解により一連のフレームを符号化する方法であって、分解は、連続的なフレームの各群のフレームに対して、時間分解の各レベルにおいて低周波数時間サブバンド中でブロックベースの動き推定及び補償操作を行った後に限り連続的なフレームの群に適用され、この補償操作により、フィルタリングされた画素のうちに、現在のフレームの中で動き中に現れるようになる参照フレームの領域に対応する二重連結された画素が生ずる方法に関する。
【０００２】
近年のマルチメディア用途の拡大と、異種のネットワークを介して圧縮されたビットストリームを伝える必要性により、スケーラビリティはビデオ符号化器のための非常に重要な特徴と考えられるようになってきた。三次元（３Ｄ）ウェーブレット分解は、自然な空間解像度とフレームレートのスケーラビリティを与える。例えば、B. J. Kim及びW.A. Pearlmanによる"An embedded wavelet video coder using three-dimensional set partitioning in hierarchical trees (SPIHT)", Proceedings of Data Compression Conference, Snowbird, USA, March 25-27, 1997, pp. 251-260に記載されている３ＤＳＰＩＨＴアルゴリズム等の埋込符号化アルゴリズムは、階層木中の係数の深さ方向（in-depth）走査及びビット平面符号化を用いることによって、所望のＳＮＲスケーラビリティを生じさせる。一連のフレームに適用される大局的な符号化／復号化スキームは、大きい変位（より正確には、動き補償されたフレームに対して各解像度レベルにおいてＨａａｒフィルタが適用される）を考慮に入れるために、連続するフレーム間の動きの方向に時間的な多解像度解析を含んでもよく、この時間的な解析に続いて、得られた時間的サブバンドの空間的な多解像度解析が行われる。符号化方法は、変更された３ＤＳＰＩＨＴアルゴリズムでありその後に文脈（contextual）算術符号化器が続く。このようにして、スケーラビリティは、質だけでなく、時間的な解像度及び空間的な解像度に関しても達成される。
【０００３】
しかしながら、幾つかの研究ではスケーラブルな符号化アルゴリズム及び空間的なウェーブレット変換の考えられうる改善について取り組みがなされてきたが、３Ｄ分解で使用される時間的なウェーブレット変換の特殊性を利用することについてはあまり努力がされてきていない。時間的なウェーブレット変換は本質的には、動き推定段階により非線形である。例えば"Factoring wavelet transforms into lifting steps", by I. Daubechies and W. Sweldens, Journal of Fourier Analysis applications, vol. 4, no 3, 1998, pp. 247-269に記載されているいわゆるリフティングスキームは、ウエーブレット変換を構築するための柔軟な枠組みを与える（単一次元信号を処理するため及び画像符号化又は特徴抽出のための適切な分解を与えるための関心については既に分かっている）。このスキームの利点は、複雑性（"in-place"演算）と更なる機能の両方に関するものであり、即ち各線形ウェーブレット分解がこの形にされうるだけでなく、予測・更新段階においても非線形演算子の導入を可能とする。
【０００４】
時間的な多解像度解析に関する重要な点は、時間的なフィルタ長の選択であり、即ち、長いフィルタは連続するフレーム間に存在する時間的な相関をよりよく利用する。しかしながら、J. R. Ohmによる"Three-dimensional subband coding with motion compensation", IEEE Transactions on Image Processing, vol. 3, no. 5, 1994, pp. 559-571では、この長いフィルタは動きにぼけを生じさせ、復号化器側でバッファメモリ要件（フィルタ長に対応する）と再構成遅延を増加させ、これはリアルタイム適用では望ましくないことがあることが示されている。更に、符号化効率は、より長いフィルタで時間的解析を行うことによっては大きくは向上しない。従って、時間フィルタリングのためにはＨａａｒフィルタが望ましい。更に、時間的な分解のためにＨａａｒフィルタが使用されるとき、２での時間的ダウンサンプリングにより、動き推定及び動き補償（ＭＥ／ＭＣ）は入力シーケンスの２つのフレームごとにのみ行われる。この処理を時間的な近似サブバンドに対する幾つかの分解レベルに亘って繰り返すことにより、ＭＥ／ＭＣ操作の総数は予測スキームの場合とほぼ同じである。
【０００５】
しかしながら、動き補償された時間的フィルタリングは、二重に連結された画素及び連結されていない画素、即ち２回フィルタリングされた画素又は全くフィルタリングされていない画素の問題を生ずる。S. J. Choi 及びJ. W. Woodsによる"Motion-compensated 3D subband coding of video", IEEE Trans. on Image Processing, vol. 8, no. 2, pp. 155-164, Feb. 1999で提案されている解決策は、現在フレーム中の画素と同じ位置で高域通過係数を計算し、低域通過係数として動き補償された参照フレーム中で同じ場所に配置されている画素をとることでありうる。多数の連結された画素の場合、現在のフレームを上から下へ、左から右へ走査し、低域通過係数の計算のためにそれを指している現在フレーム中の最初の画素を考慮することが可能である。それでもなお、これは最善の方法ではないと思われる。
【０００６】
所与の解像度レベルでは、Ｈ［ｍ，ｎ］を時間的高周波数サブバンド中の画素とし、Ｌ［ｍ，ｎ］を低周波数サブバンド中の画素とし、（ｕ_m,n，ｖ_m,n）を画素（ｍ，ｎ）に関連付けられる動きベクトルの２つの成分として示すことができる。分数画素（ｐｅｌ）動き推定が可能であれば、動きベクトルの整数部は
【０００７】
（外１）

と示される。従って、Choiの方法では、連結された画素についての高域通過サブバンド及び低域通過サブバンドを計算することを可能とする式は、
【０００８】
【数１】

であり、
【０００９】
（外２）

はフィールドＸの補間値を表す。連結されていない画素について、周波数成分は以前と同様に得られ、低周波数値は参照画素の単純にスケーリングした値である。
【００１０】
【数２】

Ｈａａｒ変換のリフティングスキームの特定の場合、動き方向の時間的な低域通過フィルタリングを、
【００１１】
【数３】

と書くことができる。この式は、式（１）と共に考慮すると、時間的Ｈａａｒリフティングに用いられる非線形演算子Ｐ（予測）とＵ（更新）の形を演繹的に推論することを可能とする。Ｐは動き補償演算子（Ｃ）であり、分数画素動き推定の場合は、その後に補間（Ｉ）が続くことがわかる。その間、Ｕは、Ｐにおける動きベクトルと同じであるが逆の符号の動きベクトルを用いた動き補償演算子であり、その後に補間が続くものと認められうる。その後、これらの演算は、
【００１２】
【数４】

と表わされ、
【００１３】
（外３）

は（ｐ，ｑ）によって表わされる。
【００１４】
これらの表記を用いて、連結された画素の時間的な解析は、
【００１５】
【数５】

と書くことができ、合成部分については、連結された画素については（参照フレーム中の連結されていない画素は上記の式（３）から直接得られる）、
【００１６】
【数６】

及び、
【００１７】
【数７】

である。
【００１８】
従って、本発明の第１の目的は、現れた領域の処理を改善するために更新演算子を変更するためにかかるリフティングの公式化を用いることである。
【００１９】
このために、本発明は、本願の冒頭に記載の符号化方法であって、二重連結された画素の識別段階の後に、最小化規準に基づき、参照フレームの二重連結された画素の時間フィルタリングのために詳細サブバンドの最小エネルギーを生じさせる画素を現在のフレーム中から選択するよう与えられる決定段階が行われ、考慮されるエネルギーは高周波数時間サブバンド中の二重連結された画素の周りの平均エネルギーであり、平均エネルギーは低域通過フィルタリング操作によって計算されることを特徴とする方法に関する。
【００２０】
提案される技術的な解決策は、参照フレームＡ中の所与の位置における画素を詳細サブバンドのエネルギーを最小化することによって得られる現在フレームＢの最も近い値に関連付けることを意図する。
【００２１】
特に有利な実施例では、最小化規準は、候補連結画素に関連する動きベクトルのノルムの最小化を実行する第２のものをエネルギー規準に合わせるために与えられる。
【００２２】
この場合、動きベクトルのノルムに基づく最小化規準は、あまりに大きい動きベクトルの最適化を考慮に入れないよう、ノルムの値に適用される閾値を用いる。
【００２３】
本発明の他の目的は、ブロックベースの動き補償に関連するブロッキングアーティファクトを減少させるために更新演算子を変更するためにリフティングの公式化を用いることである。
【００２４】
このために、本発明は、３Ｄ分解の時間的な部分は、各分解レベルにおいて順次に分割段階、予測段階、及び更新段階を含むいわゆるリフティングスキームに基づく時間フィルタリングを含む時間ウェーブレット変換であり、方法は更に、時間的フィルタリングは、ブロックベースの動き推定によって生ずるブロッキングアーティファクトを減少させるために、予測段階において参照フレーム中の隣接するウィンドウからの画素の平均を用いる重ね合わされた動き補償を含むことを特徴とする、上述の符号化方法に関する。
【００２５】
連結されていない画素及び二重に連結された画素の問題は、動いている対象によって現れる領域の問題に非常によく関連する。実際、時間Ｔにおいてフレーム中の共通の部分に対応し、時間Ｔ＋ΔＴにおいて別々となる２つの対象を考える。この場合、現在フレーム中の２つの領域は、動き補償により、参照（又は先行）フレーム中の同じ領域に対応する。対象のうちの１つについて、この領域は現れた（uncovered）領域となる。この領域は、参照フレーム中では二重に連結されて見える。動き補償処理で出会う最初のブロックをこれらの二重連結された画素に関連付ける文献"Motion-compensated 3D subband coding of video"の中に記載されているアプローチに対して、リフティングスキームに基づいて同じ規準を適用することによってこの選択を最適化することが提案されている。ここで利用される主な構造的な性質は、更新段階（時間的な低周波数サブバンドの計算）のために、予測段階から入手可能な情報（高周波数サブバンド）及び低周波数帯域中の因果的情報の全てを使用することが可能であるということである。
【００２６】
第１の提案される規準に対応する基本的な考えは、２つの動く対象の詳細なサブバンドのエネルギーに関連する。第１の対象が時間Ｔにおいて前景上にあった場合、第２の対象中の現れた領域は詳細な係数のより高いエネルギーを与える。第２の規準は、動きフィールドの規則化の条件であり、即ち、参照フレーム中で同じ画素に幾つかの画素が連結されていれば、最も小さい変位のものがフィルタリングのために選択される。
【００２７】
これらの考えは、上述の非線形リフティング枠組みの中で形式化されうる。参照フレーム中の多数連結された画素の場合、これらのうちの位置（ｐ，ｑ）にあるものと、現在フレーム中の位置（ｍ₁，ｎ₁）及び（ｍ₂，ｎ₂）において動き推定アルゴリズムによって見つけられた２つの画素とを考えると、２つの対応する動きベクトル（ｕ_m1,n1，ｖ_m1,n1）及び（ｕ_m2,n2，ｖ_m2,n2）を使用すると、
【００２８】
【数８】

が得られる。これを用いると、式（５）及び（６）は、２つの画素（ｍ₁，ｎ₁）及び（ｍ₂，ｎ₂）について書くことができ、詳細なサブバンド中に２つの異なる値Ｈ［ｍ₁，ｎ₁］及びＨ［ｍ₂，ｎ₂］を生じさせる。従って、近似サブバンド中の値は、これらの２つの値のうちのいずれかを用いて計算されうる（尚、いずれの値も完全な再構成を可能とする）。実際は、Ｐ_(p,q)が参照フレーム中の画素（ｐ，ｑ）に連結された現在フレーム中の全ての画素（ｍ，ｎ）の組を示すとき、
【００２９】
【数９】

であるよう、任意の演算子ｆについて完全な再構成の性質が保証されることがわかる。
【００３０】
演算子ｆの選択の１つの規準は、Ａ［ｐ，ｑ］をフレームＢ中の「最も近い」値に関連付けるよう詳細なサブバンドのエネルギーを最小化することである。これは、低域通過フィルタリングするために画素（ｍ₀，ｎ₀）を、
【００３１】
【数１０】

であるよう使用することを意味する。Choiのアルゴリズムでは、提案されるアルゴリズムにおいて、復号化器へ分類マップ（どの画素が連結されておりどの画素が連結されていないかを示す）を伝送する必要はない。復号化器は、符号化器の手順と対称的な手順をたどるため、高周波数係数のエネルギーに対してなされた決定から得られる同じ分類マップがあることが望ましい。
【００３２】
それでもなお、単一の画素の値に基づく決定は十分には強くない。特に、前の例では、高周波数サブバンド中の２つの値は、ＳＰＩＨＴアルゴリズムで用いられる順次量子化方法により、同じ量子化ステップでは量子化されないかもしれない。従って、これは誤った決定を生じさせうる。上述の決定は、当該の画素の周りの変位されたフレーム差（ＤＦＤ）の平均エネルギーを比較することによって更に強くされえ、即ち、
【００３３】
【数１１】

但し、Ｓ（ｐ，ｑ）は画素（ｐ，ｑ）の周りの近傍であり、ｕ（ｋ，ｌ）は近傍Ｓ（ｐ，ｑ）中の各画素に対する重み係数であり、中心点までの距離に依存する。例えば、
【００３４】
【数１２】

を選ぶことができ、但しα＞０は忘却係数（forgetting factor）である。
【００３５】
最小化規準中の第２の項は、動きベクトルのノルムであり、
【００３６】
【数１３】

である。規則化された規準は
【００３７】
【数１４】

で表わされ、λは規則化パラメータである。動きベクトルが大きすぎる場合、その値はあまり信頼性が高くないため、これを最適化の際に考慮にいれないことを選ぶことができる。これは以下の規準、
【００３８】
【数１５】

を生じさせ、但し、ｓは経験的に決定されるべき閾値である。従って、この閾値よりも大きい動きベクトルに対してペナルティが与えられる。
【００３９】
しかしながら、ブロックベースの動き推定アルゴリズムはブロッキングアーティファクトを受ける。結果として生ずる動き補償されたフレームに適用される空間的な変換がウェーブレット解析であれば、これらのアーティファクトは望ましくない大きなウェーブレット係数を生じさせ、従って符号化効率が減少される。以前の非線形リフティングの式から推論されうる改善は、ブロッキングアーティファクトを減少させるために、時間的なフィルタリングアルゴリズム内に重なり合った動き補償を導入する可能性に関連する。この操作は、予測段階において、参照フレーム中の隣接するウィンドウからの画素の平均を用いる。
【００４０】
例えば、１つの画素の重ね合わせを考える場合、ブロックの最初の（又は最後の）行に属する画素の広域通過フィルタリングは、この場合は、
【００４１】
【数１６】

となり、但し、βは定数であり、０＜β＜１である。
【００４２】
同様の処理は、各ブロックの最初の（又は最後の）列に対して、以下の式、
【００４３】
【数１７】

に従って適用される。定数βは実験的に決定される。本例では、定数β＝０．２により最善の結果が得られた。

Claims

一連のフレームを三次元（３Ｄ）体積として考えたものに対応する３Ｄ空間・時間データに適用される空間及び時間フィルタリング段階を含む３Ｄサブバンド分解により一連のフレームを符号化する方法であって、
前記分解は、連続的なフレームの各群のフレームに対して、時間分解の各レベルにおいて低周波数時間サブバンド中でブロックベースの動き推定及び補償操作を行った後に限り連続的なフレームの群に適用され、この補償操作により、フィルタリングされた画素のうちに、現在のフレームの中で動き中に現れるようになる参照フレームの領域に対応する二重連結された画素が生じ、
前記方法は更に、
前記二重連結された画素の識別段階の後に、最小化規準に基づき、参照フレームの二重連結された画素の時間フィルタリングのために詳細サブバンドの最小エネルギーを生じさせる画素を現在のフレーム中から選択するよう与えられる決定段階が行われ、考慮されるエネルギーは高周波数時間サブバンド中の前記二重連結された画素の周りの平均エネルギーであり、前記平均エネルギーは低域通過フィルタリング操作によって計算される、方法。
前記最小化規準は、候補連結画素に関連する動きベクトルのノルムの最小化を実行する第２のものをエネルギー規準に合わせるために与えられることを特徴とする請求項１記載の符号化方法。
前記動きベクトルのノルムに基づく最小化規準は、あまりに大きい動きベクトルの最適化を考慮に入れないよう、前記ノルムの値に適用される閾値を用いる、請求項２記載の符号化方法。
前記３Ｄ分解の時間的な部分は、各分解レベルにおいて順次に分割段階、予測段階、及び更新段階を含むいわゆるリフティングスキームに基づく時間フィルタリングを含む時間ウェーブレット変換であり、前記方法は更に、
前記時間的フィルタリングは、前記ブロックベースの動き推定によって生ずるブロッキングアーティファクトを減少させるために、予測段階において参照フレーム中の隣接するウィンドウからの画素の平均を用いる重ね合わされた動き補償を含むことを特徴とする、請求項１記載の符号化方法。