JP5791618B2

JP5791618B2 - ビデオ・シーケンスを処理する方法及び装置

Info

Publication number: JP5791618B2
Application number: JP2012535689A
Authority: JP
Inventors: シコラ，トマス; クルツ，アンドレアス; グランツ，アレクサンダー
Original assignee: ベステルエレクトロニクサナイーベティカレトエー．エス．
Priority date: 2009-10-29
Filing date: 2010-10-28
Publication date: 2015-10-07
Anticipated expiration: 2030-10-28
Also published as: US9445119B2; EP2494780A1; US20120294362A1; CN102939749A; WO2011050998A1; JP2013509763A; EP2494780B1; CN102939749B

Description

本発明は、ビデオ・シーケンス（動画像列）を処理する方法及び装置に関する。

最新の通信システムにおいて、画像圧縮／コーディング（ｃｏｄｉｎｇ：符号化）は最重要である。限られた帯域幅割当のため、時に所謂ロッシー（非可逆）アルゴリズムが用いられる（例えば、最新ビデオコーディング（動画像符号化）規格Ｈ.２６４／ＡＶＣ（下記非特許文献１を参照）において）。これらのアルゴリズムは、画素または変換係数の量子化を用いてチャンネル容量にビットレートを合わせている。その結果、多くの応用において大なり小なり目に見えるコーディング障害が発生する。

Ｔ．Ｗｉｅｇａｎｄ、Ｇ．Ｊ．Ｓｕｌｌｉｖａｎ、Ｇ．Ｂｊｅｏｎｔｅｇａａｒｄ、およびＡ．Ｌｕｔｈｒａ，「Ｈ.２６４／ＡＶＣビデオコーディング規格の概要」，ビデオ技術の回路とシステムに関するＩＥＥＥ紀要第１３巻，５６０〜５７６頁，２００３年７月Ｐ．Ｌｉｓｔ，Ａ．Ｊｏｃｈ、Ｊ．Ｌａｉｎｅｍａ，Ｇ．Ｂｊｅｏｎｔｅｇａａｒｄ，およびＭ．Ｋａｒｃｚｅｗｉｃｚ，「適応ブロッキングフィルタ」，ビデオ技術の回路とシステムに関するＩＥＥＥ紀要第１３巻，６１４〜６１９頁，２００３年７月Ｈ．Ｓｃｈｗａｒｚ、Ｄ．Ｍａｒｐｅ、およびＴ．Ｗｉｅｇａｎｄ，「階層的ＢピクチャとＭＣＴＦの分析」，ＩＥＥＥマルチメディアエキスポ国際会議議事録，２００６年７月，１９２９〜１９３２頁Ｔ．Ｗｉｅｇａｎｄ、Ｘ．Ｚｈａｎｇ、およびＢ．Ｇｉｒｏｄ，「長時間メモリ動き補償予測」，ビデオ技術の回路とシステムに関するＩＥＥＥ紀要第９巻，７０〜８０頁，１９９９年Ｇ．Ｓｕｌｌｉｖａｎ，「低ビットレートビデオの多重仮説動き補償」，音響、音声および信号処理に関するＩＥＥＥ国際会議ＩＣＡＳＳＰ−９３議事録第５巻，４３７〜４４０頁，１９９３年４月Ｔ．Ｗｉｅｇａｎｄ、Ｅ．Ｓｔｅｉｎｂａｃｈ、およびＢ．Ｇｉｒｏｄ，「アフィンマルチピクチャ動き補償予測」，ビデオ技術の回路とシステムに関するＩＥＥＥ紀要第１５巻，１９７〜２０９頁，２００５年２月「オーディオ・ビジュアルオブジェクトコーディング‐パート２：ビジュアル」，ＭＰＥＧ−４ビジュアルバージョン１、ＩＳＯ／ＩＥＣ１４４９６−２，１９９９Ａ．Ｋｒｕｔｚ、Ｍ．Ｆｒａｔｅｒ、およびＴ．Ｓｉｋｏｒａ，「アップサンプリングドメインを用いた画像レジストレーションの改善」，マルチメディア信号処理国際会議（ＭＭＳＰ≡０６），ヴィクトリア，カナダ，２００６年１０月Ｆ．ＤｕｆａｕｘおよびＪａｎｕｓｚＫｏｎｒａｄ，「ビデオコーディングのための効率的、高信頼性、高速グローバル動き推定」，画像処理に関するＩＥＥＥ紀要第９巻，４９７〜５０１頁，２０００年Ｓ．ＢａｋｅｒおよびＩ．Ｍａｔｔｈｅｗｓ，「ルーカス‐カナデ法（Lucas-Kanade法）２０年の足跡：統一的枠組み」，国際ジャーナルコンピュータービジョン第５６巻, ２２１〜２５５頁，２００４年２月Ａ．Ｋｒｕｔｚ、Ａ．Ｇｌａｎｔｚ、Ｔ．Ｂｏｒｇｍａｎｎ、Ｍ．Ｆｒａｔｅｒ、およびＴ．Ｓｉｋｏｒａ，「局所的背景スプライトを用いた動きベースオブジェクトセグメンテーション」，音響、音声および信号処理に関するＩＥＥＥ国際会議（ＩＣＡＳＳＰ２００９）議事録，台北，台湾，２００９年４月

本発明の目的は、予測的ビデオコーディングおよび／またはフィルタリング後応用におけるノイズ低減のためにノイズを含むデジタルビデオ・シーケンスの効率的な処理方法を提供することである。

本発明の更なる目的は、予測的ビデオコーディングおよび／またはフィルタリング後応用におけるノイズ低減のためにノイズを含むデジタルビデオ・シーケンスを効率的に処理する能力のある装置を提供することである。

本発明の一実施の形態は、エンコードされたビデオ・シーケンスを処理する方法であって、前記エンコードされたビデオ・シーケンスを復元し、複数の隣接する画像を提供するステップと、前記隣接する画像のそれぞれまたは隣接する各画像の少なくともコヒーレント領域を、動きモデルに基づいて基準画像の座標系へ変換し、もって、変換された画像からなる画像群を生成するステップと、重み関数を用いて前記変換された画像における対応する画素同士の画素振幅を組み合せて、前記基準画像の少なくとも１つの画素について加工された画素振幅を形成するステップと、前記少なくとも１つの画素の前記加工された画素振幅に基づいて加工された画像を生成するステップとを備える。なお、前記コヒーレント領域とは、隣接する複数画像にわたって一貫性のあるイメージの領域である。また、画素振幅とは、画素値と等価的意味を持つ。

例えば、エンコードされたビデオ・シーケンスの復元は、エンコードされたビデオ・シーケンスのデコーディング（復号化）によって行ってもよい。

前記加工された画像に対して長さ値を割り当てることが好ましく、該長さ値は、前記画像群の前記隣接する画像の数を規定する。

例えば、前記加工された画像を復元したビデオ・シーケンスに組み込むことでフィルタリングされたビデオ・シーケンスを生成することができる。ビデオ・シーケンス内に加工の画素振幅の存在を示すためのマーカービットを割り当てることが好ましい。

前記隣接する画像を変換するステップは、基準画像に対して先行しかつ連続する画像の変換を含めんでいてよい。

さらに、前記画素の前記加工された画素振幅を形成するために、前記変換された画像の複数の画素に対応する複数の画素を含む空間的に隣接する画像を有する更なるビデオ・シーケンスを考慮してもよい。

その上、少なくとも２つの異なるプロセスモードを実行してもよく、各プロセスモードにおいて画像群を生成するための画像の最大数を考慮し、ビットストリーム内で実行されたプロセスモードを表すフラグを割り当てる。

さらに、その方法はエンコードされたビットストリームを生成するステップを含んでもよい。

上述した前記加工された画像は或る画像の予測に使用することができる。

更なる好ましい実施形態によれば、その方法は、基準画像をエンコードするための以下のステップを含んでもよい。
基準画像に対して別々の数の隣接する画像を含む複数の画像群を定義するステップ。
各画像群に対して、前記隣接する画像のそれぞれまたは隣接する各画像の少なくともコヒーレント領域を動きモデルに基づいて基準画像の座標系へ変換し、それにより変換画像からなる画像群を生成し、重み関数を用いて前記変換画像の対応する画素振幅を組み合わせて基準画像の少なくとも一つの画素に対する加工された画素振幅を形成し、前記少なくとも一つの画素の前記加工された画素振幅に基づき加工された画像を生成し、各加工された画像に対して個々の画像群長さを規定する長さ値を割り当てるステップ。
各加工された画像に対して基準画像を参照する予測画像を生成するステップ。
加工された画像を用いて基準画像をエンコードし、エンコードされたビットストリームを生成するステップ。
エンコードされたビットストリームに、エンコードするために使用される画像の個々の画像群長さを表す値を付加するステップ。
前記隣接する画像のそれぞれまたは隣接する各画像の少なくともコヒーレント領域を、エンコードされたビットストリームに対する動きモデルに基づいて基準画像の座標系へ変換するためのパラメータをエンコードするステップ。

例えば、各加工画像に対して、予測画像と基準画像との間のズレを測定して、最小のズレを有する加工画像を決定することができる。次に、最小のズレを有する加工画像を用いて基準画像をエンコードすることができる。

最小のズレを有する加工画像は、絶対誤差、二乗誤差、平均二乗誤差、二乗平均平方根誤差など、加工画像と基準画像との間の任意の前記誤差測定の算出により決定できる。

前記予測画像に加えて、基準画像に先行する少なくとも一つの画像に基づく予測の実行によりフィルタリングなしの予測画像を生成することができる。予測画像とフィルタリングなしの予測画像は、ブロックに分割され得る。基準画像の各ブロックは、予測画像の内の一つの対応するブロックまたはフィルタリングなしの予測画像の対応するブロックに基づいてエンコードすることができる。各ブロックに対して、予測画像の内の一つまたはフィルタリングなしの予測画像のどちらを用いてブロックがエンコードできるかを表すフラグが与えられてもよい。前記フラグはエンコードされたビットストリーム内に含めてもよい。

さらに、予測画像の各ブロックとそれに対応する基準画像の各ブロックとの間のズレを測定することもできる。加えて、フィルタリングなしの予測画像の各ブロックとそれに対応する基準画像の各ブロックとの間のズレを測定することもできる。続いて、どちらが最小のズレを示すかに応じて、予測画像の内の一つの対応するブロックまたはフィルタリングなしの予測画像の対応するブロックに基づいて、基準画像の各ブロックをエンコードすることができる。

動きモデルは、並進、アフィン、透視、および／または放物線動きモデルであることが好ましい。

本発明は、上述の任意の方法を実行し得るように構成されたデコーダにも関する。

本発明は、上述の任意の方法を実行し得るように構成されたエンコーダにも関する。

発明の上記および他の利点を得られる様が容易に理解できるよう、上記で簡潔に述べられた本発明のより具体的な説明は、添付図面に示された本発明の個々の実施形態を参照することにより提供される。これらの図は発明の典型的な実施形態だけを表し、従って発明の範囲を限定するものでないと理解することを前提に、本発明は添付の図面の利用によりさらに具体的で詳細に説明される。

Ｈ.２６４／ＡＶＣ（前記非特許文献１を参照）の基本的エンコーディング構造を例示的に示す図。

長時間グローバル動きパラメータの生成を例示的に示す図。

時間フィルタリングを行う前の空間的に整列された画像セットの生成例を示す図。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方においてセグメンテーション（分割）と画素ベースＧＭＥを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方においてセグメンテーション（分割）と画素ベースＧＭＥを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。

予め後処理のためにデコードされた画像からの画像Ｉ_tのフィルタリングバージョン生成例を示す図であって、画像バッファ内部の画像を、多視点コーディング環境下における異なる視点からの画像とともにビデオ・シーケンスの内の過去および／または未来の画像とすることができることを示す図。

後処理のための時間フィルタリングプロセスを例示的に示す図であって、整列した一連の画像中の一つの配列ｙ_kが示されている図。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方においてセグメンテーションと動きベクトルベースＧＭＥを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方においてセグメンテーションと動きベクトルベースＧＭＥを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ画素ベースＧＭＥを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されず、エンコーダは変化しないことを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ画素ベースＧＭＥを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されず、エンコーダは変化しないことを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ動きベクトルベースＧＭＥを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されず、エンコーダは変化しないことを示す図。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ動きベクトルベースＧＭＥを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されず、エンコーダは変化しないことを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方において画素ベースＧＭＥを用いて実行され、セグメンテーションは実行されず、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方において画素ベースＧＭＥを用いて実行され、セグメンテーションは実行されず、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方において動きベクトルベースＧＭＥを用いて実行され、セグメンテーションは実行されず、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方において動きベクトルベースＧＭＥを用いて実行され、セグメンテーションは実行されず、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングはデコーダにおいてのみ画素ベースＧＭＥを用いて実行され、セグメンテーションがオブジェクトマスク伝送のために実行されることを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングはデコーダにおいてのみ画素ベースＧＭＥを用いて実行され、セグメンテーションがオブジェクトマスク伝送のために実行されることを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ動きベクトルベースＧＭＥを用いて実行され、セグメンテーションがオブジェクトマスク伝送のために実行されることを示す。

ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ動きベクトルベースＧＭＥを用いて実行され、セグメンテーションがオブジェクトマスク伝送のために実行されることを示す。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングに加えて画素ベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキングまたは時間フィルタリングを使用するかを決定することを示す。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングに加えて画素ベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキングまたは時間フィルタリングを使用するかを決定することを示す。

ブロックベース動き推定のためのフィルタリングされた基準画像Ｉ_{pt,t-1/filtered}の生成例を示す図であって、画像バッファ内部の画像を、多視点コーディング環境下における異なる視点からの画像とともにビデオ・シーケンスの内の過去および／または未来の画像とすることができることを示す図。

ブロックベース動き推定におけるフィルタリングされた基準画像Ｉ_{pt,t-1/filtered}の生成のための時間フィルタリングプロセスを例示的に示す図であって、整列した一連の画像中の一つの配列ｙ_kが示されている図。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングに加えて動きベクトルベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキングまたは時間フィルタリングを使用するかを決定することを示す。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングに加えて動きベクトルベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキングまたは時間フィルタリングを使用するかを決定することを示す。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングの後に画素ベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または時間フィルタリングと空間デブロッキングを組み合わせて使用するかを決定することを示す。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングの後に画素ベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または時間フィルタリングと空間デブロッキングを組み合わせて使用するかを決定することを示す。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、画像バッファ内の画像に対して通常の空間デブロッキングの後に動きベクトルベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または時間フィルタリングと空間デブロッキングを組み合わせて使用するかを決定することを示す。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、ここでは、画像バッファ内の画像に対して通常の空間デブロッキングの後に動きベクトルベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または時間フィルタリングと空間デブロッキングを組み合わせて使用するかを決定することを示す。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、画像バッファ内の画像に対して通常の空間デブロッキングの前に画素ベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または空間デブロッキングと時間フィルタリングを組み合わせて使用するかを決定することを示す。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、ここでは、画像バッファ内の画像に対して通常の空間デブロッキングの前に画素ベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または空間デブロッキングと時間フィルタリングを組み合わせて使用するかを決定することを示す。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、画像バッファ内の画像に対して通常の空間デブロッキングの前に動きベクトルベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または空間デブロッキングと時間フィルタリングを組み合わせて使用するかを決定することを示す。

ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングの前に動きベクトルベースＧＭＥを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または空間デブロッキングと時間フィルタリングを組み合わせて使用するかを決定することを示す。

ハイブリッドビデオコーディング環境下の追加の予測モードとしての時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングが画素ベースＧＭＥ手法を用いて実行されることを示す。

ハイブリッドビデオコーディング環境下の追加の予測モードとしての時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングが画素ベースＧＭＥ手法を用いて実行されることを示す。

現在の画像Ｉ_tに対する予測信号Ｉ_t,predの生成例を示す図であって、画像バッファ内部の画像を、多視点コーディング環境下における異なる視点からの画像とともにビデオ・シーケンスの内の過去および／または未来の画像とすることができることを示す図。

現在の画像Ｉ_tに対する予測信号Ｉ_t,predを生成する時間予測プロセスを例示的に示す図であって、整列した一連の画像中の一つの配列ｙ_kが示されている図。

ハイブリッドビデオコーディング環境下の追加の予測モードとしての時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングが動きベクトルベースＧＭＥ手法を用いて実行されることを示す。

ハイブリッドビデオコーディング環境下の追加の予測モードとしての時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングが動きベクトルベースＧＭＥ手法を用いて実行されることを示す。

追加の予測モードと動き推定向上のためのフィルタリングの組合せとして通常のハイブリッドビデオコーディング環境に組み込まれる時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングが画素ベースＧＭＥ手法を用いて実行されることを示す。

追加の予測モードと動き推定向上のためのフィルタリングの組合せとして通常のハイブリッドビデオコーディング環境に組み込まれる時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングが画素ベースＧＭＥ手法を用いて実行されることを示す。

以下で説明する本発明は、予測ビデオコーディング（符号化）および／または後処理のためのグローバル動き時間フィルタリングの実施により、ノイズを含むデジタルビデオ・シーケンスの効率的な処理方法を可能にする。従って、複数の画像（picture: 1枚の画像、フレーム画像）間、またはビデオ・シーケンス内の複数の領域間、もしくは多視点コーディング（multi-view coding）状況での複数の視点間での、全体的な動きが推定または補償される。それにより、フィルタリング後の動き推定向上において、または予測においてでさえノイズを低減したビデオ・シーケンスの復元を実現できる。

通常のハイブリッドビデオエンコーダは、原信号から予測値を減算して残余データを生成する。次にこれらの残余値はブロック毎に変換および量子化されてレシーバに伝送される。エンコーダもまたローカルデコーダを備える。ローカルデコーダは、量子化された変換係数をサイズ変更し、逆変換して残余データの表現を生成してそれにより原信号の表現（画像）を生成する。画像バッファに記憶されている事前にデコード（復号化）された画像のセットを用いて予測信号を生成する。典型的なハイブリッドビデオエンコーダを図１に示す。

現在なお残されているビデオコーディングの課題の一つに歪みの問題、すなわちブロッキングアーティファクト（ブロック化による画像劣化）があり、レシーバにおいて知覚される画質と予測信号の客観的品質に大きな影響を及ぼす。これらのアーティファクトには主に２つの要因がある。その一つは変換係数の量子化である。量子化の粗さ次第では、量子化によりブロック境界間にエッジの乱れを生ずる恐れがある。第二の要因は動き補償予測である。すなわち、既に局所的にデコードされ、それ故にブロック境界での不連続性を含む時間的隣接画像からブロックが予測される。これらは、大抵は予測信号の内部にコピーされる。局所的にデコードされたデータの客観的品質向上を達成することが望ましい。そうすることで予測信号が改善され、それは残余データが小さくなり、従ってビデオ信号の伝送に要するビットレートの抑制につながることを意味する。さらに、伝送データのコーディング後のブロッキングアーティファクトの低減は、ビデオ信号のより良い主観的評価につながる。

これらの課題の解決のために膨大な研究がなされてきた。Ｈ.２６４／ＡＶＣ規格（前記非特許文献１を参照）は、Ｌｉｓｔ等による研究（前記非特許文献２を参照）に基づくデブロッキングフィルタを規定する。そのアルゴリズムは、先ず、境界解析を用いて異なる種類の不連続性の区別を試みる。ここでは、隣接するブロックの種類により、すなわちイントラコードされるかインターコードされるかにより、境界はシビアさが異なると考えられる。次のステップは、水平および垂直のエッジの空間フィルタリングである。主観的品質と予測信号は大幅に改善できるが、低ビットレートでデコードされたビデオではブロッキングアーティファクトが依然として目に見える。

上述のような空間的技術に加えて、伝送する画像とそれの局所的にデコードされた時間的隣接画像との間の時間的相関関係も予測信号の改善に利用されてきた。これらの所謂動き補償予測（ＭＣＰ）スキームは、ビデオ信号の連続する画像間の類似性を活用することにより（信号）圧縮を実現する。２次元予測（Ｂ）および階層的Ｂピクチャコーディング技術（前記非特許文献３を参照）は、エンコードされる現在の画像近傍に位置する局所的にデコードされた１つまたは２つの画像からの情報を利用する。ここでは、ブロックベース動き推定技術を用いて現在の画像のマクロブロックが予測される。２つ以上のブロックが予測信号の生成に用いられる場合、考え得る全候補の加重平均が用いられる。しかし、２つの対応するブロック間の動きは、並進動きモデルを用いて推定されるだけである。カメラズーミング、回転、シャーリング、透視変換のそれぞれにおいては、このモデルは、２つのブロック間の関係を十分に特徴付けているとは言えず、不十分な予測につながる。

動き推定および補償のために事前にデコードされた画像を用いることは、Ｗｉｅｇａｎｄ等の研究（前記非特許文献４を参照）により、基準画像選択における可変時間遅延に拡張されてきた。長時間メモリＭＣＰにおいて、マクロブロックに対する空間変位ベクトルは、エンコーダとデコーダ間の事前のやりとり（情報交換）によってのみ境界付けられる任意の距離の基準画像を指し示すことができる。可変時間遅延は、追加的なビットレートを生む付帯的情報としてレシーバに伝送する必要があり、それは改良されたＭＣＰによって正当化される。この技術もまた、現行のＨ.２６４／ＡＶＣ規格の中の全ての既存のプロファイルにおいて義務化されてきた。

可変時間遅延を有するマクロブロックの予測、すなわち現在の画像に対して直に時間的に隣接していない基準画像からの予測は、幾つかの画像による基準の重ね合わせに拡張できる。これは多重仮説ＭＣＰと称し、例えば前記非特許文献５で提案されてきた。この場合、予測信号は、幾つかのＭＣＰ信号の線形重ね合わせからなる。これらのブロックの全ては個々の動きベクトルおよび可変時間遅延によって参照されるため、最高性能を得るためにはレート歪みの最適化（ＲＤＯ）が活用されなければならない。それにも拘らず、重ね合わせの候補ブロックは、並進動きモデルのみを用いて事前にデコードされた画像からコピーされたブロックである。このことは、通常のブロックベースＭＣＰにおける場合と同様の制約を課すことになる。

アフィンマルチピクチャＭＣＰ（前記非特許文献６を参照）において、長時間ＭＣＰの考え方は、事前にデコードされた可変時間遅延を有する画像およびそれのワーピングされたバージョンの使用に拡張されてきた。ワーピングは、基準画像とエンコードされる現在の画像との間のグローバル動きパラメータの推定によって行われる。前記非特許文献６では、アフィン高次動きモデルが用いられている。次に、通常の長時間画像バッファとそれのワーピングされた表現（画像）セットに対してブロックベースＭＣＰが実行される。

ＭＰＥＧ−４パート２／ビジュアルのアドバンスドシンプルプロファイル（前記非特許文献７を参照）は、追加の予測モードとしてグローバル動き補償（ＧＭＣ）を規定する。従来のＭＣＰ技術に加えて、エンコードされる画像とその基準画像との間の動きは、並進モデルを用いたブロックベースでなく、ズーミング、回転、シャーリングを特徴付けるパラメータにより並進モデルを拡張する高次元動きモデルのための画像ベースで推定される。動きモデルのパラメータは付帯的情報としてエンコーダに伝送する必要があり、追加のビットレートが上乗せされる。ＧＭＣを用いることで、あらゆる異なる種類の動きを有する広範なコヒーレント領域の予測が、残余分を低減させ、従って伝送に要するビットレートを低減できる効率的な方法で可能となる。ＭＰＥＧ−４ビジュアルの規格化に当たって、スプライトと称する技術が背景のシーケンス（ひと並び）のモデルとして検討されてきた。これらのモデルの利点は、統計的長時間依存性を非常に効率的に活用する点にある。これらのスプライトは、オンラインまたはオフラインのどちらでも生成可能で、それぞれ動的スプライトまたは静的スプライトと呼ばれる。静的スプライトだけがＭＰＥＧ−４ビジュアル規格に含まれている。

ここで、事前にデコードされた画像の時間フィルタリングの手法をグローバル動き推定（ＧＭＥ）に基づいて説明する。本明細書で説明するアルゴリズムは量子化ノイズとブロッキングアーティファクトを低減できるので、レシーバにおける主観的評価を向上させるデブロッキングおよび予測信号改善の両目的のために使用でき、従ってビットレート低減のために使用できる。上述の最新手法に加えて、本アルゴリズムは、長時間メモリ画像バッファと高次動きモデルの採用とを組み合わせることで、並進および事前にデコードされた画像からの幾つかの空間的に整列した信号による重ね合わせ以外の他の種類の動きにも対応している。

所与の基準に対して、ブロッキングアーティファクトを含む幾つかの時間的に隣接する画像は、基準の座標系へ変換されて空間的に整列した画像群を形成する。変換のためには、グローバル動き（全体的な動き）、すなわち画像とその基準との間のカメラの動きを知る必要がある。それは、高次動きモデルに基づく任意のＧＭＥアルゴリズムを用いて実現できる。次に、基準画像のフィルタリングされたバージョンが、画像群における全ての空間的に整列した画像の重ね合わせにより生成される。こうして、時間平均を用いて量子化ノイズとブロッキングアーティファクトが低減される。その後、基準画像のフィルタリングされた表現（画像）は、通常のハイブリッドビデオコーディングにおいて幾つかの目的で使用できる。

この文書に記載される発明は、上記で略述された種々の手法の実施形態を含む幾つかの応用に注意を向ける。

第一の応用は、復元ビデオ・シーケンスの主観的評価向上のためのレシーバにおける後処理である。レシーバに示される所与の基準画像に対して、画像バッファ内で入手可能な特定のデコードされた画像セットを重ね合わせて改良された表現（画像）を生成する。フィルタリングのために使用される画像のインデックスは、原画像が利用できるのはそこだけであるので、エンコーダにおいて推定できる。画像バッファ内の候補サブセットはフィルタリングされて、任意の客観的ビデオ品質評価基準を用いて原画像と比較される。エンコーダにおいて推定される場合、最良サブセットのインデックスがレシーバに伝送されるため追加のビットレートを生むことになる。

第二の応用は、ブロックベース動き予測を用いたＭＣＰにおける基準画像の向上である。通常、動き推定は画像バッファからの局所的にデコードされた画像を用いて実行される。量子化のステップサイズの粗さに応じてこの画像が量子化ノイズとブロッキングアーティファクトを含むため、ブロックベース動き推定は、次善の動きベクトルと高い残余値に結び付く。基準画像は、本明細書で説明されるアルゴリズムを用いて改善できる。ＭＣＰの基準として用いられることになる所与の基準画像に対して、同じく画像バッファ内で入手可能な時間的に隣接する画像は、その座標系へ変換されて重ね合わされる。ＭＣＰは、基準画像のこのフィルタリングされた表現（画像）を用いて改善結果を導くことが示される。さらに、時間フィルタリング手法は、最新のビデオコーディング規格で規定される空間デブロッキングとの組合せが可能である。

第三の応用は、通常のイントラおよびインター予測以外のビデオコーディング環境に組み込まれる追加の予測モードである。画像バッファ内で入手可能な特定の画像セットは、現在エンコードされつつある画像の座標系へ直接変換されて重ね合わされる。そうすることで、時間的な隣接画像からの情報を用いて画像内の広い領域を効率的に予測できる。

全ての実施形態は、画像バッファ内の画像の画素ベースのグローバル動き推定と動きベクトル場ベースのグローバル動き推定のそれぞれを用いることで実現可能である。さらに、３Ｄまたは多視点ビデオコーディングの場合と同様に、時間的隣接画像のみならず空間的隣接画像に対してもフィルタリングの実行が可能である。この場合、フィルタリングは、各視点から時間的および空間的に隣接する画像を処理するよう拡張される。さらに、デプスマップまでもフィルタリング手法に含めることができる。

グローバル動き時間フィルタリング
所与の信号におけるノイズ低減のための簡易技術は平均化に基づく。エンコーディングおよびデコーディング後のブロッキングアーティファクトは、ホワイトノイズと同じ特性を有するとみなされる。従って、ブロッキングアーティファクトおよび量子化ノイズの削減に時間平均フィルタリングの考え方を適用できる。画像信号Ｘのノイズを含む特定の表現（画像）セットYの入手可能性を前提に、算術平均を用いて画素ｘ（ｍ，ｎ）毎に歪みを減らすことができる。その目的のために、N個の画像信号Ｘの合計が画素毎に算出される。下式をｋ番目の画像の歪みを含む画素の値とする。

平均値は下式で算出され、

ここで、ｒ（ｍ，ｎ）は平均ノイズ信号である。ホワイトノイズは、分散σn²と下式の自己相関行列によって決まる。

ノイズの分散は、時間フィルタリング手法を用いて因数Ｎで低減される（１／Ｎに低減される）。従って、平均ノイズ信号の分散は下式で算出される。

このように、ノイズの分散は因数Ｎで低減される（１／Ｎに低減される）。

通常のハイブリッドビデオコーデックの画像バッファには、ビデオ・シーケンスからデコードされた画像が収納される。量子化の粗さに応じて、これらの画像のブロッキングアーティファクトと量子化ノイズの程度が増減する。本発明では、上述した理論的背景をデコードされたデータの効率的な品質向上手段としている。それはより良い主観的評価をもたらすとともに、エンコーダとデコーダのそれぞれにおいて生成される予測信号の品質を向上させる。

多くのビデオ・シーケンスは移動カメラで記録されてきたため、これらのビデオ・シーケンスの背景領域は固定されていない。理論考察の観点から、これは、画像バッファが、重畳されたノイズのみ異なる一連の同等信号を含むのでなく、ノイズを含む一連の異なる信号を含むことを意味する。この問題は、カメラが行う動きを説明し、この動きを補償して信号が空間的に整列するようにする、高次の動きモデルを使用することで解決できる。空間的に整列された表現（画像）は、結果としてノイズ分だけが異なる同等信号とみなせる。殆どの場合、下式による周知の透視動きモデルのような８パラメータ高次動きモデルは、背景の動きを十分に上手く説明する。

上式において、（ｘ_p，ｙ_p）^Tは画像Ｉ_p内の画素の位置であり、（ｘ_q，ｙ_q）^Tは画像Ｉ_q内のそれに対応する位置である。パラメータｍ₀乃至ｍ₇は、並進、拡大縮小、回転および透視変換による動きを特徴付ける。

画像バッファからの一対の画像に対する動きモデルは、任意のＧＭＥアルゴリズムを用いて推定できる。基本的に２つの種類のアルゴリズムがあり、画素ベースと動きベクトルベースである。画素ベース手法は非常に巧妙に動作するが、低い計算量への対応能力に欠ける。また一方の動きベクトルベース手法は、しばしば非常に素早く動作するが精度は落ちる。

画素ベースアルゴリズムは例えば、研究（前記非特許文献８，９を参照）に基づく階層的勾配降下技法として応用できる。このアルゴリズムは、先ず、レジストレーションを行う２つの画像に対する４ステップ画像ピラミッドを生成する。画像ピラミッドは、原画像、２つのダウンサンプリングされた画像、およびアップサンプリング領域の画像を含む。ダウンサンプリング用として５タップルガル（Ｌｅ−Ｇａｌｌ）ウェーブレットフィルタを用い、アップサンプリング用として７タップドブシー（Ｄａｕｂｅｃｈｉｅｓ）ウェーブレットフィルタを用いる。第1勾配降下ステップは、最も粗い解像度で実行され、Ｋａｎａｄｅ等によって提唱された特徴追跡装置（フィーチャートラッカー）（前記非特許文献１０を参照）を用いた並進動きモデル（translational motion model）で開始される。続いて、そのアルゴリズムは、初期設定として前のステップによる動きパラメータを用いて画像ピラミッドの他の各層毎に勾配降下ステップを実行する。このようにして、Ｎ個の画像を持つ１シーケンスにつき、時間的隣接画像間の短時間変位を表す下式の１セットの変換行列

と、下式で表されるそれの逆行列セット

とが作成され得る。但し、各W_p,qは下記の通りである。

次に、これらの短時間動きモデルは、単純な行列の掛け算によって長時間パラメータセットに変換できる。このようにして、そのセットからの任意の画像ペア間の動きが得られる。長時間動きモデルの生成は図２に示される。

画像バッファからとり出されるＮ個の画像からなる１画像セットは、グローバル動き時間フィルタリングに使用されるものとする。先ず、基準座標系が選択されなければならない。これは、画像バッファ内の任意の画像の座標系であってよいし、若しくは現在エンコードされつつある画像の座標系ですらあってよい。選択された座標系へ画像を変換するために、次に画像とその基準画像との間の長時間動きが補償される。このようにして、空間的に整列した画像群（a stack of spatially aligned pictures）が生成され、それは図３に例示的に示される。

次に、この1画像群内の画像を合成して基準画像のフィルタリングされた表現（画像）を形成する。この目的のために所謂混合（ブレンディング）フィルタが用いられる。混合フィルタは、例えば基準画像までの時間的間隔に応じた加重算術平均、または重ね合わせる全ての画素の単純なメジアンの算出など任意の手法とすることができる。前景または背景の動きの激しさ次第で、前景オブジェクトは基準画像のフィルタリングされた表現（画像）から消え去る。従って、応用によっては、レシーバがフィルタリング後の前景オブジェクトを復元できるようフィルタリング前に基準画像に対して追加のセグメンテーションステップを実行しても良い。

ビデオ・シーケンスにおいてグローバル動き補償時間フィルタリングされた画像を生成する技術は、超解像度画像作成、すなわち幾つかのより低解像度の表現（画像）から画像の高解像度複製を生成する手法にも適用できる。超解像度画像作成のためのアルゴリズムは、ある任意の画素は通常、列内の多数の画像内で観察されるという事実に基づく。動き補償の後、画素の変換後座標が完全整数の画素位置に該当するは殆どない。従って、より解像度が高いバージョンの生成が可能となる。後から説明する実施形態のうちの幾つかにおいて、この事実は準画素動き推定精度に活用され得る。時間フィルタリングされた画像はどのような方法でも生成されるので、その超解像度バージョンの生成も可能となり、それは通常のハイブリッドビデオコーディング環境に組み込まれた補間の代わりとなる。

応用シナリオ
この章では、３つの考えられる応用シナリオおよび、通常のハイブリッドビデオコーディング環境に組み込まれる、２章で述べられているアルゴリズムに関する様々な実施形態を述べる。第１のシナリオは、エンコーダにおいて考え得る最高の品質の評価が可能なレシーバ用後処理フィルタとしての使用法を説明する。第２のシナリオでは、グローバル動き時間フィルタリング手法が、エンコーダ内とデコーダ内の同じ位置で通常のＨ.２６４／ＡＶＣデブロッキングフィルタとして使用される。ここでは、その目的は、ＭＣＰを強化して予測信号生成を改善し、残余値および伝送に必要なビットレートを低減させることである。さらに、時間フィルタリング手法は、通常の空間的デブロッキング技術と組み合わせることができる。最後のシナリオは、通常のイントラおよびインター予測に加えてビデオコーディング環境に新たな予測モードを追加する。ここでは、エンコーダは、ＲＤＯの観点から、通常モードのひとつ、または新たなグローバル動き時間フィルタリングモードのどちらを用いてマクロブロックを予測するかを決定する。

後処理
第１の好ましい実施形態において、上記の手法を用いてレシーバにビデオ（映像）の考え得る最高の品質の提供を確保することができる。通常のハイブリッドビデオコーディング環境に組み込まれるグローバル動き時間フィルタリングアルゴリズムは図４ａ，図４ｂに示される。単純化のため、ここで重要でない情報は省略されている。エンコーダとデコーダの両方において、そのアルゴリズムは実行される。エンコーダ側においては、それは、画像バッファから歪みを有する考え得る最良の時間的隣接画像セットを選択して、現在の画像のフィルタリングされたバージョンを生成するためだけに行われる。

アルゴリズムは、エンコーダループ内に直接組み込まれていないが、画像バッファおよび原画像に自在にアクセスできる。予測構造の種類に応じて、すなわちＩ‐ピクチャ、Ｐ‐ピクチャ、またはＢ‐ピクチャを用いて、画像バッファは現在の画像Ｉ_pの時間的隣接画像セットＩ_pb,t-iを収納する。また一方、画像バッファは、多視点コーディング環境においては異なる視点からの空間的に隣接する画像も収納できる。現在の画像は局所的にデコードされ次第、画像バッファ内に歪みを有する表現（画像）Ｉ_pb,tとしても格納される。次に、画像バッファ内の要素の全てまたはサブセットだけを用いて現在の画像のフィルタリングされた表現（画像）Ｉ_t,filteredを形成する。現在の画像は局所的にデコードされたばかりで今画像バッファの一部を占めていると想定する。グローバル動き時間フィルタリングアルゴリズムは、引き続いて画像または画像のコヒーレント領域だけをＩ_pb,tの座標系へ変換する。よって、関連する画像間の長時間動きパラメータは既知でなければならない。そのために、バッファ内で画像間、または領域間でＧＭＥが実行される。画像バッファのサブセットをＩ_pb,tの座標系へ変換することにより、画像群が生成され合成されて現在の画像のフィルタリングされた予備的表現（画像）が形成される。そのアルゴリズムは、画像バッファの考え得る全てのサブセットに対する予備的表現（画像）を生成できる。画像バッファサイズによっては、考え得る全てのサブセットの使用は計算量の問題になり得るため、ここでは連続する画像セットだけを使用する。

図５は、画像バッファ内部での例示的画像変換プロセスを示す。時間的または空間的隣接画像Ｉ_pb,t-1乃至Ｉ_pb,t-3に加えて、現在の画像Ｉ_pb,tが画像バッファ内に格納されていることが分る。そのアルゴリズムは小さな領域に限定されることなく画像全体に対しても実行が可能であるが、この例では、一部のマクロブロックの小さなコヒーレント領域だけがフィルタリングされねばならない。フィルタリングを施される領域が元の画像の中で変換を受けたことが分る。この変換は、グローバル動きに対する補償によって元に戻すことができる。その結果、画像Ｉ_pb,tとその隣接画像間の長時間グローバル動きは、２章で述べたＧＭＥアルゴリズムを用いて推定された。その領域は画像Ｉ_pb,tの座標系へ変換され、空間的に整列された画像の画像群を生成する。

この画像群の一部が図６に見られる。描かれているのは、空間的に整列された画像の１つの配列である。フィルタリングを施される領域内の画素に陰影が付けられている。画像Ｉ_pb,tそのものとそれの隣接画像の変換された表現（画像）Ｉ_pb,t-1乃至Ｉ_pb,t-3が、陰影付き領域に対する所与のフィルタを用いて合成される。それによって、フィルタリングされた予備的表現（画像）が生成される。最高品質を有する表現（画像）が最終的なフィルタリングされた画像Ｉ_t,filteredとして選択される。生成のために用いられる画像の数またはそのインデックスは、付帯的情報としてレシーバに伝送される。

品質を測定するために、背景領域に対してＰＳＮＲまたはＳＳＩＭのような客観品質評価基準を用いて、各予備的表現（画像）は原画像Ｉ_tと比較される。フィルタリングが施される領域によっては、品質評価の前に前景エリアと背景エリアとに領域を分割する追記のセグメンテーションステップが必要となる場合がある。それは、前景オブジェクトがしばしばグローバル動き以外の動きをしてフィルタリングされた画像から消え去ってしまうことがあるという事実によるためである。それに対し、領域全体がグローバル動きに準拠している場合には、セグメンテーションを行う必要はない。セグメンテーションは、前処理ステップにおいて非圧縮データを用いて、または画像バッファを用いて行うことができる。正しいバイナリマスクを確保しさえすればよいので、更なるアルゴリズムの定義はされない。本発明では、非等方的拡散ベース背景除去技術（前記非特許文献１１を参照）を使用している。このマスクを用いることで、レシーバにおいてグローバル動き時間フィルタリングステップ中除去されていた前景セグメントが復元可能となる。エンコーダにおいて、このマスクは、単に前景領域を品質測定対象から外すために用いられる。前景エリアは、後で通常の空間的デブロッキング技術を用いてフィルタリングできる。

オリジナルビデオデータを用いてバイナリ前景オブジェクトマスクが生成されている場合、エンコーダは、通常のビットストリームに加えてバイナリ前景オブジェクトマスクを伝送する。同時に伝送されるのは、フィルタリングされた表現（画像）の生成に用いられる画像の数またはそのインデックスである。このようにして、レシーバは、生成ステップおよび前景セグメントの復元を繰り返すことでビデオ・シーケンスを復元できる。

第２の好ましい実施形態において、時間フィルタリングは、エンコーダとデコーダの両方において実行される。これは図７ａ，図７ｂに示されている。時間フィルタリングは、画像バッファと動き補償予測によって作られる動きベクトルの両方にアクセス可能である。第１の好ましい実施形態を除いて、動きベクトルがＧＭＥのために用いられる。従って、デコーダの時間フィルタリングもまた動きベクトルにアクセス可能であり、エンコーダにおける結果を再生する。ここでもまた、追加のセグメンテーションを行って前景エリアをフィルタリングの対象から外す。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。

第３の好ましい実施形態において、エンコーダひいてはエンコードされたビットストリームは変化しない。時間フィルタリングは、ビデオ・シーケンスをレシーバに示す前にデコーダにおいてのみ実行される。フィルタリングは、画素ベースＧＭＥを用いて行われる。フィルタリングに最適なフレームインデックスがレシーバに伝送されないため、その手法は、所定の隣接画像セットをフィルタリングするか、または基準として原画像を採用することに依存しない品質基準を利用するかのいずれかしかない。この実施形態は図８ａ，８ｂで例示される。それは、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。

第４の好ましい実施形態においても、時間フィルタリングはデコーダにおいてのみ実行される。第３の好ましい実施形態を除いて、第４の好ましい実施形態は通常のＧＭＥのためのビデオエンコーダによって伝送される動きベクトル場を利用する。これは図９ａ，９ｂに見られる。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。

第５の好ましい実施形態において、時間フィルタリングは、エンコーダとデコーダの両方において実行される。初めの２つの実施形態を除いて、追加のセグメンテーションは行われず、従って前景オブジェクトマスクはレシーバに伝送されない。この手法は図１０ａ，１０ｂに見られる。時間フィルタリングに必要なＧＭＥは、画像バッファ内の画像に対して所与の画素ベース手法を用いて行われる。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。

第６の好ましい実施形態において、時間フィルタリングは、ＧＭＥのための動き補償予測によって与えられる動きベクトル場を用いてエンコーダとデコーダの両方において実行される。例示的ブロック図については図１１ａ，１１ｂを参照。エンコーダにおいてセグメンテーションマスクは生成されない。従って、レシーバに伝送される唯一の追加の情報は、フィルタリングのための参照用インデックスセットである。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。

第７の好ましい実施形態において、後処理のための時間フィルタリングはデコーダにおいてのみ実行されるが、さらに、レシーバにバイナリオブジェクトマスクを伝送するために、エンコーダにおいてオリジナルデータを用いてセグメンテーションステップが行われる。これは図１２ａ，１２ｂで例示的に示される。ここでは、時間フィルタリングは、画素ベースＧＭＥ手法を備えたデコーダにおいて画像バッファ内のデータのみを用いて実行される。

第８の好ましい実施形態は第７の実施形態の発展形である。それは図１３ａ，１３ｂに示され、時間フィルタリングシーケンスの演算だけが異なり、すなわち、それは通常のビットストリームによって与えられる動きベクトル場を利用している。

予測１‐ 動き推定向上
上記の実施形態を除いて、グローバル動き時間フィルタリング手法は予測に直接使用することができる。図１４ａ，１４ｂは、通常のハイブリッドビデオコーディング環境の予測ループに組み込まれる新技術としての第９の好ましい実施形態を示す。単純化のため、インター予測以外の予測モードは省略されている。

ブロッキングアーティファクトの低減能力故に、通常のデブロッキングフィルタがＭＣＰのための前処理ステップとしての予測ループ内に組み込まれている。これらのアーティファクトは、知覚される画質に影響を及ぼすだけでなく、動き推定の結果を損なう。最新のデブロッキングフィルタは性能が向上しているが、依然としてブロッキングアーティファクトは目に見える。それ故に、通常のＨ.２６４／ＡＶＣデブロッキングフィルタの他にグローバル動き時間フィルタリング手法が使用される。

使用する手法に関わらず、ＭＣＰのためには常に基準に対してフィルタリングが実行される。グローバル動き時間フィルタリングの場合、合成および品質評価を行う前に画像バッファからの時間的または空間的に隣接する画像の変換が行われる。上記の実施形態以外では、フィルタリングされた画像は暫くの間保存する必要がある。それは、フィルタリングされた表現（画像）は、動き推定のための基準として利用可能にする必要があるという事情による。

図１５は、画像バッファからの画像のＭＣＰのための基準の座標系への変換プロセスを例示的に示す。現在の画像Ｉ_tはインター予測を用いてエンコードされることになる。従って、その基準Ｉ_pb,t-1は動き推定を用いてブロック一致を見出すために使用されることになる。基準がブロッキングアーティファクトを含むと仮定して、これらのアーティファクトはグローバル動き時間フィルタリング手法を用いることで低減できる。時間的隣接画像Ｉ_pb,t-2およびＩ_pb,t-3からのフィルタリングを施される領域は、結果として基準画像の座標系へ変換される。３．１章で述べたように、動き補償のプロセスに関わる画像間の長時間動きを知る必要がある。こうして、ＧＭＥもまたその手法に組み込まれる。変換プロセスは空間的に整列された画像による画像群を生成する。

この画像群の一部が図１６に見られる。描かれているのは、空間的に整列された画像の１つの配列である。フィルタリングを施される領域内の画素に陰影が付けられている。画像Ｉ_pb,t-1すなわちＭＣＰのための基準とその隣接画像Ｉ_pb,t-2およびＩ_pb,t-3から変換された領域は、陰影付き領域に対する所与のフィルタを用いて合成される。それによって、フィルタリングされた予備的表現（画像）が生成される。例えばＰＳＮＲまたはＳＳＩＭの観点から見て最高品質を有する表現（画像）が最終的なフィルタリングされた画像Ｉ_{pb、t-1,filtered}として選択できる。従って、画像バッファから一定量の見込みのあるサブセットがフィルタリングプロセスのためにテストされる必要がある。

最良となる見込みのあるフィルタリングされた基準の表現（画像）が入手可能となった後、それはＭＣＰにおいて使用される。動き推定は、普通にデブロッキングされた画像と時間フィルタリングされた画像の両方を基準として用いてブロック毎に実行される。並進動きベクトルを用いたかかるブロック一致例は図１５に見られる。誤差をより小さくする基準からのブロックは、続いて動き補償に使用される。前景オブジェクトが時間フィルタリングされた画像から消え去っても、上記の実施形態の内の幾つかで述べられたような追加のセグメンテーションステップは、この場合は必要としないことを明確に述べなければならない。それは、これらのエリアは、前景セグメントが消え去らない普通にデブロッキングされた画像を用いる場合よりも誤差が大きくなる可能性が非常に大きいからである。

準画素動き推定については、全ての更なる実施形態の場合と同様に、超解像度バージョンの生成が可能となる。

通常のビットストリーム以外に、エンコーダは、フィルタリングされた表現（画像）の生成に使用する画像の数またはそのインデックスをレシーバに伝送しなければならない。さらに、ブロック毎に使用されるフィルタの種類を付帯的情報として伝送しなければならない。ビデオ信号の復元のために、レシーバは、通常のビットストリーム、フィルタの種類およびフレームインデックスをデコードして、ブロック毎に使用されるフィルタの種類に応じて通常のデブロッキングまたはグローバル動き時間フィルタリングを適用する。

第１０の好ましい実施形態において、通常の空間的デブロッキングに加えて時間フィルタリングが実行される。第９の好ましい実施形態を除いて、時間フィルタリングは、ＧＭＥのための動き補償予測によって生成される動きベクトル場を用いて実行される。エンコーダは、予測誤差を最小化するように通常の空間的デブロッキング又は時間フィルタリングを使用するかを決定する。従って、動き推定のために最良が見込まれるものが用いられる。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。この手法は図１７ａ，１７ｂに見られる。

第１１の好ましい実施形態において、通常の空間的デブロッキングは、時間フィルタリングが行われる前に実行される。これは、図１８ａ，１８ｂに示すブロック図で例示される。エンコーダは、空間的デブロッキングまたは空間的デブロッキングと動き推定のための時間フィルタリングとの組合せのどちらを使用するかを決定する。時間フィルタリングは、画素ベースＧＭＥを用いて画像バッファ内の画像に対して実行される。本章の他の実施形態と同様に、フィルタリングに使用される画像インデックスは、フィルタリングされる画像または領域のために用いられるフィルタリングの種類とともに付帯的情報としてレシーバに伝送される。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。

第１２の好ましい実施形態において、通常の空間的デブロッキングは、時間フィルタリングが行われる前に実行される。第１１の好ましい実施形態を除いて、時間フィルタリング内のＧＭＥは、動き補償予測によって生成される動きベクトル場を利用して実行される。これは図１９ａ，１９ｂに見られる。ここでもまた、エンコーダは、画像または領域ベースで使用される技術を決定する。フレームインデックスも同じく伝送される。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。

第１３の好ましい実施形態において、通常の空間的デブロッキングが、時間フィルタリングと空間的デブロッキングとの組合せに加えて実行される。ここでは、空間的デブロッキングは時間フィルタリングの後で実行される。時間フィルタリングには、グローバル動き補償のための画素ベースＧＭＥ手法が用いられる。エンコーダは、生成される最良の予測信号に応じて使用すべき技術を決定する。フレームインデックスならびに画像および／または領域に使用される技術がレシーバに伝送される。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。

第１４の好ましい実施形態は第１３の実施形態の発展形である。第１３の実施形態と異なる点として、動き補償予測によって生成される動きベクトル場は、時間フィルタ内のＧＭＥに使用される。ここでもまた、エンコーダは、空間的デブロッキングだけを使うか、または時間フィルタリングと空間的デブロッキングとの組合せを使うかを決定する。また、フレームインデックスならびに画像および／または領域に使用される技術もレシーバに伝送される。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。

予測２‐ 追加の予測モード
通常のハイブリッドビデオコーディング環境に組み込まれるグローバル動き時間フィルタリングのための実施形態の三番目の一群は、追加の予測モードとしてのその使用法を説明する。第１５の好ましい実施形態は図２２に示される。この応用シナリオにとって重要でない情報は省略されている。

ここでは、通常のイントラおよびインター予測に加えて追加の予測モードとしてその手法が用いられる。インター予測におけるＭＣＰは、動き推定に用いられるブロックマッチング技術に依存するだけである。伝送される変換パラメータの量子化が粗くなると、ブロッキングアーティファクトと大量の量子化ノイズを含む局所的にデコードされた画像を生み出す。これは、局所的にデコードされた画像の品質に強く依存するブロックマッチングの結果を左右し、ひいては誤りを含む動きベクトルデータを生み出す。さらに、最新のブロックマッチング技術は、最高１／４画素レベルの精度を有するものの、並進動きベクトルを遂行するだけである。２つの連続する画像間の動きは並進動きモデルで近似できるという仮定は、一部の場合では正しいかも知れないが、ズーミング、回転、シャーリング、透視変換等の複雑な動きタイプが発生する場合は、その限界に突き当たる。これらの問題はコーダ（符号器）の機能性には影響を及ぼさなくとも、原画像と予測信号の間の減算後の無益な大きな残余データにつながる恐れがあることを強調しなければならない。これもまた、レシーバに伝送する不要な余剰ビットを生み出す。

追加の予測モードとしてグローバル動き時間フィルタリングを用いて予測を大幅に向上させることが可能で、ひいては予測誤差すなわち残余データを低減できる。エンコードされる現在の画像の時間的フィルタリングされた表現（画像）が、より高次の動きモデル、この場合は８パラメータ透視動きモデルを用いて生成されるため、それが達成できる。さらに、それは幾つかの時間的または空間的に隣接する局所的にデコードされた画像を用いて形成される。量子化のレベルに応じて、これらの画像はブロッキングアーティファクトと量子化ノイズを含み、それらはフィルタリングされた画像において低減されるべきものであり、フィルタリングされた画像の生成においてそれらを考慮すればするほど、画像間の動きの推定は向上する。

図２３は、現在の画像に対する予測信号を生成するための画像バッファからの情報の変換プロセスを例示的に示す。現在エンコードされつつある画像をＩ_tとする。その場合、画像全体またはそれの小さなコヒーレント領域だけを事前にデコードされた画像を用いて予測できる。この例では、画像Ｉ_t内の一部のマクロブロックに対して前の画像において変換プロセスが行われた。現在の画像と画像バッファに含まれる画像との間の長時間動きを予測することにより、その動きに対する補償が可能となる。それにより、空間的に整列された画像による画像群が生成される。画像Ｉ_tはグローバル動き推定の一部であるが、デコーダはそれに対する知識がない中予測信号を再生しなければならないため、画像Ｉ_tは合成プロセスの中に含まれてはならないことを明確に述べなければならない。

画像群と合成プロセスが図２４に見られる。画像Ｉ_pb,t-1乃至Ｉ_pb,t-3は、Ｉ_tの座標系へ変換されてＩ’_pb,t-1乃至Ｉ’_pb,t-3となる。フィルタリングが施されるコヒーレント領域は、陰影付き画素として表されている。次に、対応する画素が合成されて現在の画像Ｉ_tに対する予測信号Ｉ_t,predを形成する。

予測信号の生成に対して、画像バッファからの画像の全てまたはサブセットだけを考慮することができる。現在の画像の考え得る全ての予備的表現（画像）をすでに生成しているので、これらからのマクロブロックを予測するのにこれらを使用できる。画像バッファのコンテンツは常に利用可能なため、新予測モードをスライスおよび画像それぞれのインター予測とともにイントラ予測に使用できる。任意のマクロブロックに対して、考え得る全ての表現（画像）を使用して、最小誤差の観点から最良の予測を実現するものが選択される。その上、通常の規格化された全ての予測モードを試してみて、最小の予測誤差を達成するものがその先の処理のために選択される。マクロブロックに対してグローバル動き時間フィルタリング予測が使用される場合、エンコーダは、通常のビットストリームに加えて、付帯的情報として予測信号の生成のために使用される画像のインデックスをレシーバに伝送しなければならない。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。

第１６の好ましい実施形態において、追加の予測モード内の時間フィルタリングは、動き補償予測によって与えられる動きベクトル場を用いて実行される。この手法は図２５ａ，２５ｂに示される。ここでもまた、エンコーダは、領域毎にレート歪みの観点でどの種類の予測を選択するかを決定する。フレームインデックスは、デコーダにおける予測の再生のために付帯的情報としてレシーバに伝送される。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。

組合せの応用
第１７の好ましい実施形態において、時間フィルタリングは、通常のハイブリッドビデオコーディング環境に二重に組み込まれる。この実施形態は、ブロック図として図２６ａ，２６ｂに示される。ここでは、時間フィルタリングは、一方で画像バッファ内にある利用可能な画像を用いる追加の予測モードとして実行される。他方で、時間フィルタリングは、動き推定向上のための通常のデブロッキングに加えて行われる。このようにして、エンコーダは、考え得る最良の予測モードおよびフィルタリング方法を選択して最適レート歪みを達成する。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。この実施形態は、先に説明した全ての実施形態についての可能な組合せの一例に過ぎない。

Claims

エンコードされたビデオ・シーケンスを処理する方法であって、
前記エンコードされたビデオ・シーケンスを復元し、複数の隣接する画像を提供するステップと、
前記隣接する画像のそれぞれ又は隣接する各画像内の少なくともコヒーレント領域を、動きモデルに基づいて基準画像の座標系へ変換し、もって、変換された画像からなる画像群を生成するステップと、
重み関数を用いて前記変換された画像における対応する画素同士の画素値を組み合せて、前記基準画像の少なくとも１つの画素について加工された画素値を形成するステップと、
前記少なくとも１つの画素の前記加工された画素値に基づいて加工された画像を生成するステップと
を備え、
前記加工された画像を、前記複数の隣接する画像を提供するステップによって復元される前記ビデオ・シーケンスに組み込むことにより、フィルタリングされたビデオ・シーケンスを生成し、
前記ビデオ・シーケンスにおける前記加工された画素値の存在を知らせるために、前記加工された画像に対してマーカービットが割り当てられることを特徴とする方法。
前記加工された画像に対して長さ値が割り当てられ、前記長さ値は前記画像群の前記隣接する画像の数を規定する、請求項１の方法。
前記隣接する画像を変換するステップは、前記基準画像に対して先行しかつ連続する複数の画像を変換することを含む、請求項１又は２の方法。
前記変換された画像の複数の画素に対応する複数の画素を含む空間的に隣接する画像群からなるビデオ・シーケンスについて前記各ステップを更に実行することにより、前記画素の前記加工された画素値を形成する、請求項１乃至３のいずれかの方法。
さらに少なくとも２つの異なるプロセスモードにより特徴付けられており、
各プロセスモードにおいては、１画像群を生成するための画像の最大数が考慮されており、
ビットストリーム内で実行されたプロセスモードを表すフラグが割り当てられる、請求項１乃至４のいずれかの方法。
前記エンコードされたビデオ・シーケンスのビットストリームを生成するステップをさらに含む、請求項１乃至５のいずれかの方法。
前記加工された画像は、或る１画像を予測するために使用される、請求項１乃至６のいずれかの方法。
前記基準画像をエンコードするために、
複数の画像群を定義するステップであって、各画像群は前記基準画像に対して別々の数の隣接する画像からなるものと、
各画像群毎に、前記隣接する画像のそれぞれまたは隣接する各画像の少なくともコヒーレント領域を動きモデルに基づいて前記基準画像の座標系へ変換し、それにより変換された画像群を生成し、重み関数を用いて前記変換された画像の対応する画素の画素値を組み合せて前記基準画像の少なくとも１つの画素に関する加工された画素値を形成し、前記少なくとも１つの画素の前記加工された画素値に基づいて加工された画像を生成し、各加工された画像に対して個々の画像群長さを定義する長さ値を割り当てるステップと、
各加工された画像毎に、前記基準画像を参照する予測画像を生成するステップと、
前記加工された画像を用いて前記基準画像をエンコードするとともにエンコードされたビットストリームを生成するステップと、
前記エンコードされたビットストリームに、エンコードするために使用される画像の個々の画像群長さを表す値を付加するステップと、
前記隣接する画像のそれぞれまたは隣接する各画像の少なくともコヒーレント領域を、前記エンコードされたビットストリームに対する動きモデルに基づいて基準画像の座標系へ変換するためのパラメータをエンコードするステップと、
前記エンコードされたビットストリームにおける前記加工された画素値の存在を知らせるために、前記加工された画像に対してマーカービットを割り当てるステップと
を更に備えることを特徴とする請求項６または７の方法。
前記予測画像を生成する前記ステップにおいて、前記予測画像に加えて、前記基準画像に先行する少なくとも１つの画像に基づく予測を実行することによりフィルタリングなしの予測画像を更に生成し、
前記予測画像および前記フィルタリングなしの予測画像をブロックに分割するステップを更に備え、
前記基準画像をエンコードするとともにエンコードされたビットストリームを生成する前記ステップにおいて、
前記基準画像の各ブロックを、前記予測画像の中の１つの対応するブロックまたは前記フィルタリング済みの予測画像の対応するブロックに基づいてエンコードし、
各ブロック毎に、該ブロックが前記予測画像の中の１つまたは前記フィルタリングなしの予測画像のどちらを用いてエンコードされるかを表すフラグを提供し、
前記フラグを前記エンコードされたビットストリーム内に含める、
ことを特徴とする請求項８の方法。
前記動きモデルは、並進、アフィン、透視、および／または放物線動きモデルである、請求項６乃至９のいずれかの方法。
請求項１乃至５のいずれかの方法を実行し得るように構成されたデコーダ。
請求項６乃至１０のいずれかの方法を実行し得るように構成されたエンコーダ。