JP5063648B2

JP5063648B2 - ビデオコーディングがテクスチャ解析およびテクスチャ合成を含むビデオコーディングのための方法およびアセンブリと、対応するコンピュータプログラムおよび対応するコンピュータで読み込み可能な記録媒体

Info

Publication number: JP5063648B2
Application number: JP2009184281A
Authority: JP
Inventors: ベーラマカイ; パトリックンジキ−ニア; ハイコシュヴァルツ; アリョーシャスモリック; トーマスウィーガント
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2003-02-28
Filing date: 2009-08-07
Publication date: 2012-10-31
Anticipated expiration: 2024-02-26
Also published as: ATE354143T1; DE502004002904D1; ATE415052T1; WO2004077360A1; DK1599835T3; PT1599835E; ES2318402T3; US20060039617A1; DE502004008490D1; JP2006519533A; EP1635578B1; JP4450828B2; EP1599835B1; JP2010011470A; EP1635578A3; US7949053B2; ES2280947T3; EP1599835A1; EP1635578A2; DE10310023A1

Description

本発明は、ビデオコーディングがテクスチャ解析およびテクスチャ合成を含むビデオコーディングのための方法およびアセンブリと、対応するコンピュータプログラムおよび対応するコンピュータで読み込み可能な記録媒体に関する。特に、本発明は、ビデオデータを送信する際のビット率を減らすことに適用可能である。

多くのビデオシーンは、水、草、木、雲、砂、などの代表的なテクスチャを含む。これらのテクスチャは、概して細部においてリッチであり、したがって、エンコードすることは非常に不経済である。しかしながら、低いローカル解像度で表される場合には、これらのテクスチャを正確に復元することは重要でないとみなされる。したがって、第一にそのようなテクスチャ領域をコンピュータによって集中的にコーディングし、その結果として生じる（大きい）容量のデータを送信し、さらに最終的にＭＳＥ（平均２乗誤差）を基礎としてテクスチャを復元することは不必要である。プレフィルタが使用される場合には、それによってテクスチャが損なわれるので、上述のような処理によってもしばしば復元されることはなく、ビューアは、表された細部に無関係なテクスチャを認識できることを必要とするだけである。

したがって、本発明の目的は、上述した既知の解決方法の不利な点を回避し、特に、送信されるビデオデータを減らしながら、視覚的な質を全く損なわないテクスチャの復元を可能にする、ビデオコーディングがテクスチャ解析およびテクスチャ合成を含むビデオコーディングのための方法およびアセンブリと、対応するコンピュータプログラムおよび対応するコンピュータで読み込み可能な記録媒体とを提供することである。

本発明によれば、請求項１、１５、１６、１７、１８および１９の特徴によりこの目的が達成される。本発明の適切な実施例は、下位の請求項に含まれる。

ビデオコーディングがテクスチャ解析およびテクスチャ合成を含むこのビデオコーディングのための方法の特別の利点は、エンコーダ側で、合成可能なテクスチャの領域を決定するためにビデオシーンのテクスチャ解析を実行すること、合成可能なテクスチャの認識された領域に関する情報およびこれらの領域のテクスチャに関する情報を用いて、ビデオシーンをコーディングし、さらに、認識される領域および合成可能なテクスチャを表すためのメタデータを生成すること、デコーダ側で、エンコードされたデータおよびメタデータを評価すること、および、メタデータを評価することにより認識される領域のためにテクスチャを合成的に生成することによりビデオシーンを復元することによって、送信されるビデオデータのビット率が減少することである。

本発明の方法の好ましい実施例では、セグメンテーションの分割および合併により合成可能なテクスチャの領域が認識され、フレームがマルチ解像度４分木を使用してサブフレーム（ブロック）に再分割される。次の再分割ステップから生じているサブブロックがスターティングブロックに類似した色および／またはテクスチャ特性を有する場合、または、最後の再分割ステップのブロックのサイズが既定値に達しない場合には、ブロック（スターティングブロック）の再分割を打ち切ることが有利であると判明した。加えて、有利な点は、スターティングブロックと類似した色および／またはテクスチャ特性であったために再分割を打ち切られたブロックが、均質なブロックであるとされ、フレームの再分割が完了したときに均質なブロックでないブロックが、分類不能のブロックとされることである。ある実施例は、ブロック数を減らすために、フレームの再分割後に均質なブロックに対して類似性の評価を行い、類似したブロックを合成可能な領域に結合する。本発明の方法の特別な実施例では、ブロックの類似性は、ＭＰＥＧ−７ディスクリプタの「エッジヒストグラム」テクスチャディスクリプタ（ＥＨ）および／または「スケーラブルカラー」ディスクリプタ（ＳＣＣ）を基にして評価される。

他の好ましい実施例では、フレームの合成可能なテクスチャの認識された領域をビデオシーケンスの先行するフレームの合成可能なテクスチャの領域にマッチする。

また、他に有利な点としては、ＭＳＥベース方法に基づいて「フレームグループ」（ＧｏＦ）の最初と最後のフレーム（いわゆるキーフレーム）をエンコードし、さらに、認識された合成可能な領域を有する介在するＢフレームを部分的に合成することである。本発明の方法の更なる好ましい実施例では、テクスチャカタログによって、フレームグループ（ＧｏＦ）の合成可能なテクスチャの認識の時間的整合性が確実になる。

別の好ましい実施例では、適切なワーピングによって、部分的に合成されたフレームの合成可能な領域をキーフレーム内の対応するテクスチャ領域に適応する。特に、ワーピングは、以下の式によって表されるプレーナパースペクティブモーションモデルによって行われる：
ｘ´＝［（ａ₁＋ａ₃ｘ＋ａ₄ｙ）／（１＋ａ₇ｘ＋ａ₈ｙ）］＋ｘ、
ｙ´＝［（ａ₂＋ａ₅ｘ＋ａ₆ｙ）／（１＋ａ₇ｘ＋ａ₈ｙ）］＋ｙ、
ここで、（ｘ、ｙ）はスターティングポイントの座標を表し、（ｘ´、ｙ´）はスターティングポイントの変化した座標を表し、ａ₁、・・・、ａ₈はモデルパラメータを表す。

ワーピングにより、現ＧｏＦの最初または最後のフレームのテクスチャが認識される合成可能なテクスチャ領域の方向にワーピングされる場合、テクスチャ合成から得られた結果は特によく、このような各テクスチャ領域はモーションパラメータセットおよびコントロールパラメータと関連し、コントロールパラメータはＧｏＦの最初または最後のフレームがテクスチャ合成に用いられるかどうかを示す。これにより、特に、テクスチャ合成のために、ＧｏＦのフレームは、合成されたテクスチャ領域とオリジナルテクスチャ領域との間でより小さい差分信号が認識されるために用いられる。

本発明のビデオコーディングのための方法の更なる好ましい実施例では、１つのセグメンテーションマスク、１つのモーションパラメータセットおよび／または１つのコントロールパラメータが、テクスチャ領域ごとに、合成可能なテクスチャを有する領域のメタデータとして送信される。

加えて、デコーディングの際には、合成可能な領域にある全てのマクロブロックをスキップされたマクロブロックとして扱うことが有利であると判明した。

本発明のアセンブリは、ビデオコーディングがテクスチャ解析およびテクスチャ合成を含むビデオコーディングのための方法を行うことができるようにセットアップされた少なくとも１つのチップおよび／またはプロセッサを含み、ビデオコーディングのための方法を行うために備わっている要素は、
エンコーダ側で、合成可能なテクスチャの領域を決定するためにビデオシーンのテクスチャ解析を実行すること、合成可能なテクスチャの認識された領域に関する情報およびこれらの領域のテクスチャに関する情報を用いて、ビデオシーンをコーディングし、さらに、認識される領域および合成可能なテクスチャを表すためのメタデータを生成すること、および
デコーダ側で、エンコードされたデータおよびメタデータを評価すること、および、認識される領域のためにメタデータを評価することによりテクスチャを合成的に生成することによりビデオシーンを復元することを含む。

本発明のアセンブリの好ましい実施例では、アセンブリは、ビデオエンコーダ、テクスチャアナライザ（ＴＡ）、ビデオデコーダ、およびテクスチャシンセサイザ（ＴＳ）を含み、ビデオエンコーダおよびテクスチャアナライザ（ＴＡ）はそれぞれビデオ入力を有し、ビデオデコーダはビデオ出力を有し、テクスチャアナライザ（ＴＡ）の出力はビデオエンコーダの第２の入力に接続され、ビデオエンコーダの出力はビデオデコーダの入力に接続され、さらに、ビデオエンコーダの第２の出力はテクスチャシンセサイザ（ＴＳ）の入力に接続される。

本発明のビデオコーディングを実行するために、コンピュータのメモリにロードされることにより、ビデオコーディングがテクスチャ解析およびテクスチャ合成を含むビデオコーディングのための方法をコンピュータが実行することを可能にするコンピュータプログラムを用いることが有利であり、そのコンピュータプログラムは、ビデオコーディングのための方法を実行するためのプログラムエンコードを含み、
エンコーダ側で、合成可能なテクスチャの領域を決定するためにビデオシーンのテクスチャ解析を実行すること、合成可能なテクスチャの認識された領域に関する情報およびこれらの領域のテクスチャに関する情報を用いて、ビデオシーンをコーディングし、さらに、認識される領域および合成可能なテクスチャを表すためのメタデータを生成すること、および
デコーダ側で、エンコードされたデータおよびメタデータを評価すること、および、認識される領域のためにメタデータを評価することによりテクスチャを合成的に生成することによりビデオシーンを復元することを含む。

また、コンピュータのメモリにロードされることにより、ビデオコーディングがテクスチャ解析およびテクスチャ合成を含むビデオコーディングのための方法をコンピュータが実行することを可能にし、それに格納されるコンピュータプログラムを有するコンピュータで読み取り可能な記録媒体を用いることが有利であり、そのコンピュータプログラムは、ビデオコーディングのための方法を実行するためのプログラムエンコードを含み、
エンコーダ側で、合成可能なテクスチャの領域を決定するためにビデオシーンのテクスチャ解析を実行すること、合成可能なテクスチャの認識された領域に関する情報およびこれらの領域のテクスチャに関する情報を用いて、ビデオシーンをコーディングし、さらに、認識される領域および合成可能なテクスチャを表すためのメタデータを生成すること、および
デコーダ側で、エンコードされたデータおよびメタデータを評価すること、および、認識される領域のためにメタデータを評価することによりテクスチャを合成的に生成することによりビデオシーンを復元することを含む。

図面の図を参照することにより、以下において、本発明は実施例によりさらに詳細に説明される。

図１は、テクスチャアナライザ（ＴＡ）およびテクスチャシンセサイザを用いるビデオコーディングを表す。図２は、分割段階後（左手側）と併合段階後（右手側）のセグメント化されたシングルフレームを示す。図３は、現フレームに当てはめられるイメージ領域の方向における基準フレーム領域のワーピングを示す。図４は、「フラワーガーデン」テストシーケンスのコーディング結果を示す。ａ）左上：オリジナルフレーム（「フラワーガーデン」シーケンスの第６フレーム）ｂ）左下：合成されたテクスチャ領域を有するデコードされたフレームｃ）右上：差分信号（増幅定数３）ｄ）右下：伝統的な動き補償マスク図５は、量子化パラメータＱＰに基づくビット率節約である。

後述の実施形態は、本発明のプレデコーディングのための方法を用いて送信側テクスチャ解析およびデコーダ側テクスチャ合成を行うことによる、よりよいテクスチャの復元を実現するためのアプローチに基づく（図１参照）。

テクスチャアナライザは、細部とは無関係なテクスチャ領域を認識し、対応する目の粗いマスクを生成し、テクスチャシンセサイザに対するサイド情報としてそれらを信号化してデコーダに送る。後者は、サイド情報を引き出している場合、認識したテクスチャを合成的に生成したテクスチャと置き換える。

この手順は、認識された細部とは無関係なテクスチャにとって、平均２乗誤差（ＭＳＥ）のような一般的な客観的品質基準が、効果的なコーディングに適していないという所見に基づく、というのは、ある一定の状況下では、関係のない詳細が送信および復元されうることもあるからである。我々の研究は、ＭＰＥＧ−７類似性基準が、しばしば、復元された細部とは無関係なテクスチャの質を察知するのに十分であることを示した（ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｎ４３５８： “ＴｅｘｔｏｆＩＳＯ／ＩＥＣ１５９３８−３／ＦＤＩＳＩｎｆｏｒｍａｔｉｏｎｓｔｅｃｈｎｏｌｏｇｙ − Ｍｕｌｔｉｍｅｄｉａｃｏｎｔｅｎｔｄｅｓｃｒｉｐｔｉｏｎｉｎｔｅｒｆａｃｅ − Ｐａｒｔ３Ｖｉｓｕａｌ”，Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，Ｊｕｌｙ２００１；ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｎ４３６２： “ＭＰＥＧ−７ＶｉｓｕａｌｐａｒｔｏｆｅｘｐｅｒｉｍｅｎｔａｔｉｏｎＭｏｄｅｌＶｅｒｓｉｏｎ１１．０”，Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，Ｊｕｌｙ２００１参照）。ＭＰＥＧ−７類似性基準の使用により、復元されたテクスチャが、オリジナルテクスチャと異なる細部を有する可能性も生じる。テクスチャのローカル解像度が復元後にも保たれる場合には、これらの差は、ほとんど認識できない。また、これらの差は、サイド情報に対応するビット率で差分信号をコーディングするときに発生するアーチファクトよりはるかに邪魔にならないものである。

Ｈ．２６４／ＡＶＣコーデックへのシステムインテグレーションと同様、送信側テクスチャ解析および受信側テクスチャ合成のために使用されるアルゴリズムを後述する。

エンコーダ側テクスチャ解析
テクスチャ解析においては、分割および併合セグメンテーションがシーケンスの各フレームに対して行われる。第１ステップ（再分割の段階または分割段階）において、各フレームは、マルチ解像度４分木の使用によりブロックに再分割されて、解析される（Ｊ．Ｍａｌｋｉｅｔａｌ．： “ＲｅｇｉｏｎＱｕｅｒｉｅｓｗｉｔｈｏｕｔＳｅｇｍｅｎｔａｔｉｏｎｆｏｒＦｒａｍｅＲｅｔｒｉｅｖａｌｂｙＣｏｎｔｅｎｔ”，ＶＩＳＵＡＬ‘９９，ｐｐ．１１５ − １２２，１９９９参照）。マルチ解像度４分木はいくつかのレベルを有し、第１レベル（レベル０）がオリジナルフレームに対応する。第Ｌレベルにおけるブロック数は、２^2Lである。レベル（Ｌ−１）上の各ブロックは次のレベルアップ（レベルＬ）で４つのブロックに分割されるので、フレームのブロック数は、常に水平および垂直に同じ（例えば第２レベル（Ｌ＝２）上では水平および垂直に４ブロック）として残る。

第Ｌレベル上の４つのサブブロックがブロック本体と類似した色および／またはテクスチャ特性を有する場合、レベル（Ｌ−１）上のブロックは、均質なテクスチャを含む。ここでは、後述するように、対応するＭＰＥＧ−７ディスクリプタによって類似性が決定される。不均質なブロックだけが、次のレベルアップでさらに再分割される。最大再分割レベルに達した後にもまだ不均質であるブロックは、分類不能とされる。分割段階の結果、概して過度にセグメント化されたフレームが生じる。このフレームは、過度にセグメント化されたフレームのいくつかのブロックを組み合わせることによって結合または併合段階で後処理されなければならない。

このため、併合段階において均質なブロックは一対ずつ比較され、十分な類似性がある場合クラスタに組み合わせられる。図２は、分割段階後と併合段階後とのセグメント化されたシングルフレームの例を示す。分類不能とみなされた領域は黒いふちでマークされるのに対して、分類された領域は黒色でないふちでマークされる。

ダウンストリーム併合段階により、均質な領域の数がはっきりと下がったことは明らかである。

２つのブロック間で行われる類似性評価は、２つのＭＰＥＧ−７ディスクリプタに基づく（ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧｌｌ／Ｎ４３５８： “ＴｅｘｔｏｆＩＳＯ／ＩＥＣ１５９３８−３／ＦＤＩＳＩｎｆｏｒｍａｔｉｏｎｓｔｅｃｈｎｏｌｏｇｙ − Ｍｕｌｔｉｍｅｄｉａｃｏｎｔｅｎｔｄｅｓｃｒｉｐｔｉｏｎｉｎｔｅｒｆａｃｅ − Ｐａｒｔ３Ｖｉｓｕａｌ”，Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，Ｊｕｌｙ２００１：ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧｌｌ／Ｎ４３６２： “ＭＰＥＧ−７ＶｉｓｕａｌＰａｒｔｏｆｅｘｐｅｒｉｍｅｎｔａｔｉｏｎＭｏｄｅｌＶｅｒｓｉｏｎ１１．０”，Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，Ｊｕｌｙ２００１参照）。ここで取り組んでいることは、１つには、４方向の端部（１つは水平、１つは垂直、そして２つは対角線のもの）およびフレームの１６のローカル、非オーバーラップ領域における非方向の端部の空間分布で表される「エッジヒストグラム」テクスチャディスクリプタ（ＥＨ）である。個々のエッジクラスの発生頻度は、各ローカル領域別に決定される。したがって、ＥＨ特徴ベクトルは８０（１６の領域かける５つのエッジクラス）のディメンションを呈する。用いられる第２のＭＰＥＧ−７ディスクリプタは、「スケーラブルカラー」ディスクリプタ（ＳＣＣ）である。「スケーラブルカラー」ディスクリプタは、ＨＳＶ色空間のカラーヒストグラムを表し、ＨＳＶは色相、彩度および値の構成要素を有する三次元色空間を表している。用いられるＳＣＣ特徴ベクトルは、２５６のディメンションを呈する。

それぞれの特徴ベクトル間の距離が、あらかじめ定義されたしきい値に達しない場合、２つのブロックが類似していると分類される。しきい値は、可能な限りの最大距離を指す。後者は、選択される測定基準（１₁、１₂、ＥＭＤ）および現ＭＰＥＧ−７ディスクリプタ（ＳＣＣまたｈＥＨ）によって決まる。しきい値がゼロであるということは、特徴ベクトルが１００パーセント合った場合にのみ、２つのブロックが類似であると分類可能であることを示し、一方、しきい値が１の場合には、特徴ベクトル間の距離が、可能な限りの最大距離より大きくはなり得ないので、いかなる２つのブロックでも、常に類似していること意味している。類似性しきい値は、各シーケンスに対して手動設定され、シーケンス全体に対して一定のままである。

分割および併合セグメンテーションは、シーケンスの他のフレームをそれぞれ個々に処理する。この結果、クロスフレームテクスチャ認識において避けられない時間的不整合性が生じる。したがって、現フレームにおける認識されたテクスチャ領域は、前フレームのテクスチャ領域とマッチする。想定されたアプリケーションに関し、考慮されるシーケンスの各フレームグループ（ＧｏＦ）のために、認識されたテクスチャを把握することにおいて時間的整合性が得られることが重要である。ＧｏＦは、２つのキーフレーム（ＧｏＦの最初と最後のフレーム）と、部分的に合成されたいくつかの介在フレームとからなる。キーフレームは、ＭＳＥにのみ基づいてエンコードされるＩフレームかＰフレームのいずれかである。

ＧｏＦにおいて認識された細部とは無関係なテクスチャの把握の時間的整合性は、テクスチャカタログによって確かなものとされる。このテクスチャカタログには、考慮されるシーケンスに存在する細部とは無関係なテクスチャが格納される。テクスチャカタログは、細部とは無関係なテクスチャを有する第１フレームにおいて生じる細部とは無関係なテクスチャの特徴ベクトルによって、初期化される。続くフレームにおいて認識されたテクスチャは、テクスチャカタログにおいて形成されたエントリと比較され、マッチするものがある場合には各エントリに割り当てられる。十分にマッチしない場合には、関連する非登録の細部とは無関係なテクスチャは、テクスチャカタログに入れられる。

適切なワーピングにより、部分的に合成されたフレーム内における細部とは無関係なテクスチャ領域をキーフレームにおける対応するテクスチャ領域に適合させることによって、ＧｏＦにおける合成されたテクスチャ領域の色および／またはテクスチャに基づく認識の信頼性が高くなる。したがって、フレーム内の細部とは無関係なテクスチャ領域は、対応するキーフレーム（ＧｏＦの最初と最後のフレーム）の方向にワープされる。ワーピングは、ＭＰＥＧ−７パラメトリックモーションディスクリプタによって定義されるプレーナパースペクティブモーションモデルを用いて行われる（ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧｌｌ／Ｎ４３５８： “ＴｅｘｔｏｆＩＳＯ／ＩＥＣ１５９３８−３／ＦＤＩＳＩｎｆｏｒｍａｔｉｏｎｓｔｅｃｈｎｏｌｏｇｙ − Ｍｕｌｔｉｍｅｄｉａｃｏｎｔｅｎｔｄｅｓｃｒｉｐｔｉｏｎｉｎｔｅｒｆａｃｅ − Ｐａｒｔ３Ｖｉｓｕａｌ”，Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，Ｊｕｌｙ２００１；ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧｌｌ／Ｎ４３６２： “ＭＰＥＧ−７ＶｉｓｕａｌｐａｒｔｏｆｅｘｐｅｒｉｍｅｎｔａｔｉｏｎＭｏｄｅｌＶｅｒｓｉｏｎ１１．０”，Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，Ｊｕｌｙ２００１参照）。パースペクティブモーションモデルは、以下の式によって表される。：
ｘ´＝［（ａ₁＋ａ₃ｘ＋ａ₄ｙ）／（１＋ａ₇ｘ＋ａ₈ｙ）］＋ｘ
ｙ´＝［（ａ₂＋ａ₅ｘ＋ａ₆ｙ）／（１＋ａ₇ｘ＋ａ₈ｙ）］＋ｙ

座標（ｘ´、ｙ´）は、スターティングポイント（ｘ、ｙ）の変化した座標を表す。８つのモデルパラメータは、（ａ₁、・・・、ａ₈）で表される。カメラの動きが単なる回転およびズームに限られている場合、プレーナパースペクティブモデルがランダムな剛体のランダムな動きを表すこともある。平面剛体により、ランダムなカメラの動きが認められる。実際には、これらの条件は、概してＧｏＦの短い周期に合っている。それぞれのキーフレームの対応するテクスチャ領域に関して、認識された細部とは無関係なテクスチャ領域のモーションパラメータ（ａ₁、・・・、ａ₈）は、（Ａ．ＳｍｏｌｉｃａｎｄＪ．−Ｒ．Ｏｈｍ： “ＲｏｂｕｓｔＧｌｏｂａｌＭｏｔｉｏｎＥｓｔｉｍａｔｉｏｎＵｓｉｎｇａＳｉｍｐｌｉｆｉｅｄＭ−ＥｓｔｉｍａｔｏｒＡｐｐｒｏａｃｈ”，Ｐｒｏｃ．ＩＣＩＰ２０００，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＦｒａｍｅＰｒｏｃｅｓｓｉｎｇ，Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ，Ｓｅｐｔｅｍｂｅｒ２０００参照）で述べられているように推定される。ＧｏＦの最初もしくは最後のフレームでそれぞれのテクスチャ領域が存在しおよび／または認識される場合にのみ、ワーピングが行われる。ＧｏＦの最初のフレームの対応するテクスチャ領域の中に位置する変化したテクスチャ領域のそれらのポイントだけが、合成のために用いられ得る。残りのポイントは現フレームにおいて分類不能とマークされ、それによって合成可能なテクスチャ領域は大きさが減少する。この方法は、ＧｏＦの最後のフレームで繰り返される。したがって、テクスチャアナライザは、部分的に合成可能なフレームにおけるもともと認識された各テクスチャ領域（併合段階からのダウンストリーム）に対して、減じられ動き補償された２つのテクスチャ領域を提供する。

デコーダ側テクスチャ合成
使用されるテクスチャシンセサイザは、現ＧｏＦの最初または最後のフレームのテクスチャをテクスチャアナライザによって認識された合成可能な各テクスチャ領域の方向にワープする（図３）。このため、テクスチャアナライザによって認識された合成可能な各テクスチャ領域に対して、モーションパラメータセットおよびコントロールパラメータが要求される。コントロールパラメータは、ＧｏＦの最初または最後のフレームがテクスチャ合成に用いられるかどうかを決定する。いずれの場合でも、最良のテクスチャ合成を生じさせる基準フレームを用いる。より良好なテクスチャ合成は、合成されたテクスチャ領域およびオリジナルテクスチャ領域間のより小さい差分信号によって特徴付けられる。このテクスチャシンセサイザは、モーションモデルの前提条件が満たされる場合には、剛体に対して非常に良好な結果を提供する。

例示実施例において、テクスチャを分析し合成するための方法は、Ｈ．２６４／ＡＶＣコーデック（ジョイントモデル２．１）に集積されている。その過程で、ＩおよびＰフレームは、ＭＳＥベースでエンコードされ、キーフレームとして使われる。しかしながら、複数のＢフレームが部分的に合成されてもよい。認識された合成可能なテクスチャ領域を含むＢフレームに対して、コントロールパラメータと同様に、セグメンテーションマスクとモーションパラメータセットが、各テクスチャ領域に対してサイド情報として送られる。

デコーディングの際には、合成可能なテクスチャ内の全てのマクロブロックは、スキップされたマクロブロックとして処理される。すなわち、スライスの範囲内で次のマクロブロックをデコーディングするために要求される（デコーディングの順の）全てのパラメータおよび変数は、スキップされたマクロブロックのために指定されるように設定される（ＤＲＡＦＴＩＳＯ／ＩＥＣ１４４９６−１０：２００２（Ｅ），ＤｏｃｕｍｅｎｔＪＶＴ−Ｅ１４６ｄ３７： “Ｅｄｉｔｏｒ‘ｓＰｒｏｐｏｓｅｄＤｒａｆｔＴｅｘｔＭｏｄｉｆｉｃａｔｉｏｎｓｆｏｒＪｏｉｎｔＶｉｄｅｏＳｐｅｃｉｆｉｃａｔｉｏｎ（ＩＴＵ−ＴＲｅｃ．Ｈ２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０ＡＶＣ），Ｇｅｎｅｖａｍｏｄｉｆｉｃａｔｉｏｎｓｄｒａｆｔ３６”，Ｇｅｎｅｖａ，Ｓｗｉｔｚｅｒｌａｎｄ，Ｏｃｔｏｂｅｒ２００２参照）。

フレームの全てのマクロブロックがデコーディングされると、テクスチャシンセサイザは合成されるべきテクスチャ領域を満たすことを必要とする。

テクスチャアナライザおよびテクスチャシンセサイザをＨ．２６４／ＡＶＣビデオコーデック（ジョイントモデル２．１）に集積し、続いてビデオシーケンスをエンコードし、デコードするという実験が行われた。このために、２つの周知のテストシーケンス（「フラワーガーデン」および「コンクリート」）が使われた。両方のテストシーケンスは、視覚的な質を顕著に失うことなく特定のテクスチャを再現できるということを立証するのに非常に適しているテクスチャを含む。

本発明の一実施例において、Ｈ．２６４／ＡＶＣコーデックは、以下の通り設定された：
３つのＢフレーム、
１つの基準フレーム、
ＣＡＢＡＣ（エントロピーコーディング方法）、
速度ひずみ最適化、
インターレースなし、
３０Ｈｚのフレーム周波数、
量子化パラメータ（ＱＰ＝１６、２０、２４、２８および３２）（図５）。

「フラワーガーデン」シーケンスでは、結果として満足な主観的な画質を示した。図４は、「フラワーガーデン」シーケンスの第６フレームの例を用いて得られた結果を示す。図４ｃは、スカイ領域で差分信号がほぼ０である一方、フラワー領域における差分信号はそれよりも明らかに高いことを示す。しかし、なお、デコードされたフレームおよびオリジナルフレーム間の光学比較において、ほぼ何の違いも見られなかった。これは、ＰＳＮＲ値がこの種のコーディングにおけるクオリティーの基準として適切でないことを示す。

可能な限り大きいビット率節約を推定可能にするために、両方のテストシーケンスは、最初のテストでは手動でセグメント化される。続くテストでは、半自動で生成されたセグメンテーションマスクを伴う（上記セクション「エンコーダ側テクスチャ解析」参照）。

図５は、量子化パラメータ（ＱＰ）に基づいて両方のテストシーケンスのために得られたビット率節約を示す。最も大きい節約は、最も高い量子化解像度（ＱＰ=１６）に対して発生することが測定された。２０．２９％の節約（「フラワーガーデン」）および２３．０５％の節約（コンクリート）は、この解像度で、手動でセグメント化されたマスクを有する場合に測定された。半自動で生成されたマスクを伴った場合、ＱＰ=１６に対して、５．６％の節約（「フラワーガーデン」）および１８．５３％（コンクリート）の節約を得た。ビット率節約は、量子化解像度の減少および／またはＱＰ値の増加によって減少する。これは、送信されるサイド情報がＱＰの値とは関係なく一定であるためである。このことは、量子化解像度が粗くなるにつれて、ビット率全体におけるサイド情報の比率が増加することを意味する。量子化パラメータのそれぞれが２８および３２よりも大きい場合（図５）、Ｈ．２６４／ＡＶＣビデオコーデック標準のビット率は、テクスチャ解析および合成を伴うコーデックのビット率とほとんど同じか、またはそれよりも小さい。

「コンクリート」カーブ（図５）の重なりは、シーケンス全体に見られるように、検出されるテクスチャの数が手動セグメンテーションの場合よりも半自動セグメンテーションの場合の方が小さく、したがって、送信されなければならなかったサイド情報が手動セグメンテーションの場合より半自動セグメンテーションの場合の方が少なかったということに基づいている。したがって、サイド情報の量は、手動の場合より、半自動の場合の方が少なかった。Ｈ．２６４／ＡＶＣビデオエンコーディングおよびデコーディングされたフレームシーケンスの主観的な画質は、全てのＱＰ設定において、テクスチャ解析および合成を伴うコーディングの結果に相当した（http://bs.hhi.de/~ndjiki/SE.htm参照）。

実施においては、本発明は上述した好ましい実施例に限定されることなく、むしろ、本質的に異なったタイプの実施例でさえをも有する本発明のアセンブリおよび方法を用いる多くの異なった形態が可能である。

１エンコーダ
２デコーダ
３テクスチャアナライザ（ＴＡ）
４テクスチャシンセサイザ（ＴＳ）

Claims

ビデオシーケンスのフレームグループの各フレームに対して、各フレームをブロックに再分割するためにテクスチャ解析を行うこと、
合成可能なテクスチャの領域を確認するために、細部とは無関係なテクスチャのブロックとフレーム内の類似した色およびテクスチャ特性とを合併すること、および
合成可能なテクスチャの認識された領域に関する情報およびこれらの領域のテクスチャに関する情報を用いて、ビデオシーンをコーディングし、さらに、認識される領域および合成可能なテクスチャを表すためのメタデータを生成することを含み、
メタデータを生成するステップは、ワーピングによってフレームグループのフレームにおける合成可能な領域をこのグループの最初または最後のフレームにおける対応するテクスチャ領域に適応させるためにワーピングを表すモーションパラメータを推定するステップを含み、モーションパラメータはメタデータの一部である、ビデオエンコーディングのための方法。
テクスチャ解析を行うことは、マルチ解像度４分木を用いてフレームをブロックに再分割することを含む、請求項１に記載の方法。
・次の再分割ステップから生じているブロックがこのブロックと類似した色および／またはテクスチャ特性を呈する場合、または
・次の再分割ステップのブロックのサイズが既定値に満たない場合に、
ブロックの再分割が打ち切られる、請求項２に記載の方法。
類似した色および／またはテクスチャ特性によって再分割が打ち切られたブロックは均質なブロックとされ、フレームの再分割が完了したときに均質なブロックでないブロックは分類不能とされる、請求項３に記載の方法。
フレームの再分割後に類似した色および／またはテクスチャ特性のために再分割が打ち切られたそれらのブロックに対して類似性の評価が行われ、さらに、類似したブロックは合成可能な領域に結合される、請求項３または４に記載の方法。
ブロックの類似性がＭＰＥＧ−７ディスクリプタに基づいて評価される、請求項５に記載の方法。
ブロックの類似性がＭＰＥＧ−７ディスクリプタの「エッジヒストグラム」テクスチャディスクリプタ（ＥＨ）および／または「スケーラブルカラー」ディスクリプタ（ＳＣＣ）に基づいて評価される、請求項６に記載の方法。
ビデオシーケンスのフレームの合成可能なテクスチャの認識された領域がビデオシーケンスの先行するフレームの合成可能なテクスチャの領域にマッチされる、請求項１〜７のいずれかに記載の方法。
「フレームグループ」（ＧｏＦ）の最初と最後のフレーム（いわゆるキーフレーム）が平均２乗誤差方法に基づいて（ＭＳＥベースで）コード化され、認識された合成可能な領域を含む介在するＢフレームが部分的に合成される、請求項１〜８のいずれかに記載の方法。
テクスチャカタログによってフレームグループの合成可能なテクスチャの認識の時間的整合性が確実にされる、請求項９に記載の方法。
ワーピングが以下の式によって表されるプレーナパースペクティブモーションモデルによって行われる、請求項１〜１０のいずれかに記載の方法：
ｘ´＝［（ａ₁＋ａ₃ｘ＋ａ₄ｙ）／（１＋ａ₇ｘ＋ａ₈ｙ）］＋ｘ、
ｙ´＝［（ａ₂＋ａ₅ｘ＋ａ₆ｙ）／（１＋ａ₇ｘ＋ａ₈ｙ）］＋ｙ、
ここで、（ｘ、ｙ）はスターティングポイントの座標を表し、（ｘ´、ｙ´）はスターティングポイントの変化した座標を表し、ａ₁、・・・、ａ₈はモーションパラメータを表す。
ワーピングにより、現ＧｏＦの最初または最後のフレームのテクスチャが認識される合成可能なテクスチャ領域の方向にワーピングされ、このような各テクスチャ領域はモーションパラメータセットおよびコントロールパラメータと関連し、コントロールパラメータはＧｏＦの最初または最後のフレームがテクスチャ合成に用いられるかどうかを示す、請求項１１に記載の方法。
テクスチャ合成のために、ＧｏＦのフレームは、合成されたテクスチャ領域とオリジナルテクスチャ領域との間でより小さい差分信号が決定されるために用いられる、請求項１２に記載の方法。
以下のものが、合成可能なテクスチャを有する領域のメタデータとして、テクスチャ領域ごとに生成される、請求項１〜１３のいずれかに記載の方法：
セグメンテーションマスク、
モーションパラメータセット、および／または
コントロールパラメータ。
ビデオシーンのコード化されたデータとビデオシーンにおける合成可能なテクスチャの認識された領域およびこれらの領域の合成可能なテクスチャを表すためのメタデータとを評価すること、および
領域のために合成的に生成されたテクスチャを合成的に生成することによりビデオシーンを復元することを含み、
メタデータは、ワーピングによってフレームグループのフレームにおける合成可能な領域をこのグループの最初または最後のフレームにおける対応するテクスチャ領域に適応させるためにワーピングを表すモーションパラメータを含み、さらに
復元するステップは、モーションパラメータを用いてフレームグループのフレームにおいて適応された合成可能な領域の方向にグループの最初または最後のフレームにおける対応するテクスチャ領域をワーピングするステップを含む、ビデオデコーディングのための方法。
ビデオシーケンスのフレームグループの各フレームに対して、各フレームをブロックに再分割するためにテクスチャ解析を行い、さらに、合成可能なテクスチャの領域を認識するために、細部とは無関係なテクスチャのブロックとフレーム内の類似した色およびテクスチャ特性とを合併するための手段、
合成可能なテクスチャの認識された領域に関する情報およびこれらの領域のテクスチャに関する情報を用いて、ビデオシーンをコーディングし、さらに、認識される領域および合成可能なテクスチャを表すためのメタデータを生成するための手段、および
ワーピングによってフレームグループのフレームにおける合成可能な領域をこのグループの最初または最後のフレームにおける対応するテクスチャ領域に適応させるためにワーピングを表すモーションパラメータを推定するために構成されるメタデータを生成するための手段を含み、モーションパラメータはメタデータの一部である、ビデオエンコーディングのためのアセンブリ。
ビデオシーンのエンコードされたデータとビデオシーンにおける合成可能なテクスチャの認識された領域およびこれらの領域の合成可能なテクスチャを表すためのメタデータとを評価するための手段、および
決定される領域のために合成的に生成されたテクスチャを合成的に生成することによりビデオシーンを復元するための手段を含み、
メタデータは、ワーピングによってフレームグループのフレームにおける合成可能な領域をこのグループの最初または最後のフレームにおける対応するテクスチャ領域に適応させるためにワーピングを表すモーションパラメータを含み、さらに
復元するための手段は、モーションパラメータを用いてフレームグループのフレームにおいて適応された合成可能な領域の方向にグループの最初または最後のフレームにおける対応するテクスチャ領域をワーピングするために構成される、ビデオデコーディングのためのアセンブリ。
コンピュータのメモリにロードされることにより、請求項１〜１５のいずれかに記載の方法をコンピュータが実行することを可能にするコンピュータプログラム。
コンピュータのメモリにロードされることにより、請求項１〜１５のいずれかに記載の方法をコンピュータが実行することを可能にし、それに格納されるプログラムを有するコンピュータで読み取り可能な記録媒体。