JP2011515875A

JP2011515875A - サイド情報を用いた動画像符号化のためのテクスチャ合成の方法、装置、プログラム、及び記録媒体

Info

Publication number: JP2011515875A
Application number: JP2010527271A
Authority: JP
Inventors: エー．セガールクリストファー; スイエピン; タエオウビョン
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-01-18
Filing date: 2009-01-16
Publication date: 2011-05-19
Also published as: US20090185747A1; CN101911703A; WO2009091080A1; US8204325B2; CN101911703B

Abstract

サイド情報を用いた動画像符号化のためのテクスチャ合成方法は、デコーダ装置によって実行される。上記方法は、高忠実度でシードテクスチャを受信する第１受信ステップと、低忠実度で合成領域の残余部を受信する第２受信ステップと、合成する領域のマーキングを受信する第３受信ステップと、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づいて、マーキングされた上記領域を合成する合成ステップと、を含む。上記デコーダ装置は、記憶媒体に記憶されたプログラムを含みうる。サイド情報を用いた動画像符号化のためのテクスチャ合成方法は、エンコーダ装置によっても実行される。

Description

本開示内容は、概して動画像処理に関し、特に、サイド情報を用いた動画像符号化（video coding）のためのテクスチャ合成の方法、装置、プログラム、及び記録媒体に関する。

本開示内容は、概して動画像内のテクスチャ、すなわち、ビジュアルテクスチャに関する。ここで使用される“テクスチャ（texture）”という語は、デジタル画像あるいは反復要素からなる連続デジタル画像を意味する。これらの反復要素によって、３次元テクスチャ面の錯覚を創り出すことができる。換言すれば、これらの反復要素によって、視覚に対してテクスチャ面を現出させることができる。

本開示内容は、特に、動画像符号化を行うためのテクスチャ合成の課題に関する。テクスチャ合成の基本的な目的は、オリジナルの画像シーケンスと概念的に同一（または類似）の画像シーケンスを合成することにある。しかしながら、合成されたシーケンスのピクセル値は、オリジナルのシーケンスのピクセル値と大きく異なることが許容される。これは、従来の符号化方法とは相違するものであり、従来の方法では、オリジナルのピクセル値を可能な限り近似させようとしている。

テクスチャ合成は、ある程度ランダムな画像シーケンスに対して最も大きな動機付けを与える。例えば、水、草、木々の動きは、テクスチャ合成の対象として好ましい。

テクスチャ合成は、デジタル画像編集、３次元コンピュータ・グラフィックス、映画の撮影後の編集段階など数多くの分野で利用されており、画像中の欠損部（holes）を埋め込むとき、大型の非反復性の背景画像を作成するとき、小さなピクチャを拡大するときなどに用いられる。

サイド情報を用いた動画像符号化のためのテクスチャ合成方法が開示されている。上記方法は、デコーダ装置によって実行される。上記方法は、高忠実度でシードテクスチャを受信する第１受信ステップと、低忠実度で合成領域の残余部を受信する第２受信ステップと、合成する領域のマーキングを受信する第３受信ステップと、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づいて、マーキングされた上記領域を合成する合成ステップと、を含む。

上記合成ステップは、上記シードテクスチャ内において少なくとも１つの最適領域を特定する特定ステップと、初期推定値を取得する取得ステップと、を含む。上記取得ステップは、最適領域のピクセル値を現合成領域のピクセル値に複写する複写ステップを含む構成であってよい。上記合成ステップは、上記少なくとも１つの最適領域から画像モデルを導出する導出ステップと、受信したビットストリームから付加的な画像モデルを抽出する抽出ステップと、上記初期推定値と導出した上記画像モデルおよび抽出した上記画像モデルとに基づいて、現合成領域を合成する合成ステップと、を含む構成であってよい。

複数の最適領域が特定される。このとき、マーキングされた上記領域を合成するために、上記複数の最適領域の加重組み合わせが使用されうる構成であってよい。

伝送された上記画像モデルは、量子化パラメータ、量子化されたレベル値、及び予測モードのうち少なくとも１つを含む構成であってよい。

上記現合成領域の合成は、上記受信したビットストリームから抽出される画像モデルと、上記シードテクスチャから抽出される画像モデルとに反復射影することによって実行される構成であってよい。

一例として、上記シードテクスチャから抽出される上記画像モデルは、自己相関であり、反復射影を動作させるための射影演算子は、所望の相関モデルに対する線形マッピングである構成であってよい。

他の例として、上記シードテクスチャから抽出される上記画像モデルは、変換領域におけるスパースネス(sparseness)であり、反復射影を動作させるための射影演算子は、所望のスパースネスに達するための閾値処理である構成であってよい。

また、上記方法は、境界部の平滑化を実行するために、パッチ混合および非ブロック化を実行する実行ステップを含む構成であってよい。

導出された上記画像モデルおよび伝送された異なるタイプの複数の画像モデルは、少なくとも、時空間相関関係に基づくモデル、ピクセル輝度値のヒストグラムに基づくモデル、変換係数のヒストグラムに基づくモデル、及び、変換領域における相関関係に基づくモデル、の何れかを含む構成であってよい。

マーキングされた上記領域を合成する合成ステップは、上記シードテクスチャ内において少なくとも１つの最適領域を特定する特定ステップと、上記少なくとも１つの最適領域と現合成領域との間の差を示すテクスチャ類似性メトリックを規定する第１規定ステップと、上記サイド情報と上記現合成領域との間の差を示すサイド情報メトリックを規定する第２規定ステップと、上記テクスチャ類似性メトリック及び上記サイド情報メトリックの組み合わせを最小化する最小化ステップと、を含む。

ブロック処理が実行されるとともに、ある特定ブロックの合成動作は、（１）近接する、因果関係を有するブロック、及び（２）すべての近接ブロック、の何れかに関する合成結果を認識することにより実行される構成であってよい。他の方法として、マーキングされた上記領域を合成する合成ステップの動作は、マーキングされた上記領域に対する因果テクスチャ合成を実行する実行ステップと、続いて行われる、マーキングされた上記領域を因果関係とは無関係に処理する処理ステップと、を含む構成であってよい。

さらに、上記方法は、オーバーラップしないグリッドをサーチするサーチステップ、空間とマルチ解像度との関係を利用してサーチ空間を縮減する縮減ステップ、及び、距離を計算するときに数量を減らした変換係数を使用する使用ステップ、のうち、少なくとも何れか１つのステップを実行することにより計算上の複雑さを軽減する軽減ステップを含む構成であってよい。

サイド情報を用いた動画像符号化のためのテクスチャ合成を行うためのデコーダ装置が開示されている。上記デコーダ装置は、プロセッサと、上記プロセッサと電子通信を行うメモリと、上記メモリに格納された命令と、を有し、上記命令は、高忠実度でのシードテクスチャの受信、低忠実度での合成領域の残余部の受信、合成する領域のマーキングの受信、及び、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づく、マーキングされた上記領域の合成、を実行させうる。

上記デコーダ装置は、サイド情報を用いた動画像符号化のためのテクスチャ合成を行うためのプログラムを有する。このプログラムは、例えば光学式ディスク、磁気ディスクなどのコンピュータ読み取り可能な記録媒体に記録されている。

上記プログラムは、高忠実度でシードテクスチャを受信する第１受信ステップと、低忠実度で合成領域の残余部を受信する第２受信ステップと、合成する領域のマーキングを受信する第３受信ステップと、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づいて、マーキングされた上記領域を合成する合成ステップと、を実行させる。

エンコーダ装置によって実行される、サイド情報を用いた動画像符号化のためのテクスチャ合成を促進する方法が開示されている。上記方法は、入力動画像の合成領域を特定する特定ステップと、シードテクスチャとしての合成領域部をマーキングするマーキングステップと、デコーダ装置に対して、高忠実度で上記シードテクスチャを伝送する第１伝送ステップと、上記デコーダ装置に対して、低忠実度で上記合成領域部の残余部を伝送する第２伝送ステップと、を含む。

上記目的および他の目的、構成、本発明の効果は、添付の図面とともに、下記の本発明に係る詳細な説明を考慮することにより、より明確に理解される。

動画像符号化のためのテクスチャ合成を行うシステムの一例を示す図である。サイド情報を用いた動画像符号化のためのテクスチャ合成を行うシステムの一例を示す図である。本開示内容に基づくエンコーダ装置によって実行されうる方法の一例を示す図である。本開示内容に基づくデコーダ装置によって実行されうる方法の一例を示す図である。図４の方法によりテクスチャデータ領域の合成を実行することが可能な方法を示す図である。図４の方法によりテクスチャデータ領域の合成を実行することが可能な他の方法を示す図である。シードテクスチャ（seed texture）内の最適領域の一例を示す図である。サイド情報メトリック（side information metric）を決定するための方法の一例を示す図である。本開示内容に基づく、送信されるガイド情報（guide information）の総量を決定するための方法の一例を示す図である。図９の方法をグラフィック描写した図である。サーチ空間を軽減するためのマルチ解像度アプローチ（multi-resolution approach）を示す図である。空間的関係に基づきサーチ空間を制限する例を示す図である。サイド情報を用いた動画像符号化のためのテクスチャ合成を行うデコーダ装置の一例を示す図である。サイド情報を用いた動画像符号化のためのテクスチャ合成を促進するエンコーダ装置の一例を示す図である。

テクスチャ合成を行う方法（work）として、主に２つの方法が挙げられる。第１の方法は、パラメータ法である。この方法では、画像シーケンスが複数のパラメータよってモデル化される。例えば、ヒストグラムによってあるモデルが提供される。同様に、ピクセル値の相関によって別のモデルが提供される。十分な数のモデルが与えられることにより、いかなるテクスチャであっても、パラメータ化された制約を満足する一群のピクセル輝度値を発見することで、その“外観と雰囲気（look and feel）”が再生成されうる。その制約は、射影演算子（ハードな制約）、または重み付けされたペナルティー基準（penalty norm）によって表現されうる。これらはそれぞれ、合成された輝度値はパラメータ化された制約を充足しなければならない、または、輝度値はパラメータ化されたモデルに近似すべきである、ということと同義である。

第２の方法は、非パラメータ法である。ここでは、合成されたテクスチャは、経験的に（priori）知られる１つのテクスチャ例から派生する。そのテクスチャ合成処理では、上記のテクスチャ例またはシードテクスチャを調べ、かつ、新しいテクスチャ領域に対してシードテクスチャ内の輝度値を複写することによって、付加的なテクスチャ・データを生成する。複写される輝度値を発見することは、ここでは差別化要因である。しかしながら、共通する方法は、合成される領域と隣り合うピクセル値に最も適合する画像領域に対してシードテクスチャを探索（サーチ）することである。その後、その最も適合する画像に隣り合うピクセル値が複写される。その他の方法は、複数の適合画像を発見する、あるいは、隣接画像に対して異なる定義を利用する、といったものである。

テクスチャ合成を動画像の符号化に適用した場合、テクスチャ合成の上記課題は改変する。以下、その相違点を述べる。最初に、動画像の符号化では、シードテクスチャまたはモデル情報は、劣化することなくシンセサイザに伝送されることがない。加えて、シードテクスチャまたはモデル情報が大量に伝送されることにより、テクスチャシンセサイザの上記値は低下する（動画像の符号化環境には、あるテクスチャが明確に符号化されるというオプションがある）。さらに、合成処理の複雑さは、その取り扱いが容易になるべきである（例えば、その複雑さは、他の動画像の復号処理の複雑さと同程度に収まるべきである）。また、グラフィック用途でテクスチャ合成される場合と異なり、動画像符号化システムは、テクスチャ内のオリジナル輝度値を認識している。最後に、テクスチャ合成は、フレーム間予測、フレーム内予測、残余符号化などの他の符号化ツールとともに運用されるべきである。そして、全体設計によって、純然たる合成と従来の動画像符号化との調整可能な組み合わせが可能となる。

上記の相違点を前提として、本開示内容は、現下の最先端動画像符号化システムを利用したテクスチャ合成システムを考察している（その例として、国際電気通信連合（ITU：the International Telecommunication Union）、および、MPEG（Moving Picture Experts Group）標準ファミリが含まれる）。本開示内容に基づけば、テクスチャシンセサイザにサイド情報を伝送するためにビットストリームが使用される。このサイド情報の構成要素は、上記画像シーケンスの低品質バージョンに直接対応するように構成されている。そして、上記テクスチャ合成の目的は、その低品質バージョンの範囲内でテクスチャのレンダリング（rendering）を改善することにある。

ここで、図１を参照して説明する。図１は、動画像符号化のためのテクスチャ合成を行うシステム１００の一例を示す図である。

入力動画像１０２がエンコーダ１０４に供給され、エンコーダ１０４は、入力動画像１０２をエンコード（符号化）する。次に、エンコードされた動画像データは、通信チャンネル１０６を通ってデコーダ１０８に伝送される。デコーダ１０８は、受信した動画像データをデコード(復号)し、それにより復号された動画像データ１１０を取得する。

復号された動画像データ１１０には、少なくとも幾つかのテクスチャデータ１１４が含まれる。そのテクスチャデータの一部はシードテクスチャ１１４ａであり、そのテクスチャデータの残りの部分がターゲットテクスチャ１１４ｂである。シードテクスチャ１１４ａは、エンコードされ、高品質で伝送される。それゆえ、シードテクスチャ１１４ａは、復号された動画像データ１１０内の非テクスチャデータと同じようにデコードされる。ターゲットテクスチャ１１４ｂは、デコーダ側で合成されるテクスチャデータ１１０の一部である。

復号された動画像データ１１０は、テクスチャシンセサイザ１１６に供給される。テクスチャシンセサイザ１１６は、ターゲットテクスチャ１１４ｂを合成する。それゆえ、出力動画像１１８内のテクスチャデータ１１４は、デコード領域１２０ａ（シードテクスチャに対応）と合成領域１２０ｂ（ターゲットテクスチャに対応）とを含む。

次に、図２を参照して説明する。図２は、サイド情報２２２を用いた動画像符号化のためのテクスチャ合成を行うシステム２００の一例を示す。

システム２００は、エンコーダ２０４とデコーダ２０８とを備える。上記エンコーダを備える装置をエンコーダ装置２２４とする。同様に、上記デコーダを備える装置をデコーダ装置２２６とする。

入力動画像２０２は、エンコーダ２０４およびテクスチャアナライザ２２８の両方に供給される。エンコーダ２０４は入力動画像２０２をエンコードし、そのエンコードされた動画像は、データ・ビットストリーム２３０としてデコーダ２０８に伝送される。

テクスチャアナライザ２２８は、入力動画像２０２内のテクスチャデータを特定する。テクスチャデータの大部分はエンコードされていない。むしろ、上記テクスチャデータ（つまり、シードテクスチャ）のごく僅かの部分が、エンコードされ、伝送される。そして、テクスチャデータ２３２の残りが、テクスチャシンセサイザ２１６により合成される。テクスチャアナライザ２２８は、サイド情報２２２を決定するために入力動画像２０２を調べる。そのサイド情報２２２は、テクスチャシンセサイザ２１６に伝送される。サイド情報２２２は、テクスチャデータ２３２の合成を促す。テクスチャデータ２３２は、合成されるテクスチャデータの低品質バージョンを含んでもよい。

デコーダ２０８は、受信したビットストリーム２３０を復号し、復号された動画像２１０を出力する。テクスチャシンセサイザ２１６は、合成テクスチャデータ２３２を生成する。復号された動画像２１０および合成テクスチャデータ２３２は、出力動画像１１８を取得するために互いに足し合わされる。

次に、図３を参照して説明する。図３は、本開示内容に基づくエンコーダ装置によって実行されうる方法３００の一例を示す。

方法３００は、テクスチャデータを有する入力動画像に対して実行される。方法３００は、上記入力動画像の合成する領域を１つ以上特定する特定ステップ３０２を含む。すなわち、方法３００は、テクスチャデータを含む入力動画像の領域を特定する特定ステップを含む。これらの領域を、ここでは合成領域と称する。

合成領域の１つ以上の部分が、シードテクスチャとしてマーキングされる（３０４）。シードテクスチャは、上記デコーダに対して高忠実度で伝送される（３０６）。合成領域の残りの部分（残余部）は、上記デコーダに対して低忠実度で伝送される（３０８）。

次に、図４を参照して説明する。図４は、本開示内容に基づくデコーダ装置によって実行されうる方法４００の一例を示す。

方法４００は、高忠実度でシードテクスチャを受信する受信ステップ４０２を含む。また、方法４００は、低忠実度で合成領域の残余部を受信する受信ステップ４０４を含む。また、方法４００は、合成される領域のマーキングを受信する受信ステップ４０６を含む。その後、これらの領域は、受信された高忠実度のシードテクスチャに基づいて、および、受信された合成領域の低忠実度部に基づいて、合成される（４０８）。

次に、図５を参照して説明する。図５は、図４の方法によりテクスチャデータの領域を合成する１つの実行可能な方法を示す。

図５に示す方法５００は、合成されるデータ（つまり、ブロック）の或る特定領域に対して実行される方法を示す。この領域を現合成領域（current synthesized region）と称する。図５に示される方法は、合成されるデータの各領域に対して繰り返し行われる。例えば、テクスチャ合成は、ブロックごとに行われ、図示される方法が各ブロックに対して実行される。

方法５００は、現合成領域における低忠実度バージョン（low-fidelity version）に最も適合する、シードテクスチャ内の領域（すなわち、合成される領域の低忠実度バージョン）を特定する特定ステップ５０２を含む。シードテクスチャ内において特定された領域を、最適領域（the best matching region）と称する。

ある特定の具体化されるケースとして、抽出されたピクセルとシードデータ内の総ての取り得る位置との間で平方誤差が計算される。そして、最小誤差となる位置が最適位置として特定される。二つ目の具体化されるケースとして、平方誤差が計算される。しかしながら、閾値よりも小さい平方誤差となる位置が最初に特定される。その後、その特定された位置からランダムに最適位置が選択される。

最適領域からのピクセル値は、現合成領域に複写（コピー）される（５０４）。これにより、現合成領域に対するピクセル値の初期推定値（initial estimation）が与えられる。

画像モデルは、最適領域から取得される（５０６）。本開示内容では、モデルとして時空間的相関関係（spatio-temporal correlation）が用いられる特別なケースを検討する。しかしながら、他のモデルを用いてもよい。例えば、ピクセル輝度のヒストグラム、変換係数のヒストグラム、変換領域における相関関係などである。

また、画像モデリングは、シードテクスチャからの複数のパッチ（multiple patch）に基づいてよい。複数のパッチは、シードテクスチャをサーチするときにＮ個の最適候補を保持することにより得られる。そして、複数のパッチを用いることにより、パッチの外観（隣り合うピクセルが条件とされる）のバリエーションを探索することができる。実際のモデリングでは、複数のパッチは、モデル評価における単なる付加的なサンプルとして用いられる。あるいは、その代わりに、複数のパッチは、統計的モデリングの付加的な方法（dimension）ともなりうる。後者の場合、（ｉ番目のパッチから抽出された）各モデルのパラメータＣ_Ｍ（ｉ）は、すべての有力な画像モデルの空間内における一例として扱われうる。そして、上記モデルのパラメータ空間における複数の上記例が利用されることにより、より柔軟性の高い統計的画像モデルが提供される。画像モデリングにおいて複数のパッチ情報を探索する具体的な例を後述するが、そこでは、パッチ相関の空間において主成分分析が用いられる。

また、方法５００は、伝送されたビットストリームから画像モデルを抽出する抽出ステップ５０８を含みうる。例えば、量子化パラメータ、量子化されたレベル値、及び、オプションとして予測モードが、伝送されたビットストリームから抽出される（５０８）。すべての情報が、最先端の動画像符号化システム（ITU、及びMPEG標準ファミリなど）の手法を用いて伝送される。次に、受信されたデータは、再構成された画像フレームを生成するために使用され、これにより、ビットストリーム内の情報に加え、再構成されたピクセル値が得られる。

次に、現合成領域が、初期予測され、導出され、抽出された画像モデルに基づいて合成される（５１０）。具体的には、必要とされる画像領域が、合成されたパッチに比較的“近い”、しかしながら、導出・抽出された画像モデルを満足する一対のピクセル値を発見することにより合成されうる。この検討においては、画像モデルは２項制約（binary constraint）であると想定される。これは、合成結果が画像モデルを充足するか、あるいは充足しないかを意味する（部分的に充足ということはない）。このことは、以下の式で表現される。

ここで、各変数はそれぞれ次の意味を表す。なお、

と表現することもある。
p’：合成結果
p’’：シードテクスチャと局部隣接部との間の適合アルゴリズムの結果として選択された輝度値
Ｃｏｒｒ（）：相関ｐを演算する関数
Ｃ_Ｍ：シードテクスチャから抽出された相関関係のモデル
Ｑ［］：量子化演算子
Ｔ：変換行列
ｂ_Ｒ：再構成された画像フレーム
ｑ：量子化パラメータ
ｚ：ゼロベクトル
合成結果Ｐ’を見出すために、繰り返し解を検討する。

ここで、Ｐ_ＴおよびＰ_Ｃはそれぞれ、ビットストリームにおけるサイド情報を実行する射影演算子、およびシードデータから生成される画像モデルである。ａは、アルゴリズムの収束を制御するパラメータである。ｋは、繰り返し識別子である。処理は、以下の条件となったときに終了する。

ここで、Ｔは０に近い閾値である。

〔変換係数のための射影制約（Projection constraint）〕
サイド情報制約Ｐ_Ｔは、合成テクスチャを制限するためにビットストリーム内の情報を利用する。ここで、エンコーダは、デコーダに対して、オリジナルの画像シーケンスの低品質バージョン（low-quality version）を伝送し、デコーダは、この低品質バージョンを合成処理において用いるものとする。この低品質バージョンは、以下の式（４）のように、ブロックベースで表現される。

ここで、ｂ_Ｒは、現ブロックに対して再構成された輝度値を意味する。ｂ_Ｐｒｅｄは、現ブロックに対して予測された輝度値を意味する。Ｔ^−１は、逆変換処理である。Ｑ^−１は、逆量子化処理である。ｃは、現ブロックに対してビットストリーム中において伝送された係数を意味する。Ｑ^−１という用語は、厳密に言えばＱの逆数ではなく、逆量子化法として知られる処理を意味する。

そして、その目的は、テクスチャ合成するための解空間を制限することにあり、これにより、同じｂ_Ｒにマッピングされる信号のみを包含することができる。（言い換えると、これは、エンコーダに供給されるあらゆる有効なテクスチャは、ビットストリームにおいて表現されるのと同じｂ_Ｒに量子化／再構成されるべきである、という考えである）。上記制約は、次のように表される。

ここで、

である。

上式において、Ｘｃは、補正ベクトル（correction vector）である。Ｘｃｉは、Ｘｃのｉ番目成分である。Ｔｉ（ｘ−ｂ_Ｒ）は、Ｔ（ｘ−ｂ_Ｒ）のｉ番目成分である。Ｐ_Ｔ[Ｐ_Ｔ[ｘ]]は、Ｐ_Ｔ[ｘ]に等しい。

〔相関モデルのための射影制約〕
信号モデル制約（signal model constraint）Ｐｃは、合成結果を制限するためにシードテクスチャからの情報を利用する。ここで、合成アルゴリズムによって、合成される現ブロックに対応するシードテクスチャ内の領域が決定されるものとする。本検討のその他の点に関しては、この位置は、シードテクスチャ上の空間位置および時間位置を意味する三重項（ｘ、ｙ、ｔ）によって決定されるものとする。

上記制約を適用するために、シード内の隣接ピクセル間の関係性を見出すことから始める。これは、次式を解くことにより得られる。

ここで、Ｏは、シードテクスチャのピクセル値を包含するベクトルである。Ｎは、シードテクスチャ値の近傍（neighborhood）を包含する行列である。ｍｃは、上記近傍に与えられた観測結果（observation）に対する（l₂に関して）最適な線形予測量である。Ｏ及びＮの内容を説明するために、次のシナリオを検討する。ここで、シードテクスチャ内のＸ、Ｙ、Ｚのサイズのブロックに対する線形予測量を評価しようとしているものと仮定する。なお、上記ブロックには、Ａ、Ｂ、Ｃのサイズの近傍ブロックがあるものとする。次に、以下の擬似コードによって行列を構築する。
z=0
for( i=x; i<i+X; i++ )
for (j=y; j<j+Y; j++ )
for (k=t; k<t+Z; k++ )
{
o(z) = Seed(i,j,k)
l=0;
for( a=-A/2; a<A/2; a++ )
for( b=-B/2; b<B/2; b++ )
for( c=0; c<C; c++ )
{
if( a && b && c )
{
N(l,z) = Seed(i+a,j+b,k-c);
l++;
}
}
z++;
}
次に、現在の合成結果に対して同様の処理を繰り返しうる。これは、Ｐｃ[ｘ]について、ｘにおける位置に対する近傍を演算できるということである。これはＮｘとして表され、以下の式（８）が得られる。

ここで、ｍｘは、現合成結果に対する最適線形予測量を表す。

次に、式（９）におけるｍｃと同じ線形予測量を有するようにｘを更新する。

しかしながら、実際に適用する際には、多くの場合、近傍の構築によって上記予測に対する直接的な解決を得ることはできない。これは、上式によって総てのピクセル値が同時に更新され、そして、その更新より前のｘに対する値に基づいて更新が行われるという事実による。潜在的により優れた解決をもたらすのは、式（１０）の反復式を用いることである。

ここで、ｋは逐次代入される。

そして、上記制約は以下の式で表される。

ここで、βは、収束を制御するスカラである。また、それぞれのタイムステップkにおいてｘの一部のみを更新することが有効である。

相関モデルを満足する他の方法としては、周波数領域法を利用することである。ここで、合成されるブロックに対して、自己相関行列（auto correlation matrix）Ｃを演算する。また、デコーダによって利用可能な情報から生成される、好ましい自己相関モデルＣ_Ｄを仮定する。そして、ＨＣ＝Ｃ_Ｄとなる行列Ｈについて解く。ここで、Ｈは、合成される上記ブロックを上記好ましい相関モデルにマッピングするために必要なフィルターを表す。

次に、所望のＨにより表されるフィルターｆが見出される。そのフィルターを見出す１つの方法として、上記周波数領域においてＨを表現する。そして、その周波数領域値に対して絶対値処理および平方根処理を当てはめる。最後に、フィルターｆ値を決定するために逆フーリエ変換の計算を行う。同じ振幅特性を有するｆを算出する方法は複数存在しうる。ｆ値を選択する他の方法は、本開示内容にしたがって利用されうる。その方法に係らず、合成されるブロックは、ｆのフィルター値によってフィルタリングされる。

上記アルゴリズムを実現するいくつかの方法において、合成されるブロックの自己相関はフィルタリング後に再計算される。上記ブロックが所望の自己相関を満足しないときは、上記処理が繰り返される。この処理は、モデルが充足されるまで続けられる。

〔スパースネス制約（Sparseness Constraints）〕
また、統計的画像モデルは、スパースネス仮定（sparseness assumption）に基づきうる。粗く言えば、テクスチャ画像に対するスパースネス仮定は、ごく少数の“初期テクスチャ（texture primitives）”がアクティブであることを意味する。この動作の目的のため、離散コサイン交換（ＤＣＴ）を利用したブロック化およびウェーブレット変換などの局在基底（local basis）を用いた線形直交変換が使用される。そして、変換領域におけるスパースネス表現により、およそＭ個のうちＮ個の変換係数が微小振幅を有するという上記制約が与えられる。その後、インデクス集合Ｉ（ｉ）によって、Ｎ個の係数のうち、どの係数が小さいかが特定される。あるいは、さらに、そのスパースネス制約を、変換係数振幅の分布を組み入れたヒストグラム不変性制約（histogram invariant constraints）に拡張することができる。

対応する予測アルゴリズムは、次のように映るかもしれない。最初に、変換領域の閾値処理を行うことにより、ヒストグラムH^＊がシードパッチから得られる。次に、現在の信号予測H（T(xk)）が、周知のヒストグラム平坦化技術を用いることによりH^＊に適合される。この処理は、H^*(T(xk) )として表現される。付加的な平滑化が、シフト化されたＤＣＴなどのオーバーコンプリート変換を適用することにより行われる。Ｔ_１〜Ｔ_ｐが異なるシフトによるＤＣＴ変換を意味するものと仮定して、単純な平均化あるいは重み付けによる平均化を用いることにより、T₁ ^-1(H^*(T₁(xk)))〜 Tp^-1(H^*(Tp(xk)))を組み合わせることができる。

もちろん、スパースネス制約は、パッチの自己相関などの他のモデルとは別に、予測処理における追加的なモデルとして用いうる。

〔境界部の検討〕
気になる境界部での歪は、ブロックごとにテクスチャ合成が行われることにより生じる。この不連続性は、２つの種類のブロック境界上、つまり、サイド情報制約を実行するときの、パッチ境界上および変換ブロック境界上において発生する。

パッチ境界について、ここでは、パッチは、シードテクスチャをサーチするための単位である。大抵の場合、シードテクスチャをサーチするうえで、隣り合う領域が完全に適合することはないため、パッチ結果において不連続性が生じる。

サイド情報制約を実行するときの変換ブロック境界について、サイド情報はオーバーラップしないブロックにおいて特定されるため、個々のブロックに対してサイド情報制約を実行すると、ブロック歪が不可避的に発生する。

最初のタイプの不連続性を補正するために、オーバーラップするパッチを混合する様々な方法が提案されている。動画像符号化の設計においては、デブロッキングフィルターが、ブロック符号化技術の使用時にブロック間に形成されるエッジを平滑化することで見栄えと予測性能とを改善する。そのような既存方法の１つの問題は、最終的な結果が、サイド情報制約あるいは想定される画像モデルの何れかを満足する保証がないという点にある。そのため、テクスチャ合成の設計において、境界部の平滑化制約（smoothness constraint）を不可欠な部分として形成することが望ましく、それにより、不連続性を平滑化するための後処理工程が必要でなくなる。

境界部の歪に対処する１つの方法は、予測シーケンスにおいて境界部での平滑化の実行ステップを加えることである:PS[PC[PT[x]]]。ここで、PS[]ステップは、パッチ混合およびデブロッキング処理を実行することにより、２つのタイプのブロック境界を処理する。反復射影を用いることにより、シンセサイザ全体で、境界部での平滑化を含む総ての制約を満足する解決法を発見しようとしている。

付加的な置換（permutation）の検討および上記アルゴリズムの改善については後ほど説明する。

〔クリッピングのための射影制約（Projection Constraint for Clipping）〕
信号モデル制約Ｐ_Ｃは、合成結果を制限するためにシードテクスチャからの情報を利用する。ここで、シードテクスチャのための付加的なモデルを紹介する。つまり、テクスチャのダイナミックレンジが強化される。１つの例では、まずシードテクスチャ内の最大・最小輝度値を測定する。それから、合成結果が、このレンジを超過しないように制約される。これは、合成結果中のあらゆる輝度値が最大値あるいは最小値の近い方へマッピングされることにより実行される。

２つ目の例では、シードテクスチャ内の最大・最小輝度値は測定されない。その代わりに、合成結果のビット深度を決定する。この範囲を外れる輝度値は、許容範囲内に属するようにクリッピングされる。とくに、合成結果が８ビット画像であれば、０より小さい値、または２５５よりも大きい値は認められない。この例では、２５５よりも大きい値は２５５に割り当てられる。同様に、０よりも小さい値は０に割り当てられる。

〔モデルパラメータの抽出〕
前述の検討において、シードテクスチャにおけるある特定の位置が最適位置として特定されるものとした。そして、シードテクスチャに対するモデルがこの領域から抽出される。ここで、上記概念を一般化し、シードテクスチャ内における複数の位置が好適な位置として特定される事案を検討する。さらに、適合の“好適度”を信頼度メトリック（信頼度量）として表現する。

より一般化されたシナリオにおいて、シードに対する相関モデルは以下のように拡張される。

ここで、Ｗは対角行列を、要素Ｗ（ｋ、ｋ）はベクトルＯにおける位置ｋでの信頼度を表す。

〔因果関係〕
次に因果関係について説明する。なお、

と表現することもある。

所定のブロックに対してパッチp’’を選択するときには、当該ブロックの空間的な近隣情報および時間的な近隣情報が必要となる。具体的には、パッチp’’が特定され、続いてそのパッチをリファインし（refine）、パッチp’が生成される。そして、次のブロックの近隣ブロックを構築するときにパッチp’を使用する。これにより、それらのブロックに対するp’’を発見する。

あいにく、因果処理（causal processing）では、信号モデリング制約を実行する際に妥協を要する。とくに、そのモデルは、因果関係のあるピクセル、及び因果関係のないピクセルの両方の関係を記述しうる（例えば、相関制約は、ピクセル値が平滑化されていることを要求するものであり、それが、現ブロックの因果境界および非因果境界の両方に対して実行されなければならない）。これが真であるとき、前段落に記載した因果法を用いてブロックごとのパッチp’に対する値を最初に発見することが望ましい。これらの計算に続いて、すべての位置におけるパッチp’に対する値は、より広範囲の処理によってリファインされる。この広範囲の処理において、フレーム内のすべてのp’が同時に解かれる。これは、すべてのブロックに対して式（１）を同時に繰り返すことによって実現する。これは、すべてのブロックにおけるパッチp_ｋ’に対する値を用いることによってブロックごとのパッチp_ｋ+1’が演算されるというものである。

〔信号モデルの情報伝達〕
信号モデルは、シードテクスチャから確実に得られるというものではない。その代わりに、信号モデルはビットストリームで伝送されうる。この伝送は確実に行われ、そこでは、必要とされるモデル情報がエンコーダからデコーダに直接伝送される。あるいは、情報伝達は、エンコーダに由来するモデルがリファインされたものである。２番目のケースでは、テクスチャ合成処理は、依然として、シードテクスチャを検査し、かつモデル情報を抽出する。しかしながら、次に、モデル情報は、ビットストリームにおいて伝送される情報によってリファインされる。

〔非因果処理〕
上記検討の大部分において、テクスチャ合成アルゴリズムは、隣接する通常のブロックに対して因果関係を有するように処理している。これは、シードテクスチャからパッチを選択するための近隣情報が必要とされていたことによる。ただし、アルゴリズムの一般化として、上記方法はまた、因果関係という制限なしに実行されうる。それは、画像フレーム／シーケンスにおける各ブロックに対して、パッチが特定されるということである。さらに、信号モデル及びサイド情報が特定される。次に、テクスチャ合成処理は、画像フレーム／シーケンス中のすべての近接ブロックが同時に合成される。ここで、画像ブロック及び／またはフレーム間の依存性を扱うための反復処理が必要であることに留意する。

非因果処理を具体的に実現するものとして、パッチを特定するために因果的なテクスチャ合成が実行される。次に、画像フレーム（あるいは、シーケンス）が、因果関係に関係なく処理される。

次に、図６を参照して説明する。図６は、図４の方法によりテクスチャデータ領域の合成を実行することが可能な他の方法を示す。

図６の方法６００は、合成される特定のデータ領域に対して実行される方法を示すものであり、その領域は、現合成領域（current synthesized region）と称される。図６に示される方法は、合成されるデータ領域ごとに繰り返される。

方法６００は、現合成領域の低忠実度バージョンに最も適合するシードテクスチャ内の領域（すなわち、合成される領域の低忠実度バージョン）を特定する特定ステップ６０２を含む。シードテクスチャ内で特定される上記領域は、最適領域と称される。

テクスチャ類似性基準（texture similarity measure）が、最適領域と現合成領域との間で規定される（６０４）。次に、テクスチャ類似性エネルギーが、反復最適化を用いることにより最小化される（６０６）。

図６の方法６００では、テクスチャ類似性は、合成画像に係る所定ブロックとシードテクスチャ内の最適ブロックとの間の距離として規定される（図７に示されており、後述する）。そして、総テクスチャエネルギーが、これら総てのブロックの歪み値を合算することにより得られる。これらのブロックは、式（１３）に示されるように、オーバーラップするような方法で合成テクスチャから抽出される。

下添え文字ｐは、オーバーラップするグリッドピクセルｐの周囲に存在するＮ×Ｎブロックを示す。つまり、ｓｙｎ_ｐの近隣ブロックは、その周囲に重複する領域を有する。例えば、合成テクスチャがシードテクスチャと同一である場合、テクスチャエネルギーは０である。単に２つのシードテクスチャを適用する場合、そのパッチ境界を含む幾つかのブロックは大きな歪みを引き起こす。

最後に、最適化された出力は、式（１３）において最小テクスチャエネルギー値を有する。しかしながら、テクスチャエネルギーを最小化する最適解を見つけることは些細なことではない。１つの方法は、マルチ解像度アプローチに基づく、ＥＭのような反復最適化法を用いることであり、そこでは、テクスチャの初期推定値は、テクスチャエネルギーを減少させるために繰り返し規定される。詳細に説明すると、Ｍ−ステップが、上記シードから最適画像ブロックを見つけることにより、固定合成イメージに基づいてテクスチャエネルギーを最小化する。そして、続くＥ−ステップが、式（１４）のシステム方程式を解くことによって、一対の固定シードブロックに基づいてテクスチャエネルギーを最小化する。

さらに、マルチ解像度およびマルチスケールのやり方によるテクスチャ合成方法が利用されうる。粗レベル画像のテクスチャが合成され、微細レベル画像における現段階の出力テクスチャが、アップサンプリングされることによりリファインされる。そのようなマルチ解像度アプローチによって、テクスチャ構造全体を保護し、かつ、最適化プロセスが容易に局部最小化に陥ることを防ぎうる。マルチ解像度アプローチと同様に、マルチスケールのやり方による合成も提供される。ここでは、ブロックサイズは大きいものから小さいものと様々に異なる。こういった方法は、構造全体を保持し、同時に細部を合成するという点において有利である。

次に、図７を参照して説明する。図７では、合成テクスチャ７１４ｃおよびシードテクスチャ７１４ａが図示されている。上述したように、合成テクスチャデータは、現合成領域７２０ｂの低忠実度バージョン（すなわち、合成されるべき領域の低忠実度バージョン）に最も適合する、シードテクスチャ７１４ａ内における領域７２０ｃを特定する特定ステップを含む。

〔粗スケールバージョン画像(Coarse-Scale Version Images)に基づく動画像テクスチャ合成〕
上述した実例ベースのアプローチに基づいて、上記アルゴリズムを３Ｄ動画像分野に拡大する。実際に、そういった拡大は、２Ｄ画像ブロックではなく３Ｄ立方体の観点により、式（１２）において説明されたテクスチャエネルギーを規定することにより簡単に行われる。さらに、上述したように、新しいテクスチャを合成するときには付加情報を考慮すべきである。言い換えると、付加的なガイド情報が、最適立方体をサーチするときに含まれるべきである（“ガイド情報”および“サイド情報”という語は、ここでは交換可能に用いられている）。このことが式（１５）に表現されており、Ｃｐは、オーバーラップするグリッドピクセルｐの周囲に存在する立方体であり、｜｜ｓｙｎ_ｐ−ｓｅｅｄ_ｐ｜｜^２は、最適領域と現合成領域との差を示すテクスチャ類似性メトリック（テクスチャ類似性量）である。また、関数ｄは、合成画像と粗スケール画像との差を示すサイド情報メトリック（サイド情報量）を表し、粗スケール画像のタイプにしたがい決定される。

上記の式（１４）から最適化された出力を見出したとき、合成テクスチャは、λ値とガイド情報の総量とに強く依存することが明らかである。例えば、λ＝０と設定したとき、全体のフレームワークは、いかなるガイド情報も有しない合成された新テクスチャと同じになる。一方、λ値が大きいと、ガイド情報はテクスチャ形状全体に対して決定的な影響を与える。

画像の粗スケールバージョンを決定するために、提案する方法は、標準的なエンコーダ／デコーダを使用し、かつ、粗スケールのガイド情報として再構築された画像を使用する。異なる視点として、低品質動画像（粗スケールターゲット動画像）は、先にデコードされた高品質動画像（シード動画像）に基づいて再合成されるものと解釈される。粗スケールデータを抽出するための現在の標準コーディング・アルゴリズムの選択は、多くの点において有用である。とりわけ、現在のアルゴリズムを、システムの大掛かりな変更を伴うことなく、現標準に容易に組み込むことができる。そして、ガイド情報を生成するために、何ら追加的なモジュールを必要としない。また、量子化パラメータ（QP; quantization parameter）を単に変更することにより、ガイド情報の品質を制御することができる。

粗スケール画像は、現在のコーディング・アルゴリズムによるブロック変換および量子化により得られるため、サイド情報メトリックｄは、注意深く決定されなければならない。例えば、特に大きなＱＰ値を使用するときには、単なるユークリッド距離は効果的ではない。その代わりに、射影により、変換領域における最短距離を見つけ、その最短距離を、図８における射影点と現在の点との間の距離であるとする。

〔エリア適応性（Area-Adaptive）のあるガイド情報量〕
現在のフレームワークにおいて、低品質画像は、合成された出力テクスチャの全般的な形状を制御するためのガイド情報とみなされうる。このため、ガイド情報の重要性は局所的に相違する。言い換えると、テクスチャの幾つかの部分は、ガイド情報がなくとも十分に合成されうる。というのも、近接テクスチャもまた、現テクスチャの形状を制御し、その一方で、幾つかの領域は制御できないためである。この意味において、提案されるアルゴリズムは、テクスチャの異なる領域のために異なる量のガイド情報を利用する。

次に、問題は、ガイド情報の総量をどのように決定するか、つまり、エンコーダ側において、異なる領域のためにどのくらいの情報を割り当てるべきか、という点である。そして、エンコーダは、エリア適応性のあるガイド情報を、その付加的なサイド情報とともに送信し、どの領域がどのＱＰ値を使用するかを特定する。ガイド情報の総量はエンコーダ側で決定されるべきであるため、シードテクスチャおよびターゲットテクスチャがともに認識されているという点を指摘しておくことは無駄ではなく、それゆえ、ガイド情報の総量を決定するための反復アルゴリズムを提案する。

図９は、ガイド情報の総量を決定するための方法９００の一例を説明する。記載された方法９００にしたがって、極めて少量のガイド情報（最大のＱＰ値）から開始する（９０２）。次に、立方体それぞれについてシードテクスチャから最適立方体が計算（９０４）される（M-step）。合成テクスチャが、最適立方体の組から演算（９０６）される（E-step）。続いて、立方体ごとに誤差値が計算され（９０８）、最大誤差が見出される（９１０）。そして、付加的なガイド情報が最大誤差の立方体に提供される（９１２）。ステップ９０４からステップ９１２までは、既定のビット量が満たされたときまで、あるいは、もはや明確な改善が得られなくなるまで繰り返される。図９の方法９００は、図１０に図示されている。

〔サーチアルゴリズムの複雑さの軽減〕
計算上の複雑さを軽減するために、現フレームワークの明確な特性を可能な限り利用する。その特性とは、次の（１）〜（４）である。（１）総てのシード（参照）画像は、固定され、かつ総てのターゲット画像に対して利用可能である。（２）シードデータは、隣接する立方体間における強い時空間相関関係を有する画像（動画像）である。（３）ターゲットブロックのブロック変換は、ブロックベースの符号化／復号により利用可能である。（４）現フレームワークは、マルチ解像度アプローチに基づくものである。上記の特性を最大化するために、複雑さを軽減する方法は、（１）オーバーラップしないグリッドからオーバーラップグリッドへのサーチ、（２）空間とマルチ解像度との関係を利用した空間サーチの軽減、（３）変換領域係数を用いた演算の軽減、により実行される。その詳細は、以下に述べる。

第１に、現アルゴリズムは、オーバーラップグリッド空間において最適立方体をサーチするため、オーバーラップしないグリッド空間のみをサーチするよりも多くの演算を必要とする。この考え方は、仮に２つの隣接する立方体がシードの同じ部分を包含する場合、その内側の立方体は、サーチすることなく上記同じ部分を簡単に所得できる、というものである。第２に、基本的にはマルチ解像度アプローチが使用される、つまり、まず粗い解像度の最適立方体をサーチし、次にその立方体を微細な解像度にリファインする。粗い解像度の空間のサイズは、微細な解像度のサイズよりも格段に小さいため、極めて多くの演算を省くことができる。例えば、グリッド（ｉ、ｊ）が粗い解像度レベルで選択されたとき、次に、その９つの近隣値、つまり、（２ｉ−１、２ｊ−１）から（２ｉ＋１、２ｊ＋１）が、図１１に示される微細な解像度レベルにおいて探索される。

空間的関係として、予め発見したものに基づく空間サーチについても制限を加える。例えば、図１２に示されるオーバーラップグリッド（ｉ、ｊ）をサーチするとき、最適インデックス情報の近隣の（予め発見している）組を用いてシード空間に制限を加える。

最後に、テクスチャ距離を演算するときには、ブロック変換領域が用いられる。そして、上記複雑さを軽減するために上記距離を演算するときに、幾つかの最大振幅係数のみに配慮する。これは、画像中の幾つかの主成分を抽出することがブロック変換において許容されるという前提のもと、一般的な主成分分析法（PCA; principal component analysis）に類似している。次元縮小によるそういった近似が出力品質をそれほど劣化させることはない。

次に、図１３を参照して説明する。図１３は、デコーダ装置１３２６内の特定の構成部材を説明するための図であり、デコーダ装置１３２６は、本開示内容にしたがう、サイド情報を用いた動画像符号化のためのテクスチャ合成を行うために構成されている。

デコーダ装置１３２６は、プロセッサ１３３４を含む。プロセッサ１３３４は、一般的な用途に用いられる、シングルまたはマルチチップマイクロプロセッサ（例えば、ARM）、あるいは、特定用途のためのマイクロプロセッサ（例えば、デジタル・シグナル・プロセッサ（DSP）、マイクロコントローラ、プログラマブル・ゲート・アレイなど）である。プロセッサ１３３４は、中央演算処理装置（CPU）とも称される。図１３のデコーダ装置１３２６では１個のプロセッサ１３３４のみが図示されているが、他の構成として、プロセッサの組み合わせ（例えば、ARMとDSP）も可能である。

また、デコーダ装置１３２６は、メモリ１３３６を含む。メモリ１３３６は、電子情報を格納することが可能な、いかなる電子部品であってもよい。メモリ１３３６は、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、磁気ディスク記憶媒体、光学式記憶媒体、ＲＡＭにおけるフラッシュ・メモリ装置、プロセッサ内蔵の搭載メモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ等として、または、これらの組み合わせにより実現される。

データ１３３８および命令１３４０は、メモリ１３３６に格納される。プロセッサ１３３４は命令１３４０を実行することができ、それにより種々の機能が実行される。命令１３４０を実行するときに、メモリ１３３６に格納されたデータ１３３８が使用されうる。

以下、メモリ１３３６に格納されるデータ１３３８の例を挙げる。シードテクスチャ１３１４ａ、合成領域の低忠実度部１３４２、合成領域のマーキング１３４４、合成領域１３２０ｂなどである。ここで述べる技術を実行するうえで関連するデータ１３３８の他の種類のデータもまた、メモリ１３３６に含まれうる。

以下、メモリ１３３６に格納される命令１３４０の例を挙げる。高忠実度でのシードテクスチャ１３１４ａの受信１３４６、低忠実度での合成領域の残余部１３４２の受信１３４８、合成される領域のマーキング１３４４の受信１３５０、高忠実度のシードテクスチャ１３１４ａおよび合成領域１３４２の低忠実度部に基づく、マーキングされた領域の合成１３５２である。ここで述べる技術を実行するうえで関連する命令１３４０の他の種類の命令もまた、メモリ１３３６に含まれうる。

また、デコーダ装置１３２６は、送信機１３５４及び受信機１３５６を含み、デコーダ装置１３２６と遠隔地との間における信号の送受信が可能である。送信機１３５４及び受信機１３５６を合わせてトランシーバ１３５８と称してもよい。アンテナ１３６０は、トランシーバ１３５８と電気的に結合される。また、デコーダ装置１３２６は、（図示しない）複数の送信機、複数の受信機、複数のトランシーバ及び／または複数のアンテナを含んでよい。

また、デコーダ装置１３２６は、他装置と通信するための１以上の通信ポート１３６２を含む。他装置との通信は、直接及び／またはコンピュータ・ネットワークを介して行われる。通信ポート１３６２の例として、イーサネット（登録商標）・ポート、ＵＳＢ（Universal Serial Bus）、パラレルポート、シリアルポートなどが含まれる。

また、デコーダ装置１３２６は、１以上の入力装置１３６４を含む。入力装置１３６４の例として、キーボード、マウス、リモートコントロール装置、マイクロフォン、ボタン、ジョイスティック、トラックボール、タッチパッド、ライトペンなどが含まれる。

また、デコーダ装置１３２６は、ディスプレイ１３６６を含む。メモリ１３３６に格納されたデータ１３３８を、ディスプレイ１３６６に表示するために、テキスト、グラフィック、及び／または、（必要に応じて）動画に変換するディスプレイ・コントローラ１３６８が与えられうる。

デコーダ装置１３２６の種々の構成部材が１以上のバスによって結合される。そのバスには、パワーバス、制御信号バス、ステータス信号バス、データバスなどが含まれる。明確性を担保するため、図１３では種々のバスがバスシステム１３７２として図示されている。

次に、図１４を参照して説明する。図１４は、エンコーダ装置１４２４内の特定の構成部材を説明するための図であり、エンコーダ装置１４２４は、本開示内容にしたがう、サイド情報を用いた動画像符号化のためのテクスチャ合成を円滑に行うために構成されている。

エンコーダ装置１４２４は、デコーダ装置１３２６との関連で上述した構成部材と類似の部材を含む。特に、エンコーダ装置１４２４は、プロセッサ１４３４、メモリ１４３６、メモリ１４３６に格納されたデータ１４３８及び命令１４４０、送信機１４５４及び受信機１４５６（これらを合わせてトランシーバ１４５８と称してもよい）、アンテナ１４６０、通信ポート１４６２、入力装置１４６４、ディスプレイ１４６６、ディスプレイ・コントローラ１４６８、及び出力装置１４７０などを含む。エンコーダ装置１４２４の種々の構成部材がバスシステム１４７２によって結合される。

以下、メモリ１４３６に格納されるデータ１４３８の例を挙げる。入力動画像１４０２、シードテクスチャ１４１４ａ、合成領域の低忠実度部１４４２、合成領域のマーキング１４４４などである。ここで述べる技術を実行するうえで関連するデータ１４３８の他の種類のデータもまた、メモリ１４３６に含まれうる。

以下、メモリ１４３６に格納される命令１４４０の例を挙げる。合成される入力動画像１４０２の領域を特定する旨の命令１４７４、シードテクスチャ１４１４ａとしての合成領域部１４４２をマーキングする旨の命令１４７６、デコーダ装置に対して、高忠実度でシードテクスチャ１４１４ａを伝送する旨の命令１４７８、デコーダ装置に対して、低忠実度で合成領域の残余部１４４２を伝送する旨の命令１４８０などである。ここで述べる技術を実行するうえで関連する命令１４４０の他の種類の命令もまた、メモリ１４３６に含まれうる。

上記説明において、参照番号が種々の用語との関係で使用されている場合がある。ある参照番号との関係である用語が用いられている場合には、１以上の図面に開示された特定の構成部材を参照している。参照番号を付することなくある用語が用いられている場合には、特定の図面に限定されることなく、一般的に当該用語を参照している。例えば、“デコーダ装置１３２６”に言及するときには、図１３に開示された特定の電子機器を参照している。しかしながら、参照番号を付することなく“デコーダ装置”に言及しているときには、その用語が用いられる文脈において適切なあらゆるデコーダ装置に言及しているのであって、各図に開示される特定のデコーダ装置に限定されることはない。

ここで使用されるように、“決定（determining）”という語は、種々の動作を含み、それゆえ、“決定”は、計算、演算、処理、導出（deriving）、調査（investigating）、参照（looking up）（例えば、テーブル、データベース、または他のデータ構造の参照）、確定（ascertaining）などを含む。また、“決定”という語は、受信（例えば、情報の受信）、アクセス（例えば、メモリに格納されたデータへのアクセス）などを含む。また、“決定”という語は、解決（resolving）、選定（selecting）、選択（choosing）、確立（establishing）などを含む。

“基づいて（based on）”という表現は、明確に述べられていない限りは、“のみに基づいて”ということを意味するものではない。言い換えると、“基づいて”という表現は、“のみに基づいて”及び“少なくとも基づいて”の両方を表現している。

“プロセッサ”という語は、一般的な用途に用いられるプロセッサ、中央演算処理装置（CPU）、マイクロプロセッサ、デジタル・シグナル・プロセッサ（DSP）、コントローラ、マイクロコントローラ、状態機械などを含む、幅広い解釈がされるべきものである。ある状況下では、“プロセッサ”という語は、特定用途のＩＣ（ASIC; Application specific integrated circuit）、プログラマブル可能論理回路（PLD; Programmable logic device）、フィールドプログラマブル・ゲート・アレイ（EPGA; filed programmable gate array）などを意味することもある。また、“プロセッサ”という語は、プロセス装置の組み合わせを意味することもあり、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSPコアと連動した１以上のマイクロプロセッサ、あるいは同様の他の構成であってよい。

“メモリ”という語は、電子情報を格納することができるいかなる電子部品をも含む、幅広い解釈がされるべきものである。メモリという語は、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、不揮発性ランダム・アクセス・メモリ（ＮＶＲＡＭ）、プログラマブルな読み出し専用メモリ（ＰＲＯＭ）、消去可能ＰＲＯＭ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、フラッシュ・メモリ、磁気式／光学式データストレージ、レジスタなどの様々なプロセッサによる読み取り可能な媒体を言う。メモリは、プロセッサが当該メモリから情報の読み出し、書き込みが可能であれば、そのプロセッサと電子通信を行う。メモリは、プロセッサと統合されてもよく、また、依然として、プロセッサと電子通信を行う。

“命令（instruction）”、“コード（code）”という語は、コンピュータ読み取り可能ないかなる状態（status）をも含むよう解釈されるべきである。例えば、“命令”、“コード”という語は、１以上のプログラム、ルーチン、サブルーチン、関数、手順などを言う。“命令”、“コード”という語は、１つのコンピュータ読み取り可能な状態、または複数のコンピュータ読み取り可能な状態を含みうる。

ここで説明する機能は、ハードウェア、ソフトウェア、ファームウェア、あるいはこれらの組み合わせにより実行される。ソフトウェアで実行された場合、その機能は、コンピュータ読み取り可能な記憶媒体に１以上の命令として記憶される。“コンピュータ読み取り可能な記憶媒体”という語は、コンピュータによってアクセス可能な、あらゆる利用可能な記憶媒体を言う。

例示することを目的として、したがって限定されるものではないが、コンピュータ読み取り可能な記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、または他の光学式ディスク媒体、磁気式ディスク媒体、または他の磁気式記憶装置、または、コンピュータによってアクセス可能な、他の命令あるいはデータ構造の形式で所望のプログラムコードを実行・格納するために使用される他の媒体を含むものであってよい。ディスク、及びここで用いられるディスクには、コンパクトディスク（ＣＤ）、レーザーディスク、ＤＶＤ（digital versatile disc）、フロッピー（登録商標）ディスク、Blu-ray（登録商標）ディスクなどが含まれる。これらのディスクは、通常、磁気的にデータを再生し、レーザーによって光学的にデータを再生する。

また、ソフトウェアあるいは命令は、伝送媒体によって伝送される。例えば、ソフトウェアが、ウェブサイト、サーバ、あるいは他の遠隔ソースから、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL（Digital subscriber line）、または、赤外線、無線、マイクロ波などの無線技術を用いて伝送されるのであれば、そのときは、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、赤外線、無線、マイクロ波などの無線技術は、伝送媒体の定義に含まれる。

ここで開示された方法は、上記方法を実現するための１以上のステップまたは機能（action）を含む。方法ステップ及び／又は機能は、クレームの範囲から逸脱することなく互いに置換されうる。言い換えると、上述した方法を適正に動作させるためのステップまたは機能に特定の順序が必要とされないのであれば、特定のステップ及び／又は機能の順序及び／又は使用は、クレームの範囲から逸脱することなく変更されうる。

実施（executing）、処理、実行（performing）、動作、決定、通知、送信、受信、記憶、要求、及び／又は他の機能は、ウェブサービスを用いた機能の実行を含みうる。ウェブサービスは、インターネットなどのコンピュータ・ネットワーク上における相互運用が可能な機械間のやり取り（interaction）をサポートするように設計されたソフトウェアサービスを含みうる。ウェブサービスは、アプリケーションまたはシステム間のデータ交換に用いられる種々のプロトコル、規格を含みうる。例えば、ウェブサービスは、メッセージング仕様、セキュリティー仕様、信頼性の高いメッセージング仕様、取引仕様、メタデータ仕様、ＸＭＬ仕様、管理仕様、及び／又は、ビジネスプロセス仕様などを含みうる。ＳＯＡＰ、ＷＳＤＬ、ＸＭＬなどの一般的に使用される仕様、及び／又は他の仕様が用いられる。

請求の範囲（クレーム）は、上述した詳細な構成および構成要素に限定されない。種々の修正点、変更点、及びバリエーションは、ここで説明した上記構成、処理、システムの詳細、方法、装置において、クレームの範囲を逸脱することなく、使用される。

Claims

デコーダ装置によって実行される、サイド情報を用いた動画像符号化のためのテクスチャ合成方法であって、
高忠実度でシードテクスチャを受信する第１受信ステップと、
低忠実度で合成領域の残余部を受信する第２受信ステップと、
合成する領域のマーキングを受信する第３受信ステップと、
高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づいて、マーキングされた上記領域を合成する合成ステップと、
を含むことを特徴とするテクスチャ合成方法。
上記合成ステップは、
上記シードテクスチャ内において少なくとも１つの最適領域を特定する特定ステップと、
初期推定値を取得する取得ステップと、
上記少なくとも１つの最適領域から画像モデルを導出する導出ステップと、
受信したビットストリームから付加的な画像モデルを抽出する抽出ステップと、
上記初期推定値と導出した上記画像モデルおよび抽出した上記画像モデルとに基づいて、現合成領域を合成する合成ステップと、
を含むことを特徴とする請求項１に記載のテクスチャ合成方法。
上記取得ステップは、最適領域のピクセル値を現合成領域のピクセル値に複写する複写ステップを含むことを特徴とする請求項２に記載のテクスチャ合成方法。
上記特定ステップは、複数の最適領域を特定するとともに、
さらに、マーキングされた上記領域を合成するために、上記複数の最適領域の加重組み合わせを使用する使用ステップを含むことを特徴とする請求項２に記載のテクスチャ合成方法。
伝送された上記画像モデルは、量子化パラメータ、量子化されたレベル値、及び予測モードのうち少なくとも１つを含むことを特徴とする請求項２に記載のテクスチャ合成方法。
上記現合成領域の合成は、
上記受信したビットストリームから抽出される画像モデルと、上記シードテクスチャから抽出される画像モデルとに反復射影することによって実行されることを特徴とする請求項２に記載のテクスチャ合成方法。
上記シードテクスチャから抽出される上記画像モデルは、自己相関であり、
反復射影を動作させるための射影演算子は、所望の相関モデルに対する線形マッピングであることを特徴とする請求項６に記載のテクスチャ合成方法。
上記シードテクスチャから抽出される上記画像モデルは、変換領域におけるスパースネスであり、
反復射影を動作させるための射影演算子は、所望のスパースネスに達するための閾値処理であることを特徴とする請求項６に記載のテクスチャ合成方法。
さらに、境界部の平滑化を実行するために、パッチ混合および非ブロック化を実行する実行ステップを含むことを特徴とする請求項２に記載のテクスチャ合成方法。
導出された上記画像モデルおよび伝送された異なるタイプの複数の画像モデルは、少なくとも、時空間相関関係に基づくモデル、ピクセル輝度値のヒストグラムに基づくモデル、変換係数のヒストグラムに基づくモデル、及び、変換領域における相関関係に基づくモデル、の何れかを含むことを特徴とする請求項２に記載のテクスチャ合成方法。
マーキングされた上記領域を合成する合成ステップは、
上記シードテクスチャ内において少なくとも１つの最適領域を特定する特定ステップと、
上記少なくとも１つの最適領域と現合成領域との間の差を示すテクスチャ類似性メトリックを規定する第１規定ステップと、
上記サイド情報と上記現合成領域との間の差を示すサイド情報メトリックを規定する第２規定ステップと、
上記テクスチャ類似性メトリック及び上記サイド情報メトリックの組み合わせを最小化する最小化ステップと、
を含むことを特徴とする請求項１に記載のテクスチャ合成方法。
上記サイド情報メトリックは、上記変換領域における射影によって最近点を発見することにより決定されることを特徴とする請求項１１に記載のテクスチャ合成方法。
ブロック処理が実行されるとともに、
ある特定ブロックの合成動作は、（１）近接する、因果関係を有するブロック、及び（２）すべての近接ブロック、の何れかに関する合成結果を認識することにより実行されることを特徴とする請求項１１に記載のテクスチャ合成方法。
マーキングされた上記領域を合成する合成ステップの動作は、
マーキングされた上記領域に対する因果テクスチャ合成を実行する実行ステップと、
続いて行われる、マーキングされた上記領域を因果関係とは無関係に処理する処理ステップと、を含むことを特徴とする請求項１１に記載のテクスチャ合成方法。
さらに、
オーバーラップしないグリッドをサーチするサーチステップ、
空間とマルチ解像度との関係を利用してサーチ空間を縮減する縮減ステップ、
及び、距離を計算するときに数量を減らした変換係数を使用する使用ステップ、
のうち、少なくとも何れか１つのステップを実行することにより計算上の複雑さを軽減する軽減ステップを含むことを特徴とする請求項１に記載のテクスチャ合成方法。
サイド情報を用いた動画像符号化のためのテクスチャ合成を行うためのデコーダ装置であって、
プロセッサと、
上記プロセッサと電子通信を行うメモリと、
上記メモリに格納された命令と、を有し、
上記命令は、
高忠実度でのシードテクスチャの受信、
低忠実度での合成領域の残余部の受信、
合成する領域のマーキングの受信、
及び、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づく、マーキングされた上記領域の合成、
を実行させうることを特徴とするデコーダ装置。
マーキングされた上記領域の合成は、
上記シードテクスチャ内における少なくとも１つの最適領域の特定と、
初期推定値の取得と、
上記少なくとも１つの最適領域からの画像モデルの導出と、
受信したビットストリームからの付加的な画像モデルの抽出と、
上記初期推定値と上記導出した上記画像モデルおよび上記抽出した上記画像モデルとに基づく現合成領域の合成と、を含むことを特徴とする請求項１６に記載のデコーダ装置。
上記現合成領域の合成は、上記受信したビットストリームから抽出される画像モデルと、上記シードテクスチャから抽出される画像モデルとに反復射影することによって実行されることを特徴とする請求項１７に記載のデコーダ装置。
マーキングされた上記領域の合成は、
上記シードテクスチャ内における少なくとも１つの最適領域の特定と、
上記少なくとも１つの最適領域と現合成領域との間の差を示すテクスチャ類似性メトリックの規定と、
上記サイド情報と上記現合成領域との間の差を示すサイド情報メトリックの規定と、
上記テクスチャ類似性メトリック及び上記サイド情報メトリックの組み合わせの最小化と、を含むことを特徴とする請求項１６に記載のデコーダ装置。
サイド情報を用いた動画像符号化のためのテクスチャ合成を促進するエンコーダ装置であって、
プロセッサと、
上記プロセッサと電子通信を行うメモリと、
上記メモリに格納された命令と、を有し、
上記命令は、
入力動画像の合成領域の特定、
シードテクスチャとしての合成領域部のマーキング、
デコーダ装置に対する、高忠実度での上記シードテクスチャの伝送、
上記デコーダ装置に対する、低忠実度での上記合成領域部の残余部の伝送、
を実行させうることを特徴とするエンコーダ装置。
高忠実度でシードテクスチャを受信する第１受信ステップと、
低忠実度で合成領域の残余部を受信する第２受信ステップと、
合成する領域のマーキングを受信する第３受信ステップと、
高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づいて、マーキングされた上記領域を合成する合成ステップと、
をコンピュータに実行させるためのプログラム。
請求項２１に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
エンコーダ装置によって実行される、サイド情報を用いた動画像符号化のためのテクスチャ合成を促進する方法であって、
入力動画像の合成領域を特定する特定ステップと、
シードテクスチャとしての合成領域部をマーキングするマーキングステップと、
デコーダ装置に対して、高忠実度で上記シードテクスチャを伝送する第１伝送ステップと、
上記デコーダ装置に対して、低忠実度で上記合成領域部の残余部を伝送する第２伝送ステップと、
を含むことを特徴とする方法。
さらに、テクスチャの異なる領域のために、上記デコーダ装置に対して、異なる量の上記サイド情報を送信する送信ステップを含むことを特徴とする請求項２３に記載の方法。