JP5744333B2

JP5744333B2 - シーンのマルチビュービデオを処理する方法及びシステム

Info

Publication number: JP5744333B2
Application number: JP2014522261A
Authority: JP
Inventors: ティアン、ドン; チェウン、ガイ−マン; ヴェトロ、アンソニー
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2011-11-17
Filing date: 2012-09-11
Publication date: 2015-07-08
Anticipated expiration: 2032-09-11
Also published as: US8854486B2; US20120062756A1; EP2781090A1; EP2781090B1; WO2013073282A1; JP2015502057A

Description

本発明は、包括的にはマルチビュービデオの符号化及び復号化に関し、特に、マルチビュービデオの合成に関する。

マルチビュービデオの符号化及び復号化は、３次元テレビ（３ＤＴＶ：ｔｈｒｅｅｄｉｍｅｎｓｉｏｎａｌｔｅｌｅｖｉｓｉｏｎ）、自由視点テレビ（ＦＴＶ：ｆｒｅｅｖｉｅｗｐｏｉｎｔｔｅｌｅｖｉｓｉｏｎ）、及びマルチカメラ監視等の用途に不可欠である。マルチビュービデオの符号化及び復号化は動的ライトフィールドの圧縮としても知られる。

図１は、マルチビュービデオを符号化するための従来技術の「サイマル放送」システム１００を示す。カメラ１〜４がシーン５のフレームシーケンスすなわちビデオ１０１〜１０４を取得する。各カメラはシーンの異なるビューを有する。各ビデオは、個別に符号化されて（１１１〜１１４）、対応する符号化ビデオ１２１〜１２４となる。このシステムは、従来の２Ｄビデオ符号化技法を用いる。したがって、このシステムは、符号化ビデオのフレームを予測する際に、複数のカメラにより異なる視点から取得される異なるビデオを相関させない。個別の符号化は、圧縮効率を低下させ、よってネットワーク帯域幅及び記憶域が増大する。

図２は、ビュー間の相関を用いる、従来技術の視差補償予測システム２００を示す。ビデオ２０１〜２０４が符号化されて（２１１〜２１４）、符号化ビデオ２３１〜２３４となる。ビデオ２０１及び２０４は、ＭＰＥＧ−２又はＨ．２６４（ＭＰＥＧ−４パート１０としても知られる）等の標準的なビデオエンコーダーを用いて個別に符号化される。これらの個別に符号化されたビデオは「参照」ビデオとなる。残りのビデオ２０２及び２０３は、時間予測、並びにデコーダー２２１及び２２２から得られる再構成された参照ビデオ２５１及び２５２に基づくビュー間予測を用いて符号化される。通常、この予測はブロックごとに適応的に求められる（Ｓ．Ｃ．Ｃｈａｎ他「Ｔｈｅｄａｔａｃｏｍｐｒｅｓｓｉｏｎｏｆｓｉｍｐｌｉｆｉｅｄｄｙｎａｍｉｃｌｉｇｈｔｆｉｅｌｄｓ」Ｐｒｏｃ．ＩＥＥＥＩｎｔ．Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆ．，Ａｐｒｉｌ，２００３）。

図３は、従来技術の「リフティングベースの」ウェーブレット分解を示す（Ｗ．Ｓｗｅｌｄｅｎｓ「Ｔｈｅｄａｔａｃｏｍｐｒｅｓｓｉｏｎｏｆｓｉｍｐｌｉｆｉｅｄｄｙｎａｍｉｃｌｉｇｈｔｆｉｅｌｄｓ」Ｊ．Ａｐｐｌ．Ｃｏｍｐ．Ｈａｒｍ．Ａｎａｌ．，ｖｏｌ．３，ｎｏ．２，ｐｐ．１８６−２００，１９９６を参照のこと）。ウェーブレット分解は静的ライトフィールドの圧縮に効果的な技法である。入力サンプル３０１が奇数サンプル３０２及び偶数サンプル３０３に分割される（３１０）。奇数サンプルは偶数サンプルから予測される（３２０）。予測誤差は高域サンプル３０４を形成する。この高域サンプルは、偶数サンプルを更新して（３３０）低域サンプル３０５を形成するために用いられる。この分解は可逆であるため、線形操作又は非線形操作を予測ステップ及び更新ステップに組み込むことができる。

リフティング方式は、動き補償時間変換、すなわち、ビデオの場合は時間的な動きの軌跡に沿って実質的にフィルタリングを行う動き補償時間フィルタリング（ＭＣＴＦ：ｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｅｄｔｅｍｐｏｒａｌｆｉｌｔｅｒｉｎｇ）を可能にする。ビデオコーディングのためのＭＣＴＦのレビューがＯｈｍ他「Ｉｎｔｅｒｆｒａｍｅｗａｖｅｌｅｔｃｏｄｉｎｇ − ｍｏｔｉｏｎｐｉｃｔｕｒｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒｕｎｉｖｅｒｓａｌｓｃａｌａｂｉｌｉｔｙ」ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ：ＩｍａｇｅＣｏｍｍｕｎｉｃａｔｉｏｎ，ｖｏｌ．１９，ｎｏ．９，ｐｐ．８７７−９０８，Ｏｃｔｏｂｅｒ２００４に記載されている。リフティング方式は、再構成に影響を与えることなく、ハール又は５／３ドブシー等の任意のウェーブレット核、及びブロックベースの並進又はアフィングローバル動き等の任意の動きモデルに基づいて行うことができる。

符号化のために、ＭＣＴＦは、ビデオを高域フレームと低域フレームとに分解する。次にこれらのフレームに空間変換を施して、残存する空間的相関を低減する。変換された低域フレーム及び高域フレームは、関連する動き情報とともにエントロピー符号化されて、符号化ビットストリームを形成する。ＭＣＴＦは、図３に示すリフティング方式を用いて、時間的に隣接するビデオを入力として実施することができる。また、ＭＣＴＦは、出力低域フレームに反復的に適用することができる。

ＭＣＴＦベースのビデオの圧縮効率は、Ｈ．２６４／ＡＶＣ等のビデオ圧縮規格のそれに匹敵する。また、ビデオは固有の時間スケーラビリティを有する。しかし、この方法は、複数のビューから取得されたビデオ間に相関があるマルチビュービデオの直接符号化には用いることができない。これは、時間的相関を説明する効率的なビュー予測方法がないためである。

リフティング方式は、静的ライトフィールド、すなわち単一のマルチビュー画像を符号化するためにも用いられてきた。動き補償時間フィルタリングを行う代わりに、エンコーダーは、空間領域において静的ビュー間で視差補償ビュー間フィルタリング（ＤＣＶＦ：ｄｉｓｐａｒｉｔｙｃｏｍｐｅｎｓａｔｅｄｉｎｔｅｒ−ｖｉｅｗｆｉｌｔｅｒｉｎｇ）を行う（Ｃｈａｎｇ他「Ｉｎｔｅｒ−ｖｉｅｗｗａｖｅｌｅｔｃｏｍｐｒｅｓｓｉｏｎｏｆｌｉｇｈｔｆｉｅｌｄｓｗｉｔｈｄｉｓｐａｒｉｔｙｃｏｍｐｅｎｓａｔｅｄｌｉｆｔｉｎｇ」ＳＰＩＥＣｏｎｆｏｎＶｉｓｕａｌＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，２００３を参照のこと）。符号化のために、ＤＣＶＦは、静的ライトフィールドを高域画像と低域画像とに分解し、次にこれらの画像に空間変換を施して、残存する空間的相関を低減する。変換された画像は、関連する視差情報とともにエントロピー符号化されて、符号化ビットストリームを形成する。ＤＣＶＦは通常、図３に示すようなリフティングベースのウェーブレット変換方式を用いて、空間的に隣接するカメラビューから取得される画像を入力として実施される。また、ＤＣＶＦは、出力低域画像に反復的に適用することができる。ＤＣＶＦベースの静的ライトフィールドの圧縮は、複数のフレームを個別にコーディングするよりも高い圧縮効率を提供する。しかし、この方法もまた、ビュー間の時間的相関及び空間的相関の両方を用いるマルチビュービデオを符号化することができない。これは、時間的相関を説明する効率的なビュー予測方法がないためである。

或る特定の用途では、奥行き信号は、図２５に示すようにシステムの入力の一部とすることができる。「サイマル放送」システム２５００では、奥行き信号は、例えば、奥行きカメラ２５１Ａ、２５２Ａ、２５３Ａ、及び２５４Ａを用いて、カラービデオが撮影されるときに同時に取得することもできるし、オフライン手順によって推定することもできる。奥行きはシステムの入力として存在し、奥行きは符号化され（２５００、２５１１、２５１１Ａ、２５１２、２５１２Ａ、２５１３、２５１３Ａ、２５１４、及び２５１４Ａ）、ビットストリーム２５２１、２５２１Ａ、２５２２、２５２２Ａ、２５２３、２５２３Ａ、２５２４、及び２５２４Ａの一部として送信されることに留意されたい。奥行きエンコーダーは、カラーエンコーダーと同じ場合もあるし、同じでない場合もある。

複数のカメラによって或るシーンに関して取得されたマルチビュービデオを分解する方法及びシステムが提示される。

各マルチビュービデオはフレームシーケンスを含み、各カメラはシーンの異なるビューを提供する。

時間予測モード、空間予測モード、ビュー合成予測モード、及びイントラ予測モードの中から１つの予測モードが選択される。

次に、マルチビュービデオは、選択された予測モードに従って低域フレーム、高域フレーム、及びサイド情報に分解される。

シーンの合成ビューを反映する新規のビデオもまた、マルチビュービデオのうちの１つ又は複数から生成することができる。

より詳細には、本発明の１つの実施の形態は、ビデオを符号化及び復号化するシステム及び方法を提供する。複数のマルチビュービデオが、どの対のカメラ間でもビューが重なるような姿勢で配置される対応する複数のカメラによって或るシーンに関して取得される。１つの合成マルチビュービデオが、１つの仮想カメラに関して、取得された複数のマルチビュービデオから生成される。マルチビュービデオ及び合成ビデオのそれぞれの現フレームごとに参照ピクチャリストがメモリ内に保持される。参照ピクチャリストは、取得されたマルチビュービデオの時間参照ピクチャ及び空間参照ピクチャ、並びに合成マルチビュービデオの合成参照ピクチャをインデックス付けする。次に、マルチビュービデオの各現フレームが、符号化及び復号化中に、関連する参照ピクチャリストによってインデックス付けされた参照ピクチャに従って予測される。

別の実施の形態では、マルチビュービデオに対応する奥行き画像は、入力データの一部であり、このデータは、ビットストリームの一部として符号化される。したがって、導出される参照情報は、ＳＫＩＰタイプに応じて、参照ピクチャインデックスｒｅｆＩｄｘＬＸ及び動きベクトル（Ｘ，Ｙ）を含む。

マルチビュービデオを符号化するための従来技術のシステムのブロック図である。マルチビュービデオを符号化するための従来技術の視差補償予測システムのブロック図である。従来技術のウェーブレット分解プロセスのフロー図である。本発明の実施形態による、ＭＣＴＦ／ＤＣＶＦ分解のブロック図である。本発明の実施形態による、ＭＣＴＦ／ＤＣＶＦ分解後の低域フレーム及び高域フレームの、時間及び空間の関数としてのブロック図である。本発明の実施形態による、隣接する低域フレームからの高域フレームの予測のブロック図である。本発明の実施形態による、マクロブロック適応的ＭＣＴＦ／ＤＣＶＦ分解を用いるマルチビューのコーディングシステムのブロック図である。本発明の実施形態による、ビデオ合成の概略図である。従来技術の参照ピクチャ管理のブロック図である。本発明の実施形態による、マルチビュー参照ピクチャ管理のブロック図である。本発明の実施形態による、復号ピクチャバッファ内のマルチビュー参照ピクチャのブロック図である。異なるマルチビュー参照ピクチャの順序付けのコーディング効率を比較するグラフである。本発明の実施形態による、マルチビュー参照ピクチャリストマネージャに対するビューモードの依存性のブロック図である。時間参照ピクチャからの予測を使用するシングルビューのコーディングシステムのための従来技術の参照ピクチャ管理の図である。本発明の実施形態による、マルチビュー参照ピクチャからの予測を使用するマルチビューのコーディングシステム及び復号化システムのための参照ピクチャ管理の図である。本発明の実施形態による、サイド情報として符号化され受け取られる奥行き情報を用いたデコーダーにおけるビュー合成のブロック図である。本発明の実施形態による、予測モードを選択するためのコスト計算のブロック図である。本発明の実施形態による、デコーダーによって推定される奥行き情報を用いたデコーダーにおけるビュー合成のブロック図である。本発明の実施形態による、デコーダーにおいてＶフレームを用いて空間ランダムアクセスを達成するマルチビュービデオのブロック図である。本発明の実施形態による、ワーピング及び内挿を用いるビュー合成のブロック図である。本発明の実施形態による、奥行き探索のブロック図である。本発明の実施形態による、サブペル参照マッチングのブロック図である。従来のスキップモードのブロック図である。本発明の実施形態による、合成スキップモードのブロック図である。奥行きを含むマルチビュービデオを符号化するための従来技術のシステムのブロック図である。本発明の実施形態による合成スキップモードを用いる復号化プロセスの流れ図である。本発明の実施形態による適応基準スキップモードを用いる復号化プロセスの流れ図である。

本発明の実施形態は、マルチビュービデオのフレームを符号化及び復号化するための複合的時間／ビュー間処理方法を提供する。マルチビュービデオは、異なる姿勢を有する複数のカメラによって或るシーンに関して取得されるビデオである。本発明では、カメラ姿勢をその３Ｄの（ｘ，ｙ，ｚ）位置及びその３Ｄの（θ，ρ，φ）向きの両方として定義する。各姿勢はシーンの「ビュー」に対応する。

本方法は、特定のカメラ姿勢に関して取得される同一ビデオ中のフレーム間の時間的相関、及び複数のカメラビューから取得される異なるビデオ中の同期フレーム間の空間的相関を用いる。また、後述のように「合成」フレームを相関させることができる。

実施形態において、時間的相関は動き補償時間フィルタリング（ＭＣＴＦ）を用い、空間的相関は視差補償ビュー間フィルタリング（ＤＣＶＦ）を用いる。

本発明の別の実施形態において、空間的相関は、「近傍」フレームから生成される複数の合成フレームからの１つのビューの予測を用いる。近傍フレームは、時間的又は空間的に隣接するフレーム、例えば、時間領域における現フレームの前又は後のフレーム、又は同時刻に、ただし異なる姿勢又はシーンのビューを有するカメラから取得される１つ又は複数のフレームである。

本発明の別の実施形態では、マルチビュービデオに対応する奥行き画像が、合成フレームを生成するのに用いられる。奥行き画像は、入力データの一部とみなされ、ビットストリームに符号化される。復号化プロセスが、ビットストリームから奥行き画像を再構築するのに用いられる。

各ビデオの各フレームは画素のマクロブロックを含む。したがって、本発明の実施形態によるマルチビュービデオの符号化及び復号化方法はマクロブロック適応的である。現フレーム内の現マクロブロックの符号化及び復号化は、様々な形態の時間予測、空間予測、ビュー合成予測、及びイントラ予測を含むいくつかの可能な予測モードを用いて行われる。マクロブロックごとに最良の予測モードを判定するために、本発明の実施形態は、予測モードを選択する方法を提供する。この方法は、任意数のカメラ配置に対して使用することができる。

本明細書中で用いる場合、参照ピクチャは、符号化及び復号化中に現フレームを「予測」するために用いられる任意のフレームとして定義される。通常、参照ピクチャは、現フレームに空間的又は時間的に隣接する、すなわち「近傍」にある。

任意の所与の時刻において現フレームを符号化及び復号化するために同一の参照ピクチャ集合が用いられるため、同一の操作がエンコーダー及びデコーダーの両方に適用されることに留意することが重要である。

ＭＣＴＦ／ＤＣＶＦ分解
図４は、本発明の実施形態によるＭＣＴＦ／ＤＣＶＦ分解４００を示す。入力ビデオ４０１〜４０４のフレームが、異なる姿勢を有するカメラ１〜４によってシーン５に関して取得される。なお、図８に示すように、カメラのうちのいくつか１ａ及び１ｂは、同一位置にあり、ただし異なる向きであってもよい。どの対のカメラ間にも或る量のビューの重なりがあると仮定される。カメラの姿勢は、マルチビュービデオの取得中に変化し得る。通常、カメラは互いに同期される。各入力ビデオは、シーンの異なる「ビュー」を提供する。入力フレーム４０１〜４０４はＭＣＴＦ／ＤＣＶＦ分解４００に送られる。この分解は、符号化された低域フレーム４１１、符号化された高域フレーム４１２、及び関連するサイド情報４１３を生成する。高域フレームは、低域フレームを参照ピクチャとして用いて予測誤差を符号化する。分解は、選択された予測モード４１０に従って行われる。予測モードは、空間予測モード、時間予測モード、ビュー合成予測モード、及びイントラ予測モードを含む。予測モードは、各現フレームに関してマクロブロックごとに適応的に選択することができる。イントラ予測を用いる場合、現マクロブロックは、同一フレーム内の他のマクロブロックから予測される。

図５は、フレーム近傍５１０の、低域フレーム（Ｌ）４１１及び高域フレーム（Ｈ）４１２の好ましい交番「格子パターン」を示す。これらのフレームは空間（ビュー）次元５０１及び時間次元５０２を有する。本質的に、このパターンは、低域フレーム及び高域フレームを空間次元で１つの時刻ごとに交番させ、さらに、低域フレーム及び高域フレームを１つのビデオごとに時間的に交番させる。

この格子パターンにはいくつかの利点がある。このパターンは、低域フレームを空間次元及び時間次元の両方において均一に分散させることで、デコーダーが低域フレームのみを再構成する場合に、空間及び時間のスケーラビリティを実現する。また、このパターンは、空間次元及び時間次元の両方において高域フレームを隣接する低域フレームと整列させる。これは、図６に示すように、現フレームにおける誤差の予測を行うための参照ピクチャ間の相関を最大化する。

リフティングベースのウェーブレット変換によれば、一方のサンプル集合を他方のサンプル集合から予測することによって高域フレーム４１２が生成される。この予測は、後述する本発明の実施形態による様々な形態の時間予測、様々な形態の空間予測、及びビュー合成予測を含むいくつかのモードを用いて達成することができる。

高域フレーム４１２を予測するための手段及びこの予測を行うために必要な情報はサイド情報４１３と呼ばれる。時間予測を行う場合、時間モードがサイド情報の一部として、対応する動き情報とともに信号伝達される。空間予測を行う場合、空間モードがサイド情報の一部として、対応する視差情報とともに信号伝達される。ビュー合成予測を行う場合、ビュー合成モードがサイド情報の一部として、対応する視差情報、動き情報及び奥行き情報とともに信号伝達される。

図６に示すように、各現フレーム６００の予測は、空間次元及び時間次元の両方の近傍フレーム５１０を用いる。現フレームを予測するために用いられるフレームは参照ピクチャと呼ばれる。参照ピクチャは、符号化ビットストリームの一部である参照リストに保持される。参照ピクチャは復号ピクチャバッファに格納される。

本発明の実施形態において、ＭＣＴＦ及びＤＣＶＦは、入力ビデオのフレームごとに各現マクロブロックに対して適応的に適用されて、分解された低域フレーム、並びに高域フレーム及び関連するサイド情報を生じる。こうして、各マクロブロックは、「最良の」予測モードに従って適応的に処理される。予測モードを選択するための最適な方法は後述する。

本発明の実施形態において、ＭＣＴＦがまず各ビデオのフレームに個別に適用される。結果として得られるフレームは次に、ＤＣＶＦにより更に分解される。最終的な分解されたフレームに加えて、対応するサイド情報も生成される。マクロブロックごとに行う場合、ＭＣＴＦ及びＤＣＶＦの予測モードの選択は別個に検討される。利点として、この予測モードの選択は本質的に時間スケーラビリティをサポートする。こうして、圧縮ビットストリームにおいてビデオのより低い時間レートが容易にアクセスされる。

別の実施形態では、ＤＣＶＦがまず入力ビデオのフレームに適用される。結果として得られるフレームが次に、ＭＣＴＦにより時間的に分解される。最終的な分解されたフレームに加えて、サイド情報も生成される。マクロブロックごとに行う場合、ＭＣＴＦ及びＤＣＶＦの予測モードの選択は別個に検討される。利点として、この選択は本質的に空間スケーラビリティをサポートする。こうして、圧縮ビットストリームにおいてより少ない数のビューが容易にアクセスされる。

上述した分解は、前の分解段階から結果として得られる低域フレームの集合に反復的に適用することができる。利点として、本発明のＭＣＴＦ／ＤＣＶＦ分解４００は、時間的相関及び空間的（ビュー間）相関の両方を効果的に除去し、非常に高い圧縮効率を達成することができる。本発明のマルチビュービデオエンコーダーの圧縮効率は、各ビューの各ビデオを個別に符号化する従来のサイマル放送符号化に勝る。

ＭＣＴＦ／ＤＣＶＦ分解の符号化
図７に示すように、分解４００の出力４１１及び４１２は信号エンコーダー７１０に供給され、出力４１３はサイド情報エンコーダー７２０に供給される。信号エンコーダー７１０は、変換、量子化及びエントロピーコーディングを行って、分解された低域フレーム４１１及び高域フレーム４１２に残存する相関を除去する。このような操作は当該技術分野において既知である（Ｎｅｔｒａｖａｌｉ及びＨａｓｋｅｌｌ「ＤｉｇｉｔａｌＰｉｃｔｕｒｅｓ：Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ，ＣｏｍｐｒｅｓｓｉｏｎａｎｄＳｔａｎｄａｒｄｓ」ＳｅｃｏｎｄＥｄｉｔｉｏｎ，ＰｌｅｎｕｍＰｒｅｓｓ，１９９５）。

サイド情報エンコーダー７２０は、分解４００により生成されたサイド情報４１３を符号化する。サイド情報４１３は、予測モード及び参照ピクチャリストに加えて、時間予測に対応する動き情報、空間予測に対応する視差情報、並びにビュー合成予測に対応するビュー合成情報及び奥行き情報を含む。

サイド情報の符号化は、ＭＰＥＧ−４ビジュアル規格ＩＳＯ／ＩＥＣ１４４９６−２「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ −− Ｃｏｄｉｎｇｏｆａｕｄｉｏ−ｖｉｓｕａｌｏｂｊｅｃｔｓ − Ｐａｒｔ２：Ｖｉｓｕａｌ」（第２版、２００１年）、又はより最近のＨ．２６４／ＡＶＣ規格、及びＩＴＵ−Ｔ勧告Ｈ．２６４「Ａｄｖａｎｃｅｄｖｉｄｅｏｃｏｄｉｎｇｆｏｒｇｅｎｅｒｉｃａｕｄｉｏｖｉｓｕａｌｓｅｒｖｉｃｅｓ」（２００４年）において用いられる技法等の既知の確立された技法によって達成することができる。

例えば、マクロブロックの動きベクトルは通常、参照ピクチャ内のマクロブロックにおけるベクトルから予測ベクトルを求める予測方法を用いて符号化される。次に、予測ベクトルと現在のベクトルとの差にエントロピーコーディングプロセスを施す。このプロセスは通常、予測誤差の統計値を用いる。同様の手順を用いて視差ベクトルを符号化することができる。

さらに、参照ピクチャ内のマクロブロックからの予測値を得る予測コーディング方法を用いて、又は単純に固定長符号を使用して奥行き値を直接表すことによって各マクロブロックの奥行き情報を符号化することができる。画素レベルの奥行き精度が抽出され圧縮される場合、変換技法、量子化技法及びエントロピーコーディング技法を適用するテクスチャコーディング技法を適用することができる。

信号エンコーダー７１０及びサイド情報エンコーダー７２０からの符号化された信号７１１〜７１３を多重化して（７３０）、符号化された出力ビットストリーム７３１を生成することができる。

ＭＣＴＦ／ＤＣＶＦ分解の復号化
ビットストリーム７３１を復号化して（７４０）、入力マルチビュービデオ４０１〜４０４に対応する出力マルチビュービデオ７４１を生成することができる。任意で、合成ビデオも生成することができる。概して、デコーダーは、エンコーダーの逆の操作を行ってマルチビュービデオを再構成する。全ての低域フレーム及び高域フレームが復号化されれば、空間（ビュー）次元及び時間次元の両方において符号化品質の完全なフレーム集合が再構成され利用可能になる。

エンコーダーにおいて適用した分解の反復レベル数、及びどのタイプの分解を適用したかに応じて、より少ない数のビデオ及び／又はより低い時間レートを図７に示すように復号化することができる。

ビュー合成
図８に示すように、ビュー合成は、１つ又は複数の実際のマルチビュービデオのフレーム８０３から合成ビデオのフレーム８０１を生成するプロセスである。言い換えれば、ビュー合成は、シーン５の選択された新たなビュー８０２に対応するフレーム８０１を合成する手段を提供する。この新たなビュー８０２は、入力マルチビュービデオ４０１〜４０４が取得された時点では存在しない「仮想」カメラ８００に対応してもよく、又は、取得されるカメラビューに対応することができ、よって、合成ビューは、後述のようにそのビューの予測及び符号化／復号化に用いられる。

１つのビデオを用いる場合、合成は外挿又はワーピングに基づき、複数のビデオを用いる場合、合成は内挿に基づく。

１つ又は複数のマルチビュービデオのフレーム８０３の画素値及びシーン中の複数の点の奥行き値が与えられれば、合成ビュー８０２のフレーム８０１内の画素を、フレーム８０３内の対応する画素値から合成することができる。

ビュー合成は一般にコンピュータグラフィックスにおいて、複数のビューに関して静止画をレンダリングするために用いられる（Ｂｕｅｈｌｅｒ他「ＵｎｓｔｒｕｃｔｕｒｅｄＬｕｍｉｇｒａｐｈＲｅｎｄｅｒｉｎｇ」Ｐｒｏｃ．ＡＣＭＳＩＧＧＲＡＰＨ，２００１を参照のこと）。引用することにより本明細書中の一部をなすこの方法は、カメラの外部パラメータ及び内部パラメータを必要とする。

マルチビュービデオを圧縮するためのビュー合成は新規である。本発明の実施形態では、現フレームを予測するために使用する合成フレームを生成する。本発明の実施形態では、指定された高域フレームに関して合成フレームが生成される。本発明の別の実施形態では、特定のビューに関して合成フレームが生成される。合成フレームは参照ピクチャとして働き、これらの参照ピクチャから現合成フレームを予測することができる。

奥行き信号がマルチビュービデオの一部ではない場合、この手法に伴う１つの問題は、シーン５の奥行き値が分からないことである。したがって、本発明では、既知の技法を用いて、例えば、マルチビュービデオにおける特徴の対応関係に基づいて奥行き値を推定する。

代替的に、合成ビデオごとに、本発明では、候補奥行き値にそれぞれ対応する複数の合成フレームを生成する。現フレーム内のマクロブロックごとに、合成フレームの集合の中から最も良く一致するマクロブロックを求める。この最良一致が見つかった合成フレームは、現フレーム内のそのマクロブロックの奥行き値を示す。このプロセスを現フレーム内のマクロブロックごとに繰り返す。

現マクロブロックと合成ブロックとの差は信号エンコーダー７１０により符号化及び圧縮される。このマルチビューモードのサイド情報は、サイド情報エンコーダー７２０によって符号化される。サイド情報は、ビュー合成予測モードを示す信号、マクロブロックの奥行き値、及び現フレーム内のマクロブロックと合成フレーム内の最良一致マクロブロックとの間の補償すべき位置ずれを補償する任意の変位ベクトルを含む。

予測モードの選択
マクロブロック適応的ＭＣＴＦ／ＤＣＶＦ分解において、各マクロブロックの予測モードｍは、コスト関数をマクロブロックごとに適応的に最小化することによって選択することができる。

ここで、Ｊ（ｍ）＝Ｄ（ｍ）＋λＲ（ｍ）であり、Ｄは歪みであり、λは重みパラメータであり、Ｒはレートであり、ｍは候補予測モードの集合を示し、ｍ^＊は最小コスト基準に基づいて選択された最適予測モードを示す。

候補モードｍは様々な時間予測モード、空間予測モード、ビュー合成予測モード、及びイントラ予測モードを含む。コスト関数Ｊ（ｍ）は、特定の予測モードｍを用いてマクロブロックを符号化した結果として生じるレート及び歪みに依存する。

歪みＤは、再構成マクロブロックと元マクロブロックとの差を測定する。再構成マクロブロックは、所与の予測モードｍを用いてマクロブロックを符号化及び復号化することによって得られる。一般的な歪み測度は差の二乗和である。レートＲは、予測誤差及びサイド情報を含む、マクロブロックを符号化するために必要なビット数に対応する。重みパラメータλは、マクロブロックコーディングのレート−歪みのトレードオフを制御するものであり、量子化ステップサイズから導出することができる。

符号化プロセス及び復号化プロセスの詳細な態様を以下でさらに詳述する。特に、符号化プロセス及び復号化プロセスにより用いられる様々なデータ構造を説明する。本明細書中で説明するような、エンコーダーにおいて用いられるデータ構造は、デコーダーにおいて用いられる対応するデータ構造と同じであることを理解すべきである。また、デコーダーの処理ステップは本質的に、エンコーダーと同じ処理ステップに従うが、ただし逆の順序であることも理解すべきである。

参照ピクチャ管理
図９は、従来技術のシングルビューの符号化及び復号化システムのための参照ピクチャ管理を示す。時間参照ピクチャ９０１は、復号ピクチャバッファ（ＤＰＢ：ｄｅｃｏｄｅｄｐｉｃｔｕｒｅｂｕｆｆｅｒ）９４０への時間参照ピクチャ９０１の挿入（９２０）及び削除（９３０）を決めるシングルビュー参照ピクチャリスト（ＲＰＬ：ｒｅｆｅｒｅｎｃｅｐｉｃｔｕｒｅｌｉｓｔ）マネージャ９１０によって管理される。参照ピクチャリスト９５０もまた保持されて、ＤＰＢ９４０に格納されているフレームを示す。ＲＰＬは、挿入（９２０）及び削除（９３０）といった参照ピクチャ管理操作、並びにエンコーダー及びデコーダーの両方における時間予測９６０のために用いられる。

シングルビューエンコーダーにおいて、時間参照ピクチャ９０１は、予測、変換及び量子化を含む一組の通常の符号化操作を適用し、次にこれらの逆の、逆量子化、逆変換及び動き補償を含む操作を適用した結果として生成される。さらに、時間参照ピクチャ９０１は、エンコーダーにおける現フレームの予測に時間ピクチャが必要な時にのみ、ＤＰＢ９４０に挿入されてＲＰＬ９５０に追加される。

シングルビューデコーダーにおいて、逆量子化、逆変換及び動き補償を含む一組の通常の復号化操作をビットストリームに対して適用することによって同じ時間参照ピクチャ９０１が生成される。エンコーダーと同様に、時間参照ピクチャ９０１は、デコーダーにおける現フレームの予測に必要である場合にのみＤＰＢ９４０に挿入されて（９２０）ＲＰＬ９５０に追加される。

図１０は、マルチビューの符号化及び復号化のための参照ピクチャ管理を示す。時間参照ピクチャ１００３に加えて、マルチビューシステムはまた、空間参照ピクチャ１００１及び合成参照ピクチャ１００２も含む。これらの参照ピクチャはまとめてマルチビュー参照ピクチャ１００５と呼ばれる。これらのマルチビュー参照ピクチャ１００５は、マルチビューＤＰＢ１０４０へのマルチビュー参照ピクチャ１００５の挿入（１０２０）及び削除（１０３０）を決めるマルチビューＲＰＬマネージャ１０１０によって管理される。ビデオごとに、マルチビュー参照ピクチャリスト（ＲＰＬ）１０５０もまた保持されて、ＤＰＢに格納されているフレームを示す。すなわち、ＲＰＬはＤＰＢのインデックスである。マルチビューＲＰＬは、挿入（１０２０）及び削除（１０３０）といった参照ピクチャ管理操作、並びに現フレームの予測１０６０に用いられる。

マルチビューシステムの予測１０６０は、異なるタイプのマルチビュー参照ピクチャ１００５からの予測が可能となるため、シングルビューシステムの予測９６０とは異なることに留意されたい。マルチビュー参照ピクチャ管理１０１０に関する更なる詳細は後述する。

マルチビュー参照ピクチャリストマネージャ
エンコーダーにおいて現フレームを符号化する前、又はデコーダーにおいて現フレームを復号化する前に、マルチビューＲＰＬ１０５０においてマルチビュー参照ピクチャ１００５の集合を指示することができる。従来及び本明細書中で定義されるように、集合は要素を全く有しなくても（空集合）、１つ又は複数の要素を有してもよい。ＲＰＬの同一コピーが、現フレームごとにエンコーダー及びデコーダーの両方によって保持される。

マルチビューＲＰＬ１０５０に挿入される全てのフレームが初期化され、適切な構文を用いて、予測に使用可能なものとしてマーキングされる。Ｈ．２６４／ＡＶＣ規格及び参照ソフトウェアによれば、「ｕｓｅｄ＿ｆｏｒ＿ｒｅｆｅｒｅｎｃｅ」フラグが「１」にセットされる。概して、参照ピクチャは、フレームをビデオ符号化システムにおける予測に使用することができるように初期化される。Ｈ．２６４／ＡＶＣ等の従来のシングルビュービデオ圧縮規格との互換性を保つために、各参照ピクチャにピクチャ順序カウント（ＰＯＣ：ｐｉｃｔｕｒｅｏｒｄｅｒｃｏｕｎｔ）を割り当てる。通常、シングルビューの符号化及び復号化システムの場合、ＰＯＣはピクチャの時間的な順序付け、例えばフレーム番号に対応する。マルチビューの符号化及び復号化システムの場合、時間順だけでは、各参照ピクチャにＰＯＣを割り当てるのに不十分である。したがって、本発明では、全てのマルチビュー参照ピクチャに関して或る規則に従って一意のＰＯＣを求める。１つの規則は、時間参照ピクチャに対して時間順に基づいてＰＯＣを割り当て、次に、非常に高いＰＯＣ番号のシーケンス、例えば１００００〜１０１００を空間参照ピクチャ及び合成参照ピクチャ用に確保するものである。他のＰＯＣ割り当て規則、又は単に「順序付け」規則を以下で更に詳述する。

マルチビュー参照ビクチャとして用いる全てのフレームがＲＰＬに保持され、それらのフレームがエンコーダー７００又はデコーダー７４０によって従来の参照ピクチャとして扱われるようにＤＰＢに格納される。これにより、符号化プロセス及び復号化プロセスは従来通りとすることができる。マルチビュー参照ピクチャの格納に関する更なる詳細は後述する。予測すべき現フレームごとに、ＲＰＬ及びＤＰＢが対応して更新される。

マルチビュー規則の定義及び信号伝達
ＲＰＬを保持するプロセスは、エンコーダー７００とデコーダー７４０との間で調整される。特に、エンコーダー及びデコーダーは、特定の現フレームを予測する際にマルチビュー参照ピクチャリストの同一コピーを保持する。

マルチフレーム参照ピクチャリストを保持するいくつかの規則が可能である。したがって、使用される特定の規則はビットストリーム７３１に挿入されるか、又はシーケンスレベルのサイド情報、例えばデコーダーに伝達される構成情報として提供される。さらに、この規則は、異なる予測構造、例えば１Ｄアレイ、２Ｄアレイ、弧、十字、及びビューの内挿技法又はワーピング技法を用いて合成されるシーケンスを可能にする。

例えば、合成フレームは、カメラによって取得されたマルチビュービデオのうちの１つの対応するフレームをワーピングすることによって生成される。代替的に、シーンの従来のモデルを合成中に用いることができる。本発明の他の実施形態では、ビュータイプ、挿入順、及びカメラ特性に依存するいくつかのマルチビュー参照ピクチャ保持規則を定義する。

ビュータイプは、参照ピクチャが現フレームのビデオ以外のビデオからのフレームであるかどうか、又は、参照ピクチャが他のフレームから合成されたものであるかどうか、又は、参照ピクチャが他の参照ピクチャに依存するかどうかを示す。例えば、合成参照ピクチャは、現フレームと同じビデオからの参照ピクチャ、又は空間的に隣接するビデオからの参照ピクチャとは別に保持することができる。

挿入順は、参照ピクチャがＲＰＬ内でどのように順序付けされるかを示す。例として、現フレームと同じビデオ中の参照ピクチャには、隣接ビューから撮影されたビデオ中の参照ピクチャよりも低い順序値を与えることができる。この場合、この参照ピクチャは、マルチビューＲＰＬにおいて前の方に配置される。

カメラ特性は、参照ピクチャを取得するために使用されるカメラ、又は合成参照ピクチャを生成するために用いられる仮想カメラの特性を示す。これらの特性は、固定座標系に対する並進及び回転、すなわちカメラの「姿勢」、３Ｄの点が２Ｄ画像に投影される方法を記述する内部パラメータ、レンズ歪み、色較正情報、照明レベル等を含む。例として、カメラ特性に基づき、或る特定のカメラの隣接カメラに対する近接度を自動的に求めることができ、隣接カメラにより取得されたビデオのみを特定のＲＰＬの一部とみなす。

図１１に示すように、本発明の実施形態は、各参照ピクチャリストの一部１１０１を時間参照ピクチャ１００３用に確保し、別の部分１１０２を合成参照ピクチャ１００２用に確保し、第３の部分１１０３を空間参照ピクチャ１００１用に確保する規則を使用する。これは、ビュータイプのみに依存する規則の一例である。各部分に含まれるフレーム数は、符号化又は復号化中の現フレームの予測依存性に基づいて変化し得る。

特定の保持規則は、規格、明示的ルール又は暗黙的ルールによって規定するか、又は符号化ビットストリームにおいてサイド情報として規定することができる。

ＤＰＢへのピクチャの格納
マルチビューＲＰＬマネージャ１０１０は、マルチビュー参照ピクチャがＤＰＢに格納される順序が、符号化及び復号化の効率を高める上でのピクチャの「有用性」に対応するようにＲＰＬを保持する。具体的には、ＲＰＬの初めの方の参照ピクチャは、ＲＰＬの終わりの方の参照ピクチャよりも少ないビットで予測（ｐｒｅｄｉｃａｔｉｖｅｌｙ）符号化することができる。

図１２に示すように、マルチビュー参照ピクチャをＲＰＬに保持する順序の最適化は、コーディング効率に大きな影響を有し得る。例えば、初期化に関して上述したＰＯＣ割り当てに従うと、マルチビュー参照ピクチャには非常に大きなＰＯＣ値が割り当てられる可能性がある。これは、マルチビュー参照ピクチャがビデオシーケンスの通常の時間的な順序付けでは生じないためである。したがって、ほとんどのビデオコーデックのデフォルトの順序付けプロセスは、そのようなマルチビュー参照ピクチャを参照ピクチャリストの前の方に配置する可能性がある。

同一シーケンスからの時間参照ピクチャは通常、他のシーケンスからの空間参照ピクチャよりも強い相関を示すため、デフォルトの順序付けは望ましくない。したがって、マルチビュー参照ピクチャはエンコーダーによって明示的に並べ替えられて、エンコーダーがその後、この並べ替えをデコーダーに信号伝達するか、又は、エンコーダー及びデコーダーがマルチビュー参照ピクチャを所定の規則に従って暗黙的に並べ替える。

図１３に示すように、参照ピクチャの順序は、各参照ピクチャに対するビューモード１３００によって容易になる。ビューモード１３００もまたマルチビュー予測プロセス１０６０に影響を与えることに留意されたい。本発明の実施形態では、更に詳細に後述する３つの異なるタイプのビューモード、すなわち、Ｉビュー、Ｐビュー及びＢビューを用いる。

マルチビュー参照ピクチャ管理の詳細な動作を説明する前に、単一ビデオの符号化及び復号化システムのための従来技術の参照ピクチャ管理を図１４に示す。時間参照ピクチャ９０１のみが時間予測９６０に用いられる。取得順又は表示順１４０１におけるビデオの時間参照ピクチャ間の時間予測依存性を示す。参照ピクチャは符号化順１４０２に並べ替えられ（１４１０）、この符号化順１４０２で各参照ピクチャが時刻ｔ_０〜ｔ_６において符号化又は復号化される。ブロック１４２０は、時刻ごとの参照ピクチャの順序付けを示す。イントラフレームＩ_０が符号化又は復号化される時刻ｔ_０では、時間予測に使用される時間参照ピクチャはないため、ＤＢＰ／ＲＰＬは空である。一方向インターフレームＰ_１が符号化又は復号化される時刻ｔ_１では、フレームＩ_０が時間参照ピクチャとして利用可能である。時刻ｔ_２及びｔ_３では、フレームＩ_０及びＰ_１の両方がインターフレームＢ_１及びＢ_２の双方向時間予測のための参照フレームとして利用可能である。時間参照ピクチャ及びＤＢＰ／ＲＰＬは、将来のピクチャに関しても同様に管理される。

本発明の実施形態によるマルチビューの場合を説明するために、上述し図１５に示す３つの異なるタイプのビュー、すなわち、Ｉビュー、Ｐビュー、及びＢビューを検討する。表示順１５０１におけるビデオの参照ピクチャ間のマルチビューの予測依存性を示す。図１５に示すように、ビデオの参照ピクチャはビューモードごとにコーディング順１５０２に並べ替えられ（１５１０）、このコーディング順１５０２で各参照ピクチャが、ｔ_０〜ｔ_２で示す所与の時刻において符号化又は復号化される。マルチビュー参照ピクチャの順序を時刻ごとにブロック１５２０に示す。

Ｉビューは、より複雑なモードを可能にする最も単純なモードである。Ｉビューは、空間予測も合成予測も用いない従来の符号化及び予測モードを用いる。例えば、Ｉビューは、マルチビュー拡張を用いずに従来のＨ．２６４／ＡＶＣ技法を用いて符号化することができる。Ｉビューシーケンスからの空間参照ピクチャを他のビューの参照リストに配置する時、これらの空間参照ピクチャは通常、時間参照ピクチャの後に配置される。

図１５に示すように、Ｉビューの場合、フレームＩ_０がｔ_０において符号化又は復号化される時、予測に用いられるマルチビュー参照ピクチャはない。したがって、ＤＢＰ／ＲＰＬは空である。フレームＰ_０が符号化又は復号化される時刻ｔ_１では、Ｉ_０が時間参照ピクチャとして利用可能である。フレームＢ_０が符号化又は復号化される時刻ｔ_２では、フレームＩ_０及びＰ_０の両方が時間参照ピクチャとして利用可能である。

Ｐビューは、別のビューからの予測を可能にしてビュー間の空間的相関を利用するという点で、Ｉビューよりも複雑である。具体的には、Ｐビューモードを用いて符号化されるシーケンスは、他のＩビュー又はＰビューからのマルチビュー参照ピクチャを用いる。Ｐビューでは合成参照ピクチャも用いることができる。Ｉビューからのマルチビュー参照ピクチャを他のビューの参照リストに配置する時、Ｐビューは、時間参照ピクチャ、及びＩビューから導出されるマルチビュー参照ピクチャの両方の後に配置される。

図１５に示すように、Ｐビューの場合、フレームＩ_２がｔ_０において符号化又は復号化される時、合成参照ピクチャＳ_２０及び空間参照ピクチャＩ_０が予測に利用可能である。合成ピクチャの生成に関する更なる詳細は後述する。Ｐ_２が符号化又は復号化される時刻ｔ_１では、Ｉ_２が時間参照ピクチャとして、合成参照ピクチャＳ_２１及びＩビューからの空間参照ピクチャＰ_０とともに利用可能である。時刻ｔ_２では、２つの時間参照ピクチャＩ_２及びＰ_２、並びに合成参照ピクチャＳ_２２及び空間参照ピクチャＢ_０が存在し、これらの参照ピクチャから予測を行うことができる。

Ｂビューは、マルチビュー参照ピクチャを用いるという点で、Ｐビューと同様である。ＰビューとＢビューとの間の１つの重要な差異は、Ｐビューがそのビュー自体及び１つの他のビューからの参照ピクチャを用いるのに対し、Ｂビューは複数のビューのピクチャを参照し得ることである。合成参照ピクチャを用いる時、合成ビューは通常、空間参照よりも強い相関を有するため、Ｂビューは空間参照ピクチャの前に配置される。

図１５に示すように、Ｂビューの場合、Ｉ_１がｔ_０において符号化又は復号化される時、合成参照ピクチャＳ_１０並びに空間参照ピクチャＩ_０及びＩ_２が予測に利用可能である。Ｐ_１が符号化又は復号化される時刻ｔ_１では、Ｉ_１が時間参照ピクチャとして、合成参照ピクチャＳ_１１、並びにそれぞれＩビュー及びＰビューからの空間参照ピクチャＰ_０及びＰ_２とともに利用可能である。時刻ｔ_２では、２つの時間参照ピクチャＩ_１及びＰ_１が存在するとともに、合成参照ピクチャＳ_１２並びに空間参照ピクチャＢ_０及びＢ_２が存在し、これらの参照ピクチャから予測を行うことができる。

図１５に示す例は本発明の実施形態に関するものに過ぎないことを強調しておく。多くの異なるタイプの予測依存性がサポートされる。例として、空間参照ピクチャは、同時刻の異なるビューにおけるピクチャに限定されない。空間参照ピクチャはまた、異なる時刻の異なるビューに対する参照ピクチャも含むことができる。また、イントラピクチャ間の双方向予測ピクチャ及び一方向予測インターピクチャの数は変化し得る。同様に、Ｉビュー、Ｐビュー、及びＢビューの構成も変化し得る。さらに、異なるピクチャ集合又は異なる奥行きマップ若しくはプロセスを用いてそれぞれ生成されるいくつかの合成参照ピクチャが利用可能であり得る。

互換性
本発明の実施形態によるマルチビューピクチャ管理の１つの重要な利点は、既存のシングルビューのビデオコーディングシステム及び設計と互換性があることである。このマルチビューピクチャ管理は、既存のシングルビュービデオコーディング規格に加える変更が最小であるだけでなく、既存のシングルビュービデオコーディングシステムからのソフトウェア及びハードウェアを、本明細書に記載するマルチビュービデオコーディングに使用することも可能にする。

この理由は、ほとんどの従来のビデオ符号化システムが、符号化パラメータをデコーダーに圧縮ビットストリームで伝達するからである。したがって、このようなパラメータを伝達する構文は、Ｈ．２６４／ＡＶＣ規格等の既存のビデオコーディング規格によって規定されている。例えば、ビデオコーディング規格は、現フレーム内の所与のマクロブロックに対する予測モードを、他の時間的に関連する参照ピクチャから規定する。この規格はまた、結果として生じる予測誤差を符号化及び復号化するために使用される方法を規定する。他のパラメータは、変換のタイプ又はサイズ、量子化方法、及びエントロピーコーディング方法を規定する。

したがって、本発明のマルチビュー参照ピクチャは、既存のシステムの参照ピクチャリスト、復号ピクチャバッファ、及び予測構造等の標準的な符号化コンポーネント及び復号化コンポーネントに限られた数の修正を加えるだけで実施することができる。マクロブロック構造、変換、量子化及びエントロピー符号化は変更されないことに留意されたい。

ビュー合成
図８に関して上述したように、ビュー合成は、仮想カメラ８００の合成ビュー８０２に対応するフレーム８０１を、既存のビデオから取得されるフレーム８０３から生成するプロセスである。言い換えれば、ビュー合成は、入力ビデオが取得された時点では存在しない仮想カメラによるシーンの選択された新たなビューに対応するフレームを合成する手段を提供する。１つ又は複数の実際のビデオのフレームの画素値及びシーン中の点の奥行き値が与えられると、合成ビデオビューのフレーム内の画素を外挿及び／又は内挿により生成することができる。

合成ビューからの予測
図１６は、奥行き１９０１の情報が符号化マルチビュービットストリーム７３１に含まれている時に、ビュー合成モードを用いて再構成マクロブロックを生成するプロセスを示す。所与のマクロブロックの奥行きは、サイド情報デコーダー１９１０によって復号化される。奥行き１９０１及び空間参照ピクチャ１９０２を用いてビュー合成１９２０を行い、合成マクロブロック１９０４を生成する。次に、合成マクロブロック１９０４と復号化された残差マクロブロック１９０５とを加算する（１９３０）ことによって再構成マクロブロック１９０３が形成される。

エンコーダーにおけるマルチビューモード選択の詳細
以下では、マルチビュービデオに対応する奥行き画像は、入力データの一部でないと仮定される。しかしながら、このプロセスは、奥行き画像が入力データの一部として存在するときは変更することができる。

図１７は、現フレームの符号化又は復号化中に予測モードを選択するプロセスを示す。時間参照ピクチャ２０２０を用いて現マクロブロック２０１１に関して動き推定２０１０を行う。結果として得られる動きベクトル２０２１を用いて、時間予測を用いる第１のコーディングコストｃｏｓｔ_１２０３１を求める（２０３０）。このプロセスに関連する予測モードはｍ_１である。

空間参照ピクチャ２０４１を用いて現マクロブロックに関して視差推定２０４０を行う。結果として得られる視差ベクトル２０４２を用いて、空間予測を用いる第２のコーディングコストｃｏｓｔ_２２０５１を求める（２０５０）。このプロセスに関連する予測モードをｍ_２で示す。

空間参照ピクチャ２０４１に基づき現マクロブロックに関して奥行き推定２０６０を行う。推定した奥行きに基づいてビュー合成を行う。奥行き情報２０６１及び合成ビュー２０６２を用いて、ビュー合成予測を用いる第３のコーディングコストｃｏｓｔ_３２０７１を求める（２０７０）。このプロセスに関連する予測モードはｍ_３である。

現マクロブロックの隣接画素２０８２を用いて、イントラ予測を用いる第４のコーディングコストｃｏｓｔ_４２０８１を求める（２０８０）。このプロセスに関連する予測モードはｍ_４である。

ｃｏｓｔ_１、ｃｏｓｔ_２、ｃｏｓｔ_３及びｃｏｓｔ_４の中の最小コストを求め（２０９０）、モードｍ_１、ｍ_２、ｍ_３及びｍ_４の中で最小コストを有するモードを、現マクロブロック２０１１の最良予測モード２０９１として選択する。

奥行き推定を用いたビュー合成
ビュー合成モード２０９１を用いて、合成ビューの奥行き情報及び変位ベクトルを、１つ又は複数のマルチビュービデオの復号化フレームから推定することができる。奥行き情報は、適用されるプロセスに応じて、立体カメラから推定される画素ごとの奥行きであってもよく、又は、マクロブロックマッチングから推定されるマクロブロックごとの奥行きであってもよい。

この手法の利点は、エンコーダーがデコーダーと同じ奥行き情報及び変位情報にアクセス可能である限り、奥行き値及び変位ベクトルがビットストリーム中に必要ないため、帯域幅が小さくなることである。エンコーダーは、デコーダーがエンコーダーと全く同じ奥行き及び変位推定プロセスを使用する限り、これを達成することができる。したがって、本発明のこの実施形態では、現マクロブロックと合成マクロブロックとの差がエンコーダーによって符号化される。

このモードのサイド情報はサイド情報エンコーダー７２０によって符号化される。サイド情報は、ビュー合成モードを示す信号及び参照ビュー（複数可）を含む。サイド情報は、エンコーダーによってビュー合成に使用される奥行き及び変位と、デコーダーによって推定される値との間の差である奥行き及び変位補正情報も含むことができる。

図１８は、奥行き情報がデコーダーにおいて推定又は推測され、符号化マルチビュービットストリームで伝達されない時の、ビュー合成モードを用いたマクロブロックの復号化プロセスを示す。奥行き２１０１は空間参照ピクチャ２１０２から推定される（２１１０）。次に、推定された奥行き及び空間参照ピクチャを用いてビュー合成２１２０を行い、合成マクロブロック２１２１を生成する。再構成マクロブロック２１０３が、合成マクロブロックと復号化された残差マクロブロック２１０４との加算２１３０によって形成される。

空間ランダムアクセス
従来のビデオ中のフレームに対しランダムアクセスを提供するために、Ｉフレームとしても知られるイントラフレームが通常、ビデオ全体に間隔を置いて配置される。これにより、デコーダーは、復号化シーケンス中の任意のフレームにアクセスすることが可能になるが、圧縮効率は低下する。

本発明のマルチビューの符号化及び復号化システムのために、本明細書中において「Ｖフレーム」と呼ぶ新たなタイプのフレームを提供し、ランダムアクセス及び圧縮効率の向上を可能にする。Ｖフレームは、時間予測を用いずに符号化されるという意味でＩフレームと同様である。しかし、Ｖフレームは、他のカメラからの予測又は合成ビデオからの予測も可能にする。具体的には、Ｖフレームは、空間参照ピクチャ又は合成参照ピクチャから予測される圧縮ビットストリーム中のフレームである。Ｉフレームの代わりにＶフレームをビットストリームに周期的に挿入することによって、本発明では、Ｉフレームで可能であるような時間ランダムアクセスを、より高い符号化効率で提供する。したがって、Ｖフレームは時間参照フレームを使用しない。図１９は、最初のビューに対するＩフレームの使用、及び同時刻１９００における以後のビューに対するＶフレームの使用を示す。図５に示す格子構成の場合、Ｖフレームは、全てのビューに関して同時刻には生じないことに留意されたい。低域フレームのいずれかにＶフレームを割り当てることができる。この場合、Ｖフレームは、近傍ビューの低域フレームから予測されることになる。

Ｈ．２６４／ＡＶＣビデオコーディング規格では、クローズドＧＯＰを有するＭＰＥＧ−２のＩフレームに似たＩＤＲフレームが、全ての参照ピクチャが復号ピクチャバッファから削除されることを示唆する。これにより、ＩＤＲフレームの前のフレームは、ＩＤＲフレームよりも後のフレームの予測に用いることができない。

本明細書中に記載するマルチビューデコーダーでは、Ｖフレームが同様に、全ての時間参照ピクチャを復号ピクチャバッファから削除することができることを示唆する。しかし、空間参照ピクチャは復号ピクチャバッファに残しておくことができる。これにより、所与のビューにおけるＶフレームの前のフレームは、同一ビューにおけるＶフレームの後のフレームの時間予測を行うために用いることができない。

マルチビュービデオのうちの１つの特定のフレームにアクセスするためには、そのビューのＶフレームをまず復号化しなければならない。上述のように、これは、時間参照ピクチャを使用することなく、空間参照ピクチャ又は合成参照ピクチャからの予測により達成することができる。

選択ビューのＶフレームを復号化した後、そのビューの以後のフレームを復号化する。これらの以後のフレームは、近傍ビューからの参照ピクチャに対して予測依存性を有する可能性が高いため、これらの近傍ビューにおける参照ピクチャも復号化する。

マルチビューの符号化及び復号化
上記セクションは、マルチビューのコーディング及び奥行き推定における予測を改善するためのビュー合成を説明する。次に、可変ブロックサイズの奥行き及び動き探索、レート−歪み（ＲＤ：ｒａｔｅ−ｄｉｓｔｏｔｉｏｎ）の決定、サブペル参照奥行き探索、並びに奥行き情報の文脈適応２進法算術コーディング（ＣＡＢＡＣ：ｃｏｎｔｅｘｔ−ａｄａｐｔｉｖｅｂｉｎａｒｙａｒｉｔｈｍｅｔｉｃｃｏｄｉｎｇ）の実装を説明する。コーディングは、エンコーダーにおける符号化及びデコーダーにおける復号化を含み得る。ＣＡＢＡＣは、Ｈ．２６４規格パート１０（引用することにより本明細書中の一部をなす）により規定される。

ビュー合成予測
カメラ間及び時刻間の両方に存在する相関を取り込むために、２つのブロック予測方法を実施した。
視差補償ビュー予測（ＤＣＶＰ：ｄｉｓｐａｒｉｔｙｃｏｍｐｅｎｓａｔｅｄｖｉｅｗｐｒｅｄｉｃｔｉｏｎ）、及び
ビュー合成予測（ＶＳＰ：ｖｉｅｗｓｙｎｔｈｅｓｉｓｐｒｅｄｉｃｔｉｏｎ）

ＤＣＶＰ
第１の方法であるＤＣＶＰは、同一（ビュー）カメラの異なる時刻からのフレームを使用するのではなく、同時刻における異なるカメラ（ビュー）からのフレームを使用して現フレームを予測することに対応する。ＤＣＶＰは、例えば遮蔽、物体がシーンに入ってくるか又はシーンから出て行くこと、又は速い動きのために時間的相関が空間的相関よりも低い場合に利得を提供する。

ＶＳＰ
第２の方法であるＶＳＰは、仮想カメラのフレームを合成してフレームシーケンスを予測する。ＶＳＰは、カメラビュー間の並進でない動きの存在によりＤＣＶＰに対して相補的であり、実際の応用において多くの場合にそうであるように、カメラパラメータが高品質の仮想ビューを提供するのに十分に正確である場合に利得を提供する。

図２０に示すように、本発明では、既に符号化されたビューから仮想ビューを合成し、次に、合成ビューを用いて予測コーディングを行うことにより、マルチビュービデオのこれらの特徴を利用する。図２０は、横軸に時間を、縦軸にビューを、ビューの合成及びワーピング２００１、並びにビューの合成及び内挿２００２とともに示す。

具体的には、カメラｃごとに、まずＢｕｅｈｌｅｒ他（上記を参照）の非構造的なルミグラフのレンダリング技法に基づいて仮想フレームＩ’［ｃ，ｔ，ｘ，ｙ］を合成し、次に合成ビューを用いて現シーケンスを予測符号化する。

フレームＩ’［ｃ，ｔ，ｘ，ｙ］を合成するには、まず、画素（ｘ，ｙ）に対応する物体が時刻ｔにおいてカメラｃからどれだけ離れているかを示す奥行きマップＤ［ｃ，ｔ，ｘ，ｙ］、並びに何らかのワールド座標系に対するカメラｃの位置を記述する内部行列Ａ（ｃ）、回転行列Ｒ（ｃ）、及び並進ベクトルＴ（ｃ）が必要である。

これらの量を用いて、既知のピンホールカメラモデルを適用し、画素位置（ｘ，ｙ）を次式によりワールド座標［ｕ，ｖ，ｗ］に投影することができる。

次に、ワールド座標を次式により、予測を行う基準としたいカメラｃ’のフレームのターゲット座標［ｘ’，ｙ’，ｚ’］に写像する。

最後に、画素位置を得るために、ターゲット座標を同次形［ｘ’／ｚ’，ｙ’／ｚ’，１］に変換し、合成フレーム内の画素位置（ｘ，ｙ）の強度はＩ’［ｃ，ｔ，ｘ，ｙ］＝Ｉ［ｃ’，ｔ，ｘ’／ｚ’，ｙ’／ｚ’］となる。

可変ブロックサイズの奥行き／動き推定
上記では、構文を変更することなくＤＣＶＰの使用を可能にするピクチャバッファの管理方法を説明した。カメラビュー間の視差ベクトルは、動き推定ステップを用いることによって求め、単なる拡張参照タイプとして用いることができた。ＶＳＰをもう１つのタイプの参照として用いるために、通常の動き推定プロセスを以下のように拡張する。

候補マクロブロックタイプｍｂ＿ｔｙｐｅと、おそらくは合成マルチビュー参照フレームすなわちＶＳＰを含むＮ個の可能な参照フレームとが与えられた状態で、サブマクロブロックごとに参照フレームを、ラグランジュ乗数λ_{ｍｏｔｉｏｎ}又はλ_{ｄｅｐｔｈ}をそれぞれ用いて以下のラグランジュコストＪを最小化する動きベクトル

又は奥行き／補正ベクトル対Ｊとともに求める。

ただし、

であり、

である。ここで、検討中のサブマクロブロック（ｓｕｂ−ＭＢ）内の全ての画素の和をとり、Ｘ_{ｐ＿ｓｙｎｔｈ}又はＸ_{ｐ＿ｍｏｔｉｏｎ}は参照サブマクロブロック中の画素の強度を指す。

ここで、「動き」は時間的な動きだけでなく、ビュー間の視差から生じるビュー間の動きも指すことに留意されたい。

奥行き探索
本発明では、ブロックベースの奥行き探索プロセスを用いて、可変サイズのサブマクロブロックごとに最適な奥行きを求める。具体的には、最小奥行き値Ｄ_ｍｉｎ、最大奥行き値Ｄ_ｍａｘ、及び増分奥行き値Ｄ_ｓｔｅｐを定義する。次に、予測したいフレーム内の可変サイズのサブマクロブロックごとに、次式の合成ブロックの誤差を最小化する奥行きを選択する。

ここで、‖Ｉ［ｃ，ｔ，ｘ，ｙ］−Ｉ［ｃ’，ｔ，ｘ’，ｙ’］‖は、時刻ｔにおけるカメラｃの（ｘ，ｙ）を中心とするサブマクロブロックと、予測を行う基準となる対応するブロックとの間の平均誤差を示す。

基本的なＶＳＰプロセスの性能を高めるためのさらなる精緻化として、カメラパラメータのわずかな不正確さ（ピンホールカメラモデルでは取り込まれない非理想的なもの）のために、合成補正ベクトルを加算するとＶＳＰの性能が大幅に改善されることが分かる。

具体的には、図２１に示すように、マクロブロック２１００ごとに、ターゲットフレーム２１０１を参照フレーム２１０２に写像し、次に合成フレーム２１０３に写像する。しかし、式（１）を用いて内挿を行う基準となる座標を計算する代わりに、本発明では、合成補正ベクトル（Ｃ_ｘ，Ｃ_ｙ）２１１０を元の画素座標の各集合に加算することによって［ｕ，ｖ，ｗ］を計算し、次式を得る。

＋／−２という小さな補正ベクトル探索範囲により、多くの場合に、結果として得られる合成参照フレームの品質が大きく改善されることを発見した。

サブピクセル参照マッチング
異なるカメラの２つの対応する画素の視差は概して、整数の正確な倍数では与えられないため、式（２）により与えられる予測を行う基準としたいカメラｃ’のフレームのターゲット座標［ｘ’，ｙ’，ｚ’］は、常に整数グリッドの点に該当するとは限らない。したがって、本発明では内挿を用いて、参照フレーム内のサブペル位置の画素値を生成する。これにより、整数ペルではなく最も近いサブペル参照点を選択できるようになり、画素間の真の視差により正確に近似する。

図２２はこのプロセスを示し、「ｏｘｘ．．．ｏｘ」は画素を示す。Ｈ．２６４規格においてサブペル動き推定に採用される同じ内挿フィルタを本発明の実装において用いる。

サブピクセル精度の補正ベクトル
本発明では、サブペル精度の補正ベクトルの使用を可能にすることにより合成品質を更に高めることができる。これは特に、上述のサブペル参照マッチングと組み合わせる場合に当てはまる。なお、サブペル動きベクトル探索とこのサブペル補正ベクトル探索との間にはわずかな違いがある。

動きベクトルの場合、通常は、参照ピクチャ内のサブペル位置を探索し、ＲＤコストを最小化するサブペル位置を指すサブペル動きベクトルを選択する。しかし、補正ベクトルの場合、最適な奥行き値を求めた後、現ピクチャ内のサブペル位置を探索して、ＲＤコストを最小化する補正ベクトルを選択する。

現ピクチャにおけるサブペル補正ベクトル分のシフトが、参照ピクチャにおいて同じシフト量になるとは限らない。言い換えれば、参照ピクチャ内の対応する一致は常に、式（１）及び式（２）の幾何変換後に最も近いサブペル位置に丸めることによって見付かる。

サブペル精度の補正ベクトルのコーディングは比較的複雑であるが、このコーディングにより合成品質が大幅に改善され、多くの場合にＲＤ性能が改善されることを観測している。

ＹＵＶ−奥行き探索
奥行き推定では、規則化により、より滑らかな奥行きマップを達成することができる。規則化は、合成予測の視覚的品質を改善するが、差分絶対値和（ＳＡＤ：ｓｕｍｏｆａｂｕｓｏｌｕｔｅｄｉｆｆｅｒｅｎｃｅｓ）により測定した場合にその予測品質をわずかに低下させる。

従来の奥行き探索プロセスは、入力画像のＹのルミナンス成分のみを用いて、奥行きマップの奥行きを推定する。これにより、Ｙ成分の予測誤差が最小化されるが、合成予測では例えばカラーミスマッチの形態の視覚アーチファクトを生じることが多い。これは、最終的な再構成物の客観的品質（すなわちＵ、ＶのＰＳＮＲ）及びカラーミスマッチの形態の主観的品質が低下する可能性が高いことを意味する。

この問題に対処するために、本発明では、奥行き探索プロセスを拡張して、Ｙのルミナンス成分並びにＵ及びＶのクロミナンス成分を用いる。Ｙ成分のみを用いた場合、予測誤差を最小化することによりブロックが参照フレームにおいて良好な一致を見付ける可能性があるが、これらの２つの一致領域は２つの完全に異なる色である可能性があるため、視覚アーチファクトが生じる可能性がある。したがって、Ｕ及びＶの予測及び再構成の品質は、奥行き探索プロセスにＵ成分及びＶ成分を組み込むことによって高めることができる。

ＲＤモード決定
モード決定は、次のように定義されるラグランジュコスト関数Ｊ_ｍｏｄｅを最小化するｍｂ＿ｔｙｐｅを選択することによって行うことができる。

ここで、Ｘ_ｐは、参照ＭＢ、すなわち、合成マルチビュー参照、純粋なマルチビュー参照又は時間参照のＭＢ内の画素の値を指し、Ｒ_{ｓｉｄｅ−ｉｎｆｏ}は、参照フレームのタイプにより、参照インデックス及び奥行き値／補正値を符号化するビットレート、又は動きベクトルを含む。

上述した方法は、マルチビュービデオに対応する奥行き画像が入力データの一部であると仮定していない。奥行き画像が、符号化及び復号化されるコンテンツの一部である場合、奥行き画像用のレートは、サイド情報レートの一部としてカウントされるべきではない。すなわち、Ｒ_{ｓｉｄｅ−ｉｎｆｏ}は、上記ラグランジュコスト関数から取り除かれる。

サイド情報のＣＡＢＡＣによる符号化
本発明では、各合成ＭＢがＲＤモード決定により最良の参照として選択される場合に、そのＭＢの奥行き値及び補正ベクトルを符号化しなければならないことに留意されたい。奥行き値及び補正ベクトルの両方が、連結単項／三次指数ゴロム（ｃｏｎｃａｔｅｎａｔｅｄｕｎａｒｙ／３^ｒｄ−ｏｒｄｅｒＥｘｐ−Ｇｏｌｏｍｂ）（ＵＥＧ３）２値化を用いて、ｓｉｇｎｅｄＶａｌＦｌａｇ＝１とし、カットオフパラメータｕＣｏｆｆ＝９として、動きベクトルと全く同様に量子化される。

次に、結果として得られる２進表現のビンに異なる文脈モデルを割り当てる。奥行き及び補正ベクトル成分に対するｃｔｘＩｄｘＩｎｃの割り当ては基本的に、ＩＴＵ−Ｔ勧告Ｈ．２６４及びＩＳＯ／ＩＥＣ１４４９６−１０（ＭＰＥＧ−４）ＡＶＣ「ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇｆｏｒＧｅｎｅｒｉｃＡｕｄｉｏｖｉｓｕａｌＳｅｒｖｉｃｅｓ」（第３版、２００５年）（引用することにより本明細書中の一部をなす）の表９−３０に規定されるような動きベクトルの場合と同じである。ただし本発明では、節（ｓｕｂｃｌａｕｓｅ）９．３．３．１．１．７を１番目のビンに適用しない。

本実施形態では、動きベクトルと同じ予測方式を用いて奥行き値及び補正ベクトルを予測符号化する。ＭＢ又は８×８という小さいサイズのサブＭＢが、時間フレーム、マルチビューフレーム、又は合成マルチビューフレームからの独自の参照ピクチャを持つことができるため、サイド情報のタイプはＭＢごとに異なり得る。これは、同一の参照ピクチャを有する近傍ＭＢの数が少なくなる可能性があることを示唆し、サイド情報（動きベクトル又は奥行き／補正ベクトル）の予測効率が低くなる可能性がある。

合成参照を用いるためにサブＭＢが選択されるが、同じ参照を有するＭＢが周囲にない場合、予測を用いずにその奥行き／補正ベクトルを個別にコーディングする。実際に、固定長表現を用いて補正ベクトル成分を２値化した後に、結果として得られたビンをＣＡＢＡＣ符号化すれば十分である場合が多いことが分かった。これは、合成参照を用いるために選択されるＭＢは孤立している傾向がある、すなわち、それらのＭＢには同一参照ピクチャを有する近傍ＭＢがなく、補正ベクトルは通常、動きベクトルの場合に比べて近傍との相関が低いためである。

構文及び意味
上述のように、本発明では、時間参照及び純粋なマルチビュー参照に加えて合成参照ピクチャを組み込む。上記では、上記で参照したＨ．２６４／ＡＶＣ規格における既存の参照ピクチャリスト管理と互換性のあるマルチビュー参照ピクチャリスト管理方法を説明した。

本実施形態における合成参照は、マルチビュー参照の特別な場合として見なされるため、全く同様に処理される。

本明細書では、マルチビューの識別及び予測構造を記述するために、ｖｉｅｗ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔと呼ばれる新たな高レベルの構文要素を定義する。パラメータをわずかに修正することにより、現参照ピクチャが合成タイプのものであるか否かを識別することができる。したがって、所与の（サブ）ＭＢの奥行き／補正ベクトル又は動きベクトルを参照のタイプに応じて復号化することができる。したがって、マクロブロックレベルの構文を付録Ａに規定するように拡張することによって、この新たなタイプの予測の使用を統合することができる。

スキップモード
従来のスキップモードでは、動きベクトル情報及び参照インデックスは、同じ場所にあるマクロブロック又は近傍マクロブロックから導出される。ビュー合成に基づくビュー間予測を考えると、その同じ場所にあるマクロブロック又は近傍マクロブロックから奥行きベクトルの情報及び補正ベクトルの情報を導出する類似のモードも同様に考えられる。この新たな符号化モードを合成スキップモードと呼ぶ。

Ｐスライス及びＢスライスの両方に適用される、図２３に示すような従来のスキップモードでは、残差データは現マクロブロック（Ｘ）２３１１のために符号化されない。Ｐスライスにおけるスキップのために、参照リスト２３０１内の第１のエントリー２３０４が情報を予測及び導出するための参照として選択され、一方でＢスライスにおけるスキップのために、近傍マクロブロック（Ａ、Ｂ、Ｃ）２３１２〜２３１４の中から参照リスト２３０１内の最初のエントリー２３０５が情報を予測及び導出するための参照として選択される。

例えば図１１に示すように、ビュー合成参照ピクチャが参照ピクチャリスト内の第１のエントリーとして順序付けられていないと仮定すると、Ｐスライス及びＢスライスの両方におけるスキップモードのための参照ピクチャは決して既存の構文、及び以下の従来の復号化プロセスによるビュー合成ピクチャではない。しかし、ビュー合成ピクチャは視差補償ピクチャ又は動き補償ピクチャと比較してより良好な品質を提供することができるため、ビュー合成参照ピクチャに基づくスキップモードを可能にする、既存の構文及び復号化プロセスに対する変更を説明する。

ビュー合成参照に関してスキップモードを利用するために、既存のｍｂ＿ｓｋｉｐ＿ｆｌａｇに対する修正によってシグナリングされる（ｓｉｇｎａｌｅｄ）合成スキップモードを提供する。現時点で、既存のｍｂ＿ｓｋｉｐ＿ｆｌａｇが１に等しい場合、マクロブロックはスキップされ、既存のｍｂ＿ｓｋｉｐ＿ｆｌａｇが０に等しい場合、マクロブロックはスキップされない。

第１の実施形態では、ｍｂ＿ｓｋｉｐ＿ｆｌａｇが１に等しい場合に付加的なビットが追加され、従来のスキップモードと新たな合成スキップモードとが区別される。付加的なビットが１に等しい場合、これは合成スキップモードをシグナリングし、そうではなく付加的なビットが０に等しい場合、従来のスキップモードが用いられる。

上記のシグナリング方式は、スキップされるマクロブロックの数が少ない傾向にある、比較的高いビットレートで良好に動作する。しかし、低いビットレートでは、従来のスキップモードがより頻繁に起動されると予測される。したがって、合成スキップモードを含むシグナリング方式は、従来のスキップをシグナリングする付加的なオーバヘッドを負うべきではない。第２の実施形態では、ｍｂ＿ｓｋｉｐ＿ｆｌａｇが０に等しい場合に付加的なビットが追加され、従来の非スキップモードと新たな合成スキップモードとが区別される。付加的なビットが１に等しい場合、これは合成スキップモードをシグナリングし、そうではなく付加的なビットが０に等しい場合、従来の非スキップモードが用いられる。

スライス又はピクチャのために高い割合の合成スキップモードが選択される場合、マクロブロックごとに合成スキップモードをシグナリングするオーバヘッドを低減することによって、全体の符号化効率を高めることができる。第３の実施形態では、合成スキップモードはスライス内の全てのマクロブロックにまとめてシグナリングされる。これは、ビットストリームのスライス層構文に含まれるｓｌｉｃｅ＿ｓｋｉｐ＿ｆｌａｇによって達成される。このｓｌｉｃｅ＿ｓｋｉｐ＿ｆｌａｇのシグナリングは、第１の実施形態及び第２の実施形態において説明したｍｂ＿ｓｋｉｐ＿ｆｌａｇと一致する。

図２４に示されるように、合成スキップモードがＰスライスにシグナリングされる場合、参照ピクチャリスト２４０１内の第１のビュー合成参照ピクチャ２４０２が、従来のスキップの場合の参照ピクチャリスト２３０１内の第１のエントリー２３０４の代わりに参照として選択される。合成スキップモードがＢスライスにシグナリングされる場合、参照ピクチャリスト２４０１内の最初のビュー合成参照ピクチャ２４０３が、従来のスキップの場合の参照ピクチャリスト２３０１内の最初のエントリー２３０５の代わりに参照として選択される。

参照情報は、近傍境界Ａ２３１２、Ｂ２３１３、及びＣ２３１４から導出される。マルチビュービデオに対応する奥行き画像が入力データの一部でなく、奥行き値が境界ごとに推定される１つの実施形態では、合成スキップモード用の奥行き及び補正ベクトルの情報は、次のように導出される。

奥行きベクトルｄｐｔｈＬＸＮは３つの成分（Ｄｅｐｔｈ、ＣｏｒｒＸ、ＣｏｒｒＹ）を含み、Ｄｅｐｔｈは境界に関連する奥行きを表すスカラー値であり、ＣｏｒｒＸ及びＣｏｒｒＹはそれぞれ、境界に関連する補正ベクトルの水平成分及び垂直成分である。奥行きベクトルが導出される現境界の参照インデックスｒｅｆＩｄｘＬＸが、上記で説明したように、現スライスがＰスライス又はＢスライスのいずれであるかに応じて、第１のビュー合成参照ピクチャ又は最初のビュー合成参照ピクチャとして割り当てられる。

このプロセスに対する入力は、近傍境界Ａ２３１２、Ｂ２３１３及びＣ２３１４、ｄｐｔｈＬＸＮ（ＮはＡ、Ｂ又はＣに置き換えられる）と記される、近傍境界のそれぞれの奥行きベクトル、近傍境界の参照インデックスｒｅｆＩｄｘＬＸＮ（ＮはＡ、Ｂ又はＣに置き換えられる）、並びに現境界の参照インデックスｒｅｆＩｄｘＬＸである。

このプロセスの出力は奥行きベクトル予測ｄｐｔｈｐＬＸである。変数ｄｐｔｈｐＬＸは以下のように導出される。近傍境界Ｂ２３１３も近傍境界Ｃ２３１４も利用可能でなく、かつ近傍境界Ａ２３１２が利用可能である場合、以下の割り当てが適用される：ｄｐｔｈＬＸＢ＝ｄｐｔｈＬＸＡかつｄｐｔｈＬＸＣ＝ｄｐｔｈＬＸＡ、ｒｅｆＩｄｘＬＸＢ＝ｒｅｆＩｄｘＬＡかつｒｅｆＩｄｘＬＸＣ＝ｒｅｆＩｄｘＬＡ。

ｒｅｆＩｄｘＬＸＮが、参照インデックスｒｅｆＩｄｘＬＸを有する合成マルチビュー参照ピクチャが合成されるマルチビュー参照ピクチャの参照インデックスである場合、ｒｅｆＩｄｘＬＸＮはｒｅｆＩｄｘＬＸに等しいと考えられ、その関連する奥行きベクトルｄｐｔｈＬＸＮは、視差を参照インデックスｒｅｆＩｄｘＬＸＮを有する参照ピクチャから参照インデックスｒｅｆＩｄｘＬＸを有する参照ピクチャに関連する等価の奥行きベクトルに変換することによって導出される。

参照インデックスｒｅｆＩｄｘＬＸＡ、ｒｅｆＩｄｘＬＸＢ又はｒｅｆＩｄｘＬＸＣに応じて、以下が適用される。参照インデックスｒｅｆＩｄｘＬＸＡ、ｒｅｆＩｄｘＬＸＢ又はｒｅｆＩｄｘＬＸＣのうちのただ１つが現境界の参照インデックスｒｅｆＩｄｘＬＸに等しい場合、以下が適用される。ｒｅｆＩｄｘＬＸＮをｒｅｆＩｄｘＬＸに等しい参照インデックスとし、奥行きベクトルｄｐｔｈＬＸＮは奥行きベクトル予測ｄｐｔｈｐＬＸに割り当てられる。そうでない場合、奥行きベクトル予測ｄｐｔｈｐＬＸの各成分は、奥行きベクトルｄｐｔｈＬＸＡ、ｄｐｔｈＬＸＢ及びｄｐｔｈＬＸＣの対応するベクトル成分の平均によって与えられる。

別の実施形態では、マルチビュービデオに対応する奥行き画像は、入力データの一部であり、このデータは、ビットストリームの一部として符号化される。したがって、導出される参照情報は、参照ピクチャインデックスｒｅｆＩｄｘＬＸ及び動きベクトル（Ｘ，Ｙ）を含む。

導出プロセスの２つの例を図２６及び図２７に関して説明する。

双方の例について、入力は、ＳＫＩＰタイプ、近傍境界Ａ２３１２、Ｂ２３１３、及びＣ２３１４、これらの近傍境界のそれぞれの基準インデックスｒｅｆＩｄｘＬＸＮ、並びに動きベクトル（ＸＮ，ＹＮ）である。ここで、Ｎは、Ａ、Ｂ、又はＣに等しい。このプロセスの出力は、現境界の参照ピクチャインデックスｒｅｆＩｄｘＬＸ及び動きベクトル（Ｘ，Ｙ）である。

１つの実施形態が図２６に示されている。この手順は、マクロブロック（ＭＢ）インデックスを設定し（２６０２）、ヘッダーをパースする（２６０３）ことによって開始する（２６０１）。ＭＢが、スキップしないことを示している場合（２６１０）、非スキップＭＢを復号化し（２６２０）、更にＭＢを処理する必要があるか否かを判断し（２６７０）、処理する必要がない場合には終了する（２６８０）。処理する必要がある場合、ＭＢインデックスをインクリメントする（２６７１）。

Ｓｋｉｐ＿Ｔｙｐｅが０である場合（２６３０）、ＲｅｆＩｄｘＬＸが第１の合成参照ピクチャを指し示すように設定し（２６４０）、動きベクトル（Ｘ，Ｙ）をゼロベクトルとなるように設定し（２６５０）、導出されたＲｅｆＩｄｘＬＸ及び動きベクトル（Ｘ，Ｙ）を用いて予測を行い（２６６０）、２６７０に続く。

０でない場合、近傍Ａ、Ｂ、及びＣから参照ピクチャインデックスＲｅｆＩｄｘＬＸ、動きベクトル（Ｘ，Ｙ）を導出し（２６２１）、２６６０に続く。

図２７に示す別の実施形態では、ＳＫＩＰ＿Ｔｙｐｅは異なって解釈される。これは、２つの値のうちの一方とすることができ、値０は従来のＳＫＩＰを示し、値１は、適応基準ＳＫＩＰを示し、これらは、前に説明したようにシグナリングすることができる。値０の場合、ｒｅｆＩｄｘＬＸ及び動きベクトル（Ｘ，Ｙ）は、従来の方法で近傍境界から導出される（２７２０）。合成参照ピクチャが近傍境界によって選択される場合、合成ピクチャは、この手順において選択することができることに留意されたい。換言すれば、値０は、ＳＫＩＰモード用の従来の復号化プロセスを変更せずに維持することになる。この設計を用いると、予測方法は、非合成基準を参照するのか又は合成基準を参照するのかにかかわらず、後続の境界に容易に伝わることができる。

一方、値１は、以下で定義するような適応基準スキップモード用の新たなプロセスを起動する。基準インデックスｒｅｆＩｄｘＬＸが、近傍境界から最初に導出される。ｒｅｆＩｄｘＬＸが、合成参照ピクチャを指し示している場合（２７４０）、ｒｅｆＩｄｘＬＸは、時間参照ピクチャ又はビュー間（空間）参照ピクチャのいずれかである第１の非合成参照ピクチャを指し示すように強制される（２７５０）。そうでない場合、ｒｅｆＩｄｘＬＸは、リスト内の第１の合成参照ピクチャを指し示すように変更される（２７４５）。ＭＶ予測子は、ゼロベクトルに常に設定される。換言すれば、値１は、近傍境界からの導出された予測方法を変更するトリガーとしての機能を果たす。

この実施形態によると、ＳＫＩＰモードを有する合成予測又は非合成予測を直接シグナリングするのではなく、予測方法を後続の境界に伝える手段又は予測方法を変更する手段が可能になる。

ダイレクトモード
スキップモードと同様に、Ｂスライスのための従来のダイレクトモードもまた、近傍マクロブロックから動きベクトル情報及び参照インデックスを導出する。ダイレクトモードは残差データも存在する点でスキップモードと異なる。合成スキップモードを提供するのと同じ理由から、本発明では合成ダイレクトモード及び適応基準ダイレクトモードと呼ぶ、ダイレクトモードの類似の拡張も説明する。

従来のダイレクトモードを起動するために、マクロブロックは非スキップとしてコーディングされる。次に、ダイレクトモードを１６×１６マクロブロック及び８×８マクロブロックの両方に適用することができる。これらのダイレクトモードの両方は、マクロブロックモードとしてシグナリングされる。

別の実施形態では、合成ダイレクトモードをシグナリングする方法は、候補マクロブロックモードのリストに付加的なモードを追加することによって行われる。

第２の実施形態では、合成ダイレクトモードすなわち適応基準ダイレクトモードをシグナリングする方法は、１６×１６マクロブロック又は８×８マクロブロックが合成ダイレクトモードすなわち適応基準ダイレクトモードとしてコーディングされることを示す付加的なフラグをシグナリングすることによって行われる。

合成ダイレクトモードがＢスライスにシグナリングされる場合、参照ピクチャリスト内の最初のビュー合成参照ピクチャが従来のダイレクトモードの場合の参照ピクチャリスト内の最初のエントリーの代わりに参照として選択される。

適応基準ダイレクトモードがＢスライスにシグナリングされるとともに、導出された参照ピクチャインデックスが非合成参照ピクチャに関連付けられているとき、従来のダイレクトモードの場合における参照ピクチャリスト内の最初のエントリーではなく、参照ピクチャリスト内の最初のビュー合成参照ピクチャが参照として選択される。

他方、適応基準ダイレクトモードがＢスライスにシグナリングされるとともに、導出された参照ピクチャインデックスが合成参照ピクチャに関連付けられているとき、参照ピクチャリスト内の最初の非合成参照ピクチャが参照ピクチャとして選択される。

入力データの一部として利用可能なマルチビュービデオに対応する奥行き画像が存在するか否かにかかわらず、奥行き及び補正ベクトルの情報を導出するための、合成スキップモードと同じプロセスが、合成ダイレクトモードの場合に行われる。同様に、適応基準スキップモードと同じ、参照ピクチャインデックス情報を導出するプロセスが適応基準ダイレクトモードについて行われる。

奥行き画像が複数の視点に利用可能である用途では、複数の奥行きマップをマルチビューカラービデオと同様の方法で符号化することができる。合成ピクチャを参照として用いる本発明において説明したプロセスは、第２の奥行きマップを符号化するのに適用することもできる。すなわち、第１の視点からの奥行きマップを、それ自体のデータを用いて第２の視点にワープさせて、合成奥行き画像を生成することができる。その後、この合成奥行き画像は、第２の奥行き画像を符号化及び復号化するために参照ピクチャとして用いられる。

付録Ａ

節７．４．５．１マクロブロック予測の意味の補足
ｄｅｐｔｈｄ＿ｌ０［ｍｂＰａｒｔＩｄｘ］［０］は、使用される奥行き値とその予測との間の差を指定する。インデックスｍｂＰａｒｔＩｄｘは、どのマクロブロック境界にｄｅｐｔｈｄ＿ｌ０を割り当てるのかを指定する。マクロブロックの分割はｍｂ＿ｔｙｐｅにより指定される。
ｄｅｐｔｈｄ＿ｌ１［ｍｂＰａｒｔＩｄｘ］［０］は、ｄｅｐｔｈｄ＿ｌ０と同じ意味を有し、ｌ０がｌ１に置き換わっている。
ｃｏｒｒ＿ｖｄ＿ｌ０［ｍｂＰａｒｔＩｄｘ］［０］［ｃｏｍｐＩｄｘ］は、使用される補正ベクトル成分とその予測との間の差を指定する。インデックスｍｂＰａｒｔＩｄｘは、どのマクロブロック境界にｃｏｒｒ＿ｖｄ＿ｌ０を割り当てるのかを指定する。マクロブロックの分割はｍｂ＿ｔｙｐｅにより指定される。水平方向の補正ベクトル成分の差が復号化順で最初に復号化され、ＣｏｍｐＩｄｘ＝０が割り当てられる。垂直方向の補正ベクトル成分が復号化順で次に復号化され、ＣｏｍｐＩｄｘ＝１が割り当てられる。
ｃｏｒｒ＿ｖｄ＿ｌ１［ｍｂＰａｒｔＩｄｘ］［０］［ｃｏｍｐＩｄｘ］は、ｃｏｒｒ＿ｖｄ＿ｌ０と同じ意味を有し、ｌ０がｌ１に置き換わっている。

節７．４．５．２サブマクロブロック予測の意味の補足
ｄｅｐｔｈｄ＿ｌ０［ｍｂＰａｒｔＩｄｘ］［ｓｕｂＭｂＰａｒｔＩｄｘ］はｄｅｐｔｈｄ＿ｌ０と同じ意味を有するが、ただし、ｓｕｂＭｂＰａｒｔＩｄｘを有するサブマクロブロック境界インデックスに適用される。インデックスｍｂＰａｒｔＩｄｘ及びｓｕｂＭｂＰａｒｔＩｄｘは、どのマクロブロック境界及びサブマクロブロック境界にｄｅｐｔｈｄ＿ｌ０を割り当てるのかを指定する。
ｄｅｐｔｈｄ＿ｌ１［ｍｂＰａｒｔＩｄｘ］［ｓｕｂＭｂＰａｒｔＩｄｘ］はｄｅｐｔｈｄ＿ｌ０と同じ意味を有し、ｌ０がｌ１に置き換わっている。
ｃｏｒｒ＿ｖｄ＿ｌ０［ｍｂＰａｒｔＩｄｘ］［ｓｕｂＭｂＰａｒｔＩｄｘ］［ｃｏｍｐＩｄｘ］は、ｃｏｒｒ＿ｖｄ＿ｌ０と同じ意味を有するが、ただし、ｓｕｂＭｂＰａｒｔＩｄｘを有するサブマクロブロック境界インデックスに適用される。インデックスｍｂＰａｒｔＩｄｘ及びｓｕｂＭｂＰａｒｔＩｄｘは、どのマクロブロック境界及びサブマクロブロック境界にｃｏｒｒ＿ｖｄ＿ｌ０を割り当てるのかを指定する。
ｃｏｒｒ＿ｖｄ＿ｌ１［ｍｂＰａｒｔＩｄｘ］［ｓｕｂＭｂＰａｒｔＩｄｘ］［ｃｏｍｐＩｄｘ］はｃｏｒｒ＿ｖｄ＿ｌ１と同じ意味を有し、ｌ０がｌ１に置き換わっている。

ビューパラメータ集合の意味の補足
ｍｕｌｔｉｖｉｅｗ＿ｔｙｐｅが１である場合、現ビューが他のビューから合成されることを指定する。ｍｕｌｔｉｖｉｅｗ＿ｔｙｐｅが０である場合、現ビューが合成されたものではないことを示す。
ｍｕｌｔｉｖｉｅｗ＿ｓｙｎｔｈ＿ｒｅｆ０は、合成に用いられる第１のビューのインデックスを指定する。
ｍｕｌｔｉｖｉｅｗ＿ｓｙｎｔｈ＿ｒｅｆ１は、合成に用いられる第２のビューのインデックスを指定する。

Claims

シーンのマルチビュービデオを処理する方法であって、各ビデオは、特定の姿勢に配置された対応するカメラによって取得され、各カメラのビューは、少なくとも１つの他のカメラの前記ビューと重なり、前記方法は、
前記マルチビュービデオの特定のビューを合成するサイド情報を取得するステップと、
前記マルチビュービデオ及び前記サイド情報から合成マルチビュービデオを合成するステップと、
前記マルチビュービデオのそれぞれの各現フレーム用の参照ピクチャリストを保持するステップであって、前記参照ピクチャリストは、取得された前記マルチビュービデオの時間参照ピクチャ及び空間参照ピクチャと、前記合成マルチビュービデオの前記合成参照ピクチャとをインデックス付けする、ステップと、
適応基準スキップモード又は適応基準ダイレクトモードによって、関連する前記参照ピクチャリストによりインデックス付けされた参照ピクチャに基づいて、前記マルチビュービデオの各現フレームを予測するステップと、を含み、
前記適応基準スキップモード及び前記適応基準ダイレクトモードは、複数の前記参照ピクチャのうちの１つを用いるものであって、指示された前記参照ピクチャが前記合成参照ピクチャの場合は前記合成参照ピクチャ以外の参照ピクチャを指示するよう変更するとともに、指示された前記参照ピクチャが前記合成参照ピクチャ以外の参照ピクチャの場合は前記合成参照ピクチャを指示するよう変更する、
シーンのマルチビュービデオを処理する方法。
前記適応基準スキップモードによってインデックス付された参照ピクチャは、前記合成参照ピクチャに関連する、請求項１に記載の方法。
前記適応基準スキップモードによってインデックス付された参照ピクチャは、時間参照ピクチャに関連する、請求項１に記載の方法。
前記適応基準スキップモードによってインデックス付された参照ピクチャは、空間参照ピクチャに関連する、請求項１に記載の方法。
前記適応基準スキップモードは付加的なビットを追加することによってシグナリングされる、請求項１に記載の方法。
前記付加的なビットは、ｍｂ＿ｓｋｉｐ＿ｆｌａｇが１に等しいときに追加される、請求項５に記載の方法。
前記適応基準スキップモードは或るスライス層においてシグナリングされ、前記スライス内の全てのマクロブロックに前記適応基準スキップモードがまとめてシグナリングされる、請求項２に記載の方法。
近傍ブロックの前記参照ピクチャインデックスを用いて、各現フレームのブロックの前記参照ピクチャインデックスを導出することを更に含む、請求項１に記載の方法。
前記適応基準スキップモードは、Ｐスライス用にシグナリングされ、前記導出された参照ピクチャインデックスが非合成参照ピクチャに関連付けられている場合、前記参照ピクチャリスト内の第１の合成参照ピクチャが前記参照ピクチャとして選択される、請求項８に記載の方法。
前記適応基準スキップモードは、Ｂスライス用にシグナリングされ、前記導出された参照ピクチャインデックスが非合成参照ピクチャに関連付けられている場合、前記参照ピクチャリスト内の最初の合成参照ピクチャが前記参照ピクチャとして選択される、請求項８に記載の方法。
前記適応基準スキップモードは、Ｐスライス用にシグナリングされ、前記導出された参照ピクチャインデックスが合成参照ピクチャに関連付けられている場合、前記参照ピクチャリスト内の第１の非合成参照ピクチャが前記参照ピクチャとして選択される、請求項８に記載の方法。
前記適応基準スキップモードは、Ｂスライス用にシグナリングされ、前記導出された参照ピクチャインデックスが合成参照ピクチャに関連付けられている場合、前記参照ピクチャリスト内の最初の非合成参照ピクチャが前記参照ピクチャとして選択される、請求項８に記載の方法。
前記適応基準ダイレクトモードによってインデックス付された参照ピクチャは、前記合成参照ピクチャに関連する、請求項１に記載の方法。
前記適応基準ダイレクトモードによってインデックス付された参照ピクチャは、時間参照ピクチャに関連する、請求項１に記載の方法。
前記適応基準ダイレクトモードによってインデックス付された参照ピクチャは、空間参照ピクチャに関連する、請求項１に記載の方法。
前記適応基準ダイレクトモードは付加的なビットを追加することによってシグナリングされる、請求項１に記載の方法。
前記適応基準ダイレクトモードは或るスライス層においてシグナリングされ、前記スライス内の全てのマクロブロックに前記適応基準ダイレクトモードがまとめてシグナリングされる、請求項１に記載の方法。
前記適応基準ダイレクトモードは、Ｂスライス用にシグナリングされ、前記導出された参照ピクチャインデックスが非合成参照ピクチャに関連付けられている場合、前記参照ピクチャリスト内の最初の合成参照ピクチャが前記参照ピクチャとして選択される、請求項８に記載の方法。
前記適応基準ダイレクトモードは、Ｂスライス用にシグナリングされ、前記導出された参照ピクチャインデックスが合成参照ピクチャに関連付けられている場合、前記参照ピクチャリスト内の最初の非合成参照ピクチャが前記参照ピクチャとして選択される、請求項８に記載の方法。
前記サイド情報は、奥行き値を含む、請求項１に記載の方法。
前記サイド情報はエンコーダーにおいて得られる、請求項１に記載の方法。
前記サイド情報はデコーダーにおいて得られる、請求項１に記載の方法。
シーンのマルチビュービデオを処理するシステムであって、
複数のカメラであって、各カメラは、シーンのマルチビュービデオを取得するように構成され、各カメラは、特定の姿勢に配置され、各カメラのビューは、少なくとも１つの他のカメラの前記ビューと重なる、複数のカメラと、
前記マルチビュービデオの特定のビューを合成するサイド情報を取得する手段と、
前記マルチビュービデオ及び前記サイド情報から合成マルチビュービデオを合成する手段と、
前記マルチビュービデオのそれぞれの各現フレーム用の参照ピクチャリストを保持するように構成されたメモリバッファーであって、前記参照ピクチャリストは、取得された前記マルチビュービデオの時間参照ピクチャ及び空間参照ピクチャと、前記合成マルチビュービデオの前記合成参照ピクチャとをインデックス付けする、メモリバッファーと、
適応基準スキップモード又は適応基準ダイレクトモードによって、関連する前記参照ピクチャリストによりインデックス付けされた参照ピクチャに基づいて、前記マルチビュービデオの各現フレームを予測する手段と、を備え、
前記適応基準スキップモード及び前記適応基準ダイレクトモードは、複数の前記参照ピクチャのうちの１つを用いるものであって、指示された前記参照ピクチャが前記合成参照ピクチャの場合は前記合成参照ピクチャ以外の参照ピクチャを指示するよう変更するとともに、指示された前記参照ピクチャが前記合成参照ピクチャ以外の参照ピクチャの場合は前記合成参照ピクチャを指示するよう変更する、
シーンのマルチビュービデオを処理するシステム。