JP7012642B2

JP7012642B2 - アーチファクトを意識したビュー合成のための補助データ

Info

Publication number: JP7012642B2
Application number: JP2018523453A
Authority: JP
Inventors: チョウチャン，シン; グアーンウェイ，シー
Original assignee: Versitech Ltd
Current assignee: Versitech Ltd
Priority date: 2015-11-09
Filing date: 2016-11-07
Publication date: 2022-01-28
Anticipated expiration: 2036-11-07
Also published as: JP2019502295A; CN108475330A; WO2017080420A1; CN108475330B; US20170188002A1; US10404961B2

Description

［関連特許出願の相互参照］
本出願は、引用することによりその全体が本明細書の一部をなす、２０１５年１１月９日に出願された米国仮特許出願第６２／２８５，８２５号の利益を主張する。

本発明は、２次元テクスチャー画像及び補助データに基づく３次元画像の改善したレンダリングに関する。

今日の視覚コンテンツのほとんどは、依然として、２次元（２Ｄ）画像、又は２Ｄ画像のシーケンスの形態のビデオの形態をとる。通常、これらの従来の画像及びビデオは、単なる拡大／スケーリング又は単純なシフト以外の、観測者の観点又は視点における変化をサポートしない。しかしながら、ステレオ画像又は３次元（３Ｄ）画像を提供する新たな表示技術がより利用可能になっている。これらは、通常、アクティブシャッター又はパッシブ偏光眼鏡のいずれかにより達成される。

また、最近では、眼鏡を必要としない、高分解能のオートステレオスコピックディスプレイがより利用可能になっている。そのようなオートステレオスコピックディスプレイへの入力は、通常、ｉ）ビデオ内の各ピクセルの深度を記述するビデオ画像＋深度マップ、又はｉｉ）マルチビュービデオと呼ばれる場合もある隣接する視点におけるビデオの組であり、隣接するビューは或る特定のフォーマットで画像フレーム上に多重化されている。オートステレオスコピックディスプレイのレンチキュラーレンズ又はパララックスバリアは、空間的フィルタリングを行い、或る特定の視認位置にいるユーザーが、自身の左眼及び右眼でそれぞれ２つの異なる画像を見ることができるようにし、これにより３Ｄ知覚を生成する。

従来の２Ｄ画像又はビデオを３Ｄディスプレイにおいて表示するには、シーンの別のビューの生成が必要である。他方で、オートステレオスコピックディスプレイにおける３Ｄビデオのディスプレイは、深度マップの生成、又は所望のフレームフォーマットに多重化されることになる適切なマルチビュービデオの作成のいずれかを必要とする。

これらの追加のビューの生成を容易にする１つの方法は、ビデオを、対応する深度マップ又はそれらの近似バージョンを用いて拡張することである。深度マップは、カメラの光学点からの観測可能なシーン点の距離を記録する画像（又は、定期的な時間間隔で撮られた場合のビデオ）である。これらは、同じ位置において撮られたカラー画像又はビデオにおける関連付けられたカラーピクセルの、シーンにおける深度を特定することによって、これらのカラーピクセルに追加の情報を与える。深度マップの１つの用途は、カラー画像又はビデオ（テクスチャーとも呼ばれる）からシーンの新たなビューを合成することである。深度マップを、隣接する空間ロケーションにおいて取得して、マルチビュー深度画像又はビデオを形成することもできる。テクスチャー又はカラービデオと共に、撮像ロケーションの周りの新たな仮想ビューを合成することができる。引用することによりその全体が本明細書の一部をなす、S. C. Chan他「Image-based rendering and synthesis」IEEE Signal Processing Magazine, vol.24, pp. 22-33, (2007)、並びにS. C. Chan及びZ. F. Gan他「An object-based approach to image-based synthesis and processing for 3-D and multiview televisions」IEEE Trans. Circuits Syst. Video Technology., vol. 19, no. 6, pp. 821-831, (Jun. 2009)を参照されたい。これらの合成ビューは、適切に生成される場合、従来の２Ｄ、ステレオ又はオートステレオスコピックディスプレイにおけるコンテンツの表示をサポートし、限られた視点変更をもたらす。

従来のビデオの場合、深度マップを用いて各画像フレームを拡張することにより、結果として、追加の深度ビデオが得られ、フォーマットは、場合によっては、２Ｄ＋深度表現と呼ばれる。ビデオ及び深度がどのようにまとめられるかにより、異なるフォーマットがもたらされる。ホワイトペーパーである非特許文献１において、２Ｄ＋深度フォーマットは、ビデオ及び深度画像を、オートステレオスコピックディスプレイに対する物理的入力インターフェースとして、フレーム内に共に並べてパッケージングする。入力フレームが、前景オブジェクトによって遮蔽された背景及びその深度値をそれぞれ記憶する２つの追加のサブフレームを有する４つの象限に更に分割される、「ＷＯＷｖｘｄｅｃｌｉｐｓｅ」フォーマットと呼ばれる拡張バージョンが存在する。形状情報は存在せず、このため、遮蔽エリアをレンダリング中に埋めることができるように、正確な深度マップに依拠して前景オブジェクトの境界を位置特定する可能性が高い。これは、深度マップの取得又は圧縮に起因して、誤差が生じやすい場合がある。また、オブジェクトの遮蔽された背景全体が必要とされるが、これは通例、遮蔽エリア数が深度及び最大ビュー範囲に依拠するため、不要である。通例、大きな深度不連続部を有する重要なオブジェクトのみが遮蔽される必要があり、小さな遮蔽は、「インペインティング」(修復)によって処理することができる。インペインティング（画像補間又はビデオ補間としても知られる）は、高度なアルゴリズムの適用により、画像データの失われた又は破損した部分を置き換える（主に、小さな領域を置き換えるか、又は小さな欠陥を除去する）ことを指す。この表現の最も大きな制限は、半透明のオブジェクトをオブジェクトとして扱うことができないか、又は背景が完全に遮蔽されていると仮定されることである。また、４象限表現は、全ての主要なビデオ及び深度の分解能を大幅に制限する。ここで、２Ｄ＋深度フォーマット又は表現は、ビュー合成のためのビデオ及び深度双方の使用を指し、Philipsのホワイトペーパーにおいて用いられる物理的フォーマットに限定されない。

３Ｄビデオの場合、ステレオビデオ内の各ビデオは、深度ビデオを用いて拡張(augment)することができる。ＨＥＶＣ－３Ｄにおいて、２つ以上のビデオがそれぞれの深度マップと共に符号化される。引用することによりその全体が本明細書の一部をなす、G. Tech他「3D-HEVC draft text 1」Proceedings of the 5th Meeting of Joint Collaborative Team on 3D Video Coding Extensions (JCT-3V), Document JCT3V-E1001, Vienna, Austria, August 2013)を参照されたい。そのようなマルチビデオ＋深度フォーマットを用いる主要な動機は、２つの隣接するビデオ＋深度ビデオからの新たなビューを合成することである。ビデオ及び深度は、ＨＥＶＣ－３Ｄコーデックを用いて圧縮及び解凍されなくてはならない。他のフォーマットで符号化されたビデオは、深度マップと共に新たなＨＥＶＣ－３Ｄフォーマットにコード変換されなくてはならない。ビュー合成機能のための用途のうちの１つは、５つ又は更に多くの数のビューを通常必要とするオートステレオスコピックディスプレイをサポートするための複数のビューを生成することである。

現在のところ、そのような用途には２つの重要な問題、すなわち、（１）深度不連続部におけるテクスチャー及び深度の一貫性、及び（２）遮蔽除去エリアのインペインティングによるアーチファクト、が存在する。

複数のビデオ及び深度マップを用いたビュー合成の品質は、深度マップの品質に大きく依拠する。ビュー間の深度不連続部の不正確なアライメント、及びテクスチャーと深度不連続部との間の非一貫性により、通例、オブジェクト境界の周りに深刻なレンダリングアーチファクトが生じる。これらの難点を回避するのに必要な正確度は、深度マップの限られた正確度、及びデータ圧縮後に生じる歪みに起因して、通常、達成するのが困難である。テクスチャーと深度不連続部との一貫性も、一般的な２Ｄ＋深度表現には不可欠である。なぜなら、これらが適切に扱われない場合、結果として重大なアーチファクトが生じることになるためである。

アーチファクトは、ビュー合成中に、遮蔽除去エリア及び画像＋深度表現のインペインティングにより生じる可能性がある。遮蔽除去に起因して、テクスチャー及び深度マップから新たなビューが生成されるとき、形状深度不連続部において穴が生じることになる。この問題に対処する従来の方法は、近傍ピクセルから穴をインペインティングすることである。ＷＯＷｖｘｄｅｃｌｉｐｓｅフォーマットは、物理レベルにおいて遮蔽データを提供するが、帯域幅又はストレージが限られている場合、送信及び記憶に不適切である。遮蔽データは通常、必要な視点変更よりも大きい。ＷＯＷｖｘｄｅｃｌｉｐｓｅフォーマットは、精密な形状情報を有していないため、その使用は深度マップに大きく依拠し、自然なビデオの場合、推定誤差又は圧縮誤差を被る場合がある。また、ＷＯＷｖｘｄｅｃｌｉｐｓｅフォーマットは、複数のビュー及び半透明オブジェクトをサポートしていない。ステレオビデオの場合、データは、これらの穴をリアルタイムでインペインティングするために、他のビューから適切に抽出されなくてはならない。

場合によっては、レンダリングアーチファクトを低減するために、高度なインペインティングアルゴリズム、又は更には人間の介入が行われなくてはならない。これは、ｉ）２つのビュー間の視点変更、ｉｉ）複雑な遮蔽除去された背景、及びｉｉｉ）特に大きな深度不連続部における深度とカラービデオとの間の非一貫性、並びに他の理由に起因する。高度なインペインティングにより、低アーチファクトでのリアルタイムで信頼性のあるビュー合成が極端に困難になる。さらに、２つのビューのカラー、エッジロケーション及び深度不連続部のミスマッチの結果として、大きなゴースト又は「二重画像」が生じることになる。

3D Interface Specifications, Philips 3D Solutions, http://www.business-sites.philips.com/shared/assets/global/Downloadablefile/Philips-3D-Interface-White-Paper-13725.pdf

本発明は、形状画像、部分遮蔽データ、関連する調整及び制御パラメーター、並びに元のビデオ（複数の場合もある）の深度情報の形態の、場合によっては主要な深度不連続部を含む、補助データの生成及び圧縮に関する。２Ｄ、３Ｄ及びオートステレオスコピック（マルチビュー）ディスプレイにおける従来の２Ｄ、ステレオ、マルチビュービデオの新たなビューを、アーチファクトを低減した状態でインタラクティブに表示及び生成するために、補助データが用いられる。形状画像は、深度－テクスチャー一貫性を維持し、ビュー合成のために必要な部分遮蔽背景データを埋める等の更なる処理が行われる大きな深度不連続部を有するオブジェクトを特定することを目的とする。遮蔽は、完全な遮蔽、又は半透明オブジェクトにおけるように部分的遮蔽であり得る。

データは、別のビューにおける遮蔽に起因して、遮蔽除去エリアに関連するので、遮蔽除去データとも呼ばれる。したがって、本明細書において、遮蔽及び遮蔽除去という用語は、これらのデータを指す際に交換可能に用いられる。

他のロケーションにおける不正確な深度マップに起因するアーチファクト、及び２つのビューにおけるビデオ＋深度ビデオを用いたレンダリングの困難な問題に対処するために、本発明は、ビュー合成のための新規のアーチファクトを意識した方法を提供する。補助データ、形状画像及び部分遮蔽データにおける２つの主要な成分に起因して、上述した利点及び特徴と共に、アーチファクトを大幅に低減するか、又は目立たないようにすることができる。

本発明のアーチファクトを意識したビュー合成（ＡＡＶＳ）方法は、聴覚系のような人間の３Ｄ知覚が、全体的な３Ｄ知覚及び品質を大幅に損なうことなく、左眼画像及び右眼画像のかなりの変形を許容することができることに基づいている。他方で、ゴースト、大きなローカル変形、穴、又は構造非一貫性等の、自然な画像からの大きな逸脱につながるアーチファクトは、全体知覚品質の大きな劣化につながる。

また、実験において、２Ｄ＋深度及び補助データ方法を用いて合成された新たなビューは、通例、より正確度の低い深度マップを有する２つのビューを用いるよりも、自然画像に近づくことも観測される。人間の３Ｄ知覚及び上記のことを考察することにより、左（右）ステレオビデオ及び提案される２Ｄ＋深度を補助データ合成方法と共に用いて、左（右）眼に対応するステレオ又はオートステレオスコピックディスプレイによって必要とされるビューが合成される。ステレオビューを用いるのではなく、この手法を用いて全ての必要なビューを合成することにより、得られる視覚的アーチファクトが大幅に少なくなる。１つのみのビデオ及びその関連付けられた深度ビデオが利用可能である場合、２Ｄ＋深度及び補助データ方法を用いることによって必要な全てのビューを合成することができる。ここでもまた、３Ｄ効果の劣化と引き換えに、視覚アーチファクトを僅かにし、帯域幅／ストレージを低減することができる。

２Ｄ＋深度及び補助データ方法は、或る特定の範囲にわたるインタラクティブな視点変更及び拡大をサポートするのにも適している。一方のビューから他方のビューへの従来の２Ｄディスプレイにおける視点変更をサポートするステレオビデオ＋関連する深度ビデオについて、深度不連続部等が位置合わせされていない場合、大きなアーチファクトが生じることになる。しかしながら、新規の方法を用いることにより、元の画像のうちの一方によって生成されたビューから、左視点及び右視点間の中点の周りの他方の画像へのジャンプが生じることになる。

この望ましくない影響を克服するために、新たなモーフィング方法が、一方のビューから他方のビューへのフライオーバー効果をエミュレートするように行われる。従来のモーフィング方法を用いるのではなく、双方のビューを用いて、中点の周りの選択可能な領域における必要なビューを合成してモーフィングプロセスをエミュレートする。この領域のサイズ及びスイーピングレートが、結合される２つのビューの一致の観点におけるアーチファクトの或る特定の測定によって求められる。測定されるアーチファクトが大きいほど、合成品質が下がり、領域内のスイーピングレートが高速になる。このため、視覚アーチファクトが、モーフィング及びフライオーバープロセスによって効果的に抑制される。

本発明は、形状画像、部分遮蔽データ、関連する調整及び制御パラメーター、並びに元のビデオ（複数の場合もある）の深度情報の形態の場合によっては主要な深度不連続部を含む元の補助データ又は圧縮補助データを用いて、従来の２Ｄ、３Ｄ（ステレオ）及びマルチビュー又はオートステレオスコピックディスプレイにおける従来の２Ｄ、ステレオ及びマルチビュービデオの新たなビュー（ビュー合成）をアーチファクトを低減した状態でインタラクティブに表示及び生成することを提案する。部分（完全遮蔽データも含む）遮蔽データは、アーチファクトが低減されたビュー合成を容易にするために、場合によっては部分的に遮蔽されたエリアの画像、深度及び不透明度データを含む。本発明は、低減されたアーチファクトでビュー合成を容易にするために、テクスチャービデオからの補助データによって定義されるような部分遮蔽領域においてオブジェクトを抽出する効果的な方法、及び各オブジェクトの抽出後に補助データを用いて、ビュー合成中の欠落データ又は穴のオンラインインペインティングの限られた性能に起因するアーチファクトを低減する、画像背景及び深度値を更新する方法も更に包含する。さらに、本発明は、（ａ）部分遮蔽データの圧縮／解凍方法、（ｂ）ビュー合成中のアーチファクトを低減するために場合によっては符号化された（圧縮された）深度及びテクスチャービデオの一貫性を改善する、エッジを意識した共同時空間深度－テクスチャー精緻化方法及びその効率的な実施、並びに、（ｃ）低減された又は目立たないアーチファクトで補助データ及びビデオを用いて新たなビュー（ビュー合成とも呼ばれる）を生成するアーチファクトを意識した方法を提供する。

補助データは、或る特定のフォーマットでパッケージング、圧縮、送信又は記憶することができる。解凍されたデータを関連ビデオ（複数の場合もある）と共に用いて、低減されたアーチファクトで従来の２Ｄ、３Ｄ（ステレオ）及びマルチビュー又はオートステレオスコピックディスプレイにおけるインタラクティブな表示のために、従来の２Ｄ、ステレオ及びマルチビュービデオから上記の（ａ）～（ｃ）の方法を用いて新たなビュー（ビュー合成）を生成することができる。

ビデオを補助データと独立して圧縮することができ、それによって、補助データは、更なる処理及びレンダリングのために復号されたビデオフレーム（複数の場合もある）のみを利用することによって異なるビデオ符号化アルゴリズムのソフトウェア及び／又はハードウェアと共に機能することができる。代替的に、より高い圧縮性能が必要とされる場合、補助データの圧縮は、ビデオ圧縮アルゴリズムをターゲットとすることができる一方で、他のビデオ符号化アルゴリズムをサポートする可能性が犠牲になる。

本発明の上記の及び他の目的及び利点が、以下の詳細な説明及び添付の図面と関連して検討されるときに明らかとなる。ここで、類似の符号は様々なビューにおける類似の要素を示す。出願ファイルは、カラーで作成された少なくとも１つの図面を含む。カラー図面を伴うこの特許出願書類の写しは、請求及び必要な手数料の支払いにより、特許商標庁によって提供される。

（ａ）～（ｃ）は、テクスチャー画像及び視差マップの非一貫性を示す図であり、（ａ）は、テクスチャー画像を示す図であり、（ｂ）は、視差マップを示す図であり、（ｃ）は、非一貫性を示す図である。（ａ）は、２Ｄ入力画像を示す図であり、（ｂ）は、対応する深度マップを示す図である。（ａ）は、オブジェクト１の形状画像を示す図であり、（ｂ）は、オブジェクト２の形状画像を示す図である。（ａ）及び（ｂ）は、部分遮蔽データの画像データを示す図あり、（ａ）は、図３のオブジェクト１及び２に起因する遮蔽から生じる背景の図であり、（ｂ）は、図３のオブジェクト１に起因する遮蔽から生じる図２のオブジェクト２における遮蔽を示す図である。（ａ）及び（ｂ）は、図４の部分遮蔽データの深度データを示す図であり、（ａ）は、オブジェクト１及び２に起因する遮蔽から生じる背景の図であり、（ｂ）は、オブジェクト１に起因する遮蔽から生じるオブジェクト２における遮蔽の図である。（ａ）～（ｄ）は、前景のインペインティングの例を示す図であり、（ａ）は、犬１を有する元の前景を示す図であり、（ｂ）は、（ａ）の未知のエリアにおけるインペインティングされた前景を示す図であり、犬２を有する元の背景を示す図であり、（ｃ）の未知のエリアにおけるインペインティングされた背景を示す図である。（ａ）及び（ｂ）は、ベース方程式（Bayesian equation）を用いて達成されるマッティング結果を示す図であり、（ａ）は、初期マッティング結果を示す図であり、（ｂ）は、精緻化されたマットを示す図である。（ａ）は、前景オブジェクトの抽出後の図２（ａ）における画像の背景を示す図であり、（ｂ）は、オブジェクト１の形状画像を用いて抽出されるオブジェクトを示す図であり、（ｃ）は、オブジェクト２の形状画像を用いて抽出されるオブジェクトを示す図である。（ａ）～（ｃ）は、オブジェクト抽出後の深度マップを示す図であり、（ａ）は、オブジェクト抽出後の背景を示す図であり、（ｂ）は、オブジェクト１を用いて抽出されたオブジェクトを示す図であり、（ｃ）は、オブジェクト２を用いて抽出されたオブジェクトを示す図である。（ａ）は、形状及び深度マップから推定される部分遮蔽画像データを示す図であり、（ｂ）は、ブロックベースの符号化のための部分遮蔽画像データをカバーするためのブロックのロケーションを示す図である。コンポーネント間変位予測図である。（ａ）及び（ｂ）は、双線形関数を用いたマット／深度／カラー画像予測を示す図であり、（ａ）は、境界ブロックを示す図であり、（ｂ）は、非境界ブロックを示す図である。階層型双線形イントラ予測図を示す図である。（ａ）は、非ゼロ量子化係数を用いたサブブロックのロケーションの符号化のためのチェーンコードを示す図であり、（ｂ）は非ゼロ量子化係数を用いたサブブロックのロケーションの符号化のための算術符号化方法を示す図であり、（ｃ）は、サブブロック内の非ゼロ量子化係数の走査を示す図である。（ａ）及び（ｂ）は、視差マップの時間的非一貫性を示す図であり、（ａ）２つの連続フレームを示す図であり、（ｂ）は、同じ設定を用いて同じ方法によって独立して推定された２つの視差マップを示す図である。（ａ）及び（ｂ）は、ｇ（ｐ，ｓ，ξ）の計算を示す図であり、（ａ）は、ｇ（ｐ，ｓ，ξ）を形成するための入力を示す図であり、（ｂ）は、図１６（ａ）から得られたｇ（ｐ，ｓ，ξ）を示す図である。分離可能なフィルタリングのステップを示す図である。４つの異なるパッチのためのローカルカーネル行の視覚化の図である。（ａ）～（ｄ）は、フレームｔにおける精緻化された視差マップ比較を示す図であり、（ａ）は、カラー画像の図であり、（ｂ）は、元の視差マップの図であり、（ｃ）は、従来のバイラテラルフィルターによってフィルタリングされた、精緻化された視差マップの図であり、（ｄ）は、本発明の改善された方法によってフィルタリングされた、精緻化された視差マップの図である。（ａ）及び（ｂ）は、精緻化された時間的に一貫性のない視差マップを示す図であり、（ａ）は、精緻化前の視差マップを示す図であり、（ｂ）は、精緻化後の視差マップを示す図である。（ａ）及び（ｂ）は、所定のフィルタリング領域の例を示す図であり、（ａ）は、第１の例を示す図であり、（ｂ）は、第２の例を示す図である。（ａ）は、量子化されたフィルタリングのレベルの関数としてのピーク信号対雑音比のグラフであり、（ｂ）は、元のフィルタリング結果の画像であり、（ｃ）は、量子化されたフィルタリング結果の画像である。２Ｄビデオ＋補助データを用いて従来のディスプレイにおける視点変更をサポートする、ビュー合成のためのシステムのブロック図である。マルチ入力ビデオシナリオにおいて隣接する２Ｄビデオ＋補助データを用いて従来のディスプレイにおける視点変更をサポートする、ビュー合成のためのシステムの一実施形態のブロック図である。マルチ入力ビデオシナリオにおいて隣接するステレオビデオ＋補助データを用いて従来のディスプレイにおける視点変更をサポートする、ビュー合成のためのシステムの一実施形態のブロック図である。マルチ入力ビデオシナリオにおいて隣接するステレオビデオ＋補助データを用いて従来のディスプレイにおける視点変更をサポートする、ビュー合成のための図２４のシステムの第２の実施形態のブロック図である。（ａ）及び（ｂ）は、背景オブジェクトにおける視差補正の例である画像を示す図であり、（ａ）は、元の画像を示す図であり、（ｂ）は、補正された画像を示す図である。（ａ）及び（ｂ）は、前景オブジェクトにおける視差補正の例である画像を示す図であり、（ａ）は、元の画像を示す図であり、（ｂ）は、補正された画像を示す図である。層抽出の図である。それぞれ左ビュー及び右ビューにおける遮蔽検出の例を示す図である。それぞれ左ビュー及び右ビューのための重み付けマスク（weighting mask）の例を示す図である。左ビュー及び右ビューから中間視点への背景のワープを示す図である。中間視点において融合された背景を形成するように、ワープされた背景を左ビュー及び右ビューからの重みマーク（weight mark）と乗算した図である。２層の例の層の融合を示す図である。ワープされた形状のマッチしたエリア及びマッチしていないエリアを示す図である。

図１（ａ）、（ｂ）及び（ｃ）は、テクスチャー画像、その対応する視差マップ、及び２つのオーバーレイを示す。図１（ｃ）から、赤い縁によってマーキングされたいくつかのエリアは、完全に位置合わせされていないことがわかる。深度カメラ、ステレオ推定又は他の方法によって得られる深度マップは、誤差を被る場合があるため、対応するテクスチャー画像と位置合わせされていない場合がある。これらのミスマッチは、ほとんどがオブジェクト境界の周りに分散している。なぜなら、現行の視差推定方法又は深度カメラは、オブジェクト境界の周りの遮蔽を完全に扱うことができないためである。

他の誤差源は、テクスチャー及び深度ビデオの圧縮誤差に起因するものである。深度マップ及びテクスチャーが圧縮されると、深度及びテクスチャービデオは歪みを受ける場合がある。この結果、深度とテクスチャーとの間にかなりの非一貫性が生じる場合がある。そして、この非一貫性の結果として、大きな深度不連続部において深度及び対応するテクスチャーから新たなビューを生成する際に、背景におけるピクセルが、誤った深度値に起因して前景に移動する場合があり、逆もまた同様であるため、著しいアーチファクトが生じることになる。

G.Techの論文におけるような深度マップを用いた従来のビュー合成では、解凍された深度マップを用いて、レンダリングのための遮蔽又は遮蔽除去を検出する。したがって、深度マップにおける符号化歪み又は他の固有の誤差は、合成される新たなビューの品質に大きく影響を与え、上述したアーチファクトにつながる。

提案される発明において、大きな不連続部も含まれ、図２に示すように、ビデオ及び深度データと共に補助データの一部として圧縮される。ここで、図２（ａ）は画像であり、図２（ｂ）は深度マップである。図２（ｂ）において、青色は大きな深度値を示し、黄色は中間の深度値を示し、赤色は小さな深度値を示す。不連続部は、形状画像（図３）の形態で表され、各々が、大きな不連続部によって定義される前景及び背景の量を示す画像である。この画像は、マット又はソフトセグメンテーション画像とも呼ばれ、ブルースクリーン技法において特定のピクセルロケーションにおける前景量を定義するのに頻繁に用いられる。この画像は、このピクセルのソフトメンバーシップ又は不透明度を示す０～２５５の範囲の値を有する８ビット画像とすることができ、ここで、０は寄与なし（すなわち、透明）であり、２５５は、完全な寄与を有する（すなわち、完全に見える）。オブジェクトの幾何学的形状のみが必要である場合、形状画像は、０又は１の値を仮定するピクセルを有するバイナリ画像に簡略化することができる。バイナリ画像は、利用可能なビットレートが制限されているデータ圧縮において関心対象となっている。バイナリ形状画像において半透明のオブジェクトをサポートするために、提案される発明は、オブジェクトの平均不透明度も含む。境界における正確な不透明度は、補助データの入力及び他の重要な情報から推定される。通常、バイナリ形状画像の場合、不透明度の更なる簡略化を含めることができる。

本発明において、圧縮又は他の誤差から生じる一貫性を改善するために、形状画像を用いて、大きな不連続部におけるテクスチャー及び深度マップを精緻化する。従来の２Ｄ＋深度ベースのビュー合成では、カラー入力が深度マップに従って変換され、別の隣接ビューが形成される。遮蔽除去に起因して穴が生じ、これらの穴は、近傍のピクセル値からインペインティング又は補間される。視点変更が増大するとき、欠落した遮蔽除去データに起因して、かなりのアーチファクトが現れることになる。

本発明によれば、形状情報を用いて、所与の視点変更をサポートするのに必要な、「部分遮蔽データ」と呼ばれる大きな遮蔽除去エリア及び欠落情報を示す。部分遮蔽データは、画像データ、深度データ及びマットと共に含まれ、これらは形状情報、入力画像／ビデオの深度マップ、並びに他の制御及び調整パラメーターと共にパッケージングされ、ビュー合成等を支援し、補助データを形成する。上記の情報は、送信帯域幅、及びストレージのためのデータを低減するように圧縮される。

本発明の別の可能な用途は、２Ｄから３Ｄに変換されるいくつかのステレオビデオにあり、この用途では、深度マップではなく、単純な画像変形を用いて、２Ｄビデオから他のビューが合成される。補助データを含めることにより、或る特定の重要なオブジェクトが、平滑な深度マップを先鋭化し、部分遮蔽データを含めることによって、より良好な３Ｄ効果を呈することが可能になる。

補助データは、送信のためにビデオデータに埋め込むことができるか、又は同期してオーディオデータのような別個のデータストリームとして送信することができる。復号されたビデオデータ及び対応する復号された補助データを用いることによって、新たなビューを低減されたアーチファクトと合成することができる。このために、遮蔽除去／遮蔽エリアのロケーションを推定する必要があり、画像、深度及びマットデータが生成される必要がある。マルチビュービデオの場合、そのようなデータは、推定深度マップから、及び隣接する画像からの適切な抽出により得ることができる。様々な利用可能なインペインティング方法によって穴が更にインペインティングされる。代替的に、ユーザーインタラクションを用いた半自動技法を用いて、良好なインペインティング品質を確保することができる。

次に、画像、深度、及びマットデータは、離散コサイン変換（ＤＣＴ）を用いた変換符号化等の従来の波形符号化技法によって圧縮することができる。しかしながら、以下で説明するような新たなイントラ予測方法も用いることができる。

新たなビューの合成について、概して２つの手法、すなわち、走査線ベースの方法及び層ベースの方法が存在する。走査線方法では、カラー画像が、深度マップに従って、ラスター走査順で線ごとにラッピングされることに留意するべきである。G. Techの論文において用いられている従来の技法を用いて、間隔の大きな広がりから遮蔽除去を検出することができる。次に、補間に依拠して遮蔽除去エリアを埋めることができる。ノイズの多い深度マップの場合、隣接した走査線における不規則な線分の形態の大きなアーチファクトが生じることになる。

形状情報により、遮蔽除去エリアを推定し、遮蔽除去エリアにおける画像データを、それらの独自の深度に従って埋めることができる。埋められる穴のサイズは、大幅に低減され、隣接する走査線にわたる一貫性を、形状情報を用いてより良好に強制することができる。

層ベースの方法により、グラフィック処理ユニット（ＧＰＵ）が用いられる場合、インペインティングされたオブジェクトを、独自の深度マップを有する画像層に再構成することが好都合である。次に、層を、深度値の降順で次々とレンダリングすることができる。

インペインティングされたオブジェクトを形成するために、各指定されたオブジェクトが元の画像から抽出され、或る特定の順序で適切な遮蔽除去データによりインペインティングされる。続いて、従来の２Ｄ、ステレオ、及びオートステレオスコピックディスプレイにおけるこのコンテンツの表示をサポートするための、新たなアーチファクトを意識したビュー合成アルゴリズムが説明される。

図４及び図５は、コンピュータグラフィックにより生成されたビデオから得られた背景及びオブジェクト１の部分遮蔽除去データにおける画像及び深度データをそれぞれ示す。元のビデオは３つのビューを有し、これらを用いて、左側の第１のビューのための部分遮蔽データを生成する。

図４において、部分遮蔽データの画像データが、図４（ａ）において左側に、オブジェクト１及び２に起因する遮蔽から生じる背景として示される。右側の図４（ｂ）は、オブジェクト１に起因した遮蔽から生じるオブジェクト２における遮蔽を示す。図４において、左ビューを用いて右ビューを合成する。しかしながら、右ビューを用いて左ビューを合成し、部分遮蔽データが形状画像の右境界の周りに現れることが可能である。

図５は、部分遮蔽データの深度データを、左側で図５（ａ）において、オブジェクト１及び２に起因する遮蔽から生じる背景として示し、右側で図５（ｂ）において、オブジェクト１に起因した遮蔽から生じるオブジェクト２として示す。

第１のビュー及びこれらの必要な補助データを用いて、中間ビューを得ることができる。ステレオ画像の場合、遮蔽除去情報を、ステレオデータから推定することができ、高度なインペインティング技法を用いて穴をインペインティングすることができる。補助データにそのような情報を含めることは、そのようなデータのリアルタイム生成を低減するのに役立つ。さらに、人間の介入を、半自動ユーザーインターフェースを通じて起動し、遮蔽除去情報の品質、このためビュー合成の品質が維持されることを確実にすることができる。

本発明は、２つ以上のビューからデータを適切に組み合わせることによって中間ビューを生成するのに複数のビューが通例用いられる、従来の画像ベースのレンダリングとは異なる。ここで、従来のビデオは、新たなビューを合成するための深度マップ、形状画像、遮蔽除去情報及び他の制御又は調整パラメーターを含む補助データと共に用いられる。表現は、限られたビュー依存外観変化と引き換えに、よりコンパクトにされる。さらに、従来のビデオ又はステレオのように、追加のチャネル又は補助データストリームを備えているときに、ビュー合成及びモーフィングをサポートすることができる。

そのような補助データに必要とされる情報が少量であることに起因して、ハンドヘルドデバイス又はモバイルデバイスにおける従来のビデオ又はステレオのビュー合成は、大幅に簡略化することができる。

まとめると、本発明における補助データは、以下の情報からなる。
１．各ビューの深度順を示す識別子を有する形状画像。
２．各２Ｄビデオの深度マップ。
３．ｉ）各ビュー内の各オブジェクトの形状及び深度マップによって指定される部分遮蔽の画像、マット及び深度データ、並びにｉｉ）自己遮蔽データの画像、マット及び深度データ、を含む部分遮蔽データ。
４．オブジェクト抽出、背景の更新、共同深度－テクスチャーフィルタリング及びビュー合成を行う際にアルゴリズムにおいて必要とされる他の制御又は調整パラメーター。

本発明の重要な特徴は、前景の効率的な抽出、並びに形状画像及び／又は部分遮蔽画像データからの背景の更新である。

圧縮に起因して、形状画像又はマットは、圧縮後に僅かに歪む場合がある。しかしながら、これらは依然として、深度及びテクスチャーの補正が一貫性を維持するのに必要とされる場所に関する価値のある情報を提供することができる。したがって、補正は、形状画像によって指定されるような重大な深度不連続部に沿ってのみ行うことができ、結果として複雑度が低くなる。

さらに、これによって、指定された前景オブジェクトが、その背景から抽出されることが可能になり、それによって、遮蔽された背景を、補助データ内の部分遮蔽データのカラー及び深度画像で埋めることができる。深度情報が、帯域幅制限に起因して入手不可能である場合、深度値は、近傍の背景深度値から得ることができる。なぜなら、深度マップは、深度不連続部から離れているときに、平滑であると想定されるためである。

したがって、画像フレーム及びその対応する補助データを用いてビュー合成を行うために、以下のステップが辿られる。
１テクスチャー及び深度ビデオから補助データによって定義されるような部分的に遮蔽された領域において画像オブジェクト及びそれらの深度値を抽出する。
２各オブジェクトの抽出後に、補助データを用いて画像背景及びその深度値を更新する。
３指定された部分遮蔽領域及び背景において抽出されたオブジェクトを用いてビュー合成を行う。

ビュー合成におけるアーチファクトを更に低減するために、後に更に詳細に述べられるように、本発明の深度を意識したビュー合成方法を用いることができる。

ステップ１、すなわち画像オブジェクト及び関連深度の抽出を参照すると、関係を発展させる必要がある。

α_ｐを、テクスチャー画像｛Ｉ_ｐ｝のロケーションｐ＝（ｘ，ｙ）におけるピクセルの前景量とする。表記を簡潔にするために、テクスチャー画像の２次元アレイは、ｐを用いてインデックス付けされる。Ｉ_ｐは、ＲＧＢ成分等の適切なカラー成分を含むベクトルである。ｐにおけるピクセルの深度値を記述する対応する深度画像は、Ｄ_ｐによって表される。

補助データにおける形状情報

は、補正のために、深度不連続部の概算ロケーションを与える。グレースケール形状画像（例えば、８ビットマット画像）の場合、これらのロケーションにおける、０～１（又は、８ビットで記憶されている場合、０～２５５）の範囲をとる概算前景量も与える。完全に遮蔽されたオブジェクトの場合、最も単純な形状情報は、バイナリ画像とすることができ、そのピクセルは、値０又は１のみを想定する。部分的に遮蔽されたオブジェクトの場合、最も単純な形状情報は、バイナリ画像＋平均不透明度値

とすることができる。

上述したように、このステップにおける目的は、ｉ）

によって示唆される領域において形状情報を精緻化し、前景オブジェクト（複数の場合もある）を抽出すること、及びｉｉ）ビュー合成の準備において、オブジェクトごとにこの領域における背景を更新すること、である。一貫性を改善するために、テクスチャー及び深度値の双方を精緻化しなくてはならない。

図３に示すように、例えば、バイナリ形状画像の場合、エッジ検出又は類似の技法を用いて、形状画像からオブジェクト形状を得ることができる。オブジェクト境界の周りの領域、例えば、オブジェクト境界から最大距離ｄ_ｍａｘ内のピクセルは、様々な誤差について補正するように精緻化されるべきである。この領域をＲとする。Ｒは、ｄ_ｍａｘを、形状情報の一部として補助データに含めることによってユーザーにより指定することができる。

領域Ｒは、例えば、半径ｄ_ｍａｘ（視差マップの品質又は情報間の非一貫性に依拠する）を用いてバイナリ形状画像に対して独立して形態学的膨張及び収縮を行うことによって入力画像から抽出され、それらに対し「排他的ＯＲ」演算を行うことができる。

通常、画像フレーム内に複数の形状画像が存在することができる。それらがオーバーラップしていない場合、上記のプロセスを別個に行うことができる。複数の形状画像がオーバーラップしている場合、それらの抽出及び更新の順序を、通例、それらが補助データにおいて符号化されるときに、オーバーラップにおける深度の昇順で指定しなくてはならない。普通は、僅かな数のみの形状画像が必要とされ、ほとんど場合、シーン内の最も近いオブジェクトの形状画像のみが必要とされる。なぜなら、その深度不連続部が最も重要であるためである。

最小の深度を有するものから開始して、補助データの支援による２Ｄビデオからの背景の抽出及び更新は、以下のステップにおいて順次行われる。
１．形状画像を用いて、マッティングを用いて背景から前景を抽出する。これについては以下で更に詳細に述べられる。
２．部分遮蔽データの境界におけるマッティング(matting)によって、残りの背景の遮蔽除去エリアにおける画像データを埋める。この境界を除いて、残りの背景内の部分遮蔽データによって覆われる全てのピクセルが、更新された背景における前景のトレースを除去するように上書きされることになる。生じ得る穴を埋めるのに、更なるインペインティングが必要とされる場合がある。
３．部分遮蔽データから新たな背景の深度を更新する。インペインティングは、全てのオブジェクトが処理されるまで次に最小の深度を有するオブジェクトによって定義された境界内の穴を埋めるのに必要とされる場合がある。
４．最小の深度を有する次のオブジェクトについて、上記のステップ１～３を繰り返す。カラー及び深度データを有しない境界領域におけるマッティング時には、精緻化された形状として形状画像が用いられる。

ステップ１を更に実行するために、マッティングによる所与の画像オブジェクト（現在の前景）の抽出が次の要件である。

オブジェクト境界付近の領域Ｒ内（例えば、対応する形状画像によって示される或る特定の距離ｄ_ｍａｘ内）のロケーションｐにおけるピクセルについて、観測されるテクスチャー入力画像ベクトルＩ_ｐは、抽出される現在の前景オブジェクトテクスチャーＦ_ｐ及び背景テクスチャーＢ_ｐの和である。

ここで、α_ｐは、ロケーションｐにおいて求められる前景又はマットの所望の量である。ここでは、それらは列ベクトルであることが仮定される。

半透明オブジェクトの場合、α_ｐの初期値、

及び背景Ｂ_ｐは、部分遮蔽データから入手可能である。このとき、境界領域Ｒは、境界、及び部分遮蔽オブジェクトの全てを含むことができる。通常、このとき問題となるのは、各指定されたオブジェクトのカラー、深度及び形状情報を求めることができるように、既存の値を精緻化し、観測、及び部分遮蔽データからの追加情報から未知の値を推定することである。

従来、画像セグメンテーションのために、通常、ユーザーインターフェースを通じてユーザーが指定した領域Ｒからα_ｐ、Ｆ_ｐ及びＢ_ｐを求める問題は、マッティングと呼ばれる。これは劣決定問題(under-determined problems)であり、追加情報を利用する様々な技法が、引用することによりその全体が本明細書の一部をなす、Y. Chuang他「A Bayesian approach to digital matting」Proc. IEEE Comput. Soc. Conf. CVPR, (Dec. 2001), vol. II, pp. 264-271；M. Ng他「Numerical Methods for Interactive Multiple Class Image Segmentation Problems」International Journal of Imaging Systems and Technology, 20 (2010), pp. 191-201；及びX. Kong他「Transductive Multi-Label Learning via Alpha Matting」IEEE Transactions on Knowledge and Data Engineering, vol. 25, pp. 704-719, (2013)において提案されている。

次に、精緻化問題に対処しなくてはならない。ここで、完全遮蔽の場合、圧縮又は他の制限に起因して概算されたマットが入手可能であり、半透明の場合、概算されたマット及び背景が入手可能である。

ベイズマッティング（Bayesian matting）において、Ｆ_ｐ及びＢ_ｐが、既知の平均

並びに共分散（Σ_Ｆ及びΣ_Ｂ）を有してガウス分布することが仮定される。

ここで、α_ｐ、Ｆ_ｐ及びＢ_ｐは、各反復において、まず、α_ｐを所与としてＦ_ｐ及びＢ_ｐについて反復的に解かれ、次に、更新されたＦ_ｐ及びＢ_ｐを所与としてα_ｐについて解かれる。複数のそのような反復が必要とされ、各そのような反復において、Ｆ_ｐ及びＢ_ｐにおける連立一次方程式を解くことが必要とされるので、リアルタイム用途の場合、複雑度が高い。

Y. Chuangの論文において開示されているようなベイズマッティングは、Ｆ_ｐ、Ｂ_ｐ及びα_ｐについて反復的に解くために、式（１）における観測、及びサンプル平均

の事前情報、並びにそれらの共分散を考察している。Ｆ_ｐ（Ｂ_ｐ）は、元の画像Ｉ_ｐの一部であるため、Ｉ_ｐのようなＦ_ｐの隣接するピクセル値が、自然画像の構造に起因して関連又は相関付けられる。したがって、

を、近傍ピクセルからのＦ_ｐ（Ｂ_ｐ）の予測因子とみなすことができる。通常、中央値等のより一般的な予測因子を構築することができる。また、α_ｐの近傍値間の関係は考察されない。

M. Ng及びX. Kongの論文において開示されているようなトランスダクティブマルチラベル学習（ＴＲＡＭ）において、α_ｐの近傍の値間の相関が、半自動画像セグメンテーションについて考察される。ユーザーは、ユーザーのストロークを通じて、前景及び背景における代表ピクセルを指定するように要求され、それによって、ＴＲＡＭアルゴリズムを用いて、全体画像のマット又はセグメンテーションを推定することができる。これは、全ての変数α_ｐ、ｐ∈Ｒにおける連立一次方程式の解を必要とする。したがって、複雑度が極めて高い。ベイズマッティングと異なり、ＴＲＡＭは、式（１）の混合モデルを考慮に入れず、ユーザーによる初期化及び画像のみに依拠してセグメンテーションを得る。

本発明は、Ｆ_ｐ及びＢ_ｐの推定値を用いて、領域Ｒ内の

を予測するための新規の方法を提案し、それによってα_ｐは、上述したように連立一次方程式を解くことなく新たなベイズ定式（Bayesian formulation）を直接用いて計算することができる。必要な場合、α_ｐは、α_ｐにおけるローカル関係を考察することによって、その近傍値から更に精緻化することができる。以下に示すように、初期Ｆ_ｐ及びＢ_ｐの推定、及びα_ｐの精緻化における２つのステップを、２つのフィルタリングプロセスとして効率的に実施することができ、これは更に、引用することによりその全体が本明細書に援用される、G. A. Ruiz他の論文「Efficient canonic signed digit recoding」 Microelectronics Journal, No. 42, pp. 1090-1097, (2011) において開示されているように、フィルター係数のカノニカル署名数字（ＣＳＤ）表現を用いて乗算なしで実施することができる。必要な場合、推定結果を更に精緻化するためにプロセス全体を反復させることができる。

本発明によれば、Ｆ_ｐ、Ｂ_ｐ及びα_ｐの全てが、以下の式に従ってそれらの近傍値に関係付けられている。

重み

は、ピクセルｊ及びｐ間の空間的距離、ｊ及びｐにおける又はその付近のカラー値、並びにｊ及びｐにおける又はその付近の深度値から導出することができ、

は、予測のための近傍ピクセルを含む適切なウィンドウである。

式（２ａ）及び式（２ｂ）における有用性は、これらが、既存の値又は予測値から漸進的に境界領域Ｒ内のＦ_ｐ及びＢ_ｐの値を予測するのに役立つことができることである。これは、Ｒの一方の側の前景（背景）値が、式（２ａ）及び式（２ｂ）を用いて或る特定の順序でＲ内の最も近い欠落値を埋めるように既存のピクセルから徐々に伝播されるインペインティングと類似している。ここで、

は、既知の値又は予測値を有するロケーションのみを含む。推定されたＦ_ｐ及びＢ_ｐを所与として、式（２ｃ）を用いて、推定されたα_ｊを精緻化することができる。

ここで、α_ｊの推定、並びにＦ_ｐ及びＢ_ｐの推定／予測について順に検討する。Ｆ_ｐ及びＢ_ｐ、並びにα_ｐの以前の値、

を所与とすると、α_ｐは、モデル誤差ｅ_ｐ＝Ｉ_ｐ－｛α_ｐＦ_ｐ＋（１－α_ｐ）Ｂ_ｐ｝の何らかの尺度、及びα_ｐに対する

からの偏差を最小限にすることによって、式（１）から解くことができる。

ここで、ρ（ｅ_ｐ）及び

はそれぞれ、式（１）における混合モデル及び

の以前の値からの偏差を測定し、λは、２つの項に異なる重点をおく、ユーザーが選択した正の定数である。ρ（ｅ_ｐ）の可能な選択肢は、

（ｅ_ｐ，ｉｉ＝１，２，３は、ｅ_ｐの成分である）であり、他の類似の関数が用いられてもよい。ρ_α（ｕ）の可能な選択肢は、ｕ^２又は｜ｕ｜であり、他の類似の関数も用いることができる。

二乗振幅関数

及びｕ^２の場合、一方が、

を最小限にし、これにより、以下が得られる。

これにより、Ｆ_ｐ、Ｂ_ｐ及びα_ｐを所与として、α_ｐを計算するための解析公式が得られる。半透明オブジェクトを抽出する際、Ｂ_ｐ、Ｉ_ｐ及び

が所与であり、部分遮蔽領域においてＦ_ｐが抽出される必要がある。さらに、上記の式を用いて、α_ｐがオブジェクト境界において精緻化される必要がある場合がある。

ここで、Ｆ_ｐ及びＢ_ｐをどのように推定することができるかを決定しなくてはならない。これを達成するために、マッティングエリアにおける前景及び背景をインペインティングするための共同テクスチャー及び深度方法が説明される。第１に、前景におけるインペインティングが、以下のように選択された式（２ａ）における重み

を用いて検討される。

ここで、

であり、

であり、Ｆ_ｐは、インペインティングされるロケーションｐにおけるインペインティングされるピクセル値であり、Ｆ_ｊは、ｐを中心としたウィンドウ

内のロケーションｊにおける近傍前景ピクセルである。

内に４つの主要な成分が存在する。それらはすなわち、以下である。
１．ｆ_ｃ（Ｉ_ｐ，Ｆ_ｊ）は、Ｉ_ｐとＦ_ｊとの間のカラー類似度関数である。値Ｉ_ｐ及びＦ_jが近いほど、ｆ_ｃ（Ｉ_ｐ，Ｆ_ｊ）の値が大きくなり、逆もまた同様である。任意のカラー類似度関数を用いることができ、単純な選択肢は、

である。ここで、σ_ｃは、正の強度拡散パラメーター（intensity spread parameter）であり、

は、ベクトルｘ＝［ｘ_１，．．．，ｘ_ｍ］^ＴのＬｐノルムのｐ乗である。ｐの一般的な選択肢は、ｐ＝１及びｐ＝２である。
２．ｆ_ｄ（Ｄ_ｐ，Ｄ_ｊ）は、Ｄ_ｐ及びＤ_ｊ間の深度類似度関数である。Ｄ_ｐ及びＤ_ｊは、それぞれ、ロケーションｐ及びＤ_ｊにおける深度値である。任意の類似度関数を適用することができ、単純な選択肢は、

である。ここで、σ_ｄは、正の深度拡散パラメーターである。
３．ｆ_ｓ（ｐ，ｊ）は、空間距離重み付け関数（weighting function）である。ここでもまた、多くの選択肢が存在し、単純な選択肢は、

である。ここで、σ_ｓは、正の空間拡散パラメーターである。
４．

は、ロケーションｊにおけるピクセルが前景内にあり、そのカラー値が既知であるときに１に等しく、そうでない場合にゼロに等しいマスク関数である。

拡散パラメーターσ_ｘ及びσ_ｄは、推測を行う際にカラー及び深度マップの信頼性に関係付けられる。例えば、深度マップのノイズが多い場合、ｆ_ｄ（Ｄ_ｐ，Ｄ_ｊ）は、１になるように選択され、いくつかの用途において省くことができる。本方法は、深度マップが通常利用不可能であるマッティング用途にも適用可能である。

同様に、式（５）におけるように、

を、以下のように選択することができる。

ここで、ｆ_ｃ（Ｉ_ｐ，Ｂ_ｊ）は、Ｉ_ｐとＢ_ｊとの間のカラー類似度関数である。

式（２ａ）、式（２ｂ）、式（５）及び式（６）を用いて、所与の前景及び背景ピクセルを、既知の前景及び背景の近傍から未知の領域に徐々にインペインティングすることができる。自然な選択は、或る特定の順序で既知のピクセルから未知のピクセルにピクセルを順にインペインティングすることである。いくつかの例では、インペインティングを加速するためにいくつかのピクセルは並列にインペインティングすることができる。

例えばロケーションｐにおいて、ピクセルがインペインティングされた後、そのマスク

が１にセットされ、そのカラー値Ｆ_ｐが

にセットされる。インペイントされた結果の例が、テクスチャー画像のみを用いて図６に示されている。図６（ａ）は、元の前景であり、図６（ｂ）は、最初の犬の画像の未知のエリアにおけるインペインティングされた前景である。背景も同様にインペインティングすることができ、インペインティングされた背景の例が図６に示される。ここで、図６（ｃ）は元の背景であり、図６（ｄ）はインペインティングされた背景である。図６（ｃ）における円内の突起は図６（ｄ）においてなくなっている。

このプロセスの利点は、ベイズマッティングにおけるようにＦ_ｐ及びＢ_ｐの連立一次方程式を解く必要がないことである。代わりに、式（２ａ）、式（２ｂ）、式（５）及び式（６）を用いたインペインティングのみが行われればよい。計算値又は他の予測値と置き換えられた

を用いてＦ_ｐ及びＢ_ｐを更新するための他の方法も用いることができる。例えば、１つの方法は、目的関数を最小にすることができる。

ここで、ρ_Ｆ（Ｆ_ｅ）及びρ_Ｂ（Ｂ_ｅ）はそれぞれ、

からの偏差を測定し、λ_Ｆ及びλ_Ｂは、３つの項に異なる重点をおくための正の定数である。式（７）の

及びｅ_ｐは、ベイズマッティングにおけるように連立一次方程式を解くことによって解くことができる。

Ｆ_ｐ、Ｂ_ｐの推定値、及びα_ｐの以前の値

を所与として、式（４）を用いてα_ｐを解くことができる。そのように計算されたα_ｐを、その近傍からの予測因子及びｐにおける値と組み合わせて、より安定した推定値を得ることができる。これにより、以下が得られる。

ここで、

である。βは、マッティング及びフィルタリングのバランスをとるための０～１の定数である。

これはフィルタリングプロセスであり、ここで、元のマット又は入力マットα_ｊは、新たな推定値又はフィルター出力

を得るために重み

を通じてローカルで重み付けされた平均によって変更される。そのようなフィルタリングは、入力における望ましくない成分を除去するのに役立ち、この場合は、式（４）から得られたα_ｐの変動を低減するのに役立つ。

と同様に、

は、以下のように選択することができる。

ここで、ｆ_ｃ（Ｉ_ｐ，Ｆ_ｊ）、ｆ_ｄ（Ｄ_ｐ，Ｄ_ｊ）及びｆ_ｓ（ｐ，ｊ）は、カラー、深度、及び空間距離類似度関数として同様に定義される。

項ｆ_α（α_ｐ，α_ｊ）は、α_ｐ及びα_ｊ間の類似度関数である。任意の類似度関数を用いることができ、単純な選択肢は、

である。ここで、σ_αは正の拡散パラメーターである。リアルタイムの実施態様の場合、式（９）、式（５）及び式（６）に対する様々な簡略化を行うことができる。例えば、単純なフィルタリングの場合、項ｆ_ｓ（ｐ，ｊ）を用いることができ、式（９）は、

に変換される。

原則的に、この新たな推定を反復してＦ_ｐ及びＢ_ｐを更新し、次に上記の技法を再び用いてα_ｐを更新することができる。これらのほとんどは、上記の式（８）に類似した形態を用いたフィルタリングプロセスとして書くことができる。

実験は、式（２ａ）、式（２ｂ）、そして式（４）を１回実行することによって受容可能な結果を得ることができることを示しており、これによって、リアルタイム前景抽出のために、したがって、ビュー合成のために、Ｆ_ｐ及びＢ_ｐ並びにα_ｐを近似的に得るための算術的複雑度が大幅に低減する。例示的な結果が図７に示されている。図７は、λ＝０及びλ＝０．０１の場合のベース式（４）のマッティング結果を示しており、ここで、図７（ａ）は、λ＝０の場合の式（４）の初期マッティング結果であり、図７（ｂ）は、λ＝０．０１の場合の式（４）による精緻化されたマットである。

半透明のオブジェクトを抽出する際、Ｂ_ｐ、Ｉ_ｐ及び

が与えられ、Ｆ_ｐは、部分遮蔽領域において抽出される必要がある。オブジェクト境界を除いて、

であり、Ｂ_ｐは部分遮蔽データから既知であり、したがって、

である。

式（２ａ）によるＦ_ｐの更なる平滑化を行うことができる。

代替的に、Ｆ_ｐがランダムベクトルであると仮定し、最大尤度法又は最大尤度のような方法によってＦ_ｐを推定することができる。これにより、以下を最小にすることになる。

ガウス分布ｅ_ｐ及びＦ_ｐの場合、式（１０）は、以下に変換される。

ここで、Σ_ＦはＦ_ｐの共分散行列であり、これは既知の近傍ピクセルから推定することができる。これによって、以下が得られる。

がゼロに等しいとき、式（１１）は、式（１０）に変換される。これは、Ｆ_ｐにおける不確実性がないことを意味する。

がεＩによって近似される場合、式（１１）は以下に変換される。ここで、Ｉは恒等行列であり、εは正の定数（通常小さい）である。

この形式は、Ｆ_ｐの近傍情報を用いて、以前の値

を通じて式（１０）における推定値を精緻化することができるので魅力的である。以前の値は、既知のＦ_ｐを用いて近傍ピクセルから推定することができ、式（１１）におけるように連立一次方程式を解く必要はない。実際に、式（１２）も、式（１１）の反復的解における１つの反復とみなすことができる。式（１０）及び式（１２）の双方を、境界から離れたエリアにおいて用いることができる。次に、これらの値を、上記で導入された方法において用いて、境界においてＦ_ｐ、Ｂ_ｐ及びα_ｐについて解くことができる。

次に、前景深度補正について検討する。現在の前景のマットから、その深度値が精緻化される。オブジェクト境界領域Ｒにおいて、式（２ａ）及び式（２ｂ）におけるＦ_ｐ及びＢ_ｐについての方法に類似した方法を用いて、Ｒに最も近い、

を有する値から深度値がインペインティングされる。深度は、その近傍からの深度値を用いて未知の深度を予測することによってインペインティングすることができる。

ここで、

は、前景のインペインティングされた深度を表し、

は、ロケーションｐにおける重み付け関数である。

に類似して、式（１３）における重み

を以下のように選択することができる。

ここで、ｆ_ｃ（Ｉ_ｐ，Ｆ_ｊ）、ｆ_ｄ（Ｄ_ｐ，Ｄ_ｊ）及びｆ_ｓ（ｐ，ｊ）は、カラー、深度及び空間距離類似度関数として同様に定義される。項ｆ_α（α_ｐ，α_ｊ）は、α_ｐとα_ｊとの間の類似度関数であり、任意の類似度関数を用いることができる。単純な選択肢は、

である。ここで、σ_αは正の拡散パラメーターであり、

は、深度値が既知であるか又はインペインティングされているときに１に等しいマスクである。インペインティング手順も、Ｆ_ｐ及びＢ_ｐの手順に類似しており、ここでは未知の深度値は、既知の深度値から徐々にインペインティングされる。

必要な場合、合成品質を高めるようにオブジェクト内の深度の更なる処理を行うことができる。例えば、オブジェクト境界付近の深度値は、３Ｄ効果を高めるように先鋭化することができる。さらに、時空間共同テクスチャー－深度フィルタリングを行って、後に論考するように、深度－テクスチャーの一貫性を改善し、時間的安定性を改善することができる。

これまで、前景の形状、テクスチャー及び深度値がどのように精緻化されるかの開示が行われてきた。ここで、効率的な実施及び高速アルゴリズムについて検討を行う。第１に、式（２ａ）、式（２ｂ）及び式（２ｃ）におけるインペインティングフィルターの効率的な実施が検討される。式（２ａ）から、以下の式が成り立つ。

ここで、

である。背景のためのインペインティングは同様である。他方で、式（２ｃ）における平滑化フィルターは、以下となる。

ここで、

である。

それらの双方が、加重和（weight sum）の形態を有し、したがって、これらの実施は類似している。加重和における乗算数等の数学的複雑度を低減するために、

における（及びそれに類似して、ｆ_α（α_ｐ，α_ｊ）も有する

における）重み付け関数ｆ_ｃ（Ｉ_ｐ，Ｆ_ｊ）、ｆ_ｄ（Ｄ_ｐ，Ｄ_ｊ）及びｆ_ｓ（ｐ，ｊ）は、限られた離散レベルに量子化される。したがって、それらの積を予め計算し、G． A. Ruisの論文に記載されているようなカノニカル署名数字（ＣＳＤ）として、又は引用することによりその全体が本明細書の一部をなす、論文S. C. Chan及びW. Liu他「Multiplierless Perfect Reconstruction Modulated Filter Banks with Sum-of-powers-of-two Coefficients」IEEE Signal Processing Letters, vol. 8, pp. 163-166, (2001)において記載されているような、２つの係数の冪数の和として記憶することができる。積は以下の形態をとる。

結果として、式（１５）における数ｕと上記のＣＳＤとの乗算を、

のように実施することができる。
この結果、非ゼロのｐ_lごとにｕを２^－ｌだけシフトし、これらを合算することになる。このため、そのようなＣＳＤ数とＦ_ｊとの乗算は、一連のバイナリシフト及び累積として効果的に実施することができる。したがって、加重和は、最大で、ここでも同様に計算することができる、

のスケーリングまで乗算なしで実施することができる。テーブルルックアップ又は他の高速な方法によって実施することができるフィルター出力を得るために分割が必要とされる。

が、０及び１の値を仮定し、これは、積が累積中にＦ_ｊに乗算されるか否かを示す。

平滑化の場合、様々なロケーションにおけるフィルター出力を並列に計算して、計算時間を低減することができる。

高速実施の場合、カラー項ｆ_ｃ（Ｉ_ｐ，Ｂ_ｊ）又はｆ_ｃ（Ｉ_ｐ，Ｆ_ｊ）及び深度項ｆ_ｄ（Ｄ_ｐ，Ｄ_ｊ）を１に設定することができ、この結果、近傍の既知の値又は更新されたピクセルからの重み付け予測（weighted prediction）が得られる。

さらに、ウィンドウ

の異なる所定のサポートを、

に従って設計し選択することができる。これはサポートに密にマッチする。

よりも僅かに小さいサポートを有するフィルターを選択することができる。代替的に、

が、

よりも大きなサポートを有する場合、

ではなく、

に関与する欠落データを、その最近傍と置き換えることができる。

所定のサポート及び重みを用いる利点は、スケーリング

を重み

に吸収して、１組の固定フィルター係数

を形成することができることである。ここでも、これらはＣＳＤとして表すことができる。結果として、フィルタリング全体を、シフト及び加算のみを用いて実施することができる。

高速の所定のマッティングプロファイルは、本発明の別の態様である。高速実施の場合、マットが「所定のプロファイル」を辿ることを仮定することができる。例えば、前景バイナリ形状画像は、

を得るために、境界エリア上の一定の拡散パラメーターσを用いて以下のガウスカーネルフィルターによってフィルタリングすることができる。

これは、β＝０、及び入力バイナリ形状／マットα_ｊによって入力が与えられた、

を有する式（８）を用いることに等しい。

換言すれば、式（４）及び平滑化を用いてマットを推定する代わりに、バイナリ形状画像をフィルタリングして、観測と無関係に所定のプロファイルを得る。これにより、性能の僅かな劣化と引き換えに、複雑度がかなり低減される。

代替的に、所定のプロファイル

を、インペインティングされた前景及び背景を用いてマットを精緻化するための式（４）の事前情報として用いることができる。フィルター係数

をＣＳＤに量子化して、フィルタリング除去することができる。このため、この推定は、シフト及び加算によってのみ実施することができる。

現在の前景が抽出された後、これに応じて背景を更新しなくてはならない。テクスチャー及び深度の双方を更新する必要がある。

テクスチャーの更新時に、抽出された前景に関連付けられた部分遮蔽データに含まれる画像データを用いて、残りの背景の遮蔽除去エリアを更新する。現在の前景のマットが非ゼロであるこれらのロケーションにおいて、背景内の部分遮蔽データによってカバーされる全てのピクセルが、平滑な遷移を得るために現在の背景を用いてマッティングが行われることになる部分遮蔽画像データの境界を除いて、更新された背景における前景のトレースを除去するように上書きされる。

生じ得る穴を埋めるために更なるインペインティングが必要とされる場合がある。これは、式（２ｂ）の技法によって行うことができる。

深度データも更新されなくてはならない。抽出されたばかりの前景／オブジェクトが、オブジェクトがオーバーラップする状況において最小の深度を有する前景／オブジェクトでない場合、部分遮蔽データは、少なくとも、関連付けられた形状によって定義される現在のオブジェクトの中の平均深度値を提供するべきである。そして、通例、抽出されたばかりの前景と最も近い平均深度を有する次のオブジェクトの深度情報が、部分遮蔽データを用いて更新される。

次のオブジェクトによって定義される境界内の穴を埋めるのにインペインティングが必要とされる場合がある。オブジェクト境界内で深度値の平滑化又は他の処理が必要とされる場合がある。

上述した抽出及び更新プロセスは、全てのオブジェクトが処理されるまで、次のオブジェクト（通例、最小の平均深度を有するオブジェクト）について繰り返されることになる。

マッティング中、或る特定の境界領域は、カラー及び深度データを含まない場合があり、このとき、精緻化された形状として形状画像が用いられる。

図８（ａ）は、前景オブジェクトの抽出後の図２（ａ）の画像の背景を示す。図８（ｂ）は、図３（ｂ）におけるオブジェクト２の形状画像を用いて抽出されたオブジェクトを示し、図８（ｃ）は、図３（ａ）におけるオブジェクト１の形状情報を用いて抽出されたオブジェクトを示す。

図９は、オブジェクト抽出後の深度マップを示す。図９（ａ）は、オブジェクト抽出後の背景を示し、図９（ｂ）は、オブジェクト１を用いて抽出されたオブジェクトを示し、図９（ｃ）は、オブジェクト２を用いて抽出されたオブジェクトを示す。

記憶及び送信のために、遮蔽エリアにおける画像、深度及びマットデータの圧縮が必要である。

上述したように、部分遮蔽データは、指定された視点変更にわたる低アーチファクトを用いたビュー合成を容易にするように部分遮蔽エリアを埋めることが必要とされる更なる情報を含む。部分遮蔽データは、画像データ並びにそれらの関連する深度及びマット（不透明度）データを含み、それによってそれらは、特定のビューの元のビデオ及び深度データを用いてマッティングし、低アーチファクトビュー合成を行うことができる。

図５から、オブジェクトの部分遮蔽データに関連付けられた深度マップが、局所的な不連続部を除いて、通例平滑であることを見て取ることができる。図５の例の場合、半透明のオブジェクトが存在せず、このため、平均不透明度は１に等しい。通例、マットの変動は非常に小さく、平均値のみを用いて表すことができる。このため、バイナリ画像のみを圧縮すればよい。バイナリ画像の境界におけるマットが、平均値と異なる値を仮定する場合、これらは、ブロックベースの画像符号化技法を用いて符号化することができる、オーバーラップしていないブロックによってカバーすることができる。

遮蔽除去エリアの画像、深度及びマットデータ（上述したように、符号化される実数値マットは、バイナリ形状画像の境界の周りにある）を圧縮するために、ＤＣＴを用いた変換符号化、又はウェーブレット変換等のサブバンド符号化技法等の従来の波形符号化技法を用いることができる。例えば、引用することによりその全体が本明細書の一部をなす、R. M. Gray「Source Coding Theory」Kluwer Academic Publishers, (1990)を参照されたい。変換符号化は、通例、データブロックに対し機能するため、遮蔽除去データは、元の画像座標に対する最小限のブロック数によってカバーされる。

図１０（ａ）は、形状及び深度マップから推定される部分遮蔽画像データを示し、図１０（ｂ）は、ブロックベースの符号化のための部分遮蔽画像データをカバーするためのブロックのロケーションを示す。図１０（ｂ）において、遮蔽除去データをカバーするのに用いられる（８×８）のブロック（白色）のロケーションが示される。通常、矩形ブロック、可変ブロックサイズ又は他の区分を用いることもできる。遮蔽エリアは、符号化のためのオーバーラップしていない矩形ブロックに分割されることが想定される。

左側の図におけるオブジェクトＡの形状画像及び深度マップを所与として、右側の図におけるオブジェクトＡの形状画像Ａ’を生成することができる。シフトされた形状画像とオーバーラップしない元の形状画像におけるエリアは、このオブジェクトに起因した遮蔽除去エリアを表す。このエリアのサイズは、左側のビューと、右側のビューとの間のカメラ位置のシフトに関連する。したがって、遮蔽除去エリアのサイズは、ビュー合成中にサポートすることができる最大カメラシフトから選択される。このエリアと、現在のオブジェクトの背後のオブジェクト、例えばＢの形状画像との交差部は、ＢにおけるＡの対応する遮蔽除去を表す。図１０（ａ）は、背景におけるオブジェクト１及び２の遮蔽除去エリアを示す。

圧縮された形状及びデータマップを用いて遮蔽除去領域を決定する場合、遮蔽除去領域は、左側のビュー及び右側のビューのカメラ位置シフトを所与として、復号器において一意に決定することができる。代替的に、形状画像の左境界を含む各ブロックに続く水平方向における画像ブロック数を符号化することができる。同じ左境界から生じる２つの連続したブロック行における画像ブロック数は、異なる形で符号化することができる。引用することによりその全体が本明細書の一部をなす、１９５２年７月２９日に発行されたC. Chapin Cutlerの米国特許第２，６０５，３６１号「Differential Quantization of Communication Signals」を参照されたい。

画像データは、３つのカラー成分を含むことを除いて、深度及びマットデータに類似している。一般的に用いられるカラー成分は、デシメーションを用いるか又は用いないＹＣｒＣｂ又はＹＵＶカラー成分を含む。

本発明によれば、以下のように部分遮蔽データの符号化のための帯域幅を更に低減するいくつかの方法が存在する。
１．入力ビデオ及び深度マップから部分遮蔽データを予測する。
２．以前に符号化された近傍ブロックから部分遮蔽データの各ブロックを予測する。
３．同じ行における開始深度不連続部から遠く離れたブロックのための量子化誤差を徐々に増大させる。

第１に、入力ビデオ／ステレオ及び深度マップ（複数の場合もある）からの予測方法が検討される。画像及び深度部分遮蔽データは、ほとんどの場合、背景層から到来するので、それらの値は、それぞれ、入力画像及び深度マップにおける近傍ピクセルに近いか又は相関付けられる。符号化される画像（深度）ブロックを所与として、ブロックマッチングを用いて、入力画像（深度マップ）から或る特定の検索範囲内の類似ブロックを得ることができる。以前に符号化されたピクセルも、検索エリアに含めることができる。最良マッチング予測ブロックの予測誤差が大きい場合、他の符号化モードが検討される。そうでない場合、最良のマッチングブロックを現在のブロックへの予測因子として用いることができ、現在のブロックから最良のマッチングブロックへの対応する変位も符号化される。例えば、近傍変位からの追加の予測を用いて変位の大きさを低減することができ、残りの変位ベクトルはエントロピー符号化される。これは、従来のビデオ圧縮の運動推定に類似しているが、これは、遮蔽除去データのコンテキストにおいて用いられ、予測は現在の時点内にある。この方法は、画像（深度）と部分遮蔽除去成分との間の変位予測に基づくため、「成分間変位予測」と呼ばれる。成分間変位予測図を示す図１１を参照されたい。ステレオ画像の場合、１つのビューにおける部分遮蔽除去画像データを他のビューから予測することができる。

部分遮蔽データの隣接深度値を用いて、他のビューにおける現在のピクセルのロケーションを示すことができ、これを用いて、他のビューから予測因子を抽出することができる。

そのような予測が失敗する場合、ブロックは、現在のフレーム内の部分遮蔽データ内のデータから符号化することができる。以前に符号化された近傍ブロックから現在のブロックを予測する効果的な方法は、イントラ予測を用いることであり、これらの符号化されたブロックの境界における値を用いて、符号化されることになる現在のブロックのための予測因子を形成する。これは、現在のビデオ符号化規格において頻繁に用いられている。引用することにより本明細書の一部をなす、G. J. Sullivan他「Overview of the High Efficiency Video Coding (HEVC) Standard」IEEE Trans. Circuits and Systems for Video Technology, vol. 22, pp. 1649-1668, (2012)を参照されたい。

上述したように、本発明は、深度マップ、マット及び画像データにおいて遭遇する平滑表面を効率的に扱うことができる、双線形関数近似に基づく新たなイントラ予測方法も伴う。

画像データの深度マップ、マット（不均一な不透明度を有する半透明オブジェクトの場合）、及び特定のカラー成分であり得る、部分遮蔽除去データの成分を検討する。さらに、エリアが、図１０（ｂ）に示されるように、符号化のためのオーバーラップしていないブロックによってカバーされていると仮定する。各ブロックは、符号化のために、小さなブロックに更に分割することができる。

ブロック内の値をｄ（ｘ，ｙ）とし、これらは、Ｗｉｋｉｐｅｄｉａの論文によって示されるように、双線形関数によって近似されることになる。表記の都合上、矩形整数グリッド（ｘ，ｙ）∈［０，Ｎ_１］×［０，Ｎ_２］において双線形近似が行われると仮定する。近似される必要がある現在のブロックは、整数グリッド（ｘ，ｙ）∈［１，Ｎ_１］×［１，Ｎ_２］内に位置し、ここで、ｘ及びｙは、それぞれ水平座標及び垂直座標であり、Ｎ_１×Ｎ_２は、ブロックサイズである（図１２（ａ）を参照）。図１２において、マット／深度／カラー画像予測は、例示のために、ブロックサイズＮ_１＝Ｎ_２＝８を有する双線形関数によって示される。符号化される４つのパラメーターは、黒い円でマーキングされる。隣接するブロックが平滑である場合、これらのパラメーターは、符号化されるブロックの上、左上及び左の符号化ピクセルから予測することができる。図１２（ａ）は境界ブロックであり、図１２（ｂ）は非境界ブロックである。黄色（Ｙ）でラベル付けされた（格子模様の）ピクセルは、元の背景からのものである。

簡単にするために、（ｘ，ｙ）における双線形関数ｆ（ｘ，ｙ）の近似値が以下の式によって与えられると仮定する。

ここで、ｆ（Ｎ_１，０）、ｆ（０，Ｎ_２）及びｆ（Ｎ_１，Ｎ_２）は、包囲する角部における双線形関数の関数係数である。

所与の部分遮蔽データの境界を含むブロックについて、符号化される値ｄ（ｘ，ｙ）は、ブロックの一部を占有することができる（図１２（ｂ）を参照）。しかしながら、それらのサポートは、遮蔽除去データの形状から一意に定義される。これらのロケーションは、矩形グリッドの一部であり、したがって、関連付けられた深度値を依然として双線形関数によって近似することができ、これは、グリッドの角部における値を通じて指定することができる。適切に選択された双線形関数及び形状画像の係数から、ブロック内の成分値ｄ（ｘ，ｙ）に対する近似又は予測を計算することができる。代替的に、元の背景における近傍ピクセルを用いて、符号化のための完全なブロックを形成することができる。これは、図１２（ｂ）におけるブロックの左上角部における黄色（Ｙ）でラベル付けされた（格子模様の）ピクセルによって示される。

近似関数のパラメーターｆ（０，０）、ｆ（Ｎ_１，０）、ｆ（０，Ｎ_２）及びｆ（Ｎ_１，Ｎ_２）は、式（１８）の最小二乗又は所与のデータ点への他の当てはめから得ることができる。

データ当てはめを必要としない高速アルゴリズムを、リアルタイム実施で用いることもできる。非境界ブロックの場合、角部の周りのサンプルからの関数値を直接推定し、プロセスを簡略化することができる。代替的に、ブロック内の代表点を取り出すことができ、プロセスは、所与のデータに対する面当てはめを行うことができる。次に、４つの角部における値を評価し、Cutlerの特許における差分パルス符号化変調（ＤＰＣＭ）、並びに、例えば、Grayのテキスト及びhttp://www.stevenpigeon.com/Publications/publications/ HuffmanChapter.pdfで入手可能な論文Steven Pigeon「Huffman Coding」におけるような（２×２）ＤＣＴを用いた、以前に符号化されたサンプルからのエントロピー符号化又は変換符号化によって符号化することができる。最も低い次数のＤＣＴ係数のみが符号化される場合、これはブロックに対する定数近似に変換される。

非境界ブロックの場合、近傍の符号化されたブロックから、左上、右上、及び左下の角部に位置する３つの関数係数を推定することができる。平滑な深度値の場合、パラメーターのうちの３つをこれらの予測因子によって表すことができ、１つの関数係数のみを符号化すればよく、ここでも、他の関数係数値からＤＰＣＭ符号化することができる。境界ブロックの場合、関数係数のうちの全て又はいくつかが符号化される必要がある。それらの値は、付近の符号化されたブロックにおける値と相関付けることができ、したがって、これらは以前に符号化された情報から予測することもできる。

本発明の別の特徴は、階層型双線形近似の使用である。固定ブロックサイズを用いる代わりに、双線形イントラ予測のブロックサイズを、平滑であるが局所的に変動する画像コンテンツに対する効率的な近似を与えるように変動させることができる。可変ブロックサイズを選択する可能な方法は、所与のブロックを４つの等しい大きさのサブブロックに選択的に分割することである。これによって、効率的な予測のための入力画像の可変かつ階層型の分解がもたらされる。

これについては、（８×８）のブロックが検討される図１３に示される。（８×８）ブロック全体が、双線形関数によって近似される場合、図１３に示すように、ｆ（０，０）、ｆ（Ｎ_１，０）、ｆ（０，Ｎ_２）及びｆ（Ｎ_１，Ｎ_２）によってラベル付けされたブロック円として４つのパラメーターが示される。（８×８）ブロックが４つの（４×４）サブブロックに分割される場合、各サブブロックは、４つの追加パラメーターを必要とすることになる。（８×８）ブロックの左上の角部における、（斜線を中に有する）青色（Ｂ）でマーキングされた（４×４）サブブロックを検討する。上及び左の３つの関数係数は暗い円でマーキングされているのに対し、右下の角部の係数は（水平線を中に有する）緑色（Ｇ）でマーキングされている。暗い円内の３つの係数は、それらの位置の周りで符号化された係数から予測することができる。深度マップが平滑である場合、これらの予測因子を、関数係数として用いることができ、（水平線を中に有する）緑色でマーキングされた係数のみが符号化されればよく、ここでも、他の３つの係数から予測することができる。これは、（水平線を中に有する）緑色でマーキングされた追加の係数を有する他の３つの（４×４）サブブロックについて生じるが、元の（８×８）ブロックの係数とも一致する右下角部については除く。換言すれば、ブロックが４つのサブブロックに分割される場合はいつでも、以前に符号化された係数を用いて上及び左角部の係数を表す場合、３つの更なる係数が符号化される必要がある。

図１３において、（４×４）サブブロックのためのものは（水平線を中に有する）緑色（Ｇ）の円でマーキングされており、第１レベルの分解としてラベル付けされている。（４×４）サブブロックの場合、更なる分解が行われ、符号化されることになる更なる係数が、（垂直線を中に有する）赤色（Ｒ）の円でマーキングされている。

このプロセスをより大きなブロックサイズに適用して、階層型表現を形成することができる。各ブロックにおいて、分解は、或る特定の近似精度が達成されるまで行うことができる。

本発明を実行する際に、残差を検討し、符号化することも必要である。予測残差と呼ばれる近似誤差は、残差の選択されたブロックの直接差分パルス符号化変調（ＰＣＭ）符号化等の変換符号化又は他の技法を用いて符号化することができる。例えば、非ゼロの量子化残差を有する一連の最小の大きさのサブブロック、例えば（４×４）のロケーションが指定される。シーケンス内の（４×４）サブブロックの相対的なロケーションを、チェーンコード（図１４（ａ））によって符号化することができる。この方法は、分離した非ゼロ量子化残差を符号化するのに効率的であり、他のサブブロックサイズが用いられてもよい。

代替的に、ゼロ及び非ゼロサブブロックをバイナリビットによって示すことができる。これは、算術符号化（図１４（ｂ））又は算術コードを用いたクアッドツリーを用いて符号化することができる。図１４（ｂ）において、０及び１におけるバイナリ画像が、コンテンツベースの算術コードを用いて符号化される。

非ゼロサブブロックにおける量子化係数は、或る特定の順序で走査し、ＤＰＣＭ又は他の類似の技法（図１４（ｃ））を用いて符号化することができる。図１４（ｃ）において、垂直走査が示されているが、水平、ジグザグ、又は他の走査順序が用いられてもよい。これらの方法及び他の方法の組み合わせも用いることができる。

現在のフレーム内のブロックを予測するのに用いることができる別の技法は、以前に圧縮された（他の時点又はビューにおける）基準フレームからのデータを用いることである。このタイプのフレーム間又はビュー間技法は、S. C. Chanの論文におけるようなマルチビュービデオ符号化において頻繁に用いられている。ブロックは、上述したようなインター予測又はイントラ予測のいずれかを用いて符号化することができ、残差は、上述したように符号化することができる。

次に、視差を意識した量子化誤差が検討される。通常、最大視点変更が選択されるとき、オブジェクト境界から遠く離れた遮蔽データが用いられる。しかしながら、これは常に当てはまるわけではない場合があり、したがって、ビットレートが制限されているとき、これらの遮蔽データには、より低いレートが与えられる。原則的に、近傍フレームからのワンタイムフレームにおいて部分遮蔽データを予測することが可能である。しかしながら、補助データが、テクスチャーコーデックと独立して符号化されることが想定されるので、スキップされる画像フレームから基準が予測されないことを確実にすることが重要である。そうでない場合、これを再構成することは可能でない場合がある。ビットレートを更に低減するために、部分遮蔽データ内の連続水平ブロック又は垂直ブロックの流れにサブバンド符号化を適用することができる。例えば、図１０（ｂ）において、サイズ（ＬＮ）×（Ｎ）のブロックの多くの水平行が存在する。ここで、Ｌは連続ブロック数であり、（Ｎ×Ｎ）はブロックサイズである。次に、ウェーブレット変換等のサブバンド符号化をこれらのブロックに適用して、より長い長さを有する変換を生成することができる。これにより、（８×８）のＤＣＴのみを用いることの符号化効率が改善する。例えば、水平ウェーブレット変換を２回行うことができ、１回目はサイズ（ＬＮ／４）×Ｎの最低周波数帯域を生成するためのものであり、２回目は、サイズ（ＬＮ／４）×Ｎ及び（ＬＮ／２）×Ｎの他の高周波数帯域を形成するためのものである。最低サブバンド係数は、ＤＣＴを用いて符号化することができ、ここで、より高い周波数係数を、粗く量子化することができる。これにより、サイズ（３２×８）の変換が効率的に生成される。

上述したように、テクスチャーと視差マップとの間の非一貫性又は誤差は、精緻化も補正もされない場合、レンダリングにおける明確なアーチファクトにつながる。さらに、現在の視差マップは、通例、フレーム単位で推定されるので、時間的一貫性は、通常確保されない。

図１５（ａ）及び図１５（ｂ）は、それぞれ、同じパラメーターを有する同じステレオ推定方法を用いて推定された２つの連続したテクスチャー及び深度画像フレームを示す。赤色（Ｒ）の円を用いてラベル付けされたエリアにおいて大きな非一貫性が存在するが、２つのフレームは極めて類似していることを見てとることができる。レンダリング中、この時間的非一貫性により、これらのエリアにおいてキラキラしたアーチファクトが生じる可能性がある。

深度マップの精緻化のために一般的に用いられる方法は、引用することによりその全体が本明細書に引用される、論文C. Tomasi他「Bilateral filtering for gray and color images」IEEE Sixth International Conference on Computer Vision, pp. 839-846, (1998)において開示されるようなバイラテラルフィルターである。この方法において、各ピクセルにおける精緻化された深度値は、以下の式に従って、現在のピクセルからの空間差及び強度差によって重み付けされた近傍ピクセルの平均から得られる。

ここで、ｐ＝（ｘ_ｐ，ｙ_ｐ）は、現在のピクセルの座標であり、ｓ＝（ｘ_ｓ，ｙ_ｓ）は、ピクセルｐを中心とした近傍Ｎ内のサポートピクセルの座標であり、｛Ｉ_ｐ｝は、入力自然画像であり、｛Ｄ_ｐ｝は、入力視差マップであり、｛Ｄ’_ｐ｝は、出力又はフィルタリングされた視差マップであり、

は、正の拡散パラメーターσ_ｓを有する空間ガウス重み付け関数であり、

は、正の拡散パラメーターσ_ｃを有するカラー／範囲重み付け関数である。表記の都合上、２次元画像は、座標ｐによってインデックス付けされ、入力自然画像、視差マップ等は、それぞれ、座標ｐ、｛Ｉ_ｐ｝及び｛Ｄ_ｐ｝等によってインデックスされた組として書かれる。

バイラテラルフィルターは、エッジを保持しながら、画像を平滑化するように作用する。バイラテラルフィルターは、引用することによりその全体が本明細書の一部をなす、T. Matsuo他「Weighted Joint Bilateral Filtering with Slope Depth Compensation Filter for Depth Map Refinement」VISAPP(2), pp. 300-309, (2013)に示すような共同バイラテラルフィルターに一般化される。ここで、重みは、フィルタリング入力ではなく、別のガイダンス画像から計算される。共同バイラテラルフィルターは、フィルタリングされる画像が、所望の情報に対し信頼性がないとき、例えば非常にノイズが多いか又は中間結果であるときに、有用である。

提案されるフィルターは、以下の利点を有する。
１．フィルタリングプロセスにローカルコンテキスト情報を組み込むことによって、エッジの周りの従来のバイラテラルフィルターのアーチファクト及び勾配反転を低減する。
２．Ruizの論文に示されるように、カノニカル署名数字（ＣＳＤ）によるフィルター重みを表すことによって、効率的な実施構造を与える。

提案される方法は、ビデオシーケンスにおける複数の連続したテクスチャー及び深度画像を処理する。ビデオを３Ｄボリュームとして扱うことによって、精緻化された深度マップが以下によって得られる。

ここで、ｐ＝（ｘ_ｐ，ｙ_ｐ，ｔ_ｐ）は、フレームｔ_ｐにおける現在のピクセルの座標であり、ｓ＝（ｘ_ｓ，ｙ_ｓ，ｔ_ｓ）は、ｔ_ｓ番目のフレームにおけるピクセルｐを中心とした近傍Ｎにおけるサポートピクセルの座標であり、Ｉ_ｐ及びＩ_ｓは、それぞれロケーションｐ及びｓにおける強度である（原則的に、カラーベクトルも用いることができる。強度は、複雑度を低減するのに用いられる）。｛Ｄ_ｐ｝は、入力視差マップであり、｛Ｄ’_ｐ｝は、出力又はフィルタリングされた視差マップである。ξは、エッジマップボリュームであり、キャニーエッジ検出及びゾーベルエッジ検出等の従来のエッジ検出方法を入力自然画像の各フレームに適用することによって得ることができる。

は、空間距離及び時間距離の重要度のバランスをとるための、正の拡散パラメーターσ_ｓ及び定数ρを有する時空間ガウス重み付け関数であり、

は、正の拡散パラメーターσ_ｃを有するカラー／範囲重み付け関数である。

｛Ｒ_ｓ’｝は、視差マップのフレームごとの事前計算された信頼度マップであり、Ｒ_ｓは、ロケーションｓにおけるその値である。ステレオ推定又は深度カメラ等のよく知られた方法から取得される視差マップの観察から、オブジェクト境界の周りの視差マップは、通例、非常にノイズが多い。このため、エッジの周りの視差マップの信頼度を低減することが望ましい。例えば、これは以下のように事前計算することができる。

ここで、Ｅ_ｄは、視差マップのエッジマップであり、ＤＴ（Ｅ_ｄ，ｓ’）は、最近傍の障害物ピクセル（obstacle pixel）への距離を用いて画像の各ピクセルｓ’をラベル付けする距離変換関数であり、σ_ｄは、所定の正の拡散パラメーターである。

ｇ（ｐ，ｓ，ξ）は、ローカルコンテキスト情報の尺度であり、以下によって与えられる。

ｇ（ｐ，ｓ，ξ）の計算が図１６（ａ）に示されている。エッジは、「ｘ」によってラベル付けされている。ｐがエッジピクセルである場合、ｇ（ｐ，ｓ，ξ）＝１である。ｐがエッジピクセルでない場合、フレームｔにおけるエッジマップのパッチを所与として、ｐからｓに直線を引く。直線は、４つの連結されたサブブロックでなくてはならず、図１６（ａ）において、青色（影付き）でラベル付けされている。線内にエッジピクセルが存在する場合、ｇ（ｐ，ｓ，ξ）＝１であり、そうでない場合、ｇ（ｐ，ｓ，ξ）＝０である。計算された（ａ）の例が図１６（ｂ）に示されている。特に、図１６は、「ｘ」によってラベル付けされたエッジを示す。検討される２つのピクセルは、ｐ及びｓによってラベル付けされ、ｐからｓへの直線は、青色（影付き）である。図１６（ｂ）において、図１６（ａ）からｇ（ｐ，ｓ，ξ）が得られ、ここで、ローカルピクセルは１によって茶色でラベル付けされ、非ローカルピクセルは、黒色で０によってラベル付けされている。

空間領域又は時間領域の双方でデータのブロックに対しフィルタリングを行う代わりに、フィルタリングは、空間フィルタリングのための式（２０）を用いて（すなわち、現在のフレームについてのみ）行い、その後、再び、式（２０）を用いた時間フィルタリング（すなわち、例えば２×２のサイズの小さな空間ウィンドウを用いるが、より長い時間ウィンドウを用いる）を行うことができる。これにより、算術的複雑度が大幅に低減される。この技法は、一般的に、「分離可能フィルタリング」と呼ばれる。

フィルタリングプロセスをより良好に説明するために、フレームｔにおけるパッチが例として選択され、式（１９）における各成分が選択される。重み付けがどのように組み合わされるかの流れ図が図１７に示される。図１７において、時点ｔにおける入力画像が（ａ）に示され、時点ｔにおける入力深度が（ｂ）に示され、（ｃ）は、（ａ）の推定エッジであり、（ｄ）は、時点ｔにおけるカラー重み付けｃ（Ｉ_ｐ，Ｉ_ｓ）であり、（ｅ）は、ローカルコンテキストマスクｇ（ｐ，ｓ，ξ）であり、（ｆ）は、視差マップの信頼度｛Ｒ_ｓ’｝であり、（ｇ）は、時点ｔにおける時空間ガウス重み付けであり、（ｈ）は、最終的な組み合わされた重み付け関数である。

主要な特徴は以下のとおりである。
１．時間的重み付けを用いて、特に静的領域における深度マップの時間安定性を改善する。
２．ローカルコンテキストマスク関数ｇ（ｐ，ｓ，ξ）を用いて、エッジ情報を用いてローカルコンテキストを強調する。
３．図１７（ｆ）に示す深度信頼度項Ｒを追加することによって、視差マップのエッジの周りの重み付けが低減される。
４．重み付け関数ｗ（ｐ，ｓ）及びｃ（Ｉ_ｐ，Ｉ_ｓ）は、必ずしもガウス重み付け（カーネル）関数ではない。実際に、これらは、値の限られた組に量子化することができ、それによって、ｗ（ｐ，ｓ）ｃ（Ｉ_ｐ，Ｉ_ｓ）とＤ_ｓとの乗算を加算によってのみ実施することができるように、カノニカル署名数字（ＣＳＤ）の形態で積を事前に計算し、表すことができる。これにより、精緻化方法の実施における算術的複雑度が大幅に低減する。
５．算術的複雑度を低減するための分離可能な空間及び時間フィルタリングの使用。

図１８は、いくつかの代表的なパッチを示し、それらの重み付けカーネルを従来のバイラテラルフィルターと比較する。従来のバイラテラルフィルター及び提案される方法によって推定されるローカル重みが、それぞれ列（ｃ）及び（ｄ）に示される。図１８において、行（ｉｉｉ）は、オブジェクトの複数の部分が背景と類似の強度を共有し、従来のバイラテラルフィルターは、これらの背景エリアにより高い重みを割り当て、これによりオブジェクトの内部の深度値に影響を及ぼすことを示している。エッジ情報の使用により、これらの背景ピクセルのこれらの望ましくない寄与は、提案される方法のローカルコンテキストマスクによって抑制される。

空間的に精緻化された視差マップが図１９に示される。図１９は、フレームｔにおける精緻化された視差マップ比較を示す。ここで、図１９（ａ）は、カラー画像であり、図１９（ｂ）は、元の視差マップであり、図１９（ｃ）は、従来のバイラテラルフィルターによってフィルタリングされた精緻化された視差マップであり、図１９（ｄ）は、本発明の改善された方法によってフィルタリングされた精緻化された視差マップである。これは、提案される方法が、オブジェクト内部のより先鋭なエッジ及びより少ない誤差につながることを示す。

時間的に精緻化された視差マップが図２０に示される。精緻化前の視差マップが図２０（ａ）に示され、精緻化後の視差マップが図２０（ｂ）に示される。視差マップは、静止エリアにおいてより安定しており、連続フレームにおいて徐々に変化し、これにより、レンダリング中のアーチファクトが少なくなる。

共同重み付けフィルタリングは並列に実施することができるが、その複雑度は、リアルタイム用途の場合に依然として高い。本発明の要素は、効率的な実施を可能にする離散レベル重み付け関数法である。

フィルタリングプロセスについて、ｐ＝（ｘ_ｐ，ｙ_ｐ，ｔ_ｐ）は、現在のピクセルの座標であり、ｓ＝（ｘ_ｓ，ｙ_ｓ，ｔ_ｓ）は、ピクセルｐを中心とした近傍Ｎにおけるサポートピクセルの座標である。より詳細には、以下の変数が事前に計算され、離散レベルに量子化される。
・ｗ（ｐ，ｓ）における（ｘ_ｓ－ｘ_ｐ）^２＋（ｙ_ｓ－ｙ_ｐ）^２＋ρ（ｔ_ｓ－ｔ_ｐ）^２が、ｎ_ｄ個のレベルに量子化される。ｄ_ｓの範囲は、選択された空間ウィンドウサイズ及び時間ウィンドウサイズに依拠する。
・ｐとｓとの間の強度差、すなわち、ｅ_ｓ＝｜Ｉ_ｓ－Ｉ_ｐ｜、及びその範囲は、固定のテクスチャー画像強度の範囲に依拠する。これはｎ_ｅ個のレベルに量子化される。
・０～１の範囲をとる視差マップの信頼度｛Ｒ_ｓ’｝は、ｎ_Ｒ個のレベルに量子化される。
・複雑度を低減するための他の可能な方法は、近傍Ｎにおいて用いられるフィルタリングサンプル数を低減することである。ｐを中心とするＮは、通例、正方形として選択され、内部の全てのピクセルを用いてフィルター出力が得られる。図２１（ａ）及び（ｂ）に示すようなＮの適切なサブセットを用いることにより、性能と算術的複雑度との間のトレードオフが提供される。そのようなパターン及び更なるトレードオフは、例えば、一定のフレームワークレートを維持するため等、アプリケーションにおける処理システムの利用可能な計算能力に従ってオンラインで変動させることができる。

したがって、式（２）の離散レベル重み付けフィルターは、以下のように書き換えることができる。

ここで、

は、サブサンプリングされた近傍であり、

は、量子化された重み付け関数の積であり、量子化量を示すために下付き文字が用いられる。ｎ_ｄ×ｎ_ｅ×ｎ_Ｒ個のレベルが存在するため、積は、サイズｎ_ｄ×ｎ_ｅ×ｎ_Ｒのルックアップテーブルによって直接得ることができる。さらに、式（１５）に示すように、ルックアップテーブル内の値を、カノニカル署名数字（ＣＳＤ）に事前に変換することもできる。Ｄ_ｓとそのようなＣＳＤとの乗算は、式（１６）に示すように、シフト及び加算のみによって効率的に実施することができる。

ｇ（ｐ，ｓ，ξ）はバイナリ値であるため、分子及び分母は、加算及びシフトのみを用いて計算することができ、効率的な、乗算子なしの実施がもたらされる。離散レベル重み付けフィルターの性能を評価するために、ｎ_ｄ＝ｎ_ｅ＝ｎ_Ｒを用いた実験が、２～１１の範囲をとる量子化レベルについて行われ、フィルターの他の設定は変更されないままである。ピーク信号体雑音比（ＰＳＮＲ）が、量子化フィルターの結果と元のフィルターの結果との間で計算され、図２２（ａ）に示される。ＰＳＮＲは、６つのレベルの後にほとんど変化せず、ＰＳＮＲ値は４２ｄＢであり、実際の用途に十分高いことを見てとることができる。離散レベル重み付けフィルター及び元のフィルターのフィルター出力が、それぞれ図２２（ｃ）及び図２２（ｂ）に示されているが、これらはほとんど同一である。

述べたように、アーチファクトを意識したビュー合成（ＡＡＶＳ）方法は、聴覚系のような人間の３Ｄ知覚が、全体的な３Ｄ知覚及び品質を大幅に損なうことなく、左眼画像及び右眼画像のかなりの変形を許容することができることに基づいている。他方で、ゴースト、大きなローカル変形、穴、又は構造非一貫性等の、自然な画像からの大きな逸脱につながるアーチファクトは、全体知覚品質の大きな劣化につながる。

また、実験において、提案される２Ｄビデオ＋補助データを深度方法と共に用いて合成された新たなビューは、通例、より正確度の低い深度マップを有する２つのビューを用いるよりも、自然画像に近づく。人間の３Ｄ知覚及び上記のことを考察することにより、提案されるＡＡＶＳは、
１．１つのみのビデオ及びその関連付けられた深度ビデオが利用可能である場合、２Ｄ＋補助データを深度方法と共に用いることによって、必要な全てのビューを合成する。このためのシステムは図２３に示されている。３Ｄ効果の劣化と引き換えに、視覚アーチファクトを僅かにし、帯域幅／ストレージを低減することができる。
２．左（右）ステレオビデオ及び提案される２Ｄビデオ＋補助データを深度合成方法と共に用いて、左（右）眼に対応するステレオ又はオートステレオスコピックディスプレイによって必要とされるビューを合成する（図２５の下側部分）。ステレオビューを用いるのではなく、この手法を用いることにより、全ての必要なビューを合成するのに得られる視覚的アーチファクトが大幅に少なくなる。

いくつかの可能な構成が図２３～図２６において要約される。特に、図２３は、２Ｄビデオ＋補助データを用いて従来の２ＤＴＶ（複数の場合もある）、３ＤＴＶ（複数の場合もある）、及びオートステレオスコピック（マルチビュー）ディスプレイにおける視点変更をサポートするビュー合成のためのシステムのブロック図である。このシステムはＮ個のビューを有することが仮定される。

図２４は、マルチ入力ビデオシナリオにおいて隣接する２Ｄビデオ＋補助データを用いて従来の２ＤＴＶ（複数の場合もある）、３ＤＴＶ（複数の場合もある）、及びオートステレオスコピック（マルチビュー）ディスプレイにおける視点変更をサポートするビュー合成のためのシステムの一実施形態のブロック図である。このシステムはＮ個のビューを有することが仮定される。視点がビデオｉに近い場合、２Ｄ＋補助データビュー合成エンジン２４２へのスイッチ２４０又は切り替えプロセスを通じてデータを渡すことによって、この視点が、ビュー合成を行うために選択される。ユーザーが選択可能な幅を有する２つのカメラビューの中点付近のユーザー領域において、形状支援ビュー合成／モーフィングアルゴリズム又はエンジン２４４においてビューの融合が行われる。これにより、一方のビューから他方のビューへの切り替えによるアーチファクトが低減される。意図されるディスプレイを駆動するために、出力スイッチ又は切り替えプロセスによって、適切なモードが選択されることになる。

図２５は、マルチ入力ビデオシナリオにおいて隣接するステレオビデオ＋補助データを用いて従来のディスプレイにおける視点変更をサポートするビュー合成のためのシステムの一実施形態のブロック図である。マルチ入力ビデオシナリオにおいて隣接するステレオビデオ（例えば、図２４に示すようなビデオｉ及びビデオｉ＋１）＋補助データ（深度、部分遮蔽データ、形状等）を用いて従来の２ＤＴＶ（複数の場合もある）、３ＤＴＶ（複数の場合もある）、及びオートステレオスコピック（マルチビュー）ディスプレイにおける視点変更をサポートするビュー合成。このシステムは、Ｎ個の左ビュー及び右ビューを有することが仮定される。これは、２Ｄビデオ入力に関する図２３に類似しているが、ステレオビデオの左ビュー及び右ビューが、様々なディスプレイによって必要とされる左ビュー及び右ビューをそれぞれ生成するように別個に処理される点が異なり、これに対し２Ｄディスプレイでは、いずれか一方で十分である。視点がビデオｉに近いとき、視点は、スイッチ又は切り替えプロセス（図２５には示していない）を通じてデータを２Ｄ＋補助データビュー合成エンジン２５０に渡すことによってビュー合成を行うために選択される。ユーザーが選択可能な幅を有する２つのカメラビューの中点付近のユーザー領域において、ステレオの左ビュー及び右ビューの融合は、形状により支援されたビュー合成／モーフィングアルゴリズム又はエンジン２５２によって行われる。これによって、一方のビューから他方のビューへの切り替えによるアーチファクトが低減される。適切なモードは、意図されるディスプレイを駆動する出力スイッチ又は切り替えプロセスによって選択される。

図２６は、マルチ入力ビデオシナリオにおいて隣接するステレオビデオ＋補助データを用いて従来のディスプレイにおける視点変更をサポートするビュー合成のための図２４のシステムの第２の実施形態のブロック図である。マルチ入力ビデオシナリオにおいて隣接するステレオビデオ（例えば、図示するようなビデオｉ及びビデオｉ＋１）＋補助データ（深度、部分遮蔽データ、形状等）を用いて従来の２ＤＴＶ（複数の場合もある）、３ＤＴＶ（複数の場合もある）、及びオートステレオスコピック（マルチビュー）ディスプレイにおける視点変更をサポートするビュー合成。このシステムは、Ｎ個の左ビュー及び右ビューを有することが仮定される。これは、２Ｄビデオ入力に関する図２４に類似しているが、２つのステレオビデオの左ビュー及び右ビューが、様々なディスプレイによって必要とされる左ビュー及び右ビューをそれぞれ生成するように別個に処理される点が異なり、これに対し２Ｄディスプレイでは、いずれか一方で十分である。視点がビデオｉに近いとき、視点は、スイッチ又は切り替えプロセス２６０を通じてデータを２Ｄ＋補助データビュー合成エンジン２６２に渡すことによってビュー合成を行うために選択される。ユーザーが選択可能な幅を有する２つのカメラビューの中点付近のユーザー領域において、２つのステレオの左（右）ビューの融合は、形状により支援されたビュー合成／モーフィングアルゴリズム又はエンジン２６１によって行われる。これによって、一方のビューから他方のビューへの切り替えによるアーチファクトが低減される。適切なモードは、意図されるディスプレイを駆動する出力スイッチ又は切り替えプロセスによって選択される。

本方法を用いて、隣接する２Ｄ又はステレオビデオ＋補助データの組からの視点の連続体を深度（それぞれ、２Ｄビデオ及びステレオビデオについて図２５及び図２６に示される）と合成することができる。全ての２Ｄビデオ及び補助データをビュー合成のために受信機に送信することは不要である。実際に、これらは、ユーザーの視点に従って選択的に送信することができる。選択的送信は、画像ベースのレンダリングについて以前に提案されている。S. C. Chanの論文を参照されたい。本発明において、ディスプレイに必要な複数のビューを生成するために、１つのみのビデオ＋補助データ（ビデオは２Ｄ又はステレオとすることができる）が通常必要とされる。ビュー切り替え、すなわちビデオから別のものへの視点の変更、又は中間カメラ位置における連続ビュー合成が存在するときにのみ、双方のビデオ＋補助データからのデータを有する必要がある。

以下のように、いくつかの可能な構成が存在する。
１．ユーザーは、隣接ビュー（２Ｄ又はステレオビデオのいずれか）からの２つのそのようなビデオ＋補助データストリームを使用しており、或る特定の時間間隔において、２つのビュー間のビュー合成又はビュー切り替えを行う。ビデオ及び補助データの次の隣接する対について切り替えが必要とされる場合、次の時間間隔において新たな情報が取り出されることになる。２対のビデオがオーバーラップを有する場合、一方の更なるビデオ＋補助データが必要とされ、他方はドロップすることができる。このため、全体帯域幅は、２つのビデオ＋補助データからなる。
２．隣接ビデオ＋補助データの対をユーザーに送信する代わりに、ビュー切り替え中にデータを送信することができる。２つのビュー間の媒介物を合成するために、切り替え期間において双方のビデオデータが入手可能であるべきである。このため、全体帯域幅は、双方のデータが入手可能であるべき切り替え期間を除いて、１つのビデオ＋補助データに更に低減される。
３．（２）における切り替え中のビューが更に凍結する場合、すなわち、中間合成又はモーフィングを期間にわたって連続して行うのではなく所与の時点において行う場合、２つのビデオデータのオーバーラップを更に最小限にすることができる。実際に、切り替え中に必要とされる情報がかなり低減されるので、更に離れたビデオからのオーバーラップするデータをユーザーに送信し、ユーザーが複数のビューにわたってフライオーバー効果をエミュレートすることを可能にする。この時点における画像データは、コンテンツプロバイダーによって、フライオーバー効果を後にユーザーにより想起することができる重要なイベントを記録するために、又はターゲットビューに切り替える前の付近のビューのユーザープレビューのために選択することもできる。この場合、後の時点に切り替えを行う前に、ユーザーは付近のビューをプレビューする。ディスプレイにおいて現在のビューの正常ビューを乱さないようにするために、結果として得られる合成されたフライオーバー効果を、ユーザーの想起又は選択のためにサブウィンドウ又はピクチャーインピクチャーウィンドウ内に別個に表示することができる。

本技法は、ビュー合成のために画像変換を用いることができるビデオにも適用可能である。これらの用途において、真の深度マップは利用可能でない場合があり、元のビュー及びターゲットビューの本質的な対応する特徴をマッチさせることを意図した画像変換が代わりに行われる。この用途において、提案されるシーンにおける深度マップのうちのいくつか又は全てのためにそのような変換を行うことができる。結果として得られる変換情報又はパラメーターも補助データに埋め込むことができる。

インターフレーム予測を用いてビデオが圧縮される場合、イントラ符号化されたピクチャを、２Ｄビデオ、又はステレオビデオのうちの１つに挿入し、ユーザーのデコーダーが、イントラピクチャ時間中の復号により、１つの２Ｄ／ステレオビデオから別のフォーマットに切り替えることができるようにしなくてはならない。全ての圧縮ビデオがデコーダーにおいて入手可能である場合、これらは、適切なビューを生成するように圧縮データから選択的に復号することができる。これは、視点変更の連続体をサポートするように、１組のビデオにわたる「フリーナビゲーション」を提供する。

これらの全ての用途において、形状情報及び部分遮蔽データは、新たなビューを合成するとき、又は深度マップを先鋭化／処理するとき、合成ビデオ／複数のビデオの品質を改善するように部分遮蔽エリアが埋められることを可能にする。

２Ｄ＋深度及び補助データ方法は、或る特定の範囲にわたるインタラクティブな視点変更及び拡大をサポートするのにも適している。一方のビューから他方のビューへの従来の２Ｄディスプレイにおける視点変更をサポートするステレオビデオ＋関連する深度ビデオについて、深度不連続部等が位置合わせされていない場合、大きなアーチファクトが生じることになる。しかしながら、本発明の新規の方法を用いることにより、元の画像のうちの一方によって生成されたビューから、左視点及び右視点間の中点の周りの他方の画像へのジャンプが生じることになる。

この望ましくない影響を克服するために、新たな形状支援ビュー合成及びモーフィング方法が、一方のビューから他方のビュー（図２５を参照）へのフライオーバー効果をエミュレートするように行われる。従来のモーフィング方法を用いるのではなく、双方のビューを用いて、選択可能な幅を有する２つのカメラビューの中点の周りの領域における必要なビューを合成してフライオーバープロセスをエミュレートする。この領域のサイズ及びスイーピングレートが、結合される２つのビューの一致の観点におけるアーチファクトの或る特定の測定によって求められる。測定されるアーチファクトが大きいほど、合成品質が下がり、領域内のスイーピングレートが高速になる。このため、視覚アーチファクトが、フライオーバープロセスによって効果的に抑制される。同じ技法は、２Ｄビデオ及びステレオビデオ入力についてそれぞれ図２４及び図２６に示されているように、１つのビデオからその隣接するビューへの遷移が存在するときにも有用である。これは、上述したような視点の連続体をサポートするためにビデオの組にわたって「フリーナビゲーション」の概念をサポートする。

補助データ並びにステレオビデオ及び深度データを用いた隣接ビューからのビュー合成アルゴリズムが以下のように説明される。入力は、２つの隣接ビデオ及びそれらの深度マップである。２つのビデオは、隣接する視点において取得される一連のビデオにおいてビデオの連続する対とすることができる。

目的は、アーチファクトが可能な限り視覚的にわずらわしくない状態でビューを合成することである。述べたように、従来の画像ベースのレンダリングは、２つの隣接するビューから中間ビューを合成することを目的とし、これによりかなりのアーチファクトが生成される場合がある。補助データにおける追加の形状及び部分遮蔽データを用いて、視覚アーチファクトを低減することができる。

この方法の新規の特徴は、以下を含む。
１．合成ビューの品質を改善するための形状情報が以前に提案されてきたが、これは、上述したG. Techの論文及びS. C. Chanの論文、並びに、全て引用することによりその全体が本明細書の一部をなす、J. Lainema他「Intra Coding of the HEVC standard」IEEE Trans. Circuits and Systems for Video Technology, vol. 22, pp.1792-1801,(2012)；https://en.wikipedia.org/wiki/Bilinear_interpo及びhttps://en.wikipedia.org/wiki/Bilinear_interpolationlation；及びT. Kariya他「Generalized Least Squares」J. Wiley, 2004を用いて行うことができる。ここで検討されるのは、情報が圧縮されている場合があり、したがって、深度、画像及び形状の一貫性を確保するための更なる処理が必要とされる状況である。従来の８ビットマッティング値ではなく、バイナリ形状情報を用い、したがって、高速マッティングがオンラインで行われなくてはならない事例も検討される。
２．部分遮蔽除去データを、圧縮されデコーダーに送信される補助データに含めることは新規である。従来から、穴はオンラインでインペインティングされ、良好な合成結果を保証することは困難である。
３．合成ビューの品質は、入力ビデオ、深度及び補助データの品質に高度に依拠するので、全ての入力について完全な合成結果を確実にすることは困難である。したがって、視覚的にわずらわしいアーチファクトの知覚を低減するために１つのビューから別のビューへの遷移をエミュレートするためのスイーピング関数が導入される。スイーピングレートは、入力データのマッチング誤差に依拠する。例えば、形状画像、テクスチャー画像及び深度画像における差の尺度を用いるか又は適切に組み合わせて、スイーピングレート及びぼけを制御することができる。

オブジェクト抽出及び背景更新プロセスは、上記で説明したものに類似している。深度、形状及びテクスチャー間の一貫性が、単一ビューを用いたビュー合成には不可欠であるが、２つのそのようなビューが新たなビューを生成するように共に融合又は混合されるとき、更なる複雑性が生じる。

特に、２つのビューの融合により、オブジェクト形状、テクスチャー（カラー）画像及び深度値における様々な非一貫性に起因したかなりのアーチファクトが生成される場合がある。例えば、合成される中間ビューにおける２つの形状画像の非一貫性は、合成ビューにおける２つのビュー間のテクスチャー及び深度の双方のミスマッチに起因したゴースト効果の主要な原因である。さらに、形状及び対応する視差マップ間の非一貫性の結果、背景層への前景層の「漏れ」が生じ、逆もまた同様である。したがって、前景境界付近の背景層内のテクスチャーで伸長が生じるにつれ、アーチファクトが生じることになる。

これらの問題に対処するために、提案される「隣接ビューを用いたビュー合成アルゴリズム」は、以下のステップを実行する。
１．形状情報を用いた視差マップの補正。
２．オブジェクト層、それらのマット及び深度の抽出、並びに部分遮蔽データを用いた対応する背景の更新。
３．元の視点に近接した１つのビューを用いたレンダリング。
４．ユーザーが選択可能な幅を有する２つのカメラビューの中点の周りのユーザー領域において、所望の視認ロケーション及び再マッティングにおけるビュー及び所望のマットの融合を行って、ビュー合成のための一意のオブジェクト形状を確実にする。
５．このユーザーが選択可能な領域（２つのビューの事前に推定されたマッチング品質に従って補助データに含めることができる）においてスイーピングを行って、一方のビューから他方のビューへのフライオーバー効果を連続してエミュレートし、大きなアーチファクトの知覚を低減することができる。２つのビュー間の差が大きい場合、ビュー混合からモーフィングにシフトするための更なる処理を行うことができる。この差は、上記のステップにおける中間結果から検出することができる。

ここで、視差の補正について説明する。

まず第１に、所与のオブジェクトの境界領域Ｒが形状情報を用いて特定される。領域は、或る特定の半径ｒを用いた形態学的膨張を行うことによって画定することができる。

Ａ_Ｆが、検討中の前景オブジェクト内のＲにおける一部であるものとし、Ａ_Ｂが、背景エリアに属する残りの部分であるものとする。２つのビューにおける視差マップの左右の検査を行って、ミスマッチの視差（例えば、左右の誤差が１ピクセルを超えるとき）を検出する。前景（背景）におけるこれらのミスマッチエリアは除去され、背景（前景）の視差値からインペインティングされる。インペインティングは、上記で説明した効率的なフィルタリング方法、又は最近傍／双線形／バイキュービック／ＴＶ補間、ＴＲＡＭ若しくはバイラテラルフィルタリング等の他の従来の方法を用いて行うことができる。

これは、シーン内の形状画像によって定義されるオブジェクトごとに繰り返される。

上記の手順によって、視差マップ及び形状画像の不連続部（境界）を位置合わせして、不正確な視差マップによって生じる可能なアーチファクトを最小限にすることができる。図２７及び図２８は、２つの層を有するシーケンスについてそれぞれ、背景及び前景の元の視差マップ及び補正された視差マップを示す。オブジェクトの首、手及び脚の周りの背景におけるいくつかの不正確な値が補正されていることを見てとることができる。

単一のビューのための一般的なプロセスが上記で説明された。このプロセスは、視差補正後に２つのビューについて別個に行われる。図２９は、２つの層の抽出の例を示す。復号された遮蔽除去データを用いて背景を更新することができる。

遮蔽データを生成する際、遮蔽検出を用いて遮蔽除去エリアを位置特定し、データが適切なアルゴリズムによって、又は必要な場合、良好な合成品質を保証するために人間の介入によりインペインティングされる。他の層とオーバーラップしない層内の遮蔽、すなわち、自己遮蔽の場合、インペインティング値は、述べた様々なインペインティングアルゴリズムを用いて、より低い視差値エリアから伝播することができ、圧縮される補助データとして記憶することができる。図３０は、検出される遮蔽を示し、これはインペインティングされ、補助データに入れられる。

左ビュー及び右ビューにおける背景が、それらのそれぞれの深度マップを用いて所望の視認位置にワープされる。２つの境界における遮蔽に起因して、カラーの突然の変化は、２つのビューからのデータが直接組み合わされる場合にこれらの領域において生じることになる。

画像境界におけるこの問題に対処するために、徐々に増大する（減少する）及び徐々に減少する（増大する）重み付けマーク

が、図３１に示すように、他方のビューにおける欠落した画像データを考慮に入れるようにワープされた右（左）ビューのために用いられる。例えば、以下の式に示すように、増大／減少領域の幅は、２つのカメラビューの視差に等しく、中央において、重みが１に等しい。図３２は、所望のロケーションにワープされた背景画像を示す。図３３は、ワープされた背景画像が重み付けマークに乗算され、その後共に加算され、所望の視点において融合された背景を形成する方法を示す。

ここで、

は、深度マップｄにわたる最大視差であり、ｘは、重み付け画像の水平座標であり、ｘ_ｍａｘは、画像のサイズである。

２つのビューが融合されて或る特定の視点において合成されるとき、重み付き画像は以下のように混合され、組み合わされる。

ここで、

は、位置ｐ及び左ビューから右ビューへの分数距離ｖにおけるカラーであり、

は、それぞれ、視認位置パラメーターｖにワープされた左ビュー及び右ビューの位置ｐにおけるピクセルのカラーである。ｆ（ｖ）は、混合関数であり、左／右ビューの背景層のマスク

及び重み付きマスク

によって求められる。

深度マップを用いて所望の中間視点にワープされた層を所与として、２つのワープされたビューを共に融合する必要がある。主要なアーチファクトは、通例、ビューのヒストグラム／照度バイアス、形状変形及びマッティング誤差から生じる。インペインティングデータのためのヒストグラム／照度バイアスは、通例小さく、リアルタイムで容易に扱うことができるのに対し、全体画像の場合、より多くの計算時間がかかり得る。

他方で、形状変形は、ゴーストアーチファクト及びテクスチャーのミスマッチの主要な原因であるため、より重大である。アーチファクトは、変形がより深刻になるにつれ、層の視差が増大するのに伴い、より明らかとなる可能性もある。この問題に対処するために、所望の中間視点において一意の形状マスク（又は境界）が決定される。

それぞれ視認位置パラメーターｖにおける左ビュー及び右ビューからのワープ形状（又は層マスク）

を所与として、このビューにおける一意の形状を確実にするための新たなマスクが決定される。１つの単純で効果的な手法は、以下の式から形状マスクを構築することである。

ここで、ａは、１に近い閾値パラメーターであり、必要な場合、予め最適化し、補助データに含めることができる。

マスク

は、

の境界エリアにおけるガウスカーネルフィルタリングによって最終マット

を得るように、以下のように平滑化又は再マッティングすることができる。

背景層のための対応するマットは、

であり、ここで、ｂは、これが背景からのものであることを示す。図３４は、２つの層の例について前景及び背景の融合の例を示す。融合を用いて、１つのビューから別のビューへのフライオーバーをエミュレートするか、又はユーザーインタラクティブな視点変更をサポートすることができる。通例、これは、特定のフレームについて、又は連続ビデオフレームについて継続的に行うことができる。

フライオーバーについて、１つのビューから別のビューへの適切なスイーピングレートが通例選択される。ユーザーは、ビューをフリーズさせ、異なる視点を選択することによってインタラクトすることができる。スイーピングレートは、ベースライン視差と最大視差との間の距離に反比例するように選択することができる。例えば、ベースライン視差がｄ_Ｂであり、最大視差がｄ_Ｍである事例を検討すると、スイーピングレートは以下となるべきである。

ここで、ｒは、計算速度、及び視差マップのユーザーの主観的知覚を考慮に入れるためにプリセットされた選択係数である。

高品質／正確な視差マップの場合、視覚アーチファクトはより少なくなるので、スイーピングレートは低速にすることができ、逆もまた同様である。潜在的な視覚アーチファクトを低減するために、ワープされたマット

における差、及びテクスチャー画像によって測定されるような大きなミスマッチエリアにおいて更なるブラーリングが行われる。フィルタリング、及びしたがって、結果として得られるブラーリングのサポートを、補助データの調整及び制御パラメーターに含めることができる。

例えば、形状変形／差ε_ｓの尺度は、双方のビューの２つの形状が同じ視点にワープされているときの相違エリアの比率として求めることができる。右ビューの形状の左視点へのワープを検討し、Ｒ_１を、ワープされたビューと元のビューとの間のオーバーラップのエリアとし、Ｒ_２を、マッチしていないエリアとする。このとき、ε_ｓの１つの妥当な選択肢は以下である。

他の尺度を同様に構築し、カラー画像に拡張することができる。上記の２つの層の例について、マッチしたエリア及びマッチしていないエリアの例が図３５に示される。

したがって、Ｒ_２の値が大きいほど、形状変形が大きくなり、このため、それに応じてスイーピングレートが増大して、大きな視覚アーチファクトの長引く知覚が回避される。同時に、わずらわしいアーチファクトを抑制するために、モーションブラーをエミュレートするためのブラーリングを導入することができる。次に、ｒを、ε_ｓ又は他の変形尺度に比例させることができる。ｒの例示的な選択は、ｒ＝１００ε_ｓである。

必要な場合、合成ビューの強度を中間点まで徐々に減少させ、他のビューまで再び増大させて、フェージング効果をエミュレートし、したがって、望ましくないアーチファクトを更に抑制することができる。式（２９）における尺度を用いて、フェージングの度合い等を制御することができる。

本発明は、本発明の好ましい実施形態を参照して特に示され、説明されてきたが、当業者であれば、これらの実施形態において、本発明の趣旨及び範囲から逸脱することなく、形態及び詳細における様々な変更を行うことができることを理解するであろう。さらに、本明細書に記載の中心的な概念から逸脱することなく、特許請求される主題の教示に対して特定の状況を適合させるために多くの変更を行うことができる。したがって、特許請求される主題は、開示される特定の例に限定されず、添付の特許請求の範囲及びその等価物の適用範囲内にある全ての実施態様も含むことができることが意図される。

Claims

補助データを用いて２次元入力ビデオ画像の改善されたレンダリングのための新たなビューを生成する方法であって、前記補助データは、形状情報、部分遮蔽データ及び深度情報の形態の深度不連続部を有し、該方法は、
前記補助データの前記形状情報によって指定される部分遮蔽領域において前記２次元入力ビデオ画像から画像オブジェクトを抽出し、前記深度情報から前記画像オブジェクトの深度値を抽出するステップと、
前記画像オブジェクトの抽出後に、前記画像オブジェクトの抽出に起因した欠落データ又は穴をインペインティングすることによって前記２次元入力ビデオ画像の背景を更新し、前記背景の深度値を更新するステップと、
前記補助データの前記部分遮蔽データを用いて、前記欠落データ又は穴のインペインティングの限られた性能に起因した前記新たなビューにおけるアーチファクトを低減するステップと、
前記指定された部分遮蔽領域において抽出された前記画像オブジェクトと、前記背景とを用いて、前記レンダリングのためのビュー合成を行うステップと、
を含み、
前記インペインティングされたオブジェクトは、独自の深度マップを有する画像層内に再構築される、方法。
前記補助データの前記形状情報は、前記深度不連続部に対する補正のために深度不連続部の概算ロケーションを与える、請求項１に記載の方法。
グレースケール形状画像の場合、前記形状情報は、前記深度不連続部のロケーションにおける概算前景量を与える、請求項２に記載の方法。
前記部分遮蔽データ及び前記形状情報を用いて、所与の視点変更をサポートするのに必要な主要遮蔽除去エリア及び欠落情報が指示される、請求項１に記載の方法。
前記２次元入力ビデオ画像及び前記補助データは、送信され、前記部分遮蔽データは、画像データ、深度データ及びマット(matte)と共に含まれ、これらは前記形状情報、前記２次元入力ビデオ画像の深度値、並びに他の制御及び調整パラメーターと共にパッケージングされて補助データが形成され、ビュー合成が支援される、請求項１に記載の方法。
前記２次元入力ビデオ画像及び前記補助データは、送信帯域幅を低減するために、送信前に圧縮される、請求項５に記載の方法。
前記２次元入力ビデオ画像及び前記補助データは、記憶され、前記部分遮蔽データは、画像データ、深度データ及びマット(matte)と共に含まれ、これらは前記形状情報、前記２次元入力ビデオ画像の深度値、並びに他の制御及び調整パラメーターと共にパッケージングされて補助データが形成され、ビュー合成が支援される、請求項１に記載の方法。
前記２次元入力ビデオ画像及び前記補助データは、記憶前に圧縮される、請求項７に記載の方法。
前記補助データは、送信のためにビデオデータに埋め込まれる、請求項５に記載の方法。
前記補助データは、別個のデータストリームとして送信され、ビデオデータと同期される、請求項５に記載の方法。
前記画像オブジェクトを抽出し、前記背景及び前記深度値を更新する前記ステップは、
最小の深度を有する前記画像オブジェクトから開始して、前記形状情報を用いて、前記背景からマッティングを用いて前景を抽出するステップと、
前記部分遮蔽データの境界におけるマッティング(matting)によって、残りの背景の遮蔽除去エリアにおける画像データを埋めるステップと、
前記境界において、前記残りの背景における前記部分遮蔽データによってカバーされる全てのピクセルを上書きして、前記更新された背景における前景のトレースを除去するステップと、
生じ得る穴を埋める必要に応じて追加のインペインティングを提供するステップと、
前記部分遮蔽データから前記更新された背景の前記深度を更新するステップと、
必要に応じてインペインティングを行い、全てのオブジェクトが処理されるまで、次に最小の深度を有する前記オブジェクトによって画定される前記境界内の前記穴を埋めるステップと、
最小の深度を有する次のオブジェクトについて前記ステップを繰り返すステップとを上記順序で含む、請求項１に記載の方法。
前記層は、深度値の昇順で次々にレンダリングされる、請求項１に記載の方法。
前記抽出されたオブジェクトは、或る特定の順序で適切な遮蔽除去データを用いてインペインティングされ、アーチファクトを意識したビュー合成アルゴリズムを用いて、従来の２Ｄ、ステレオ、及びオートステレオスコピックディスプレイのうちの１つにおいてこのコンテンツの表示又はレンダリングがサポートされる、請求項１に記載の方法。
前記マッティングによる抽出ステップは、２つのフィルタリングプロセスとして効率的に実施され、該フィルタリングプロセスは、フィルター係数のカノニカル署名数字（canonical signed digits:ＣＳＤ）表現を用いて、シフト及び加算を用いて乗算なしで行うことができる、請求項１１に記載の方法。
フィルター積を事前に計算し、カノニカル署名数字（ＣＳＤ）として記憶することができる、請求項１４に記載の方法。
前記アーチファクトを低減するステップは、半自動ユーザーインターフェースを通じた人間の介入により実行され、遮蔽除去情報の品質、及びしたがって、ビュー合成の品質が維持されることを確実にする、請求項１に記載の方法。
前記補助データは、
各ビューの深度順を示す識別子を有する前記形状情報と、
各２次元入力ビデオ画像の前記深度情報と、
ｉ）各ビューにおける各オブジェクトの前記形状情報及び前記深度情報によって指定される前記部分遮蔽の前記画像、マット及び深度データと、ｉｉ）自己遮蔽データの画像、マット及び深度データとを含む部分遮蔽データと、
前記画像オブジェクトの抽出、前記背景の更新、共同深度－テクスチャーフィルタリング及び前記ビュー合成を実施する際にアルゴリズムにおいて必要とされる他の制御又は調整パラメーターと、
を含む、請求項１に記載の方法。
前景ピクセル及び背景ピクセルは、既知の前景及び背景の近傍から未知の領域に徐々にインペインティングすることができる、請求項１に記載の方法。
マットを推定し平滑化を行う代わりに、バイナリ形状画像がフィルタリングされる、請求項１４に記載の方法。
前記帯域幅は、以下の方法、すなわち、
前記２次元入力ビデオ画像及び前記深度情報から前記部分遮蔽データを予測する方法、
以前に符号化された近傍ブロックから前記部分遮蔽データの各ブロックを予測する方法、及び、
同じ行の開始深度不連続部から離れるにつれ、ブロックの量子化誤差を徐々に増大させる方法、のうちの少なくとも１つに従って前記部分遮蔽データを符号化することによって更に低減される、請求項６に記載の方法。
バイラテラルフィルタリングによって前記深度情報を精緻化するステップを更に含み、各ピクセルにおける精緻化された前記深度情報は、現在のピクセルからの空間的差及び強度差によって重み付けされた近傍ピクセルの平均から得られる、請求項１に記載の方法。
前記バイラテラルフィルタリングは、
時間的重み付けを用いて、特に静的領域における前記深度情報の時間的安定性を改善するステップと、
ローカルコンテキストマスク関数を用いて、エッジ情報に基づいてローカルコンテキストを強調するステップと、
前記時間的重み付けに深度信頼度項を追加することによって、視差マップの前記エッジの周りの前記重み付けを低減するステップと、
前記時間的重み付けの重み付け関数を限られた値の組に量子化し、積を、加算のみによって実施することができるカノニカル署名数字（ＣＳＤ）の形態で事前に計算し表現することができるようにするステップと、
分離可能な空間フィルタリング及び時間フィルタリングを用いて算術的複雑度を低減するステップと、
を含む、請求項２１に記載の方法。
入力データのマッチング誤差（matching error）に依拠するスイーピング機能を導入して、１つのビューから別のビューへの遷移をエミュレートし、視覚的にわずらわしいアーチファクトの知覚を低減するステップを更に含む、請求項１に記載の方法。
前記アーチファクトを意識したビュー合成アルゴリズムは、
前記形状情報を用いて視差マップを補正するステップと、
オブジェクト層、該オブジェクト層のマット及び深度を抽出し、対応する背景を、前記部分遮蔽データを用いて更新するステップと、
元の視点の付近の１つのビューを用いて前記画像をレンダリングするステップと、
ユーザーが選択可能な幅を有する２つのカメラビューの中点付近のユーザー領域において、所望の視認ロケーションにおいてビュー及び所望のマットの融合を行い、ビュー合成の一意のオブジェクト形状を確実にする再マッティングを行うステップと、
を含む、請求項１３に記載の方法。
ユーザーが選択可能な領域においてスイーピング機能を実行し、一方のビューから他方のビューへのフライオーバー効果を連続してエミュレートし、大きなアーチファクトの知覚を低減するステップを更に含む、請求項２４に記載の方法。
前記アーチファクトを意識したビュー合成アルゴリズムは、
左（右）ステレオビデオ、２Ｄビデオ＋補助データを深度合成方法と共に用いて、左（右）眼に対応する前記ステレオ又はオートステレオスコピックディスプレイによって必要とされるビューを合成するステップと、
１つのビデオ及び該ビデオの関連深度ビデオのみが入手可能である場合、２Ｄビデオ＋補助データを深度方法と共に用いて、必要な全てのビューを合成するステップと、
を含む、請求項１３に記載の方法。