JP7012642B2 - アーチファクトを意識したビュー合成のための補助データ - Google Patents

アーチファクトを意識したビュー合成のための補助データ Download PDF

Info

Publication number
JP7012642B2
JP7012642B2 JP2018523453A JP2018523453A JP7012642B2 JP 7012642 B2 JP7012642 B2 JP 7012642B2 JP 2018523453 A JP2018523453 A JP 2018523453A JP 2018523453 A JP2018523453 A JP 2018523453A JP 7012642 B2 JP7012642 B2 JP 7012642B2
Authority
JP
Japan
Prior art keywords
depth
data
image
view
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018523453A
Other languages
English (en)
Other versions
JP2019502295A (ja
Inventor
チョウ チャン,シン
グアーン ウェイ,シー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Versitech Ltd
Original Assignee
Versitech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Versitech Ltd filed Critical Versitech Ltd
Publication of JP2019502295A publication Critical patent/JP2019502295A/ja
Application granted granted Critical
Publication of JP7012642B2 publication Critical patent/JP7012642B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/167Synchronising or controlling image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0092Image segmentation from stereoscopic image signals

Description

[関連特許出願の相互参照]
本出願は、引用することによりその全体が本明細書の一部をなす、2015年11月9日に出願された米国仮特許出願第62/285,825号の利益を主張する。
本発明は、2次元テクスチャー画像及び補助データに基づく3次元画像の改善したレンダリングに関する。
今日の視覚コンテンツのほとんどは、依然として、2次元(2D)画像、又は2D画像のシーケンスの形態のビデオの形態をとる。通常、これらの従来の画像及びビデオは、単なる拡大/スケーリング又は単純なシフト以外の、観測者の観点又は視点における変化をサポートしない。しかしながら、ステレオ画像又は3次元(3D)画像を提供する新たな表示技術がより利用可能になっている。これらは、通常、アクティブシャッター又はパッシブ偏光眼鏡のいずれかにより達成される。
また、最近では、眼鏡を必要としない、高分解能のオートステレオスコピックディスプレイがより利用可能になっている。そのようなオートステレオスコピックディスプレイへの入力は、通常、i)ビデオ内の各ピクセルの深度を記述するビデオ画像+深度マップ、又はii)マルチビュービデオと呼ばれる場合もある隣接する視点におけるビデオの組であり、隣接するビューは或る特定のフォーマットで画像フレーム上に多重化されている。オートステレオスコピックディスプレイのレンチキュラーレンズ又はパララックスバリアは、空間的フィルタリングを行い、或る特定の視認位置にいるユーザーが、自身の左眼及び右眼でそれぞれ2つの異なる画像を見ることができるようにし、これにより3D知覚を生成する。
従来の2D画像又はビデオを3Dディスプレイにおいて表示するには、シーンの別のビューの生成が必要である。他方で、オートステレオスコピックディスプレイにおける3Dビデオのディスプレイは、深度マップの生成、又は所望のフレームフォーマットに多重化されることになる適切なマルチビュービデオの作成のいずれかを必要とする。
これらの追加のビューの生成を容易にする1つの方法は、ビデオを、対応する深度マップ又はそれらの近似バージョンを用いて拡張することである。深度マップは、カメラの光学点からの観測可能なシーン点の距離を記録する画像(又は、定期的な時間間隔で撮られた場合のビデオ)である。これらは、同じ位置において撮られたカラー画像又はビデオにおける関連付けられたカラーピクセルの、シーンにおける深度を特定することによって、これらのカラーピクセルに追加の情報を与える。深度マップの1つの用途は、カラー画像又はビデオ(テクスチャーとも呼ばれる)からシーンの新たなビューを合成することである。深度マップを、隣接する空間ロケーションにおいて取得して、マルチビュー深度画像又はビデオを形成することもできる。テクスチャー又はカラービデオと共に、撮像ロケーションの周りの新たな仮想ビューを合成することができる。引用することによりその全体が本明細書の一部をなす、S. C. Chan他「Image-based rendering and synthesis」IEEE Signal Processing Magazine, vol.24, pp. 22-33, (2007)、並びにS. C. Chan及びZ. F. Gan他「An object-based approach to image-based synthesis and processing for 3-D and multiview televisions」IEEE Trans. Circuits Syst. Video Technology., vol. 19, no. 6, pp. 821-831, (Jun. 2009)を参照されたい。これらの合成ビューは、適切に生成される場合、従来の2D、ステレオ又はオートステレオスコピックディスプレイにおけるコンテンツの表示をサポートし、限られた視点変更をもたらす。
従来のビデオの場合、深度マップを用いて各画像フレームを拡張することにより、結果として、追加の深度ビデオが得られ、フォーマットは、場合によっては、2D+深度表現と呼ばれる。ビデオ及び深度がどのようにまとめられるかにより、異なるフォーマットがもたらされる。ホワイトペーパーである非特許文献1において、2D+深度フォーマットは、ビデオ及び深度画像を、オートステレオスコピックディスプレイに対する物理的入力インターフェースとして、フレーム内に共に並べてパッケージングする。入力フレームが、前景オブジェクトによって遮蔽された背景及びその深度値をそれぞれ記憶する2つの追加のサブフレームを有する4つの象限に更に分割される、「WOWvx declipse」フォーマットと呼ばれる拡張バージョンが存在する。形状情報は存在せず、このため、遮蔽エリアをレンダリング中に埋めることができるように、正確な深度マップに依拠して前景オブジェクトの境界を位置特定する可能性が高い。これは、深度マップの取得又は圧縮に起因して、誤差が生じやすい場合がある。また、オブジェクトの遮蔽された背景全体が必要とされるが、これは通例、遮蔽エリア数が深度及び最大ビュー範囲に依拠するため、不要である。通例、大きな深度不連続部を有する重要なオブジェクトのみが遮蔽される必要があり、小さな遮蔽は、「インペインティング」(修復)によって処理することができる。インペインティング(画像補間又はビデオ補間としても知られる)は、高度なアルゴリズムの適用により、画像データの失われた又は破損した部分を置き換える(主に、小さな領域を置き換えるか、又は小さな欠陥を除去する)ことを指す。この表現の最も大きな制限は、半透明のオブジェクトをオブジェクトとして扱うことができないか、又は背景が完全に遮蔽されていると仮定されることである。また、4象限表現は、全ての主要なビデオ及び深度の分解能を大幅に制限する。ここで、2D+深度フォーマット又は表現は、ビュー合成のためのビデオ及び深度双方の使用を指し、Philipsのホワイトペーパーにおいて用いられる物理的フォーマットに限定されない。
3Dビデオの場合、ステレオビデオ内の各ビデオは、深度ビデオを用いて拡張(augment)することができる。HEVC-3Dにおいて、2つ以上のビデオがそれぞれの深度マップと共に符号化される。引用することによりその全体が本明細書の一部をなす、G. Tech他「3D-HEVC draft text 1」Proceedings of the 5th Meeting of Joint Collaborative Team on 3D Video Coding Extensions (JCT-3V), Document JCT3V-E1001, Vienna, Austria, August 2013)を参照されたい。そのようなマルチビデオ+深度フォーマットを用いる主要な動機は、2つの隣接するビデオ+深度ビデオからの新たなビューを合成することである。ビデオ及び深度は、HEVC-3Dコーデックを用いて圧縮及び解凍されなくてはならない。他のフォーマットで符号化されたビデオは、深度マップと共に新たなHEVC-3Dフォーマットにコード変換されなくてはならない。ビュー合成機能のための用途のうちの1つは、5つ又は更に多くの数のビューを通常必要とするオートステレオスコピックディスプレイをサポートするための複数のビューを生成することである。
現在のところ、そのような用途には2つの重要な問題、すなわち、(1)深度不連続部におけるテクスチャー及び深度の一貫性、及び(2)遮蔽除去エリアのインペインティングによるアーチファクト、が存在する。
複数のビデオ及び深度マップを用いたビュー合成の品質は、深度マップの品質に大きく依拠する。ビュー間の深度不連続部の不正確なアライメント、及びテクスチャーと深度不連続部との間の非一貫性により、通例、オブジェクト境界の周りに深刻なレンダリングアーチファクトが生じる。これらの難点を回避するのに必要な正確度は、深度マップの限られた正確度、及びデータ圧縮後に生じる歪みに起因して、通常、達成するのが困難である。テクスチャーと深度不連続部との一貫性も、一般的な2D+深度表現には不可欠である。なぜなら、これらが適切に扱われない場合、結果として重大なアーチファクトが生じることになるためである。
アーチファクトは、ビュー合成中に、遮蔽除去エリア及び画像+深度表現のインペインティングにより生じる可能性がある。遮蔽除去に起因して、テクスチャー及び深度マップから新たなビューが生成されるとき、形状深度不連続部において穴が生じることになる。この問題に対処する従来の方法は、近傍ピクセルから穴をインペインティングすることである。WOWvx declipseフォーマットは、物理レベルにおいて遮蔽データを提供するが、帯域幅又はストレージが限られている場合、送信及び記憶に不適切である。遮蔽データは通常、必要な視点変更よりも大きい。WOWvx declipseフォーマットは、精密な形状情報を有していないため、その使用は深度マップに大きく依拠し、自然なビデオの場合、推定誤差又は圧縮誤差を被る場合がある。また、WOWvx declipseフォーマットは、複数のビュー及び半透明オブジェクトをサポートしていない。ステレオビデオの場合、データは、これらの穴をリアルタイムでインペインティングするために、他のビューから適切に抽出されなくてはならない。
場合によっては、レンダリングアーチファクトを低減するために、高度なインペインティングアルゴリズム、又は更には人間の介入が行われなくてはならない。これは、i)2つのビュー間の視点変更、ii)複雑な遮蔽除去された背景、及びiii)特に大きな深度不連続部における深度とカラービデオとの間の非一貫性、並びに他の理由に起因する。高度なインペインティングにより、低アーチファクトでのリアルタイムで信頼性のあるビュー合成が極端に困難になる。さらに、2つのビューのカラー、エッジロケーション及び深度不連続部のミスマッチの結果として、大きなゴースト又は「二重画像」が生じることになる。
3D Interface Specifications, Philips 3D Solutions, http://www.business-sites.philips.com/shared/assets/global/Downloadablefile/Philips-3D-Interface-White-Paper-13725.pdf
本発明は、形状画像、部分遮蔽データ、関連する調整及び制御パラメーター、並びに元のビデオ(複数の場合もある)の深度情報の形態の、場合によっては主要な深度不連続部を含む、補助データの生成及び圧縮に関する。2D、3D及びオートステレオスコピック(マルチビュー)ディスプレイにおける従来の2D、ステレオ、マルチビュービデオの新たなビューを、アーチファクトを低減した状態でインタラクティブに表示及び生成するために、補助データが用いられる。形状画像は、深度-テクスチャー一貫性を維持し、ビュー合成のために必要な部分遮蔽背景データを埋める等の更なる処理が行われる大きな深度不連続部を有するオブジェクトを特定することを目的とする。遮蔽は、完全な遮蔽、又は半透明オブジェクトにおけるように部分的遮蔽であり得る。
データは、別のビューにおける遮蔽に起因して、遮蔽除去エリアに関連するので、遮蔽除去データとも呼ばれる。したがって、本明細書において、遮蔽及び遮蔽除去という用語は、これらのデータを指す際に交換可能に用いられる。
他のロケーションにおける不正確な深度マップに起因するアーチファクト、及び2つのビューにおけるビデオ+深度ビデオを用いたレンダリングの困難な問題に対処するために、本発明は、ビュー合成のための新規のアーチファクトを意識した方法を提供する。補助データ、形状画像及び部分遮蔽データにおける2つの主要な成分に起因して、上述した利点及び特徴と共に、アーチファクトを大幅に低減するか、又は目立たないようにすることができる。
本発明のアーチファクトを意識したビュー合成(AAVS)方法は、聴覚系のような人間の3D知覚が、全体的な3D知覚及び品質を大幅に損なうことなく、左眼画像及び右眼画像のかなりの変形を許容することができることに基づいている。他方で、ゴースト、大きなローカル変形、穴、又は構造非一貫性等の、自然な画像からの大きな逸脱につながるアーチファクトは、全体知覚品質の大きな劣化につながる。
また、実験において、2D+深度及び補助データ方法を用いて合成された新たなビューは、通例、より正確度の低い深度マップを有する2つのビューを用いるよりも、自然画像に近づくことも観測される。人間の3D知覚及び上記のことを考察することにより、左(右)ステレオビデオ及び提案される2D+深度を補助データ合成方法と共に用いて、左(右)眼に対応するステレオ又はオートステレオスコピックディスプレイによって必要とされるビューが合成される。ステレオビューを用いるのではなく、この手法を用いて全ての必要なビューを合成することにより、得られる視覚的アーチファクトが大幅に少なくなる。1つのみのビデオ及びその関連付けられた深度ビデオが利用可能である場合、2D+深度及び補助データ方法を用いることによって必要な全てのビューを合成することができる。ここでもまた、3D効果の劣化と引き換えに、視覚アーチファクトを僅かにし、帯域幅/ストレージを低減することができる。
2D+深度及び補助データ方法は、或る特定の範囲にわたるインタラクティブな視点変更及び拡大をサポートするのにも適している。一方のビューから他方のビューへの従来の2Dディスプレイにおける視点変更をサポートするステレオビデオ+関連する深度ビデオについて、深度不連続部等が位置合わせされていない場合、大きなアーチファクトが生じることになる。しかしながら、新規の方法を用いることにより、元の画像のうちの一方によって生成されたビューから、左視点及び右視点間の中点の周りの他方の画像へのジャンプが生じることになる。
この望ましくない影響を克服するために、新たなモーフィング方法が、一方のビューから他方のビューへのフライオーバー効果をエミュレートするように行われる。従来のモーフィング方法を用いるのではなく、双方のビューを用いて、中点の周りの選択可能な領域における必要なビューを合成してモーフィングプロセスをエミュレートする。この領域のサイズ及びスイーピングレートが、結合される2つのビューの一致の観点におけるアーチファクトの或る特定の測定によって求められる。測定されるアーチファクトが大きいほど、合成品質が下がり、領域内のスイーピングレートが高速になる。このため、視覚アーチファクトが、モーフィング及びフライオーバープロセスによって効果的に抑制される。
本発明は、形状画像、部分遮蔽データ、関連する調整及び制御パラメーター、並びに元のビデオ(複数の場合もある)の深度情報の形態の場合によっては主要な深度不連続部を含む元の補助データ又は圧縮補助データを用いて、従来の2D、3D(ステレオ)及びマルチビュー又はオートステレオスコピックディスプレイにおける従来の2D、ステレオ及びマルチビュービデオの新たなビュー(ビュー合成)をアーチファクトを低減した状態でインタラクティブに表示及び生成することを提案する。部分(完全遮蔽データも含む)遮蔽データは、アーチファクトが低減されたビュー合成を容易にするために、場合によっては部分的に遮蔽されたエリアの画像、深度及び不透明度データを含む。本発明は、低減されたアーチファクトでビュー合成を容易にするために、テクスチャービデオからの補助データによって定義されるような部分遮蔽領域においてオブジェクトを抽出する効果的な方法、及び各オブジェクトの抽出後に補助データを用いて、ビュー合成中の欠落データ又は穴のオンラインインペインティングの限られた性能に起因するアーチファクトを低減する、画像背景及び深度値を更新する方法も更に包含する。さらに、本発明は、(a)部分遮蔽データの圧縮/解凍方法、(b)ビュー合成中のアーチファクトを低減するために場合によっては符号化された(圧縮された)深度及びテクスチャービデオの一貫性を改善する、エッジを意識した共同時空間深度-テクスチャー精緻化方法及びその効率的な実施、並びに、(c)低減された又は目立たないアーチファクトで補助データ及びビデオを用いて新たなビュー(ビュー合成とも呼ばれる)を生成するアーチファクトを意識した方法を提供する。
補助データは、或る特定のフォーマットでパッケージング、圧縮、送信又は記憶することができる。解凍されたデータを関連ビデオ(複数の場合もある)と共に用いて、低減されたアーチファクトで従来の2D、3D(ステレオ)及びマルチビュー又はオートステレオスコピックディスプレイにおけるインタラクティブな表示のために、従来の2D、ステレオ及びマルチビュービデオから上記の(a)~(c)の方法を用いて新たなビュー(ビュー合成)を生成することができる。
ビデオを補助データと独立して圧縮することができ、それによって、補助データは、更なる処理及びレンダリングのために復号されたビデオフレーム(複数の場合もある)のみを利用することによって異なるビデオ符号化アルゴリズムのソフトウェア及び/又はハードウェアと共に機能することができる。代替的に、より高い圧縮性能が必要とされる場合、補助データの圧縮は、ビデオ圧縮アルゴリズムをターゲットとすることができる一方で、他のビデオ符号化アルゴリズムをサポートする可能性が犠牲になる。
本発明の上記の及び他の目的及び利点が、以下の詳細な説明及び添付の図面と関連して検討されるときに明らかとなる。ここで、類似の符号は様々なビューにおける類似の要素を示す。出願ファイルは、カラーで作成された少なくとも1つの図面を含む。カラー図面を伴うこの特許出願書類の写しは、請求及び必要な手数料の支払いにより、特許商標庁によって提供される。
(a)~(c)は、テクスチャー画像及び視差マップの非一貫性を示す図であり、(a)は、テクスチャー画像を示す図であり、(b)は、視差マップを示す図であり、(c)は、非一貫性を示す図である。 (a)は、2D入力画像を示す図であり、(b)は、対応する深度マップを示す図である。 (a)は、オブジェクト1の形状画像を示す図であり、(b)は、オブジェクト2の形状画像を示す図である。 (a)及び(b)は、部分遮蔽データの画像データを示す図あり、(a)は、図3のオブジェクト1及び2に起因する遮蔽から生じる背景の図であり、(b)は、図3のオブジェクト1に起因する遮蔽から生じる図2のオブジェクト2における遮蔽を示す図である。 (a)及び(b)は、図4の部分遮蔽データの深度データを示す図であり、(a)は、オブジェクト1及び2に起因する遮蔽から生じる背景の図であり、(b)は、オブジェクト1に起因する遮蔽から生じるオブジェクト2における遮蔽の図である。 (a)~(d)は、前景のインペインティングの例を示す図であり、(a)は、犬1を有する元の前景を示す図であり、(b)は、(a)の未知のエリアにおけるインペインティングされた前景を示す図であり、犬2を有する元の背景を示す図であり、(c)の未知のエリアにおけるインペインティングされた背景を示す図である。 (a)及び(b)は、ベース方程式(Bayesian equation)を用いて達成されるマッティング結果を示す図であり、(a)は、初期マッティング結果を示す図であり、(b)は、精緻化されたマットを示す図である。 (a)は、前景オブジェクトの抽出後の図2(a)における画像の背景を示す図であり、(b)は、オブジェクト1の形状画像を用いて抽出されるオブジェクトを示す図であり、(c)は、オブジェクト2の形状画像を用いて抽出されるオブジェクトを示す図である。 (a)~(c)は、オブジェクト抽出後の深度マップを示す図であり、(a)は、オブジェクト抽出後の背景を示す図であり、(b)は、オブジェクト1を用いて抽出されたオブジェクトを示す図であり、(c)は、オブジェクト2を用いて抽出されたオブジェクトを示す図である。 (a)は、形状及び深度マップから推定される部分遮蔽画像データを示す図であり、(b)は、ブロックベースの符号化のための部分遮蔽画像データをカバーするためのブロックのロケーションを示す図である。 コンポーネント間変位予測図である。 (a)及び(b)は、双線形関数を用いたマット/深度/カラー画像予測を示す図であり、(a)は、境界ブロックを示す図であり、(b)は、非境界ブロックを示す図である。 階層型双線形イントラ予測図を示す図である。 (a)は、非ゼロ量子化係数を用いたサブブロックのロケーションの符号化のためのチェーンコードを示す図であり、(b)は非ゼロ量子化係数を用いたサブブロックのロケーションの符号化のための算術符号化方法を示す図であり、(c)は、サブブロック内の非ゼロ量子化係数の走査を示す図である。 (a)及び(b)は、視差マップの時間的非一貫性を示す図であり、(a)2つの連続フレームを示す図であり、(b)は、同じ設定を用いて同じ方法によって独立して推定された2つの視差マップを示す図である。 (a)及び(b)は、g(p,s,ξ)の計算を示す図であり、(a)は、g(p,s,ξ)を形成するための入力を示す図であり、(b)は、図16(a)から得られたg(p,s,ξ)を示す図である。 分離可能なフィルタリングのステップを示す図である。 4つの異なるパッチのためのローカルカーネル行の視覚化の図である。 (a)~(d)は、フレームtにおける精緻化された視差マップ比較を示す図であり、(a)は、カラー画像の図であり、(b)は、元の視差マップの図であり、(c)は、従来のバイラテラルフィルターによってフィルタリングされた、精緻化された視差マップの図であり、(d)は、本発明の改善された方法によってフィルタリングされた、精緻化された視差マップの図である。 (a)及び(b)は、精緻化された時間的に一貫性のない視差マップを示す図であり、(a)は、精緻化前の視差マップを示す図であり、(b)は、精緻化後の視差マップを示す図である。 (a)及び(b)は、所定のフィルタリング領域の例を示す図であり、(a)は、第1の例を示す図であり、(b)は、第2の例を示す図である。 (a)は、量子化されたフィルタリングのレベルの関数としてのピーク信号対雑音比のグラフであり、(b)は、元のフィルタリング結果の画像であり、(c)は、量子化されたフィルタリング結果の画像である。 2Dビデオ+補助データを用いて従来のディスプレイにおける視点変更をサポートする、ビュー合成のためのシステムのブロック図である。 マルチ入力ビデオシナリオにおいて隣接する2Dビデオ+補助データを用いて従来のディスプレイにおける視点変更をサポートする、ビュー合成のためのシステムの一実施形態のブロック図である。 マルチ入力ビデオシナリオにおいて隣接するステレオビデオ+補助データを用いて従来のディスプレイにおける視点変更をサポートする、ビュー合成のためのシステムの一実施形態のブロック図である。 マルチ入力ビデオシナリオにおいて隣接するステレオビデオ+補助データを用いて従来のディスプレイにおける視点変更をサポートする、ビュー合成のための図24のシステムの第2の実施形態のブロック図である。 (a)及び(b)は、背景オブジェクトにおける視差補正の例である画像を示す図であり、(a)は、元の画像を示す図であり、(b)は、補正された画像を示す図である。 (a)及び(b)は、前景オブジェクトにおける視差補正の例である画像を示す図であり、(a)は、元の画像を示す図であり、(b)は、補正された画像を示す図である。 層抽出の図である。 それぞれ左ビュー及び右ビューにおける遮蔽検出の例を示す図である。 それぞれ左ビュー及び右ビューのための重み付けマスク(weighting mask)の例を示す図である。 左ビュー及び右ビューから中間視点への背景のワープを示す図である。 中間視点において融合された背景を形成するように、ワープされた背景を左ビュー及び右ビューからの重みマーク(weight mark)と乗算した図である。 2層の例の層の融合を示す図である。 ワープされた形状のマッチしたエリア及びマッチしていないエリアを示す図である。
図1(a)、(b)及び(c)は、テクスチャー画像、その対応する視差マップ、及び2つのオーバーレイを示す。図1(c)から、赤い縁によってマーキングされたいくつかのエリアは、完全に位置合わせされていないことがわかる。深度カメラ、ステレオ推定又は他の方法によって得られる深度マップは、誤差を被る場合があるため、対応するテクスチャー画像と位置合わせされていない場合がある。これらのミスマッチは、ほとんどがオブジェクト境界の周りに分散している。なぜなら、現行の視差推定方法又は深度カメラは、オブジェクト境界の周りの遮蔽を完全に扱うことができないためである。
他の誤差源は、テクスチャー及び深度ビデオの圧縮誤差に起因するものである。深度マップ及びテクスチャーが圧縮されると、深度及びテクスチャービデオは歪みを受ける場合がある。この結果、深度とテクスチャーとの間にかなりの非一貫性が生じる場合がある。そして、この非一貫性の結果として、大きな深度不連続部において深度及び対応するテクスチャーから新たなビューを生成する際に、背景におけるピクセルが、誤った深度値に起因して前景に移動する場合があり、逆もまた同様であるため、著しいアーチファクトが生じることになる。
G.Techの論文におけるような深度マップを用いた従来のビュー合成では、解凍された深度マップを用いて、レンダリングのための遮蔽又は遮蔽除去を検出する。したがって、深度マップにおける符号化歪み又は他の固有の誤差は、合成される新たなビューの品質に大きく影響を与え、上述したアーチファクトにつながる。
提案される発明において、大きな不連続部も含まれ、図2に示すように、ビデオ及び深度データと共に補助データの一部として圧縮される。ここで、図2(a)は画像であり、図2(b)は深度マップである。図2(b)において、青色は大きな深度値を示し、黄色は中間の深度値を示し、赤色は小さな深度値を示す。不連続部は、形状画像(図3)の形態で表され、各々が、大きな不連続部によって定義される前景及び背景の量を示す画像である。この画像は、マット又はソフトセグメンテーション画像とも呼ばれ、ブルースクリーン技法において特定のピクセルロケーションにおける前景量を定義するのに頻繁に用いられる。この画像は、このピクセルのソフトメンバーシップ又は不透明度を示す0~255の範囲の値を有する8ビット画像とすることができ、ここで、0は寄与なし(すなわち、透明)であり、255は、完全な寄与を有する(すなわち、完全に見える)。オブジェクトの幾何学的形状のみが必要である場合、形状画像は、0又は1の値を仮定するピクセルを有するバイナリ画像に簡略化することができる。バイナリ画像は、利用可能なビットレートが制限されているデータ圧縮において関心対象となっている。バイナリ形状画像において半透明のオブジェクトをサポートするために、提案される発明は、オブジェクトの平均不透明度も含む。境界における正確な不透明度は、補助データの入力及び他の重要な情報から推定される。通常、バイナリ形状画像の場合、不透明度の更なる簡略化を含めることができる。
本発明において、圧縮又は他の誤差から生じる一貫性を改善するために、形状画像を用いて、大きな不連続部におけるテクスチャー及び深度マップを精緻化する。従来の2D+深度ベースのビュー合成では、カラー入力が深度マップに従って変換され、別の隣接ビューが形成される。遮蔽除去に起因して穴が生じ、これらの穴は、近傍のピクセル値からインペインティング又は補間される。視点変更が増大するとき、欠落した遮蔽除去データに起因して、かなりのアーチファクトが現れることになる。
本発明によれば、形状情報を用いて、所与の視点変更をサポートするのに必要な、「部分遮蔽データ」と呼ばれる大きな遮蔽除去エリア及び欠落情報を示す。部分遮蔽データは、画像データ、深度データ及びマットと共に含まれ、これらは形状情報、入力画像/ビデオの深度マップ、並びに他の制御及び調整パラメーターと共にパッケージングされ、ビュー合成等を支援し、補助データを形成する。上記の情報は、送信帯域幅、及びストレージのためのデータを低減するように圧縮される。
本発明の別の可能な用途は、2Dから3Dに変換されるいくつかのステレオビデオにあり、この用途では、深度マップではなく、単純な画像変形を用いて、2Dビデオから他のビューが合成される。補助データを含めることにより、或る特定の重要なオブジェクトが、平滑な深度マップを先鋭化し、部分遮蔽データを含めることによって、より良好な3D効果を呈することが可能になる。
補助データは、送信のためにビデオデータに埋め込むことができるか、又は同期してオーディオデータのような別個のデータストリームとして送信することができる。復号されたビデオデータ及び対応する復号された補助データを用いることによって、新たなビューを低減されたアーチファクトと合成することができる。このために、遮蔽除去/遮蔽エリアのロケーションを推定する必要があり、画像、深度及びマットデータが生成される必要がある。マルチビュービデオの場合、そのようなデータは、推定深度マップから、及び隣接する画像からの適切な抽出により得ることができる。様々な利用可能なインペインティング方法によって穴が更にインペインティングされる。代替的に、ユーザーインタラクションを用いた半自動技法を用いて、良好なインペインティング品質を確保することができる。
次に、画像、深度、及びマットデータは、離散コサイン変換(DCT)を用いた変換符号化等の従来の波形符号化技法によって圧縮することができる。しかしながら、以下で説明するような新たなイントラ予測方法も用いることができる。
新たなビューの合成について、概して2つの手法、すなわち、走査線ベースの方法及び層ベースの方法が存在する。走査線方法では、カラー画像が、深度マップに従って、ラスター走査順で線ごとにラッピングされることに留意するべきである。G. Techの論文において用いられている従来の技法を用いて、間隔の大きな広がりから遮蔽除去を検出することができる。次に、補間に依拠して遮蔽除去エリアを埋めることができる。ノイズの多い深度マップの場合、隣接した走査線における不規則な線分の形態の大きなアーチファクトが生じることになる。
形状情報により、遮蔽除去エリアを推定し、遮蔽除去エリアにおける画像データを、それらの独自の深度に従って埋めることができる。埋められる穴のサイズは、大幅に低減され、隣接する走査線にわたる一貫性を、形状情報を用いてより良好に強制することができる。
層ベースの方法により、グラフィック処理ユニット(GPU)が用いられる場合、インペインティングされたオブジェクトを、独自の深度マップを有する画像層に再構成することが好都合である。次に、層を、深度値の降順で次々とレンダリングすることができる。
インペインティングされたオブジェクトを形成するために、各指定されたオブジェクトが元の画像から抽出され、或る特定の順序で適切な遮蔽除去データによりインペインティングされる。続いて、従来の2D、ステレオ、及びオートステレオスコピックディスプレイにおけるこのコンテンツの表示をサポートするための、新たなアーチファクトを意識したビュー合成アルゴリズムが説明される。
図4及び図5は、コンピュータグラフィックにより生成されたビデオから得られた背景及びオブジェクト1の部分遮蔽除去データにおける画像及び深度データをそれぞれ示す。元のビデオは3つのビューを有し、これらを用いて、左側の第1のビューのための部分遮蔽データを生成する。
図4において、部分遮蔽データの画像データが、図4(a)において左側に、オブジェクト1及び2に起因する遮蔽から生じる背景として示される。右側の図4(b)は、オブジェクト1に起因した遮蔽から生じるオブジェクト2における遮蔽を示す。図4において、左ビューを用いて右ビューを合成する。しかしながら、右ビューを用いて左ビューを合成し、部分遮蔽データが形状画像の右境界の周りに現れることが可能である。
図5は、部分遮蔽データの深度データを、左側で図5(a)において、オブジェクト1及び2に起因する遮蔽から生じる背景として示し、右側で図5(b)において、オブジェクト1に起因した遮蔽から生じるオブジェクト2として示す。
第1のビュー及びこれらの必要な補助データを用いて、中間ビューを得ることができる。ステレオ画像の場合、遮蔽除去情報を、ステレオデータから推定することができ、高度なインペインティング技法を用いて穴をインペインティングすることができる。補助データにそのような情報を含めることは、そのようなデータのリアルタイム生成を低減するのに役立つ。さらに、人間の介入を、半自動ユーザーインターフェースを通じて起動し、遮蔽除去情報の品質、このためビュー合成の品質が維持されることを確実にすることができる。
本発明は、2つ以上のビューからデータを適切に組み合わせることによって中間ビューを生成するのに複数のビューが通例用いられる、従来の画像ベースのレンダリングとは異なる。ここで、従来のビデオは、新たなビューを合成するための深度マップ、形状画像、遮蔽除去情報及び他の制御又は調整パラメーターを含む補助データと共に用いられる。表現は、限られたビュー依存外観変化と引き換えに、よりコンパクトにされる。さらに、従来のビデオ又はステレオのように、追加のチャネル又は補助データストリームを備えているときに、ビュー合成及びモーフィングをサポートすることができる。
そのような補助データに必要とされる情報が少量であることに起因して、ハンドヘルドデバイス又はモバイルデバイスにおける従来のビデオ又はステレオのビュー合成は、大幅に簡略化することができる。
まとめると、本発明における補助データは、以下の情報からなる。
1.各ビューの深度順を示す識別子を有する形状画像。
2.各2Dビデオの深度マップ。
3.i)各ビュー内の各オブジェクトの形状及び深度マップによって指定される部分遮蔽の画像、マット及び深度データ、並びにii)自己遮蔽データの画像、マット及び深度データ、を含む部分遮蔽データ。
4.オブジェクト抽出、背景の更新、共同深度-テクスチャーフィルタリング及びビュー合成を行う際にアルゴリズムにおいて必要とされる他の制御又は調整パラメーター。
本発明の重要な特徴は、前景の効率的な抽出、並びに形状画像及び/又は部分遮蔽画像データからの背景の更新である。
圧縮に起因して、形状画像又はマットは、圧縮後に僅かに歪む場合がある。しかしながら、これらは依然として、深度及びテクスチャーの補正が一貫性を維持するのに必要とされる場所に関する価値のある情報を提供することができる。したがって、補正は、形状画像によって指定されるような重大な深度不連続部に沿ってのみ行うことができ、結果として複雑度が低くなる。
さらに、これによって、指定された前景オブジェクトが、その背景から抽出されることが可能になり、それによって、遮蔽された背景を、補助データ内の部分遮蔽データのカラー及び深度画像で埋めることができる。深度情報が、帯域幅制限に起因して入手不可能である場合、深度値は、近傍の背景深度値から得ることができる。なぜなら、深度マップは、深度不連続部から離れているときに、平滑であると想定されるためである。
したがって、画像フレーム及びその対応する補助データを用いてビュー合成を行うために、以下のステップが辿られる。
1 テクスチャー及び深度ビデオから補助データによって定義されるような部分的に遮蔽された領域において画像オブジェクト及びそれらの深度値を抽出する。
2 各オブジェクトの抽出後に、補助データを用いて画像背景及びその深度値を更新する。
3 指定された部分遮蔽領域及び背景において抽出されたオブジェクトを用いてビュー合成を行う。
ビュー合成におけるアーチファクトを更に低減するために、後に更に詳細に述べられるように、本発明の深度を意識したビュー合成方法を用いることができる。
ステップ1、すなわち画像オブジェクト及び関連深度の抽出を参照すると、関係を発展させる必要がある。
αを、テクスチャー画像{I}のロケーションp=(x,y)におけるピクセルの前景量とする。表記を簡潔にするために、テクスチャー画像の2次元アレイは、pを用いてインデックス付けされる。Iは、RGB成分等の適切なカラー成分を含むベクトルである。pにおけるピクセルの深度値を記述する対応する深度画像は、Dによって表される。
補助データにおける形状情報
Figure 0007012642000001
は、補正のために、深度不連続部の概算ロケーションを与える。グレースケール形状画像(例えば、8ビットマット画像)の場合、これらのロケーションにおける、0~1(又は、8ビットで記憶されている場合、0~255)の範囲をとる概算前景量も与える。完全に遮蔽されたオブジェクトの場合、最も単純な形状情報は、バイナリ画像とすることができ、そのピクセルは、値0又は1のみを想定する。部分的に遮蔽されたオブジェクトの場合、最も単純な形状情報は、バイナリ画像+平均不透明度値
Figure 0007012642000002
とすることができる。
上述したように、このステップにおける目的は、i)
Figure 0007012642000003
によって示唆される領域において形状情報を精緻化し、前景オブジェクト(複数の場合もある)を抽出すること、及びii)ビュー合成の準備において、オブジェクトごとにこの領域における背景を更新すること、である。一貫性を改善するために、テクスチャー及び深度値の双方を精緻化しなくてはならない。
図3に示すように、例えば、バイナリ形状画像の場合、エッジ検出又は類似の技法を用いて、形状画像からオブジェクト形状を得ることができる。オブジェクト境界の周りの領域、例えば、オブジェクト境界から最大距離dmax内のピクセルは、様々な誤差について補正するように精緻化されるべきである。この領域をRとする。Rは、dmaxを、形状情報の一部として補助データに含めることによってユーザーにより指定することができる。
領域Rは、例えば、半径dmax(視差マップの品質又は情報間の非一貫性に依拠する)を用いてバイナリ形状画像に対して独立して形態学的膨張及び収縮を行うことによって入力画像から抽出され、それらに対し「排他的OR」演算を行うことができる。
通常、画像フレーム内に複数の形状画像が存在することができる。それらがオーバーラップしていない場合、上記のプロセスを別個に行うことができる。複数の形状画像がオーバーラップしている場合、それらの抽出及び更新の順序を、通例、それらが補助データにおいて符号化されるときに、オーバーラップにおける深度の昇順で指定しなくてはならない。普通は、僅かな数のみの形状画像が必要とされ、ほとんど場合、シーン内の最も近いオブジェクトの形状画像のみが必要とされる。なぜなら、その深度不連続部が最も重要であるためである。
最小の深度を有するものから開始して、補助データの支援による2Dビデオからの背景の抽出及び更新は、以下のステップにおいて順次行われる。
1.形状画像を用いて、マッティングを用いて背景から前景を抽出する。これについては以下で更に詳細に述べられる。
2.部分遮蔽データの境界におけるマッティング(matting)によって、残りの背景の遮蔽除去エリアにおける画像データを埋める。この境界を除いて、残りの背景内の部分遮蔽データによって覆われる全てのピクセルが、更新された背景における前景のトレースを除去するように上書きされることになる。生じ得る穴を埋めるのに、更なるインペインティングが必要とされる場合がある。
3.部分遮蔽データから新たな背景の深度を更新する。インペインティングは、全てのオブジェクトが処理されるまで次に最小の深度を有するオブジェクトによって定義された境界内の穴を埋めるのに必要とされる場合がある。
4.最小の深度を有する次のオブジェクトについて、上記のステップ1~3を繰り返す。カラー及び深度データを有しない境界領域におけるマッティング時には、精緻化された形状として形状画像が用いられる。
ステップ1を更に実行するために、マッティングによる所与の画像オブジェクト(現在の前景)の抽出が次の要件である。
オブジェクト境界付近の領域R内(例えば、対応する形状画像によって示される或る特定の距離dmax内)のロケーションpにおけるピクセルについて、観測されるテクスチャー入力画像ベクトルIは、抽出される現在の前景オブジェクトテクスチャーF及び背景テクスチャーBの和である。
Figure 0007012642000004
ここで、αは、ロケーションpにおいて求められる前景又はマットの所望の量である。ここでは、それらは列ベクトルであることが仮定される。
半透明オブジェクトの場合、αの初期値、
Figure 0007012642000005
及び背景Bは、部分遮蔽データから入手可能である。このとき、境界領域Rは、境界、及び部分遮蔽オブジェクトの全てを含むことができる。通常、このとき問題となるのは、各指定されたオブジェクトのカラー、深度及び形状情報を求めることができるように、既存の値を精緻化し、観測、及び部分遮蔽データからの追加情報から未知の値を推定することである。
従来、画像セグメンテーションのために、通常、ユーザーインターフェースを通じてユーザーが指定した領域Rからα、F及びBを求める問題は、マッティングと呼ばれる。これは劣決定問題(under-determined problems)であり、追加情報を利用する様々な技法が、引用することによりその全体が本明細書の一部をなす、Y. Chuang他「A Bayesian approach to digital matting」Proc. IEEE Comput. Soc. Conf. CVPR, (Dec. 2001), vol. II, pp. 264-271;M. Ng他「Numerical Methods for Interactive Multiple Class Image Segmentation Problems」International Journal of Imaging Systems and Technology, 20 (2010), pp. 191-201;及びX. Kong他「Transductive Multi-Label Learning via Alpha Matting」IEEE Transactions on Knowledge and Data Engineering, vol. 25, pp. 704-719, (2013)において提案されている。
次に、精緻化問題に対処しなくてはならない。ここで、完全遮蔽の場合、圧縮又は他の制限に起因して概算されたマットが入手可能であり、半透明の場合、概算されたマット及び背景が入手可能である。
ベイズマッティング(Bayesian matting)において、F及びBが、既知の平均
Figure 0007012642000006
並びに共分散(Σ及びΣ)を有してガウス分布することが仮定される。
Figure 0007012642000007
ここで、α、F及びBは、各反復において、まず、αを所与としてF及びBについて反復的に解かれ、次に、更新されたF及びBを所与としてαについて解かれる。複数のそのような反復が必要とされ、各そのような反復において、F及びBにおける連立一次方程式を解くことが必要とされるので、リアルタイム用途の場合、複雑度が高い。
Y. Chuangの論文において開示されているようなベイズマッティングは、F、B及びαについて反復的に解くために、式(1)における観測、及びサンプル平均
Figure 0007012642000008
の事前情報、並びにそれらの共分散を考察している。F(B)は、元の画像Iの一部であるため、IのようなFの隣接するピクセル値が、自然画像の構造に起因して関連又は相関付けられる。したがって、
Figure 0007012642000009
を、近傍ピクセルからのF(B)の予測因子とみなすことができる。通常、中央値等のより一般的な予測因子を構築することができる。また、αの近傍値間の関係は考察されない。
M. Ng及びX. Kongの論文において開示されているようなトランスダクティブマルチラベル学習(TRAM)において、αの近傍の値間の相関が、半自動画像セグメンテーションについて考察される。ユーザーは、ユーザーのストロークを通じて、前景及び背景における代表ピクセルを指定するように要求され、それによって、TRAMアルゴリズムを用いて、全体画像のマット又はセグメンテーションを推定することができる。これは、全ての変数α、p∈Rにおける連立一次方程式の解を必要とする。したがって、複雑度が極めて高い。ベイズマッティングと異なり、TRAMは、式(1)の混合モデルを考慮に入れず、ユーザーによる初期化及び画像のみに依拠してセグメンテーションを得る。
本発明は、F及びBの推定値を用いて、領域R内の
Figure 0007012642000010
を予測するための新規の方法を提案し、それによってαは、上述したように連立一次方程式を解くことなく新たなベイズ定式(Bayesian formulation)を直接用いて計算することができる。必要な場合、αは、αにおけるローカル関係を考察することによって、その近傍値から更に精緻化することができる。以下に示すように、初期F及びBの推定、及びαの精緻化における2つのステップを、2つのフィルタリングプロセスとして効率的に実施することができ、これは更に、引用することによりその全体が本明細書に援用される、G. A. Ruiz他の論文「Efficient canonic signed digit recoding」 Microelectronics Journal, No. 42, pp. 1090-1097, (2011) において開示されているように、フィルター係数のカノニカル署名数字(CSD)表現を用いて乗算なしで実施することができる。必要な場合、推定結果を更に精緻化するためにプロセス全体を反復させることができる。
本発明によれば、F、B及びαの全てが、以下の式に従ってそれらの近傍値に関係付けられている。
Figure 0007012642000011
重み
Figure 0007012642000012
は、ピクセルj及びp間の空間的距離、j及びpにおける又はその付近のカラー値、並びにj及びpにおける又はその付近の深度値から導出することができ、
Figure 0007012642000013
は、予測のための近傍ピクセルを含む適切なウィンドウである。
式(2a)及び式(2b)における有用性は、これらが、既存の値又は予測値から漸進的に境界領域R内のF及びBの値を予測するのに役立つことができることである。これは、Rの一方の側の前景(背景)値が、式(2a)及び式(2b)を用いて或る特定の順序でR内の最も近い欠落値を埋めるように既存のピクセルから徐々に伝播されるインペインティングと類似している。ここで、
Figure 0007012642000014
は、既知の値又は予測値を有するロケーションのみを含む。推定されたF及びBを所与として、式(2c)を用いて、推定されたαを精緻化することができる。
ここで、αの推定、並びにF及びBの推定/予測について順に検討する。F及びB、並びにαの以前の値、
Figure 0007012642000015
を所与とすると、αは、モデル誤差e=I-{α+(1-α)B}の何らかの尺度、及びαに対する
Figure 0007012642000016
からの偏差を最小限にすることによって、式(1)から解くことができる。
Figure 0007012642000017
ここで、ρ(e)及び
Figure 0007012642000018
はそれぞれ、式(1)における混合モデル及び
Figure 0007012642000019
の以前の値からの偏差を測定し、λは、2つの項に異なる重点をおく、ユーザーが選択した正の定数である。ρ(e)の可能な選択肢は、
Figure 0007012642000020
(ep,i i=1,2,3は、eの成分である)であり、他の類似の関数が用いられてもよい。ρα(u)の可能な選択肢は、u又は|u|であり、他の類似の関数も用いることができる。
二乗振幅関数
Figure 0007012642000021
及びuの場合、一方が、
Figure 0007012642000022
を最小限にし、これにより、以下が得られる。
Figure 0007012642000023
これにより、F、B及びαを所与として、αを計算するための解析公式が得られる。半透明オブジェクトを抽出する際、B、I及び
Figure 0007012642000024
が所与であり、部分遮蔽領域においてFが抽出される必要がある。さらに、上記の式を用いて、αがオブジェクト境界において精緻化される必要がある場合がある。
ここで、F及びBをどのように推定することができるかを決定しなくてはならない。これを達成するために、マッティングエリアにおける前景及び背景をインペインティングするための共同テクスチャー及び深度方法が説明される。第1に、前景におけるインペインティングが、以下のように選択された式(2a)における重み
Figure 0007012642000025
を用いて検討される。
Figure 0007012642000026
ここで、
Figure 0007012642000027
であり、
Figure 0007012642000028
であり、Fは、インペインティングされるロケーションpにおけるインペインティングされるピクセル値であり、Fは、pを中心としたウィンドウ
Figure 0007012642000029
内のロケーションjにおける近傍前景ピクセルである。
Figure 0007012642000030
内に4つの主要な成分が存在する。それらはすなわち、以下である。
1.f(I,F)は、IとFとの間のカラー類似度関数である。値I及びFjが近いほど、f(I,F)の値が大きくなり、逆もまた同様である。任意のカラー類似度関数を用いることができ、単純な選択肢は、
Figure 0007012642000031
である。ここで、σは、正の強度拡散パラメーター(intensity spread parameter)であり、
Figure 0007012642000032
は、ベクトルx=[x,...,xのLpノルムのp乗である。pの一般的な選択肢は、p=1及びp=2である。
2.f(D,D)は、D及びD間の深度類似度関数である。D及びDは、それぞれ、ロケーションp及びDにおける深度値である。任意の類似度関数を適用することができ、単純な選択肢は、
Figure 0007012642000033
である。ここで、σは、正の深度拡散パラメーターである。
3.f(p,j)は、空間距離重み付け関数(weighting function)である。ここでもまた、多くの選択肢が存在し、単純な選択肢は、
Figure 0007012642000034
である。ここで、σは、正の空間拡散パラメーターである。
4.
Figure 0007012642000035
は、ロケーションjにおけるピクセルが前景内にあり、そのカラー値が既知であるときに1に等しく、そうでない場合にゼロに等しいマスク関数である。
拡散パラメーターσ及びσは、推測を行う際にカラー及び深度マップの信頼性に関係付けられる。例えば、深度マップのノイズが多い場合、f(D,D)は、1になるように選択され、いくつかの用途において省くことができる。本方法は、深度マップが通常利用不可能であるマッティング用途にも適用可能である。
同様に、式(5)におけるように、
Figure 0007012642000036
を、以下のように選択することができる。
Figure 0007012642000037
ここで、f(I,B)は、IとBとの間のカラー類似度関数である。
式(2a)、式(2b)、式(5)及び式(6)を用いて、所与の前景及び背景ピクセルを、既知の前景及び背景の近傍から未知の領域に徐々にインペインティングすることができる。自然な選択は、或る特定の順序で既知のピクセルから未知のピクセルにピクセルを順にインペインティングすることである。いくつかの例では、インペインティングを加速するためにいくつかのピクセルは並列にインペインティングすることができる。
例えばロケーションpにおいて、ピクセルがインペインティングされた後、そのマスク
Figure 0007012642000038
が1にセットされ、そのカラー値F
Figure 0007012642000039
にセットされる。インペイントされた結果の例が、テクスチャー画像のみを用いて図6に示されている。図6(a)は、元の前景であり、図6(b)は、最初の犬の画像の未知のエリアにおけるインペインティングされた前景である。背景も同様にインペインティングすることができ、インペインティングされた背景の例が図6に示される。ここで、図6(c)は元の背景であり、図6(d)はインペインティングされた背景である。図6(c)における円内の突起は図6(d)においてなくなっている。
このプロセスの利点は、ベイズマッティングにおけるようにF及びBの連立一次方程式を解く必要がないことである。代わりに、式(2a)、式(2b)、式(5)及び式(6)を用いたインペインティングのみが行われればよい。計算値又は他の予測値と置き換えられた
Figure 0007012642000040
を用いてF及びBを更新するための他の方法も用いることができる。例えば、1つの方法は、目的関数を最小にすることができる。
Figure 0007012642000041
ここで、ρ(F)及びρ(B)はそれぞれ、
Figure 0007012642000042
からの偏差を測定し、λ及びλは、3つの項に異なる重点をおくための正の定数である。式(7)の
Figure 0007012642000043
及びeは、ベイズマッティングにおけるように連立一次方程式を解くことによって解くことができる。
、Bの推定値、及びαの以前の値
Figure 0007012642000044
を所与として、式(4)を用いてαを解くことができる。そのように計算されたαを、その近傍からの予測因子及びpにおける値と組み合わせて、より安定した推定値を得ることができる。これにより、以下が得られる。
Figure 0007012642000045
ここで、
Figure 0007012642000046
である。βは、マッティング及びフィルタリングのバランスをとるための0~1の定数である。
これはフィルタリングプロセスであり、ここで、元のマット又は入力マットαは、新たな推定値又はフィルター出力
Figure 0007012642000047
を得るために重み
Figure 0007012642000048
を通じてローカルで重み付けされた平均によって変更される。そのようなフィルタリングは、入力における望ましくない成分を除去するのに役立ち、この場合は、式(4)から得られたαの変動を低減するのに役立つ。
Figure 0007012642000049
と同様に、
Figure 0007012642000050
は、以下のように選択することができる。
Figure 0007012642000051
ここで、f(I,F)、f(D,D)及びf(p,j)は、カラー、深度、及び空間距離類似度関数として同様に定義される。
項fα(α,α)は、α及びα間の類似度関数である。任意の類似度関数を用いることができ、単純な選択肢は、
Figure 0007012642000052
である。ここで、σαは正の拡散パラメーターである。リアルタイムの実施態様の場合、式(9)、式(5)及び式(6)に対する様々な簡略化を行うことができる。例えば、単純なフィルタリングの場合、項f(p,j)を用いることができ、式(9)は、
Figure 0007012642000053
に変換される。
原則的に、この新たな推定を反復してF及びBを更新し、次に上記の技法を再び用いてαを更新することができる。これらのほとんどは、上記の式(8)に類似した形態を用いたフィルタリングプロセスとして書くことができる。
実験は、式(2a)、式(2b)、そして式(4)を1回実行することによって受容可能な結果を得ることができることを示しており、これによって、リアルタイム前景抽出のために、したがって、ビュー合成のために、F及びB並びにαを近似的に得るための算術的複雑度が大幅に低減する。例示的な結果が図7に示されている。図7は、λ=0及びλ=0.01の場合のベース式(4)のマッティング結果を示しており、ここで、図7(a)は、λ=0の場合の式(4)の初期マッティング結果であり、図7(b)は、λ=0.01の場合の式(4)による精緻化されたマットである。
半透明のオブジェクトを抽出する際、B、I及び
Figure 0007012642000054
が与えられ、Fは、部分遮蔽領域において抽出される必要がある。オブジェクト境界を除いて、
Figure 0007012642000055
であり、Bは部分遮蔽データから既知であり、したがって、
Figure 0007012642000056
である。
式(2a)によるFの更なる平滑化を行うことができる。
代替的に、Fがランダムベクトルであると仮定し、最大尤度法又は最大尤度のような方法によってFを推定することができる。これにより、以下を最小にすることになる。
Figure 0007012642000057
ガウス分布e及びFの場合、式(10)は、以下に変換される。
Figure 0007012642000058
ここで、ΣはFの共分散行列であり、これは既知の近傍ピクセルから推定することができる。これによって、以下が得られる。
Figure 0007012642000059
Figure 0007012642000060
がゼロに等しいとき、式(11)は、式(10)に変換される。これは、Fにおける不確実性がないことを意味する。
Figure 0007012642000061
がεIによって近似される場合、式(11)は以下に変換される。ここで、Iは恒等行列であり、εは正の定数(通常小さい)である。
Figure 0007012642000062
この形式は、Fの近傍情報を用いて、以前の値
Figure 0007012642000063
を通じて式(10)における推定値を精緻化することができるので魅力的である。以前の値は、既知のFを用いて近傍ピクセルから推定することができ、式(11)におけるように連立一次方程式を解く必要はない。実際に、式(12)も、式(11)の反復的解における1つの反復とみなすことができる。式(10)及び式(12)の双方を、境界から離れたエリアにおいて用いることができる。次に、これらの値を、上記で導入された方法において用いて、境界においてF、B及びαについて解くことができる。
次に、前景深度補正について検討する。現在の前景のマットから、その深度値が精緻化される。オブジェクト境界領域Rにおいて、式(2a)及び式(2b)におけるF及びBについての方法に類似した方法を用いて、Rに最も近い、
Figure 0007012642000064
を有する値から深度値がインペインティングされる。深度は、その近傍からの深度値を用いて未知の深度を予測することによってインペインティングすることができる。
Figure 0007012642000065
ここで、
Figure 0007012642000066
は、前景のインペインティングされた深度を表し、
Figure 0007012642000067
は、ロケーションpにおける重み付け関数である。
Figure 0007012642000068
に類似して、式(13)における重み
Figure 0007012642000069
を以下のように選択することができる。
Figure 0007012642000070
ここで、f(I,F)、f(D,D)及びf(p,j)は、カラー、深度及び空間距離類似度関数として同様に定義される。項fα(α,α)は、αとαとの間の類似度関数であり、任意の類似度関数を用いることができる。単純な選択肢は、
Figure 0007012642000071
である。ここで、σαは正の拡散パラメーターであり、
Figure 0007012642000072
は、深度値が既知であるか又はインペインティングされているときに1に等しいマスクである。インペインティング手順も、F及びBの手順に類似しており、ここでは未知の深度値は、既知の深度値から徐々にインペインティングされる。
必要な場合、合成品質を高めるようにオブジェクト内の深度の更なる処理を行うことができる。例えば、オブジェクト境界付近の深度値は、3D効果を高めるように先鋭化することができる。さらに、時空間共同テクスチャー-深度フィルタリングを行って、後に論考するように、深度-テクスチャーの一貫性を改善し、時間的安定性を改善することができる。
これまで、前景の形状、テクスチャー及び深度値がどのように精緻化されるかの開示が行われてきた。ここで、効率的な実施及び高速アルゴリズムについて検討を行う。第1に、式(2a)、式(2b)及び式(2c)におけるインペインティングフィルターの効率的な実施が検討される。式(2a)から、以下の式が成り立つ。
Figure 0007012642000073
ここで、
Figure 0007012642000074
である。背景のためのインペインティングは同様である。他方で、式(2c)における平滑化フィルターは、以下となる。
Figure 0007012642000075
ここで、
Figure 0007012642000076
である。
それらの双方が、加重和(weight sum)の形態を有し、したがって、これらの実施は類似している。加重和における乗算数等の数学的複雑度を低減するために、
Figure 0007012642000077
における(及びそれに類似して、fα(α,α)も有する
Figure 0007012642000078
における)重み付け関数f(I,F)、f(D,D)及びf(p,j)は、限られた離散レベルに量子化される。したがって、それらの積を予め計算し、G. A. Ruisの論文に記載されているようなカノニカル署名数字(CSD)として、又は引用することによりその全体が本明細書の一部をなす、論文S. C. Chan及びW. Liu他「Multiplierless Perfect Reconstruction Modulated Filter Banks with Sum-of-powers-of-two Coefficients」IEEE Signal Processing Letters, vol. 8, pp. 163-166, (2001)において記載されているような、2つの係数の冪数の和として記憶することができる。積は以下の形態をとる。
Figure 0007012642000079
結果として、式(15)における数uと上記のCSDとの乗算を、
Figure 0007012642000080
のように実施することができる。
この結果、非ゼロのplごとにuを2-lだけシフトし、これらを合算することになる。このため、そのようなCSD数とFとの乗算は、一連のバイナリシフト及び累積として効果的に実施することができる。したがって、加重和は、最大で、ここでも同様に計算することができる、
Figure 0007012642000081
のスケーリングまで乗算なしで実施することができる。テーブルルックアップ又は他の高速な方法によって実施することができるフィルター出力を得るために分割が必要とされる。
Figure 0007012642000082
が、0及び1の値を仮定し、これは、積が累積中にFに乗算されるか否かを示す。
平滑化の場合、様々なロケーションにおけるフィルター出力を並列に計算して、計算時間を低減することができる。
高速実施の場合、カラー項f(I,B)又はf(I,F)及び深度項f(D,D)を1に設定することができ、この結果、近傍の既知の値又は更新されたピクセルからの重み付け予測(weighted prediction)が得られる。
さらに、ウィンドウ
Figure 0007012642000083
の異なる所定のサポートを、
Figure 0007012642000084
に従って設計し選択することができる。これはサポートに密にマッチする。
Figure 0007012642000085
よりも僅かに小さいサポートを有するフィルターを選択することができる。代替的に、
Figure 0007012642000086
が、
Figure 0007012642000087
よりも大きなサポートを有する場合、
Figure 0007012642000088
ではなく、
Figure 0007012642000089
に関与する欠落データを、その最近傍と置き換えることができる。
所定のサポート及び重みを用いる利点は、スケーリング
Figure 0007012642000090
を重み
Figure 0007012642000091
に吸収して、1組の固定フィルター係数
Figure 0007012642000092
を形成することができることである。ここでも、これらはCSDとして表すことができる。結果として、フィルタリング全体を、シフト及び加算のみを用いて実施することができる。
高速の所定のマッティングプロファイルは、本発明の別の態様である。高速実施の場合、マットが「所定のプロファイル」を辿ることを仮定することができる。例えば、前景バイナリ形状画像は、
Figure 0007012642000093
を得るために、境界エリア上の一定の拡散パラメーターσを用いて以下のガウスカーネルフィルターによってフィルタリングすることができる。
Figure 0007012642000094
これは、β=0、及び入力バイナリ形状/マットαによって入力が与えられた、
Figure 0007012642000095
を有する式(8)を用いることに等しい。
Figure 0007012642000096
換言すれば、式(4)及び平滑化を用いてマットを推定する代わりに、バイナリ形状画像をフィルタリングして、観測と無関係に所定のプロファイルを得る。これにより、性能の僅かな劣化と引き換えに、複雑度がかなり低減される。
代替的に、所定のプロファイル
Figure 0007012642000097
を、インペインティングされた前景及び背景を用いてマットを精緻化するための式(4)の事前情報として用いることができる。フィルター係数
Figure 0007012642000098
をCSDに量子化して、フィルタリング除去することができる。このため、この推定は、シフト及び加算によってのみ実施することができる。
現在の前景が抽出された後、これに応じて背景を更新しなくてはならない。テクスチャー及び深度の双方を更新する必要がある。
テクスチャーの更新時に、抽出された前景に関連付けられた部分遮蔽データに含まれる画像データを用いて、残りの背景の遮蔽除去エリアを更新する。現在の前景のマットが非ゼロであるこれらのロケーションにおいて、背景内の部分遮蔽データによってカバーされる全てのピクセルが、平滑な遷移を得るために現在の背景を用いてマッティングが行われることになる部分遮蔽画像データの境界を除いて、更新された背景における前景のトレースを除去するように上書きされる。
生じ得る穴を埋めるために更なるインペインティングが必要とされる場合がある。これは、式(2b)の技法によって行うことができる。
深度データも更新されなくてはならない。抽出されたばかりの前景/オブジェクトが、オブジェクトがオーバーラップする状況において最小の深度を有する前景/オブジェクトでない場合、部分遮蔽データは、少なくとも、関連付けられた形状によって定義される現在のオブジェクトの中の平均深度値を提供するべきである。そして、通例、抽出されたばかりの前景と最も近い平均深度を有する次のオブジェクトの深度情報が、部分遮蔽データを用いて更新される。
次のオブジェクトによって定義される境界内の穴を埋めるのにインペインティングが必要とされる場合がある。オブジェクト境界内で深度値の平滑化又は他の処理が必要とされる場合がある。
上述した抽出及び更新プロセスは、全てのオブジェクトが処理されるまで、次のオブジェクト(通例、最小の平均深度を有するオブジェクト)について繰り返されることになる。
マッティング中、或る特定の境界領域は、カラー及び深度データを含まない場合があり、このとき、精緻化された形状として形状画像が用いられる。
図8(a)は、前景オブジェクトの抽出後の図2(a)の画像の背景を示す。図8(b)は、図3(b)におけるオブジェクト2の形状画像を用いて抽出されたオブジェクトを示し、図8(c)は、図3(a)におけるオブジェクト1の形状情報を用いて抽出されたオブジェクトを示す。
図9は、オブジェクト抽出後の深度マップを示す。図9(a)は、オブジェクト抽出後の背景を示し、図9(b)は、オブジェクト1を用いて抽出されたオブジェクトを示し、図9(c)は、オブジェクト2を用いて抽出されたオブジェクトを示す。
記憶及び送信のために、遮蔽エリアにおける画像、深度及びマットデータの圧縮が必要である。
上述したように、部分遮蔽データは、指定された視点変更にわたる低アーチファクトを用いたビュー合成を容易にするように部分遮蔽エリアを埋めることが必要とされる更なる情報を含む。部分遮蔽データは、画像データ並びにそれらの関連する深度及びマット(不透明度)データを含み、それによってそれらは、特定のビューの元のビデオ及び深度データを用いてマッティングし、低アーチファクトビュー合成を行うことができる。
図5から、オブジェクトの部分遮蔽データに関連付けられた深度マップが、局所的な不連続部を除いて、通例平滑であることを見て取ることができる。図5の例の場合、半透明のオブジェクトが存在せず、このため、平均不透明度は1に等しい。通例、マットの変動は非常に小さく、平均値のみを用いて表すことができる。このため、バイナリ画像のみを圧縮すればよい。バイナリ画像の境界におけるマットが、平均値と異なる値を仮定する場合、これらは、ブロックベースの画像符号化技法を用いて符号化することができる、オーバーラップしていないブロックによってカバーすることができる。
遮蔽除去エリアの画像、深度及びマットデータ(上述したように、符号化される実数値マットは、バイナリ形状画像の境界の周りにある)を圧縮するために、DCTを用いた変換符号化、又はウェーブレット変換等のサブバンド符号化技法等の従来の波形符号化技法を用いることができる。例えば、引用することによりその全体が本明細書の一部をなす、R. M. Gray「Source Coding Theory」Kluwer Academic Publishers, (1990)を参照されたい。変換符号化は、通例、データブロックに対し機能するため、遮蔽除去データは、元の画像座標に対する最小限のブロック数によってカバーされる。
図10(a)は、形状及び深度マップから推定される部分遮蔽画像データを示し、図10(b)は、ブロックベースの符号化のための部分遮蔽画像データをカバーするためのブロックのロケーションを示す。図10(b)において、遮蔽除去データをカバーするのに用いられる(8×8)のブロック(白色)のロケーションが示される。通常、矩形ブロック、可変ブロックサイズ又は他の区分を用いることもできる。遮蔽エリアは、符号化のためのオーバーラップしていない矩形ブロックに分割されることが想定される。
左側の図におけるオブジェクトAの形状画像及び深度マップを所与として、右側の図におけるオブジェクトAの形状画像A’を生成することができる。シフトされた形状画像とオーバーラップしない元の形状画像におけるエリアは、このオブジェクトに起因した遮蔽除去エリアを表す。このエリアのサイズは、左側のビューと、右側のビューとの間のカメラ位置のシフトに関連する。したがって、遮蔽除去エリアのサイズは、ビュー合成中にサポートすることができる最大カメラシフトから選択される。このエリアと、現在のオブジェクトの背後のオブジェクト、例えばBの形状画像との交差部は、BにおけるAの対応する遮蔽除去を表す。図10(a)は、背景におけるオブジェクト1及び2の遮蔽除去エリアを示す。
圧縮された形状及びデータマップを用いて遮蔽除去領域を決定する場合、遮蔽除去領域は、左側のビュー及び右側のビューのカメラ位置シフトを所与として、復号器において一意に決定することができる。代替的に、形状画像の左境界を含む各ブロックに続く水平方向における画像ブロック数を符号化することができる。同じ左境界から生じる2つの連続したブロック行における画像ブロック数は、異なる形で符号化することができる。引用することによりその全体が本明細書の一部をなす、1952年7月29日に発行されたC. Chapin Cutlerの米国特許第2,605,361号「Differential Quantization of Communication Signals」を参照されたい。
画像データは、3つのカラー成分を含むことを除いて、深度及びマットデータに類似している。一般的に用いられるカラー成分は、デシメーションを用いるか又は用いないYCrCb又はYUVカラー成分を含む。
本発明によれば、以下のように部分遮蔽データの符号化のための帯域幅を更に低減するいくつかの方法が存在する。
1.入力ビデオ及び深度マップから部分遮蔽データを予測する。
2.以前に符号化された近傍ブロックから部分遮蔽データの各ブロックを予測する。
3.同じ行における開始深度不連続部から遠く離れたブロックのための量子化誤差を徐々に増大させる。
第1に、入力ビデオ/ステレオ及び深度マップ(複数の場合もある)からの予測方法が検討される。画像及び深度部分遮蔽データは、ほとんどの場合、背景層から到来するので、それらの値は、それぞれ、入力画像及び深度マップにおける近傍ピクセルに近いか又は相関付けられる。符号化される画像(深度)ブロックを所与として、ブロックマッチングを用いて、入力画像(深度マップ)から或る特定の検索範囲内の類似ブロックを得ることができる。以前に符号化されたピクセルも、検索エリアに含めることができる。最良マッチング予測ブロックの予測誤差が大きい場合、他の符号化モードが検討される。そうでない場合、最良のマッチングブロックを現在のブロックへの予測因子として用いることができ、現在のブロックから最良のマッチングブロックへの対応する変位も符号化される。例えば、近傍変位からの追加の予測を用いて変位の大きさを低減することができ、残りの変位ベクトルはエントロピー符号化される。これは、従来のビデオ圧縮の運動推定に類似しているが、これは、遮蔽除去データのコンテキストにおいて用いられ、予測は現在の時点内にある。この方法は、画像(深度)と部分遮蔽除去成分との間の変位予測に基づくため、「成分間変位予測」と呼ばれる。成分間変位予測図を示す図11を参照されたい。ステレオ画像の場合、1つのビューにおける部分遮蔽除去画像データを他のビューから予測することができる。
部分遮蔽データの隣接深度値を用いて、他のビューにおける現在のピクセルのロケーションを示すことができ、これを用いて、他のビューから予測因子を抽出することができる。
そのような予測が失敗する場合、ブロックは、現在のフレーム内の部分遮蔽データ内のデータから符号化することができる。以前に符号化された近傍ブロックから現在のブロックを予測する効果的な方法は、イントラ予測を用いることであり、これらの符号化されたブロックの境界における値を用いて、符号化されることになる現在のブロックのための予測因子を形成する。これは、現在のビデオ符号化規格において頻繁に用いられている。引用することにより本明細書の一部をなす、G. J. Sullivan他「Overview of the High Efficiency Video Coding (HEVC) Standard」IEEE Trans. Circuits and Systems for Video Technology, vol. 22, pp. 1649-1668, (2012)を参照されたい。
上述したように、本発明は、深度マップ、マット及び画像データにおいて遭遇する平滑表面を効率的に扱うことができる、双線形関数近似に基づく新たなイントラ予測方法も伴う。
画像データの深度マップ、マット(不均一な不透明度を有する半透明オブジェクトの場合)、及び特定のカラー成分であり得る、部分遮蔽除去データの成分を検討する。さらに、エリアが、図10(b)に示されるように、符号化のためのオーバーラップしていないブロックによってカバーされていると仮定する。各ブロックは、符号化のために、小さなブロックに更に分割することができる。
ブロック内の値をd(x,y)とし、これらは、Wikipediaの論文によって示されるように、双線形関数によって近似されることになる。表記の都合上、矩形整数グリッド(x,y)∈[0,N]×[0,N]において双線形近似が行われると仮定する。近似される必要がある現在のブロックは、整数グリッド(x,y)∈[1,N]×[1,N]内に位置し、ここで、x及びyは、それぞれ水平座標及び垂直座標であり、N×Nは、ブロックサイズである(図12(a)を参照)。図12において、マット/深度/カラー画像予測は、例示のために、ブロックサイズN=N=8を有する双線形関数によって示される。符号化される4つのパラメーターは、黒い円でマーキングされる。隣接するブロックが平滑である場合、これらのパラメーターは、符号化されるブロックの上、左上及び左の符号化ピクセルから予測することができる。図12(a)は境界ブロックであり、図12(b)は非境界ブロックである。黄色(Y)でラベル付けされた(格子模様の)ピクセルは、元の背景からのものである。
簡単にするために、(x,y)における双線形関数f(x,y)の近似値が以下の式によって与えられると仮定する。
Figure 0007012642000099
ここで、f(N,0)、f(0,N)及びf(N,N)は、包囲する角部における双線形関数の関数係数である。
所与の部分遮蔽データの境界を含むブロックについて、符号化される値d(x,y)は、ブロックの一部を占有することができる(図12(b)を参照)。しかしながら、それらのサポートは、遮蔽除去データの形状から一意に定義される。これらのロケーションは、矩形グリッドの一部であり、したがって、関連付けられた深度値を依然として双線形関数によって近似することができ、これは、グリッドの角部における値を通じて指定することができる。適切に選択された双線形関数及び形状画像の係数から、ブロック内の成分値d(x,y)に対する近似又は予測を計算することができる。代替的に、元の背景における近傍ピクセルを用いて、符号化のための完全なブロックを形成することができる。これは、図12(b)におけるブロックの左上角部における黄色(Y)でラベル付けされた(格子模様の)ピクセルによって示される。
近似関数のパラメーターf(0,0)、f(N,0)、f(0,N)及びf(N,N)は、式(18)の最小二乗又は所与のデータ点への他の当てはめから得ることができる。
データ当てはめを必要としない高速アルゴリズムを、リアルタイム実施で用いることもできる。非境界ブロックの場合、角部の周りのサンプルからの関数値を直接推定し、プロセスを簡略化することができる。代替的に、ブロック内の代表点を取り出すことができ、プロセスは、所与のデータに対する面当てはめを行うことができる。次に、4つの角部における値を評価し、Cutlerの特許における差分パルス符号化変調(DPCM)、並びに、例えば、Grayのテキスト及びhttp://www.stevenpigeon.com/Publications/publications/ HuffmanChapter.pdfで入手可能な論文Steven Pigeon「Huffman Coding」におけるような(2×2)DCTを用いた、以前に符号化されたサンプルからのエントロピー符号化又は変換符号化によって符号化することができる。最も低い次数のDCT係数のみが符号化される場合、これはブロックに対する定数近似に変換される。
非境界ブロックの場合、近傍の符号化されたブロックから、左上、右上、及び左下の角部に位置する3つの関数係数を推定することができる。平滑な深度値の場合、パラメーターのうちの3つをこれらの予測因子によって表すことができ、1つの関数係数のみを符号化すればよく、ここでも、他の関数係数値からDPCM符号化することができる。境界ブロックの場合、関数係数のうちの全て又はいくつかが符号化される必要がある。それらの値は、付近の符号化されたブロックにおける値と相関付けることができ、したがって、これらは以前に符号化された情報から予測することもできる。
本発明の別の特徴は、階層型双線形近似の使用である。固定ブロックサイズを用いる代わりに、双線形イントラ予測のブロックサイズを、平滑であるが局所的に変動する画像コンテンツに対する効率的な近似を与えるように変動させることができる。可変ブロックサイズを選択する可能な方法は、所与のブロックを4つの等しい大きさのサブブロックに選択的に分割することである。これによって、効率的な予測のための入力画像の可変かつ階層型の分解がもたらされる。
これについては、(8×8)のブロックが検討される図13に示される。(8×8)ブロック全体が、双線形関数によって近似される場合、図13に示すように、f(0,0)、f(N,0)、f(0,N)及びf(N,N)によってラベル付けされたブロック円として4つのパラメーターが示される。(8×8)ブロックが4つの(4×4)サブブロックに分割される場合、各サブブロックは、4つの追加パラメーターを必要とすることになる。(8×8)ブロックの左上の角部における、(斜線を中に有する)青色(B)でマーキングされた(4×4)サブブロックを検討する。上及び左の3つの関数係数は暗い円でマーキングされているのに対し、右下の角部の係数は(水平線を中に有する)緑色(G)でマーキングされている。暗い円内の3つの係数は、それらの位置の周りで符号化された係数から予測することができる。深度マップが平滑である場合、これらの予測因子を、関数係数として用いることができ、(水平線を中に有する)緑色でマーキングされた係数のみが符号化されればよく、ここでも、他の3つの係数から予測することができる。これは、(水平線を中に有する)緑色でマーキングされた追加の係数を有する他の3つの(4×4)サブブロックについて生じるが、元の(8×8)ブロックの係数とも一致する右下角部については除く。換言すれば、ブロックが4つのサブブロックに分割される場合はいつでも、以前に符号化された係数を用いて上及び左角部の係数を表す場合、3つの更なる係数が符号化される必要がある。
図13において、(4×4)サブブロックのためのものは(水平線を中に有する)緑色(G)の円でマーキングされており、第1レベルの分解としてラベル付けされている。(4×4)サブブロックの場合、更なる分解が行われ、符号化されることになる更なる係数が、(垂直線を中に有する)赤色(R)の円でマーキングされている。
このプロセスをより大きなブロックサイズに適用して、階層型表現を形成することができる。各ブロックにおいて、分解は、或る特定の近似精度が達成されるまで行うことができる。
本発明を実行する際に、残差を検討し、符号化することも必要である。予測残差と呼ばれる近似誤差は、残差の選択されたブロックの直接差分パルス符号化変調(PCM)符号化等の変換符号化又は他の技法を用いて符号化することができる。例えば、非ゼロの量子化残差を有する一連の最小の大きさのサブブロック、例えば(4×4)のロケーションが指定される。シーケンス内の(4×4)サブブロックの相対的なロケーションを、チェーンコード(図14(a))によって符号化することができる。この方法は、分離した非ゼロ量子化残差を符号化するのに効率的であり、他のサブブロックサイズが用いられてもよい。
代替的に、ゼロ及び非ゼロサブブロックをバイナリビットによって示すことができる。これは、算術符号化(図14(b))又は算術コードを用いたクアッドツリーを用いて符号化することができる。図14(b)において、0及び1におけるバイナリ画像が、コンテンツベースの算術コードを用いて符号化される。
非ゼロサブブロックにおける量子化係数は、或る特定の順序で走査し、DPCM又は他の類似の技法(図14(c))を用いて符号化することができる。図14(c)において、垂直走査が示されているが、水平、ジグザグ、又は他の走査順序が用いられてもよい。これらの方法及び他の方法の組み合わせも用いることができる。
現在のフレーム内のブロックを予測するのに用いることができる別の技法は、以前に圧縮された(他の時点又はビューにおける)基準フレームからのデータを用いることである。このタイプのフレーム間又はビュー間技法は、S. C. Chanの論文におけるようなマルチビュービデオ符号化において頻繁に用いられている。ブロックは、上述したようなインター予測又はイントラ予測のいずれかを用いて符号化することができ、残差は、上述したように符号化することができる。
次に、視差を意識した量子化誤差が検討される。通常、最大視点変更が選択されるとき、オブジェクト境界から遠く離れた遮蔽データが用いられる。しかしながら、これは常に当てはまるわけではない場合があり、したがって、ビットレートが制限されているとき、これらの遮蔽データには、より低いレートが与えられる。原則的に、近傍フレームからのワンタイムフレームにおいて部分遮蔽データを予測することが可能である。しかしながら、補助データが、テクスチャーコーデックと独立して符号化されることが想定されるので、スキップされる画像フレームから基準が予測されないことを確実にすることが重要である。そうでない場合、これを再構成することは可能でない場合がある。ビットレートを更に低減するために、部分遮蔽データ内の連続水平ブロック又は垂直ブロックの流れにサブバンド符号化を適用することができる。例えば、図10(b)において、サイズ(LN)×(N)のブロックの多くの水平行が存在する。ここで、Lは連続ブロック数であり、(N×N)はブロックサイズである。次に、ウェーブレット変換等のサブバンド符号化をこれらのブロックに適用して、より長い長さを有する変換を生成することができる。これにより、(8×8)のDCTのみを用いることの符号化効率が改善する。例えば、水平ウェーブレット変換を2回行うことができ、1回目はサイズ(LN/4)×Nの最低周波数帯域を生成するためのものであり、2回目は、サイズ(LN/4)×N及び(LN/2)×Nの他の高周波数帯域を形成するためのものである。最低サブバンド係数は、DCTを用いて符号化することができ、ここで、より高い周波数係数を、粗く量子化することができる。これにより、サイズ(32×8)の変換が効率的に生成される。
上述したように、テクスチャーと視差マップとの間の非一貫性又は誤差は、精緻化も補正もされない場合、レンダリングにおける明確なアーチファクトにつながる。さらに、現在の視差マップは、通例、フレーム単位で推定されるので、時間的一貫性は、通常確保されない。
図15(a)及び図15(b)は、それぞれ、同じパラメーターを有する同じステレオ推定方法を用いて推定された2つの連続したテクスチャー及び深度画像フレームを示す。赤色(R)の円を用いてラベル付けされたエリアにおいて大きな非一貫性が存在するが、2つのフレームは極めて類似していることを見てとることができる。レンダリング中、この時間的非一貫性により、これらのエリアにおいてキラキラしたアーチファクトが生じる可能性がある。
深度マップの精緻化のために一般的に用いられる方法は、引用することによりその全体が本明細書に引用される、論文C. Tomasi他「Bilateral filtering for gray and color images」IEEE Sixth International Conference on Computer Vision, pp. 839-846, (1998)において開示されるようなバイラテラルフィルターである。この方法において、各ピクセルにおける精緻化された深度値は、以下の式に従って、現在のピクセルからの空間差及び強度差によって重み付けされた近傍ピクセルの平均から得られる。
Figure 0007012642000100
ここで、p=(x,y)は、現在のピクセルの座標であり、s=(x,y)は、ピクセルpを中心とした近傍N内のサポートピクセルの座標であり、{I}は、入力自然画像であり、{D}は、入力視差マップであり、{D’}は、出力又はフィルタリングされた視差マップであり、
Figure 0007012642000101
は、正の拡散パラメーターσを有する空間ガウス重み付け関数であり、
Figure 0007012642000102
は、正の拡散パラメーターσを有するカラー/範囲重み付け関数である。表記の都合上、2次元画像は、座標pによってインデックス付けされ、入力自然画像、視差マップ等は、それぞれ、座標p、{I}及び{D}等によってインデックスされた組として書かれる。
バイラテラルフィルターは、エッジを保持しながら、画像を平滑化するように作用する。バイラテラルフィルターは、引用することによりその全体が本明細書の一部をなす、T. Matsuo他「Weighted Joint Bilateral Filtering with Slope Depth Compensation Filter for Depth Map Refinement」VISAPP(2), pp. 300-309, (2013)に示すような共同バイラテラルフィルターに一般化される。ここで、重みは、フィルタリング入力ではなく、別のガイダンス画像から計算される。共同バイラテラルフィルターは、フィルタリングされる画像が、所望の情報に対し信頼性がないとき、例えば非常にノイズが多いか又は中間結果であるときに、有用である。
提案されるフィルターは、以下の利点を有する。
1.フィルタリングプロセスにローカルコンテキスト情報を組み込むことによって、エッジの周りの従来のバイラテラルフィルターのアーチファクト及び勾配反転を低減する。
2.Ruizの論文に示されるように、カノニカル署名数字(CSD)によるフィルター重みを表すことによって、効率的な実施構造を与える。
提案される方法は、ビデオシーケンスにおける複数の連続したテクスチャー及び深度画像を処理する。ビデオを3Dボリュームとして扱うことによって、精緻化された深度マップが以下によって得られる。
Figure 0007012642000103
ここで、p=(x,y,t)は、フレームtにおける現在のピクセルの座標であり、s=(x,y,t)は、t番目のフレームにおけるピクセルpを中心とした近傍Nにおけるサポートピクセルの座標であり、I及びIは、それぞれロケーションp及びsにおける強度である(原則的に、カラーベクトルも用いることができる。強度は、複雑度を低減するのに用いられる)。{D}は、入力視差マップであり、{D’}は、出力又はフィルタリングされた視差マップである。ξは、エッジマップボリュームであり、キャニーエッジ検出及びゾーベルエッジ検出等の従来のエッジ検出方法を入力自然画像の各フレームに適用することによって得ることができる。
Figure 0007012642000104
は、空間距離及び時間距離の重要度のバランスをとるための、正の拡散パラメーターσ及び定数ρを有する時空間ガウス重み付け関数であり、
Figure 0007012642000105
は、正の拡散パラメーターσを有するカラー/範囲重み付け関数である。
{Rs’}は、視差マップのフレームごとの事前計算された信頼度マップであり、Rは、ロケーションsにおけるその値である。ステレオ推定又は深度カメラ等のよく知られた方法から取得される視差マップの観察から、オブジェクト境界の周りの視差マップは、通例、非常にノイズが多い。このため、エッジの周りの視差マップの信頼度を低減することが望ましい。例えば、これは以下のように事前計算することができる。
Figure 0007012642000106
ここで、Eは、視差マップのエッジマップであり、DT(E,s’)は、最近傍の障害物ピクセル(obstacle pixel)への距離を用いて画像の各ピクセルs’をラベル付けする距離変換関数であり、σは、所定の正の拡散パラメーターである。
g(p,s,ξ)は、ローカルコンテキスト情報の尺度であり、以下によって与えられる。
Figure 0007012642000107
g(p,s,ξ)の計算が図16(a)に示されている。エッジは、「x」によってラベル付けされている。pがエッジピクセルである場合、g(p,s,ξ)=1である。pがエッジピクセルでない場合、フレームtにおけるエッジマップのパッチを所与として、pからsに直線を引く。直線は、4つの連結されたサブブロックでなくてはならず、図16(a)において、青色(影付き)でラベル付けされている。線内にエッジピクセルが存在する場合、g(p,s,ξ)=1であり、そうでない場合、g(p,s,ξ)=0である。計算された(a)の例が図16(b)に示されている。特に、図16は、「x」によってラベル付けされたエッジを示す。検討される2つのピクセルは、p及びsによってラベル付けされ、pからsへの直線は、青色(影付き)である。図16(b)において、図16(a)からg(p,s,ξ)が得られ、ここで、ローカルピクセルは1によって茶色でラベル付けされ、非ローカルピクセルは、黒色で0によってラベル付けされている。
空間領域又は時間領域の双方でデータのブロックに対しフィルタリングを行う代わりに、フィルタリングは、空間フィルタリングのための式(20)を用いて(すなわち、現在のフレームについてのみ)行い、その後、再び、式(20)を用いた時間フィルタリング(すなわち、例えば2×2のサイズの小さな空間ウィンドウを用いるが、より長い時間ウィンドウを用いる)を行うことができる。これにより、算術的複雑度が大幅に低減される。この技法は、一般的に、「分離可能フィルタリング」と呼ばれる。
フィルタリングプロセスをより良好に説明するために、フレームtにおけるパッチが例として選択され、式(19)における各成分が選択される。重み付けがどのように組み合わされるかの流れ図が図17に示される。図17において、時点tにおける入力画像が(a)に示され、時点tにおける入力深度が(b)に示され、(c)は、(a)の推定エッジであり、(d)は、時点tにおけるカラー重み付けc(I,I)であり、(e)は、ローカルコンテキストマスクg(p,s,ξ)であり、(f)は、視差マップの信頼度{Rs’}であり、(g)は、時点tにおける時空間ガウス重み付けであり、(h)は、最終的な組み合わされた重み付け関数である。
主要な特徴は以下のとおりである。
1.時間的重み付けを用いて、特に静的領域における深度マップの時間安定性を改善する。
2.ローカルコンテキストマスク関数g(p,s,ξ)を用いて、エッジ情報を用いてローカルコンテキストを強調する。
3.図17(f)に示す深度信頼度項Rを追加することによって、視差マップのエッジの周りの重み付けが低減される。
4.重み付け関数w(p,s)及びc(I,I)は、必ずしもガウス重み付け(カーネル)関数ではない。実際に、これらは、値の限られた組に量子化することができ、それによって、w(p,s)c(I,I)とDとの乗算を加算によってのみ実施することができるように、カノニカル署名数字(CSD)の形態で積を事前に計算し、表すことができる。これにより、精緻化方法の実施における算術的複雑度が大幅に低減する。
5.算術的複雑度を低減するための分離可能な空間及び時間フィルタリングの使用。
図18は、いくつかの代表的なパッチを示し、それらの重み付けカーネルを従来のバイラテラルフィルターと比較する。従来のバイラテラルフィルター及び提案される方法によって推定されるローカル重みが、それぞれ列(c)及び(d)に示される。図18において、行(iii)は、オブジェクトの複数の部分が背景と類似の強度を共有し、従来のバイラテラルフィルターは、これらの背景エリアにより高い重みを割り当て、これによりオブジェクトの内部の深度値に影響を及ぼすことを示している。エッジ情報の使用により、これらの背景ピクセルのこれらの望ましくない寄与は、提案される方法のローカルコンテキストマスクによって抑制される。
空間的に精緻化された視差マップが図19に示される。図19は、フレームtにおける精緻化された視差マップ比較を示す。ここで、図19(a)は、カラー画像であり、図19(b)は、元の視差マップであり、図19(c)は、従来のバイラテラルフィルターによってフィルタリングされた精緻化された視差マップであり、図19(d)は、本発明の改善された方法によってフィルタリングされた精緻化された視差マップである。これは、提案される方法が、オブジェクト内部のより先鋭なエッジ及びより少ない誤差につながることを示す。
時間的に精緻化された視差マップが図20に示される。精緻化前の視差マップが図20(a)に示され、精緻化後の視差マップが図20(b)に示される。視差マップは、静止エリアにおいてより安定しており、連続フレームにおいて徐々に変化し、これにより、レンダリング中のアーチファクトが少なくなる。
共同重み付けフィルタリングは並列に実施することができるが、その複雑度は、リアルタイム用途の場合に依然として高い。本発明の要素は、効率的な実施を可能にする離散レベル重み付け関数法である。
フィルタリングプロセスについて、p=(x,y,t)は、現在のピクセルの座標であり、s=(x,y,t)は、ピクセルpを中心とした近傍Nにおけるサポートピクセルの座標である。より詳細には、以下の変数が事前に計算され、離散レベルに量子化される。
・w(p,s)における(x-x+(y-y+ρ(t-tが、n個のレベルに量子化される。dの範囲は、選択された空間ウィンドウサイズ及び時間ウィンドウサイズに依拠する。
・pとsとの間の強度差、すなわち、e=|I-I|、及びその範囲は、固定のテクスチャー画像強度の範囲に依拠する。これはn個のレベルに量子化される。
・0~1の範囲をとる視差マップの信頼度{Rs’}は、n個のレベルに量子化される。
・複雑度を低減するための他の可能な方法は、近傍Nにおいて用いられるフィルタリングサンプル数を低減することである。pを中心とするNは、通例、正方形として選択され、内部の全てのピクセルを用いてフィルター出力が得られる。図21(a)及び(b)に示すようなNの適切なサブセットを用いることにより、性能と算術的複雑度との間のトレードオフが提供される。そのようなパターン及び更なるトレードオフは、例えば、一定のフレームワークレートを維持するため等、アプリケーションにおける処理システムの利用可能な計算能力に従ってオンラインで変動させることができる。
したがって、式(2)の離散レベル重み付けフィルターは、以下のように書き換えることができる。
Figure 0007012642000108
ここで、
Figure 0007012642000109
は、サブサンプリングされた近傍であり、
Figure 0007012642000110
は、量子化された重み付け関数の積であり、量子化量を示すために下付き文字が用いられる。n×n×n個のレベルが存在するため、積は、サイズn×n×nのルックアップテーブルによって直接得ることができる。さらに、式(15)に示すように、ルックアップテーブル内の値を、カノニカル署名数字(CSD)に事前に変換することもできる。DとそのようなCSDとの乗算は、式(16)に示すように、シフト及び加算のみによって効率的に実施することができる。
g(p,s,ξ)はバイナリ値であるため、分子及び分母は、加算及びシフトのみを用いて計算することができ、効率的な、乗算子なしの実施がもたらされる。離散レベル重み付けフィルターの性能を評価するために、n=n=nを用いた実験が、2~11の範囲をとる量子化レベルについて行われ、フィルターの他の設定は変更されないままである。ピーク信号体雑音比(PSNR)が、量子化フィルターの結果と元のフィルターの結果との間で計算され、図22(a)に示される。PSNRは、6つのレベルの後にほとんど変化せず、PSNR値は42dBであり、実際の用途に十分高いことを見てとることができる。離散レベル重み付けフィルター及び元のフィルターのフィルター出力が、それぞれ図22(c)及び図22(b)に示されているが、これらはほとんど同一である。
述べたように、アーチファクトを意識したビュー合成(AAVS)方法は、聴覚系のような人間の3D知覚が、全体的な3D知覚及び品質を大幅に損なうことなく、左眼画像及び右眼画像のかなりの変形を許容することができることに基づいている。他方で、ゴースト、大きなローカル変形、穴、又は構造非一貫性等の、自然な画像からの大きな逸脱につながるアーチファクトは、全体知覚品質の大きな劣化につながる。
また、実験において、提案される2Dビデオ+補助データを深度方法と共に用いて合成された新たなビューは、通例、より正確度の低い深度マップを有する2つのビューを用いるよりも、自然画像に近づく。人間の3D知覚及び上記のことを考察することにより、提案されるAAVSは、
1.1つのみのビデオ及びその関連付けられた深度ビデオが利用可能である場合、2D+補助データを深度方法と共に用いることによって、必要な全てのビューを合成する。このためのシステムは図23に示されている。3D効果の劣化と引き換えに、視覚アーチファクトを僅かにし、帯域幅/ストレージを低減することができる。
2.左(右)ステレオビデオ及び提案される2Dビデオ+補助データを深度合成方法と共に用いて、左(右)眼に対応するステレオ又はオートステレオスコピックディスプレイによって必要とされるビューを合成する(図25の下側部分)。ステレオビューを用いるのではなく、この手法を用いることにより、全ての必要なビューを合成するのに得られる視覚的アーチファクトが大幅に少なくなる。
いくつかの可能な構成が図23~図26において要約される。特に、図23は、2Dビデオ+補助データを用いて従来の2D TV(複数の場合もある)、3D TV(複数の場合もある)、及びオートステレオスコピック(マルチビュー)ディスプレイにおける視点変更をサポートするビュー合成のためのシステムのブロック図である。このシステムはN個のビューを有することが仮定される。
図24は、マルチ入力ビデオシナリオにおいて隣接する2Dビデオ+補助データを用いて従来の2D TV(複数の場合もある)、3D TV(複数の場合もある)、及びオートステレオスコピック(マルチビュー)ディスプレイにおける視点変更をサポートするビュー合成のためのシステムの一実施形態のブロック図である。このシステムはN個のビューを有することが仮定される。視点がビデオiに近い場合、2D+補助データビュー合成エンジン242へのスイッチ240又は切り替えプロセスを通じてデータを渡すことによって、この視点が、ビュー合成を行うために選択される。ユーザーが選択可能な幅を有する2つのカメラビューの中点付近のユーザー領域において、形状支援ビュー合成/モーフィングアルゴリズム又はエンジン244においてビューの融合が行われる。これにより、一方のビューから他方のビューへの切り替えによるアーチファクトが低減される。意図されるディスプレイを駆動するために、出力スイッチ又は切り替えプロセスによって、適切なモードが選択されることになる。
図25は、マルチ入力ビデオシナリオにおいて隣接するステレオビデオ+補助データを用いて従来のディスプレイにおける視点変更をサポートするビュー合成のためのシステムの一実施形態のブロック図である。マルチ入力ビデオシナリオにおいて隣接するステレオビデオ(例えば、図24に示すようなビデオi及びビデオi+1)+補助データ(深度、部分遮蔽データ、形状等)を用いて従来の2D TV(複数の場合もある)、3D TV(複数の場合もある)、及びオートステレオスコピック(マルチビュー)ディスプレイにおける視点変更をサポートするビュー合成。このシステムは、N個の左ビュー及び右ビューを有することが仮定される。これは、2Dビデオ入力に関する図23に類似しているが、ステレオビデオの左ビュー及び右ビューが、様々なディスプレイによって必要とされる左ビュー及び右ビューをそれぞれ生成するように別個に処理される点が異なり、これに対し2Dディスプレイでは、いずれか一方で十分である。視点がビデオiに近いとき、視点は、スイッチ又は切り替えプロセス(図25には示していない)を通じてデータを2D+補助データビュー合成エンジン250に渡すことによってビュー合成を行うために選択される。ユーザーが選択可能な幅を有する2つのカメラビューの中点付近のユーザー領域において、ステレオの左ビュー及び右ビューの融合は、形状により支援されたビュー合成/モーフィングアルゴリズム又はエンジン252によって行われる。これによって、一方のビューから他方のビューへの切り替えによるアーチファクトが低減される。適切なモードは、意図されるディスプレイを駆動する出力スイッチ又は切り替えプロセスによって選択される。
図26は、マルチ入力ビデオシナリオにおいて隣接するステレオビデオ+補助データを用いて従来のディスプレイにおける視点変更をサポートするビュー合成のための図24のシステムの第2の実施形態のブロック図である。マルチ入力ビデオシナリオにおいて隣接するステレオビデオ(例えば、図示するようなビデオi及びビデオi+1)+補助データ(深度、部分遮蔽データ、形状等)を用いて従来の2D TV(複数の場合もある)、3D TV(複数の場合もある)、及びオートステレオスコピック(マルチビュー)ディスプレイにおける視点変更をサポートするビュー合成。このシステムは、N個の左ビュー及び右ビューを有することが仮定される。これは、2Dビデオ入力に関する図24に類似しているが、2つのステレオビデオの左ビュー及び右ビューが、様々なディスプレイによって必要とされる左ビュー及び右ビューをそれぞれ生成するように別個に処理される点が異なり、これに対し2Dディスプレイでは、いずれか一方で十分である。視点がビデオiに近いとき、視点は、スイッチ又は切り替えプロセス260を通じてデータを2D+補助データビュー合成エンジン262に渡すことによってビュー合成を行うために選択される。ユーザーが選択可能な幅を有する2つのカメラビューの中点付近のユーザー領域において、2つのステレオの左(右)ビューの融合は、形状により支援されたビュー合成/モーフィングアルゴリズム又はエンジン261によって行われる。これによって、一方のビューから他方のビューへの切り替えによるアーチファクトが低減される。適切なモードは、意図されるディスプレイを駆動する出力スイッチ又は切り替えプロセスによって選択される。
本方法を用いて、隣接する2D又はステレオビデオ+補助データの組からの視点の連続体を深度(それぞれ、2Dビデオ及びステレオビデオについて図25及び図26に示される)と合成することができる。全ての2Dビデオ及び補助データをビュー合成のために受信機に送信することは不要である。実際に、これらは、ユーザーの視点に従って選択的に送信することができる。選択的送信は、画像ベースのレンダリングについて以前に提案されている。S. C. Chanの論文を参照されたい。本発明において、ディスプレイに必要な複数のビューを生成するために、1つのみのビデオ+補助データ(ビデオは2D又はステレオとすることができる)が通常必要とされる。ビュー切り替え、すなわちビデオから別のものへの視点の変更、又は中間カメラ位置における連続ビュー合成が存在するときにのみ、双方のビデオ+補助データからのデータを有する必要がある。
以下のように、いくつかの可能な構成が存在する。
1.ユーザーは、隣接ビュー(2D又はステレオビデオのいずれか)からの2つのそのようなビデオ+補助データストリームを使用しており、或る特定の時間間隔において、2つのビュー間のビュー合成又はビュー切り替えを行う。ビデオ及び補助データの次の隣接する対について切り替えが必要とされる場合、次の時間間隔において新たな情報が取り出されることになる。2対のビデオがオーバーラップを有する場合、一方の更なるビデオ+補助データが必要とされ、他方はドロップすることができる。このため、全体帯域幅は、2つのビデオ+補助データからなる。
2.隣接ビデオ+補助データの対をユーザーに送信する代わりに、ビュー切り替え中にデータを送信することができる。2つのビュー間の媒介物を合成するために、切り替え期間において双方のビデオデータが入手可能であるべきである。このため、全体帯域幅は、双方のデータが入手可能であるべき切り替え期間を除いて、1つのビデオ+補助データに更に低減される。
3.(2)における切り替え中のビューが更に凍結する場合、すなわち、中間合成又はモーフィングを期間にわたって連続して行うのではなく所与の時点において行う場合、2つのビデオデータのオーバーラップを更に最小限にすることができる。実際に、切り替え中に必要とされる情報がかなり低減されるので、更に離れたビデオからのオーバーラップするデータをユーザーに送信し、ユーザーが複数のビューにわたってフライオーバー効果をエミュレートすることを可能にする。この時点における画像データは、コンテンツプロバイダーによって、フライオーバー効果を後にユーザーにより想起することができる重要なイベントを記録するために、又はターゲットビューに切り替える前の付近のビューのユーザープレビューのために選択することもできる。この場合、後の時点に切り替えを行う前に、ユーザーは付近のビューをプレビューする。ディスプレイにおいて現在のビューの正常ビューを乱さないようにするために、結果として得られる合成されたフライオーバー効果を、ユーザーの想起又は選択のためにサブウィンドウ又はピクチャーインピクチャーウィンドウ内に別個に表示することができる。
本技法は、ビュー合成のために画像変換を用いることができるビデオにも適用可能である。これらの用途において、真の深度マップは利用可能でない場合があり、元のビュー及びターゲットビューの本質的な対応する特徴をマッチさせることを意図した画像変換が代わりに行われる。この用途において、提案されるシーンにおける深度マップのうちのいくつか又は全てのためにそのような変換を行うことができる。結果として得られる変換情報又はパラメーターも補助データに埋め込むことができる。
インターフレーム予測を用いてビデオが圧縮される場合、イントラ符号化されたピクチャを、2Dビデオ、又はステレオビデオのうちの1つに挿入し、ユーザーのデコーダーが、イントラピクチャ時間中の復号により、1つの2D/ステレオビデオから別のフォーマットに切り替えることができるようにしなくてはならない。全ての圧縮ビデオがデコーダーにおいて入手可能である場合、これらは、適切なビューを生成するように圧縮データから選択的に復号することができる。これは、視点変更の連続体をサポートするように、1組のビデオにわたる「フリーナビゲーション」を提供する。
これらの全ての用途において、形状情報及び部分遮蔽データは、新たなビューを合成するとき、又は深度マップを先鋭化/処理するとき、合成ビデオ/複数のビデオの品質を改善するように部分遮蔽エリアが埋められることを可能にする。
2D+深度及び補助データ方法は、或る特定の範囲にわたるインタラクティブな視点変更及び拡大をサポートするのにも適している。一方のビューから他方のビューへの従来の2Dディスプレイにおける視点変更をサポートするステレオビデオ+関連する深度ビデオについて、深度不連続部等が位置合わせされていない場合、大きなアーチファクトが生じることになる。しかしながら、本発明の新規の方法を用いることにより、元の画像のうちの一方によって生成されたビューから、左視点及び右視点間の中点の周りの他方の画像へのジャンプが生じることになる。
この望ましくない影響を克服するために、新たな形状支援ビュー合成及びモーフィング方法が、一方のビューから他方のビュー(図25を参照)へのフライオーバー効果をエミュレートするように行われる。従来のモーフィング方法を用いるのではなく、双方のビューを用いて、選択可能な幅を有する2つのカメラビューの中点の周りの領域における必要なビューを合成してフライオーバープロセスをエミュレートする。この領域のサイズ及びスイーピングレートが、結合される2つのビューの一致の観点におけるアーチファクトの或る特定の測定によって求められる。測定されるアーチファクトが大きいほど、合成品質が下がり、領域内のスイーピングレートが高速になる。このため、視覚アーチファクトが、フライオーバープロセスによって効果的に抑制される。同じ技法は、2Dビデオ及びステレオビデオ入力についてそれぞれ図24及び図26に示されているように、1つのビデオからその隣接するビューへの遷移が存在するときにも有用である。これは、上述したような視点の連続体をサポートするためにビデオの組にわたって「フリーナビゲーション」の概念をサポートする。
補助データ並びにステレオビデオ及び深度データを用いた隣接ビューからのビュー合成アルゴリズムが以下のように説明される。入力は、2つの隣接ビデオ及びそれらの深度マップである。2つのビデオは、隣接する視点において取得される一連のビデオにおいてビデオの連続する対とすることができる。
目的は、アーチファクトが可能な限り視覚的にわずらわしくない状態でビューを合成することである。述べたように、従来の画像ベースのレンダリングは、2つの隣接するビューから中間ビューを合成することを目的とし、これによりかなりのアーチファクトが生成される場合がある。補助データにおける追加の形状及び部分遮蔽データを用いて、視覚アーチファクトを低減することができる。
この方法の新規の特徴は、以下を含む。
1.合成ビューの品質を改善するための形状情報が以前に提案されてきたが、これは、上述したG. Techの論文及びS. C. Chanの論文、並びに、全て引用することによりその全体が本明細書の一部をなす、J. Lainema他「Intra Coding of the HEVC standard」IEEE Trans. Circuits and Systems for Video Technology, vol. 22, pp.1792-1801,(2012);https://en.wikipedia.org/wiki/Bilinear_interpo及びhttps://en.wikipedia.org/wiki/Bilinear_interpolationlation;及びT. Kariya他「Generalized Least Squares」J. Wiley, 2004を用いて行うことができる。ここで検討されるのは、情報が圧縮されている場合があり、したがって、深度、画像及び形状の一貫性を確保するための更なる処理が必要とされる状況である。従来の8ビットマッティング値ではなく、バイナリ形状情報を用い、したがって、高速マッティングがオンラインで行われなくてはならない事例も検討される。
2.部分遮蔽除去データを、圧縮されデコーダーに送信される補助データに含めることは新規である。従来から、穴はオンラインでインペインティングされ、良好な合成結果を保証することは困難である。
3.合成ビューの品質は、入力ビデオ、深度及び補助データの品質に高度に依拠するので、全ての入力について完全な合成結果を確実にすることは困難である。したがって、視覚的にわずらわしいアーチファクトの知覚を低減するために1つのビューから別のビューへの遷移をエミュレートするためのスイーピング関数が導入される。スイーピングレートは、入力データのマッチング誤差に依拠する。例えば、形状画像、テクスチャー画像及び深度画像における差の尺度を用いるか又は適切に組み合わせて、スイーピングレート及びぼけを制御することができる。
オブジェクト抽出及び背景更新プロセスは、上記で説明したものに類似している。深度、形状及びテクスチャー間の一貫性が、単一ビューを用いたビュー合成には不可欠であるが、2つのそのようなビューが新たなビューを生成するように共に融合又は混合されるとき、更なる複雑性が生じる。
特に、2つのビューの融合により、オブジェクト形状、テクスチャー(カラー)画像及び深度値における様々な非一貫性に起因したかなりのアーチファクトが生成される場合がある。例えば、合成される中間ビューにおける2つの形状画像の非一貫性は、合成ビューにおける2つのビュー間のテクスチャー及び深度の双方のミスマッチに起因したゴースト効果の主要な原因である。さらに、形状及び対応する視差マップ間の非一貫性の結果、背景層への前景層の「漏れ」が生じ、逆もまた同様である。したがって、前景境界付近の背景層内のテクスチャーで伸長が生じるにつれ、アーチファクトが生じることになる。
これらの問題に対処するために、提案される「隣接ビューを用いたビュー合成アルゴリズム」は、以下のステップを実行する。
1.形状情報を用いた視差マップの補正。
2.オブジェクト層、それらのマット及び深度の抽出、並びに部分遮蔽データを用いた対応する背景の更新。
3.元の視点に近接した1つのビューを用いたレンダリング。
4.ユーザーが選択可能な幅を有する2つのカメラビューの中点の周りのユーザー領域において、所望の視認ロケーション及び再マッティングにおけるビュー及び所望のマットの融合を行って、ビュー合成のための一意のオブジェクト形状を確実にする。
5.このユーザーが選択可能な領域(2つのビューの事前に推定されたマッチング品質に従って補助データに含めることができる)においてスイーピングを行って、一方のビューから他方のビューへのフライオーバー効果を連続してエミュレートし、大きなアーチファクトの知覚を低減することができる。2つのビュー間の差が大きい場合、ビュー混合からモーフィングにシフトするための更なる処理を行うことができる。この差は、上記のステップにおける中間結果から検出することができる。
ここで、視差の補正について説明する。
まず第1に、所与のオブジェクトの境界領域Rが形状情報を用いて特定される。領域は、或る特定の半径rを用いた形態学的膨張を行うことによって画定することができる。
が、検討中の前景オブジェクト内のRにおける一部であるものとし、Aが、背景エリアに属する残りの部分であるものとする。2つのビューにおける視差マップの左右の検査を行って、ミスマッチの視差(例えば、左右の誤差が1ピクセルを超えるとき)を検出する。前景(背景)におけるこれらのミスマッチエリアは除去され、背景(前景)の視差値からインペインティングされる。インペインティングは、上記で説明した効率的なフィルタリング方法、又は最近傍/双線形/バイキュービック/TV補間、TRAM若しくはバイラテラルフィルタリング等の他の従来の方法を用いて行うことができる。
これは、シーン内の形状画像によって定義されるオブジェクトごとに繰り返される。
上記の手順によって、視差マップ及び形状画像の不連続部(境界)を位置合わせして、不正確な視差マップによって生じる可能なアーチファクトを最小限にすることができる。図27及び図28は、2つの層を有するシーケンスについてそれぞれ、背景及び前景の元の視差マップ及び補正された視差マップを示す。オブジェクトの首、手及び脚の周りの背景におけるいくつかの不正確な値が補正されていることを見てとることができる。
単一のビューのための一般的なプロセスが上記で説明された。このプロセスは、視差補正後に2つのビューについて別個に行われる。図29は、2つの層の抽出の例を示す。復号された遮蔽除去データを用いて背景を更新することができる。
遮蔽データを生成する際、遮蔽検出を用いて遮蔽除去エリアを位置特定し、データが適切なアルゴリズムによって、又は必要な場合、良好な合成品質を保証するために人間の介入によりインペインティングされる。他の層とオーバーラップしない層内の遮蔽、すなわち、自己遮蔽の場合、インペインティング値は、述べた様々なインペインティングアルゴリズムを用いて、より低い視差値エリアから伝播することができ、圧縮される補助データとして記憶することができる。図30は、検出される遮蔽を示し、これはインペインティングされ、補助データに入れられる。
左ビュー及び右ビューにおける背景が、それらのそれぞれの深度マップを用いて所望の視認位置にワープされる。2つの境界における遮蔽に起因して、カラーの突然の変化は、2つのビューからのデータが直接組み合わされる場合にこれらの領域において生じることになる。
画像境界におけるこの問題に対処するために、徐々に増大する(減少する)及び徐々に減少する(増大する)重み付けマーク
Figure 0007012642000111
が、図31に示すように、他方のビューにおける欠落した画像データを考慮に入れるようにワープされた右(左)ビューのために用いられる。例えば、以下の式に示すように、増大/減少領域の幅は、2つのカメラビューの視差に等しく、中央において、重みが1に等しい。図32は、所望のロケーションにワープされた背景画像を示す。図33は、ワープされた背景画像が重み付けマークに乗算され、その後共に加算され、所望の視点において融合された背景を形成する方法を示す。
Figure 0007012642000112
ここで、
Figure 0007012642000113
は、深度マップdにわたる最大視差であり、xは、重み付け画像の水平座標であり、xmaxは、画像のサイズである。
2つのビューが融合されて或る特定の視点において合成されるとき、重み付き画像は以下のように混合され、組み合わされる。
Figure 0007012642000114
ここで、
Figure 0007012642000115
は、位置p及び左ビューから右ビューへの分数距離vにおけるカラーであり、
Figure 0007012642000116
は、それぞれ、視認位置パラメーターvにワープされた左ビュー及び右ビューの位置pにおけるピクセルのカラーである。f(v)は、混合関数であり、左/右ビューの背景層のマスク
Figure 0007012642000117
及び重み付きマスク
Figure 0007012642000118
によって求められる。
Figure 0007012642000119
深度マップを用いて所望の中間視点にワープされた層を所与として、2つのワープされたビューを共に融合する必要がある。主要なアーチファクトは、通例、ビューのヒストグラム/照度バイアス、形状変形及びマッティング誤差から生じる。インペインティングデータのためのヒストグラム/照度バイアスは、通例小さく、リアルタイムで容易に扱うことができるのに対し、全体画像の場合、より多くの計算時間がかかり得る。
他方で、形状変形は、ゴーストアーチファクト及びテクスチャーのミスマッチの主要な原因であるため、より重大である。アーチファクトは、変形がより深刻になるにつれ、層の視差が増大するのに伴い、より明らかとなる可能性もある。この問題に対処するために、所望の中間視点において一意の形状マスク(又は境界)が決定される。
それぞれ視認位置パラメーターvにおける左ビュー及び右ビューからのワープ形状(又は層マスク)
Figure 0007012642000120
を所与として、このビューにおける一意の形状を確実にするための新たなマスクが決定される。1つの単純で効果的な手法は、以下の式から形状マスクを構築することである。
Figure 0007012642000121
ここで、aは、1に近い閾値パラメーターであり、必要な場合、予め最適化し、補助データに含めることができる。
マスク
Figure 0007012642000122
は、
Figure 0007012642000123
の境界エリアにおけるガウスカーネルフィルタリングによって最終マット
Figure 0007012642000124
を得るように、以下のように平滑化又は再マッティングすることができる。
Figure 0007012642000125
背景層のための対応するマットは、
Figure 0007012642000126
であり、ここで、bは、これが背景からのものであることを示す。図34は、2つの層の例について前景及び背景の融合の例を示す。融合を用いて、1つのビューから別のビューへのフライオーバーをエミュレートするか、又はユーザーインタラクティブな視点変更をサポートすることができる。通例、これは、特定のフレームについて、又は連続ビデオフレームについて継続的に行うことができる。
フライオーバーについて、1つのビューから別のビューへの適切なスイーピングレートが通例選択される。ユーザーは、ビューをフリーズさせ、異なる視点を選択することによってインタラクトすることができる。スイーピングレートは、ベースライン視差と最大視差との間の距離に反比例するように選択することができる。例えば、ベースライン視差がdであり、最大視差がdである事例を検討すると、スイーピングレートは以下となるべきである。
Figure 0007012642000127
ここで、rは、計算速度、及び視差マップのユーザーの主観的知覚を考慮に入れるためにプリセットされた選択係数である。
高品質/正確な視差マップの場合、視覚アーチファクトはより少なくなるので、スイーピングレートは低速にすることができ、逆もまた同様である。潜在的な視覚アーチファクトを低減するために、ワープされたマット
Figure 0007012642000128
における差、及びテクスチャー画像によって測定されるような大きなミスマッチエリアにおいて更なるブラーリングが行われる。フィルタリング、及びしたがって、結果として得られるブラーリングのサポートを、補助データの調整及び制御パラメーターに含めることができる。
例えば、形状変形/差εの尺度は、双方のビューの2つの形状が同じ視点にワープされているときの相違エリアの比率として求めることができる。右ビューの形状の左視点へのワープを検討し、Rを、ワープされたビューと元のビューとの間のオーバーラップのエリアとし、Rを、マッチしていないエリアとする。このとき、εの1つの妥当な選択肢は以下である。
Figure 0007012642000129
他の尺度を同様に構築し、カラー画像に拡張することができる。上記の2つの層の例について、マッチしたエリア及びマッチしていないエリアの例が図35に示される。
したがって、Rの値が大きいほど、形状変形が大きくなり、このため、それに応じてスイーピングレートが増大して、大きな視覚アーチファクトの長引く知覚が回避される。同時に、わずらわしいアーチファクトを抑制するために、モーションブラーをエミュレートするためのブラーリングを導入することができる。次に、rを、ε又は他の変形尺度に比例させることができる。rの例示的な選択は、r=100εである。
必要な場合、合成ビューの強度を中間点まで徐々に減少させ、他のビューまで再び増大させて、フェージング効果をエミュレートし、したがって、望ましくないアーチファクトを更に抑制することができる。式(29)における尺度を用いて、フェージングの度合い等を制御することができる。
本発明は、本発明の好ましい実施形態を参照して特に示され、説明されてきたが、当業者であれば、これらの実施形態において、本発明の趣旨及び範囲から逸脱することなく、形態及び詳細における様々な変更を行うことができることを理解するであろう。さらに、本明細書に記載の中心的な概念から逸脱することなく、特許請求される主題の教示に対して特定の状況を適合させるために多くの変更を行うことができる。したがって、特許請求される主題は、開示される特定の例に限定されず、添付の特許請求の範囲及びその等価物の適用範囲内にある全ての実施態様も含むことができることが意図される。

Claims (26)

  1. 補助データを用いて2次元入力ビデオ画像の改善されたレンダリングのための新たなビューを生成する方法であって、前記補助データは、形状情報、部分遮蔽データ及び深度情報の形態の深度不連続部を有し、該方法は、
    前記補助データの前記形状情報によって指定される部分遮蔽領域において前記2次元入力ビデオ画像から画像オブジェクトを抽出し、前記深度情報から前記画像オブジェクトの深度値を抽出するステップと、
    前記画像オブジェクトの抽出後に、前記画像オブジェクトの抽出に起因した欠落データ又は穴をインペインティングすることによって前記2次元入力ビデオ画像の背景を更新し、前記背景の深度値を更新するステップと、
    前記補助データの前記部分遮蔽データを用いて、前記欠落データ又は穴のインペインティングの限られた性能に起因した前記新たなビューにおけるアーチファクトを低減するステップと、
    前記指定された部分遮蔽領域において抽出された前記画像オブジェクトと、前記背景とを用いて、前記レンダリングのためのビュー合成を行うステップと、
    を含
    前記インペインティングされたオブジェクトは、独自の深度マップを有する画像層内に再構築される、方法。
  2. 前記補助データの前記形状情報は、前記深度不連続部に対する補正のために深度不連続部の概算ロケーションを与える、請求項1に記載の方法。
  3. グレースケール形状画像の場合、前記形状情報は、前記深度不連続部のロケーションにおける概算前景量を与える、請求項2に記載の方法。
  4. 前記部分遮蔽データ及び前記形状情報を用いて、所与の視点変更をサポートするのに必要な主要遮蔽除去エリア及び欠落情報が指示される、請求項1に記載の方法。
  5. 前記2次元入力ビデオ画像及び前記補助データは、送信され、前記部分遮蔽データは、画像データ、深度データ及びマット(matte)と共に含まれ、これらは前記形状情報、前記2次元入力ビデオ画像の深度値、並びに他の制御及び調整パラメーターと共にパッケージングされて補助データが形成され、ビュー合成が支援される、請求項1に記載の方法。
  6. 前記2次元入力ビデオ画像及び前記補助データは、送信帯域幅を低減するために、送信前に圧縮される、請求項5に記載の方法。
  7. 前記2次元入力ビデオ画像及び前記補助データは、記憶され、前記部分遮蔽データは、画像データ、深度データ及びマット(matte)と共に含まれ、これらは前記形状情報、前記2次元入力ビデオ画像の深度値、並びに他の制御及び調整パラメーターと共にパッケージングされて補助データが形成され、ビュー合成が支援される、請求項1に記載の方法。
  8. 前記2次元入力ビデオ画像及び前記補助データは、記憶前に圧縮される、請求項7に記載の方法。
  9. 前記補助データは、送信のためにビデオデータに埋め込まれる、請求項5に記載の方法。
  10. 前記補助データは、別個のデータストリームとして送信され、ビデオデータと同期される、請求項5に記載の方法。
  11. 前記画像オブジェクトを抽出し、前記背景及び前記深度値を更新する前記ステップは、
    最小の深度を有する前記画像オブジェクトから開始して、前記形状情報を用いて、前記背景からマッティングを用いて前景を抽出するステップと、
    前記部分遮蔽データの境界におけるマッティング(matting)によって、残りの背景の遮蔽除去エリアにおける画像データを埋めるステップと、
    前記境界において、前記残りの背景における前記部分遮蔽データによってカバーされる全てのピクセルを上書きして、前記更新された背景における前景のトレースを除去するステップと、
    生じ得る穴を埋める必要に応じて追加のインペインティングを提供するステップと、
    前記部分遮蔽データから前記更新された背景の前記深度を更新するステップと、
    必要に応じてインペインティングを行い、全てのオブジェクトが処理されるまで、次に最小の深度を有する前記オブジェクトによって画定される前記境界内の前記穴を埋めるステップと、
    最小の深度を有する次のオブジェクトについて前記ステップを繰り返すステップとを上記順序で含む、請求項1に記載の方法。
  12. 前記層は、深度値の昇順で次々にレンダリングされる、請求項に記載の方法。
  13. 前記抽出されたオブジェクトは、或る特定の順序で適切な遮蔽除去データを用いてインペインティングされ、アーチファクトを意識したビュー合成アルゴリズムを用いて、従来の2D、ステレオ、及びオートステレオスコピックディスプレイのうちの1つにおいてこのコンテンツの表示又はレンダリングがサポートされる、請求項1に記載の方法。
  14. 前記マッティングによる抽出ステップは、2つのフィルタリングプロセスとして効率的に実施され、該フィルタリングプロセスは、フィルター係数のカノニカル署名数字(canonical signed digits:CSD)表現を用いて、シフト及び加算を用いて乗算なしで行うことができる、請求項11に記載の方法。
  15. フィルター積を事前に計算し、カノニカル署名数字(CSD)として記憶することができる、請求項14に記載の方法。
  16. 前記アーチファクトを低減するステップは、半自動ユーザーインターフェースを通じた人間の介入により実行され、遮蔽除去情報の品質、及びしたがって、ビュー合成の品質が維持されることを確実にする、請求項1に記載の方法。
  17. 前記補助データは、
    各ビューの深度順を示す識別子を有する前記形状情報と、
    各2次元入力ビデオ画像の前記深度情報と、
    i)各ビューにおける各オブジェクトの前記形状情報及び前記深度情報によって指定される前記部分遮蔽の前記画像、マット及び深度データと、ii)自己遮蔽データの画像、マット及び深度データとを含む部分遮蔽データと、
    前記画像オブジェクト抽出、前記背景の更新、共同深度-テクスチャーフィルタリング及び前記ビュー合成を実施する際にアルゴリズムにおいて必要とされる他の制御又は調整パラメーターと、
    を含む、請求項1に記載の方法。
  18. 前景ピクセル及び背景ピクセルは、既知の前景及び背景の近傍から未知の領域に徐々にインペインティングすることができる、請求項1に記載の方法。
  19. マットを推定し平滑化を行う代わりに、バイナリ形状画像がフィルタリングされる、請求項14に記載の方法。
  20. 前記帯域幅は、以下の方法、すなわち、
    前記2次元入力ビデオ画像及び前記深度情報から前記部分遮蔽データを予測する方法、
    以前に符号化された近傍ブロックから前記部分遮蔽データの各ブロックを予測する方法、及び、
    同じ行の開始深度不連続部から離れるにつれ、ブロックの量子化誤差を徐々に増大させる方法、のうちの少なくとも1つに従って前記部分遮蔽データを符号化することによって更に低減される、請求項6に記載の方法。
  21. バイラテラルフィルタリングによって前記深度情報を精緻化するステップを更に含み、各ピクセルにおける精緻化された前記深度情報は、現在のピクセルからの空間的差及び強度差によって重み付けされた近傍ピクセルの平均から得られる、請求項1に記載の方法。
  22. 前記バイラテラルフィルタリングは、
    時間的重み付けを用いて、特に静的領域における前記深度情報の時間的安定性を改善するステップと、
    ローカルコンテキストマスク関数を用いて、エッジ情報に基づいてローカルコンテキストを強調するステップと、
    前記時間的重み付けに深度信頼度項を追加することによって、視差マップの前記エッジの周りの前記重み付けを低減するステップと、
    前記時間的重み付けの重み付け関数を限られた値の組に量子化し、積を、加算のみによって実施することができるカノニカル署名数字(CSD)の形態で事前に計算し表現することができるようにするステップと、
    分離可能な空間フィルタリング及び時間フィルタリングを用いて算術的複雑度を低減するステップと、
    を含む、請求項21に記載の方法。
  23. 力データのマッチング誤差(matching error)に依拠するスイーピング機能を導入して、1つのビューから別のビューへの遷移をエミュレートし、視覚的にわずらわしいアーチファクトの知覚を低減するステップを更に含む、請求項1に記載の方法。
  24. 前記アーチファクトを意識したビュー合成アルゴリズムは、
    前記形状情報を用いて視差マップを補正するステップと、
    オブジェクト層、該オブジェクト層のマット及び深度を抽出し、対応する背景を、前記部分遮蔽データを用いて更新するステップと、
    元の視点の付近の1つのビューを用いて前記画像をレンダリングするステップと、
    ユーザーが選択可能な幅を有する2つのカメラビューの中点付近のユーザー領域において、所望の視認ロケーションにおいてビュー及び所望のマットの融合を行い、ビュー合成の一意のオブジェクト形状を確実にする再マッティングを行うステップと、
    を含む、請求項13に記載の方法。
  25. ユーザーが選択可能な領域においてスイーピング機能を実行し、一方のビューから他方のビューへのフライオーバー効果を連続してエミュレートし、大きなアーチファクトの知覚を低減するステップを更に含む、請求項24に記載の方法。
  26. 前記アーチファクトを意識したビュー合成アルゴリズムは、
    左(右)ステレオビデオ、2Dビデオ+補助データを深度合成方法と共に用いて、左(右)眼に対応する前記ステレオ又はオートステレオスコピックディスプレイによって必要とされるビューを合成するステップと、
    1つのビデオ及び該ビデオの関連深度ビデオのみが入手可能である場合、2Dビデオ+補助データを深度方法と共に用いて、必要な全てのビューを合成するステップと、
    を含む、請求項13に記載の方法。
JP2018523453A 2015-11-09 2016-11-07 アーチファクトを意識したビュー合成のための補助データ Active JP7012642B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562285825P 2015-11-09 2015-11-09
US62/285,825 2015-11-09
PCT/CN2016/104887 WO2017080420A1 (en) 2015-11-09 2016-11-07 Auxiliary data for artifacts –aware view synthesis

Publications (2)

Publication Number Publication Date
JP2019502295A JP2019502295A (ja) 2019-01-24
JP7012642B2 true JP7012642B2 (ja) 2022-01-28

Family

ID=58694533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018523453A Active JP7012642B2 (ja) 2015-11-09 2016-11-07 アーチファクトを意識したビュー合成のための補助データ

Country Status (4)

Country Link
US (1) US10404961B2 (ja)
JP (1) JP7012642B2 (ja)
CN (1) CN108475330B (ja)
WO (1) WO2017080420A1 (ja)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9807340B2 (en) * 2014-11-25 2017-10-31 Electronics And Telecommunications Research Institute Method and apparatus for providing eye-contact function to multiple points of attendance using stereo image in video conference system
US10482586B2 (en) * 2015-05-18 2019-11-19 Nokia Technologies Oy Filtering depth map image
CN108141593B (zh) * 2015-07-31 2022-05-03 港大科桥有限公司 用于针对深度视频的高效帧内编码的基于深度不连续的方法
WO2017141511A1 (ja) * 2016-02-17 2017-08-24 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
EP3236657A1 (en) * 2016-04-21 2017-10-25 Ultra-D Coöperatief U.A. Dual mode depth estimator
US10567739B2 (en) 2016-04-22 2020-02-18 Intel Corporation Synthesis of transformed image views
US20180068473A1 (en) * 2016-09-06 2018-03-08 Apple Inc. Image fusion techniques
JP7320352B2 (ja) * 2016-12-28 2023-08-03 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元モデル送信方法、三次元モデル受信方法、三次元モデル送信装置及び三次元モデル受信装置
EP3351899B1 (en) * 2017-01-24 2020-06-17 Leica Geosystems AG Method and device for inpainting of colourised three-dimensional point clouds
KR102006064B1 (ko) * 2017-06-09 2019-07-31 숭실대학교산학협력단 추정된 시공간 배경 정보를 이용한 홀 채움 방법, 이를 수행하기 위한 기록매체 및 장치
EP3416371A1 (en) * 2017-06-12 2018-12-19 Thomson Licensing Method for displaying, on a 2d display device, a content derived from light field data
EP3416381A1 (en) 2017-06-12 2018-12-19 Thomson Licensing Method and apparatus for providing information to a user observing a multi view content
EP3422708A1 (en) * 2017-06-29 2019-01-02 Koninklijke Philips N.V. Apparatus and method for generating an image
EP3422711A1 (en) * 2017-06-29 2019-01-02 Koninklijke Philips N.V. Apparatus and method for generating an image
JP6985609B2 (ja) * 2018-05-21 2021-12-22 日本電信電話株式会社 符号化装置、画像補間システム及び符号化プログラム
CN109064429B (zh) * 2018-08-02 2022-02-08 河北工业大学 一种融合gpu加速深度图像修复的伪激光数据生成方法
CN109462747B (zh) * 2018-12-11 2020-06-26 成都美律科技有限公司 基于生成对抗网络的dibr系统空洞填充方法
US11335034B2 (en) * 2019-01-16 2022-05-17 Disney Enterprises, Inc. Systems and methods for image compression at multiple, different bitrates
CN110012310B (zh) * 2019-03-28 2020-09-25 北京大学深圳研究生院 一种基于自由视点的编解码方法及装置
CN110008904A (zh) * 2019-04-08 2019-07-12 万维科研有限公司 生成基于视频文件格式的形状识别列表的方法
CN110120009B (zh) * 2019-05-09 2022-06-07 西北工业大学 基于显著物体检测和深度估计算法的背景虚化实现方法
CN110072113B (zh) * 2019-05-17 2023-03-10 华侨大学 一种基于贝叶斯决策的3d-hevc深度图帧间快速算法
CN110310235B (zh) * 2019-05-21 2021-07-27 北京至真互联网技术有限公司 眼底图像处理方法、装置及设备和存储介质
US11042969B2 (en) * 2019-05-23 2021-06-22 Adobe Inc. Automatic synthesis of a content-aware sampling region for a content-aware fill
US11030772B2 (en) 2019-06-03 2021-06-08 Microsoft Technology Licensing, Llc Pose synthesis
CN114341940A (zh) * 2019-09-10 2022-04-12 欧姆龙株式会社 图像处理装置、三维测量系统、图像处理方法
CN110675356B (zh) * 2019-09-30 2022-02-22 中国科学院软件研究所 一种基于用户意图推断的嵌入式图像合成方法
CN110933418B (zh) * 2019-11-26 2021-12-21 支付宝(杭州)信息技术有限公司 一种视频数据处理方法、设备、介质以及装置
CN110913278B (zh) * 2019-12-06 2022-04-08 深圳创维新世界科技有限公司 视频播放方法、显示终端及存储介质
US11328428B2 (en) * 2019-12-18 2022-05-10 Clarion Co., Ltd. Technologies for detection of occlusions on a camera
FR3106014A1 (fr) * 2020-01-02 2021-07-09 Orange Synthèse itérative de vues à partir de données d’une vidéo multi-vues
CN113327190A (zh) 2020-02-28 2021-08-31 阿里巴巴集团控股有限公司 图像、数据处理的方法和装置
CN111369484B (zh) * 2020-03-05 2023-05-09 中国铁道科学研究院集团有限公司基础设施检测研究所 钢轨廓形检测方法及装置
US11055879B1 (en) * 2020-04-03 2021-07-06 Varjo Technologies Oy Encoder and encoding method for mitigating discrepancies in reconstructed images
CN111489429A (zh) * 2020-04-16 2020-08-04 诚迈科技(南京)股份有限公司 一种图像渲染控制方法、终端设备和存储介质
US20230224447A1 (en) 2020-06-16 2023-07-13 Dolby Laboratories Licensing Corporation Supporting multi-view video operations with disocclusion atlas
CN111724327A (zh) * 2020-06-29 2020-09-29 成都数之联科技有限公司 图像修复模型训练方法及系统及图像修复方法
CN112561815B (zh) * 2020-12-11 2024-03-05 浙江大华技术股份有限公司 一种图像处理方法、装置、存储介质及电子装置
CN112686865B (zh) * 2020-12-31 2023-06-02 重庆西山科技股份有限公司 一种3d视图辅助检测方法、系统、装置及存储介质
WO2022212109A1 (en) * 2021-03-31 2022-10-06 Dathomir Laboratories Llc Techniques for viewing 3d photos and 3d videos
US11587208B2 (en) * 2021-05-26 2023-02-21 Qualcomm Incorporated High quality UI elements with frame extrapolation
CN113450295B (zh) * 2021-06-15 2022-11-15 浙江大学 一种基于差分对比学习的深度图合成方法
US20220413433A1 (en) * 2021-06-28 2022-12-29 Meta Platforms Technologies, Llc Holographic Calling for Artificial Reality
WO2023133285A1 (en) * 2022-01-07 2023-07-13 Innopeak Technology, Inc. Anti-aliasing of object borders with alpha blending of multiple segmented 3d surfaces
CN114093012B (zh) * 2022-01-18 2022-06-10 荣耀终端有限公司 人脸遮挡的检测方法和检测装置
US20230377236A1 (en) * 2022-05-23 2023-11-23 Lemon Inc. Creation of videos using virtual characters
WO2023235273A1 (en) * 2022-06-02 2023-12-07 Leia Inc. Layered view synthesis system and method
CN116596922B (zh) * 2023-07-17 2023-09-12 山东龙普太阳能股份有限公司 一种太阳能热水器生产质量检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218548A (ja) 2009-03-17 2010-09-30 Mitsubishi Electric Research Laboratories Inc 仮想画像を合成する方法
JP2011501496A (ja) 2007-10-11 2011-01-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 奥行きマップを処理する方法及び装置
US20130169749A1 (en) 2006-06-23 2013-07-04 Imax Corporation Methods and systems for converting 2d motion pictures for stereoscopic 3d exhibition
US20140002591A1 (en) 2012-06-29 2014-01-02 Hong Kong Applied Science And Technology Research Institute Co., Ltd. Apparatus, system, and method for temporal domain hole filling based on background modeling for view synthesis
WO2014050830A1 (ja) 2012-09-25 2014-04-03 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
US20150091900A1 (en) 2013-09-27 2015-04-02 Pelican Imaging Corporation Systems and Methods for Depth-Assisted Perspective Distortion Correction

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2605361A (en) 1950-06-29 1952-07-29 Bell Telephone Labor Inc Differential quantization of communication signals
US5351314A (en) * 1991-10-04 1994-09-27 Canon Information Systems, Inc. Method and apparatus for image enhancement using intensity dependent spread filtering
US5590065A (en) * 1994-08-10 1996-12-31 Crystal Semiconductor Corporation Digital decimation filter for delta sigma analog-to-digital conversion with reduced hardware compelexity
US6307959B1 (en) * 1999-07-14 2001-10-23 Sarnoff Corporation Method and apparatus for estimating scene structure and ego-motion from multiple images of a scene using correlation
US6989840B1 (en) * 2001-08-31 2006-01-24 Nvidia Corporation Order-independent transparency rendering system and method
US7492848B2 (en) * 2005-04-13 2009-02-17 Texas Instruments Incorporated Method and apparatus for efficient multi-stage FIR filters
KR101367284B1 (ko) * 2008-01-28 2014-02-26 삼성전자주식회사 시점 변화에 따른 영상 복원 방법 및 장치
CN100563340C (zh) * 2008-07-07 2009-11-25 浙江大学 基于深度图像渲染的多通道视频流编码器和解码器
EP2301256A2 (en) * 2008-07-21 2011-03-30 Thomson Licensing Multistandard coding device for 3d video signals
DE112010005437T5 (de) * 2010-04-02 2013-04-18 Zoran (France) Stereoskopischer Videosignalprozessor mit verbessertem 3D-Effekt
KR101669820B1 (ko) * 2010-07-02 2016-10-27 삼성전자주식회사 볼륨 예측 기반 폐색 영역 양방향 복원 장치 및 방법
KR20120049636A (ko) * 2010-11-09 2012-05-17 삼성전자주식회사 영상 처리 장치 및 방법
US8878950B2 (en) * 2010-12-14 2014-11-04 Pelican Imaging Corporation Systems and methods for synthesizing high resolution images using super-resolution processes
WO2012142048A2 (en) * 2011-04-11 2012-10-18 Flir Systems, Inc. Techniques for selective noise reduction and imaging system characterization
US8542933B2 (en) * 2011-09-28 2013-09-24 Pelican Imaging Corporation Systems and methods for decoding light field image files
US20130182184A1 (en) * 2012-01-13 2013-07-18 Turgay Senlet Video background inpainting
WO2013162735A1 (en) * 2012-04-25 2013-10-31 University Of Southern California 3d body modeling from one or more depth cameras in the presence of articulated motion
US9621869B2 (en) * 2012-05-24 2017-04-11 Sony Corporation System and method for rendering affected pixels
US8908919B2 (en) * 2012-05-29 2014-12-09 The Johns Hopkins University Tactical object finder
EP2808760B1 (en) * 2013-05-29 2023-08-16 Dassault Systèmes Body posture tracking
EP2887312A1 (en) * 2013-12-18 2015-06-24 Nokia Corporation Method, apparatus and computer program product for depth estimation of stereo images
US10089740B2 (en) * 2014-03-07 2018-10-02 Fotonation Limited System and methods for depth regularization and semiautomatic interactive matting using RGB-D images
US9407896B2 (en) * 2014-03-24 2016-08-02 Hong Kong Applied Science and Technology Research Institute Company, Limited Multi-view synthesis in real-time with fallback to 2D from 3D to reduce flicker in low or unstable stereo-matching image regions
US9361524B2 (en) * 2014-10-20 2016-06-07 King Abdullah University Of Science & Technology System and method for crowd counting and tracking
KR20160057590A (ko) * 2014-11-13 2016-05-24 삼성디스플레이 주식회사 공통 부분식 소거 방법 및 이를 이용한 필터
US10346996B2 (en) * 2015-08-21 2019-07-09 Adobe Inc. Image depth inference from semantic labels

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130169749A1 (en) 2006-06-23 2013-07-04 Imax Corporation Methods and systems for converting 2d motion pictures for stereoscopic 3d exhibition
JP2011501496A (ja) 2007-10-11 2011-01-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 奥行きマップを処理する方法及び装置
JP2010218548A (ja) 2009-03-17 2010-09-30 Mitsubishi Electric Research Laboratories Inc 仮想画像を合成する方法
US20140002591A1 (en) 2012-06-29 2014-01-02 Hong Kong Applied Science And Technology Research Institute Co., Ltd. Apparatus, system, and method for temporal domain hole filling based on background modeling for view synthesis
WO2014050830A1 (ja) 2012-09-25 2014-04-03 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
US20150091900A1 (en) 2013-09-27 2015-04-02 Pelican Imaging Corporation Systems and Methods for Depth-Assisted Perspective Distortion Correction

Also Published As

Publication number Publication date
JP2019502295A (ja) 2019-01-24
CN108475330A (zh) 2018-08-31
WO2017080420A1 (en) 2017-05-18
CN108475330B (zh) 2022-04-08
US20170188002A1 (en) 2017-06-29
US10404961B2 (en) 2019-09-03

Similar Documents

Publication Publication Date Title
JP7012642B2 (ja) アーチファクトを意識したビュー合成のための補助データ
Zinger et al. Free-viewpoint depth image based rendering
CN106068527B (zh) 用于立体数据的深度感知增强
Oh et al. Depth reconstruction filter and down/up sampling for depth coding in 3-D video
CN102598674B (zh) 用于2d视频数据到3d视频数据的转换的深度图产生技术
US20130182184A1 (en) Video background inpainting
EP2850835A1 (en) Estimation, encoding and decoding of motion information in multidimensional signals through motion zones, and auxiliary information through auxiliary zones
Lee et al. Discontinuity-adaptive depth map filtering for 3D view generation
Do et al. Quality improving techniques for free-viewpoint DIBR
Farid et al. Depth image based rendering with inverse mapping
Mao et al. Expansion hole filling in depth-image-based rendering using graph-based interpolation
Mieloch et al. Overview and efficiency of decoder-side depth estimation in MPEG immersive video
Zhang et al. A unified scheme for super-resolution and depth estimation from asymmetric stereoscopic video
Lu et al. A survey on multiview video synthesis and editing
JP6148154B2 (ja) 画像処理装置及び画像処理プログラム
Pająk et al. Perceptual depth compression for stereo applications
Luo et al. Hole filling for view synthesis using depth guided global optimization
Lee et al. View synthesis using depth map for 3D video
US9787980B2 (en) Auxiliary information map upsampling
Colleu et al. A polygon soup representation for multiview coding
Jung Lossless embedding of depth hints in JPEG compressed color images
Zhang et al. Efficient depth map compression for view rendering in 3D video
Bokov et al. Toward efficient background reconstruction for 3D-view synthesis in dynamic scenes
Liu et al. Stereoscopic view synthesis based on region-wise rendering and sparse representation
Rezaee Kaviani Novel Image Interpolation Schemes with Applications to Frame Rate Conversion and View Synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210716

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220118

R150 Certificate of patent or registration of utility model

Ref document number: 7012642

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150