JP5230669B2

JP5230669B2 - 深度画像をフィルタリングする方法

Info

Publication number: JP5230669B2
Application number: JP2010034830A
Authority: JP
Inventors: セフーン・イェー; クワン・ジュン・オー; アンソニー・ヴェトロ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2009-03-17
Filing date: 2010-02-19
Publication date: 2013-07-10
Anticipated expiration: 2030-02-19
Also published as: US8270752B2; EP2230640A1; EP2230640B1; JP2010218549A; US20100239180A1

Description

本発明は、包括的には画像処理に関し、より詳細には、深度画像のための再構成フィルタに関する。

深度画像
深度画像は、カメラから３Ｄ空間内のシーン要素までの距離を表す。深度画像を効率的に符号化することは、３Ｄビデオおよびフリービューテレビジョン（ＦＴＶ）にとって重要である。ＦＴＶは、利用者が視点をインタラクティブに制御して、任意の３Ｄ像点から、動的なシーンの新たな仮想画像を生成できるようにする。

大部分の従来の画像ベースレンダリング（ＩＢＲ）方式は、ステレオまたはマルチ画像によるビデオと共に、深度画像を用いて、３ＤおよびＦＴＶを可能にする。Ｈ．２６４／ＡＶＣ標準規格のマルチ画像ビデオ符号化（ＭＶＣ）拡張規格は、マルチ画像によるビデオのための符号化効率を向上させるために、画像間予測に対応する。しかしながら、ＭＶＣは、深度画像のためのいかなる符号化も、特に明記していない。

深度を効率的に推定し、符号化することは、復号器において高品質の仮想画像を合成できるようにするのに、極めて重要である。

深度再構成フィルタ
従来の画像とは異なり、深度画像は、深度不連続部を除いて、空間的に単調である。従って、復号化誤差は、深度不連続部付近に集中する傾向があり、深度不連続部を保持し損なうと、仮想画像の品質が著しく劣化することになる。図７（Ａ）および図７（Ｂ）を参照されたい。

ダウン／アップサンプラ
解像度を下げた深度を符号化すると、ビットレートを大幅に低減することができるが、解像度が失われることによって、深度不連続部のような高頻度の領域において、特に、深度マップの品質も劣化する。結果として生成される画像レンダリングアーティファクトは、視覚的に気になるものとなる。従来のダウン／アップサンプラは、いずれも、ローパスフィルタまたは補間フィルタを用いて品質劣化を抑えている。すなわち、従来のフィルタは、フィルタリングされた各ピクセルを得るために、フィルタによって覆われるいくつかのピクセルの深度を何らかの方法で合成する。そのフィルタリングは、多数の深度に依存するので、深度不連続部を「汚す」、すなわち不鮮明にする。

深度ビデオおよび画像レンダリングの結果は、特に、深度不連続部において、空間および時間の変化の影響を受けやすいので、従来の深度再構成は、仮想画像合成の場合に、特に不十分である。

方法は、深度画像をフィルタリングする。各深度画像は、位置（ｘ，ｙ）におけるピクセルのアレイを含み、各ピクセルは、深度を有する。深度画像内のピクセルに、動くウインドウが適用される。このウインドウのサイズは、各ピクセルを中心として１組のピクセルに及ぶ。ウインドウ内の１組のピクセルからの単一の代表深度がピクセルに割り当てられ、処理された深度画像が生成される。その後、処理された深度画像内の各ピクセルをフィルタリングして、深度不連続部を不鮮明にすることなく異常値深度が補正され、フィルタリングされた深度画像が生成される。

発明された深度再構成フィルタは、頻度近接フィルタと、後続のバイラテラルフィルタとを含む。頻度近接フィルタは、非線形フィルタであり、深度画像の特徴を考慮に入れて、符号化誤差を低減し、一方、バイラテラルフィルタは、深度不連続部を保存しながら、残存する異常値を低減するようになっている。

本発明の実施の形態を用いる、視点合成を含むビデオ符号化システムのブロック図である。本発明の実施の形態を用いる、深度画像のための符号化システムのブロック図である。本発明の実施の形態を用いる符号器のブロック図である。本発明の実施の形態を用いる復号器のブロック図である。本発明の一１つの実施の形態の場合における深度フィルタのブロック図である。本発明の別の実施の形態の場合の深度フィルタのブロック図である。本発明の実施の形態による深度フィルタリングの方法の流れ図である。本発明の実施の形態による頻度近接フィルタのブロック図である。本発明の実施の形態による頻度近接フィルタのブロック図である。本発明の実施の形態による頻度近接フィルタのブロック図である。本発明の実施の形態による低高フィルタのブロック図である。従来技術の画像、および本発明の実施の形態による従来技術の画像である。本発明の実施の形態によるアップサンプリングのブロック図である。本発明の実施の形態による仮想画像合成のブロック図である。本発明の実施の形態による深度前処理のブロック図である。本発明の実施の形態による仮想画像合成のブロック図である。本発明の実施の形態によるグラフである。本発明の実施の形態によるインペインティングの概略図である。

本発明の実施の形態は、入力としてビデオ５を取得し、このビデオは、一連のテクスチャ画像と、対応する一連の深度画像とを含む。本発明のある実施の形態は、仮想画像合成のために、解像度を下げたビデオにおいて深度画像をフィルタリングすることおよび深度画像を適当に再構成することに焦点を合わせており、一方、本発明の他の実施の形態は、一連のテクスチャ画像および対応する一連の深度画像から仮想画像合成を実行する方法を示す。

図１は、入力テクスチャ画像１１１と入力深度画像１０１とを含む入力ビデオ５を示しており、このビデオは、テクスチャ／深度符号器１１０によって符号化され、チャネル３０を通してテクスチャ／深度復号器１２０に送られる。テクスチャ／深度復号器１２０は、再構成されたテクスチャ画像１１２および再構成された深度画像１０２を出力し、これらの画像は、視点合成１３０への入力として用いられ、合成された仮想テクスチャ画像１０３が生成される。

図２は、入力ビデオの各入力深度画像１０１を深度符号化する方法（２００）を示す。符号化（２０）する前に、深度画像のサイズを縮小するように、深度画像がダウンサンプリングされる（１０）。解像度を下げた深度画像がチャネル３０を通して深度復号器４０に送られ、深度復号器４０では、アップサンプリングし、メディアンフィルタによって処理し、深度再構成フィルタを適用することによって、画像が再構成される（１０２）。その後、再構成された深度画像１０２を、仮想画像合成のために用いることができる。

システム２００において復号化された（４０）後に、再構成過程１０２が適用されることが重要である。図３は、再構成が符号器３０１および復号器３０２の予測ループ内にある、本発明の代替の実施の形態を示す。

図３Ａは、ビデオ符号器３０１、例えば、修正されたＨ．２６４／ＡＶＣ符号器をさらに詳細に示す。この符号器は、本発明の実施の形態による深度再構成フィルタ３７０を用いる。入力は、入力ビデオの現在の画像１０１と、基準画像１０５とを含む。出力は、符号化ビットストリーム１０３と、再構成されたフレーム１０４とを含む。入力ビデオのフレームまたは画像毎に、対応する深度画像がある。一連の深度画像のための符号化過程が説明される。テクスチャの符号化は、従来の手段によって実行される。

現在の深度画像は、動き推定（ＭＥ）３１０と、後続の動き補償（ＭＣ）３１５とによって予測されるか、または、セレクタ３１６に従ってイントラ予測３１７によって予測される。現在の深度画像と予測される深度画像との間の差が変換され（３２０）、量子化され（３３０）、エントロピー符号化され（３３５）、ビットストリーム１０３が生成される。

量子化器の出力は、逆量子化され（３４０）、逆変換される（３５０）。逆変換の後に、デブロッキングフィルタ３６０および再構成フィルタ３７０が用いられ、再構成された深度画像１０４が生成され、この画像は、入力ビデオの後続のフレームによって、基準画像１０５としても用いられる。

図３Ｂは、対応する復号器３０２を示す。入力は、基準画像１０５およびビットストリーム１０３である。出力は、再構成された深度画像１０４である。その構成要素は、エントロピー復号器３７５、逆量子化３４０、逆変換３５０、デブロッキングフィルタ３６０、再構成フィルタ３７０、イントラ予測３１７、および動き補償３１５を含む。デブロッキングは、厳密な復号化が望まれる場合を除いて、オプションとすることができる。

エントロピー復号器３７５は別として、復号器３０２は、符号器３０１にも含まれる。これは、ＭＰＥＧ−２およびＨ．２６４のような任意の予測ベースビデオ標準規格の典型である。これは、現在の画像を予測するために、符号器および復号器の両方によって同一の先行フレームが用いられるのを保証する。

深度再構成
本発明によるフィルタリングは、スライディングウインドウ内で単一の代表深度を選択して、欠けているかまたは歪んでいる深度を再生し、かつ深度不連続部にある深度画像内の構造、例えば、物体境界およびエッジを不鮮明にすることなく、異常値を除去する。

フィルタＩ
図４Ａは、復号化誤差を除去するための適応メディアンフィルタ４１１と、復号化された画像から深度不連続部を再生するための適応ｍｉｎ−ｍａｘフィルタ４１２と、任意の残存する誤差を除去するための３×３メディアンフィルタ４１３とを含む、本発明の深度再構成フィルタ４０１の一１つの実施の形態を示す。

適応メディアンフィルタ
メディアンフィルタ４１１は、雑音を低減するために用いられる非線形フィルタである。メディアンフィルタは、平均フィルタのように、深度中央値に大きく影響を及ぼさない。さらに、フィルタが深度不連続部をまたぐときに、中央値は、新たな非現実的ピクセル深度を生じる原因にはならない。しかしながら、メディアンフィルタの安定性は、ウインドウサイズによるので、本発明では、ウインドウサイズを適応的に調整する。

深度復号化誤差の分布は、量子化パラメータ（ＱＰ）に依存するので、適応メディアンフィルタも、深度画像を符号化するために用いられるＱＰに従ってウインドウサイズを調整する。本発明では、ＱＰを、以下に説明されるように、３つの群（低、中、高）に分類し、群毎に３×３、５×５および７×７メディアンフィルタを適用する。

ただし、ＱＰ_ｍｉｎおよびＱＰ_ｍａｘは、最小ＱＰ深度および最大ＱＰ深度であり、上式中の

は、天井関数であり、

以上の最も小さな整数を返すものである。

適応ｍｉｎ−ｍａｘフィルタ
適応ｍｉｎ−ｍａｘフィルタは、適応メディアンフィルタと同じサイズである。このフィルタは、以下の通りである。

ただし、Ａは、長方形領域であり、Ｉ（ｘ、ｙ）は、その領域内の（ｘ、ｙ）におけるピクセルのピクセル深度であり、関数ｍｉｎおよびｍａｘは、最小深度および最大深度を返す。

深度画像において、ピクセル強度は、実際には深度を表すことを理解されたい。従って、本明細書において、用語「強度」および「深度」は、同義語である。

メディアンフィルタ
最後の３×３メディアンフィルタリングは、異常値深度を補正する。

フィルタＩＩ
図４Ｂは、頻度近接フィルタ４２１およびバイラテラルフィルタ４２２を含む、本発明の深度再構成フィルタ４０２における１つの実施の形態を示す。

頻度近接フィルタ
図５に示されるように、本発明では、最初に、前処理された入力深度画像５０１に頻度近接（ＦＣ）フィルタ４２１を適用して、中間深度画像５０２を生成し、その後、中間深度画像は、バイラテラルフィルタ４２２によって処理され、出力深度画像５０３が生成される。

頻度近接フィルタは、以下のように定義される非線形フィルタである。

ただし、Ａはピクセルの長方形領域を表し、Ｉ（ｘ、ｙ）は、Ａ内の（ｘ、ｙ）におけるピクセルの深度であり、ＦＣ_{ｆｉｒｓｔ}およびＦＣ_{ｓｅｃｏｎｄ}は、それぞれ、領域Ａ内の深度の最も高い出現頻度および２番目に高い出現頻度のピクセル深度である。

言い換えると、Ｉ（ｘ、ｙ）は、頻度近接フィルタにおいて２つの代表深度ＦＣ_{ｆｉｒｓｔ}およびＦＣ_{ｓｅｃｏｎｄ}のうちの近い方によって割り当てられる。

図６Ａ〜図６Ｃは、３×３ＦＣの一例６０１を示す。動くウインドウを左から右および上から下に向かって走査しながら、９個のピクセルが次々にフィルタリングされる。ウインドウ内の各ピクセル深度の出現頻度がカウントされ、中央ピクセルの深度が、どちらに近いかによって、最も頻度が高い深度または２番目に頻度が高い深度に変更される。

頻度近接フィルタは、他の線形フィルタよりも優れた以下の利点を有する。このフィルタは、異常値ピクセルを正確にフィルタリングする。隣接するピクセルと同じような深度を有しない単一のピクセルは、頻度近接深度に大きく影響を及ぼさない。

頻度近接深度は、その近辺にあるピクセルのうちのただ１つのピクセルの深度であるので、頻度近接フィルタは、フィルタが深度不連続部、例えば、物体境界またはエッジをまたぐときに、非現実的なピクセル深度を生成することはない。

フィルタＩＩＩ
頻度低高フィルタ
図６Ｄに示されるように、頻度低高フィルタの基本的な動作は、以下の通りである。フィルタウインドウＷ６０９内のピクセルのための中央値６１１が求められる（６１０）。その後、その中央値を用いて、ピクセルが２つの集合、すなわち、Ｓ_ｌｏｗ６２１およびＳ_ｈｉｇｈ６２２に分割され（６２０）、集合Ｓ_ｌｏｗが中央値よりも小さな深度を有するピクセルを含み、集合Ｓ_ｈｉｇｈが、中央値よりも大きな深度を有するピクセルを含むようにする。

集合毎に、それぞれ「高」および「低」の場合に、それらの集合内の最も高い出現頻度を有する深度、すなわちν_ｌｏｗを選択する。ウインドウ内の中央ピクセル毎の頻度低高フィルタの出力６４０は、ν_ｈｉｇｈ６３２およびν_ｌｏｗ６３１のうちのピクセル深度に近い方である。

より形式的には、本発明では、ｍ×ｎウインドウＷ（ｉ、ｊ）６０９を定義する。ただし、ｍおよびｎは、奇数である。

ウインドウＷ内のピクセルは、その深度によって以下のように並べ替えられる。

ここで、ウインドウＷの深度中央値６１１は、以下の通りである。

ウインドウＷ内のピクセルは、以下のようにｍｅｄｉａｎ（Ｗ）に従って、低集合（Ｓ_ｌｏｗ）群および高集合（Ｓ_ｈｉｇｈ）群に分割される。

集合Ｓ_ｌｏｗ内のピクセルｋの場合に、本発明では、Ｓ_ｌｏｗに属する各深度νの確率を以下のように計算する。

確率Ｐ_ｌｏｗ（ν）から、本発明では、最も高い確率を有する深度を選択し、そして、深度ν_ｌｏｗを、以下のように定義する。

ただし、関数ｍａｘは、最も大きな深度を返す。

すなわち、ν_ｌｏｗは、１組のピクセル強度の中で最も高い出現頻度を有するピクセル深度であり、それらは、ウインドウＷの深度中央値よりも小さい。

同じようにして、本発明では、Ｐ_ｈｉｇｈ（ν）およびν_ｈｉｇｈを定義する。

所与のピクセルの場合の代表深度は、以下の通りである。

ただし、Ｗ（ｘ、ｙ）は、ウインドウＷ内の中央ピクセルであり、ピクセルＷ（ｘ、ｙ）は、２つの代表深度ν_ｌｏｗおよびν_ｈｉｇｈのうちの近い方が割り当てられる。

本発明による頻度低高フィルタは、線形フィルタよりも優れた以下の利点を有する。このフィルタは、異常値ピクセルを正確に処理する。隣接するピクセルと同じような深度を有しない単一のピクセルが、頻度低高深度に大きく影響を及ぼさない。頻度低高深度は、その近辺にある複数のピクセルのうちの１つのピクセルの深度であるので、その深度は、フィルタが深度不連続部をまたぐときに、非現実的なピクセル深度を生成することはない。

バイラテラルフィルタ
上記のフィルタを用いて、再構成された深度画像を処理した後に、アーティファクトとして現れる多少の誤差が深度不連続部に依然として残存する可能性がある。残存する誤差を低減するために、本発明では、中間画像５０２にバイラテラルフィルタ４２２を適用して、出力深度画像５０３を生成する。

本発明の実施の形態による図７（Ｃ）および図７（Ｄ）内の画像は、深度不連続部に沿って、従来技術の画像図７（Ａ）および図７（Ｂ）よりもアーティファクトが少ないことは明らかである。

一般的に、バイラテラルフィルタは、画像処理のために有用なエッジ保存フィルタである。多くのフィルタが、ピクセル間の幾何学的距離にのみ基づく、画像領域内の畳み込みであるのに対して、バイラテラルフィルタは、ピクセル深度も考慮に入れる。バイラテラルフィルタは、ピクセルの深度を、隣接するピクセルの重み付き平均で置き換える。しかしながら、その重みは、幾何学的距離に基づくだけでなく、ピクセル深度の差にも基づいて求められる。バイラテラルフィルタは、不連続部周囲に残存する誤差を除去し、隣接するピクセル深度の非線形結合によって、深度不連続部を保存する。これは、深度不連続部を横切るピクセルの影響を系統的に制限することによって成し遂げられる。

本発明によるバイラテラルフィルタは、２つのパラメータ、色σ（σ_１）および空間σ（σ_２）を有し、これらのパラメータは、２つのフィルタカーネルの強度を決定し、各カーネルは、それぞれ入力ピクセルの測光距離および幾何学的距離に関連する。

ダウン／アップサンプリング
２Ｄ画像をダウンサンプリングするために、ある特定のウインドウ内のピクセル深度の中の代表深度が選択される。本発明では、以下の深度中央値を選択する。

ただし、ｄは、ダウンサンプリング係数を表す。また、下式は、ウインドウ内のピクセル深度の２Ｄアレイを表す。

図８に示されるように、アップサンプリング８００は、以下のステップ、すなわち、画像アップスケーリング８１０、画像膨張８２０、メディアンフィルタリング８３０、画像収縮８４０およびｍｉｎ−ｍａｘフィルタリング８５０を含む。

膨張および収縮
形態的膨張および収縮は、画像処理の技術分野においてよく知られている用語である。出力画像における任意の所与のピクセルの状態は、入力画像内の対応するピクセルおよびその隣接ピクセルに、ある規則を適用することによって決定される。

膨張規則の場合、出力ピクセルの深度は、入力ピクセルの近辺にある全てのピクセルの最大深度である。膨張は、一般的に、物体のサイズを大きくし、穴および破損したエリアを埋め、小さな空間によって分離されるエリアを接続する。グレースケール画像では、膨張は、近辺の最大値を取ることによって、物体の輝度を高める。２値画像の場合、膨張は、構造化要素よりも小さな距離だけ分離されるエリアを接続し、各画像物体の周辺にピクセルを追加する。

収縮
収縮規則の場合、出力ピクセルの深度は、近辺にある全てのピクセルの最小深度である。収縮は、一般的に、物体のサイズを小さくし、構造化要素よりも小さな半径を有する物体を取り去ることによって、小さな異常を除去する。グレースケール画像では、収縮は、近辺の最小値を取ることによって、暗い背景上の明るい物体の輝度を小さくし、それゆえ、サイズを小さくする。

画像アップスケーリングは、以下の通りである。

ただし、ｕは、アップサンプリング係数を表し、これは、ダウンサンプリングにおけるｄと同じである。本発明では、アップサンプリングの最初のステップにおいて、簡単な手法を用いるので、中間画像内にブロッキングアーティファクトが存在する可能性がある。

ステップ８２０、８３０および８４０は、ブロッキングアーティファクトを除去する。画像領域Ａ上で作用する構造化要素Ｂを用いる、Ａ内の（ｘ、ｙ）における画像膨張および収縮演算の出力ピクセル深度は、それぞれ下式（１）および（２）において与えられる。

ただし、Ａ_Ｂは、（ｘ、ｙ）を中心にして構造化要素Ｂによって覆われるエリア内の全てのピクセルの集合であり、ｍａｘ［・］およびｍｉｎ［・］は、それぞれ、［・］内にある集合内のピクセル深度の最大値および最小値を表す。すなわち、（ｘ、ｙ）における膨張による出力ピクセルの深度は、Ａ_Ｂ内の全てのピクセルの最大深度である。

同様に、（ｘ、ｙ）における収縮による出力ピクセルの深度は、Ａ_Ｂ内の全てのピクセルの最小深度である。本発明では、ｕ√２に設定された円板半径を有する円形の構造化要素を用いる。本発明では、半径ｕ√２を有する円形の構造化要素を用いる。

深度不連続部を再生するｍｉｎ−ｍａｘフィルタリングは、以下の通りである。

ただし、Ａは、３×３長方形領域であり、Ｉ（ｘ、ｙ）は、Ａ内の（ｘ、ｙ）におけるピクセルの深度である。

仮想画像合成
本明細書において定義される場合、仮想画像は、入力ビデオ内に存在しない画像、例えば、入力ビデオを取得するときに存在しないカメラ視点からのシーンの画像である。

図９に示されるように、本発明による合成は、以下のステップ、すなわち、深度前処理９１０、深度ベース３Ｄワーピング９２０、深度ベースヒストグラムマッチング９３０、基本画像と補助画像とのブレンディング９４０、および深度ベースインペインティング９５０を有し、これらは、全て後にさらに詳細に説明される。

深度前処理は、誤差を補正し、深度の空間的および時間的整合性を高めるために、取得されたシーン深度データに対して実行される。深度ベース３Ｄワーピングは、テクスチャを直接ワーピングする際に、丸め誤差によって引き起こされる不連続問題を補正する。深度ベースワーピングは、シーンの幾何学的形状を記述するカメラパラメータを用いる。

深度ベースヒストグラムマッチングは、２つの基準画像間の照度差を小さくする。

基本画像と補助画像とのブレンディングは、深度およびカメラパラメータが正確でなくても、２つの３Ｄワーピング済み基準画像をブレンドし、仮想画像を生成する。

深度ベースインペインティングは、仮想画像内に残存する任意の穴を埋める。

図１１は、第１の画像１１０１および第２の画像１１０２から合成された仮想画像１１０３を生成するためのステップを示す。典型的には、第１および第２の画像は、所望の仮想画像のための画像の左および右にある。

深度前処理
一般的に、深度データは、深度または距離カメラおよびコンピュータグラフィックツールを用いて取得することができるか、または好ましい深度推定手順によって求めることができる。

図１０に示されるように、深度前処理は、時間フィルタリング１０１０、初期誤差補償１０２０および空間フィルタリング１０３０を含む。本発明では、平均化フィルタの代わりに、メディアンフィルタリングを適用する。これは、平均化フィルタは、結果として、初期深度画像内に存在しない新たなピクセル深度を生成し、それがレンダリングの品質を劣化させるためである。

第１のステップとして、本発明では、連続した深度画像フレームの同じ場所にあるピクセルに沿って１Ｄメディアンフィルタを適用し、同じ物体または背景に属する深度の時間的な不整合を低減する。そのメディアンフィルタは、以下の通りである。

ただし、Ｘ_{ｉ、ｊ、ｔ}は、時刻ｔにおいて空間位置（ｉ、ｊ）にあるピクセルの深度であり、Ｊ_{ｉ、ｊ、ｔ}は、時空間位置（ｉ、ｊ、ｔ）を中心とした３×３×３ウインドウ内の１組のピクセルであり、γは、フィルタが適用されるか否かを判断するための深度しきい値である。

次のステップは、初期誤差を補償し、この誤差は、典型的な深度推定過程における前景および背景の融合に誤りがあることによって引き起こされる可能性がある。通常、その誤差は、前景および背景が同じようなテクスチャを有し、それらのテクスチャが、視覚的に区別するのは容易であるが、除去するのが難しいときに生じる。

本発明では、以下のように定義される画像膨張および収縮を用いることによって初期誤差を補正する。

ただし、Ａは、画像を表し、Ｂは、Ａ上で作用する構造化要素である。Ａ_Ｂは、Ｂで覆われた領域であり、（ｘ、ｙ）は、画像Ａ内のピクセルである。本発明では、半径５の円板を有する円形の構造化要素を用いる。

最後のステップは、２Ｄメディアンフィルタを用いて、推定された深度画像内の異常値をフィルタリングし、雑音を除去する。５×５フィルタは、Ｙ_ｉ、ｊ＝ｍｅｄｉａｎ（Ｊ_ｉ、ｊ）である。ただし、Ｊ_ｉ、ｊは、位置（ｉ、ｊ）を中心とした５×５ウインドウ内の１組のピクセルである。

深度ベース３Ｄワーピング
大部分の従来の仮想画像合成法は、対応する深度マップを用いて、テクスチャ画像をワーピングする。しかしながら、隣接する画像のテクスチャ画像を仮想画像平面内に直接３Ｄワーピングすると、多くの場合に、合成された仮想画像内に偽りの黒い輪郭が生成される。これらの輪郭は、仮想画像の座標の整数表現に関わる丸め誤差によって、また、誤った初期深度によって引き起こされる。

逆ワーピングによって、仮想画像に対応する深度画像が得られた後に、本発明では、この深度画像を用いて、合成された仮想画像内に偽りの黒い輪郭を生成することなく、隣接する画像からの適当なテクスチャ強度を特定することができる。仮想画像に対応する深度画像を得るために、本発明では、最初に、対応する基準画像の深度画像をワーピングする。３Ｄワーピングにおいて、基準画像内のピクセルは、３Ｄ空間に逆投影され、シーンの幾何学的形状を記述するカメラパラメータを用いて、目標仮想画像上に再投影される。

基準画像内の点（ｕ、ν、１）を３Ｄ空間内の座標（ｘ、ｙ、ｚ）に逆投影することは、以下の通りである。

ただし、Ａ、Ｒおよびｔは、基準画像のカメラパラメータであり、ｄは、逆投影される必要がある３Ｄ空間内の点の深度を表し、Ｔは、転置演算子である。

その後、本発明では、以下のように、上記の３Ｄ点から再投影される仮想画像内の対応する座標（ｌ、ｍ、ｎ）を特定する。

ただし、Ａ、Ｒおよびｔは、仮想画像のカメラパラメータである。座標（ｌ、ｍ、ｎ）は、（ｌ／ｎ、ｍ／ｎ、１）に正規化され、その後、仮想画像内の整数座標（Ｕ、Ｖ）として表される。

テクスチャワーピングの場合と全く同じ理由から、ワーピング済み深度画像内に現れる偽りの黒い輪郭を除去するために、本発明では、メディアンフィルタリングを適用する。

深度ベースヒストグラムマッチング
仮想画像合成のための２つの基準画像を有する場合に、本発明では、最初に、２つ、すなわち、各画像１１０１および１１０２から１つずつの３Ｄワーピング済み画像を合成することができる。これらの２つのワーピング済み画像をブレンドする前に、本発明では、ヒストグラムマッチングを適用して、合成された画像の不整合を引き起こす場合がある、２つの画像間の照度差および色差を低減する。

２つの３Ｄワーピング済み基準画像のピクセル強度のヒストグラムが、同じような分布を有するように調整される。この過程は、ピクセル強度が表現されるＲＧＢデータフォーマットの成分毎に適用される。

２つの３Ｄワーピング済み画像が、全く同じ対応する場所に穴が存在するように変更され、その後、メディアンフィルタを適用して雑音が低減される。結果として、２つのワーピング済み画像は、その照度がわずかに異なることを除いて、同じようなテクスチャを有する。画像内に穴が存在することは、ヒストグラムの形状に大きな影響を及ぼすので、この変更は、ヒストグラムマッチングの精度を大幅に高める。

次に、本発明では、ワーピング済みの第１および第２の画像のヒストグラムを構成する。

ｙ_Ｌ［ｍ、ｎ］が、第１の画像の振幅を表すものとする。その際、ヒストグラムは、以下のようになる。

ただし、ｗは、画像幅を表し、ｈは、画像高である。νの強度は、０〜２５５の範囲にある。マッピング関数Ｍを生成するために、２つのステップが必要である。最初に、左画像の累積ヒストグラムＣ_Ｌ［ν］が、以下のように構成される。

右画像のヒストグラムｈ_Ｒ［ν］および累積ヒストグラムＣ_Ｒ［ν］も同じようにして構成される。

それらの累積ヒストグラムに基づいて、本発明では、以下の式を用いて、仮想画像のための累積ヒストグラムＣ_Ｖ［ν］を構成する。

ただし、Ｃ_ＬおよびＣ_Ｒは、ワーピング済みの左画像および右画像のための累積ヒストグラムである。一般的に、重み係数αは、基線距離に基づく。

ただし、ｔは、画像毎の並進ベクトルである。

図１２に示されるように、左画像と仮想画像との間のマッピング関数は、基準画像内の出現回数を仮想画像内の出現回数と一致させることによって得られる。

マッピング関数は、左画像ｙ_Ｌ［ｍ、ｎ］および右画像ｙ_Ｒ［ｍ、ｎ］に適用され、結果として、以下のように、ヒストグラムマッチング済みの画像ｙ_ＨＭＬ［ｍ、ｎ］およびｙ_ＨＭＲ［ｍ、ｎ］が生成される。

一般的に、カメラ毎に照明が異なると、照度差および色差が生じ、各物体および色成分に異なる影響が及ぼされる。本発明では、局所的にヒストグラムマッチングを適用し、それらの領域は、深度を用いて分割される。

基本画像と補助画像とのブレンディング
２つの３Ｄワーピング済み画像は、重み付けられた（α）和を用いて合成することができる。

ただし、Ｉ_ＬおよびＩ_Ｒは、３Ｄワーピング済み基準テクスチャ画像であり、Ｉ_Ｖは、仮想画像である。

しかしながら、カメラパラメータに起因して、基準画像からの一致しない深度および強度がワーピング済み画像に寄与している可能性があり、それにより、多くの場合に二重エッジアーティファクトおよび平滑化に繋がる。

その問題を避けるために、本発明では、画像ブレンディングのための基本画像および補助画像を定義する。基本画像は、ピクセル強度の大部分がワーピングされる主基準画像である。補助画像は、インペインティングのための補助的な基準画像として用いられる。仮想画像により近い方の基準画像が、基本画像Ｉ_Ｂとして選択され、他方の画像が、補助画像Ｉ_Ａとして選択され、仮想画像Ｉ_Ｖは、以下の通りである。

ただし、αは、基本画像Ｉ_Ｂ内の非穴領域の場合に１、穴領域の場合に０である。

深度を用いるインペインティング
画像ブレンディングは、大部分の遮蔽物除去領域を効率的に埋める。遮蔽物除去領域は、基準画像内では見ることができないが、合成された画像内に存在するエリアである。しかしながら、残存する遮蔽物除去領域および不良の深度に起因して、いくつかの穴が依然として残る。

多くの既存のインペインティング法は、画像補間または穴埋め技法を使用し、幾何学的距離に基づいて、隣接するピクセルを用いて残存する穴を埋める。

図１３において、概略的に示されるように、修復されるべき領域Ω１３０１は、境界∂Ω１３０２を有する。領域Ωに属するピクセルｐは、隣接する領域Ｂ_ε（ｐ）１３０３内のピクセルを用いて修復される。

しかしながら、仮想画像合成における穴は、遮蔽物除去エリアに相当し、このエリアは、明らかに背景に属するので、前景ピクセルよりも背景ピクセルを用いて穴を埋めるほうが、道理に適っている。

それゆえ、本発明によるインペインティングは、以下のように、前景ピクセルよりも背景ピクセルを選ぶ。

ただし、ｆｇおよびｂｇは、それぞれ、前景および背景を表す。

言い換えると、ある特定の穴の∂Ωが前景および背景の両方に属するとき、本発明では、インペインティングによって穴が最終的に背景エリアに対応する強度で埋められるように、前景に面する境界領域のピクセル強度を、穴の向こう側に位置する背景領域のピクセル強度で置き換える。

穴境界上の特定のピクセルが前景に属するか、または背景に属するかを判断するために、本発明では、対応する深度データを用いる。言い換えると、境界の両側に２つのピクセルがある場合に、本発明では、より大きい深度を有する方のピクセルを前景に属するものと見なし、より小さい深度を有する方のピクセルを背景に属するものと見なす。

Claims

深度画像をフィルタリングする方法であって、各深度画像は、位置（ｘ，ｙ）におけるピクセルのアレイを含み、各ピクセルは、深度を有し、該方法のステップを実行するためのプロセッサを備え、該方法は、ピクセル毎に、
前記深度画像内の複数の前記ピクセルにわたって各ピクセルを中心とした１組のピクセルに及ぶサイズとしてウインドウをスライドさせるステップと、
処理された深度画像を生成するために、前記ピクセルに、前記ウインドウ内の前記１組のピクセルから単一の代表深度を割り当てるステップであって、各画素に対して、復号化誤差を除去するために適応メディアンフィルタを適用し、そして深度不連続部を再生するために適応ｍｉｎ−ｍａｘフィルタを適用することによって実行される、割り当てるステップと、
深度不連続部を不鮮明にすることなく異常値深度を補正し、フィルタリングされた深度画像を生成するために、前記処理された深度画像内の各ピクセルをフィルタリングするステップと
を含む方法。
前記フィルタリングするステップは、メディアンフィルタを適用して前記異常値深度を除去することによって実行される
請求項１に記載の方法。
前記ウインドウの前記サイズは、前記深度画像を符号化するために用いられる量子化パラメータに応じて、３×３、５×５又は７×７ピクセルに設定される
請求項１に記載の方法。
前記適応ｍｉｎ−ｍａｘフィルタは、前記ウインドウ内の前記ピクセルの最小深度と該ウインドウの中心における深度との間の差の絶対値が、該ウインドウ内の最大深度と該ウインドウの該中心における深度との間の差の絶対値よりも小さいときに、該ウインドウ内の前記ピクセルの最小深度を割り当てる
請求項１に記載の方法。
前記適応ｍｉｎ−ｍａｘフィルタは、前記ウインドウ内の前記ピクセルの最小深度と該ウインドウの中心における深度との間の差の絶対値が、該ウインドウ内の最大深度と該ウインドウの該中心における深度との間の差の絶対値以上であるときに、該ウインドウの前記ピクセルの最大深度を割り当てる
請求項１に記載の方法。
前記割り当てるステップは、各ピクセルに頻度近接フィルタを適用することによって実行される
請求項１に記載の方法。
前記頻度近接フィルタは、前記ウインドウ内の前記ピクセルの最も出現頻度が高い深度と該ウインドウの中心における深度との間の差の絶対値が、前記ウインドウ内の前記ピクセルの２番目に出現頻度が高い深度と該ウインドウの該中心における深度との間の差の絶対値よりも小さいときに、前記ウインドウ内の前記ピクセルの２番目に出現頻度が高い深度を割り当てる
請求項６に記載の方法。
前記頻度近接フィルタは、前記ウインドウ内の前記ピクセルの最も出現頻度が高い深度と該ウインドウの中心における深度との間の差の絶対値が、前記ウインドウ内の前記ピクセルの２番目に出現頻度が高い深度と該ウインドウの該中心における深度との間の差の絶対値以上であるときに、前記ウインドウ内の前記ピクセルの２番目に出現頻度が高い深度を割り当てる
請求項６に記載の方法。
前記フィルタリングは、バイラテラルフィルタである
請求項１に記載の方法。
前記フィルタリングは、３×３メディアンフィルタである
請求項１に記載の方法。
前記割り当てるステップは、各ピクセルに頻度低高フィルタを適用することによって実行される
請求項１に記載の方法。
ウインドウ内のピクセルのための深度中央値を求めるステップと、
前記中央値に従って、前記ウインドウ内の前記ピクセルを集合Ｓ_ｌｏｗ及びＳ_ｈｉｇｈに分割するステップと、
前記集合Ｓ_ｌｏｗ及びＳ_ｈｉｇｈにおいてそれぞれ最も高い出現頻度を有する深度ν_ｌｏｗ及び深度ν_ｈｉｇｈを求めるステップと、
前記ピクセルの深度により近い、前記最も高い出現頻度の深度を選択するステップと
をさらに含む請求項１１に記載の方法。
前記深度画像の前記フィルタリングは、復号器の出力である再構成された深度画像において実行される
請求項１に記載の方法。
前記深度画像の前記フィルタリングは、復号器の予測ループ内の深度画像において実行され、復号化される後続の深度画像を予測するために用いられる基準画像が生成される
請求項１に記載の方法。
前記深度画像は、低い解像度からアップサンプリングされる
請求項１に記載の方法。
前記深度画像は、量子化される
請求項１に記載の方法。
前記深度画像は、推定過程からの雑音を含む
請求項１に記載の方法。