JP2012194751A - 画像処理方法、画像処理装置及びコンピュータプログラム - Google Patents
画像処理方法、画像処理装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2012194751A JP2012194751A JP2011057897A JP2011057897A JP2012194751A JP 2012194751 A JP2012194751 A JP 2012194751A JP 2011057897 A JP2011057897 A JP 2011057897A JP 2011057897 A JP2011057897 A JP 2011057897A JP 2012194751 A JP2012194751 A JP 2012194751A
- Authority
- JP
- Japan
- Prior art keywords
- depth
- image
- pixel
- subject
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003672 processing method Methods 0.000 title claims description 17
- 238000012545 processing Methods 0.000 title claims description 7
- 238000004590 computer program Methods 0.000 title claims 2
- 238000012937 correction Methods 0.000 claims abstract description 14
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 238000009499 grossing Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 6
- 239000002131 composite material Substances 0.000 abstract description 18
- 238000013507 mapping Methods 0.000 abstract 2
- 238000000034 method Methods 0.000 description 35
- 239000000203 mixture Substances 0.000 description 23
- 239000013598 vector Substances 0.000 description 22
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 9
- 238000001308 synthesis method Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【課題】画像間の対応付けが困難な場合であっても、奥行き推定誤差を抑制することができ、高品質な仮想視点画像を合成することができる仮想視点画像合成装置を提供する。
【解決手段】奥行き推定部は、カメラ画像・カメラパラメータ記憶部からカメラパラメータと画像データとを取得し、奥行き推定結果を出力する。この際、奥行き推定が困難な画素について、その画素が所属する被写体を推定し、その被写体の奥行き情報を用いて補正を行う。また、被写体の境界付近にある奥行きが急激に変化する箇所の画素について、対応付けが困難な場合にも、同一被写体の奥行き情報を付与する。画像合成部は、カメラパラメータと画像データ、奥行き推定結果に基づいて、仮想視点から見た合成画像を出力する。
【選択図】図1
【解決手段】奥行き推定部は、カメラ画像・カメラパラメータ記憶部からカメラパラメータと画像データとを取得し、奥行き推定結果を出力する。この際、奥行き推定が困難な画素について、その画素が所属する被写体を推定し、その被写体の奥行き情報を用いて補正を行う。また、被写体の境界付近にある奥行きが急激に変化する箇所の画素について、対応付けが困難な場合にも、同一被写体の奥行き情報を付与する。画像合成部は、カメラパラメータと画像データ、奥行き推定結果に基づいて、仮想視点から見た合成画像を出力する。
【選択図】図1
Description
本発明は、仮想視点画像合成方法、装置及びプログラムに関し、特に、被写体にテクスチャが少ない領域やオクルージョンがある場合に有効な技術に関する。
複数のカメラから撮影された多視点画像を用いて、仮想の視点位置から見た画像を合成することを仮想視点画像合成という。多視点画像を用いて任意の視点位置の画像を合成するためには、2次元の画像群から3次元情報(奥行き)を推定する必要がある。奥行き推定精度が低いと、仮想視点の合成画像の品質が劣化してしまうという問題がある。
奥行きを推定する手法にステレオマッチング法がある。これは、多視点画像間の画素の対応づけとカメラの内部パラメータと外部パラメータを用いることで、三角測量の原理により、注目画素の実空間での位置を計算により求める技術である。例えば、図9に示すように、地点P1と地点P2から注目地点Mを見たとすると、地点P1とP2を結んだ直線の距離と、注目地点Mと地点P1と地点P2とを結んだときにできる三角形の各頂点の角度が求まれば、地点P1及びP2から注目地点Mへのそれぞれの距離を求めることができる。
しかしながら、模様(テクスチャ)が少ない領域や、周期的なテクスチャが存在する領域や、オクルージョンの影響を受けた領域がある場合には、その領域内の画素の対応付けは困難である。例えば、図10に示すように、鳥のような被写体Bが横切るなど,オクルージョンが生じた場合を考えると、地点P1からは注目地点Mが見えないので対応付けができない。
このとき、ステレオマッチング法では,地点P2から見える地点Mについて、地点P1から似たような形状として見える地点M’や,地点M”と誤って対応付けを行いやすい。そして、誤った奥行きを推定した画素の影響により、合成画像に不自然な像(アーティファクト)が生じる。つまり、仮想視点画像合成において、奥行き推定が困難な画素について、推定誤差を抑制することが品質向上に繋がる重要な課題である。
従来の仮想視点画像合成手法では、このような対応付けが困難な画素について、大きく分けて2つのアプローチをとっていた。
1つ目は、カメラの台数を増やすアプローチである。複数のカメラを用いることで対応付けの曖昧性を除去することや、オクルージョンの影響を受けにくくなる利点がある。また、オクルージョンの影響を受けていないカメラ映像を優先的に用いることで、合成された画像の品質劣化を抑制する手法もある。
1つ目は、カメラの台数を増やすアプローチである。複数のカメラを用いることで対応付けの曖昧性を除去することや、オクルージョンの影響を受けにくくなる利点がある。また、オクルージョンの影響を受けていないカメラ映像を優先的に用いることで、合成された画像の品質劣化を抑制する手法もある。
しかしながら、当該手法では、少なくとも2つ以上のカメラがオクルージョンの影響を受けていないことを前提としている。また、当該アプローチのようにカメラ台数が多くなると、撮影のための装置が大掛かりになるなど、管理コストや、撮影の労力が大きくなることや、専用の撮影環境が必要になる等の問題が生じる。
2つ目は、対応付けが正しく行えた近傍画素の奥行き情報を用いることで、対応付けが困難な画素の奥行きの補正を行うアプローチである。例えば、画素の色(R、G、B)情報を基にして画像を細かくセグメンテーションし、同じセグメント内の画素は、同一の平面(曲面)上に存在すると仮定する。この仮定の基に、画素の奥行きを再推定する手法(例えば非特許文献1参照)がある。他にも、前景と背景という2つの被写体を対象として、ステレオマッチングの尤度と対応づけが困難な画素と類似した色を持つ被写体(前景か背景)の奥行き情報を用いて奥行きの尤度を補正する手法(例えば非特許文献2参照)等がある。
C. Lawrence Zitnick, Sing Bing Kang, Matthew Uyttendaele, Simon Winder, Richard Szeliski : High-quality video view interpolation using a layered representation, in Prof. of ACM SIGGRAPH, pp. 600-608 (2004)
石井,高橋,苗村:自由視点画像のための合成とセグメンテーションの連結手法,3次元画像コンファレンス,5-1, pp.49-52 (2009)
上述のように、奥行きの補正を行うための関連した技術では、ある画素の奥行き情報を補正するときに、類似した色を持つ近傍画素を用いて補正を行っていた。しかしながら、被写体の境界付近に類似した色を持つ別の被写体が存在する場合、誤った奥行き情報に基づいて補正を行ってしまう。そのため、誤った補正の影響により、被写体境界付近では奥行きの推定誤差が大きくなってしまう。例えば、被写体のパーツ(顔、足、手など)の一部が欠損したり、拡大・縮小するようなアーティファクトが生じる課題があった。また、テクスチャが少ない領域が大きい場合や、オクルージョンの領域が大きい場合には、それらの領域内の広範囲な画素の奥行き推定結果が悪くなる。広範囲の画素の奥行き推定精度が低いため、近傍画素の情報を用いても補正を正しく行えないという問題がある。
本発明は、このような事情を考慮してなされたものであり、その目的は、テクスチャが少ない領域や、オクルージョンの影響により画像間の対応付けが困難な場合であっても、奥行き推定誤差を抑制し、高品質な仮想視点画像を合成することができる技術を提供することにある。
上述した課題を解決するために、本発明の一態様は、複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理方法であって、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する第1のステップと、前記尤度と近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを推定する第2のステップと、前記多視点画像と前記推定した奥行きとに基づいて、各被写体の奥行き情報を取得する第3のステップと、前記第1のステップで対応付けが困難であった画素を検出し、その画素が所属する被写体の奥行き情報に基づいて、その画素の尤度を補正する第4のステップと、前記補正された尤度と同一の被写体に所属する前記近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを再推定する第5のステップと、前記仮想カメラの視点位置に近いカメラ画像と該カメラ画像に対する前記第5のステップで推定された奥行きとに基づいて、前記被写体の画像を合成する第6のステップとを含む。
本発明の一態様は、上記の画像処理方法において、前記第1のステップは、前記多視点画像に対して、注目画像と複数の画像間のエピポーラ線上の局所領域の相関情報を算出し、相関の高さに応じて、各画素の奥行きに対する尤度を決定する。
本発明の一態様は、上記の画像処理方法において、前記第2のステップは、前記尤度が高いほど小さいコストを出力し、また近傍画素の奥行き推定結果が近いほど小さいコストを出力するエネルギー関数を定義し、該エネルギー関数と空間的な平滑化項により定義されるエネルギー関数の最小化問題により個々の画素の奥行きを求める。
本発明の一態様は、上記の画像処理方法において、前記第3のステップは、画素と被写体との対応関係をセグメンテーションにより決定し、被写体の奥行き情報を、その被写体に属する画素の奥行きにより算出する。
本発明の一態様は、上記の画像処理方法において、前記第4のステップは、前記第1のステップで対応付けが困難である画素を前記尤度の値から決定し、各被写体の奥行きを求めるステップと、事前に学習した画像特徴と前記推定した画素の奥行き情報に基づいて前記被写体を検出するステップとを含む。
本発明の一態様は、上記の画像処理方法において、前記第4のステップは、前記各被写体の奥行きを空間的に分割して取得するステップと、前記尤度の補正について、前記第1のステップで求めた画素の尤度と、その画素が所属する被写体であって、かつ、その画素から空間的に近い奥行き情報とを統合するステップとを含む。
本発明の一態様は、上記の画像処理方法において、前記第5のステップは、前記補正された尤度が高いほど小さいコストを出力し、また、近傍画素の奥行き推定結果が近いほど小さいコストを出力するエネルギー関数を定義し、該エネルギー関数の最小化問題により奥行きを求める。
本発明の一態様は、上記の画像処理方法において、前記第6のステップは、前記仮想カメラの視点位置に近いカメラ画像と該カメラ画像の推定された奥行きとに基づいて、3次元ワーピングにより前記被写体の画像を合成するステップと、前記仮想カメラの視点位置とカメラとの距離に応じた重み付き加算による色と各画素の推定された奥行きに対する尤度による重み付け加算による色とを統合するステップとを含む。
本発明の一態様は、複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理装置であって、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出部と、前記尤度と近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを推定する奥行き推定部と、前記多視点画像と前記推定した奥行きとに基づいて、各被写体の奥行き情報を取得する奥行き情報取得部と、前記尤度算出部による対応付けが困難であった画素を検出し、その画素が所属する被写体の奥行き情報に基づいて、その画素の尤度を補正する尤度補正部と、前記補正された尤度と同一の被写体に所属する前記近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを再推定する奥行き再推定部と、前記仮想カメラの視点位置に近いカメラ画像と該カメラ画像に対する前記奥行き再推定部により推定された奥行きとに基づいて、前記被写体の画像を合成する画像合成部とを備える。
本発明の一態様は、複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理装置のコンピュータに、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出ステップと、前記尤度と近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを推定する奥行き推定ステップと、前記多視点画像と前記推定した奥行きとに基づいて、各被写体の奥行き情報を取得する奥行き情報取得ステップと、前記尤度算出ステップによる対応付けが困難であった画素を検出し、その画素が所属する被写体の奥行き情報に基づいて、その画素の尤度を補正する尤度補正ステップと、前記補正された尤度と同一の被写体に所属する前記近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを再推定する奥行き再推定ステップと、前記仮想カメラの視点位置に近いカメラ画像と該カメラ画像に対する前記奥行き再推定ステップにより推定された奥行きとに基づいて、前記被写体の画像を合成する画像合成ステップと、を実行させるためのコンピュータプログラムである。
本発明によれば、テクスチャが少ない領域や、オクルージョンの影響により画像間の対応付けが困難な場合であっても、奥行き推定誤差を抑制し、高品質な仮想視点画像を合成することができる。
仮想視点画像合成システムは、複数の多視点画像に基づき任意の仮想視点から見た画像を合成する技術に関するものである。仮想視点画像合成システムの特徴は、テクスチャが少ない場合や、オクルージョンの影響により画像間の対応付けが困難な場合においても、精度よく奥行きを推定できることである。また、その結果として高品質な仮想視点画像を合成することが可能となる。
関連技術では、奥行きの推定誤差を抑制するために、「近傍画素の奥行きは近い」とか「近傍で、かつ、色が似ている画素の奥行きは近い」という事前知識を用いた補正を行っていた。しかし、オクルージョンなどの影響により、奥行き推定が困難な画素が広範囲に存在する場合、どの画素の奥行き情報を利用して補正すればよいか分からなかった。
仮想視点画像合成システムでは、奥行き推定が困難な画素について、その画素が所属する被写体を推定し、その被写体の奥行き情報を用いて補正を行うことで、推定誤差の抑制が可能となる。
仮想視点画像合成システムでは、奥行き推定が困難な画素について、その画素が所属する被写体を推定し、その被写体の奥行き情報を用いて補正を行うことで、推定誤差の抑制が可能となる。
また、仮想視点画像合成システムでは、物理的に正しい奥行きを推定することを目的としているのではない。仮想視点画像合成システムは、仮想視点位置の画像を合成したときに、人間が知覚してしまうようなアーティファクトが発生しないことを目指している。仮想視点画像合成システムは、被写体の境界付近にある奥行きが急激に変化する箇所の画素について、対応付けが困難な場合にも、同一被写体の奥行き情報を付与する。これによって、背景など大幅に間違った奥行き推定結果になることを抑制することができる。仮想視点画像合成システムは、ステレオマッチング法により求めた尤度の大きさを用いる。
仮想視点画像合成システムは、卓球や、テニスなどのスポーツの鑑賞や、大学等の授業を撮影した遠隔教育の教材向けに、視聴者があたかも撮影した環境にいると思えるような臨場感のある画像を、高品質に合成できる。
仮想視点画像合成システムは、関連技術の光線空間法や、視体積交差法のように、カメラを密に配置する撮影環境や、被写体を全方位から撮影できるような撮影環境ではなくて、実際の競技場や、イベント会場での撮影環境を想定している。仮想視点画像合成システムは、特殊な撮影環境内で被写体を撮影しなくても、高品質な仮想視点画像の合成を実現する技術である。
仮想視点画像合成システムは、関連技術の光線空間法や、視体積交差法のように、カメラを密に配置する撮影環境や、被写体を全方位から撮影できるような撮影環境ではなくて、実際の競技場や、イベント会場での撮影環境を想定している。仮想視点画像合成システムは、特殊な撮影環境内で被写体を撮影しなくても、高品質な仮想視点画像の合成を実現する技術である。
上述したように、仮想視点画像合成システムでは、注目する画素についてその画素の所属する被写体の奥行き情報を用いて補正を行う。仮想視点画像合成システムは、注目画素を含む局所領域がどの被写体に属しているかを識別するために、事前にトレーニングデータ(画像にラベルを付与したもの)を基に学習を行う。例えば、テニスや、ボクシング、コンサートにおいて、数時間のコンテンツのうち数分間分をトレーニングデータとして、人手によりラベルを与える。ラベルとは、画像中の被写体と画像特徴との関連性を示すものであり、被写体の識別器の学習に用いる。仮想視点画像合成システムでは、特定のコンテンツに特化する。これによって、関連技術の課題である対応付けの難しい画素についての奥行き推定誤差を解消してアーティファクトを抑制することができる。
(合成装置全体の説明)
図1は、仮想視点画像合成システムの構成を示すブロック図である。被写体撮影部101は、複数台のカメラで構成される多視点画像取得システムである。被写体撮影部101は、撮影した映像信号S1をカメラ画像取得部102に供給する。カメラパラメータ入力部103は、キャリブレーションしたカメラパラメータP1を入力する装置である。仮想視点位置入力部105は、ユーザーが希望する視点位置を入力する装置である。カメラパラメータ入力部103と仮想視点位置入力部105は、例えば、キーボードや、マウス、タッチ入力装置などのユーザーインタフェースや、DVD(Digital Versatile Disc)や、USB(Universal Serial Bus)メモリ等の外部記憶装置である。
図1は、仮想視点画像合成システムの構成を示すブロック図である。被写体撮影部101は、複数台のカメラで構成される多視点画像取得システムである。被写体撮影部101は、撮影した映像信号S1をカメラ画像取得部102に供給する。カメラパラメータ入力部103は、キャリブレーションしたカメラパラメータP1を入力する装置である。仮想視点位置入力部105は、ユーザーが希望する視点位置を入力する装置である。カメラパラメータ入力部103と仮想視点位置入力部105は、例えば、キーボードや、マウス、タッチ入力装置などのユーザーインタフェースや、DVD(Digital Versatile Disc)や、USB(Universal Serial Bus)メモリ等の外部記憶装置である。
仮想視点画像合成装置100は、カメラ画像取得部102、奥行き推定部104、仮想視点位置決定部106、画像データ記憶部107、画像合成部108、及び合成画像出力部109を備える。カメラ画像取得部102は、被写体撮影部101からの映像信号S1を取得し、画像データD1として画像データ記憶部107に供給する。仮想視点位置決定部106は、仮想視点位置入力部105により与えられた、仮想視点位置のカメラパラメータを決定し、画像合成部108に供給する。
画像データ記憶部107は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。画像データ記憶部107は、カメラ画像・カメラパラメータ記憶部107a、奥行き記憶部107b、及び合成画像記憶部107cを備える。各記憶部は、同一の記憶装置上に構成されても良いし、それぞれ異なる記憶装置上に構成されても良い。カメラ画像・カメラパラメータ記憶部107aは、カメラ画像取得部102からの画像データD1を記憶する。奥行き記憶部107bは、後述する奥行き推定部104から出力される推定された奥行きデータD2を記憶する。合成画像記憶部107cは、後述する画像合成部108から出力される画像データD3を記憶する。被写体撮影部101のカメラによる被写体撮影で予め撮影したシーンの画像とキャリブレーションで求めたカメラパラメータP1と奥行き推定部104の出力結果D2とを、それぞれカメラ画像・カメラパラメータ記憶部107aと奥行き記憶部107bとに記憶しておき、ユーザーが希望する仮想視点位置の入力に応じて画像合成を独立して実行することが可能となる。
奥行き推定部104は、カメラ画像・カメラパラメータ記憶部107aからカメラパラメータP1と画像データD1とを取得し、奥行き推定結果D2を出力して奥行き記憶部107bに供給する。
画像合成部108は、カメラ画像・カメラパラメータ記憶部107aからカメラパラメータP1と画像データD1とを取得し、奥行き記憶部107bから奥行き推定結果D2を取得して、合成画像(仮想視点から見た画像)データD3を出力する。
画像合成部108は、カメラ画像・カメラパラメータ記憶部107aからカメラパラメータP1と画像データD1とを取得し、奥行き記憶部107bから奥行き推定結果D2を取得して、合成画像(仮想視点から見た画像)データD3を出力する。
合成画像出力部109は、合成画像記憶部107cに記憶された合成画像データD3を、出力用画像データとして読み出し、ディスプレイ表示用の映像信号S2として合成画像表示部110に出力する。合成画像表示部110は、例えば、ディスプレイ端子等の合成画像出力部109に接続されたCRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)等の表示装置である。合成画像表示部110は、合成画像出力部109からの映像信号S2に従って合成画像を表示する。なお、合成画像表示部110は、例えば、2次元平面状の装置でもよいし、装置利用者を取り囲むような曲面状の表示装置であってもよい。
(画像合成方法の説明)
次に、本実施形態の仮想視点画像合成装置100による仮想視点画像合成方法について説明する。図2は、本実施形態による仮想視点画像合成方法を説明するためのフローチャートである。カメラの配置は、本来自由でよい。しかし、本実施形態では、複数台のカメラで共通視野を確保しやすくするために、格子状、もしくは一直線上にカメラを配置する。図3は、本実施形態による仮想視点画像合成方法で用いるカメラの配置例を示す概念図である。図3に示すように、カメラCn−2、Cn−1、Cn、Cn+1、…の向きは、並行、もしくは特定の被写体を注視点Mとするように放射線状に配置されており、全てのカメラCn−2、Cn−1、Cn、Cn+1、…は同期している。
次に、本実施形態の仮想視点画像合成装置100による仮想視点画像合成方法について説明する。図2は、本実施形態による仮想視点画像合成方法を説明するためのフローチャートである。カメラの配置は、本来自由でよい。しかし、本実施形態では、複数台のカメラで共通視野を確保しやすくするために、格子状、もしくは一直線上にカメラを配置する。図3は、本実施形態による仮想視点画像合成方法で用いるカメラの配置例を示す概念図である。図3に示すように、カメラCn−2、Cn−1、Cn、Cn+1、…の向きは、並行、もしくは特定の被写体を注視点Mとするように放射線状に配置されており、全てのカメラCn−2、Cn−1、Cn、Cn+1、…は同期している。
[多視点画像とカメラパラメータの入力]
まず、カメラパラメータ入力部103で、前処理として各カメラのカメラパラメータをキャリブレーションにより求める(ステップS1)。カメラ番号をn(=1,2,3,…,N)、カメラの内部パラメータをAn、外部パラメータをRn、Tn、カメラCnの画像の画素の位置をmnとすると、カメラCnの画像上の位置mn=[xn,yn]とカメラCnの座標系の位置Mc=[Xc,Yc,Zc]、世界座標系の位置M=[X,Y,Z]の関係は次式(1)、(2)で求まる。
まず、カメラパラメータ入力部103で、前処理として各カメラのカメラパラメータをキャリブレーションにより求める(ステップS1)。カメラ番号をn(=1,2,3,…,N)、カメラの内部パラメータをAn、外部パラメータをRn、Tn、カメラCnの画像の画素の位置をmnとすると、カメラCnの画像上の位置mn=[xn,yn]とカメラCnの座標系の位置Mc=[Xc,Yc,Zc]、世界座標系の位置M=[X,Y,Z]の関係は次式(1)、(2)で求まる。
数式(1)と数式(2)より、
となる。但し、snは奥行き方向のスケールを決める正の定数、右上添え字のTは転置行列を意味し、チルダ(~)mnとチルダ(~)Mとは拡張ベクトルであり、チルダ(~)mn=[xn,yn,1]T,チルダ(~)M=[X,Y,Z,1]Tである。
画像の奥行きが分かれば、数式(1)により定数snが決定されカメラCnの座標系での位置Mcが分かる。そして、数式(2)により世界座標系での位置Mを求めることができる。
また、カメラCnの画素mnの奥行きがdのとき、カメラCn−1の画像上の画素mn−1は、ホモグラフィ行列Hn,n−1により求めることができる。
画像の奥行きが分かれば、数式(1)により定数snが決定されカメラCnの座標系での位置Mcが分かる。そして、数式(2)により世界座標系での位置Mを求めることができる。
また、カメラCnの画素mnの奥行きがdのとき、カメラCn−1の画像上の画素mn−1は、ホモグラフィ行列Hn,n−1により求めることができる。
[奥行きに対する尤度の計算]
次に、奥行き推定部104が、カメラCnの画像Inについて、奥行きに対する尤度をステレオマッチング法により求める(ステップS2)。カメラCn以外の全てのカメラの画像についても、同様にして奥行きを推定することが可能である。多視点画像を前提としているので、2眼ステレオで利用されるSSD(Sum of Squared Difference)を拡張した複数基線長を利用したステレオマッチング(参考文献1:奥富,金出:複数の基線長を利用したステレオマッチング, 信学論, vol. J75-D-II, no. 8, pp. 1317-1327 (1992))のSSSD(Sum of SSDs)を尤度の計算に用いる。
次に、奥行き推定部104が、カメラCnの画像Inについて、奥行きに対する尤度をステレオマッチング法により求める(ステップS2)。カメラCn以外の全てのカメラの画像についても、同様にして奥行きを推定することが可能である。多視点画像を前提としているので、2眼ステレオで利用されるSSD(Sum of Squared Difference)を拡張した複数基線長を利用したステレオマッチング(参考文献1:奥富,金出:複数の基線長を利用したステレオマッチング, 信学論, vol. J75-D-II, no. 8, pp. 1317-1327 (1992))のSSSD(Sum of SSDs)を尤度の計算に用いる。
ここで、SSDの代わりにNCC(Normalized Cross Correlation)や、MI(Mutual information)等を拡張して利用することも可能である。SSDの場合には、SSDが小さいほど相関が高いことを意味するのに対して、NCCや、MIの場合には、値が大きいほど相関が高いことを意味する。
以下では、NCCを用いた場合の尤度の計算を示すが、同様にしてSSDや、MIを利用することも可能である。カメラCnの画像Inの注目画素pについて、奥行きdに対する尤度Lp(d)は、次式(6)で表現される。
以下では、NCCを用いた場合の尤度の計算を示すが、同様にしてSSDや、MIを利用することも可能である。カメラCnの画像Inの注目画素pについて、奥行きdに対する尤度Lp(d)は、次式(6)で表現される。
但し、OはカメラCnの周辺カメラの集合とし、νpは画像Inにおいて画素p周辺の局所領域の画像のR,G,Bの輝度値を並べたベクトルであり、rは数式(4)のホモグラフィ行列Hn,oにより求まる画像Ioの画素の位置、νγは画像Ioにおいて画素r周辺の局所領域の画像のR,G,Bの輝度値を並べたベクトルである。νp・νγは、ベクトルの内積を表し、normは、ベクトルの大きさを表し、1−ノルム、2−ノルム等を意味する。
図4は、本実施形態による奥行きに対する尤度の計算方法を説明するための概念図である。また、図5は、複数の画像間のエピポーラ線(EL1、EL2)を説明するための概念図である。図5において、IP1で表される平面は、レンズ中心C1に対応する画像平面を表す。IP3で表される平面は、レンズ中心C3に対応する画像平面を表す。EL1で表される線分は、画像平面IP1におけるエピポーラ線を表す。EL2で表される線分は、画像平面IP2におけるエピポーラ線を表す。EPで表されるエピポーラ平面は、エピポーラ線EL1及びエピポーラ線EL2に対応するエピポーラ平面を表す。
局所領域とは、図4の右側に示すように、注目画素周辺の3×3や、5×5、7×7などの領域である。局所領域は、R,G,B成分の値をラスタースキャンしたベクトルで表すことができる。例えば、局所領域の大きさが3×3の場合には、それぞれの成分が9次元なので、νpは27(=9次元×3成分)次元のベクトルとなる。つまり、ここでは、Cnの画素pについて、数式(4)により複数の画像間のエピポーラ線(図5を参照)上の局所領域の相関情報を計算することにより尤度を求める。
カメラCnに対して、周辺カメラCoの選び方は撮影環境に依存する。共通視野がなるべく多いカメラを選ぶことで対応付けが行いやすくなる。そのため、少なくともカメラCnから近い2台以上のカメラを選んだ方が好ましい。Γpは、奥行きdを変化させたとき、尤度Lp(d)の総和が1になるようにする正規化定数である。
[近傍画素を考慮した奥行き推定]
次に、奥行き推定部104が、個々の画素の尤度と平滑化項で定義されるエネルギー関数の最小化問題を解くことで、多視点画像の奥行きを推定する(ステップS3)。個々の画素の奥行きに対する尤度と近傍画素の奥行きの推定結果とが近い値になるような平滑化項により、エネルギー関数が定義される。ステレオマッチングの尤度の結果だけでは、被写体表面が凸凹に推定されがちである。しかし、平滑化項を設定することで推定結果が滑らかになる効果があり、その有効性が報告されている(参考文献2:Li Hong, George Chen : Segment-based Stereo matching Using Graph Cuts, in Proc. of CVPR, vol. 1, pp. 74-81 (2004))。
カメラCnの画像Inについて、注目画素をp、近傍画素をqで表わすと、エネルギー関数は、以下の数式(7)、(8)、(9)ように定義される。
次に、奥行き推定部104が、個々の画素の尤度と平滑化項で定義されるエネルギー関数の最小化問題を解くことで、多視点画像の奥行きを推定する(ステップS3)。個々の画素の奥行きに対する尤度と近傍画素の奥行きの推定結果とが近い値になるような平滑化項により、エネルギー関数が定義される。ステレオマッチングの尤度の結果だけでは、被写体表面が凸凹に推定されがちである。しかし、平滑化項を設定することで推定結果が滑らかになる効果があり、その有効性が報告されている(参考文献2:Li Hong, George Chen : Segment-based Stereo matching Using Graph Cuts, in Proc. of CVPR, vol. 1, pp. 74-81 (2004))。
カメラCnの画像Inについて、注目画素をp、近傍画素をqで表わすと、エネルギー関数は、以下の数式(7)、(8)、(9)ように定義される。
但し、大文字のD(p)は、画素pの推定された奥行きであり、ELikelihoodは、画素pの奥行きがD(p)と推定されたときのコストを出力する関数であり、Esmoothは、平滑化項であり、λは、2つの関数を重視する比率である。尤度が大きい程、コストは小さくなる。Esmoothは、画素pと近傍画素の奥行きの推定結果D(p)とD(q)の差が小さいほど、小さいコストを出力する関数である。εは、0割りを避けるための微小値である。
また、平滑化項については、数式(9)以外にも、近傍画素qとの色の違いによりコストの大きさを変化させるような次式(10)の形でもよい。
また、平滑化項については、数式(9)以外にも、近傍画素qとの色の違いによりコストの大きさを変化させるような次式(10)の形でもよい。
ここで、I(p)とI(q)は、カメラCnの画素pと画素qの色情報であり、画素pとqの位置の[R,G,B]成分を並べたベクトルであり、||I(p)−I(q)||は、2−ノルムを表す。数式(10)の平滑化項は、色が切り替わるところでは、近傍画素の奥行きも変化しやすい効果が得られる。
次に、数式(7)のエネルギー関数Etotalが最小にするような奥行きを求める。この最小化問題は、Simulated Annealing法や、Graph Cuts法、Belief Propagation法などのアルゴリズムにより近似解を得ることができる。
[被写体ごとの奥行き情報の取得]
次に、奥行き推定部104が、画素と被写体との対応関係をセグメントにより決定する。そして、奥行き推定部104が、被写体の奥行き情報を、その被写体に属する画素の奥行きにより計算する(ステップS4)。本実施形態では、被写体が3次元空間中のどこに存在しているか調べ、その情報を基にして対応付けが困難な画素の奥行き推定誤差を抑制する。つまり、撮影シーンの被写体の状況を理解し、その情報を積極的に活用することで合成結果の品質改善を実現する。
次に、奥行き推定部104が、画素と被写体との対応関係をセグメントにより決定する。そして、奥行き推定部104が、被写体の奥行き情報を、その被写体に属する画素の奥行きにより計算する(ステップS4)。本実施形態では、被写体が3次元空間中のどこに存在しているか調べ、その情報を基にして対応付けが困難な画素の奥行き推定誤差を抑制する。つまり、撮影シーンの被写体の状況を理解し、その情報を積極的に活用することで合成結果の品質改善を実現する。
例えば、テニスのようなスポーツのコンテンツを考えた場合、選手の顔の左半分がオクルージョンによりある1台のカメラでしか撮影できていなかったとする。その際、本実施形態では、オクルージョンの領域の画素が選手に属していることを判断する。そして、同一選手内のオクルージョンの影響を受けていない右半分の顔や、顔周辺の奥行き情報などを基に、顔左半分の奥行きの尤度を補正する。また、ネットや、コートの模様など位置が固定な被写体については、一枚の画像だけからでも、奥行き情報を事前知識より求めることができる。
まず、被写体の3次元空間中の位置を把握するために、被写体をカテゴリとしたセグメンテーションを行う。このとき、被写体は、K種類存在するとする。セグメンテーションは、画素毎に抽出される画像特徴量と、各被写体に所属する尤度の算出と、空間的な平滑化項の設定による最適化問題により行われる。
これは、既存の研究により行われている方法であり、参考文献3(豊田,田上,長谷川:局所情報と大域情報を統合する条件付確率場による画像ラベリング,信学論, vol. J90-D, no. 6, pp. 1542-1554 (2007))等がある。これらの研究と仮想視点画像合成システムが異なる点は、画像特徴量に加えて、推定された奥行き結果を、最適化問題を解く際に利用していることである。
(ステップSA1:各カテゴリに所属する尤度の算出)
カテゴリkに対する尤度F(k)は、画素毎に抽出された画像特徴量を用いて、事前学習による被写体の識別器により算出される。画像特徴量は、参考文献3と同様に注目画素pを含むN×N画素の局所領域から抽出される。局所領域の画像特徴量(特徴ベクトル)には、例えば、図4で示したような局所領域の輝度値をラスタースキャンしたようなテクスチャ特徴量や、SIFT(Scale-Invariant Feature Transform)特徴量、SURF(Speeded-Up Robust Features)特徴量、HOG(Histograms of Oriented Gradients)特徴量、カラーヒストグラムなど様々なものがある。
カテゴリkに対する尤度F(k)は、画素毎に抽出された画像特徴量を用いて、事前学習による被写体の識別器により算出される。画像特徴量は、参考文献3と同様に注目画素pを含むN×N画素の局所領域から抽出される。局所領域の画像特徴量(特徴ベクトル)には、例えば、図4で示したような局所領域の輝度値をラスタースキャンしたようなテクスチャ特徴量や、SIFT(Scale-Invariant Feature Transform)特徴量、SURF(Speeded-Up Robust Features)特徴量、HOG(Histograms of Oriented Gradients)特徴量、カラーヒストグラムなど様々なものがある。
識別器は、画素pの特徴ベクトルが入力されると、あるカテゴリkの画像特徴量(辞書特徴ベクトル)との類似性を出力する関数とする。例えば、あるカテゴリkについて、辞書特徴ベクトル群の重心と注目画素の特徴ベクトルの距離や、辞書特徴ベクトル群と注目画素の特徴ベクトルとのマハラノビス距離、最近傍探索した結果の最近傍ベクトルとの距離や、辞書特徴ベクトル群の部分空間との内積角度を計算する。内積や、距離を用いたときのカテゴリk(∈K)に対する尤度F(k)の計算例を、次式(11)、(12)に示す。
但し、θは辞書ベクトルと注目画素pの特徴ベクトルとの成す角度であり、gは辞書ベクトルと注目画素pの特徴ベクトルとの距離である。ΓFは、カテゴリkを変えたときの尤度の総和が1になるようにするための正規化定数である。数式(11)、(12)において、距離の2乗や内積の2乗、指数乗の形にしてもよい。εは0割りを避けるための微小値である。
(ステップSA2:最適化処理による画像のセグメンテーション)
カメラCnの画像Inのセグメンテーションを、画素pにラベル(Xv∈{1,2,…,K})を割り当てるエネルギー最小化問題として解く。注目画素をp、近傍画素をqとし、近傍画素との平滑化項により以下の数式(13)、(14)、(15)を定義する。
カメラCnの画像Inのセグメンテーションを、画素pにラベル(Xv∈{1,2,…,K})を割り当てるエネルギー最小化問題として解く。注目画素をp、近傍画素をqとし、近傍画素との平滑化項により以下の数式(13)、(14)、(15)を定義する。
但し、
ここで、βとγは平滑化項を重視する度合いであり、εは0割りを避けるための微小値である。βを大きくすると、近傍画素は、同じ被写体と推定されやすくなり、γを大きくすると近傍画素、かつ、数式(7)の最小化により推定した奥行きの差分の絶対値が閾値δ以下のときには、より同じ被写体と推定されやすくなる効果がある。
(ステップSA3:被写体の奥行き情報の取得)
被写体毎に、奥行き情報を求める。対応付けが正しくできた画素の上記推定した奥行きを用いる。対応付けが正しくできたという判断は、実施形態では尤度を用いる。例えば、注目画素pについて、推定された奥行きD(p)の尤度L(D(p))が閾値Th1以上だった場合、その画素が正しく奥行きを推定できたと判断する。尤度を用いない方法としては、SIFT(Scale-Invariant Feature Transform)や、SURF(Speeded-Up Robust Features)などの局所特徴量によってステレオマッチングした画素を対応付けが正しく行える画素と見なすこともできる。
被写体毎に、奥行き情報を求める。対応付けが正しくできた画素の上記推定した奥行きを用いる。対応付けが正しくできたという判断は、実施形態では尤度を用いる。例えば、注目画素pについて、推定された奥行きD(p)の尤度L(D(p))が閾値Th1以上だった場合、その画素が正しく奥行きを推定できたと判断する。尤度を用いない方法としては、SIFT(Scale-Invariant Feature Transform)や、SURF(Speeded-Up Robust Features)などの局所特徴量によってステレオマッチングした画素を対応付けが正しく行える画素と見なすこともできる。
被写体kに属する画素を、上記ステップSA2の結果より見つける。次に、被写体kに属する画素のうち、対応付けが正しく行えた画素について、その画素の奥行きの投票によりヒストグラムを作成する。このヒストグラムを要素数で割ったものを、被写体の奥行きに対する(離散的な)確率分布とする。
ここで、図6は、本実施形態による被写体の奥行き情報の取得方法を説明するための概念図である。図6Aは、カテゴリkを覆う直方体Skの断面図である。図6Bは、被写体を分割する処理を説明するための概念図である。図6Cは、カテゴリkに属する画素による投票の結果の例を示す図である。例えば、図6Bに示すように、カテゴリkに属する画素の中で、奥行きが1mの画素が8個、奥行きが2mの画素が12個、奥行きが3mの画素が4個存在すると、カテゴリkについて奥行きが1mである確率は、1/3(=8/(8+12+4))となり、奥行きが2mの確率は、1/2となる。図6では説明の都合上断面を用いたが、本実施形態では断面にも厚さがありその断面の領域内(ボクセル内の画素)について、上記の確率を計算している。
しかしながら、被写体とカメラとの距離がカメラ間隔に比べて相対的に近い場合には、同一被写体であっても、パーツ(顔、手、足など)による奥行きの影響が大きくなる。そこで、本実施形態では、図6に示すように、各被写体を空間的に格子状に分割し、分割された領域j(=1,2,…,J)毎の奥行きを確率で表現する。対応付けが困難な画素の尤度の補正を、その画素に空間的に近い領域の確率分布を用いて行うことで、高精度な尤度の補正を行うことができる。
ここで、「空間的に近い」とは、3次元空間でのユークリッド距離が近いという意味である。多視点画像を用いた場合、カメラCnにおける被写体の奥行きに対する確率分布を算出する場合には、カメラCn以外の画像の奥行き推定結果を利用することで更に高精度に求めることができる。
各カメラのカメラパラメータと奥行き情報を、数式(1)、(2)に代入することで、世界座標系における被写体の位置が計算できる。つまり、多視点画像を用いて、被写体kに属する3次元空間の位置を点群により表現でき、この点群からカメラCnにおける被写体kの確率分布が算出できる。例えば、被写体を覆う直方体を等分割にした領域j毎に確率分布を求めたり、点群をk−means法によりクラスタリングして、その結果のクラスターを領域jとして確率分布を求める。
[尤度の補正]
次に、対応付けが困難な画素について、その画素が属する被写体の奥行き情報により尤度を補正する(ステップS5)。本実施形態では、画素の尤度の最大値が閾値Th2以下である場合に、注目画素pの対応付けが困難であると判断する。この方法以外にも、注目画素周辺にテクスチャが少ない場合や、繰り返しテクスチャがある場合や、オクルージョンの影響を受けているか否か調べる方法を前処理に入れても良い。例えば、画像に対してソーベルフィルタ(Sobel Filter:水平、垂直方向の輝度値の微分フィルタ)を適用し、画素毎にフィルタ後の値をエッジ強度として、テクスチャが多いか少ないかの判定が可能である。
次に、対応付けが困難な画素について、その画素が属する被写体の奥行き情報により尤度を補正する(ステップS5)。本実施形態では、画素の尤度の最大値が閾値Th2以下である場合に、注目画素pの対応付けが困難であると判断する。この方法以外にも、注目画素周辺にテクスチャが少ない場合や、繰り返しテクスチャがある場合や、オクルージョンの影響を受けているか否か調べる方法を前処理に入れても良い。例えば、画像に対してソーベルフィルタ(Sobel Filter:水平、垂直方向の輝度値の微分フィルタ)を適用し、画素毎にフィルタ後の値をエッジ強度として、テクスチャが多いか少ないかの判定が可能である。
対応付け困難な画素pが所属する被写体をkとし、被写体kの奥行きに対する確率分布の中で画素pに空間的に近い確率分布をPp(k,d)とすると、補正後の尤度L’(p)は次式(18)で表される。
ここで、w(0<w<1)は、ステレオマッチングで計算した尤度と上記算出した確率分布とのいずれを重視するかを表す割合いである。wが大きいとステレオマッチングの尤度を重視することとなる。
[画像の奥行きの再推定]
次に、個々の画素の尤度と平滑化項で定義されるエネルギー関数の最小化問題を解くことで、奥行きを再推定する(ステップS6)。すなわち、数式(7)に補正後の尤度を代入することで、奥行きを再推定する。
次に、個々の画素の尤度と平滑化項で定義されるエネルギー関数の最小化問題を解くことで、奥行きを再推定する(ステップS6)。すなわち、数式(7)に補正後の尤度を代入することで、奥行きを再推定する。
[仮想視点位置の画像合成]
次に、仮想視点位置に近いカメラを選択し、選択されたN個のカメラ画像と推定された奥行き情報とから3次元ワーピングにより画像を合成する(ステップS7)。色をブレンドする際には、各カメラと仮想視点との位置の近さや、推定された奥行きの尤度の強さに応じた加重平均を行う。
次に、仮想視点位置に近いカメラを選択し、選択されたN個のカメラ画像と推定された奥行き情報とから3次元ワーピングにより画像を合成する(ステップS7)。色をブレンドする際には、各カメラと仮想視点との位置の近さや、推定された奥行きの尤度の強さに応じた加重平均を行う。
ここで、図7は、仮想視点位置の画像合成を説明するための概念図である。3次元ワーピング法は、多視点画像と画像の奥行き(デプスマップ)を基にして、仮想視点位置のカメラCvの画像の画素mvの色Iv(mv)を決める方法である。図7に2台のカメラの例を示す。カメラの選択は、仮想視点から適当な距離の範囲にあるカメラを用いればよいので、2台以上でも可能である。
カメラC1とカメラC2の内部パラメータと外部パラメータをそれぞれA1、A2、R1、T1、R2、T2とし、カメラC1とカメラC2の画像の奥行きをD1,D2とする。このとき、点Mの色はカメラC1、カメラC2それぞれから式(3)により仮想視点カメラCvへ射影される。仮想視点カメラの内部パラメータをAv、外部パラメータをRv、Tvとすると、
となる。ここで、チルダ(~)mv 1とチルダ(~)mv 2は、カメラC1とカメラC2の画素m1、m2を数式(3)で射影したときの、位置の拡張ベクトルである。
仮想視点とカメラC1、カメラC2との距離の比と画素m1と画素m2の奥行きの尤度により、仮想視点の画像の画素mvの色I(mv)を加重平均により求める。仮想視点とカメラC1とカメラC2の距離の比率をα:(1−α)(0<α<1)とし、尤度をL(Dm1):L(Dm2)とすると、
但し、L(Dm1)、L(Dm2)は、カメラC1、カメラC2の画像の画素m1、m2について、奥行き推定時に計算した尤度である。また、距離の比率と尤度の比率を加算によりw1とw2を求めたが、どちらか一方のみを利用することや、比率を掛け算することで求めてもよい。
ここで、図8A及び図8Bは、本実施形態による、3Dワーピングについて説明するための概念図である。3Dワーピングした際に、図8に示す状況のように、異なる点Pと点Qが仮想視点カメラCvから見ると、一直線上に存在する場合がある。このときは、点Pと点QについてカメラCvの座標系における奥行きが小さい方の点Pが仮想カメラCvから見える。例えば、カメラC1から見える点PとカメラC2から見える点Qについて、カメラCvの座標系での奥行きがそれぞれDv(P)、Dv(Q)としたときに、(Dv(Q)−Dv(P))>δとすると、
となる。但し、δは閾値のパラメータであり、事前に予備実験により決める。閾値δ以下の場合には、数式(21)により色を混合する。
上述した実施形態によれば、テクスチャが少ない領域や、オクルージョンの影響により画像間の対応付けが困難な場合、特に、従来手法では困難である被写体の境界付近に類似した色を持つ別の被写体が存在する場合であっても、奥行き推定誤差を抑制することができ、高品質な仮想視点画像を合成することができる。
以上、本発明を、実施形態に基づき具体的に説明したが、本発明は、実施形態に限定されるものではなく、その要旨を逸脱しない範囲においての変更可能であることは勿論である。
100 仮想視点画像合成装置
101 被写体撮影部
102 カメラ画像取得部
103 カメラパラメータ入力部
104 奥行き推定部
105 仮想視点位置入力部
106 仮想視点位置決定部
107 画像データ記憶部
107a カメラ画像・カメラパラメータ記憶部
107b 奥行き記憶部
107c 合成画像記憶部
108 画像合成部
109 合成画像出力部
110 合成画像表示部
101 被写体撮影部
102 カメラ画像取得部
103 カメラパラメータ入力部
104 奥行き推定部
105 仮想視点位置入力部
106 仮想視点位置決定部
107 画像データ記憶部
107a カメラ画像・カメラパラメータ記憶部
107b 奥行き記憶部
107c 合成画像記憶部
108 画像合成部
109 合成画像出力部
110 合成画像表示部
Claims (10)
- 複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理方法であって、
前記多視点画像に対して、各画素の奥行きに対する尤度を算出する第1のステップと、
前記尤度と近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを推定する第2のステップと、
前記多視点画像と前記推定した奥行きとに基づいて、各被写体の奥行き情報を取得する第3のステップと、
前記第1のステップで対応付けが困難であった画素を検出し、その画素が所属する被写体の奥行き情報に基づいて、その画素の尤度を補正する第4のステップと、
前記補正された尤度と同一の被写体に所属する前記近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを再推定する第5のステップと、
前記仮想カメラの視点位置に近いカメラ画像と該カメラ画像に対する前記第5のステップで推定された奥行きとに基づいて、前記被写体の画像を合成する第6のステップと
を含む画像処理方法。 - 前記第1のステップは、
前記多視点画像に対して、注目画像と複数の画像間のエピポーラ線上の局所領域の相関情報を算出し、相関の高さに応じて、各画素の奥行きに対する尤度を決定する請求項1に記載の画像処理方法。 - 前記第2のステップは、
前記尤度が高いほど小さいコストを出力し、また近傍画素の奥行き推定結果が近いほど小さいコストを出力するエネルギー関数を定義し、該エネルギー関数と空間的な平滑化項により定義されるエネルギー関数の最小化問題により個々の画素の奥行きを求める請求項1又は2に記載の画像処理方法。 - 前記第3のステップは、
画素と被写体との対応関係をセグメンテーションにより決定し、被写体の奥行き情報を、その被写体に属する画素の奥行きにより算出する請求項1〜3のいずれかに記載の画像処理方法。 - 前記第4のステップは、
前記第1のステップで対応付けが困難である画素を前記尤度の値から決定し、各被写体の奥行きを求めるステップと、
事前に学習した画像特徴と前記推定した画素の奥行き情報に基づいて前記被写体を検出するステップと
を含む請求項1〜4のいずれかに記載の画像処理方法。 - 前記第4のステップは、
前記各被写体の奥行きを空間的に分割して取得するステップと、
前記尤度の補正について、前記第1のステップで求めた画素の尤度と、その画素が所属する被写体であって、かつ、その画素から空間的に近い奥行き情報とを統合するステップと
を含む請求項1〜4のいずれかに記載の画像処理方法。 - 前記第5のステップは、
前記補正された尤度が高いほど小さいコストを出力し、また、近傍画素の奥行き推定結果が近いほど小さいコストを出力するエネルギー関数を定義し、該エネルギー関数の最小化問題により奥行きを求める請求項1〜6のいずれかに記載の画像処理方法。 - 前記第6のステップは、
前記仮想カメラの視点位置に近いカメラ画像と該カメラ画像の推定された奥行きとに基づいて、3次元ワーピングにより前記被写体の画像を合成するステップと、
前記仮想カメラの視点位置とカメラとの距離に応じた重み付き加算による色と各画素の推定された奥行きに対する尤度による重み付け加算による色とを統合するステップと
を含む請求項1〜7のいずれかに記載の画像処理方法。 - 複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理装置であって、
前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出部と、
前記尤度と近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを推定する奥行き推定部と、
前記多視点画像と前記推定した奥行きとに基づいて、各被写体の奥行き情報を取得する奥行き情報取得部と、
前記尤度算出部による対応付けが困難であった画素を検出し、その画素が所属する被写体の奥行き情報に基づいて、その画素の尤度を補正する尤度補正部と、
前記補正された尤度と同一の被写体に所属する前記近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを再推定する奥行き再推定部と、
前記仮想カメラの視点位置に近いカメラ画像と該カメラ画像に対する前記奥行き再推定部により推定された奥行きとに基づいて、前記被写体の画像を合成する画像合成部と
を備える画像処理装置。 - 複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理装置のコンピュータに、
前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出ステップと、
前記尤度と近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを推定する奥行き推定ステップと、
前記多視点画像と前記推定した奥行きとに基づいて、各被写体の奥行き情報を取得する奥行き情報取得ステップと、
前記尤度算出ステップによる対応付けが困難であった画素を検出し、その画素が所属する被写体の奥行き情報に基づいて、その画素の尤度を補正する尤度補正ステップと、
前記補正された尤度と同一の被写体に所属する前記近傍画素の奥行きの推定結果とが近い値になるように個々の画素の奥行きを再推定する奥行き再推定ステップと、
前記仮想カメラの視点位置に近いカメラ画像と該カメラ画像に対する前記奥行き再推定ステップにより推定された奥行きとに基づいて、前記被写体の画像を合成する画像合成ステップと、
を実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011057897A JP2012194751A (ja) | 2011-03-16 | 2011-03-16 | 画像処理方法、画像処理装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011057897A JP2012194751A (ja) | 2011-03-16 | 2011-03-16 | 画像処理方法、画像処理装置及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012194751A true JP2012194751A (ja) | 2012-10-11 |
Family
ID=47086585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011057897A Withdrawn JP2012194751A (ja) | 2011-03-16 | 2011-03-16 | 画像処理方法、画像処理装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012194751A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013012054A1 (ja) * | 2011-07-19 | 2013-01-24 | 独立行政法人産業技術総合研究所 | 画像処理方法および装置 |
JP2014120079A (ja) * | 2012-12-18 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 陰影情報導出装置、陰影情報導出方法及びプログラム |
CN104599231A (zh) * | 2015-01-16 | 2015-05-06 | 汕头大学 | 一种基于Kinect和网络摄像机的动态人像合成方法 |
JP2015122711A (ja) * | 2013-12-25 | 2015-07-02 | Necプラットフォームズ株式会社 | 表示装置、表示方法および表示プログラム |
CN104767986A (zh) * | 2014-01-02 | 2015-07-08 | 财团法人工业技术研究院 | 景深图校正方法及系统 |
JP2015215235A (ja) * | 2014-05-09 | 2015-12-03 | トヨタ自動車株式会社 | 物体検出装置及び物体検出方法 |
US9462251B2 (en) | 2014-01-02 | 2016-10-04 | Industrial Technology Research Institute | Depth map aligning method and system |
CN112085770A (zh) * | 2020-09-10 | 2020-12-15 | 上海庞勃特科技有限公司 | 一种用于乒乓球轨迹捕捉的双目多目标匹配与筛选方法 |
CN113570530A (zh) * | 2021-06-10 | 2021-10-29 | 北京旷视科技有限公司 | 图像融合方法、装置、计算机可读存储介质和电子设备 |
-
2011
- 2011-03-16 JP JP2011057897A patent/JP2012194751A/ja not_active Withdrawn
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013012054A1 (ja) * | 2011-07-19 | 2013-01-24 | 独立行政法人産業技術総合研究所 | 画像処理方法および装置 |
JP2014120079A (ja) * | 2012-12-18 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 陰影情報導出装置、陰影情報導出方法及びプログラム |
JP2015122711A (ja) * | 2013-12-25 | 2015-07-02 | Necプラットフォームズ株式会社 | 表示装置、表示方法および表示プログラム |
CN104767986A (zh) * | 2014-01-02 | 2015-07-08 | 财团法人工业技术研究院 | 景深图校正方法及系统 |
US9462251B2 (en) | 2014-01-02 | 2016-10-04 | Industrial Technology Research Institute | Depth map aligning method and system |
JP2015215235A (ja) * | 2014-05-09 | 2015-12-03 | トヨタ自動車株式会社 | 物体検出装置及び物体検出方法 |
CN104599231A (zh) * | 2015-01-16 | 2015-05-06 | 汕头大学 | 一种基于Kinect和网络摄像机的动态人像合成方法 |
CN104599231B (zh) * | 2015-01-16 | 2017-10-27 | 汕头大学 | 一种基于Kinect和网络摄像机的动态人像合成方法 |
CN112085770A (zh) * | 2020-09-10 | 2020-12-15 | 上海庞勃特科技有限公司 | 一种用于乒乓球轨迹捕捉的双目多目标匹配与筛选方法 |
CN113570530A (zh) * | 2021-06-10 | 2021-10-29 | 北京旷视科技有限公司 | 图像融合方法、装置、计算机可读存储介质和电子设备 |
CN113570530B (zh) * | 2021-06-10 | 2024-04-16 | 北京旷视科技有限公司 | 图像融合方法、装置、计算机可读存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012194751A (ja) | 画像処理方法、画像処理装置及びコンピュータプログラム | |
CN109166077B (zh) | 图像对齐方法、装置、可读存储介质及计算机设备 | |
US11348267B2 (en) | Method and apparatus for generating a three-dimensional model | |
CN105374019B (zh) | 一种多深度图融合方法及装置 | |
EP2383699B1 (en) | Method for estimating a pose of an articulated object model | |
Hong et al. | A local stereo matching algorithm based on weighted guided image filtering for improving the generation of depth range images | |
CN118212141A (zh) | 用于混合深度正则化的系统和方法 | |
CN103607584B (zh) | 一种kinect拍摄的深度图与彩色摄像机拍摄视频的实时配准方法 | |
Zhi et al. | Toward dynamic image mosaic generation with robustness to parallax | |
CN107798702B (zh) | 一种用于增强现实的实时图像叠加方法以及装置 | |
CN107767339B (zh) | 一种双目立体图像拼接方法 | |
CN107798704B (zh) | 一种用于增强现实的实时图像叠加方法及装置 | |
JP2013012045A (ja) | 画像処理方法、画像処理装置及びコンピュータプログラム | |
Fickel et al. | Stereo matching and view interpolation based on image domain triangulation | |
Sharma et al. | A flexible architecture for multi-view 3DTV based on uncalibrated cameras | |
Eichhardt et al. | Affine correspondences between central cameras for rapid relative pose estimation | |
CN101945299B (zh) | 一种基于拍摄设备阵列的动态场景深度恢复方法 | |
Lin et al. | Consistent volumetric warping using floating boundaries for stereoscopic video retargeting | |
Teng et al. | 360BEV: Panoramic Semantic Mapping for Indoor Bird's-Eye View | |
Gao et al. | Design of signal processing pipeline for stereoscopic cameras | |
JP7275583B2 (ja) | 背景モデル生成装置、背景モデル生成方法及び背景モデル生成プログラム | |
Jorissen et al. | Multi-camera epipolar plane image feature detection for robust view synthesis | |
Ruhl et al. | Integrating approximate depth data into dense image correspondence estimation | |
Liu et al. | Gradient-domain-based enhancement of multi-view depth video | |
Xiong et al. | Linearly estimating all parameters of affine motion using radon transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140603 |