JP2021157237A

JP2021157237A - 自由視点映像生成方法、装置およびプログラム

Info

Publication number: JP2021157237A
Application number: JP2020054123A
Authority: JP
Inventors: 良亮渡邊; Ryosuke Watanabe
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2021-10-07
Anticipated expiration: 2040-03-25
Also published as: JP7236403B2

Abstract

【課題】オクルージョン部分に欠損が生じない3Dモデルを生成して適切なテクスチャマッピングを実現する。【解決手段】被写体シルエット画像生成部１０２はカメラごとに被写体シルエット画像を生成する。遮蔽物デプスマップ生成部１０３はカメラごとに遮蔽物デプスマップを生成する。シルエット統合部１０５はカメラごとに被写体および遮蔽物の各シルエット画像を統合して統合シルエット画像を生成する。3Dモデル選択的生成部１０６は、各統合シルエット画像を用いた視体積交差法により、欠損の無い被写体の3Dモデルを生成する。オクルージョン情報生成部１０９は、3Dモデルの各部位が各カメラの視点で可視／不可視のいずれであるかを登録したオクルージョン情報を生成する。自由視点レンダリング部１１０は、オクルージョン情報に基づいて統合3Dモデルの部位ごとに、一部のカメラで不可視の部位へ可視のカメラで取得したテクスチャをマッピングする。【選択図】図１

Description

本発明は、視点の異なる複数のカメラ画像に基づいて自由視点映像を生成する方法、装置およびプログラムに係り、特に、オクルージョン部分に欠損が生じない3Dモデルを生成し、オクルージョン部分への適切なテクスチャマッピングを実現する自由視点映像生成方法、装置およびプログラムに関する。

自由視点映像技術は、視点の異なる複数台のカメラ映像に基づいてカメラが存在しない視点も含めた任意の視点からの映像視聴を可能とする技術である。自由視点映像を実現する一手法として、非特許文献１に開示される視体積交差法に基づく3Dモデルベースの自由視点映像生成手法が存在する。

視体積交差法は、図１０に示したように各カメラcamの映像から被写体の部分だけを抽出した２値のシルエット画像を用いて、各カメラcamのシルエット画像を3D空間に投影して視体積を求め、その積集合となる部分のみを3DCGのモデルとして残すことによって3Dモデルを生成する手法である。

このような視体積交差法は、非特許文献２に開示されるフルモデル方式自由視点（＝3Dモデルの形状を忠実に表現する方式）や、非特許文献３に開示されるビルボード方式自由視点（＝3Dモデルをビルボードと呼ばれる板の形状で制作し、近いカメラからのテクスチャをビルボードにマッピングする方式）を実現する上での基礎技術として利用されている。

視体積交差法で利用する積集合を得るためのシルエット画像の抽出手法としては、非特許文献４に代表される背景差分法ベースの手法が知られている。背景差分法は、背景モデルと呼ばれる被写体が存在しない状態のモデルと、入力画像の差分を基に被写体を抽出する手法である。

ところで、例えばスポーツシーンなどでは、フィールド上に移動しない構造物（例えば、サッカーのゴールポストやバレーのネット）が登場するケースがある。背景差分法ベースのシルエット抽出により取得したシルエット画像を用いて視体積交差法を適用する場合、このような構造物が自由視点の品質に悪影響を与える場合がある。

例えば、スポーツ選手などの被写体の前にゴールポストなどの構造物が覆いかぶさる場合、これらの構造物は静止していることから背景差分法では背景と判定され、シルエットを抽出できない。

視体積交差法では、シルエット部分がモデル化されるか否かはボクセルグリッドと呼ばれる単位で判定される。ボクセルグリッドは、3Dモデル化を行う3D空間を細かい3次元の立方格子で埋め尽くして構成され、各格子の中にモデル生成がされるか否かを判定することで3Dモデルが生成される。判定方法としては、立方格子ごとに複数台のカメラのシルエット画像の対応画素を参照し、多くのシルエット画像で前景である場合にボクセルグリッドがモデル化される。したがって、構造物によってシルエット画像に欠損が生じていると、図１１に示したように、あるカメラから見て構造物の裏側に存在する被写体に欠損が生じ得る。

このような技術課題は、背景差分法を用いたシルエット抽出において現れやすい傾向にあるが、例えば非特許文献５や非特許文献６が開示するDeep Learningをベースとした背景差分法以外のシルエット抽出手法でも、構造物に遮蔽された部分がシルエットとして抽出されない可能性があり、背景差分法に限定されるものではない。

特許文献１は、このような技術課題を解決するために、サッカーのゴールポストなどの被写体を遮蔽する構造物のシルエット画像（＝以後「遮蔽物シルエット画像」と表現する場合もある）をカメラごとに用意し、背景差分法で取得した被写体シルエット画像に遮蔽物シルエット画像を加算して得られる統合シルエット画像を用いて視体積交差法を行うことで、遮蔽物による欠損のない3Dモデルの生成を可能にしている。

しかしながら、統合シルエット画像を用いた視体積交差法では、ゴールポストの3Dモデルもモデル化されてしまう。ゴールポストがモデル化されると、例えば非特許文献３のビルボード自由視点を実現する際に、ゴールポストモデルに接触している人物がゴールポストのモデルと一体化して巨大なビルボードが生成され、被写体の表示位置の誤差が大きくなってしまう課題がある。

すなわち、ビルボード自由視点では、被写体の位置にビルボードというボードを立てて表現を行う都合上、視体積交差法により生成されるモデルの塊ごとに3Dオブジェクトをラベリングし、各々の塊に応じてビルボードが形成される。被写体が巨大な構造物などに触れた場合、被写体と構造物のモデルは一つの大きな塊として扱われ、一つのビルボードにまとめられる。

このビルボードは、ボードの中心を軸にユーザの選択視点に正対するように回転することから、構造物と人物がくっついたまま回転するような違和感を与える。また、この塊が解消された瞬間に人物の表示位置が大幅に変わるなどの違和感の原因となる。加えて、統合シルエット画像を用いた視体積交差法では、ゴールポストモデルがフレーム毎に形成されることになるので3Dモデルのデータサイズが増大する。

このような技術課題に対して、特許文献１には視体積交差法で被写体および遮蔽物を統合したモデルを生成すると共に遮蔽物の3Dモデルも独立して生成しておき、その後、統合された3Dモデルから遮蔽物の3Dモデルを減算して除去する技術が開示されている。特許文献１によれば、遮蔽物が被写体を覆い隠す場合であっても欠損のない被写体の3Dシェイプの再構成が可能となる。

なお、構造物の3Dモデルを削除すると3D空間内に本来あるべき構造物が存在しなくなるが、自由視点映像を視聴する際には、このような構造物は静的な汎用3DCGモデルなどを用いて配置すればよく、このような実装により視体積交差法由来の構造物モデルを用いるよりも形状が正確な3Dモデルを表示させることが可能になる。

特開2019-106170号公報

Laurentini, A. "The visual hull concept for silhouette based image understanding.", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16, 150-162, (1994). J. Kilner, J. Starck, A. Hilton and O. Grau, "Dual-Mode Deformable Models for Free-Viewpoint Video of Sports Events," Sixth International Conference on 3-D Digital Imaging and Modeling (3DIM 2007), Montreal, QC, 2007, pp. 177-184. H. Sankoh, S. Naito, K. Nonaka, H. Sabirin, J. Chen, "Robust Billboard-based, Free-viewpoint Video Synthesis Algorithm to Overcome Occlusions under Challenging Outdoor Sport Scenes", Proceedings of the 26th ACM international conference on Multimedia, pp. 1724-1732, (2018) C. Stauffer and W. E. L. Grimson, "Adaptive background mixture models for real-time tracking," 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 246-252 Vol. 2 (1999). D. Bolya, C. Zhou, F. Xiao, Y. J. Lee, "YOLACT: Real-Time Instance Segmentation", The IEEE International Conference on Computer Vision (ICCV), pp. 9157-9166, (2019). L. A. Lim and H. Y. Keles, "Learning multi-scale features for foreground segmentation," Pattern Analysis and Applications, pp. 1-12, (2019). J. Chen, R. Watanabe, K. Nonaka, T. Konno, H. Sankoh, S. Naito, "A Fast Free-viewpoint Video Synthesis Algorithm for Sports Scenes", 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2019), WeAT17.2, (2019) Qiang Yao, Hiroshi Sankoh, Nonaka Keisuke, Sei Naito. "Automatic camera self-calibration for immersive navigation of free viewpoint sports video," 2016 IEEE 18th International Workshop on Multimedia Signal Processing (MMSP), 1-6, 2016.

特許文献１では、遮蔽物のシルエット画像と被写体のシルエット画像とを統合した統合シルエット画像を用いて3Dモデルを生成した後に遮蔽物の3Dモデルを減算する。このように、被写体のみならず遮蔽物までも視体積交差法でモデル化すると、3Dモデルの総生成量が多くなり、計算時間の増大を招く可能性がある。

特に、3Dモデルを生成する際に、非特許文献７のような２段階の視体積交差法で高速にモデル化を行う手法を適用すると、１段階目の視体積交差法で生成された粗いボクセルモデルの領域内に、２段階目の視体積交差法で精細なモデルを生成することになる。このとき、１段階目で粗いボクセルモデルの生成量が増えるほど２段階目の細かいボクセルモデルの生成時間も増大する。したがって、遮蔽物の3Dモデルのサイズが大きくなると、そのサイズに比例して全体の処理時間も増大してしまう。

加えて、特許文献１は3Dモデルの生成（3Dモデルの形状を得る処理）に関する機構を開示するのみで、遮蔽物を考慮したテクスチャマッピングの方法については開示していない。

遮蔽物としてサッカーのゴールポストを例にして説明すると、ゴールポストの背後に存在する人物モデルにはゴールポストのテクスチャが映り込まないようにする必要がある。しかしながら、特許文献１が開示する機構を用いてテクスチャマッピングを行うと、ゴールポストのテクスチャが人物の3Dモデルにマッピングされてしまう。

なお、本発明者等による別出願（特願2020-053507号）では、遮蔽物を考慮してテクスチャマッピングを行う際に、遮蔽物を3Dモデル化する工程を経て遮蔽を判定するのに対して、本発明では遮蔽物を3Dモデル化せずにデプスマップを利用して遮蔽を判定する。デプスマップを利用した遮蔽判定では処理時間がモデルの生成量などに依存しない。したがって、遮蔽物が小さい場合には別出願が、遮蔽物が大きい場合には本発明が、それぞれ処理時間の観点で優位であることが期待される。

加えて、別出願では遮蔽物を3Dモデル化し、この3Dモデルに基づいて遮蔽情報を計算し、自由視点レンダリング時のテクスチャマッピングを実施する。したがって、遮蔽物を3Dモデル化できないと遮蔽情報を適切に計算できないという技術課題があった。

本発明の目的は、上記の技術課題を解決し、遮蔽物を3Dモデル化することなく、オクルージョン部分に欠損が生じない3Dモデルを生成し、かつオクルージョン部分への適切なテクスチャマッピングを実現できる自由視点映像生成方法、装置およびプログラムを提供することにある。

上記の目的を達成するために、本発明は、被写体および遮蔽物を視点の異なる複数のカメラで同期撮影したカメラ画像に基づいて自由視点映像を生成する自由視点映像生成装置において、以下の構成を具備した点に特徴がある。

(1) カメラごとに遮蔽物デプスマップを取得する手段と、被写体の3Dモデルを生成する手段と、前記3Dモデルに基づいてカメラごとに被写体デプスマップを生成する手段と、前記被写体デプスマップおよび遮蔽物デプスマップに基づいて、前記3Dモデルの各部位が各カメラの視点で可視および不可視のいずれであるかを登録したオクルージョン情報を生成する手段と、前記オクルージョン情報に基づいて、前記3Dモデルの部位ごとに一部のカメラで不可視の部位へ当該部位が可視のカメラで取得したテクスチャをマッピングする手段とを具備した。

(2) 3Dモデルを生成する手段は、被写体および遮蔽物の各シルエット画像を用いた視体積交差法により、3D空間に確保した各ボクセルグリッドをモデル化するか否かを判定し、遮蔽物の3Dモデルが存在し得る領域に対応したボクセルグリッドでは前記判定をスキップしてモデル化しないようにした。

本発明によれば、以下のような効果が達成される。

(1) 本発明によれば、遮蔽物を考慮して欠損のない3Dモデル生成を行えることに加えて、遮蔽物が存在することによる遮蔽を考慮したテクスチャマッピングが可能になるので、品質面に優れた自由視点映像を生成することができる。

(2) 本発明によれば、被写体および遮蔽物のデプスマップをベースにオクルージョンを生成するので、遮蔽物が少ないカメラにしか映り込まないような場合においても遮蔽を考慮したテクスチャマッピングを行えるようになる。

(3) 本発明によれば、遮蔽物の3Dモデルが視体積交差法にて形成されないようにしたので、特に遮蔽物のサイズが大きい場合に視体積交差法の計算処理が増大してしまうことを抑制できる。

発明の第１実施形態に係る自由視点映像生成装置の所要部の構成を示した機能ブロック図である。遮蔽物デプスマップの生成方法を示した図である。カメラパラメータの例を示した図である。統合シルエット画像の生成方法を示した図である。レンダリング方法を模式的に示した図である。本発明により生成されるレンダリングモデルを従来技術により生成されるレンダリングモデルと比較した図である。発明の第２実施形態に係る自由視点映像生成装置の所要部の構成を示した機能ブロック図である。複数の視聴端末へ仮想視点の異なるレンダリング画像を配信する多端末配信システムへの適用例（その１）を示した図である。複数の視聴端末へ仮想視点の異なるレンダリング画像を配信する多端末配信システムへの適用例（その２）を示した図である。視体積交差法を説明するための図である。遮蔽物により被写体シルエット画像に欠損が生じる例を示した図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は、本発明の第１実施形態に係る自由視点映像生成装置１の主要部の構成を示した機能ブロック図であり、ここではスポーツシーンとしてサッカーに注目し、サッカーの競技シーンを視点の異なる複数のカメラで同期撮影した映像に基づいて自由視点映像を生成する場合を例にして説明する。なお、本発明はフィールド上に移動しない構造物が存在するスポーツであれば、例えばゴールポストが存在するラグビー、ネットが存在するバレーボールあるいは卓球台が存在する卓球にも同様に適用できる。

このような自由視点映像生成装置１は、CPU、メモリ、インタフェースおよびこれらを接続するバス等を備えた汎用のコンピュータやモバイル端末に、後述する各機能を実現するアプリケーション（プログラム）を実装することで構成できる。あるいは、アプリケーションの一部をハードウェア化またはプログラム化した専用機や単能機としても構成できる。

カメラ映像取得部１０１は、競技フィールドを撮影する複数のカメラCamからカメラ映像を取得する。本実施形態では、フルモデル自由視点を制作することとし、全てのカメラCamが固定されており、試合中に各カメラの画角が変化することは想定しない。

被写体シルエット画像生成部１０２は、フレーム間で動きのある動的オブジェクト（以下、被写体と表現する）のシルエット画像を、例えば背景差分法によりカメラ画像ごとにフレーム単位で生成する。

遮蔽物デプスマップ生成部１０３は、フレーム間で動きの無い静的オブジェクト（以下、遮蔽物と表現する）のデプスマップを、予め定義された汎用の遮蔽物3Dモデルおよびカメラパラメータを用いてカメラごとに生成する。前記カメラパラメータは、遮蔽物に代表される既知の構造物から抽出した各特徴点とカメラ画像から抽出した遮蔽物の各特徴点とのマッチング結果に基づいて推定できる。

例えば、サッカーの試合におけるゴールポストがスタジアムの３次元空間中のどこに配置されるかという情報は既知である。ゴールポストのサイズも規格で決定されていることを加味すれば、ゴールポストの角などの特徴点の3次元位置は既知である。各カメラから得られる2D画像中からこのような特徴点を特定し、特定した特徴点と既知の3次元位置とのマッチングを取ることで、カメラの位置や向きを特定（＝カメラキャリブレーション）できる。

本実施形態では、カメラが固定されているので遮蔽物デプスマップの生成は最初に一度だけ行えば良い。生成された遮蔽物デプスマップは遮蔽物デプスマップDB１０４に蓄積される。

前記汎用の遮蔽物3Dモデルは、.objや.fbxなどの汎用3Dモデル形式として用意できるが、本実施形態ではゴールポストが遮蔽物と見なされるところ、その形状は競技規定等により既知である。したがって、汎用3Dモデルを用意する代わりに、複数の直方体や円柱の3Dモデルを組み合わせてゴールポストを模した遮蔽物3Dモデルを生成しても良い。

前記遮蔽物デプスマップ生成部１０３は、競技場を模した3D空間中の所定位置に前記遮蔽物3Dモデルを配置し、図２に示したように、カメラパラメータを用いて各画素に光線を飛ばし、3Dモデルと衝突する点までの距離を測定することでデプスマップを得ることができる。ここで言うカメラパラメータとは、カメラ行列（内部パラメータ行列）及び外部パラメータ行列のことを指し、例えば、図３のような形式で与えられる。

カメラパラメータは手動で取得しても良いし、非特許文献８に開示されるように、オートキャリブレーションにより取得しても良い。非特許文献８のようにコートの形状からオートキャリブレーションを行う手法と組み合わせればキャリブレーションまで含めた全過程を全自動で行うことができる。

遮蔽物シルエット画像生成部１０７は、前記遮蔽物デプスマップに基づいて、遮蔽物が存在する領域を白(255)、デプスマップが存在しない領域を黒(0)にした2値画像などで表現される遮蔽物シルエット画像を生成する。

この遮蔽物シルエット画像には、本発明者等による先の特許出願（特願2019-231270号）の発明を適用することで、その輪郭を膨張する等の画像加工を行ってもよい。例えば、3Dモデルを逆投影することによって得られるシルエット画像は、シルエット画像自体が離散的な位置しか表現できないことから、誤差が発生して不正確になる可能性がある。このようなシルエットを用いて再び視体積交差法で3Dモデルを生成すると、実際のゴールポストよりも小さいポストモデルが生成されてしまう可能性がある。このような誤差を軽減する観点で、得られたシルエットの輪郭を膨張させるなどのシルエット画像加工を行ってもよい。

シルエット統合部１０５は、図４に一例を示したように、カメラごとにフレーム単位で遮蔽物シルエット画像と被写体シルエット画像とを統合して統合シルエット画像を生成する。この統合処理は、例えばシルエットの前景が255、背景が0で表現される際に、入力される二つのマスクのいずれかが255であれば被写体を前景とする論理和によって行われる。

3Dモデル選択的生成部１０６は、シルエット統合部１０５が出力するN枚の統合シルエット画像を用いた視体積交差法により、遮蔽による欠損の無い被写体の3Dボクセルモデルを選択的に生成する。本実施形態では、3Dモデル生成の対象範囲（例えば、スポーツ映像なら当該スポーツが行われるフィールド等）に単位ボクセルサイズMでボクセルグリッドを配置しておき、ボクセルグリッドごとに3Dモデルを形成するか否かが視体積交差法に基づいて判定される。

視体積交差法は、N枚のシルエット画像を3次元ワールド座標に投影した際の視錐体の共通部分を次式(1)に基づいて視体積（Visual Hull）VH(I)として獲得する技術である。

上式(1)にて、集合Iは各カメラのシルエット画像の集合であり、V_iはi番目のカメラから得られるシルエット画像に基づいて計算される視錐体である。また、通常はN枚全てのカメラの共通部分となる部分がモデル化されるが、N-1枚が共通する場合にモデル化するなど、モデル化が成されるカメラ台数に関しては変更してもよい。視体積が生成されるカメラ台数の閾値を下げることで、少ない枚数のシルエット画像で被写体が欠けた場合にも3Dモデルの復元が可能になる一方、ノイズが多くなるなどの副作用が現れる可能性がある。このカメラ台数の閾値は手動で設定される。

統合シルエット画像を用いた視体積交差法により生成される3Dモデルでは、ゴールポスト部分のシルエットが統合できているため、遮蔽物の背後に隠れる被写体について遮蔽による欠損のない3Dモデルを生成することが可能となる。

本実施形態では、3Dモデル選択的生成部１０６が遮蔽物3Dモデルを参照し、遮蔽物3Dモデルが存在する領域に関してはボクセルグリッド内のモデル形成に関する計算を行わないようにしている。すなわち、遮蔽物3Dモデルが存在する領域ではモデル形成処理がスキップされる。

3Dモデル選択的生成部１０６が参照する遮蔽物3Dモデルは、遮蔽物デプスマップ生成部１０３がデプスマップを生成するために利用した遮蔽物3Dモデルでも良いし、別途に遮蔽物シルエット画像を用いて視体積交差法により計算した遮蔽物3Dモデルでも良い。後者の場合、視体積交差法の計算過程で遮蔽物のボクセルモデルが得られるので、スキップすべきボクセルグリッドの位置が明確になる。また、別途に遮蔽物3Dモデルを求める場合、その計算はカメラごとに最初のフレームで１回だけ行い、その位置を記憶できれば良い。したがって、別途に必要となる計算量は、フレームごとに遮蔽物3Dモデルが存在する領域のモデル形成処理をスキップすることで減ぜられる計算量との比較では極僅かでしかない。

ただし、遮蔽物の生成位置によっては、遮蔽物が少ないカメラにしか映り込まないケースが存在する。このような場合、視体積交差法ではそもそも遮蔽物の3Dモデルは生成されず、このスキップ処理自体を行う必要がない。したがって、遮蔽物が映り込むカメラ台数を判定し、視体積交差法のモデル形成に用いるカメラ台数の閾値Nthより少ないカメラにしか遮蔽物が映り込まない場合は、スキップ処理自体を行わなくてもよい。

この視体積交差法の処理は、非特許文献８に示されるような２段階の視体積交差法に対して行ってもよい。この場合、２段階の視体積交差法のいずれの段階でも、シルエット統合部で生成した統合シルエット画像を利用して視体積交差法でモデル化を行う。

このとき、前記遮蔽物3Dモデルが存在する位置へのボクセル形成をスキップする処理は、粗いボクセル生成の段階で行われることが望ましい。粗いボクセル生成の段階でスキップすることで、細かいボクセル生成判定も行われないため高速計算が可能である。ただし、判定位置の粒度が粗くなることから被写体のモデルの品質に悪影響を及ぼす可能性がある。

このとき、例えばマーチンキューブ法などのボクセルモデルをポリゴンモデルに変換する手法を用いてボクセルモデルをポリゴンモデルに変換する機能を追加し、ポリゴンモデルとして3Dモデルを出力する機能を有していても良い。本実施例では、3Dモデル選択的生成部１０６で視体積交差法を行った後、マーチンキューブ法に基づいてボクセルモデルがポリゴンモデルに変換される。

被写体デプスマップ生成部１０８は、3Dモデル選択的生成部１０６が生成した被写体の3Dモデルに基づいて各カメラ平面での被写体デプスマップを計算する。デプスマップ計算は、例えばレイキャスティング法などによって行われる。レイキャスティング法では、あるカメラ平面の画素を通る光線を追跡し、いずれかの被写体との衝突を検知した際に、その被写体までの距離を計算することで深度が得られる。

オクルージョン情報生成部１０９は、3Dモデルのオクルージョン情報の計算を行う。オクルージョン情報とは、生成された3Dモデルの各部位が各カメラから可視または遮蔽による不可視のいずれの状態であるかを記録した情報であり、後述する自由視点レンダリング部１１０は、当該オクルージョン情報を参照することによって、不可視部位のテクスチャマッピングを可視のカメラ映像に基づいて行えるようになる。

本実施例では、3Dモデル選択的生成部１０６により3Dのポリゴンモデルが生成されるため、3Dポリゴンモデルの各頂点部位に関する遮蔽関係がオクルージョン情報として記録される。例えば、N台のカメラが存在する環境であれば、3Dポリゴンモデルの頂点部位ごとにN個のオクルージョン情報が記録される。

本実施形態では、頂点部位が可視であれば「1」、不可視であれば「0」などの形式でオクルージョン情報が記録される。これにより各頂点部位のオクルージョン情報を可視／不可視の1bitで表現できる。オクルージョン情報は、遮蔽物に起因した遮蔽のみならず、他の被写体に起因した遮蔽も含めて全ての遮蔽関係が考慮される。

例えば、二人の選手A，Bがあるカメラ視点で重なることでオクルージョンが発生し、このとき選手Aが選手Bを覆い隠していれば選手Bに選手Aのテクスチャが映り込まないようにテクスチャをマッピングする必要がある。このような場合、選手Bの不可視となる頂点部位もオクルージョン情報が「0」（不可視）として記録される。

ところで、被写体と遮蔽物の3Dモデルが全て生成されていれば、オクルージョン情報は各頂点からカメラ平面を見た際に、その間に他の3Dモデルが挟まるかどうかに基づいて簡単に判定できる。しかしながら、本実施形態では3Dモデル選択的生成部１０６が遮蔽物の3Dモデルを生成しないことから遮蔽物との遮蔽関係は計算できない。

そこで、本実施形態ではオクルージョン情報を得るために遮蔽物のデプスマップを利用する。以下、遮蔽物および被写体の各デプスマップを用いてオクルージョン判定を行う手順を説明する。

手順１：遮蔽物のデプスマップと被写体のデプスマップとを比較し、遮蔽物および被写体の両方が存在する領域では、カメラにより近い深度にあるオブジェクトの深度値を記録することによって遮蔽物と被写体とを統合したデプスマップを得る。遮蔽物および被写体のいずれか一方のみしか存在しない領域については、そのまま遮蔽物または被写体のデプスマップ値を反映させる。

手順２：被写体の各頂点の深度を、この統合したデプスマップと比較する。統合したデプスマップは、あるカメラから見える最前面の深度が記録されているため、各頂点の深度と最前面の深度とを比較し、その差が小さければオクルージョンが発生していないと判定し、その差が大きければオクルージョンが発生していると判定する。

この深度比較を行う際に、遮蔽物の3Dモデルおよび被写体の3Dモデルの各形成位置が接近していると、離散化された遮蔽物と被写体のデプス値が同一になってしまうことで、正常にオクルージョンの判定が行えない可能性がある。

特に、少ないメモリ量で高速に判定を行いたい場合、デプスマップの深度値を0-255の間の整数などの少ない値（256パターン/1バイト）で離散化することが考えられるが、競技空間が広いと、その深度値が１だけ変化した際に変わる深さも大きくなってしまい、デプスマップを生成する際に深度値を丸めた結果、同一の値となってしまうことで正しい前後判定が行えないケースなどが起こり得る。

このような課題を解決するために、本実施形態では、ゴールポストが存在する付近の深度が、より細かい粒度で扱われるようにデプスマップを構成している。この場合、ゴールポスト及び被写体のデプスマップ共に、生成時にゴールポスト付近をより細かく扱うという事前情報を有しており、それに基づきデプスマップを生成するものとする。

自由視点レンダリング部１１０は、3Dモデル選択的生成部１０６が出力する被写体の3Dモデル、オクルージョン情報生成部１０９が生成したオクルージョン情報および各カメラ画像（テクスチャ）を用いて、任意の仮想視点p_vから見た合成映像をレンダリングする。

図５は、自由視点レンダリング部１１０によるレンダリング方法を模式的に示した図である。本実施形態では、遮蔽物を含まない実質的に被写体の3Dモデルの各部位（本実施形態では、ポリゴン）の可視／不可視をオクルージョン情報に基づいてカメラごとに判断し、一部のカメラ画像で不可視の部位を他の可視のカメラ画像を用いてテクスチャマッピングするようにしている。

本実施形態では、初めに要求された仮想視点p_vに最近傍の２台のカメラCam₁，Cam₂を選択し、各カメラ画像Ic₁，Ic₂を3DモデルM_jのポリゴンgにマッピングする。その前処理として、本実施形態ではポリゴンgを構成する全ての頂点のオクルージョン情報を用いて当該ポリゴンgの可視判定を行う。ポリゴンgが三角ポリゴンであれば、３つの頂点の各オクルージョン情報に基づいて可視判定が行われる。

例えば、カメラCam1に対するポリゴンgの可視判定フラグをg_c1と表現するとき、三角ポリゴンgを構成する３頂点の全てが可視であればフラグg_c1は可視、３頂点のうちいずれか一つでも不可視であればフラグg_c1は不可視とされる。このようにして各ポリゴンの可視判定の結果が得られると、以下のようにケース別でテクスチャマッピングが行われる。

ケース１．フラグg_c1，g_c2がいずれも可視の場合：
次式(2)によりアルファブレンドによるマッピングが行われる。

ここで、texture_c1(g)、texture_c2(g)はポリゴンgがカメラCam₁，Cam₂において対応するカメラ画像領域を示し、texture(g)は当該ポリゴンにマッピングされるテクスチャを示す。また、アルファブレンドの比率aは仮想視点p_vと各カメラ視点pc₁，pc₂との距離（アングル）の比に応じて算出される。

ケース２．フラグg_c1，g_c2のいずれかのみが可視の場合：
可視であるカメラのテクスチャのみを用いてポリゴンgがレンダリングされる。すなわち上式(2)において、可視であるカメラのtexture_ci(g)に対応するアルファブレンド比率aの値を1とする。その他の形態としては、仮想視点p_vからみて次に近いカメラCam₃を、カメラCam₁，Cam₂うち不可視であるカメラの代わりとして参照する。この際、テクスチャのアルファブレンドの方法は上式(2)と同様である。

ケース３．フラグg_c1，g_c2の全てが不可視である場合：
仮想視点p_vからみて次に近いカメラCam₃のテクスチャを用いてレンダリングする。カメラCam₃も不可視である場合は、さらに次に近いカメラCam₄…といったように、距離の近いカメラから順にカメラテクスチャを参照する。この際、順次参照するカメラの台数を２以上として、上式(2)に則ってブレンディング処理を行っても良い。

上記の例では、初期参照する近傍カメラ台数を２台としているが、ユーザ設定により変更しても良い。その際、初期参照カメラ台数bに応じて、上式(2)はb台のカメラの線形和（重みの総和が１）とする拡張が行われる。また、全てのカメラにおいて不可視となったポリゴンについてはテクスチャがマッピングされない。

なお、自由視点レンダリング部１１０における遮蔽物3Dモデルの表示は、予め用意された汎用3Dモデルなどを入力として、それを配置することで行われる。これは、ゴールポストなどの3Dモデルは一般的に時刻と共に大きく変化することがないことに加え、視体積交差法由来のモデルはあくまでN台のカメラから合成することで生成された3Dモデルのため、品質面でも事前に用意されたものに劣る可能性が高いからである。

図６は、本実施形態により生成されるレンダリングモデル[同図(b)]を従来技術により生成されるレンダリング画像[同図(a)]と比較した図である。

従来技術では、ゴールポストにより遮蔽されるシルエット画像の左脚部分に欠損が生じているのに対して、本実施形態により生成されたレンダリングモデルでは左脚部分にテクスチャが正確にマッピングされており、欠損や違和感のない正確な自由視点映像が再現されていることが判る。

なお、上記の第１実施形態では遮蔽物デプスマップ生成部１０３を設け、遮蔽物3Dモデルに基づいて遮蔽物デプスマップを生成するものとして説明した。しかしながら、本発明はこれのみに限定されるものではなく、図７に示した第２実施形態のように、遮蔽物デプスマップ生成部１０３を省略し、予め用意した遮蔽物デプスマップを用いて遮蔽物シルエット画像やオクルージョン情報を生成するようにしても良い。

図８，９は、複数の視聴端末へ仮想視点の異なるレンダリング画像を配信する多端末配信システムへの適用例を示した図である。

一般に、3Dモデルの生成やオクルージョン情報は各フレームに対して1回計算されればよいため、ハイエンドなPCなどで高速に計算を行って保存しておく。そして、この3Dモデルやオクルージョン情報を、自由視点を視聴したい視聴端末に配信し、各視聴端末にレンダリング部を配置するような構成とすることで、ハイエンドなPCが１台と、低スペックな複数の視聴端末とで多端末配信を実現できる。

3Dモデルの遮蔽関係自体は、自由視点レンダリング部１１０に入力される3Dモデルを用いて当該レンダリング部で改めて計算することも可能である。しかしながら、事前にオクルージョン情報という形で保存しておくことで、レンダリング部はオクルージョン情報を参照するだけで遮蔽関係を読み解くことが可能になることから、自由視点レンダリング部１１０の処理負荷を低減できる効果が期待される。

図８の例では、レンダリングに特化した複数の専用PCを用意し、各視聴端末からの視聴要求に応答して視点の異なる自由視点映像をレンダリングして配信している。

図９の例では、各視聴端末に自由視点レンダリング部１００を実装し、視聴端末ごとにレンダリングが実行されるようにしている。

１…自由視点映像生成装置，１０１…カメラ映像取得部，１０２…被写体シルエット画像生成部，１０３…遮蔽物デプスマップ生成部，１０４…遮蔽物デプスマップDB，１０５…シルエット統合部，１０６…3Dモデル選択的生成部，１０７…遮蔽物シルエット画像生成部，１０８…被写体デプスマップ生成部，１０９…オクルージョン情報生成部，１１０…自由視点レンダリング部

Claims

被写体および遮蔽物を視点の異なる複数のカメラで同期撮影したカメラ画像に基づいて自由視点映像を生成する自由視点映像生成装置において、
カメラごとに遮蔽物デプスマップを取得する手段と、
被写体の3Dモデルを生成する手段と、
前記3Dモデルに基づいてカメラごとに被写体デプスマップを生成する手段と、
前記被写体デプスマップおよび遮蔽物デプスマップに基づいて、前記3Dモデルの各部位が各カメラの視点で可視および不可視のいずれであるかを登録したオクルージョン情報を生成する手段と、
前記オクルージョン情報に基づいて、前記3Dモデルの部位ごとに一部のカメラで不可視の部位へ当該部位が可視のカメラで取得したテクスチャをマッピングする手段とを具備したことを特徴とする自由視点映像生成装置。
前記遮蔽物デプスマップを取得する手段は、予め用意した遮蔽物の3Dモデルおよび各カメラパラメータに基づいてカメラごとに遮蔽物デプスマップを生成することを特徴とする請求項１に記載の自由視点映像生成装置。
カメラ画像に基づいて被写体シルエット画像を生成する手段と、
遮蔽物デプスマップに基づいて遮蔽物シルエット画像を生成する手段とを具備し、
前記3Dモデルを生成する手段は、前記被写体および遮蔽物の各シルエット画像に基づいて3Dモデルを生成することを特徴とする請求項１または２に記載の自由視点映像生成装置。
前記3Dモデルを生成する手段は、被写体および遮蔽物の各シルエット画像を用いた視体積交差法により、3D空間に確保した各ボクセルグリッドをモデル化するか否かを判定し、
前記遮蔽物の3Dモデルが存在し得る領域に対応したボクセルグリッドでは前記判定をスキップしてモデル化しないことを特徴とする請求項３に記載の自由視点映像生成装置。
前記3Dモデルを生成する手段は、
被写体および遮蔽物の各シルエット画像を用いた視体積交差法によりボクセルグリッドのサイズが第１サイズの低解像ボクセルモデルを計算する手段と、
前記低解像ボクセルモデルの領域を対象に、前記各シルエット画像を用いた視体積交差法によりボクセルグリッドのサイズが前記第１サイズよりも小さい第２サイズの高解像ボクセルモデルを計算する手段とを具備し、
前記低解像ボクセルモデルのうち、遮蔽物の3Dモデルが存在し得る領域では前記判定をスキップしてモデル化しないことを特徴とする請求項４に記載の自由視点映像生成装置。
前記3Dモデルがポリゴンモデルであり、
前記オクルージョン情報には、各ポリゴンの頂点部位ごとに各カメラの視点で可視および不可視のいずれであるかが登録されたことを特徴とする請求項１ないし５のいずれかに記載の自由視点映像生成装置。
前記カメラパラメータは、遮蔽物に代表される既知の構造物から抽出した各特徴点とカメラ画像から抽出した遮蔽物の各特徴点とのマッチング結果に基づいて推定されることを特徴とする請求項２に記載の自由視点映像生成装置。
コンピュータが、被写体および遮蔽物を視点の異なる複数のカメラで同期撮影したカメラ画像に基づいて自由視点映像を生成する自由視点映像生成方法において、
カメラごとに遮蔽物デプスマップを取得し、
被写体の3Dモデルを生成し、
前記3Dモデルに基づいてカメラごとに被写体デプスマップを生成し、
前記被写体デプスマップおよび遮蔽物デプスマップに基づいて、前記3Dモデルの各部位が各カメラの視点で可視および不可視のいずれであるかを登録したオクルージョン情報を生成し、
前記オクルージョン情報に基づいて、前記3Dモデルの部位ごとに一部のカメラで不可視の部位へ当該部位が可視のカメラで取得したテクスチャをマッピングすることを特徴とする自由視点映像生成方法。
カメラ画像に基づいて被写体シルエット画像を生成し、
遮蔽物デプスマップに基づいて遮蔽物シルエット画像を生成し、
前記被写体および遮蔽物の各シルエット画像に基づいて3Dモデルを生成することを特徴とする請求項８に記載の自由視点映像生成方法。
前記3Dモデルを生成する際に、被写体および遮蔽物の各シルエット画像を用いた視体積交差法により、3D空間に確保した各ボクセルグリッドをモデル化するか否かを判定し、
前記遮蔽物の3Dモデルが存在し得る領域に対応したボクセルグリッドでは前記判定をスキップしてモデル化しないことを特徴とする請求項９に記載の自由視点映像生成方法。
被写体および遮蔽物を視点の異なる複数のカメラで同期撮影したカメラ画像に基づいて自由視点映像を生成する自由視点映像生成プログラムにおいて、
カメラごとに遮蔽物デプスマップを取得する手順と、
被写体の3Dモデルを生成する手順と、
前記3Dモデルに基づいてカメラごとに被写体デプスマップを生成する手順と、
前記被写体デプスマップおよび遮蔽物デプスマップに基づいて、前記3Dモデルの各部位が各カメラの視点で可視および不可視のいずれであるかを登録したオクルージョン情報を生成する手順と、
前記オクルージョン情報に基づいて、前記3Dモデルの部位ごとに一部のカメラで不可視の部位へ当該部位が可視のカメラで取得したテクスチャをマッピングする手順と、
をコンピュータに実行させる自由視点映像生成プログラム。
カメラ画像に基づいて被写体シルエット画像を生成する手順と、
遮蔽物デプスマップに基づいて遮蔽物シルエット画像を生成する手順とを更に含み、
前記3Dモデルを生成する手順では、前記被写体および遮蔽物の各シルエット画像に基づいて3Dモデルを生成することを特徴とする請求項１１に記載の自由視点映像生成プログラム。
前記3Dモデルを生成する手順では、被写体および遮蔽物の各シルエット画像を用いた視体積交差法により、3D空間に確保した各ボクセルグリッドをモデル化するか否かを判定し、
前記遮蔽物の3Dモデルが存在し得る領域に対応したボクセルグリッドでは前記判定をスキップしてモデル化しないことを特徴とする請求項１２に記載の自由視点映像生成プログラム。