JP2022030845A

JP2022030845A - 仮想視点映像レンダリング装置、方法およびプログラム

Info

Publication number: JP2022030845A
Application number: JP2020135132A
Authority: JP
Inventors: 良亮渡邊; Ryosuke Watanabe; 敬介野中; Keisuke Nonaka
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2022-02-18
Anticipated expiration: 2040-08-07
Also published as: JP7390265B2

Abstract

【課題】視点の異なる複数のカメラ画像に基づいて背景が動的に変化する仮想視点映像をレンダリングする仮想視点映像レンダリング装置を提供する。【解決手段】仮想視点映像生成装置1において、シルエット抽出部10は視点の異なる複数のカメラ画像から被写体シルエット画像を抽出する。動的背景画像生成部20は背景が経時的に変化するカメラ画像の被写体領域をその背景テクスチャ等で模すことにより被写体が存在しないように見える動的背景画像を生成する。仮想視点レンダリング部30において。背景3Dモデル位置設定部301は、客席部分やピッチ部分の3Dモデル（静的背景3Dモデル）をワールド座標系で示される3D空間中に配置する。仮想視点選択部302は任意の仮想視点位置p_vを選択する。動的背景マッピング部303は、動的背景画像を静的背景3Dモデルの対応領域に適用することで動的背景のレンダリング画像を生成する。【選択図】図1

Description

本発明は、仮想視点（または、自由視点）映像におけるスタジアムの観客席に代表される背景部分を入力映像に基づいて動的に更新し、背景が各時刻またはその近傍の入力映像に応じて変化する仮想視点からの映像をレンダリングする装置、方法およびプログラムに関する。

仮想視点映像技術は複数台のカメラ映像を取得し、カメラが存在しない視点も含めた任意の視点からの映像視聴を可能とする技術である。このような仮想視点映像を実現する一手法として、非特許文献1が開示する視体積交差法に基づく3Dモデルベースの仮想視点映像生成手法が存在する。

視体積交差法は、図13に示したように複数の各カメラ映像から被写体の部分だけを抽出した2値のシルエット画像を生成して3D空間に投影し、その積集合となる部分のみを3DCGのモデルとして残すことによって3Dモデルを生成する手法である。シルエット画像の取得には非特許文献2に代表されるような背景差分法を用いることができる。

視体積交差法をベースとした仮想視点制作方式の一つに、非特許文献3が開示するフルモデル方式仮想視点（3Dモデルの形状を忠実に表現する方式）がある。この方式は視体積交差法を用いて被写体の3Dモデルを再構成する。3Dモデルが計算された状態で仮想視点映像の視聴を行う際に、ユーザは自由に任意の視点を選択する。

この視点は実カメラが存在しない領域も含めて任意に選択することができる。仮想視点からの2D画像を生成するために、3Dモデルに対して単一あるいは複数のカメラから3Dモデルに色付け（テクスチャマッピング）を行うことで、任意視点からの2D画像をレンダリング結果として得る。

このような視体積交差法ベースの仮想視点映像の原理に基づくと、多くのカメラが共通で映し出す領域が3Dモデル化される。したがって、例えばスポーツを対象とした仮想視点映像の制作では、視体積交差法でモデル化されるのは客席に置かれたカメラが共通で捉えるピッチ上の領域のみであり、観客席などの背景構造モデルに関しては事前に静的な3Dモデルを用意する必要があった。

加えて、非特許文献2が開示する背景差分法によりシルエット抽出を行い、そのシルエットを用いて3Dモデルを制作することを考えると、ゴールポストのような静止構造物もシルエットとして抽出されないことから、このような静止構造物についても事前に静的な3Dモデルとして用意する必要があった。

このように、スポーツ映像を対象にして仮想視点映像を表示する場合には、以下の2工程に基づき、3D空間の再現を行う。
(1) 観客席や地面のような「静的背景3Dモデル」を、前記視体積交差法でモデル化を行う3D領域の外側に配置する工程
(2) 前記「静的背景3Dモデル」の上に、視体積交差法で作り出した被写体3Dモデルと共に、ゴールポストのように全てのカメラに映り込むが背景差分法の観点では常に静止しているためにシルエットとして抽出されず、視体積交差法ではモデル化されない「静的構造物3Dモデル」を配置する工程
そして、各3Dモデルは視体積交差法で生成される仮想視点映像の被写体とは別に、事前に汎用3Dモデルデータなどの形で用意することで表示を行うことが可能であった。なお、特許文献1には、上記静的構造物3Dモデルに分類されるゴールポストなどの3Dモデルを生成する技術が開示されていた。

特開2019-191989号公報

Laurentini, A. "The visual hull concept for silhouette based image understanding.", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16, 150-162, (1994). C. Stauffer and W. E. L. Grimson, "Adaptive background mixture models for real-time tracking," 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 246-252 Vol. 2 (1999). J. Chen, R. Watanabe, K. Nonaka, T. Konno, H. Sankoh, S. Naito, "A Fast Free-viewpoint Video Synthesis Algorithm for Sports Scenes", 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2019), WeAT17.2, (2019). Qiang Yao, Hiroshi Sankoh, Nonaka Keisuke, Sei Naito. "Automatic camera self-calibration for immersive navigation of free viewpoint sports video," 2016 IEEE 18th International Workshop on Multimedia Signal Processing (MMSP), 1-6, 2016 Telea, Alexandru. "An image inpainting technique based on the fast marching method." Journal of graphics tools 9.1 (2004): 23-34.

一般に、観客席の3Dモデルを事前に制作しておくことは可能である。しかしながら、試合中に常に変わっていく客席の様子などを静的背景3Dモデルに反映させることを考えると、事前に制作した3Dモデルで対応することはできない。

例えば、事前に無観客のスタジアム3Dモデルを制作している場合、図14(a)のように、無観客の3Dモデルしか表示することができない。また、同図(b)のように観客が入った後の客席の画像を利用してスタジアムの3Dモデルを制作すると、観客席の様子をリアルタイムで更新することはできない。仮想視点映像を制作した際に、ある時間帯の観客席をリアルタイムに正しく表示するためには、常に自動的に観客席部分を更新するようなアプローチが必要である。

また、ピッチの芝生の色なども、その時の照明環境に応じて影の落ち方等によって色合いに変化が生じるため、事前に撮影した背景モデルを基にフィールドの芝生を再現すると、その時刻と合っていない表示が成される可能性が高い。

本発明の目的は、上記の技術課題を解決し、仮想視点映像の視聴体験価値を向上させるべく、視体積交差法による被写体3Dモデルの制作領域の外側に存在する「静的背景3Dモデル」を入力映像に応じて動的に更新できる仮想視点映像レンダリング装置、方法およびプログラムを提供することにある。

上記の目的を達成するために、本発明は、視点の異なる複数のカメラ画像に基づいて背景が動的に変化する仮想視点映像をレンダリングする仮想視点映像レンダリング装置において、以下の構成を具備した点に特徴がある。

(1) 静的背景3Dモデルを3D空間の適所へ配置する手段と、仮想視点を選択する手段と、カメラ画像の被写体領域を背景テクスチャで模した動的背景画像を生成する手段と、動的背景画像を静的背景3Dモデルに仮想視点ベースでマッピングする手段とを具備した。

(2) 前記動的背景画像を生成する手段は、カメラ画像ごとに被写体シルエット画像に基づいて被写体領域の背景テクスチャを空舞台画像から抽出し、当該背景テクスチャをカメラ画像の各被写体領域にインペインティングするようにした。

(3) 動的背景画像を生成する手段は、カメラ画像の被写体領域および静的構造物を背景テクスチャで模した動的背景画像を生成するようにした。

本発明によれば、以下のような効果が達成される。

(1) 本来はフィールド上に存在するはずの被写体が存在しないように見えて各時刻に固有の背景のみで構成される動的背景画像を生成し、これを静的背景3Dモデルの適所へマッピングするようにしたので、仮想視点映像の背景を各時刻のカメラ画像に基づいてリアルタイムで更新できるようになり、臨場感のある視聴を実現できるようになる。

(2) 動的背景画像を生成する際に、カメラ画像ごとに被写体シルエット画像に基づいて被写体領域の背景テクスチャを空舞台画像から抽出し、当該背景テクスチャをカメラ画像の各被写体領域にインペインティングするようにしたので、被写体が存在しないように見える高品質の動的背景画像を提供できるようになる。

(3) 動的背景画像を生成する際に、カメラ画像の被写体領域のみならずゴールポストなどの静的構造物も背景テクスチャで模したようにしたので、動的背景画像がマッピングされた静的背景3Dモデル上に静的構造物3Dモデルを合成する際でも、その表示品質が低下することを防止できるようになる。

本発明の第1実施形態に係る仮想視点映像生成装置の構成を示した機能ブロック図である。動的背景画像の一例を示した図である。第1インペインティング部によるインペインティング方法の例を示した図である。カメラパラメータの例を示した図である。静的背景3Dモデルの例を示した図である。本発明の第2実施形態に係る仮想視点映像生成装置の構成を示した機能ブロック図である。第2実施形態の解決課題を説明するための図である。被写体および静的構造物がインペインティングされた動的背景画像の例を示した図である。静的構造物シルエットの計算方法を示した図である。第2インペインティング部によるインペインティング方法の例（その1）を示した図である。第2インペインティング部によるインペインティング方法の例（その2）を示した図である。静的背景3Dモデルの例を示した図である。視体積交差法による3Dモデルの生成方法を説明するための図である。スタジアム3Dモデルの例を示した図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の第1実施形態に係る仮想視点映像生成装置1の構成を示した機能ブロック図であり、シルエット抽出部10、動的背景画像生成部20および仮想視点レンダリング部30を主要な構成としている。ここではサッカーの仮想視点映像において背景を動的に更新する動的背景更新処理について説明する。

シルエット抽出部10は、複数のカメラで撮影したカメラ画像から、非特許文献2が開示する背景差分ベースの代表的なシルエット抽出手法で被写体シルエット画像をそれぞれ抽出し、さらに空舞台画像をそれぞれ出力する。

背景差分法は、被写体が存在しない背景を表現する背景モデル（背景統計情報）と入力されるカメラ画像とを比較し、差分が大きい部分を被写体が存在する前景部分として抽出する手法であり、シルエット画像は3Dモデルを生成する被写体領域を白（=1）、それ以外の領域を黒（=0）で表した2値のマスク画像の形式で与えられる。背景差分法の計算方法としては次式(1)の単一ガウス分布に基づく計算法がよく知られている。

上記の条件式(1)を満たす場合には、iフレーム目の当該画素(x,y)は背景であると判断される。ここでI_i (x, y)は画像の輝度値であり、u_i (x, y)は背景を単一ガウス分布でモデル化した際のガウス分布の平均、σ_i (x,y)は背景を単一ガウス分布でモデル化した際のガウス分布の標準偏差、T_i (x, y)は(1)式の判定を調整する閾値である。また、zは標準偏差の何倍までを背景と判断するかを調節するパラメータである。

前記背景モデル（背景統計情報）とは、(1)式で示すところのu_i (x,y)やσ_i (x,y)のことを指す。iフレーム目における各画素の平均u_i (x,y)は、本実施形態では次式(2)で計算される。

ここで、rは平均値の更新率である。また、各画素の標準偏差σ_i (x,y)は次式(3)，(4)で計算される。tは標準偏差の更新率である。

本実施形態では、空舞台画像として?各画素の平均u?_i (x,y)を用いる。これは、u_i (x,y)が一連のシーケンスに対しての画素の平均値となっており、サッカーのように人の動きが激しいコンテンツでは、このような平均値が少なくともフィールド上などの背景に変化が乏しい領域では被写体がいない背景の画像になり得るためである。

なお、空舞台画像としては上記のような平均値に限らず最頻値を採用しても良い。また、空舞台画像に関しては、このようなアプローチを用いずに、例えば試合前の被写体がいない時間帯を狙って撮影した画像を採用しても良い。

動的背景画像生成部20は、カメラ画像の被写体領域をインペインティングする第1インペインティング部201を含み、背景が経時的に変化するカメラ画像の被写体領域をその背景テクスチャまたは背景テクスチャに類似のテクスチャ等で模すことにより、図2に一例を示したように、各時刻に固有の背景のみで構成され、本来はフィールド上に存在するはずの被写体（選手）が存在しないように見える動的背景画像を生成する。

動的背景更新機能をスタジアムのピッチなどにも適用することを鑑みると、後から静的背景3Dモデルにオーバーラッピングする動的背景画像中に被写体が残っていると、被写体が静的背景3Dモデルに映り込んでしまい、正常な表示が行えない。前記第1インペインティング部201は、カメラ画像、空舞台画像および被写体シルエット画像に基づいて、カメラ画像の中の被写体領域を当該被写体があたかも存在しないように背景のテクスチャでインペインティングすることで動的背景画像を生成する。

図3は、前記第1インペインティング部201によるインペインティング方法を示した図であり、カメラ画像ごとにその被写体シルエット画像を参照すれば、画素が白くなっている部分は被写体が存在する領域である。したがって、この白色部分のみを対象にカメラ画像上の画素を空舞台画像の対応画素でインペインティングする。

本実施形態では、カメラ画像[同図(a)]に基づいて生成した被写体シルエット画像[同図(b)]と予めカメラごとに用意されている空舞台画像[同図(c)]とに基づいて被写体領域の背景テクスチャを空舞台画像から抽出し、これを当該時刻のカメラ画像の各被写体部分にインペインティングすることで動的背景画像[同図(d)]を獲得する。

このとき、空舞台画像として上式(2)で得られる平均値μ_i (x,y)や試合前に人がいない瞬間を狙って撮影した画像を利用する場合、撮影のタイミングが異なることからインペインティングした部分とそれ以外の部分との色の差異が目立ってしまう場合がある。

これは、例えば試合中に大きく日照環境が変化し、空舞台画像を捉えたタイミングとカメラ画像の対象フレームとの間でピッチの色合いが異なるようなケースで発生する。このような影響を軽減する手段として、例えばシルエット画像の輪郭領域に対応する部分に、ガウシアンフィルタなどのぼかし効果を与えるフィルタを掛けるなど、輪郭をなじませて違和感を消失させるような処理を加えても良い。

あるいは、インペインティングした部分とインペインティング部分近傍のインペインティングしていない画素の平均値を算出し、その画素値の差に基づいてインペインティングした部分の輝度値を調節するような機構を備えていてもよい。

あるいは、このインペインティングには静的背景3Dモデルを使って行ってもよい。この場合、3D空間中に静的背景3Dモデルを配置し、カメラパラメータを基に、各カメラから見た際のインペインティングする領域を静的背景3Dモデルの色で置き換える。

あるいは、非特許文献2に代表される背景差分法のシルエット抽出品質が完璧ではないことを鑑みて、少しでも被写体が存在する可能性がある画素をインペインティングするために、インペインティング領域を決める際に、シルエット画像の輪郭またはインペインティングする被写体領域を何段階か外方へ膨張（Dilation）させてもよい。

仮想視点レンダリング部30は、背景3Dモデル位置設定部301、仮想視点選択部302および動的背景マッピング部303を含み、動的背景マッピング部303は適用領域決定部303ａを含む。

背景3Dモデル位置設定部301は、カメラパラメータに基づいて予め用意された客席部分やピッチ部分の3Dモデル（静的背景3Dモデル）をワールド座標系で示される3D空間中に配置する。観客席の位置はスタジアムの設計やスポーツのルール上決まっていることから所定の位置に配置できる。

このとき、図14(b)の客席部分のように、事前に撮影された画像が静的な観客席テクスチャとして張り付けられた3Dモデルが入力されていてもよい。また、この静的背景3Dモデルは、図5に示したスタジアムの例のように、簡易な複数の板ポリゴンなどで簡素化された形状をしていてもよい。

ここで、カメラパラメータとは各カメラの位置や向き、ズーム具合を示すための情報であるカメラ行列（内部パラメータ行列）及び外部パラメータ行列のことを指し、図4のように事前に計算されている。カメラパラメータは手動操作で取得しても良いが、非特許文献4などの技術に基づきオートキャリブレーションが成されてもよい。非特許文献4のようにコート形状からオートキャリブレーションを行う手法と組み合わせることで、キャリブレーションまで含めた全過程を全自動で行うことができる。

仮想視点選択部302は、ユーザによるコントローラ等に対する選択操作に基づいて任意の仮想視点位置p_vを選択する。動的背景マッピング部303は、動的背景画像生成部20から提供される動的背景画像を静的背景3Dモデルの対応領域に適用することで動的背景のレンダリング画像を生成する。

適用領域決定部303ａは、前記仮想視点位置等の情報に基づいて、背景3Dモデル位置設定部301で設定された静的背景3Dモデルの中のどの部位に動的背景処理を適用するかを決定する。この決定は手動で、背景モデルのどのポリゴンに動的背景を適用するかを決定してもよいし、あるいは仮想視点選択部302から得られる仮想視点の画角内に入っているポリゴンにのみ動的背景を適用するように決定してもよい。

例えば、図5に一例を示した静的背景3Dモデルの中で、「背景3Dモデル(1)と背景3Dモデル(2)の領域にのみ動的背景を適用する」のように、動的背景をオーバーラップする領域を決定する。

観客席の部分だけに適用させるユースケースや、フィールドのピッチの色などが照明条件などによって事前に用意した3Dモデルから大きく変化した場合には、ピッチ領域にも適用させるなどのユースケースが考えられる。特に後者の場合は、動的背景画像が正確に作られていないと、違和感のある表示となってしまう。例えば、被写体の一部が動的背景画像に残存していた場合、残存した被写体の一部がピッチに張り付けられ、違和感のある表示が生まれてしまう可能性がある。

動的背景マッピング部303は、適用領域決定部303ａが決定した静的背景3Dモデル上の各領域に仮想視点近傍カメラの動的背景画像をマッピングすることで仮想視点からのレンダリング画像を生成する。このマッピングは、仮想視点位置p_vが選択された際に、仮想視点位置に近い1台以上のカメラから実施される。

例えば1台からマッピングを行う場合は、仮想視点位置から最も近い角度にあるカメラを選択し、そのカメラ画像に基づいて生成した動的背景画像を静的背景3Dモデル上に重畳して表示することで背景のマッピングを行う。これにより、仮想視点の位置ごとに違うカメラから観客席のマッピングが行われる。

また、複数台からマッピングを行う場合には、仮想視点位置から近い角度にあるN台のカメラを選択し、アルファブレンディングを行うことで静的背景3Dモデル上に動的なテクスチャマッピングを行う。例えば2台のカメラからマッピングを行う場合は次式(5)のようになる。

texture_(c_1 )，texture_(c_2 )は静的背景3Dモデルを構成するポリゴンgが、カメラc_1 、c_2において対応するカメラ画像領域を示し、texture(g)は当該ポリゴンにマッピングされる動的背景画像を示す。また、アルファブレンドの比率αは?仮想視点p?_vと?カメラc_1 、c_2 の各視点p?_(c_1 ), p_(c_2 )との距離（アングル）の比に応じて算出される。この式をN台のカメラに対して拡張する場合にも、初期参照カメラ台数bに応じて、式(5)はb台のカメラの線形和（重みの総和が1）とする拡張が行われる。

また、このアルゴリズムではカメラの画角範囲外の客席部分を上手くマッピングすることはできない。したがって、実カメラ視点に対して、さらに引き画角の仮想視点が選択された場合には、画角範囲外からマッピングされる箇所に関しては何もマッピングが成されず、静的背景3Dモデルがそのまま表示されることとなる。この観点から、違和感を低減するために動的背景画像の画角の縁に近づいた際に、滑らかに透過度を上昇させながら画像を重ねることで、静的背景3Dモデルに対してなじませるように表示を行ってもよい。

なお、上記の過程では仮想視点の被写体3Dモデル（選手、ボール等）に関連するレンダリング処理は説明が省略されているが、動的背景画像を静的背景3Dモデル上へマッピングした後、被写体3Dモデルおよびゴールポストのような静的構造物3Dモデルが更に合成されて仮想視点映像のレンダリングが完了する。

本実施形態によれば、本来はフィールド上に存在するはずの被写体が存在しないように見えて各時刻に固有の背景のみで構成される動的背景画像を生成し、これを静的背景3Dモデルの適所へマッピングするようにしたので、仮想視点映像の背景を各時刻のカメラ画像に基づいてリアルタイムで更新できるようになり、臨場感のある視聴を実現できるようになる。

また、本実施形態によれば、動的背景画像を生成する際に、カメラ画像ごとに被写体シルエット画像に基づいて被写体領域の背景テクスチャを空舞台画像から抽出し、当該背景テクスチャをカメラ画像の各被写体領域にインペインティングするようにしたので、被写体が存在しないように見える高品質の動的背景画像を提供できるようになる。

図6は、本発明の第2実施形態に係る仮想視点映像生成装置1の主要部の構成を示した機能ブロック図であり、前記と同一の符号は同一または同等部分を表しているので、その説明は省略する。

上記の第1実施形態では、カメラ画像の被写体領域をその背景テクスチャでインペインティングすることにより被写体の存在しない動的背景画像を生成した。しかしながら、動的背景画像にゴールポストのような静的構造物が残っていると、図7(a)に示したように、ブレンディングされた動的背景画像により表現されるゴールポストと当該動的背景画像に重畳表示されるゴールポストの3Dモデル（静的構造物3Dモデル）とに微妙なズレが生じ、同図(b)のカメラ画像と比べて違和感のある映像となることがある。これは、静的構造物3Dモデルであるゴールポストと、動的背景画像を基に静的背景3Dモデル（ここでは地面）にマッピングされたゴールポストとの双方が仮想視点からは見えており、各々の位置が異なるために発生する。

そこで、本実施形態は図8に示したように、被写体に加えて静的構造物も背景テクスチャでインペインティングした動的背景画像を生成し、これを静的背景3Dモデル上にマッピングするようにしている。

動的背景画像生成部20は、前記第1インペインティング部201に加えて静的構造物シルエット計算部202および第2インペインティング部203を含む。

静的構造物シルエット計算部202は、ゴールポストなどの静的構造物3Dモデルと前記図4を参照して説明したカメラパラメータとに基づいて静的構造物シルエットを生成する。静的構造物3Dモデルは.objや.fbxなどの汎用3Dモデル形式として用意されても良いし、既知のゴールポスト形状を基に複数の直方体や円柱の3Dモデルの組み合わせとして構成されてもよい。

サッカーではゴールポストなどの静的構造物がスタジアム上のどの位置に配置されるかの情報は競技規定等で決定されていることから、その情報に基づいてゴールポストを3D空間中の所定位置に設定できる。そして、設定した静的構造物3Dモデルをカメラパラメータに基づいて、図9に示したように各カメラ画像上に逆投影することで静的構造物シルエットを計算する。

第2インペインティング部203は、静的構造物シルエット計算部202で計算された静的構造物のシルエット領域をインペインティングする。このようなインペインティングを行うことにより、例えばフィールドのピッチ上にゴールポストが存在するようなシーンにおいて、ゴールポストの裏にあるスタジアムのピッチを示す静的背景3Dモデルに静的構造物3Dモデルが映り込んでしまうことを防止できる。

図10は、第2インペインティング部203による静的構造物のインペインティング方法の一例を示した図であり、ここでは前記第1インペインティング部201により被写体領域がインペインティングされた動的背景画像[同図(a)]のゴールポスト領域を、当該ゴールポストのシルエット画像[同図(b)]に基づいてインペインティングすることで、被写体および静的構造物のいずれもが存在しない動的背景画像[同図(c)]が生成される。

ここでのインペインティングは、ゴールポストが存在しない時間帯の画像を撮影可能であれば、その画像を用いて実施してもよいが、実運用上、そのような機会を試合直前に得ることは難しい。そこで、本実施形態では前記第1インペインティング部201とは異なる方法でインペインティングを行う。

静的構造物が存在しないようにインペインティングを実施するためには、非特許文献5のようにインペインティングを行う領域の周辺画素の色を利用する手法を適用できる。非特許文献5には、インペインティングの対象となっている画素の値を、その周囲の画素の中で画素値が既知の画素値を用いた重み付き和で計算する技術が開示されている。

なお、カメラ画像中でゴールポストが存在している領域をゴールポストがあたかも存在していないようにインペインティングするためには、図11に示したように対象とするカメラから見てゴールポストの裏側にある背景の色を取得できればよい。したがって、インペインティングしたい画像中の各画素に対して、ゴールポストが無かった際に静的背景3Dモデルと衝突する3次元位置（X, Y, Z）を求め、この3次元位置(X, Y, Z)が見えている他のカメラが撮影しているカメラ画像を参照することによって当該他のカメラからインペインティングを行うようにしても良い。なお、このようなインペインティング方法は前記第1インペインティング部201による被写体領域へのインペインティングにも適用できる。

前記仮想視点レンダリング部30において、前記背景3Dモデル位置設定部301は静的背景3Dモデルおよび静的構造物3Dモデルを取得し、これらをカメラパラメータに基づいてワールド座標系で示される3D空間中に配置する。このとき、ゴールポスト等の静的構造物の位置はスタジアムの設計やスポーツのルール上決まっていることから、カメラパラメータに基づいて所定の位置に配置できる。

動的背景マッピング部303は適用領域決定部303aを含み、適用領域決定部303aが決定した静的背景3Dモデルの所定領域に前記動的背景画像を適用する。前記適用領域決定部303aは、背景3Dモデル位置設定部301で設定された静的背景3Dモデルのどの部分に動的背景を適用するかどうかを決定する。このとき、仮想視点選択部302から得られる仮想視点の画角内に入っているポリゴンのみを適用領域に決定しても良い。

例えば図12に示した静的背景3Dモデルであれば、背景3Dモデル(1)と背景3Dモデル(2)のみに動的背景を適用するように決定する。上記以外に、観客席の部分のみを適用領域に決定したり、照明条件の変化により事前に用意した3Dモデルと大きく変化した領域のみを適用領域に決定しても良い。

本実施形態似よれば、動的背景画像を生成する際にカメラ画像の被写体領域のみならずゴールポストなどの静的構造物も背景テクスチャで模したようにしたので、動的背景画像がマッピングされた静的背景3Dモデル上に静的構造物3Dモデルを合成する際でも、その表示品質が低下することを防止できる。

1…仮想視点映像生成装置，10…シルエット抽出部，20…動的背景画像生成部，30…仮想視点レンダリング部，201…第1インペインティング部，202…静的構造物シルエット計算部，203…第2インペインティング部，301…背景3Dモデル位置設定部，302…仮想視点選択部，303…動的背景マッピング部，303ａ…適用領域決定部

Claims

視点の異なる複数のカメラ画像に基づいて背景が動的に変化する仮想視点映像をレンダリングする仮想視点映像レンダリング装置において、
静的背景3Dモデルを3D空間の適所へ配置する手段と、
仮想視点を選択する手段と、
カメラ画像の被写体領域を背景テクスチャで模した動的背景画像を生成する手段と、
前記動的背景画像を静的背景3Dモデルに仮想視点ベースでマッピングする手段とを具備したことを特徴とする仮想視点映像レンダリング装置。
各カメラ画像に基づいて被写体のシルエット画像を取得する手段を具備し、
前記動的背景画像を生成する手段は、カメラ画像ごとに被写体シルエット画像に基づいて被写体領域の背景テクスチャを空舞台画像から抽出し、当該背景テクスチャをカメラ画像の各被写体領域にインペインティングすることを特徴とする請求項1に記載の仮想視点映像レンダリング装置。
各カメラ画像に基づいて被写体のシルエット画像を取得する手段を具備し、
前記動的背景画像を生成する手段は、カメラ画像ごとに被写体シルエット画像に基づいて被写体領域を特定し、当該被写体領域をカメラ画像の周辺画素でインペインティングすることを特徴とする請求項１に記載の仮想視点映像レンダリング装置。
前記特定された被写体領域の輪郭を外方へ膨張させる手段を具備したことを特徴とする請求項１ないし３のいずれかに記載の仮想視点映像レンダリング装置。
静的背景3Dモデルへの動的背景画像の適用領域を決定する手段を更に具備し、
前記マッピングする手段は、各動的背景画像を静的背景3Dモデルの前記決定された提供領域にマッピングすることを特徴とする請求項１ないし４のいずれかに記載の仮想視点映像レンダリング装置。
前記配置する手段は、背景の3Dモデルを各カメラのカメラパラメータに基づいて3D空間の適所へ配置することを特徴とする請求項1ないし５のいずれかに記載の仮想視点映像レンダリング装置。
静的構造物3Dモデルを3D空間の適所へ配置する手段を更に具備し、
前記動的背景画像を生成する手段は、カメラ画像の被写体領域および静的構造物を背景テクスチャで模した動的背景画像を生成することを特徴とする請求項1ないし６のいずれかに記載の仮想視点映像レンダリング装置。
各カメラ画像に基づいて静的構造物のシルエット画像を取得する手段を具備し、
前記動的背景画像を生成する手段は、カメラ画像ごとに静的構造物シルエット画像に基づいて静的構造物領域を特定し、当該静的構造物領域をカメラ画像の周辺画素でインペインティングすることを特徴とする請求項６に記載の仮想視点映像レンダリング装置。
前記マッピングする手段は、仮想視点に近い複数のカメラ画像に基づいて生成した各動的背景画像をブレンディングして静的構造物3Dモデルへマッピングすることを特徴とする請求項1ないし８のいずれかに記載の仮想視点映像レンダリング装置。
コンピュータが、視点の異なる複数のカメラ画像に基づいて背景が動的に変化する仮想視点映像をレンダリングする仮想視点映像レンダリング方法において、
静的背景3Dモデルを3D空間の適所へ配置し、
仮想視点を選択し、
カメラ画像の被写体領域を背景テクスチャで模した動的背景画像を生成し、
前記動的背景画像を静的背景3Dモデルに仮想視点ベースでマッピングすることを特徴とする仮想視点映像レンダリング方法。
各カメラ画像に基づいて被写体のシルエット画像を取得し、
前記動的背景画像を生成する際に、カメラ画像ごとに被写体シルエット画像に基づいて被写体領域の背景テクスチャを空舞台画像から抽出し、当該背景テクスチャをカメラ画像の各被写体領域にインペインティングすることを特徴とする請求項１０に記載の仮想視点映像レンダリング方法。
静的構造物3Dモデルを3D空間の適所へ配置し、
前記動的背景画像を生成する際に、カメラ画像の被写体領域および静的構造物を背景テクスチャで模した動的背景画像を生成することを特徴とする請求項１０または１１に記載の仮想視点映像レンダリング方法。
視点の異なる複数のカメラ画像に基づいて背景が動的に変化する仮想視点映像をレンダリングする仮想視点映像レンダリングプログラムにおいて、
静的背景3Dモデルを3D空間の適所へ配置する手順と、
仮想視点を選択する手順と、
カメラ画像の被写体領域を背景テクスチャで模した動的背景画像を生成する手順と、
前記動的背景画像を静的背景3Dモデルに仮想視点ベースでマッピングする手順と、をコンピュータに実行させる仮想視点映像レンダリングプログラム。
各カメラ画像に基づいて被写体のシルエット画像を取得する手順を更に含み、
前記動的背景画像を生成する手順では、カメラ画像ごとに被写体シルエット画像に基づいて被写体領域の背景テクスチャを空舞台画像から抽出し、当該背景テクスチャをカメラ画像の各被写体領域にインペインティングすることを特徴とする請求項１３に記載の仮想視点映像レンダリングプログラム。
静的構造物3Dモデルを3D空間の適所へ配置する手順を更に含み、
前記動的背景画像を生成する手順では、カメラ画像の被写体領域および静的構造物を背景テクスチャで模した動的背景画像を生成することを特徴とする請求項１３または１４に記載の仮想視点映像レンダリングプログラム。