JP6921686B2

JP6921686B2 - 生成装置、生成方法、及びプログラム

Info

Publication number: JP6921686B2
Application number: JP2017166098A
Authority: JP
Inventors: 祐介中里
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2021-08-18
Anticipated expiration: 2037-08-30
Also published as: US10785469B2; US20190068955A1; JP2019045991A

Description

本発明は、仮想視点画像の生成方法に関する。

複数のカメラを異なる位置に設置してフィールドを撮影し、当該撮影により得られた複数の撮影画像を用いて自由視点画像（仮想視点画像）を生成する技術が注目されている。上記のような仮想視点画像を生成する技術によれば、非特許文献１のように、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することができる。これにより、通常の画像と比較してユーザに高臨場感を与えることができる。

また、非特許文献２のように、フィールドの三次元モデルとカメラの撮影画像とから抽出された背景画像に基づいて、仮想視点画像を描画する方法が知られている。

Ｔ．Ｍａｅｄａ，ｅｔａｌ， "ＦｒｅｅＶｉｅｗｐｏｉｎｔＶｉｄｅｏｆｏｒＳｐｏｒｔＥｖｅｎｔｓＵｓｉｎｇＭｕｌｔｉ−ＲｅｓｏｌｕｔｉｏｎＶｉｓｕａｌＨｕｌｌａｎｄＭｉｃｒｏ−ＦａｃｅｔＢｉｌｌｂｏａｒｄｉｎｇ，" ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＳｍａｒｔＩｎｆｏ−ＭｅｄｉａＳｙｓｔｅｍｓｉｎＡｓｉａ（ＳＩＳＡ２０１６）．２０１６．Ｓａｎｋｏｈ，Ｈｉｒｏｓｈｉ，ｅｔａｌ． "Ｆｒｅｅ−ｖｉｅｗｐｏｉｎｔＶｉｄｅｏＳｙｎｔｈｅｓｉｓｆｏｒＳｐｏｒｔｓＳｃｅｎｅｓＣａｐｔｕｒｅｄｗｉｔｈａＳｉｎｇｌｅＭｏｖｉｎｇＣａｍｅｒａ．" ＩＴＥＴｒａｎｓａｃｔｉｏｎｓｏｎＭｅｄｉａＴｅｃｈｎｏｌｏｇｙａｎｄＡｐｐｌｉｃａｔｉｏｎｓＶｏｌ．３，Ｎｏ．１，ｐｐ．４８−５７，２０１５．

しかしながら、三次元モデルが表す形状と実際のフィールドの形状に差異があると、仮想視点画像の画質が劣化する恐れがある。三次元モデルを高精度にすれば画質劣化は低減できるが、高精度なデータはデータ量が多く、描画等のための処理時間も膨大となる。

本発明は上記の課題を鑑みてなされたものであり、その目的は、高速に高画質な仮想視点画像を生成できるようにすることである。

上記の問題点を解決するために、本発明の生成装置は、例えば、以下の構成を有する。すなわち、複数の異なる方向から複数の撮影装置により撮影されるオブジェクトの三次元形状を示す第１の三次元モデルに基づいて、前記複数の撮影装置の少なくとも１つの撮影装置の撮影により得られる撮影画像における点と、前記第１の三次元モデルよりも精度が低い前記オブジェクトの三次元形状を示す第２の三次元モデルに関する点との対応関係を特定するための対応情報を取得する取得手段と、仮想視点に応じた仮想視点画像を、前記複数の撮影装置のうち１以上の撮影装置の撮影により得られる撮影画像と、前記取得手段により取得された対応情報と、に基づいて生成する生成手段とを有する。

本発明によれば、高速に高画質な仮想視点画像を生成することができる。

カメラシステムの一例を示す図である。対応情報の概念を説明するための図である。実施形態の生成装置のハードウェア構成の一例を示す図である。生成装置１００のソフトウェア構成の一例を示す図である。生成装置１００の情報処理の一例を示すフローチャートである。生成装置２００のソフトウェア構成の一例を示す図である。生成装置２００の情報処理の一例を示すフローチャートである。

以下、本発明の実施形態について図面に基づいて説明する。

＜実施形態１＞
＜概要＞
実施形態１の生成装置１００は、簡易三次元モデルとカメラの撮影画像の対応情報を取得する。そして、本実施形態の生成装置１００は、ランタイム時（仮想視点画像の描画時）において、当該対応情報に基づいて、カメラによる撮影画像を簡易三次元モデルに張り付けた上で、仮想視点画像を生成する。なお、上述の対応情報は、簡易三次元モデルよりも高精度の三次元モデルのデータに基づいて生成される。また、本明細書では原則として「画像」という言葉を用いて実施形態を説明するが、静止画に限っているわけではなく、動画も含む。

本実施形態では、図１に示すように、複数のカメラ１００１がフィールド１００２をそれぞれ異なる方向から撮影するシステムを想定している。そして、本実施形態の生成装置１００は、上記複数のカメラ１００１の撮影により得られる複数の撮影画像に基づいて仮想視点画像を生成する。なお、フィールド１００２には人物などのオブジェクト１００３が含まれ得る。なお仮想視点とは、ユーザやシステムによって指定される仮想的な視点である。仮想視点画像と同様の概念を表す言葉として、自由視点画像や任意視点画像などもある。

図２は、簡易三次元モデルとカメラの撮影画像の対応関係を説明するための図である。三次元モデル２００４は、実際のフィールド（例えばスポーツの会場）の三次元形状を高精度に表した三次元モデルである。また、簡易三次元モデル２００１は、実際のフィールドの簡略的な三次元形状を表した三次元モデルである。すなわち、三次元モデル２００４と簡易三次元モデル２００１は、共に同じフィールドの三次元形状を表すモデルであるが、三次元モデル２００４のほうが簡易三次元モデル２００１よりも高精度にその形状を表している。

簡易三次元モデル２００１にカメラ１００１の撮影画像を張り付けて簡易三次元モデル２００１のテクスチャを生成すると、実際の形状とモデル形状の差異の影響により、仮想視点画像の画質が低下してしまう恐れがある。

そこで本実施形態では、実際の形状を高精度に表している三次元モデル２００４とカメラパラメータを参照することによって、カメラ１００１の撮影画像２００５と簡易三次元モデル２００１のテクスチャとの対応を示す対応情報を事前に準備する。そして、ランタイム時（仮想視点映像の描画時）には、その対応情報に基づいて、カメラ１００１の撮影画像２００５を簡易三次元モデル２００１に貼り付け、その結果を用いて描画処理を行うことで、高速に高画質な仮想視点画像を生成する。

＜ハードウェア構成＞
図３は、本実施形態における生成装置１００のハードウェア構成の一例を示す図である。生成装置１００は、ハードウェア構成として、ＣＰＵ１１と、ＲＯＭ１２と、ＲＡＭ１３と、表示部１５と、入力部１６と、記憶部１７と、を含む。ＣＰＵ１１は、システムバスに接続された生成装置１００の各種デバイスの制御を行う。ＲＯＭ１２は、ＢＩＯＳのプログラムやブートプログラムを記憶する。ＲＡＭ１３は、ＣＰＵ１１の主記憶装置として使用される。表示部１５は、ＣＰＵ１１等における処理結果を表示するためのディスプレイである。入力部１６は、ユーザによる操作入力等を受け付ける。入力部１６は、例えば、タッチパネル、マウス、キーボード等からの操作入力を受け付けてもよいし、リモコンからの操作入力を受け付けても良い。記憶部１７は、ＯＳのプログラムやＯＳ上で動作する各種アプリケーションのプログラム等を格納するためのＨＤＤなどである。通信部１８は、カメラ１００１等と通信するための通信モジュールである。

上記構成において、生成装置１００の電源がＯＮになると、ＣＰＵ１１は、ＲＯＭ１２に格納されたブートプログラムに従って、記憶部１７からＯＳのプログラム等をＲＡＭ１３に読み込み、処理を実行することによって、生成装置１００の機能を実現する。つまり、生成装置１００のＣＰＵ１１がプログラムに基づき処理を実行することによって、後述する生成装置１００のソフトウェア構成の機能、及び、フローチャートの処理が実現される。

＜ソフトウェア構成＞
図４は、生成装置１００のソフトウェア構成の一例を示す図である。図４に示すように、生成装置１００は、モデル取得部１０１と、対応情報取得部１０２と、仮想視点取得部１０３と、画像取得部１０４と、描画部１０５を有する。

モデル取得部１０１は、簡易三次元モデル２００１、三次元モデル２００４、及び、各カメラ１００１のカメラパラメータを取得する。三次元モデル２００４は、簡易三次元モデル２００１よりも、撮影対象の形状をより高精度に表している。カメラパラメータは複数のカメラ１００１のそれぞれの位置、姿勢、焦点距離、主点位置、及び歪み情報などを含む。簡易三次元モデル２００１及び三次元モデル２００４は、メッシュモデルであり、三次元形状を構成する頂点の座標、その頂点を結んだ面情報、及び、各面とテクスチャとの対応を示す情報を含む。

対応情報取得部１０２は、カメラ１００１の撮影画像２００５と簡易三次元モデル２００１との対応情報を取得する。対応情報は、簡易三次元モデル２００１に関する座標と、複数のカメラ１００１のうち１以上のカメラ１００１の撮影画像２００５の座標との対応関係を表す情報である。なお本実施形態では、対応情報が、簡易三次元モデル２００１のテクスチャと、各カメラ１００１の各画素の対応関係を表す二次元マップである場合の例を中心に説明する。この場合、対応情報が示す２次元マップの各セルには、対応するカメラ１００１の撮影画像２００５の座標情報が格納される。

上記の対応情報を取得するため、対応情報取得部１０２は、カメラ１００１の撮影画像２００５の座標と三次元モデル２００４の座標との対応関係を表す第１対応関係情報を取得する。また、対応情報取得部１０２は、三次元モデル２００４の座標と簡易三次元モデル２００１の座標との対応関係を表す第２対応関係情報を取得する。

第１対応関係情報は、モデル取得部１０１で取得されたカメラパラメータに基づいて、カメラ１００１の撮影画像２００５の各座標を三次元モデル２００４に投影するための投影処理を行うことにより取得される。

また、第２対応関係情報は、三次元モデル２００４と簡易三次元モデル２００１の位置関係が既知であることを利用して取得される。より具体的には、三次元モデル２００４と簡易三次元モデル２００１を重ね合わせることにより、三次元モデル２００４の座標と簡易三次元モデル２００１の座標との対応関係が得られる。本実施形態では、図２に示すように、三次元モデル２００４の座標を簡易三次元モデル２００１の面に投影するための投影処理を行うことで対応関係を得る場合の例を中心に説明する。

また、簡易三次元モデル２００１とそのテクスチャマップの対応関係は既知であるため、当該対応関係に基づいてカメラ１００１の撮影画像２００５の座標と簡易三次元モデル２００１のテクスチャの対応関係を得ることができる。つまり、対応情報取得部１０２は、第１対応関係情報、第２対応関係情報、及び、簡易三次元モデル２００１とテクスチャとの対応関係に基づいて対応情報を生成する。

より具体的には、生成装置１００は、図２のテクスチャマップ２００６で示すテクスチャマップにおける各セルの座標から、簡易三次元モデル２００１の座標へと対応付ける。そして、簡易三次元モデル２００１の座標に対応する三次元モデル２００４の座標と、その座標に対応するカメラ１００１の撮影画像２００５の座標を対応付ける。このようにして対応情報は得られる。図２の例ではテクスチャマップ２００６内の斜線領域２００７の座標に対応するカメラ１００１の撮影画像２００５の座標が記録される。

仮想視点取得部１０３は、仮想視点情報を取得する。仮想視点情報は仮想視点（仮想カメラ）の位置、姿勢、主点位置、及び焦点距離などからなる仮想カメラパラメータである。本実施形態では、仮想視点情報が事前に記憶部１７に保存されており、仮想視点取得部１０３が記憶部１７から１フレーム分ずつ順に仮想視点情報を読み込む場合の例を中心に説明する。

画像取得部１０４は、各カメラ１００１により得られた撮影画像を取得する。本実施形態では、各カメラ１００１の撮影画像が事前に記憶部１７に保存されており、画像取得部１０４が記憶部１７から１フレームずつ順に撮影画像を読み込む場合の例を中心に説明する。ただし、画像取得部１０４が、カメラ１００１から直接的に撮影画像を取得するようにしても良い。

描画部１０５は、モデル取得部１０１、対応情報取得部１０２、仮想視点取得部１０３、及び、画像取得部１０４により取得された三次元モデル、対応情報、各カメラ１００１の撮影画像２００５、及び仮想視点情報に基づき、仮想視点画像を生成（描画）する。より具体的には、描画部１０５は、対応情報取得部１０２により取得された対応情報を参照して、簡易三次元モデル２００１のテクスチャマップ２００６に、対応するカメラ１００１の撮影画像２００５の画像データ（画素情報）を貼り付ける。これにより、簡易三次元モデル２００１にテクスチャが貼り付けられる。そして描画部１０５は、テクスチャが貼り付けられた簡易三次元モデル２００１を仮想視点から見たシーンを表す仮想視点画像を三次元ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）の技術を用いて描画する。描画結果は表示部１５に表示させてもよいし、記憶部１７に記憶させてもよいし、通信部１８により他の装置へ送信されるようにしてもよい。

本実施形態では、図４で示す各機能がソフトウェアの機能である例を説明したが、図４の機能ブロックの全てまたは一部がＣＰＵ１１以外のハードウェアプロセッサにより実行されるようにしてもよい。ＣＰＵ１１以外のハードウェアプロセッサとは、例えば、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＤＳＰ（デジタルシグナルプロセッサ）等である。以下の実施形態においても同様である。また、生成装置１００は複数のＣＰＵ１１を有するようにしてもよい。

＜処理の流れ＞
図５のフローチャートを用いて、生成装置１００の情報処理の流れを説明する。図５の処理は、仮想視点画像の生成開始指示に応じて開始される。また本実施形態では、図５のフローチャートの処理が、ＣＰＵ１１により実行される場合の例を中心に説明する。ただし、各ステップの少なくとも一部が、専用のハードウェアプロセッサにより実現されてもよい。

Ｓ１０１０において、モデル取得部１０１は、簡易三次元モデル２００１と三次元モデル２００４、及び、各カメラ１００１のカメラパラメータを取得する。Ｓ１０２０において、対応情報取得部１０２は、カメラ１００１の撮影画像２００５の座標と簡易三次元モデル２００１のテクスチャとの対応関係を示す対応情報を取得する。対応情報及びその取得方法の詳細は、上述の通りである。

Ｓ１０３０は、図５に係る処理を終了するまでＳ１０４０からＳ１０６０の処理が繰り返されることを示すステップである。なお繰り返しの度にフレームが１つずつ進む。Ｓ１０４０において、仮想視点取得部１０３は、仮想視点情報を１フレーム分取得する。Ｓ１０５０において、画像取得部１０４は、各カメラ１００１の撮影画像２００５を１フレーム分取得する。

Ｓ１０６０において、描画部１０５は、Ｓ１０４０で取得した仮想視点からのシーンを示す仮想視点画像を描画（生成）する。生成された仮想視点画像は表示部１５において表示されてもよいし、記憶部１７に記憶されてもよいし、通信部１８を介して他の装置へ送信されるようにしてもよい。描画部１０５は、仮想視点画像の生成に当たり、Ｓ１０１０にて取得された三次元モデル、Ｓ１０２０にて取得された対応情報、Ｓ１０４０にて取得された仮想視点情報、及び、Ｓ１０５０にて取得された複数のカメラ１００１の撮影画像２００５を用いる。ただし、仮想視点画像の生成にあたり、必ずしも複数のカメラ１００１のうちすべての撮影画像２００５が必要になるとは限らない。仮想視点（仮想カメラ）の位置や姿勢などに応じて、必要な１以上のカメラ１００１の撮影画像２００５を用いることで仮想視点画像は描画（生成）される。

＜変形例＞
続いて本実施形態の変形例について説明する。なお、以下に説明する変形例は、実施形態１のみならず、後述する実施形態２に対しても適用可能であることに留意されたい。

上述の実施形態では、モデル取得部１０１が、簡易三次元モデル２００１と三次元モデル２００４、及び、各カメラ１００１のカメラパラメータを取得する例を中心に説明した。しかしながら、モデル取得部１０１が必ずしも上記すべての情報を取得しなければならないとは限らない。例えば、対応情報が生成装置１００以外の装置によりあらかじめ生成されているのであれば、対応情報取得部１０２は、三次元モデル２００４やカメラパラメータを取得する必要はない。

また、上述の実施形態では、三次元モデルがメッシュモデルである場合の例を中心に説明した。しかしこれに限らず、自由曲面モデル、ソリッドモデル、または三次元点群などであっても良く、その形式を限定しない。つまり、三次元モデルは、三次元形状を表す情報であればよい。

また、上述の実施形態では、モデル取得部１０１が取得する三次元モデルに、テクスチャマップの情報が含まれている場合の例を中心に説明した。しかしこれに限らない。三次元モデルにテクスチャマップの情報が含まれていなければ、モデル取得部１０１は、公知の技術を用いることによってテクスチャマップを生成すればよい。また、カメラ１００１の撮影画像２００５自体をテクスチャマップとすることも可能である。

また、対応情報の形式や生成方法は、上述した形式や生成方法に限らない。つまり、対応情報取得部１０２は、カメラ１００１の撮影画像２００５の座標と簡易三次元モデル２００１に関する座標との対応関係を示した情報を対応情報として取得すれば良い。例えば、対応情報は、各カメラ１００１の撮影画像２００５の座標と簡易三次元モデル２００１のテクスチャの座標との対応を表す二次元マップであっても良い。また、対応情報は、例えば、各カメラ１００１の撮影画像２００５の座標と簡易三次元モデル２００１の表面上の座標との対応を表す二次元マップであっても良い。また、対応情報は、各カメラ１００１の撮影画像２００５の座標とテクスチャマップ上の座標の組のリストや集合であっても良い。また、対応情報を二次元マップの形式で表す場合には、各カメラ１００１の画素に対するテクスチャマップの座標を格納するようにしても良いし、逆に、テクスチャマップの各セルに、撮影画像２００５の座標を格納するようにしても良い。

また、描画部１０５が２以上のカメラ１００１による撮影画像２００５に対してブレンディング処理などを行うことによって仮想視点画像を生成することが想定される場合には、カメラ１００１ごとの二次元マップが対応情報として取得されると良い。ただし、対応情報の形式はこの例に限らず、例えば、１つの二次元マップの各セルにカメラ１００１の識別情報と撮影画像２００５の座標の組の集合が格納される形式であっても良い。

また、本実施形態では、対応情報の形式が、二次元マップの各セルから、対応するカメラ１００１の撮影画像２００５の画素（座標）へ対応付ける形式である場合の例を中心に説明したが、これに限らない。例えば、撮影画像２００５の画素（座標）から二次元マップへ対応付けるような形式であっても良い。このような形式の対応情報を生成する場合、例えば、以下の方法を採用することができる。すなわち、撮影画像２００５の画素から三次元モデル２００４、三次元モデル２００４から簡易三次元モデル２００１、簡易三次元モデル２００１からテクスチャマップ２００６へとたどれば良い。

また、上述の実施形態では、簡易三次元モデル２００１と三次元モデル２００４の対応は、両者の位置関係が既知であることを利用して、両者を重ね合わせることによって対応関係を特定する例を中心に説明した。しかしこの方法にも種々のバリエーションが存在することに留意されたい。すなわち、簡易三次元モデル２００１の各座標を所定の軸に沿って三次元モデル２００４に投影することで、対応する座標を求めても良い。また、三次元モデル２００４の各座標を所定の軸に沿って簡易三次元モデル２００１に投影することで、対応する座標を求めても良い。また、他の方法として、一方の三次元モデルの座標について、その座標の法線方向に、他方の三次元モデルに対応する座標を探索することによって、両者を対応付けるようにしても良い。対応する座標の探索方法としては、投影先の近傍点を探索してもよいし、対応付けた先が面であるならば、面に投影した点の座標が探索されるようにしても良いし、注目点とその探索方向からなる直線と面との交点の座標が探索されるようにしても良い。

また、対応情報の生成方法にも種々のバリエーションがあり、上述の方法に限定されない。例えば、三次元モデル２００４に基づいて簡易三次元モデル２００１のハイトマップを生成し、そのハイトマップを反映した簡易三次元モデル２００１とカメラ１００１の撮影画像２００５とを対応付けることで対応情報が取得されるようにしても良い。ハイトマップは以下のような手順で生成できる。すなわち、対応情報取得部１０２は、三次元モデル２００４と簡易三次元モデル２００１を重ね合わせて対応関係を特定する。そして、対応情報取得部１０２は、簡易三次元モデル２００１の各面の二次元マップの各セルに対応する三次元モデル２００４上の点までの距離を格納することでハイトマップを生成できる。なお、三次元モデル２００４と簡易三次元モデル２００１の座標系が合っていない場合は、ＩＣＰ（ＩｔｅｒａｔｉｖｅＣｌｏｓｅｓｔＰｏｉｎｔ）などの公知の方法で両者の位置合わせを行えばよい。

三次元モデル２００４と簡易三次元モデル２００１の対応付けは、例えば、以下のように行えばよい。すなわち、簡易三次元モデル２００１の各面に対応する二次元マップを生成する。そして、その二次元マップの各セルに対応する簡易三次元モデル２００１の表面点から、その表面点の法線方向にある三次元モデル２００４の表面点を探索し、両者を対応付ける。表面点間の距離をハイトマップの高さ情報として、二次元マップのセルに格納する。なお、簡易三次元モデル２００１の表面点から三次元モデル２００４の表面点を探索するのではなく、三次元モデル２００４の表面点から簡易三次元モデル２００１の表面点を探索するようにしても良い。また探索方向も法線方向に限らず、所定の軸方向としても良いし、最近傍の表面点と対応付けるようにしても良い。簡易三次元モデル２００１のハイトマップとテクスチャマップは同一面に対する二次元マップであるので、ハイトマップとテクスチャマップの対応は一意に決定できる。したがって、各カメラ１００１のカメラパラメータに基づいて、カメラ１００１の撮影画像２００５の各画素（座標）と、ハイトマップによる形状変化を反映した簡易三次元モデル２００１の表面点の対応関係も特定できる。さらに、ハイトマップに対応するテクスチャマップに各画素を対応付ければ、対応情報が生成できる。

また、上述の実施形態では、仮想視点情報が、仮想視点（仮想カメラ）の位置、姿勢、主点位置、及び焦点距離などからなる仮想カメラパラメータである場合の例を中心に説明した。しかしこの例に限らない。例えば、仮想カメラの主点位置や焦点距離などのパラメータが固定値としてシステムで設定されており、仮想カメラの位置及び姿勢のみが自由に設定できる場合などもありうる。このような場合、仮想視点取得部１０３は、仮想カメラの位置及び姿勢の情報のみを仮想視点情報として取得することもありうる。

また、仮想視点情報として、仮想カメラの画角やズーム情報が取得されるようにしても良いし、レンズ歪みのパラメータが取得されるようにしても良い。また仮想視点情報は球状やパノラマ状の全方位カメラを表すパラメータであっても良い。また、仮想視点情報の取得方法は記憶部１７から読み出す方法に限らず、キーボードやマウス、コントローラー、ジョイスティック、３Ｄマウス、イナーシャセンサなどの入力デバイスによるユーザ操作に基づいて取得されるようにしても良い。この場合、入力部１６は、入力デバイスからの各種入力を受け付ける。また、入力デバイスによる仮想視点情報の入力方法としては、例えば、サッカーの試合中にリアルタイムでユーザが仮想カメラを操縦するようなケースも考えられるし、ＣＧ作成のためのアプリケーションなどを利用してユーザが入力するケースも考えられる。また、人物などのオブジェクト１００３やボールなどの動きに応じて自動的に仮想視点情報が決定されるケースも考えられる。仮想視点取得部１０３は、自動的に決定された仮想視点情報を取得することもできる。

また、図５に示すフローチャートで示す各ステップのうち、例えば、Ｓ１０１０及びＳ１０２０は、事前に行われても良い。すなわち、第１ユーザ操作に基づいて、予めＳ１０１０及びＳ１０２０の処理が完了し、第２ユーザ操作に基づいて、Ｓ１０３０以降の処理が行われるようにしても良い。また、対応情報は再利用することも可能であるため、Ｓ１０３０の処理を実行するたびにＳ１０１０及びＳ１０２０の処理を行わなければならないわけではない。つまり、Ｓ１０１０及びＳ１０２０の処理は省略可能であるケースが存在する。

また、カメラ１００１はカラーカメラでもグレーカメラでもよく、ＲＧＢ−Ｄカメラや三次元計測装置であってもよい。また、画像取得部１０４は、カメラ１００１から撮影画像２００５を直接取得してもよいし、記憶部１７から撮影画像２００５を読み出すことによって取得しても良い。また、撮影画像２００５は公知の技術を用いて制振処理された撮影画像であっても良い。

また、描画部１０５は、対応情報に基づいて簡易三次元モデル２００１のテクスチャマップに撮影画像２００５の画素情報を貼り付ける際に、２以上のカメラ１００１間で色が合うように公知の方法で色調整を行っても良い。また、描画部１０５は、テクスチャマップに２以上カメラ１００１間で重複する撮影領域がある場合は、当該２以上のカメラ１００１の撮影画像２００５をブレンディングすることによってテクスチャマップを生成してもよい。ブレンディングの割合は平均でも良いし、テクスチャマップに対応する面に対するカメラ１００１の向きや位置に応じた比率に基づいてブレンディングしてもよい。また、描画部１０５は、どのカメラ１００１にも対応しなかったテクスチャマップの領域に対して、所定の色やテクスチャを貼り付けるようにしても良いし、テクスチャマップの他の領域からテクスチャをコピーしてもよい。また、公知の画像欠損修復技術を用いて埋めてもよい。

また、描画部１０５は、テクスチャを貼り付けた簡易三次元モデル２００１に基づく描画を行う際に、撮影時の時刻や天候に基づいて光源を設定しても良い。また、描画部１０５により描画（生成）された仮想視点画像は、表示部１５において表示されるようにしても良いし、記憶部１７に保存しても良いし、ネットワークを通じて視聴者の端末へ送信しても良い。

＜実施形態２＞
＜概要＞
次に本発明の実施形態２について、実施形態１との差異を中心に説明する。本実施形態では、簡易三次元モデル２００１とカメラ１００１の撮影画像２００５との対応関係を示す対応情報に基づいて背景を描画し、当該背景に前景画像を合成して仮想視点画像を生成する方法について述べる。なお本実施形態では、動きのある物体を前景、動きのない物体を背景として前景背景分離を行う例を中心に説明する。なお本実施形態に係る生成装置２００のハードウェア構成は実施形態１と同様であるため説明を省略する。

＜ソフトウェア構成＞
図６は本実施形態の生成装置２００のソフトウェア構成の一例を示す図である。生成装置２００は、モデル取得部２０１と、対応情報取得部２０２と、仮想視点取得部２０３と、画像取得部２０４と、描画部２０５と、前景背景分離部２０６を有する。モデル取得部２０１〜画像取得部２０４は実施形態１のモデル取得部１０１〜画像取得部１０４と同様である。

前景背景分離部２０６は、画像取得部２０４により取得された各カメラ１００１の撮影画像２００５を前景領域と背景領域に分離し、前景画像（前景領域の画像）と、背景画像（撮影画像２００５のうち前景領域の穴を埋めた画像）を生成する。前景背景分離の方法については、種々の方法が知られている。一例として背景差分法を紹介する。背景差分法は、動きのある物体が存在しないフィールドを複数のカメラ１００１により予め撮影しておき、当該撮影により得られた撮影画像を前景無し画像として予め保存する。そして、当該前景無し画像と、（例えば試合中の）撮影画像との差分に基づいて前景領域が抽出される。本実施形態では、前景背景分離部２０６が上述の背景差分法により前景背景分離を行う場合の例を中心に説明する。また、前景背景分離部２０６は、保存されている前景無し画像と、上述のようにして生成した背景画像とを所定の重みをかけて足し合わせることによって、背景画像を更新することができる。

描画部２０５は、前景背景分離部２０６により生成された各カメラ１００１の前景画像及び背景画像に加え、簡易三次元モデル２００１、対応情報、及び仮想視点情報などに基づき、仮想視点画像を描画（生成）する。具体的には、背景画像に関しては実施形態１の描画部１０５と同様の方法で描画する。前景画像に関しては、非特許文献１に記載の技術を用いて描画し、描画した背景画像に重畳する。描画結果は表示部１５に表示させてもよいし、記憶部１７に記憶させてもよいし、通信部１８により他の装置へ送信されるようにしてもよい。

＜処理の流れ＞
図７のフローチャートを用いて、生成装置２００の情報処理の流れを説明する。本実施形態の処理は図５に示す実施形態１のフローチャートと同様の部分があり、以下ではその差分について説明する。

Ｓ２０１０〜Ｓ２０５０は、実施形態１のＳ１０１０〜Ｓ１０５０と同様である。Ｓ２０５５において、前景背景分離部２０６は、Ｓ２０５０で取得された各カメラ１００１の撮影画像２００５から前景領域と背景領域を分離し、前景画像と背景画像を生成する。

Ｓ２０６０において、描画部２０５は、Ｓ２０４０で取得された仮想視点情報に基づく仮想視点画像を描画（生成）する。描画には前景画像及び背景画像に加え、簡易三次元モデル２００１、対応情報、及び仮想視点情報が用いられる。

＜変形例＞
画像取得部１０４により取得された画像がすでに前景画像と背景画像に分離されている場合、前景背景分離部２０６による前景背景分離処理は不要である。また、前景背景分離処理が図７のフローチャートの処理の開始前に完了している場合、Ｓ２０５５の処理は不要、又は簡略化できる。

また、上述の実施形態では、前景背景分離の方法として背景差分法を用いる場合の例を中心に説明したが、これに限らない。別の例として、例えば、機械学習により前景領域と背景領域を学習した結果を用いて、前景領域と背景領域を分類しても良い。また、隣接するカメラ１００１の撮影画像２００５を地面に投影して差分をとることにより、地面を背景領域、立体物を前景領域として分離する方法を用いても良い。また、各カメラ１００１の撮影画像２００５の時間差分に基づいて前景領域を特定する方法を採用しても良い。

また、上述の実施形態では、描画部２０５が、前景画像と背景画像を含む仮想視点画像を生成する場合の例を中心に説明した。しかしこれに限らない。例えば、仮想視点情報に基づく前景画像のみを生成しても良いし、仮想視点情報に基づく背景画像のみを生成しても良い。また、前景画像の描画方法は非特許文献１の方法に限らず、仮想視点画像の生成に関するどのような公知の技術を用いてもかまわない。例えば、２以上のカメラ１００１により撮影された２以上の撮影画像２００５を変形させて合成するイメージベースレンダリングと呼ばれる方法を利用してもよい。また、例えば、デプスや三次元形状を復元して利用するモデルベースレンダリングと呼ばれる方法を利用しても良い。また、仮想視点からのシーンを表す仮想視点画像を描画する際に、背景画像の上（仮想カメラから見て手前側）に前景画像を合成してもよいし、前景画像と背景画像のデプス情報に基づいて奥行判定を行った上で合成しても良い。また復元した前景の三次元モデルと背景の三次元モデル（対応情報に基づいてテクスチャが貼り付けられ簡易三次元モデル２００１）を三次元ＣＧの技術を用いて同時に描画してもよい。

上述の本実施形態によれば、動きのある物体が存在するシーンであっても高速に高画質な仮想視点画像を描画することができる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給する。そして、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。

１００生成装置
１０１モデル取得部
１０２対応情報取得部
１０３仮想視点取得部
１０４画像取得部
１０５描画部

Claims

複数の異なる方向から複数の撮影装置により撮影されるオブジェクトの三次元形状を示す第１の三次元モデルに基づいて、前記複数の撮影装置の少なくとも１つの撮影装置の撮影により得られる撮影画像における点と、前記第１の三次元モデルよりも精度が低い前記オブジェクトの三次元形状を示す第２の三次元モデルに関する点との対応関係を特定するための対応情報を取得する取得手段と、
仮想視点に応じた仮想視点画像を、前記複数の撮影装置のうち１以上の撮影装置の撮影により得られる撮影画像と、前記取得手段により取得された対応情報と、に基づいて生成する生成手段とを有することを特徴とする生成装置。
前記取得手段は、前記複数の撮影装置の少なくとも１つの撮影装置による撮影により得られる撮影画像の点と、前記第１の三次元モデルの点との対応関係を表す第１対応関係情報と、前記第１の三次元モデルの点と前記第２の三次元モデルの点との対応関係を表す第２対応関係情報とに基づいて、前記対応情報を生成することを特徴とする請求項１に記載の生成装置。
前記第１対応関係情報は、前記少なくとも１つの撮影装置の位置及び姿勢に関するパラメータに基づいて生成されることを特徴とする請求項２に記載の生成装置。
前記第２対応関係情報は、前記第１の三次元モデルを構成する点に対応する前記第２の三次元モデルを構成する点を決定するための投影処理を実行することに基づいて生成されることを特徴とする請求項２又は３に記載の生成装置。
前記対応情報は、前記複数の撮影装置の少なくとも１つの撮影装置による撮影により得られる撮影画像の点と、前記第２の三次元モデルに対応するテクスチャにおける点とが対応付けられた情報であることを特徴とする請求項１乃至４のうち何れか１項に記載の生成装置。
前記対応情報は、前記複数の撮影装置の少なくとも１つの撮影装置による撮影により得られる撮影画像の点と、前記第２の三次元モデルによって表される形状の表面に位置する点とが対応付けられた情報であることを特徴とする請求項１乃至４のうち何れか１項に記載の生成装置。
前記生成手段は、
前記複数の撮影装置の撮影により得られる撮影画像の画素情報のうち、前記第２の三次元モデルのテクスチャにおける点に対応付けるべき画素情報を、前記対応情報を用いることによって決定し、
決定された画素情報を、前記第２の三次元モデルのテクスチャとして用いることによって、前記仮想視点画像を生成することを特徴とする請求項１乃至６のうち何れか１項に記載の生成装置。
前記取得手段は、前記対応情報を記憶する記憶装置から前記対応情報を取得することを特徴とする請求項１乃至７のうち何れか１項に記載の生成装置。
前記複数の撮影装置の撮像により得られる複数の撮影画像から所定のオブジェクトの領域を抽出する抽出手段を有し、
前記生成手段は、前記仮想視点画像のうち前記所定のオブジェクトを除いた背景領域の画像を前記複数の撮影装置のうち１以上の撮影装置の撮影により得られる撮影画像と前記対応情報を用いることによって生成し、前記仮想視点画像のうち前記所定のオブジェクトの領域を前記抽出手段により抽出された画像に基づいて生成することを特徴とする請求項１乃至８のうち何れか１項に記載の生成装置。
複数の異なる方向から複数の撮影装置により撮影されるオブジェクトの三次元形状を示す第１の三次元モデルに基づいて、前記複数の撮影装置の少なくとも１つの撮影装置の撮影により得られる撮影画像における点と、前記第１の三次元モデルよりも精度が低い前記オブジェクトの三次元形状を示す第２の三次元モデルに関する点との対応関係を特定するための対応情報を取得する取得工程と、
仮想視点に応じた仮想視点画像を、前記複数の撮影装置のうち１以上の撮影装置の撮影により得られる撮影画像と、前記取得工程により取得された対応情報と、に基づいて生成する生成工程とを有することを特徴とする生成方法。
前記取得工程は、前記複数の撮影装置の少なくとも１つの撮影装置による撮影により得られる撮影画像の点と、前記第１の三次元モデルの点との対応関係を表す第１対応関係情報と、前記第１の三次元モデルの点と前記第２の三次元モデルの点との対応関係を表す第２対応関係情報とに基づいて、前記対応情報を生成することを特徴とする請求項１０に記載の生成方法。
前記生成工程は、
前記複数の撮影装置の撮影により得られる撮影画像の画素情報のうち、前記第２の三次元モデルのテクスチャにおける点に対応付けるべき画素情報を、前記対応情報を用いることによって決定する決定工程を有し、
前記仮想視点画像は、決定された画素情報を、前記第２の三次元モデルのテクスチャとして用いることによって生成されることを特徴とする請求項１０又は１１に記載の生成方法。
コンピュータを請求項１乃至９のうち何れか１項に記載の生成装置の各手段として動作させるためのプログラム。