JP2021026435A

JP2021026435A - 仮想視点映像を生成する装置、システム、方法、及びプログラム

Info

Publication number: JP2021026435A
Application number: JP2019142915A
Authority: JP
Inventors: 町井　律雄; Ritsuo Machii; 律雄町井; 嵯峨　吉博; Yoshihiro Saga; 吉博嵯峨
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2021-02-22

Abstract

【課題】複数の注視領域を設定する場合に、仮想視点映像の生成時間の増加を抑えること。【解決手段】本発明の一実施形態では、少数の撮像画像の撮像画像を用いて簡易３次元モデルを生成し、該簡易３次元モデルに基づいて、ユーザは仮想カメラパスを決定する。そして、注視領域における仮想カメラパスの開始時刻と終了時刻とに従い、多数の撮像装置の撮像画像を用いて、これら時刻間の高精度３次元モデルを、注視領域毎に生成する。そして、この高精度３次元モデルに基づいて、仮想視点画像を生成する。【選択図】図４

Description

本発明は、被写体を複数の方向から撮影した画像と仮想視点情報とに基づいて、仮想視点映像を生成する技術に関する。

昨今、複数の撮像装置を異なる位置に設置して多視点から被写体を撮像し、当該撮像により得られた複数視点画像を用いて仮想視点画像や３次元モデルを生成する技術が注目されている。このような複数視点画像に基づいて仮想視点画像を生成する技術によれば、例えば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の画像と比較してユーザに高臨場感を与えることが出来る。

仮想視点画像を生成する方法として、特許文献１は、簡易３次元モデルを使って仮想視点の移動経路を決定し、高精度な３次元モデルを使って、決定した仮想視点の移動経路に対応させて仮想視点映像を生成する方法を開示している。

特開２０１８−０７３１０５号公報

しかしながら、特許文献１では、複数の撮像装置の一部が所定の注視領域を撮像し、複数の撮像装置の他の一部が、別の注視領域を撮像するような構成については考慮されていない。複数（ｎ（２以上の整数）とする）の注視領域を設定する場合、撮像装置の台数がｎ倍に増大し、画像処理に必要な時間も増大してしまう。

そこで本開示は、上記の課題に鑑みて、複数の注視領域を設定する場合に、仮想視点映像の生成時間の増加を抑えることを目的とする。

本発明の一実施形態は、第１の注視領域を撮像する複数の撮像装置のうち、第１の数の撮像装置の撮像画像に基づき、該第１の注視領域における３次元形状データを生成し、第２の注視領域を撮像する複数の撮像装置のうち、第２の数の撮像装置の撮像画像に基づき、該第２の注視領域における３次元形状データを生成する第１の生成手段と、前記第１の生成手段により生成された３次元形状データに基づいて指定された仮想視点の移動経路に関する情報を取得する取得手段と、前記取得手段により取得された移動経路に、前記第１の注視領域に対応する第１の移動経路と、前記第２の注視領域に対応する第２の移動経路が含まれる場合、前記第１の移動経路に応じて、前記第１の注視領域を撮像する前記複数の撮像装置のうち、前記第１の数より大きい数の撮像装置の撮像画像に基づき、該第１の注視領域における３次元形状データを生成し、前記第２の移動経路に応じて、前記第２の注視領域を撮像する前記複数の撮像装置のうち、前記第２の数より大きい数の撮像装置の撮像画像に基づき、該第２の注視領域における３次元形状データを生成する第２の生成手段と、前記第２の生成手段により生成される３次元形状データに基づき、仮想視点映像を生成する第３の生成手段と、を有することを特徴とする装置である。

本開示によれば、複数の注視領域を設定する場合に、仮想視点映像の生成時間の増加を抑えることができる。

第１の実施形態における多視点画像生成システムの概略図。第１の実施形態における仮想視点映像の生成システムの機能構成を示すブロック図。第１の実施形態における画像処理装置のハードウェア構成を示すブロック図。第１の実施形態における仮想視点映像を生成する処理のフローチャート。第１の実施形態の適用例を説明するための図。

以下、添付図面を参照し、本開示の好適な実施形態について説明する。尚、以下に説明する実施形態は、本開示を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施形態の一つである。

尚、本開示における仮想視点画像は、仮想的な視点から被写体を撮影した場合に得られる画像である。言い換えると、仮想視点画像は、指定された仮想的な視点における見えを表す画像である。仮想的な視点（所謂、仮想視点）は、ユーザにより指定されても良いし、画像解析の結果等に基づいて自動的に設定されても良い。すなわち仮想視点画像には、ユーザが任意に指定した視点に対応する任意視点画像（所謂、自由視点画像）が含まれる。また、複数の候補からユーザが指定した視点に対応する画像や、装置が自動で設定した視点に対応する画像も、仮想視点画像に含まれる。仮想視点映像は、複数の仮想視点画像から成る。

［第１の実施形態］
本実施形態では、最小限の撮像装置（以降カメラとする）で簡易３次元モデル（３次元形状データ）を生成し、該生成した３次元モデルを用いて仮想カメラパスを決定する。仮想カメラパスとは、仮想視点の位置、注視点、および画角を時間軸に沿って設定した仮想視点の経路である。仮想カメラパスを決定した後、仮想カメラパスを用いて映像生成に必要となるカメラグループを時間毎に判定し、カメラグループ毎の開始時間と終了時間とを求める。そして、開始時間と終了時間とに従って、映像データの読み出し、現像、高精度３次元モデル生成、及び仮想視点映像のレンダリングを行う。

＜多視点画像生成システムの構成＞
以下、本実施形態における多視点画像生成システムの構成について、このシステムをサッカースタジアムに適用した例を挙げて、図１を用いて説明する。

図１において、符号Ａ１〜Ａ６０、符号Ｂ１〜Ｂ６０はそれぞれカメラを示す。また、符号Ａ１Ｃａ〜Ａ６０Ｃａ、符号Ｂ１Ｃａ〜Ｂ６０Ｃａはそれぞれ、カメラに接続されたカメラアダプタを示す。カメラアダプタＡ１ＣａはカメラＡ１に対応し、他のカメラアダプタも同様にカメラに対応付けられている。

カメラＡ１〜Ａ１５（図示せず）、カメラＡ１６〜Ａ３０（図示せず）、カメラＡ３１〜Ａ４５（図示せず）、カメラＡ４６〜Ａ６０は、注視点Ａを中心とする撮影対象領域（注視領域Ｒ_Aとする）を撮影するためのカメラである。これらのカメラは形状推定に主に用いる標準カメラであり、これらのカメラから成るグループを、カメラグループＧ_Aと呼ぶ。カメラグループＧ_Aに属する６０台のカメラそれぞれに対し、注視点Ａを中心とする撮影対象領域を撮影できるように、撮影点、撮影方向、画角が設定されている。

カメラＢ１〜Ｂ１５（図示せず）、カメラＢ１６〜Ｂ３０（図示せず）、カメラＢ３１〜Ｂ４５（図示せず）、カメラＢ４６〜Ｂ６０は、注視点Ｂを中心とする撮影対象領域（注視領域Ｒ_Bとする）を撮影するためのカメラである。これらのカメラは形状推定に主に用いる標準カメラであり、これらのカメラから成るグループを、カメラグループＧ_Bと呼ぶ。カメラグループＧ_Bに属する６０台のカメラそれぞれに対し、注視点Ｂを中心とする撮影対象領域を撮影できるように、撮影点、撮影方向、画角が設定されている。

図１に示すように、カメラを接続するデイジーチェーン５は１系統に接続されていて、カメラグループＧ_AおよびカメラグループＧ_Bはそれぞれ、サッカーコート半分をカバーするように設置される。具体的には、カメラグループＧ_Aに属するカメラが注視点Ａを中心とする撮影対象領域（注視領域Ｒ_A）を撮影するように設置され、カメラグループＧ_Bに属するカメラが注視点Ｂを中心とする撮影対象領域（注視領域Ｒ_B）を撮影するように設置される。

尚、図１に示す形態はあくまでも一例であり、本実施形態はこれに限定されない。例えば、形状推定に主に用いるカメラグループに属するカメラと、このカメラグループとは異なる形状推定に主に用いるカメラグループに属するカメラとの間に、レンダリングに主に用いる望遠カメラを配置してもよい。図１のケースで説明すると、カメラＡ１とカメラＢ１との間に、レンダリングに主に用いる望遠カメラが配置され、以降のカメラ間においても同様に、望遠カメラが配置される。この６０台の望遠カメラのそれぞれに対して、注視点Ａを中心とする撮影対象領域（注視領域Ｒ_A）、及び、注視点Ｂを中心とする撮影対象領域（注視領域Ｒ_B）を撮影できるように、撮影点、撮影方向、画角が設定されている。

＜仮想視点映像を生成するシステムの構成＞
以下、図１に示すシステムで生成した多視点画像を用いて、仮想視点映像を生成するシステムの構成について、図２を用いて説明する。図２は、本実施形態における仮想視点映像の生成システム１（以下、単純にシステム１と記載する）の機能構成を示すブロック図である。

図２に示すように、システム１は、画像処理装置１００と、カメラ群２と、表示装置３と、入力装置４とを有する。画像処理装置１００は具体的には、サーバーやホストＰＣ、タブレットＰＣなどの情報処理装置である。カメラ群２は、本例では、図１に示すカメラＡ１〜Ａ６０、及び、カメラＢ１〜Ｂ６０である。表示装置３には、生成された仮想視点画像、仮想視点映像などが表示され、一般的に液晶ディスプレイが用いられる。尚、図２は、画像処理装置１００と表示装置３と入力装置４とが個別に設けられたケースを示すが、これらが一体的に設けられていてもよい。

本実施形態の画像処理装置１００は、次の処理を実行する。画像処理装置１００は、カメラ台数を限定して第１の３次元モデルを生成し、この３次元モデルを用いて仮想カメラパスを決定する。その後、画像処理装置１００は、決定した仮想カメラパスを用いて映像生成に必要となるカメラグループを時間毎に判定し、カメラグループ毎の開始時間と終了時間とを求める。そして、画像処理装置１００は、求めた開始時間と終了時間とに従って、映像データの読み出し、現像、高精度３次元モデル生成、及び仮想視点映像レンダリングを行う。

画像処理装置１００は、カメラ群２で撮影した画像と、カメラ群２の各カメラのパラメータとを取得し、該取得した画像とパラメータとに基づき、仮想視点画像を生成する。そして、画像処理装置１００は、生成した仮想視点画像を表示装置３に出力する。表示装置３は、例えば液晶ディスプレイやＬＥＤ等で構成され、画像処理装置１００が出力した仮想視点画像を表示したり、ユーザが指示を入力するためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を表示したりする。入力装置４は、仮想視点映像または仮想視点画像の生成、表示の指示を、ユーザが入力するためのユーザインターフェースであり、マウス、ジョイスティック等を含む。また、ユーザは、入力装置４を用いて、仮想視点情報を入力できる。

画像処理装置１００は、カメラ情報取得部１６０と、仮想視点情報取得部１１０と、３次元モデル生成部１２０と、レンダリング処理部１７０と、出力部１３０と、カメラ選定部１４０と、記憶部１５０とを有する。カメラ情報取得部１６０は、カメラ群２の各カメラで撮影された画像、並びに、カメラ群２の各カメラの外部パラメータ及び内部パラメータを取得し、記憶部１５０に送信する。記憶部１５０において、カメラ情報取得部１６０により送信された、カメラ群２の各カメラで撮影された画像、並びに、カメラ群２の各カメラの外部パラメータ及び内部パラメータが記憶される。

仮想視点情報取得部１１０は、ユーザが表示装置３上に表示されるＧＵＩを介し入力装置４を用いて入力した仮想視点情報を取得し、該取得した仮想視点情報を記憶部１５０に送信する。記憶部１５０において、仮想視点情報取得部１１０により送信された仮想視点情報が記憶される。

３次元モデル生成部１２０は、カメラ選定部１４０によって出力された情報に基づいて、簡易な３次元モデルなどの３次元モデルを生成する。レンダリング処理部１７０は、３次元モデル生成部１２０により生成された簡易な３次元モデルと、仮想視点情報とに基づいて、仮想視点からの前景の見えを表す簡易な前景画像を生成し、出力部１３０に送信する。以下、レンダリング処理部１７０によって生成される、仮想視点からの前景の見えを表す簡易な前景画像を「第１の前景画像」と呼ぶ。

出力部１３０は、仮想視点画像である第１の前景画像を表示装置３に出力する。ユーザは表示装置３に表示された第１の前景画像を見ながら入力装置４を操作することで、仮想カメラパスを決定する。

仮想カメラパスが決定された場合、仮想視点情報取得部１１０は、該決定された仮想カメラパスに対応するタイムコードを記憶部１５０に送信する。タイムコードとは、映像や音声の再生時など同期が必要な場面で用いられ、映像データ１フレームごとに与えられ、映像データ上に記録される時間情報である。記憶部１５０において、仮想視点情報取得部１１０により送信されたタイムコードが記憶される。

３次元モデル生成部１２０は、ユーザにより決定され、記憶部１５０から読み取った仮想カメラパスに対応するタイムコードに基づいて、カメラグループ毎に高精度３次元モデルを生成する。尚、ここで言う「決定された仮想カメラパス」とは、注視点（注視領域）ごとの、仮想視点の始点位置と終点位置との間の経路を示すカメラパスである。

レンダリング処理部１７０は、３次元モデル生成部１２０によって生成された高精度３次元モデルと仮想カメラパスとに基づいて、仮想視点からの前景の見えを表す高品質な前景画像を生成し、出力部１３０に送信する。以下、レンダリング処理部１７０によって生成される、仮想視点からの前景の見えを表す高品質な前景画像を「第２の前景画像」と呼ぶ。仮想視点画像である第２の前景画像は、カメラグループの全カメラの撮影データを使用して生成しているために、高品質な画像である。

＜画像処理装置の構成＞
以下、図２に示す画像処理装置１００のハードウェア構成について、図３を用いて説明する。図３に示すように、画像処理装置１００は、ＣＰＵ３１１、ＲＯＭ３１２、ＲＡＭ３１３、補助記憶装置３１４、通信Ｉ／Ｆ３１５、及びバス３１６を有する。

ＣＰＵ３１１は、ＲＯＭ３１２やＲＡＭ３１３に格納されているコンピュータプログラムやデータを用いて画像処理装置１００全体を制御することで、図２に示す画像処理装置１００の各機能を実現する。尚、画像処理装置１００がＣＰＵ３１１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ３１１による処理の少なくとも一部をその専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ（特定用途向け集積回路）、フィールドプログラマブルゲートアレイ、およびＤＳＰ（デジタルシグナルプロセッサ）等がある。ＲＯＭ３１２には、変更を必要としないプログラムなどが格納される。ＲＡＭ３１３には、補助記憶装置３１４から供給されるプログラムやデータ、及び通信Ｉ／Ｆ３１５を介して外部から供給されるデータなどが一時的に記憶される。補助記憶装置３１４は、例えばハードディスクドライブ等であり、画像データや音声データなどの種々のデータが記憶される。ＲＯＭ３１２、ＲＡＭ３１３、及び補助記憶装置３１４は、図２の記憶部１５０に相当する。

通信Ｉ／Ｆ３１５は、画像処理装置１００と、画像処理装置１００の外部装置との間の通信に用いられる。例えば、画像処理装置１００が外部装置と有線で接続される場合には、通信用のケーブルが通信Ｉ／Ｆ３１５に接続される。または、画像処理装置１００が外部装置と無線通信する機能を有する場合には、通信Ｉ／Ｆ３１５はアンテナを備える。バス３１６は、画像処理装置１００の構成要素を接続し、構成要素間の情報伝達を可能とする。

尚、前述したように、図２に示した表示装置３と入力装置４とのうち少なくとも一方が画像処理装置１００内部に表示部または操作部として存在していてもよい。いずれにせよ、ＣＰＵ３１１が、表示部または表示装置を制御する表示制御部として機能し、操作部または入力装置を制御する操作（入力）制御部として機能する。

＜仮想視点映像を生成する処理＞
以下、本実施形態における仮想視点映像の生成処理について、図４を用いて説明する。図４に示す一連の処理のうち、ステップＳ４０１０とステップＳ４０２０とは、簡易３次元モデルを生成するために必要なカメラを選定する処理である。ステップＳ４０３０〜ステップＳ４０５０は、簡易３次元モデルを生成する処理である。ステップＳ４０６０とステップＳ４０７０とは、簡易な３次元モデルに基づいて生成された第１の仮想視点画像である簡易な前景画像を用いて、仮想カメラパスを決定する処理である。ステップＳ４０８０〜ステップＳ４１２０は、第２の仮想視点画像である非ライブ用の（高品質な）画像を生成する処理である。以下、各ステップについて詳しく説明する。尚、以下では「ステップＳ〜」を「Ｓ〜」と単純に記載する。

尚、図４に示す一連の処理が開始する前提として、カメラ情報取得部１６０は、カメラ情報として、各カメラの画像、外部パラメータ、及び内部パラメータを取得し、該取得した情報が記憶部１５０に記憶されているものとする。外部パラメータは、カメラの位置、姿勢などを示す情報であり、内部パラメータは、カメラの焦点距離、画像中心などを示す情報である。

Ｓ４０１０では、カメラ選定部１４０は、簡易３次元モデルを生成するために必要な最小限のカメラを、第１のカメラグループに属するカメラの中から選定する。本ステップは、後段のＳ４０６０〜Ｓ４０７０で仮想カメラパスを決定するために行う前段処理である。本例では、注視点Ａを中心に円周状に配置され、主に形状推定に用いられるカメラから成るカメラグループＧ_Aに属するカメラの中から４台のカメラを選定する。

簡易３次元モデルを生成するために必要な最小限のカメラの選定方法として、注視点を基準として９０°ごとに１台のカメラを選定する方法を採用することができる。図１の例を用いて具体的に説明すると、注視点Ａを中心として円周状に配置されるカメラグループＧ_Aのカメラのうち、９０°ずれた位置に配されたカメラＡ１、Ａ１６、Ａ３１、Ａ４６を選定する。

Ｓ４０２０は、Ｓ４０１０と同様の処理である。Ｓ４０２０では、カメラ選定部１４０は、簡易３次元モデルを生成するために必要な最小限のカメラを、第２のカメラグループに属するカメラの中から選定する。本ステップもＳ４０１０と同様、後段のＳ４０６０〜Ｓ４０７０で仮想カメラパスを決定するために行う前段処理である。本例では、注視点Ｂを中心に円周状に配置され、主に形状推定に用いられるカメラから成るカメラグループＧ_Bに属するカメラの中から４台のカメラを選定する。図１の例を用いて具体的に説明すると、注視点Ｂを中心として円周状に配置されるカメラグループＧ_Bのカメラのうち、９０°ずれた位置に配されたカメラＢ１、Ｂ１６、Ｂ３１、Ｂ４６を選定する。

Ｓ４０３０では、ＣＰＵ３１１は、Ｓ４０１０、Ｓ４０２０で選定されたカメラの視点から撮影された画像に基づいて生成され、記憶部１５０に記憶されている前景画像のデータを、記憶部１５０から読み取る。尚、本ステップで取得する前景画像のデータは、ＲＡＷ画像データである。

Ｓ４０４０では、ＣＰＵ３１１は、Ｓ４０３０で取得したＲＡＷ画像データをビットマップ画像に変換する現像処理を行なう。

Ｓ４０５０では、３次元モデル生成部１２０は、Ｓ４０１０、Ｓ４０２０で選定されたカメラの視点から撮影された前景画像に基づき、例えばステレオカメラの原理を用いて、注視点Ａと注視点Ｂとのそれぞれに対応する簡易３次元モデルを生成する。

Ｓ４０６０では、ＣＰＵ３１１は、ユーザによる仮想カメラパスの指定指示、即ち、Ｓ４０５０で生成された簡易３次元モデルに基づき生成された複数の仮想視点候補の中から、仮想カメラパスを最終的に決定するために必要な仮想視点を指定する指示を受け付ける。具体的には、ユーザは、ジョイスティック等の入力装置４を操作することで、試合中のあるシーンにおいて、Ｓ４０５０で生成された３次元モデルに基づく複数の仮想視点候補の中から希望の仮想視点を選択する。

ここで、仮想視点の指定について、図５を用いて説明する。図５は、サッカースタジアムで開催されたサッカーの試合について、ユーザが選択したシーン例を示す。図５において、右向きの矢印は、時間軸であり、図中の左から右に向けて時間が進行する。また、ａ：ｂ：ｃと、ｄ：ｅ：ｆと、ｇ：ｈ：ｉとは、時間情報としてのタイムコード（具体的には、時：分：秒）であり、それぞれ特定の時刻を示す。さらに、図５中の時間軸の下に、時間帯によって変わる、仮想視点が存在する領域を示している。

本例における仮想カメラパスを決定するシーンは、図５に示すように、Ａチームの攻撃から、Ｂチームの選手がボールを奪取して一気にカウンターを行ない、Ｂチームの別の選手がシュートするところまでのシーンである。このシーンに対して仮想視点が注視する領域について見ると、時間の経過とともに、注視領域Ｒ_Aから注視領域Ｒ_Bに切り替わっていくことが分かる。従って、本例ではまず、ユーザは、Ａチームの攻撃の特定の１シーン（具体的には、タイムコードａ：ｂ：ｃのシーン）において、複数の仮想視点候補の中から、希望の仮想視点を選択することとなる。

ユーザによるＡチームの攻撃シーン１フレームにおける仮想視点の選択が終わった場合、仮想視点情報取得部１１０は、該ユーザにより入力された仮想視点情報を、記憶部１５０に出力する。仮想視点情報とは、仮想視点の外部パラメータと内部パラメータである。前述のカメラ情報と同様、外部パラメータは、仮想視点の位置の情報、仮想視点の姿勢の情報（具体的には、回転行列）などを含み、内部パラメータは、焦点距離の情報、画像中心の情報などを含む。仮想視点画像、即ち仮想視点映像の１フレームを生成するために、仮想視点情報が１つ定義される。各仮想カメラパスに対応するシーンのスクリプトや試合の経過時間、シーンの前後指定時間、及びプレーヤ情報等のメタ情報も仮想視点情報と合わせて、画像処理装置１００に入力し、記憶部１５０にて記憶することができる。

次に、仮想視点情報取得部１１０は、Ｓ４０６０で指定された仮想視点に対応する時間情報としてのタイムコードを、記憶部１５０に記憶する。

尚、ここでは、入力装置４を介して、仮想視点に関する情報を入力する形態を示したが、仮想視点に関する情報が、画像処理装置１００の外部装置（例えばＰＣ等）から送信される形態であってもよい。

Ｓ４０７０では、３次元モデル生成部１２０は、仮想カメラパスが決定されたか、言い換えると、仮想カメラパスの決定に必要な仮想視点の指定が完了したか判定する。本ステップの判定結果が真の場合、Ｓ４０８０に進む。一方、本ステップの判定結果が偽の場合、Ｓ４０６０に戻って、Ｓ４０５０で生成された簡易３次元モデルに基づく簡易前景画像がレンダリングされる。ユーザは、この簡易前景画像を用いて、後続の仮想視点を選択的に指定する。

図５の例の場合、Ｂチームの選手がシュートしたところまでのシーンにおける仮想視点の指定が完了するまで、Ｓ４０７０でＮＯと判定されＳ４０６０に戻り、ユーザによる仮想視点の指定が行われる。仮想視点の指定が行われている間は、前述したように、仮想視点情報取得部１１０は、指定された仮想視点に対応する仮想視点情報、タイムコードを取得し、これらの情報を記憶部１５０に記憶する。Ｂチームの選手がシュートしたところまでのシーンにおける仮想視点の指定が完了した場合、Ｓ４０８０に進むことになる。

Ｓ４０８０では、３次元モデル生成部１２０は、時間情報として、注視領域Ｒ_Aを担当するカメラグループＡに対する仮想カメラパスの開始時刻を示すタイムコードと終了時刻を示すタイムコードとを、記憶部１５０から読み取る。

Ｓ４０９０では、３次元モデル生成部１２０は、時間情報として、注視領域Ｒ_Bを担当するカメラグループＢに対する仮想カメラパスの開始時刻を示すタイムコードと終了時刻を示すタイムコードとを、記憶部１５０から読み取る。尚、ここでは時間情報としてタイムコードを利用する形態を示しているが、利用可能な時間情報はこれに限られず、任意の時間情報を利用してよい。

Ｓ４１００では、３次元モデル生成部１２０は、Ｓ４０８０で読み取った注視領域Ｒ_Aにおける仮想カメラパスの開始時刻を示すタイムコードと終了時刻を示すタイムコードとに基づき、カメラグループＧ_Aのカメラによるこれらの時刻間の撮影画像を取得する。そして、３次元モデル生成部１２０は、取得した撮影画像に基づいて、高精度３次元モデルを生成する。このように、注視領域Ｒ_Aにおける仮想カメラパスの開始時刻と終了時刻との間の期間について、カメラグループＧ_Aのカメラのみを用いて３次元モデルを生成している。つまり、注視領域Ｒ_Aにおける仮想カメラパスの開始時刻と終了時刻との間の期間について、カメラグループＧ_Bのカメラの撮影画像を用いた注視領域Ｒ_Bにおける高精度３次元モデルの生成を行わない。従って、注視点が１つから２つに増えたような場合であっても、この期間における注視領域Ｒ_Bにおける高精度３次元モデルを生成する処理を行わない分、処理時間を短縮できる。

Ｓ４１００では、カメラ選定部１４０は、注視領域Ｒ_Aにおける高精度３次元モデルを生成するために必要なカメラとして、カメラグループＧ_Aに属する全部（本例では６０台）のカメラを選定する。

Ｓ４１００では、３次元モデル生成部１２０は、注視領域Ｒ_Aにおける仮想カメラパスの開始時刻に対応した、第１のカメラグループの全カメラ（本例では、カメラグループＧ_Aに属する６０台のカメラ）による前景画像を記憶部１５０から読み取る。そして、３次元モデル生成部１２０は、読み取った前景画像に基づき、例えばステレオカメラの原理を用いることで、第１のカメラグループの全カメラによる高精度３次元モデルを生成する。このような処理が、注視領域Ｒ_Aにおける仮想カメラパスの終了時刻に対応した高精度３次元モデルを生成するまで繰り返し行われる。

尚、ここでは、第１のカメラグループの全カメラの撮像画像に基づいて高精度３次元モデルを生成する形態を示したが、必ずしも第１のカメラグループの全てのカメラを用いる必要はない。Ｓ４１００で用いるカメラの台数が、Ｓ４０１０で用いるカメラの台数より多ければ、簡易３次元モデルよりも高精度な３次元モデルを生成できるため、そのような形態に対しても本実施形態を適用可能である。

また、Ｓ４１００で注視領域Ｒ_Aにおける高精度３次元モデルを生成しなくても良い場合がある。詳しく説明すると、カメラグループＡに対する仮想カメラパスの開始時刻と終了時刻とが設定されていないような場合、換言すると、注視領域Ｒ_Aに仮想カメラパスが含まれない場合は、Ｓ４１００の処理を実行せずにすむ。

Ｓ４１１０では、３次元モデル生成部１２０は、Ｓ４０９０で読み取った注視領域Ｒ_Bにおける仮想カメラパスの開始時刻を示すタイムコードと終了時刻を示すタイムコードとに基づき、カメラグループＧ_Bのカメラによるこれらの時刻間の撮影画像を取得する。そして、３次元モデル生成部１２０は、取得した撮影画像に基づいて、高精度３次元モデルを生成する。このように、注視領域Ｒ_Bにおける仮想カメラパスの開始時刻と終了時刻との間の期間について、カメラグループＧ_Bのカメラのみを用いて３次元モデルを生成している。つまり、注視領域Ｒ_Bにおける仮想カメラパスの開始時刻と終了時刻との間の期間について、カメラグループＧ_Aのカメラの撮影画像を用いた注視領域Ｒ_Aにおける高精度３次元モデルの生成を行わない。従って、注視点が１つから２つに増えたような場合であっても、この期間における注視領域Ｒ_Aにおける高精度３次元モデルを生成する処理を行わない分、処理時間を短縮できる。

Ｓ４１１０では、カメラ選定部１４０は、注視領域Ｒ_Bにおける高精度３次元モデルを生成するために必要なカメラとして、カメラグループＧ_Bに属する全部（本例では６０台）のカメラを選定する。尚、Ｓ４１１０の以降の処理は、Ｓ４１００と同様なので説明を省略する。

尚、ここでは、第２のカメラグループの全カメラの撮像画像に基づいて高精度３次元モデルを生成する形態を示したが、必ずしも第２のカメラグループの全てのカメラを用いる必要はない。Ｓ４１１０で用いるカメラの台数が、Ｓ４０２０で用いるカメラの台数より多ければ、簡易３次元モデルよりも高精度な３次元モデルを生成できるため、そのような形態に対しても本実施形態を適用可能である。

また、Ｓ４１１０で注視領域Ｒ_Bにおける高精度３次元モデルを生成しなくても良い場合がある。詳しく説明すると、カメラグループＢに対する仮想カメラパスの開始時刻と終了時刻とが設定されていないような場合、換言すると、注視領域Ｒ_Bに仮想カメラパスが含まれない場合は、Ｓ４１１０の処理を実行せずにすむ。

Ｓ４１２０では、レンダリング処理部１７０は、生成したテクスチャ付き背景メッシュモデルを仮想視点から見た視野にトリミングし、そこにＳ４１００またはＳ４２００で生成した高精度３次元モデルに基づく前景画像を合成する。これにより、仮想視点の全景画像が生成される。最終的には、レンダリング処理部１７０は、レンダリングされた仮想視点の全景画像を統合し、仮想視点映像を生成する。

＜本実施形態の効果など＞
本実施形態では、少数のカメラの撮影画像を用いて簡易３次元モデルを生成し、該簡易３次元モデルに基づいて、第１の仮想視点画像である簡易な前景画像を生成する。この簡易な前景画像を利用して、ユーザは仮想カメラパスを決定する。そして、注視領域における仮想カメラパスの開始時刻と終了時刻に従い、多数のカメラの撮影画像を用いて、これら時刻間の高精度３次元モデルを、注視領域（注視点）毎に生成する。そして、この高精度３次元モデルに基づいて、第２の仮想視点画像である高品質な前景画像を生成する。最終的には、この高品質な前景画像を用いて仮想視点映像を生成する。このように、本実施形態では、注視領域毎に必要な期間だけ高精度３次元モデルを生成している。

従って、本実施形態によれば、注視領域が増加するような場合であっても、不必要な高精度３次元モデルを生成する処理を行わない分、仮想視点映像の品質低下を防ぎつつ、処理時間の増加を抑制できる。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００画像処理装置
１１０仮想視点情報取得部
１２０３次元モデル生成部
１７０レンダリング処理部
２カメラ群

Claims

第１の注視領域を撮像する複数の撮像装置のうち、第１の数の撮像装置の撮像画像に基づき、該第１の注視領域における３次元形状データを生成し、第２の注視領域を撮像する複数の撮像装置のうち、第２の数の撮像装置の撮像画像に基づき、該第２の注視領域における３次元形状データを生成する第１の生成手段と、
前記第１の生成手段により生成された３次元形状データに基づいて指定された仮想視点の移動経路に関する情報を取得する取得手段と、
前記取得手段により取得された移動経路に、前記第１の注視領域に対応する第１の移動経路と、前記第２の注視領域に対応する第２の移動経路が含まれる場合、前記第１の移動経路に応じて、前記第１の注視領域を撮像する前記複数の撮像装置のうち、前記第１の数より大きい数の撮像装置の撮像画像に基づき、該第１の注視領域における３次元形状データを生成し、前記第２の移動経路に応じて、前記第２の注視領域を撮像する前記複数の撮像装置のうち、前記第２の数より大きい数の撮像装置の撮像画像に基づき、該第２の注視領域における３次元形状データを生成する第２の生成手段と、
前記第２の生成手段により生成される３次元形状データに基づき、仮想視点映像を生成する第３の生成手段と、
を有することを特徴とする装置。
前記仮想視点の移動経路をユーザに指定させるためのユーザインターフェースを更に有することを特徴とする請求項１に記載の装置。
前記情報は、前記装置の外部から送られることを特徴とする請求項１または２に記載の装置。
前記取得手段は、
前記第１の移動経路における始点と終点それぞれに対応する時刻を含む第１の情報と、
前記第２の移動経路における始点と終点それぞれに対応する時刻を含む第２の情報と、
を取得することを特徴とする請求項１乃至３の何れか１項に記載の装置。
前記第２の生成手段は、
前記第１の注視領域を撮像する前記複数の撮像装置のうち、前記第１の数より大きい数の撮像装置の撮像画像であって、前記第１の情報で示される前記第１の移動経路における始点と終点それぞれに対応する時刻の間の撮影画像に基づき、該第１の注視領域における３次元形状データを生成し、
前記第２の注視領域を撮像する前記複数の撮像装置のうち、前記第２の数より大きい数の撮像装置の撮影画像であって、前記第２の情報で示される前記第２の移動経路における始点と終点それぞれに対応する時刻の間の撮影画像に基づき、該第２の注視領域における３次元形状データを生成する
ことを特徴とする請求項４に記載の装置。
前記第１の注視領域を撮像する前記複数の撮像装置の中から、前記第１の数の撮像装置を選定する選定手段と、
前記第２の注視領域を撮像する前記複数の撮像装置の中から、前記第２の数の撮像装置を選定する選定手段と、
を更に有することを特徴とする請求項１乃至５の何れか１項に記載の装置。
前記第２の生成手段は、前記取得手段により取得された移動経路に前記第２の移動経路が含まれない場合、前記第２の注視領域を撮像する前記複数の撮像装置のうち、前記第２の数より大きい数の撮像装置の撮像画像に基づく該第２の注視領域における３次元形状データを生成しない
ことを特徴とする請求項１乃至６の何れか１項に記載の装置。
請求項１乃至７の何れか１項に記載の装置と、
前記第１の注視領域を撮像する前記複数の撮像装置と、
前記第２の注視領域を撮像する前記複数の撮像装置と、
を有することを特徴とするシステム。
前記第１の注視領域を撮像する前記複数の撮像装置と、前記第２の注視領域を撮像する前記複数の撮像装置とはそれぞれ、互いに異なる注視点に対応することを特徴とする請求項８に記載のシステム。
第１の注視領域を撮像する複数の撮像装置のうち、第１の数の撮像装置の撮像画像に基づき、該第１の注視領域における３次元形状データを生成し、第２の注視領域を撮像する複数の撮像装置のうち、第２の数の撮像装置の撮像画像に基づき、該第２の注視領域における３次元形状データを生成する第１の生成ステップと、
前記第１の生成ステップにより生成された３次元形状データに基づいて指定された仮想視点の移動経路に関する情報を取得する取得ステップと、
前記取得ステップにより取得された移動経路に、前記第１の注視領域に対応する第１の移動経路と、前記第２の注視領域に対応する第２の移動経路が含まれる場合、前記第１の移動経路に応じて、前記第１の注視領域を撮像する前記複数の撮像装置のうち、前記第１の数より大きい数の撮像装置の撮像画像に基づき、該第１の注視領域における３次元形状データを生成し、前記第２の移動経路に応じて、前記第２の注視領域を撮像する前記複数の撮像装置のうち、前記第２の数より大きい数の撮像装置の撮像画像に基づき、該第２の注視領域における３次元形状データを生成する第２の生成ステップと、
前記第２の生成ステップにより生成される３次元形状データに基づき、仮想視点映像を生成する第３の生成ステップと、
を有することを特徴とする方法。
コンピュータに請求項１０に記載の方法を実行させるためのプログラム。