JP2020144748A

JP2020144748A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2020144748A
Application number: JP2019042400A
Authority: JP
Inventors: 優北條; Yu Hojo; 崇日昔; Takashi Hiseki
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2020-09-10

Abstract

【課題】遅延を軽減し、リアルタイム性の高い自由視点映像を作成する。【解決手段】情報処理装置１００は、生成部１０１、選択部１０２、設定部１０３、参照部１０４、予測部１０５、決定部１０６及び作成部１０７を含む。設定部１０３は、２つの対象物に対して、３次元モデル空間データにおける２点の座標を設定する。参照部１０４は、２つの対象物に関連する過去の移動データを参照する。予測部１０５は過去の移動データに基づき、前記２つの対象物の所定時間後の次の２点の座標を予測する。決定部１０６は予測された次の２点の座標から次の仮想カメラの予測位置を決定する。作成部１０７は、次の仮想カメラの予測位置に基づいて、次の３次元モデル映像を作成する。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

スタジアム内に設置した複数台の高解像度カメラ（実カメラ）からの撮影映像を元に３次元モデル空間データを構築し、該３次元モデル空間データ内の任意の位置に配置した仮想カメラからの映像（自由視点映像）を再現する技術が知られている。今後、第５世代移動通信システム（いわゆる「５Ｇ」）が開始されると、より一般的に、スタジアムでサッカー等のスポーツを観戦する観客は、こうした自由視点映像を、携帯端末を通じて受信して閲覧可能になると期待されている。特許文献１には、ユーザ端末の位置および方向に基づき仮想カメラの位置および方向を決定することが開示されている。

特開２０１５−２２５５２９号公報

しかしながら、ユーザの観たい対象（例えば、選手）が移動した際、ユーザ自身の操作でその対象を追いかける必要があり、映像自体に集中できない場合がある。またユーザが端末の操作に慣れていない場合、観客席において、リアルタイムで展開される試合を見ながら、臨場感のある３Ｄ自由視点映像を維持できないことも考えられる。したがって、まるで自分がそこに飛び込んだような臨場感のある映像となる仮想カメラ視点が自動で設定され、そうした自由視点映像がユーザに対して自動で提供されることが求められる。しかしながら、こうした自由視点映像を、リアルタイム映像を元に作成すると、大幅なタイムラグが生じてしまうことが懸念される。これにより、リアルタイム性が損なわれ、臨場感がなくなってしまうという問題がある。

本発明は上記の点に鑑みてなされたもので、遅延を軽減し、リアルタイム性の高い３次元映像を作成可能な情報処理装置、情報処理方法及びプログラムを提供することを目的とする。

本発明の一態様にかかる情報処理装置は、
複数台のカメラにより撮像された複数の撮影画像に基づいて、３次元モデル空間データを生成するとともに、該３次元モデル空間データを用いて３次元モデル映像を生成する生成部と、
前記３次元モデル映像から少なくとも１つの移動する対象物を含む２つの対象物を選択する選択部と、
前記２つの対象物に対して、前記３次元モデル空間データにおける２点の座標を設定する設定部と、
前記２つの対象物に関連する過去の移動データを参照する参照部と、
前記過去の移動データに基づき、前記２つの対象物の所定時間後の次の２点の座標を予測する予測部と、
前記予測された次の２点の座標から次の仮想カメラの予測位置を決定する決定部と、
前記次の仮想カメラの予測位置に基づいて、次の３次元モデル空間データと次の３次元モデル映像を作成する作成部と、を備えるものである。

本発明の一態様にかかる情報処理方法は、複数台のカメラにより撮像された複数の撮影画像に基づいて、３次元モデル空間データを生成するとともに、該３次元モデル空間データを用いて３次元モデル映像を生成し、
前記３次元モデル映像から少なくとも１つの移動する対象物を含む２つの対象物を選択し、
前記２つの対象物に対して、前記３次元モデル空間データにおける２点の座標を設定し、
前記２つの対象物に関連する過去の移動データを参照し、
前記過去の移動データに基づき、前記２つの対象物の所定時間後の次の２点の座標を予測し、
前記予測された次の２点の座標から次の仮想カメラの予測位置を決定し、
前記次の仮想カメラの予測位置に基づいて、次の３次元モデル空間データと次の３次元モデル映像を作成する、ものである。

本発明の一態様にかかるプログラムは、複数台のカメラにより撮像された複数の撮影画像に基づいて、３次元モデル空間データを生成するとともに、該３次元モデル空間データを用いて３次元モデル映像を生成する処理と、
前記３次元モデル映像から少なくとも１つの移動する対象物を含む２つの対象物を選択する処理と、
前記２つの対象物に対して、前記３次元モデル空間データにおける２点の座標を設定する処理と、
前記２つの対象物に関連する過去の移動データを参照する処理と、
前記過去の移動データに基づき、前記２つの対象物の所定時間後の次の２点の座標を予測する処理と、
前記予測された次の２点の座標から次の仮想カメラの予測位置を決定する処理と、
前記次の仮想カメラの予測位置に基づいて、次の３次元モデル空間データと次の３次元モデル映像を作成する処理と、をコンピュータに実行させるものである。

本発明によれば、遅延を軽減し、リアルタイム性の高い自由視点映像を作成可能な情報処理装置、情報処理方法及びプログラムを提供することができる。

本発明の実施形態にかかる情報処理装置の構成を説明するブロック図である。本発明の実施形態にかかる情報処理システムの全体構成を示す図である。各サーバのハードウェア構成を説明するブロック図である。ユーザ端末の構成の一例を説明するブロック図である。仮想カメラの位置決定処理を説明する図である。本発明の実施形態にかかる自由視点映像の設定及び視聴処理を説明するフローチャートである。仮想カメラ位置決定処理のフローチャートである。座標予測処理のフローチャートである。

図１を参照して、本発明に係る情報処理装置１００の概要について説明する。
情報処理装置１００は、生成部１０１、選択部１０２、設定部１０３、参照部１０４、予測部１０５、決定部１０６及び作成部１０７を含む。生成部１０１は、複数台のカメラにより撮像された複数の撮影画像に基づいて、３次元モデル空間データを生成するとともに、３次元モデル空間データを用いて３次元モデル映像を生成する。選択部１０２は、３次元モデル映像から少なくとも１つの移動する対象物を含む２つの対象物を選択する。設定部１０３は、２つの対象物に対して、３次元モデル空間データにおける２点の座標を設定する。参照部１０４は、２つの対象物に関連する過去の移動データを参照する。予測部１０５は過去の移動データに基づき、２つの対象物の所定時間後の次の２点の座標を予測する。決定部１０６は予測された次の２点の座標から次の仮想カメラの予測位置を決定する。作成部１０７は、次の仮想カメラの予測位置に基づいて、次の３次元空間データ及び次の３次元モデル映像を作成する。

このように、前もって仮想カメラの位置を予測することで、遅延を軽減し、リアルタイム性の高い３次元モデル映像を作成することができる。

以下、本発明を適用した具体的な実施形態について、図面を参照しながら詳細に説明する。ただし、本発明が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載および図面は、適宜、簡略化されている。

図２は、本発明の実施形態にかかる情報処理システム１の全体構成を示す図である。
情報処理システム１は、ネットワークを介して接続された、３Ｄモデル空間作成サーバ２１、座標位置予測サーバ２２、映像作成サーバ（仮想カメラ位置計算サーバとも呼ばれる）２３、及びユーザ端末３０を備える。ここでいうネットワークには、ＬＡＮ、ＷＬＡＮ、セルラネットワーク、または他の適切な有線もしくは無線通信ネットワークなどが含まれる。なお、これらのサーバは、本システムの主体的な動作を行い、サーバ、コンピュータ等により構成される。本システムでは、３つのサーバを有し、分散的に処理する構成としたが、これに限定されず、物理的に単一のサーバであってもよい。

３Ｄモデル空間作成サーバ２１は、複数台の実カメラ１０からの撮影映像を元に３次元モデル空間データを構築する。この作成された３次元モデル空間データ内を仮想カメラが自由に移動し、所定の位置から映像を撮影することができる。本発明の実施の形態では、ディープラーニング（詳しくは後述する）により仮想カメラに映ることがないと判断できる部分については、３次元モデル空間データは作成しないので、３次元モデル空間データの作成の処理効率を向上させることができる。また、３Ｄモデル空間作成サーバ２１は、３次元モデル空間データ内のユーザにより選択された対象物（選手やボールなど）の座標データを、座標位置予測サーバ２２及び映像作成サーバ２３に送信する。

座標位置予測サーバ２２は、３Ｄモデル空間作成サーバ２１より受信した座標データがどのように移動するかを、過去の試合映像データに基づいて学習した学習済みモデルを用いて予測する。なお、こうした学習済みモデルは、座標位置予測サーバ２２内部の記憶部、あるいは、座標位置予測サーバ２２ネットワークを介して接続された外部の記憶部に予め記憶しておいてもよい。予測データは、３Ｄモデル空間作成サーバ２１及び映像作成サーバ２３に送信される。

映像作成サーバ２３は、座標位置予測サーバ２２から得た座標の予測に基づき、次の仮想カメラの位置を計算する。また、映像作成サーバ２３は、その仮想カメラ位置と、３次元モデル空間データに基づいて、事前に３次元自由視点映像を作成し、適切なタイミングでユーザ端末３０に送信する。

図３は、本実施形態におけるサーバ２１，２２，２３のハードウェア構成例を示すブロック図である。図３に示すように、本実施形態のサーバ２１，２２，２３の制御部は、ＣＰＵ（Central Processing Unit）２０１、ＲＡＭ（Random access memory）２０２、ＲＯＭ（Read Only Memory）２０３などを有するコンピュータである。ＣＰＵ２０１は、ＲＡＭ２０２、ＲＯＭ２０３、または、ハードディスク２０４に格納されたソフトウェアに従い演算および制御を行う。ＲＡＭ２０２は、ＣＰＵ２０１が各種処理を実行する際の一時記憶領域として使用される。ハードディスク２０４には、オペレーティングシステム（ＯＳ）や、後述の登録プログラムなどが記憶される。ディスプレイ２０５は、液晶ディスプレイとグラフィックコントローラとから構成され、ディスプレイ２０５には、画像やアイコンなどのオブジェクト、および、ＧＵＩなどが表示される。入力部２０６は、ユーザが各サーバ２１，２２，２３に各種指示を与えるための装置であり、例えばマウスやキーボードによって構成される。Ｉ／Ｆ（インターフェース）部２０７は、ＩＥＥＥ８０２．１１ａなどの規格に対応した無線ＬＡＮ通信や有線ＬＡＮ通信を制御することができ、ＴＣＰ／ＩＰなどのプロトコルに基づき同一通信ネットワークおよびインターネットを介して外部機器と通信する。システムバス２０８は、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、および、ハードディスク２０４などとのデータのやり取りを制御する。

ＣＰＵ２０１がプログラムを実行することにより、制御部は、上述した生成部１０１、選択部１０２、設定部１０３、参照部１０４、予測部１０５、決定部１０６及び作成部１０７として機能する。なお、生成部１０１、選択部１０２、設定部１０３、参照部１０４、予測部１０５、決定部１０６及び作成部１０７は別々のハードウェアによって実現されてもよい。

情報処理システム１は、リアルタイムで３次元自由視点映像をユーザ端末３０に配信する。具体的には、情報処理システム１は、複数台の実カメラ１０からの撮影映像を元に３次元モデル空間データを構築し、該３次元モデル空間データ内の任意の位置に配置した仮想カメラからの自由視点映像（仮想視点映像とも呼ばれる）を再現し、該映像データをユーザ端末３０に配信する。

図２では、サッカー等のスタジアムにおいて、複数台の実カメラ１０がフィールド７全体を撮影している。３Ｄモデル空間作成サーバ２１は、これらの実カメラ１０からの実映像を元に３次元モデル空間データを構築する。また、３Ｄモデル空間作成サーバ２１は、特定の人物（例えば、お気に入りの選手）及び物体（例えば、サッカーボールやゴールポストなど）の座標データも取得することができる。ユーザは、観客席でフィールド７全体を目視しつつ、ユーザ端末３０を用いて、こうした自由視点映像を受信し、特定の選手の映像を享受することができる。

図２では、２台の実カメラ１０を示したが、これに限定されず、３台以上の実カメラ１０がフィールド全体を取り囲むように設けられてもよい。また、サッカー等のフィールド７の場合、ハーフウェイライン８により半分に分けた自陣エリアと相手エリアを撮像するために、それぞれ同じ台数のカメラを略等間隔で設置するようにしてもよい。また、通常のテレビ中継で使われるライブ映像及びライブリプレイ用のカメラを別途設けてもよい。

ユーザ端末３０の例としては、スタジアムでの観戦を目的とした場合、スマートフォン、タブレット、携帯電話、ＰＤＡ（personal digital assistant）、ウェアラブル端末、ラップトップ型パーソナルコンピュータ（ＰＣ）、ヘッドマウントディスプレイ（ＨＭＤ）など携帯端末が挙げられる。また、ユーザ端末３０は、自宅での観戦を目的とした場合には、デスクトップ型パーソナルコンピュータ等であってもよい。以下では、ユーザ端末３０がスマートフォンの場合を例に説明する。

図４は、ユーザ端末の構成の一例を説明するブロック図である。ユーザ端末３０は、図４に示すように、外部映像を撮影する撮像部（例えば、カメラ）３１０と、外部から受信された映像信号（３次元モデル映像信号を含む）を処理する映像処理部３２０と、映像処理部３２０によって処理される映像信号を映像で表示するディスプレイ部３３０と、ユーザの入力を受け付けるユーザ入力部３４０と、各種のデータを記憶する記憶部３５０と、外部と有線・無線通信を行う通信部３６０と、ユーザ端末３０の各構成要素を制御する制御部３００と、を含む。撮像部（例えば、カメラ）３１０は、イメージセンサ３１１（例えば、ＣＣＤ／ＣＭＯＳイメージセンサ）を含む。また、ディスプレイ部３３０は、タッチスクリーン３３１を含む。ユーザ端末３０にインストールされたクライアントアプリケーションは、ユーザが自由視点映像を享受し、各種設定を行うのに、これらの各構成要素を制御することができる。ユーザは、ユーザ端末３０のクライアントアプリケーションを用いて、自由視点映像から、対象物を選択したり、仮想カメラの位置決定等に関する任意の設定を選択することができる。

次に、図５を参照して、仮想カメラの位置（座標及び高さ）の決定処理を説明する。
リアルタイムで３次元映像を配信する本システムでは、ユーザにより選択された物体や人物を少なくとも２点の座標として設定し、それらの位置関係から実際には存在しない仮想カメラの視点を自動的に決定するものである。

ユーザは、ユーザ端末３０を介して、３Ｄモデル空間作成サーバ２１により作成された３Ｄモデル映像内の２つの対象物を選択する。この場合は、２つの対象物として、平面座標Ａの対象選手５と、平面座標Ｂのボール３が選択されている。つまり、２つの対象物はともに移動する対象物である。３Ｄモデル空間作成サーバ２１は、作成された３次元モデル映像から、選択した２つの対象物の平面座標を取得し、座標位置予測サーバ２２及び映像作成サーバ２３に送信する。選択した２つの対象物は移動するので、２つの対象物の平面座標Ａ、Ｂも逐次、座標位置予測サーバ２２及び映像作成サーバ２３に送信される。

また、図５では、仮想カメラ１１の向きとして、座標Ｂから座標Ａへの向きが設定されている。平面座標Ａ，Ｂをつなぐ直線上に仮想カメラの座標Ｃが設定され、さらに、仮想カメラの高さ（ｈ）が設定される。すなわち、仮想カメラ１１は、その画角内に対象選手５と、対象選手５から見たボール３と、を収めた画像（自由視点映像）を提供することになる。

座標Ｂ，Ｃ間の距離ＢＣと仮想カメラ１１の高さｈは、ユーザが任意のユーザ設定値として設定することができる。座標Ｂ，Ｃ間の距離ＢＣと仮想カメラの高さｈは、ユーザ設定値で固定してもよい。あるいは、より俯瞰した映像を提供するため、Ｂ，Ｃ間の距離ＢＣと仮想カメラの高さｈは、Ａ，Ｂ間の距離に比例し変化させてもよい。

また、仮想カメラの向きが座標Ａ，Ｂどちらに向くかを、ユーザが任意に設定することができる。また、対象物のいずれか一方が固定物（例えば、ゴールポスト、コーナーフラッグなど）である場合、移動する対象物（例えば、選手）から固定物へ向かう方向に（あるいはその逆の方向に）、仮想カメラの向きを予め設定してもよい。

あるいは、仮想カメラの向きは決定せずに位置データを利用することでＶＲ（Virtual reality）映像として提供することもできる。ここでいうＶＲ映像は、例えば、ＨＭＤ（Head Mounted Display，頭部装着ディスプレイ）を装着したユーザに対し、頭部の向きに合わせて仮想空間における３６０度の視野範囲の動画像を一挙に提供可能な映像であってもよい。あるいは、ＶＲ映像は、スマートフォンの向きに合わせて仮想空間における３６０度の視野範囲の動画像を一挙に提供可能な映像であってもよい。

対象の座標Ａ，Ｂが移動すると、それに追従して上記のように設定した位置関係を保ちながら仮想カメラ１１も移動する。このように、情報処理システム１では、映像作成サーバ２３（仮想カメラ位置決定サーバとも呼ばれる）を備えることで、仮想カメラの位置を自動的に決定することができる。したがって、ユーザの操作を必要とせずに、仮想カメラ１１は、その画角内に対象選手５と、対象選手５から見たボール３を収めた画像（自由視点映像）を提供することができる。

更に、上記の方法で臨場感を損なわずにリアルタイム性の高い映像を提供するには、映像の作成に要するタイムラグを軽減する必要がある。そのために、本実施の形態にかかる情報処理システム１では、座標位置予測サーバ２２を備えることで、対象物体の動きを予測し、あらかじめ次の映像（数パターンの映像）を描画しておく。座標位置予測サーバ２２は、シチュエーション（サッカーの試合、各チームの選手のポジション、選手の特性など）毎の物体、人物の動きのデータを基にしたディープラーニング等の機械学習により、学習済みモデルを作成し、それにより、対象物の座標の次の動きを予測する。映像作成サーバ２３は、こうした予測に基づき、先回って次の仮想カメラ位置からの映像を作成しておく。これにより、自由視点映像の作成に要するタイムラグを軽減することができ、よりリアルタイム性の高い自由視点映像を提供することができる。

次に、図６乃至図８を参照して、情報処理システム１全体の処理を説明する。
図６は、ユーザによる自由視点映像の設定及び視聴処理を説明するフローチャートである。
ユーザ端末３０のユーザインタフェース部（ディスプレイ部３３０）には、ネットワークを介して、映像作成サーバ２３から順次、３次元モデル映像が送られてくる。ユーザは、ユーザ端末３０のユーザインタフェース部を介して、３次元モデル映像内の対象物２点を選択すると、３次元モデル空間データにおける平面座標Ａ，Ｂが設定される（ステップＳ３０１）。次に、ユーザは、ユーザ端末３０を介して、前述した仮想カメラ位置の決定に必要な、ＢＣ間の距離（ＢＣ）及び仮想カメラの高さｈを設定する（ステップＳ３０２）。ユーザは、以下のように４つの選択肢から１つを選択して設定することができる。

第１の選択肢として、ユーザが距離ＢＣと高さｈをともに定数になるように設定した場合、映像視聴画面が映像作成サーバ２３により、作成される（ステップＳ３０３）。

第２の選択肢として、ユーザが距離ＢＣを変数に、高さｈを定数になるように設定した場合、変数ＢＣを決定するために、ユーザは、ステップＳ３０１で選択した対象物の座標Ａ，Ｂの間の距離ＡＢに対する比例定数ｋを設定する（ＢＣ＝ｋＡＢ）（ステップＳ３０２１）。その後、映像視聴画面が作成される（ステップＳ３０３）。

第３の選択肢として、ユーザが距離ＢＣを定数に、高さｈを変数になるように設定した場合、変数ｈを決定するために、ユーザは、ステップＳ３０１で選択したＡ，Ｂの距離ＡＢに対する比例定数ｌを設定する（ｈ＝ｌＡＢ）（ステップＳ３０２２）。その後、映像視聴画面が作成される（ステップＳ３０３）。

第４の選択肢として、ユーザが距離ＢＣを変数に、高さｈを変数になるように設定した場合、まず変数ＢＣを決定するために、ユーザは、ステップＳ３０１で選択したＡ，Ｂの距離ＡＢに対する比例定数ｋを設定する（ＢＣ＝ｋＡＢ）（ステップＳ３０２３）。さらに、変数ｈを決定するため、ユーザは、ステップＳ３０１で選択したＡ，Ｂの距離ＡＢに対する比例定数ｌを設定する（ｈ＝ｌＡＢ）（ステップＳ３０２４）。その後、映像視聴画面が映像作成サーバ２３により、作成される（ステップＳ３０３）。

次に、座標Ａ，Ｂに合わせて仮想カメラ位置を決定する（ステップＳ３０４）。ここで、図５及び図７を参照して、映像作成サーバ２３による仮想カメラ位置決定処理を詳細に説明する。

まず、直線ＡＢ（本例では、図５に示すようにボール３と対象選手５を結ぶ直線）を再算出する（ステップＳ４０１）。ＢＣ間距離（ＢＣ）は変数であるかを判定する（ステップＳ４０２）。ここで、ＢＣ間距離（ＢＣ）は、図５に示すように直線ＡＢ上の仮想カメラ１１の座標を示す。ＢＣ間距離（ＢＣ）が変数の場合（ステップＳ４０２でＹＥＳ）には、図６を用いて前述したユーザによる設定（比例定数ｋ）に従い、ＢＣ間の距離を算出する（ステップＳ４０３）。

次に、仮想カメラの高さ（ｈ）が変数であるかを判定する（ステップＳ４０４）。仮想カメラの高さ（ｈ）が変数の場合（ステップＳ４０４でＹＥＳ）には、図６を用いて前述したユーザによる設定（比例定数ｌ）に従い、仮想カメラの高さ（ｈ）を算出する（ステップＳ４０５）。以上の処理をすることで、仮想カメラ１１の位置を決定することができる（ステップＳ４０６）。以上により、仮想カメラの位置決定処理は完了する。

再び図６に戻って、仮想カメラの位置決定後の自由視点映像の設定及び視聴処理を説明する。
ユーザは、仮想カメラの位置が決定された自由視点映像を閲覧し、設定を変更するか否かを決定することができる（ステップＳ３０６）。自由視点映像が気にいらなければ（ステップＳ３０６でＹＥＳ）、再び設定処理（ステップＳ３０１〜Ｓ３０４）を繰り返す。映像を変更する必要がなければ（ステップＳ３０６でＮＯ）、選択した対象物の過去のデータ（詳細は図８を参照して後述する）に基づき、対象物（本例では、対象選手５とボール３）の次の座標位置を予測する（ステップＳ３０８）。

図８を参照して、座標位置予測サーバ２２による座標予測処理フローを説明する。
座標位置予測サーバ２２は予測に必要な入力用のデータセットを用意する（ステップＳ５０１）。本例では、対象物は、対象選手５とボール３であるから、例えば対象選手５および対象選手５の周辺にいる他の選手の座標位置、ボール３とボール３の周辺にいる選手の座標位置などのデータセットを用意する。なお、こうした学習済みモデルは、座標位置予測サーバ２２内部の記憶部、あるいは、座標位置予測サーバ２２ネットワークを介して接続された外部の記憶部に予め記憶しておき、必要の場合にアクセスすることができる。

座標位置予測サーバ２２のデータベースには、過去の撮影シーン情報が蓄積されている。撮影シーン情報には、選手の移動軌跡データ、選手の特性（ドリブル、パス、シュート等の選択傾向）や、味方チーム及び相手チームのフォーメーション、ボールの位置移動の軌跡データなどが含まれる。選手やボールの過去の移動軌跡データは、深層学習（ディープラーニング）技術等に対する、座標位置予測の教師データに利用することができる。すなわち、ある時点の座標位置のデータから所定時間後の座標位置を予測し、所定時間後の実際の座標位置を正解データとして予測と比較することで、深層学習を行うことが可能である。こうして得られた予測アルゴリズム（学習済みモデルとも呼ばれる）を予測に用いる。予測アルゴリズムでは、複数の予測パターンがそのパターンが発生する確率データとともに形成されている。

座標位置予測サーバ２２はステップＳ５０１で用意したデータセットを予測アルゴリズムに入力し、所定時間後の座標Ａ，Ｂの移動位置を予測する（ステップＳ５０２）。

座標位置予測サーバ２２は、座標Ａ，Ｂの予測移動位置座標データを映像作成サーバ２３に送信する（ステップＳ５０３）。

再び図６に戻って、座標予測後の自由視点映像の設定及び視聴処理を説明する。
映像作成サーバ２３では、座標位置予測サーバ２２から送られた座標Ａ，Ｂの予測移動位置座標データに基づいて、仮想カメラの予測位置も決定することができる（そのため、映像作成サーバ２３は仮想カメラ位置決定サーバとも称される）。仮想カメラの予測位置に基づいて、予め映像データを作成し、準備する（ステップＳ３１０）。こうして作成された映像データは、ネットワークを介して、スタジアムで観戦するユーザのユーザ端末３０に配信される。

本実施の形態によれば、予測アルゴリズムによる座標予測により、予め仮想カメラ位置を予測し、映像を準備することで、遅延を軽減し、リアルタイム性の高い自由視点映像を作成することができる。また、予測された位置の仮想カメラから映ることがないと判断できる部分については、３次元モデル空間データは作成しないので、３次元モデル空間データの作成の処理効率を向上させることができる。

上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、ＤＶＤ（Digital Versatile Disc）、ＢＤ（Blu-ray（登録商標） Disc）、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記実施形態では、２つの対象物として、対象選手とボール（両方とも移動する対象物）を選択したが、これに限定されない。例えば、２つの対象物として、味方チームの選手と相手チームの選手（両方とも移動する対象物）としてもよいし、ゴールポストとフリーキッカーである対象選手（一方は固定対象物で、他方は移動する対象物）としてもよい。また予測アルゴリズムの学習は座標位置予測サーバ２２で行うようになっているが、別の学習専用サーバで行うようにし、座標位置予測サーバ２２はその学習済みの予測アルゴリズムを学習専用サーバからダウンロードして使うようにしてもよい。複数の予測アルゴリズムは用意し、その中から１つまたは複数を選択するようにしてもよい。例えば、選手ごとの動きに特化した予測アルゴリズムをそれぞれ作り、それらを組み合わせて予測を行うようにしてもよい。また、学習と予測に用いる所定時間は１つではなく複数を設定してもよい。

１情報処理システム
３ボール
５対象選手
６相手選手
７フィールド
８ハーフウェイライン
１０実カメラ
１１仮想カメラ
２１３Ｄモデル空間作成サーバ
２２座標位置予測サーバ
２３映像作成サーバ
３０ユーザ端末
１００情報処理装置
１０１生成部
１０２選択部
１０３設定部
１０４参照部
１０５予測部
１０６決定部
１０７作成部

Claims

複数台のカメラにより撮像された複数の撮影画像に基づいて、３次元モデル空間データを生成するとともに、該３次元モデル空間データを用いて３次元モデル映像を生成する生成部と、
前記３次元モデル映像から少なくとも１つの移動する対象物を含む２つの対象物を選択する選択部と、
前記２つの対象物に対して、前記３次元モデル空間データにおける２点の座標を設定する設定部と、
前記２つの対象物に関連する過去の移動データを参照する参照部と、
前記過去の移動データに基づき、前記２つの対象物の所定時間後の次の２点の座標を予測する予測部と、
前記予測された次の２点の座標から次の仮想カメラの予測位置を決定する決定部と、
前記次の仮想カメラの予測位置に基づいて、次の３次元モデル空間データと次の３次元モデル映像を作成する作成部と、を備える情報処理装置。
前記予測部は、前記過去の移動データに基づき、ディープラーニングによって得られた学習済みモデルを用いて座標を予測する、請求項１に記載の情報処理装置。
前記決定部は、前記２つの対象物の次の２点の座標をつなぐ直線上に前記仮想カメラの座標を設定する、請求項１に記載の情報処理装置。
前記決定部は、前記２つの対象物の次の２点の座標間の距離に比例して、前記仮想カメラの座標及び高さを設定する、請求項３に記載の情報処理装置。
複数台のカメラにより撮像された複数の撮影画像に基づいて、３次元モデル空間データを生成するとともに、該３次元モデル空間データを用いて３次元モデル映像を生成し、
前記３次元モデル映像から少なくとも１つの移動する対象物を含む２つの対象物を選択し、
前記２つの対象物に対して、前記３次元モデル空間データにおける２点の座標を設定し、
前記２つの対象物に関連する過去の移動データを参照し、
前記過去の移動データに基づき、前記２つの対象物の所定時間後の次の２点の座標を予測し、
前記予測された次の２点の座標から次の仮想カメラの予測位置を決定し、
前記次の仮想カメラの予測位置に基づいて、次の３次元モデル空間データと次の３次元モデル映像を作成する、情報処理方法。
複数台のカメラにより撮像された複数の撮影画像に基づいて、３次元モデル空間データを生成するとともに、該３次元モデル空間データを用いて３次元モデル映像を生成する処理と、
前記３次元モデル映像から少なくとも１つの移動する対象物を含む２つの対象物を選択する処理と、
前記２つの対象物に対して、前記３次元モデル空間データにおける２点の座標を設定する処理と、
前記２つの対象物に関連する過去の移動データを参照する処理と、
前記過去の移動データに基づき、前記２つの対象物の所定時間後の次の２点の座標を予測する処理と、
前記予測された次の２点の座標から次の仮想カメラの予測位置を決定する処理と、
前記次の仮想カメラの予測位置に基づいて、次の３次元モデル空間データと次の３次元モデル映像を作成する処理と、をコンピュータに実行させるプログラム。