JP2021043922A

JP2021043922A - 情報処理装置、システム、生成方法、及び、プログラム

Info

Publication number: JP2021043922A
Application number: JP2019167791A
Authority: JP
Inventors: 伊藤　達哉; Tatsuya Ito; 達哉伊藤; 零石川; Rei Ishikawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-09-13
Filing date: 2019-09-13
Publication date: 2021-03-18

Abstract

【課題】撮像対象に関してユーザの希望に沿った仮想視点映像を生成する負荷を軽減する。【解決手段】情報処理装置３００は、仮想視点映像の生成に用いられる複数の撮像装置により撮像された撮像対象の指定に係るユーザ入力に基づいて、撮像対象の位置を特定し、当該特定された位置情報と、あらかじめ生成された第１の仮想視点情報とに基づいて、第２の仮想視点情報を生成する。【選択図】図３

Description

本発明は、仮想視点映像を生成する技術に関するものである。

複数の撮像装置を異なる位置に配置して多視点で同期して撮像を行い、当該撮像により得られた複数の撮像画像を用いて、撮像領域内における指定された視点（仮想視点）からの見えを表す画像を生成する技術がある。さらに、仮想視点を経時的に変化させることにより生成される複数の画像を組み合わせることで、経時的に変化する仮想視点からの見えを表す動画（以下、仮想視点映像という）を生成することができる。仮想視点映像の生成技術においては、複数の撮像画像をサーバ等の画像処理部に集約し、当該画像処理部において仮想視点に基づくレンダリング等の処理を行うことにより、仮想視点映像が生成される。

特許文献１には、複数の撮像装置が撮像することにより得られる複数の撮像画像に基づいて、仮想視点映像を生成する方法について記載されている。

特開２００８−０１５７５６号公報

仮想視点映像の生成に用いる仮想視点としては、ユーザによる入力に基づいて指定された仮想視点を用いたり、あらかじめ設定された仮想視点を用いることができる。しかしながら、ユーザの入力に基づく仮想視点を用いる場合、ユーザが、仮想視点映像に対応する仮想視点をすべて指定する必要があり、ユーザの負担が大きい。一方、あらかじめ設定された仮想視点を用いる場合、ユーザの負荷が軽減されるものの、以下の問題がある。すなわち、ユーザが見たいと考える撮像対象（例えば、特定の選手又はゴール前等）が仮想視点映像に表示されない、又は不要な撮像対象が当該仮想視点映像に表示される等、ユーザが所望する仮想視点映像を見ることができない虞がある。

本発明は上記の課題に鑑みてなされたものである。その目的は、撮像対象に関してユーザの希望に沿った仮想視点映像を生成する負荷を軽減することである。

本発明に係る情報処理装置は、経時的に変化する仮想視点からの見えを表す第１の動画の生成に用いられる複数の撮像装置により撮像された撮像対象の指定に係るユーザ入力であって、前記第１の動画が表示手段に表示されている間に行われるユーザ入力に基づいて、当該撮像対象の位置を特定する特定手段と、前記特定手段により特定された前記撮像対象の位置を示す位置情報と前記第１の動画を生成するための第１の仮想視点情報とに基づいて、前記ユーザ入力が行われた後に前記表示手段に表示される第２の動画であって、経時的に変化する仮想視点からの見えを表す第２の動画を生成するための第２の仮想視点情報を生成する情報生成手段とを有することを特徴とする。

本発明によれば、撮像対象に関してユーザの希望に沿った仮想視点映像を生成する負荷を軽減することができる。

撮像システム１００を構成する撮像装置１の配置の一例を示す図である。情報処理装置３００を含む画像処理システム１０の構成及び情報処理装置３００のハードウェア構成を説明するための図である。情報処理装置３００の機能構成を説明するための図である。情報処理装置３００が実行する処理を説明するためのフローチャートである。更新部３０３が行う指示情報の更新処理を説明するためのフローチャートである。情報生成部３０６が第２の仮想視点情報を生成する処理を説明するためのフローチャートである。撮像領域における座標系の一例を示す図である。仮想カメラが撮影対象を撮像する一例を示す図である。第２の仮想視点情報を生成するために使用される設定情報、指示情報、位置情報、及び、第１の仮想視点情報の一例を示す図である。第１の仮想視点情報を基準として第２の仮想視点情報が生成される一例を示す図である。ユーザ１１が情報処理装置３００を使用する方法の一例を説明するための図である。ユーザ１２が情報処理装置３００を使用する方法の一例を説明するための図である。表示部２０８に表示される仮想視点映像の一例を示す図である。

以下、本発明の実施形態について、図面を参照しながら説明する。なお、以下の実施形態に記載される構成要素は、本発明の実施の形態の一例を示すものであり、本発明をそれらのみに限定するものではない。

本実施形態においては、指定された撮像対象と、あらかじめ生成された第１の仮想視点情報とに基づいて、新たな第２の仮想視点情報を生成するための情報処理装置３００について説明する。ここで、仮想視点情報とは、仮想視点映像を生成するための仮想視点パラメータセットを複数有し、仮想視点に基づく動画を生成するための情報である。仮想視点とは、複数の撮像装置が撮像対象を撮像することにより得られる複数の撮像画像に基づく仮想視点映像を生成するために指定される視点である。仮想視点パラメータセットは、仮想視点の視点位置、仮想視点からの視線方向、及び、仮想視点映像に対応する画角を示す仮想視点パラメータを含む。すなわち、仮想視点映像は、撮像対象である撮像領域において指定される視点（仮想視点）からの見えを表す複数の画像（フレーム）から構成される動画である。また、複数の仮想視点パラメータセットは、それぞれ、仮想視点映像における各時刻のフレームに対応している。すなわち、一の仮想視点パラメータセットから、仮想視点映像を構成する一枚のフレームが生成される。なお、本実施形態における仮想視点パラメータセットは仮想視点に関する視点位置、視線方向及び画角を示す仮想視点パラメータを含むものとして説明するが、仮想視点パラメータセットに含まれる仮想視点パラメータの種類は上記に限定されない。仮想視点パラメータセットは、視点位置を示す仮想視点パラメータ及び視線方向を示す仮想視点パラメータの少なくともいずれかを含んでいればよい。また、仮想視点パラメータが上記以外の仮想視点パラメータを含む構成であってもよい。

複数の撮像装置は、例えば図１に示す撮像装置１のように、撮像領域を囲むように配置されうる。撮像領域は、例えばサッカーや空手などの競技が行われる競技場、もしくはコンサートや演劇が行われる舞台などである。複数の撮像装置は、このような撮像領域を囲むようにそれぞれ異なる位置に設置され、同期して撮像を行う。なお、複数の撮像装置は撮像領域の全周にわたって設置されていなくてもよく、設置場所の制限等によっては撮像領域の一部の方向にのみ設置されていてもよい。また、撮像装置の数は図１に示す例に限定されず、例えば撮像領域をサッカーの競技場とする場合には、競技場の周囲に３０台程度の撮像装置が設置されてもよい。また、望遠カメラと広角カメラなど機能が異なる撮像装置が設置されていてもよい。また、本実施形態における仮想視点映像は、自由視点映像とも呼ばれるものであるが、ユーザが自由に（任意に）指定した視点に対応する映像に限定されず、例えば複数の候補からユーザが選択した視点に対応する映像なども仮想視点映像に含まれる。

図２は、本実施形態における情報処理装置３００を含む画像処理システム１０の構成及び情報処理装置３００のハードウェア構成を説明するための図である。図２（ａ）は、情報処理装置３００を含む画像処理システム１０の構成を示す図である。画像処理システム１０は、撮像システム１００、画像処理サーバ２００、及び情報処理装置３００を含む。撮像システム１００は、図１に示すような、複数の撮像装置によって構成されるシステムである。撮像システム１００に含まれる複数の撮像装置は、同期して撮像を行い、当該撮像によって得られる複数の撮像画像を、画像処理サーバ２００に送信する。

画像処理サーバ２００は、撮像システム１００から送信された複数の撮像画像と、後述する情報処理装置３００から送信される仮想視点情報とに基づいて、仮想視点映像を生成する。画像処理サーバ２００は、生成した仮想視点映像を後述する情報処理装置３００に送信する。このとき、画像処理サーバ２００は、撮像システム１００が撮像を行い、撮像画像を送信するごとに順次映像生成の処理を行い、情報処理装置３００に送信することが可能である。これにより、情報処理装置３００は、撮像システム１００による撮像が行われている時刻に対して処理遅延分を考慮した時刻に仮想視点映像を受信することができる。また、画像処理サーバ２００は、受信した撮像画像を記憶するためのデータベースを有し、過去に記憶した撮像画像を使用して仮想視点映像を生成することによりリプレイ映像を生成することも可能である。

情報処理装置３００は、ユーザによる入力に基づいて仮想視点情報を生成し、生成した仮想視点情報を画像処理サーバ２００に送信する。また、情報処理装置３００は、送信した仮想視点情報に基づいて生成された仮想視点映像を画像処理サーバ２００から取得する。ここで、情報処理装置３００のハードウェア構成について説明する。図２（ｂ）は、情報処理装置３００のハードウェア構成を説明するための図である。情報処理装置３００は、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、通信部２０４、及び、入出力部２０５を有する。

ＣＰＵ２０１は、ＲＡＭ２０２やＲＯＭ２０３に格納されているコンピュータプログラムやデータを用いて情報処理装置３００の全体を制御することで、情報処理装置３００が有する各機能を実現する。なお、情報処理装置３００がＣＰＵ２０１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ２０１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、およびＤＳＰ（デジタルシグナルプロセッサ）などがある。ＲＡＭ２０２は、ＲＯＭ２０３から読み出されるプログラム、ＣＰＵ２０１の処理結果、及び通信部２０４を介して外部から供給されるデータ等を一時記憶する。ＲＯＭ２０３は、変更を必要としないプログラムやデータ等を格納する。通信部２０４は、情報処理装置３００の外部の装置との通信に用いられる。例えば、情報処理装置３００が外部の装置と有線で接続される場合には、通信用のケーブルが通信部２０４に接続される。情報処理装置３００が外部の装置と無線通信する機能を有する場合には、通信部２０４はアンテナを備える。情報処理装置３００は、通信部２０４を介して画像処理サーバ２００と通信を行う。

入出力部２０５は、音声入力部２０６、操作入力部２０７、及び、表示部２０８を有する。音声入力部２０６は、例えばマイク等であり、ユーザによる音声入力を受けて各種の指示をＣＰＵ２０１に入力する。操作入力部２０７は、例えば、キーボード、マウス、ジョイスティック、及びタッチパネル等で構成され、ユーザによる操作入力を受けて各種の指示をＣＰＵ２０１に入力する。表示部２０８は、例えば、液晶ディスプレイ、及びＬＥＤ等で構成され、ユーザが情報処理装置３００を操作するためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）、及び、画像処理サーバ２００において生成された仮想視点映像等を表示する。ＣＰＵ２０１は、音声入力部２０６、操作入力部２０７、及び、表示部２０８のそれぞれを制御する制御部として動作する。

なお、本実施形態においては、音声入力部２０６、操作入力部２０７、及び、表示部２０８が情報処理装置３００に含まれる構成としたが、これに限定されない。例えば、音声入力部２０６、操作入力部２０７、及び、表示部２０８のうち少なくともいずれかが情報処理装置３００の外部に接続され、通信部２０４を介して入出力を行う構成であってもよい。

図３は、情報処理装置３００の機能構成を説明するための図である。情報処理装置３００は、音声判別部３０１、操作判別部３０２、指示情報更新部３０３、条件判別部３０４、座標変換部３０５、仮想視点情報生成部３０６、及び、表示処理部３０７を有する。また、図３には、図２（ｂ）に示す通信部２０４、音声入力部２０６、操作入力部２０７、及び、表示部２０８が示されている。以下、図３を用いて各処理部について説明する。

ここで、以降の説明においては仮想視点を表す用語として仮想カメラを用いることとする。仮想カメラとは、撮像領域の周囲に実際に設置された複数の撮像装置とは異なる仮想的なカメラであり、仮想視点を便宜的に説明するための概念である。すなわち、仮想視点映像は、仮想カメラにより仮想的に撮像された場合の映像である。このとき、仮想視点パラメータセットに含まれる仮想視点に関する視点位置、視線方向及び画角を示す仮想視点パラメータは、それぞれ、仮想カメラの位置、姿勢及び画角を示す仮想的なカメラパラメータ（以下、仮想カメラパラメータという）に対応する。また、仮想視点情報は、仮想視点映像を撮像する仮想カメラの位置、姿勢及び画角の変遷を示す情報である。

本実施形態における仮想カメラパラメータの一例について説明する。仮想カメラの位置を示すパラメータは、３次元座標を用いて表される。すなわち、仮想カメラの位置は、Ｘ軸、Ｙ軸、Ｚ軸の直交座標系における３軸のパラメータにより表される。このときの座標系の原点は、撮像領域内における任意の位置に設定することが可能である。また、仮想カメラの姿勢は、パン、チルト、ロールの３軸のパラメータにより表される。また、仮想カメラの画角は、仮想カメラの焦点距離を示す１軸のパラメータである。また、上記の仮想カメラパラメータは、仮想視点映像における時刻を示すパラメータと紐づけられている。すなわち、時刻と対応付けられた複数の仮想カメラパラメータを用いることにより、仮想視点映像における複数の時点のそれぞれに対応するフレームが生成される。なお、仮想カメラパラメータの表し方は上記に限定されるものではない。

音声判別部３０１は、音声入力部２０６に入力された音声について解析を行い、あらかじめ用意された指示情報に対応する情報が含まれるか否かを判別する。対応する情報が含まれると判別した場合、音声判別部３０１は当該音声に含まれる情報に対応する指示情報を指示情報更新部３０３に送信する。

操作判別部３０２は、操作入力部２０７に入力された操作について解析を行い、あらかじめ用意された指示情報に対応する情報を指定するための操作であるか否かを判別する。対応する情報を指定するための操作であると判別した場合、操作判別部３０２は当該操作により指定される情報に対応する指示情報を指示情報更新部３０３に送信する。

指示情報とは、撮像システム１００により撮像される撮像対象であって、後述する座標変換部３０５により位置を特定される撮像対象を指定するための情報である。指示情報は、例えば、「選手Ａ」若しくは「ボール」等の動体、及び「ゴール」等の構造物等を示す情報を含みうる。また、指示情報は、例えばサッカーの試合における「ゴール前」及び「センター」等、撮像装置により撮像される所定のイベントに対応する特定の領域を示す情報を含みうる。なお、本実施形態における動体とは、時系列で同じ撮像方向から撮像された場合において動きのある（その絶対位置が変化し得る）物体である。また、本実施形態における構造物とは、時系列で同じ撮像方向から撮像された場合において動きのない（その絶対位置が変化しない、静止している）物体である。指示情報に含まれる情報としては、上記の他に「ゴールキーパー」、「背番号１０」、及び「コーナーポスト」等が挙げられる。ユーザは音声入力又は操作入力を行うことにより、上記の例に示すような撮像対象を指定することが可能である。なお、指示情報は、撮像対象を指定するための情報の他にも、仮想カメラパラメータの制御に関わる指示を示す情報を含んでいてもよい。

指示情報更新部３０３（以降、更新部３０３と呼ぶ）は、音声判別部３０１及び操作判別部３０２から送信される指示情報及び条件判断部３０４の判断結果に基づき、ＲＡＭ２０２に記憶される指示情報の更新を行う。条件判断部３０４は、指示情報の更新に係る所定の条件に基づく判断を行う処理部である。処理の詳細については後述する。更新部３０３は、更新時にＲＡＭ２０２に記憶されている指示情報がない場合は、ＲＡＭ２０２に新しい指示情報を記憶させる。また、すでにＲＡＭ２０２に記憶されている指示情報がある場合、更新部３０３は、元々の情報を破棄して新たな指示情報をＲＡＭ２０２に記憶させる。なお、更新部３０３は、元々の情報を維持して新たな指示情報を追加で記憶させることも可能である。また、更新部３０３は、すでに記録されている指示情報のうち、不要な指示情報を破棄する処理のみ行うことも可能である。

座標変換部３０５は、ＲＡＭ２０２に記憶されている指示情報を読み出し、当該指示情報が示す撮像対象の位置情報を特定する。具体的には、座標変換部３０５は、例えば、撮像対象と当該撮像対象の位置を示す座標値とが対応付けられたテーブル等に基づいて、指示情報が示す撮像対象の座標値を特定する。若しくは、座標変換部３０５は、撮像画像に対する画像解析等により、指示情報が示す撮像対象の座標値を算出する。座標変換部３０５は、特定した位置情報を仮想視点情報生成部３０６に送信する。上記の算出方法の他に、他の撮像対象との位置関係に応じて変動する座標値を算出することも可能である。この場合、例えば、「ゴール前」に対応する座標値として、座標算出時のボールとゴールとの位置関係に基づき、ボールの位置に近い方のゴール前の座標値を算出する。このような構成とすることにより、ユーザの希望を推測して仮想視点情報の生成が可能になる。ただし、「ゴール前」に対応する座標値の特定は、ボールの座標値を基準としてもよく、特定の選手や審判などを基準にしてもよい。

仮想視点情報生成部３０６（以降、情報生成部３０６と呼ぶ）は、第１の仮想視点情報を基準として、第２の仮想視点情報を生成する。情報生成部３０５は、座標変換部３０５から位置情報を取得する。また、情報生成部３０６は、第２の仮想視点情報をどのように生成するかを示す設定情報、及び、第１の仮想視点情報を取得する。本実施形態における設定情報および第１の仮想視点情報は、ＲＡＭ２０２またはＲＯＭ２０３にあらかじめ記憶されている。設定情報は、例えば、第２の仮想視点情報の生成方法に関する情報を含む。設定情報は、例えば、指示情報が示す撮像対象が仮想視点映像において表示される表示位置を示す情報と、制御する対象となる仮想カメラパラメータを示す情報とを含みうる。上記の他にも設定情報には種々の情報が含まれる場合がある。設定情報の具体的な内容については後述する。なお、設定情報は、他の装置で生成されてもよいし、情報処理装置３００における音声入力部２０６又は操作入力部２０７等に対するユーザの入力に基づいて生成されてもよい。

第１の仮想視点情報は、例えばユーザ又は他の装置によってあらかじめ生成される。第１の仮想視点情報としては、例えば、サッカーの試合におけるシュートシーン、あるいは特定の選手やボールを仮想的に撮像した仮想カメラに対応する複数の仮想視点パラメータセットが設定され得る。なお、情報生成部３０６は、通信部２０４を介して外部の記憶装置等から第１の仮想視点情報を取得することも可能である。また、情報生成部３０６が、第１の仮想視点情報を生成する構成であってもよい。情報生成部３０６は、取得した位置情報及び設定情報に基づいて、第１の仮想視点情報において座標変換部３０５が位置情報を特定した時点に対応する仮想カメラの位置、姿勢及び画角を示すパラメータを変更することにより、新たに第２の仮想視点情報を生成する。生成した第２の仮想視点情報は、通信部２０４を介して画像処理サーバ２００に送信され、第２の仮想視点情報に基づく仮想視点映像（以下、第２の仮想視点映像ともいう）が生成される。

表示処理部３０７は、画像処理サーバ２００において生成された仮想視点映像を、通信部２０４を介して取得し、表示部２０８に表示させる。

図４は、本実施形態における情報処理装置３００が実行する処理を説明するためのフローチャートである。以降の説明においては、各処理ステップを単にＳと表記する。ＣＰＵ２０１がＲＯＭ２０３等に記憶されたプログラムを読み出して実行することにより、以下の処理が実行される。ユーザによる音声入力又は操作入力を受け付ける、又は条件判断部３０４による判断結果に基づいて、処理が開始される。なお、図４に示す処理は、仮想視点映像を構成するフレームごとに行われる。

Ｓ４０１において、更新部３０３は、仮想視点映像のフレームに対し、音声判別部３０１及び操作判別部３０２による指示情報の送信、又は条件判断部３０４による判断結果に基づき、ＲＡＭ２０２に記憶されている指示情報の更新を行う。Ｓ４０１の処理の詳細については後述する。

Ｓ４０２において、更新部３０３は、すでにＲＡＭ２０２に指示情報があるか否かを判定する。ＲＡＭ２０２に指示情報がないと判定された場合、座標変換部３０５は、情報生成部３０６に対し、指示情報がないことを通知する。この場合、Ｓ４０３において、情報生成部３０６は、ＲＡＭ２０２又はＲＯＭ２０３に保存されている第１の仮想視点情報における仮想カメラの位置、姿勢及び画角を示すパラメータを取得し、画像処理サーバ２００に送信する。画像処理サーバ２００は第１の仮想視点情報に基づく仮想視点画映像（以下、第１の仮想視点映像ともいう）のフレームを生成し、通信部２０４を介して表示処理部３０７に送信する。表示処理部３０７は受信した仮想視点映像のフレームを表示部２０８に表示させる。

Ｓ４０２においてＲＡＭ１１２に指示情報があると判定された場合、Ｓ４０４に処理が進む。Ｓ４０４において、情報生成部３０６は、指示情報に基づいて第２の仮想視点情報を生成する。Ｓ４０４の処理の詳細については後述する。Ｓ４０５において、情報生成部３０６は、生成した第２の仮想視点情報を画像処理サーバ２００に送信する。画像処理サーバ２００は、第２の仮想視点映像のフレームを生成し、通信部２０４を介して情報処理装置３００に送信する。情報処理装置３００の表示処理部２０７は受信した仮想視点映像のフレームを表示部２０８に表示させる。

Ｓ４０６において、情報生成部３０６は、表示部２０８に表示されたフレームが仮想視点映像における最終フレームか否かを判定する。最終フレームでないと判定された場合、情報処理装置３００は、Ｓ４０１以降の処理を再度実行する。最終フレームであると判定された場合、情報処理装置３００は処理を終了する。

図５は、更新部３０３が行う指示情報の更新処理を説明するためのフローチャートである。図５に示すフローチャートは、図４におけるＳ４０１の処理を詳細に表した処理である。

Ｓ５０１において、条件判断部３０４は、第２の仮想視点情報が生成されてから一定時間経過したか否かを判断する。一定時間以上経過したと判断された場合、Ｓ５０６に処理が進む。一定時間以上経過していないと判断された場合、Ｓ５０２に処理が進む。なお、Ｓ４０１の処理が開始された直後で、第２の仮想視点情報がまだ生成されていない場合も、一定時間以上経過していないと判断されるものとする。Ｓ５０１の処理は、座標変換部３０５により位置情報が特定された時点から所定の期間は、第１の仮想視点情報における各時点に対応する仮想カメラパラメータの変更を維持するために行われる。これにより、第２の仮想視点情報に対応する仮想カメラが設定されてすぐに第１の仮想視点情報に対応する仮想カメラに切り替わってしまうことを防ぐことができる。

Ｓ５０２において、条件判断部３０４は、第１の仮想視点情報に対応する仮想カメラパラメータと、第２の仮想視点情報に対応する仮想カメラパラメータとに差異があるかどうかを判定する。差異があると判定された場合、Ｓ５０３へ処理が進む。差異がないと判定された場合、Ｓ５０５へ処理が進む。

Ｓ５０３において、条件判断部３０４は、第１の仮想視点情報に対応する仮想カメラパラメータと、第２の仮想視点情報に対応する仮想カメラパラメータとの差異量を算出する。本実施形態における差異量は、仮想カメラの位置、姿勢及び画角のそれぞれについて算出される。Ｓ５０４において、条件判断部３０４は、算出した差異量が基準値以上であるか否かを判定する。このとき、仮想カメラの位置、姿勢及び画角のそれぞれについて基準値が定められ、対応する差異量との比較がなされる。一つでも差異量が基準値以上のものがあると判定された場合、Ｓ５０６へ処理が進む。すべての差異量が基準値よりも小さい場合、Ｓ５０５へ処理が進む。

Ｓ５０５において、条件判断部３０４は、音声判別部３０１及び操作判別部３０２から、第２の仮想視点情報を第１の仮想視点情報に戻す指示を示す指示情報が送信されたか否かを判定する。戻す指示を示す指示情報が送信されたと判定された場合、Ｓ５０６へ処理が進む。戻す指示を示す指示情報が送信されなかったと判定された場合、Ｓ５０７へ処理が進む。

Ｓ５０６において、更新部３０３はＲＡＭ２０２に記憶されている指示情報のうち、撮像対象を指定するための指示情報を削除する。Ｓ５０７において、条件判断部３０４は、音声判別部３０１及び操作判別部３０２から、撮像対象を指定するための指示情報が送信されたか否かを判定する。撮像対象を指定するための指示情報が送信されたと判定された場合、Ｓ５０８において、更新部３０３は当該指示情報をＲＡＭ２０２に記憶させ、更新処理が終了する。なお、Ｓ５０８においてＲＡＭ２０２に撮像対象を指定するための指示情報がまだ残っている場合、更新部３０３は、Ｓ５０７において送信された指示情報で上書きをする。ただし、更新部３０３は、指示情報を上書きせずに追加でＲＡＭ２０２に記憶させることも可能である。このとき、指示情報を追加で記憶することにより、複数の指示情報に基づいて第２の仮想視点情報が生成されるようにしてもよい。撮像対象を指定するための指示情報が送信されなかったと判定された場合、更新処理が終了する。

なお、更新部３０３は、Ｓ５０６において撮像対象を指定するための指示情報の削除を行わずに、Ｓ４０２において指示情報がないものとして処理を進める構成であってもよい。この場合、Ｓ５０６において、更新部３０３はＲＡＭ２０２にすでに記憶されている撮像対象を指定するための指示情報を使用しないことを記憶する。また、Ｓ５０７において指示情報が送信されなかったと判定された場合、Ｓ４０２において、更新部３０３はＲＡＭ２０２に記憶されている指示情報を使用せず、指示情報がないものとみなしてＳ４０３へ処理を進める。

図６は、情報生成部３０６が第２の仮想視点情報を生成する処理を説明するためのフローチャートである。図６に示すフローチャートは、図４におけるＳ４０４の処理を詳細に表した処理である。なお、Ｓ４０４においては、ＲＡＭ２０２又はＲＯＭ２０３には以下の４つの情報が記憶されている。１つ目は、第２の仮想視点情報をどのように生成するかを示す設定情報である。２つ目は、更新部３０３により更新された、撮像対象を指定するための指示情報である。３つ目は、撮像領域におけるすべての撮像対象の位置を示す位置情報の一覧である。このとき、撮像対象の位置情報が時刻ごとに異なる場合、一覧には各時刻に対応する位置情報が含まれる。４つ目は、第１の仮想視点情報に対応する仮想カメラの位置、姿勢及び画角を示す仮想カメラパラメータである。

Ｓ６０１において、座標変換部３０５は、ＲＡＭ２０２に記憶された指示情報を取得する。Ｓ６０２において、座標変換部３０５は、指示情報が示す撮像対象に対応する位置情報を、すべての撮像対象の位置を示す位置情報の一覧から取得する。座標変換部３０５は、取得した位置情報を、情報生成部３０６に送信する。Ｓ６０３において、情報生成部３０６は、ＲＡＭ２０２又はＲＯＭ２０３に記憶された設定情報を取得する。Ｓ６０４において、情報生成部３０６は、第１の仮想視点情報に対応する仮想カメラパラメータを取得する。

Ｓ６０５において、情報生成部３０６は、取得した位置情報及び設定情報に基づいて、第１の仮想視点情報に対応する仮想カメラの位置、姿勢及び画角を示すパラメータのうち少なくともいずれかを変更することにより、新たな仮想カメラパラメータを算出する。Ｓ６０６において、情報生成部３０６は、算出した仮想カメラパラメータを含む第２の仮想視点情報を生成する。なお、上記の４つの情報に関しては、すべての情報があらかじめＲＡＭ２０２又はＲＯＭ２０３に記憶されていなくてもよい。例えば、図４に示す処理が行われている間に、必要に応じて通信部３０４を介して外部から情報を取得する構成であってもよい。

以上が、本実施形態における情報処理装置３００が行う処理である。以下、上記の処理について具体例を用いて説明する。図７は、本実施形態における座標系の一例を示す図である。図７に示す座標系は、フィールドのセンターを原点とし、Ｘ軸７０１、Ｙ軸７０２及びＺ軸７０３が設定される。仮想カメラの位置は、上記の３軸により表される。また、仮想カメラの姿勢については、Ｘ軸７０１、Ｙ軸７０２及びＺ軸７０３と並行な各軸に対してパン７０４、チルト７０５及びロール７０６が設定される。

図８は、仮想カメラが撮影対象を撮像する一例を示す図である。図８に示す例においては、時刻に応じて位置が変化する撮像対象として、選手Ａ８０１、選手Ｂ８０２及びボール８０３がフィールド上に存在する。また、図８に示す例においては、時刻に応じて位置が変化しない撮像対象として、センター８０４及びゴール（チームα）８０５がフィールド上に存在する。仮想カメラ８０６は、例えばユーザにより位置、姿勢及び画角が指定され、上記の撮像対象を撮像する。

図９は、第２の仮想視点情報を生成するために使用される設定情報、指示情報、位置情報、及び、第１の仮想視点情報の一例を示す図である。また、図１０は、第１の仮想視点情報を基準として第２の仮想視点情報が生成される一例を示す図である。図９に示す設定情報９０１には、「指定された撮像対象が画面中央に表示されるように仮想カメラの姿勢を制御」という内容があらかじめ設定されている。指示情報９０２には、仮想視点映像のフレームに対応付けられた指示情報が含まれている。位置情報９０３には、各フレームについて、撮像領域における撮像対象それぞれの位置を示す座標値が含まれている。第１の仮想視点情報９０４には、各フレームに対応する仮想カメラの位置、姿勢及び画角を示す仮想カメラパラメータが含まれている。なお、図１０（ａ）は、第１の仮想視点情報９０４に対応する仮想カメラの仮想的な撮像時の動作を表す図である。第１の仮想視点情報９０４は、仮想カメラが選手Ｂ８０２を撮像するようにあらかじめ生成されているものとする。

図９に示す指示情報９０２においては、１フレーム目には指示情報が存在しない。指示情報が存在しない場合、情報生成部２０６は、第１の仮想視点情報に含まれる仮想カメラの位置、姿勢及び画角を示すパラメータを取得する。１フレーム目における位置は（ｘＣａｍ１，ｙＣａｍ１，ｚＣａｍ１）、姿勢は（ｐＣａｍ１，ｔＣａｍ１，ｒＣａｍ１）、画角はｚｏｏｍＣａｍ１である。情報生成部３０６は、上記の値をそのまま第２の仮想視点情報における１フレーム目の位置、姿勢及び画角の値として設定する。

指示情報９０２においては、２フレーム目には「選手Ａ」という指示情報が存在する。指示情報が存在する場合、図６に示す処理が実行されることとなる。Ｓ６０１において、座標変換部３０５は、指示情報９０２から指示情報を取得する。Ｓ６０２において、座標変換部３０５は、位置情報９０３を参照し、指示情報が示す撮像対象の位置情報を取得する。位置情報９０３においては、２フレーム目の「選手Ａ」の座標値は（ｘＡ２，ｙＡ２，ｚＡ２）であるため、座標変換部３０５は、座標値（ｘＡ２，ｙＡ２，ｚＡ２）を情報生成部３０６に送信する。Ｓ６０３において、情報生成部３０６は、設定情報９０１から「指定された撮像対象が画面中央に表示されるように仮想カメラの姿勢を制御」という設定情報を取得する。Ｓ６０４において、情報生成部３０６は、第１の仮想視点情報９０４から、２フレーム目に対応する仮想カメラパラメータを取得する。

Ｓ６０５において、情報生成部３０６は、第２の仮想視点情報に対応する仮想カメラパラメータを生成する処理を行う。設定情報より、仮想カメラの姿勢を変更することが指定されているため、仮想カメラの位置を示すパラメータについては第２の仮想視点情報においても第１の仮想視点情報と同一の値である（ｘＣａｍ２，ｙＣａｍ２，ｚＣａｍ２）が設定される。仮想カメラの姿勢を示すパラメータについては、仮想カメラの光軸が「選手Ａ」の座標値（ｘＡ２，ｙＡ２，ｚＡ２）を通るように値が設定される。これにより、姿勢のパラメータは第１の仮想視点情報の値（ｐＣａｍ２，ｔＣａｍ２，ｒＣａｍ２）とは異なる値（ｐＣａｍ２Ａ，ｔＣａｍ２Ａ，ｒＣａｍ２Ａ）となる。また、仮想カメラの画角を示すパラメータは、第１の仮想視点情報の値と同一の値ｚｏｏｍＣａｍ２となる。

以上説明した処理を、指示情報の有無に応じて行うことにより、最終的に図１０（ｂ）に示す第２の仮想視点情報が生成される。この結果、仮想カメラが撮像対象を撮像する際の動作は、図１０（ａ）に示すような第１の仮想視点情報に対応する仮想カメラの動作から、図１０（ｃ）に示すような第２の仮想視点情報に対応する仮想カメラの動作に変化する。図１０（ｃ）における仮想カメラは、２フレーム目から選手Ａを撮像するように動作する。

（ユーザによる使用例１）
図１１は、ユーザが情報処理装置３００を使用する方法の一例を説明するための図である。図１１に示す例においては、サッカーの試合における選手Ａ８０１、選手Ｂ８０２及びボール等が撮像対象に含まれている。図１１に示す例においては、「指定された撮像対象が画面中央に表示されるように仮想カメラの姿勢を制御」という設定情報があらかじめ設定されているものとする。また、図１１におけるブロック１１０１〜１１０４は、第１の仮想視点情報に対応する仮想カメラの動作を表す。第１の仮想視点情報に対応する仮想カメラは、サッカーの試合におけるボールを追従して撮像するようにあらかじめ設定されている。また、ブロック１１１１〜１１１４は、ブロック１１０１〜１１０４に示す仮想カメラが撮像を行うことにより得られた仮想視点映像を見ながら、ユーザ１１が情報処理装置３００に対し入力を行う様子を表す。また、ブロック１１２１〜１１２４は、ユーザ１１が入力を行った結果生成される第２の仮想視点情報に対応する仮想カメラの動作を表す。図１１に示す各ブロックは、左から右へ時系列順に表されている。以下、ブロックごとに情報処理装置３００が行う処理について説明する。

＜ブロック１１０１：入力なし、第１の仮想視点映像のフレーム表示＞
Ｓ５０１において、条件判断部３０４は、第２の仮想視点情報の生成から一定時間経過していないと判定し、Ｓ５０２へ処理を進める。Ｓ５０２において、第１の仮想視点情報と第２の仮想視点情報との仮想カメラパラメータの差異はないため、条件判断部２０４は指示情報の更新の必要なしと判断し、Ｓ５０５へ処理を進める。Ｓ５０５において、仮想視点情報を戻す指示がないため、更新部３０３はＲＡＭ２０２に保存されている指示情報を更新することなく、Ｓ５０７に進む。Ｓ５０７において、条件判断部３０４は、音声判別部３０１及び操作判別部３０２から、撮像対象を指定するための指示情報が送信されていないと判定し、Ｓ４０２へ処理を進める。

Ｓ４０２において、更新部３０３はＲＡＭ２０２に保存されている指示情報が空であることを座標変換部３０５に通知する。座標変換部３０５は処理する対象が存在しないため、指示情報が存在しないことを情報生成部３０６に通知する。Ｓ４０３において、情報生成部３０６は、ＲＡＭ２０２から第１の仮想視点情報に対応する仮想カメラパラメータを取得し、画像処理サーバ２００に送信する。また、表示処理部３０７は、情報生成部３０６が送信した仮想カメラパラメータに基づいて生成された仮想視点映像のフレームを取得し、表示部２０８に表示させる。Ｓ３０６において、情報生成部３０６は、表示部２０８に表示されたフレームが最終フレームであるか否かを判定する。本ブロック１１０１においては最終フレームではないため、Ｓ４０１以降の処理が再度行われる。結果として、ブロック１１１１に示すユーザ１１は、ブロック１１２１に示す仮想カメラが撮像するフレームを視聴する。

＜ブロック１１０２：「選手Ａ」という音声入力あり＞
Ｓ５０１からＳ５０５までは、ブロック１１０１と同様の処理が行われ、Ｓ５０７に処理が進む。ここで、ブロック１１１２に示すように、ユーザ１１は表示部２０８を見ながら、「選手Ａ」を指定するための音声入力を行う。Ｓ５０７において、音声入力部２０６は「選手Ａ」という音声入力を受け付け、音声判別部３０１はその入力が指示情報に置き換え可能か否かを判定する。音声判別部３０１は、「選手Ａ」が指示情報に置き換え可能であると判定し、Ｓ５０８において「選手Ａ」という入力を指示情報としてＲＡＭ２０２に記憶する。Ｓ４０２において、「選手Ａ」という指示情報がＲＡＭ２０２に記憶されているため、Ｓ６０１へ処理を進める。

Ｓ６０１において、座標変換部３０５はＲＡＭ２０２に保存されている「選手Ａ」という指示情報を取得する。Ｓ６０２において、座標変換部３０５は撮像対象の位置情報の一覧から、ブロック１１０２に対応する「選手Ａ」の座標値を取得し、当該座標値を情報生成部２０６に送信する。Ｓ６０３において、情報生成部３０６はＲＡＭ２０２から「指定された撮像対象が画面中央に表示されるように仮想カメラの姿勢を制御」という設定情報を取得する。Ｓ６０４において、情報生成部３０６は、ＲＡＭ２０２から第１の仮想視点情報に対応する仮想カメラパラメータを取得する。Ｓ６０５において、情報生成部３０６は、「選手Ａ」の座標値、設定情報及び第１の仮想視点情報に対応する仮想カメラパラメータに基づいて、選手Ａを撮像するような仮想カメラの姿勢のパラメータを算出する。Ｓ６０６において、情報生成部３０６は、算出された仮想カメラの姿勢のパラメータを含む第２の仮想視点情報を生成し、Ｓ４０５へ処理を進める。Ｓ４０５においては、画像処理サーバ２００において生成された仮想視点映像のフレームが表示部２０８に表示される。結果として、ブロック１１１２に示すユーザ１１は、ブロック１１２２に示すように、選手Ａ８０１が撮像されたフレームを視聴する。

ここで、第２の仮想視点情報に対応する仮想カメラの画角に含まれる撮像対象のうち、指定された撮像対象を他の撮像対象から識別可能に表示されるようにすることも可能である。例えば、まず、ブロック１１２１において、ボールが便宜的に指定されたものとして他の撮像対象と識別可能に表示されている。そして、ブロック１１２２においては、ユーザ入力により指示された撮像対象である選手Ａ８０１が、他の撮像対象と識別可能に表示されるようにすればよい。識別可能な表示方法としては、指示された撮像対象を所定の色で塗りつぶす、点滅させる、矩形等の図形で囲む、又は撮像対象の輪郭を強調して表示する等、種々の方法が挙げられる。上記のような表示を行うことにより、ユーザ１１は、指示通りに仮想カメラパスが変更されたことを容易に認識することができる。また、ユーザ１１は、自身が誤って撮像対象を指示した場合でも、早期にその誤りを知ることができ、再度適切な撮像対象を指示することができる。

＜ブロック１１０３：第１の仮想視点情報と第２の仮想視点情報とで基準値未満の仮想カメラパラメータの差異あり＞
ブロック１１０３においては、指示情報はブロック１１０２の指示情報が維持された状態であるため、ＲＡＭ２０２には「選手Ａ」という指示情報が記憶されている。Ｓ５０１において、条件判断部３０４は、第２の仮想視点情報の生成から一定時間経過していないと判定し、Ｓ５０２へ処理を進める。Ｓ５０２において、第１の仮想視点情報と第２の仮想視点情報との仮想カメラパラメータに差異があるため、条件判断部２０４はＳ５０３へ処理を進める。Ｓ５０３において、条件判断部３０４は、仮想カメラパラメータの差異量を算出する。このとき条件判断部３０４は、第１の仮想視点情報と「選手Ａ」という指示情報に基づいて生成される第２の仮想視点情報とで、仮想カメラの位置座標の差、仮想カメラの姿勢の角度の差、及び仮想カメラの焦点距離の差等を算出することにより、差異量を算出する。Ｓ５０４において、条件判断部３０４は、算出した仮想カメラの位置、姿勢及び画角を示すパラメータそれぞれの差異量が対応する基準値以上であるか否かを判定する。ブロック１１０３においては、差異量はすべて基準値未満であると判定され、Ｓ５０５に処理が進む。Ｓ５０５において、仮想視点情報を戻す指示がないため、更新部３０３はＲＡＭ２０２に保存されている指示情報を更新することなく、Ｓ５０７に進む。

Ｓ５０７において、条件判断部３０４は、音声判別部３０１及び操作判別部３０２から、撮像対象を指定するための指示情報が送信されていないと判定し、Ｓ４０２へ処理を進める。Ｓ４０２において、更新部３０３は、ＲＡＭ２０２に「選手Ａ」という指示情報が記憶されていると判定する。Ｓ４０４以降は、ブロック１１０２と同様の処理が行われる。結果として、ブロック１１１３に示すユーザ１１は、ブロック１１２３に示すように、選手Ａ８０１が継続して撮像されたフレームを視聴する。

＜ブロック１１０４：第１の仮想視点情報と第２の仮想視点情報とで基準値以上の仮想カメラパラメータの差異あり＞
ブロック１１０４においては、ＲＡＭ２０２には「選手Ａ」という指示情報が記憶されている。Ｓ５０１からＳ５０３までは、ブロック１１０３と同様の処理が行われる。Ｓ５０４において、条件判断部３０４は、算出した差異量が基準値以上であるか否かを判定する。このとき、ブロック１１０４に対応する第１の仮想視点情報と、「選手Ａ」という指示情報に基づいて生成される第２の仮想視点情報とで仮想カメラパラメータの差異が大きい。したがって、条件判断部３０４は、算出した差異量が基準値以上のものがあると判定し、Ｓ５０６へ処理を進める。Ｓ５０６において、更新部３０３は、ＲＡＭ２０２に記憶されている指示情報を削除する。この結果、ＲＡＭ２０２に記憶されていた「選手Ａ」という指示情報は削除される。Ｓ５０７において、条件判断部３０４は、音声判別部３０１及び操作判別部３０２から、撮像対象を指定するための指示情報が送信されていないと判定し、Ｓ４０２へ処理を進める。Ｓ４０２において、更新部３０３はＲＡＭ２０２に保存されている指示情報が空であることを座標変換部３０５に通知する。Ｓ４０３以降は、ブロック１１０１と同様の処理が行われる。結果として、ブロック１１１４に示すユーザ１１は、ブロック１１２４に示すように、ブロック１１０４が示す第１の仮想視点情報に対応する仮想カメラが撮像するフレームを視聴する。

図１３（ａ）は、上記の例において表示部２０８に表示される仮想視点映像である。ブロック１１３１〜１１３４は、それぞれ図１１におけるブロック１１２１〜１１２４に対応するフレームである。上記の構成によれば、ブロック１１３４のように、第１の仮想視点情報と第２の仮想視点情報とで仮想カメラパラメータの差異が大きい場合、第１の仮想視点情報に対応する仮想カメラパラメータの値が採用される。これにより、ユーザ１１は所望の選手Ａ８０１に着目した仮想視点映像を視聴しつつ、仮想カメラの動作に大きな変化が生じやすいシュートシーン等、重要なシーンを逃すことなく視聴することができる。

（ユーザによる使用例２）
図１２は、ユーザが情報処理装置３００を使用する方法の別の例を説明するための図である。図１２に示す例においても、図１１に示す例と同様に、サッカーの試合における選手Ａ８０１、選手Ｂ８０２及びボール等が撮像対象に含まれている。また、第１の仮想視点情報に対応する仮想カメラは、サッカーの試合におけるボールを追従して撮像するようにあらかじめ設定されている。図１１に示す例とは異なり、図１２に示す例においては、「指定された撮像対象と、第１の仮想視点情報に対応する仮想カメラの撮像対象とが表示画面に含まれるように仮想カメラの位置を制御」という設定情報があらかじめ設定されている。本使用例において、使用例１と処理の内容が異なる部分について詳細に説明し、同様の処理内容については使用例１及び図１１を参照するものとする。

＜ブロック１２０１：入力なし、第１の仮想視点映像のフレーム表示＞
ブロック１２０１における処理は、図１１におけるブロック１１０１と同様である。結果として、ブロック１２１１に示すユーザ１２は、ブロック１２２１に示す仮想カメラが撮像するフレームを視聴する。

＜ブロック１２０２：「選手Ａ」という音声入力あり＞
Ｓ５０１からＳ６０２までの処理は、図１１におけるブロック１１０２と同様である。Ｓ６０３において、情報生成部３０６はＲＡＭ２０２から「指定された撮像対象と、第１の仮想視点情報に対応する仮想カメラの撮像対象とが表示画面に含まれるように仮想カメラの位置を制御」という設定情報を取得する。Ｓ６０４において、情報生成部３０６は、ＲＡＭ２０２から第１の仮想視点情報に対応する仮想カメラパラメータを取得する。Ｓ６０５において、情報生成部３０６は、「選手Ａ」の座標値、設定情報及び第１の仮想視点情報に対応する仮想カメラパラメータに基づいて、仮想カメラの位置のパラメータを算出する。このとき、設定情報より、指定された「選手Ａ」と、第１の仮想視点情報に対応する仮想カメラの撮像対象である「ボール」を画角に含むように仮想カメラの位置のパラメータを算出する。選手Ａを撮像するような仮想カメラの姿勢のパラメータを算出する。Ｓ６０６において、情報生成部３０６は、算出された仮想カメラの位置のパラメータを含む第２の仮想視点情報を生成し、Ｓ４０５へ処理を進める。Ｓ４０５においては、画像処理サーバ２００において生成された仮想視点映像のフレームが表示部２０８に表示される。結果として、ブロック１２１２に示すユーザ１２は、ブロック１２２２に示すように、選手Ａ８０１とボールとが撮像されたフレームを視聴する。

＜ブロック１２０３：第１の仮想視点情報と第２の仮想視点情報とで基準値未満の仮想カメラパラメータの差異あり＞
ブロック１２０３における処理は、設定情報が異なる点を除き、図１１におけるブロック１１０３と同様であるため説明を省略する。結果として、ブロック１２１３に示すユーザ１２は、ブロック１２２３に示すように、選手Ａ８０１とボールとが継続して撮像されたフレームを視聴する。

＜ブロック１２０４：第２の仮想視点情報を生成してから一定時間経過＞
ブロック１２０４においては、ブロック１２２２において第２の仮想視点情報が生成されてから一定時間が経過したものとする。Ｓ５０１において、条件判断部３０４は、第２の仮想視点情報の生成から一定時間経過したと判定し、Ｓ５０６へ処理を進める。Ｓ５０６において、更新部３０３は、ＲＡＭ２０２に記憶されている指示情報を削除する。この結果、ＲＡＭ２０２に記憶されていた「選手Ａ」という指示情報は削除される。Ｓ５０７以降は、図１１におけるブロック１１０４と同様の処理が行われる。結果として、ブロック１２１４に示すユーザ１２は、ブロック１２２４に示すように、ブロック１２０４が示す第１の仮想視点情報に対応する仮想カメラが撮像するフレームを視聴する。

図１３（ｂ）は、使用例２において表示部２０８に表示される仮想視点映像である。ブロック１２３１〜１２３４は、それぞれ図１１におけるブロック１２２１〜１２２４に対応するフレームである。上記の構成によれば、情報処理装置３００は、もとの仮想視点映像において表示されているボールを映したまま、ユーザ１２が所望する選手Ａ８０１を映すような仮想視点映像を生成することができる。これにより、複数のユーザ１２が同時に視聴する場合でも、それぞれのユーザ１２が視聴したい撮像対象を含む仮想視点映像が視聴できるようになる。また、第２の仮想視点情報の生成から一定時間経過後に第１の仮想視点情報に対応する仮想視点映像に戻すことにより、ユーザ１２がもとの仮想視点映像に戻すための入力を行う工程を削減することができる。

なお、上記の使用例１及び使用例２においては、ユーザが音声入力を行う例について説明したが、これに限定されない。例えば、ユーザによるタッチパネル操作、あるいはキーボードやマウス等を用いた操作入力により、撮像対象が指定される構成であってもよい。また、図１１及び図１２は、指定された撮像対象が第１の仮想視点情報に対応する仮想カメラの画角に含まれていない例について示しているが、このような場合以外にも情報処理装置３００は適用可能である。例えば、設定情報が「指定された撮像対象が画面中央に表示されるように仮想カメラの姿勢を制御」である場合に、第１の仮想視点映像の端に「選手Ａ」が含まれていても、情報処理装置３００は新たな仮想カメラの姿勢を算出する。一方、設定情報が「指定された撮像対象が仮想視点映像に含まれない場合に、当該撮像対象が画面中央に表示されるように仮想カメラの姿勢を制御」である場合に、第１の仮想視点映像の端に「選手Ａ」が含まれているとする。この場合は、新たな仮想カメラパラメータの算出は行われない。設定情報が「指定された撮像対象が仮想視点映像に含まれない場合に、当該撮像対象が仮想視点映像に含まれるように仮想カメラパラメータを変更」であれば、「選手Ａ」が仮想視点映像に含まれない場合は新たな仮想カメラパラメータを算出する。ただし、少なくとも「選手Ａ」が仮想視点映像のどこかに含まれていればよい。このように、設定情報は任意の内容を設定することが可能であり、指定された撮像対象を仮想視点映像の所定の位置に表示させたり、処理を行うか否かの場合分けを判定したりすることが可能である。また、例えば、応援したいチームとは別の選手あるいはゴールが映っている仮想視点映像がある場合に、映さなくてもよい撮像対象が指定される使用例も想定される。この場合は、設定情報を「指定された撮像対象が仮想視点映像に含まれないように仮想カメラパラメータを変更」と設定すればよい。

また、ユーザはＳ４０１からＳ４０６の処理の過程において、途中で設定情報を変更することが可能である。この場合、例えばユーザは第１の仮想視点映像を見ながら、音声入力部２０６又は操作入力部２０７に対して入力を行うことにより、設定情報を変更することができる。さらに、情報処理装置３００は上記のような複数種類の設定情報をあらかじめＲＡＭ２０２に記憶しておき、ユーザが任意のタイミングで設定情報を選択することも可能である。この場合、例えば、表示部２０８には上記のような設定情報を選択するためのＵＩ（ユーザインターフェース）が表示される。また、例えば、「指示情報が示す撮像対象が仮想視点映像において表示される位置」と、「制御する対象となる仮想カメラパラメータ」とのそれぞれを選択するためのＵＩが表示される構成とすることも可能である。また、指示情報が示す撮像対象を仮想視点映像に「含める」か「含めない」かを選択するためのＵＩが表示されてもよい。上記の構成により、ユーザは所望する設定情報を容易に選択することが可能となる。

また、上記の実施形態においては、設定情報において指定された仮想カメラパラメータが変更される例について説明した。しかしながら、仮想カメラの位置及び姿勢を制御したために、撮像対象にピントが合わなくなる場合が想定される。したがって、仮想カメラの位置及び姿勢が制御された場合に、撮像対象にピントが合うように仮想カメラの画角が制御されるようにすることにより、より高品質な仮想視点映像が提供されるようになる。この場合、情報生成部３０６は、設定情報で指定された仮想視点パラメータの他に、仮想カメラの画角を示すパラメータを新たに算出する。

なお、上記の使用例１及び使用例２においては、ユーザが入力を行った時点に対応する仮想カメラパラメータが変更されるものとして説明したが、実際の処理においてはユーザの入力から仮想カメラパラメータの変更までに処理遅延が発生することが想定される。したがって、あらかじめ遅延分を考慮した所定の期間を定めておき、ユーザが入力を行った時点から所定の期間後の仮想カメラパラメータが変更される構成としてもよい。

また、上記の実施形態においては、第２の仮想視点映像のみが表示部２０８に表示される例について説明したが、これに限定されない。表示部２０８は、第１の仮想視点映像と共に、新たに生成された第２の仮想視点映像を表示することも可能である。この構成により、ユーザは撮像対象を指定する前の基準となる仮想視点映像と共に、撮像対象を指定した後の仮想視点映像を視聴することができる。このとき、例えば、第１の仮想視点映像は、第２の仮想視点映像よりも小さく、又は大きく表示されるようにしてもよい。このように、表示部２０８が第１の仮想視点映像と共に第２の仮想視点映像を表示する場合、Ｓ５０１及びＳ５０２からＳ５０４の処理の少なくともいずれかが行われないようにしてもよい。

また、第２の仮想視点映像のみが表示部２０８に表示されている間に、第１の仮想視点映像においてシュートシーン等の重要なシーンがある時点で、重要なシーンがあることを通知する表示がされるようにしてもよい。これにより、ユーザは第２の仮想視点映像を見ながら、重要なシーンのときはもとの仮想視点映像に戻すための指示を行うことが可能になる。また上記の通知が表示される際に、もとの仮想視点映像に戻すためのアイコンやメッセージが共に表示されるようにすることにより、ユーザがもとの仮想視点映像に戻すための入力を容易に行うことができるようになる。

また、表示部２０８に、重要なシーンを表示させるためのＧＵＩが表示されてもよい。このＧＵＩに基づいて、ユーザにより重要なシーンの表示の指示がされると、現在表示部２０８に表示されている仮想視点映像に関わらず、第１の仮想視点情報に対応する重要なシーンの仮想視点映像が表示部２０８に表示される。このとき、当該重要なシーンと同じ時点に対応する第２の仮想視点映像が共に表示されるようにしてもよい。また、重要なシーンが強制的に表示される構成とすることも可能である。この場合、第１及び第２の仮想視点情報に含まれる時刻を示すパラメータと、重要なシーンに対応する時刻とが紐づけされて記憶される。また、第２の仮想視点情報に対応する仮想視点映像が表示部２０８に表示されている間に、重要なシーンに対応する時刻に到達した場合、情報生成部３０６はＳ５０１及びＳ５０７における判定に関わらず第１の仮想視点情報の仮想カメラパラメータを採用する。この構成により、重要なシーンが自動で表示部２０８に表示されるため、ユーザは重要なシーンを逃すことなく視聴することができる。

また、上述の実施形態においては、撮像対象である動体、構造物及び撮像領域における所定の領域が指定される例について説明したが、撮像対象以外が指定された場合について説明する。例えば、ゴールシーンがユーザによって入力された場合、情報生成部３０６は、ゴールする選手とゴールとの両方が仮想視点映像に含まれるような仮想視点情報を生成する。生成方法の一例について説明する。情報処理装置３００はあらかじめゴールシーンに関する設定情報を記憶しておき、ゴールシーンが指定された場合に、「ゴールする選手とゴールとが仮想視点映像に含まれるように仮想カメラパラメータを変更」という設定情報を自動で選択する。情報生成部３０６は、当該設定情報に基づいて第２の仮想視点情報を生成する。このように、シーン等に合わせて設定情報を用意しておくことにより様々な生成方法を実現することが可能である。

以上、本実施形態における情報処理装置３００は、第１の動画（第１の仮想視点映像）の生成に用いられる複数の撮像装置により撮像された撮像対象の指定に係るユーザ入力に基づき、撮像対象の位置を特定する座標変換部３０５を有する。当該ユーザ入力は、第１の動画が表示部２０８に表示されている間に行われる。また、当該情報処理装置３００は、座標変換部３０５により特定された位置情報と、あらかじめ生成された第１の仮想視点情報とに基づいて、第２の動画（第２の仮想視点映像）を生成するための仮想視点情報を生成する情報生成部３０６を有する。当該第２の動画は、ユーザ入力が行われた後に表示部２０８に表示される。当該情報処理装置３００によれば、第１の仮想視点情報を基準とし、指定された撮像対象に応じて、新たな第２の仮想視点情報を容易に生成することができるようになる。これにより、ユーザは仮想視点をすべて指定することなく、所望の仮想視点情報を生成することができるという効果がある。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

３００情報処理装置
３０５座標変換部
３０６仮想視点情報生成部

Claims

経時的に変化する仮想視点からの見えを表す第１の動画の生成に用いられる複数の撮像装置により撮像された撮像対象の指定に係るユーザ入力であって、前記第１の動画が表示手段に表示されている間に行われるユーザ入力に基づいて、当該撮像対象の位置を特定する特定手段と、
前記特定手段により特定された前記撮像対象の位置を示す位置情報と前記第１の動画を生成するための第１の仮想視点情報とに基づいて、前記ユーザ入力が行われた後に前記表示手段に表示される第２の動画であって、経時的に変化する仮想視点からの見えを表す第２の動画を生成するための第２の仮想視点情報を生成する情報生成手段と
を有することを特徴とする情報処理装置。
前記第１の仮想視点情報及び前記第２の仮想視点情報は、それぞれ、前記第１の動画及び前記第２の動画に係る仮想視点の視点位置を示すパラメータ及び仮想視点からの視線の方向を示すパラメータの、少なくともいずれかを含むことを特徴とする請求項１に記載の情報処理装置。
前記第１の仮想視点情報及び前記第２の仮想視点情報は、それぞれ、前記第１の動画及び前記第２の動画に対応する画角を示すパラメータを更に含むことを特徴とする請求項２に記載の情報処理装置。
前記情報生成手段は、前記位置情報に基づいて、前記第１の仮想視点情報に含まれるパラメータを変更することにより、第２の仮想視点情報を生成することを特徴とする請求項２又は３に記載の情報処理装置。
前記第１の仮想視点情報及び前記第２の仮想視点情報は、それぞれ、前記第１の動画及び前記第２の動画における複数の時点と対応付けられた複数のパラメータを含み、
前記情報生成手段は、前記第１の仮想視点情報に含まれる複数のパラメータのうち、前記特定手段により撮像対象の位置が特定された時点に対応するパラメータを変更することを特徴とする請求項４に記載の情報処理装置。
前記情報生成手段は、前記第１の仮想視点情報に含まれる複数のパラメータのうち、前記指定手段により撮像対象の位置が指定された時点から所定の期間における複数の時点に対応する複数のパラメータを変更することを特徴とする請求項５に記載の情報処理装置。
前記情報生成手段は、前記特定手段により特定された位置における撮像対象が前記第１の動画に含まれない場合、当該撮像対象が第２の動画に含まれるように前記第１の仮想視点情報に含まれるパラメータを変更することを特徴とする請求項４乃至６のいずれか１項に記載の情報処理装置。
前記情報生成手段は、前記特定手段により特定された位置における撮像対象が前記第１の動画に含まれない場合、当該撮像対象と、前記第１の動画に含まれる撮像対象とが第２の動画に含まれるように、前記第１の仮想視点情報に含まれるパラメータを変更することを特徴とする請求項７に記載の情報処理装置。
前記情報生成手段は、前記特定手段により特定された位置における撮像対象が第２の動画における所定の位置に表示されるように、前記第１の仮想視点情報に含まれるパラメータを変更することを特徴とする請求項４乃至８のいずれか１項に記載の情報処理装置。
前記情報生成手段は、第２の仮想視点情報の生成方法に関する情報を含む設定情報にさらに基づいて、第２の仮想視点情報を生成することを特徴とする請求項２乃至９のいずれか１項に記載の情報処理装置。
前記設定情報は、前記特定手段により位置を特定された撮像対象が第２の動画において表示される表示位置を示す情報と、前記第１の仮想視点情報において変更する対象となるパラメータを示す情報とを含むことを特徴とする請求項１０に記載の情報処理装置。
前記特定手段により位置が特定される撮像対象は、動体及び構造物の少なくともいずれかを含むことを特徴とする請求項１乃至１１のいずれか１項に記載の情報処理装置。
前記特定手段により位置が特定される撮像対象は、前記複数の撮像装置により撮像される所定のイベントに対応する特定の領域を含むことを特徴とする請求項１乃至１１のいずれか１項に記載の情報処理装置。
前記ユーザ入力は、入力手段に対する音声入力及び操作入力の少なくともいずれかであることを特徴とする請求項１乃至１３のいずれか１項に記載の情報処理装置。
前記第１の動画及び前記第２の動画の少なくともいずれかを表示する表示手段を有することを特徴とする請求項１乃至１４のいずれか１項に記載の情報処理装置。
前記第１の動画と共に前記第２の動画を表示する表示手段を有することを特徴とする請求項１乃至１４のいずれか１項に記載の情報処理装置。
前記第１の仮想視点情報を取得する第１の取得手段を有し、
前記情報生成手段は、前記位置情報と、前記第１の取得手段により取得された第１の仮想視点情報とに基づいて、第２の仮想視点情報を生成する
ことを特徴とする請求項１乃至１６のいずれか１項に記載の情報処理装置。
前記第２の仮想視点情報を映像生成手段に出力する出力手段を有することを特徴とする請求項１乃至１７のいずれか１項に記載の情報処理装置。
請求項１８に記載の情報処理装置と、
前記出力手段により出力された第２の仮想視点情報を取得する第２の取得手段と、
前記第２の取得手段により取得された第２の仮想視点情報に基づいて、前記第２の動画を生成する映像生成手段と
を有する映像生成装置を有することを特徴とするシステム。
経時的に変化する仮想視点からの見えを表す第１の動画の生成に用いられる複数の撮像装置により撮像された撮像対象の指定に係るユーザ入力であって、前記第１の動画が表示されている間に行われるユーザ入力に基づいて、当該撮像対象の位置を特定する特定工程と、
前記特定工程において特定された前記撮像対象の位置を示す位置情報と前記第１の動画を生成するための第１の仮想視点情報とに基づいて、前記ユーザ入力が行われた後に表示される第２の動画であって、経時的に変化する仮想視点からの見えを表す第２の動画を生成するための第２の仮想視点情報を生成する情報生成工程と
を有することを特徴とする仮想視点情報の生成方法。
コンピュータを、請求項１乃至１８のいずれか１項に記載の情報処理装置が有する各手段として機能させるためのコンピュータプログラム。