JP2021152724A

JP2021152724A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2021152724A
Application number: JP2020052631A
Authority: JP
Inventors: 裕尚伊藤; Hironao Ito
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-09-30
Also published as: US20210306616A1; US11503272B2

Abstract

【課題】仮想視点画像を生成するための仮想視点の指定に係るユーザの手間を削減する。【解決手段】仮想視点操作端末は、仮想視点操作部で、ユーザの操作に基づき生成した仮想視点パスの生成対象時間を表すタイムコードを生成し、生成したタイムコードを仮想視点画像生成サーバに送信する。仮想視点画像生成サーバは、受信した生成対象時間を示すタイムコードに基づいて、データサーバから仮想視点画像データの生成に使用する素材データを受信し、学習サーバから学習済み仮想視点パス生成モデルを受信する。仮想視点画像生成サーバは、仮想視点パス生成部で、受信した素材データに含まれる前景３次元モデルデータに基づいて、受信した学習済み仮想視点パス生成モデルを用いて仮想視点パスデータを自動生成する。【選択図】図３

Description

本発明は、仮想視点画像を生成するための技術に関する。

複数の撮像装置を用いた撮像システムで撮像した画像に基づいて、指定された仮想視点から見た仮想視点画像を生成することができる画像処理システムがある。特許文献１のシステムでは、複数の撮像装置で撮像した画像を処理することにより仮想視点画像を生成することができる。

仮想視点画像を生成する画像処理システムにおいて、仮想視点を指定する方法としては、ユーザ入力に基づき指定する方法がある。特許文献１においては、ユーザが仮想視点を指定する方式や、仮想視点の配置領域に制約を設け、ユーザが指定した仮想視点の移動先が制約を満たさない位置である場合は、制約を満たす位置まで仮想視点を自動的に戻す方法等が記載されている。

特開２０１７−２１１８２８号公報

しかしながら、仮想視点画像を生成するたびにユーザが仮想視点を指定することとすると、ユーザの手間が大きくなる。一方、仮想視点を予め固定的に定めることとすると、仮想視点画像の生成対象のシーンに適さない仮想視点が設定されてしまう虞がある。

そのため本発明は、仮想視点画像を生成するための仮想視点の指定に係るユーザの手間を削減することを目的とする。

本開示の技術は、仮想視点画像データを生成するための仮想視点パスデータを生成する情報処理装置であって、複数のカメラを用いた同期撮影により取得された複数視点画像データに含まれるオブジェクトの形状を表す３次元モデルデータを取得する取得手段と、３次元モデルデータを入力することで仮想視点データを出力する出力手段を用いて、前記取得手段で取得した前記３次元モデルデータに対応する前記仮想視点データに基づき、前記仮想視点パスデータを生成する生成手段と、を備えたことを特徴とする。

本発明は、仮想視点画像を生成するための仮想視点の指定に係るユーザの手間を削減することができる。

本発明を適用できるシステムを示す図である。図１のシステムを構成する各装置のハードウェア資源を示す図である。実施形態１を実現するソフトウェア構成を示す図である。入力データ、学習モデル、出力データから成る本発明に関わる学習モデルを利用した構造の概念図である。本発明に関わる入力データおよび教師データの構造を示す図である。実施形態１における学習フェーズのフローチャートである。実施形態１における仮想視点画像生成処理のフローチャートである。仮想視点パス生成部３０５を学習する際のＵＩ画面の例である。仮想視点画像を生成するためのＵＩ画面の例である。実施形態２を実現するソフトウェア構成を示す図である。実施形態２における仮想視点画像生成処理のフローチャートである。

（実施形態１）
本発明の実施形態１について説明する。

図１は、本実施形態を適用できるシステム例を示す図である。本システムは、データサーバ１０１、学習サーバ１０２、仮想視点画像生成サーバ１０３、および仮想視点操作端末１０４の情報処理装置、ならびにそれらを接続するローカルネットワーク１００で構成される。データサーバ１０１は、仮想視点画像データの生成に必要なデータが蓄積される。学習用サーバ１０２は仮想視点を自動生成する仮想視点パス生成部の学習を行う。仮想視点操作端末１０４は、ユーザが仮想視点を操作するためのＵＩを備える。

図２は、図１のシステムを構成する各サーバのハードウェア資源を例示する図である。ＣＰＵ２０２は、ＲＯＭ２０３やＲＡＭ２０４に格納されているコンピュータプログラムやデータを用いてコンピュータ全体の制御を行う。即ち、ＣＰＵ２０２は、後述する図３に示す各処理部として機能することになる。ＲＯＭ２０３には、本コンピュータの設定データや、ブートプログラム等が格納されている。ＲＡＭ２０４は、外部記憶装置２０５からロードされたコンピュータプログラムやデータ、ネットワークインターフェースカード（ＮＩＣ）２０６を介して外部から取得したデータ等を一時的に記憶するためのエリアを有する。更に、ＲＡＭ２０４は、ＣＰＵ２０２が各種の処理を実行する際に用いるワークエリアを有する。即ち、ＲＡＭ２０４は、例えば、フレームメモリとして割り当てたり、その他の各種のエリアを適宜提供したりすることができる。

入力部２０７は、キーボードやマウス等を含み、ユーザが操作することで、各種の指示をＣＰＵ２０２に対して入力することができる。表示部２０８は、ＣＰＵ２０２による処理結果を表示する。また表示部２０８は、例えば液晶ディスプレイで構成される。ＨＤＤ２０５は、大容量情報記憶装置である。ＨＤＤ２０５には、ＯＳ（オペレーティングシステム）や、図３に示す各処理部の機能をＣＰＵ２０２に実現させるためのコンピュータプログラムが保存されている。更には、ＨＤＤ２０５には、処理対象としての画像データ等が保存されていても良い。ＨＤＤ２０５に保存されているコンピュータプログラムやデータは、ＣＰＵ２０２による制御に従って適宜、ＲＡＭ２０４にロードされ、ＣＰＵ２０２による処理対象となる。ＮＩＣ２０６には、ＬＡＮやインターネット等のネットワーク、投影装置や表示装置等の他の機器を接続することができ、本コンピュータはこのＮＩＣ２０６を介して様々な情報を取得したり、送出したりすることができる。システムバス２０１は上述の各部を繋ぐバスである。

上述の各構成の動作は、ＣＰＵ２０２が中心となって制御する。ＧＰＵ２０９は、並列処理することにより高速なデータ処理が可能なプロセッサである。ＣＰＵ２０２およびＧＰＵ２０９を協働させて高速演算を行うことが可能である。また、ＦＰＧＡ（Ｆｉｅｌｄ −ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）と言った複数のコアを用いて単純計算を行う集積回路を用いても良い。

本実施形態は、前述した機能を実現するコンピュータプログラムのコードを記録した記憶媒体を、システムに供給し、そのシステムがコンピュータプログラムのコードを読み出し実行することによっても実現される。この場合、記憶媒体から読み出されたコンピュータプログラムのコード自体が前述した実施形態の機能を実現し、そのコンピュータプログラムのコードを記憶した記憶媒体は本発明を構成する。また、そのプログラムのコードの指示に基づき、コンピュータ上で稼働しているＯＳ等が上述のハードウェア資源を用いて実際の処理の一部または全部を行い、その処理によって前述した機能が実現される場合も含まれる。

さらに、以下の形態で実現しても構わない。すなわち、記憶媒体から読み出されたコンピュータプログラムを、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込む。そして、そのコンピュータプログラムに基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行って、前述した機能が実現される場合も含まれる。

本実施形態を上記記憶媒体に適用する場合、その記憶媒体には、先に説明した処理に対応するコンピュータプログラムが格納されることになる。

図３は、図２に例示するハードウェア資源とプログラムを利用することで実現される機能構成例を示す図である。

データサーバ１０１は、データ蓄積部３００とデータ送受信部３０１を含む。データ蓄積部３００は、仮想視点画像の素材データを蓄積する。素材データには、例えばそれぞれ異なる位置の複数のカメラを用いた同期撮影により取得された複数視点画像データに含まれるオブジェクトの位置及び形状を表す３次元モデルや、３次元モデルに張り付けるテクスチャのデータ等が含まれる。本実施形態では、複数のカメラにより撮影される撮影領域内のオブジェクトの３次元モデル及びテクスチャのデータが複数視点画像データから生成されるものとするが、３次元モデル及びテクスチャのデータの取得方法はこれに限定されない。またデータ蓄積部３００は、生成された仮想視点パスデータ等も蓄積する。本実施形態における仮想視点パスデータは、連続する複数の時点における仮想視点の位置及び向きを示す情報である。なお、仮想視点パスデータには、各時点における仮想視点の視野の大きさ（画角）を示す情報や、仮想視点画像の生成対象となる当該時点を示す情報が含まれていてもよい。データ送受信部３０１は、蓄積されたデータを送信する、または新たに蓄積するデータを受信する。

学習サーバ１０２は、学習用データ生成部３０２、学習部３０３、データ受信部３０４を含む。学習用データ生成部３０２は学習用のデータを生成し、学習部３０３に入力する。学習用データの生成方法については、後述する。学習部３０３は、学習用データを用いて仮想視点パスデータを生成する仮想視点パス生成部３０５の学習を行う。ここで、ＧＰＵ２０９はデータをより多く並列処理することで効率的な演算を行うことができるので、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合にはＧＰＵ２０９で処理を行うことが有効である。そこで実施形態１では、学習部３０３による処理にはＣＰＵ２０２に加えてＧＰＵ２０９を用いる。具体的には、学習モデルを含む学習プログラムを実行する場合に、ＣＰＵ２０２とＧＰＵ２０９が協働して演算を行うことで学習を行う。なお、学習部３０３の処理は、ＣＰＵ２０２またはＧＰＵ２０９のみにより演算が行われても良い。

仮想視点画像生成サーバ１０３は、仮想視点パス生成部３０５、仮想視点画像生成部３０６、データ受信部３０７、データ送信部３０８を含む。データ受信部３０７は、データサーバ１０１から仮想視点画像を生成するための素材データを受信する。ここで、素材データとは、前景の３次元モデルおよびテクスチャ画像、ならびに背景の３次元モデルおよびテクスチャ画像を含み、さらに高画質化のための付帯データ等を含んでも良い。

仮想視点パス生成部３０５は、前景の３次元モデルおよび後述する追加情報等を入力として、仮想視点パスデータを生成する。仮想視点パス生成部３０５は、学習部３０３と同様にＣＰＵ２０２、ＧＰＵ２０９を用いて演算を行っても良い。仮想視点画像生成部３０６は素材データおよび仮想視点パスデータに基づいて、仮想視点画像データを生成する。データ送信部３０８は、仮想視点画像データを仮想視点操作端末１０４に送信する。

図４は、実施形態１の学習モデルを用いた入出力の構造を示す概念図である。仮想視点パス生成モデル４０３に、３次元モデル４０１、追加情報４０２が入力され、仮想視点パス４０４が出力される。追加情報４０２は、必須ではなくオプションであり、例えば撮影対象の競技種別、３次元モデルデータに対応するオブジェクトのチーム情報等を含む。また追加情報４０２は、選手またはボール、ゴールといった３次元モデルデータに対応するオブジェクトのモデル種別情報、競技のフィールド座標情報、ゴール座標情報、各種ライン座標情報等を含む。

以降、仮想視点パス生成部３０５の学習フェーズについて詳細に説明する。

仮想視点パス生成部３０５は、少なくとも前景の３次元モデルデータを入力として、仮想視点パスを生成する。図５は、３次元モデルデータおよび仮想視点パスデータのデータ構造を示したものである。３次元モデルデータは、世界座標系における点の集合で表現され、それぞれの点の座標情報を持つ。

図５（ａ）は、あるフレームに含まれる前景３次元モデルデータを構成する全ての点の座標情報である。ＩＤは点の識別子であり、ｘ，ｙ，ｚは点の座標である。

図５（ｂ）は、あるフレームにおけるオブジェクト単位の前景３次元モデルデータを構成する点群を１つの集合体とみなし、それらの重心座標を代表点とした前景３次元モデルデータ毎の位置情報である。ＩＤはオブジェクト単位の前景３次元モデルデータの識別子であり、ｘ，ｙ，ｚはオブジェクトの重心の座標である。図５（ａ）に示すような前景３次元モデルデータに含まれる全ての点を入力として学習を行う場合、学習コストが大きくなる。そのため、図５（ｂ）で表現されるようなオブジェクト単位の前景３次元モデルの重心の座標を代表座標とし、その代表座標を入力として使用することにより学習コストを削減してもよい。ここで、３次元モデルデータは１フレーム単位のデータであり、３次元モデルデータのフレーム毎のデータには、該データに対応する複数視点画像が取得された時刻を示すタイムコードが付与される。

図５（ｃ）は、仮想視点パスデータに含まれる、複数フレームにわたる仮想視点の座標情報である。Ｔｉｍｅｃｏｄｅは各仮想視点の対象フレームを示す。ｘ、ｙ、ｚは各仮想視点の座標である。Ｘ、Ｙ、Ｚ、ｎは各仮想視点の姿勢を表すクォータニオンである。Ｘ、Ｙ、Ｚはそれぞれｘ軸、ｙ軸、ｚ軸に対する撮像装置の姿勢の角度を表し、ｎは撮像装置の光軸方向の回転角を表す。またｚｏｏｍは各仮想視点の焦点距離を表す。

図５（ｄ）は、ある１単位の仮想視点画像を生成するためのデータに対して定まる追加情報を示す。競技種別、フィールド情報、ゴール座標情報から構成されている。例えば、あるサッカーの１試合を撮像装置で撮像して、その１試合分の仮想視点画像を生成するためのデータを作成した場合、それが１単位となる。

図５（ｅ）は、追加情報が付与された前景３次元モデルデータを示す。ＩＤはオブジェクト単位の前景３次元モデルの識別子であり、ｘ，ｙ，ｚは代表点の座標である。オブジェクト単位の前景３次元モデル毎に、種別情報（ｔｙｐｅ）とチーム情報（ｔｅａｍ）が付与されている。

学習フェーズにおいて、前景３次元モデルデータおよび追加情報は入力データ、その入力データに対応付けられた仮想視点パスデータは教師データとなる。教師データとなる仮想視点パスデータは、複数ユーザが制作した仮想視点パスを平均化し、平滑化したものについてのデータであってもよく、複数の仮想視点パスの最大分布となるもののデータであってもよい。

また学習の際は、仮想視点パスデータのうち、特定のデータに重みをつけてもよい。仮想視点画像においては、撮像装置の位置よりも、姿勢（向き）の影響が大きいため、撮像装置の姿勢と教師データである仮想視点パスデータにおける仮想視点の姿勢との合致度合いに応じて重みをつけることが考えられる。

機械学習の具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシン等が挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習（ディープラーニング）も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。本実施形態としては深層学習を用いて学習を行うものとする。

学習部３０３は、誤差検出部と、更新部と、を備えてもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。

図６は、学習フェーズにおける学習の詳細な流れを示すフローチャートである。システム図（図１、３）における各装置に関する制御を分けて記載する。また各サーバが協調動作する順序に従って説明する。

この例では、ユーザが仮想視点を操作して仮想視点画像を生成しながら、同時に学習サーバ１０２に操作した仮想視点と３次元モデルデータを入力することで学習を行う。

仮想視点操作端末１０４は、仮想視点操作部３０９でユーザの操作に基づいた仮想視点データを生成し、データ送信部３１１を介して仮想視点画像生成サーバ１０３に送信する（Ｓ６０１）。

仮想視点画像生成サーバ１０３は、データ受信部３０７を介して仮想視点データを受信する（Ｓ６０２）。

仮想視点画像生成サーバ１０３は、受信した仮想視点データに基づいて、データ受信部３０７を介してデータサーバ１０１から仮想視点画像データの生成に使用するデータを受信する（Ｓ６０３）。ここで、仮想視点画像データの生成に使用するデータとは、仮想視点データで指定されたタイムコードで特定されるフレームの前景テクスチャデータと、前景３次元モデルデータとする。

仮想視点画像生成サーバ１０３は、仮想視点画像生成部３０６で、受信した仮想視点画像データの生成に使用するデータを用いて、受信した仮想視点データに基づき仮想視点画像データを生成する（Ｓ６０４）。

仮想視点画像生成サーバ１０３は、データ送信部３０８を介して生成した仮想視点画像データを仮想視点操作端末１０４に送信する（Ｓ６０５）。

仮想視点操作端末１０４は、データ受信部３１２を介して仮想視点画像生成サーバ１０３から仮想視点画像データを受信する（Ｓ６０６）。

仮想視点操作端末１０４は、表示部３１０で受信した仮想視点画像を表示する（Ｓ６０７）。

仮想視点操作端末１０４における仮想視点画像の操作終了であれば、処理を終了し、継続の場合はＳ６０１に戻って処理を繰り返す（Ｓ６０８）。

仮想視点画像生成サーバ１０３は、Ｓ６０５の後、データ送信部３０８を介して、仮想視点画像データの生成の際に用いた仮想視点データおよび前景３次元モデルデータを学習サーバ１０２に送信する（Ｓ６０９）。

仮想視点画像生成サーバ１０３における仮想視点画像データの生成終了であれば処理を終了し、継続の場合は、Ｓ６０２に戻って処理を繰り返す（Ｓ６１０）。

学習サーバ１０２は、データ受信部３０４を介して、仮想視点画像生成サーバ１０３から仮想視点データと前景３次元モデルデータを受信する（Ｓ６１１）。

学習サーバ１０２は、学習用データ生成部３０２で、受信した仮想視点データと前景３次元モデルデータに基づいて、学習用データを生成する（Ｓ６１２）。ここで生成する学習用データは、前景３次元モデルデータを入力データ、仮想視点データを教師データとする学習用データである。

学習サーバ１０２は、生成した学習用データを用いて学習部３０３で学習を行う（Ｓ６１３）。仮想視点画像生成サーバ１０３から仮想視点データおよび前景３次元モデルデータの送信が途絶えるなど、学習終了を示す条件が満たされれば処理を終了し、継続の場合は、Ｓ６１１に戻って処理を繰り返す（Ｓ６１４）。

（その他の学習方法）
本実施形態においては、仮想視点をユーザが操作しながら学習する方法について示したが、予め作成された仮想視点パスデータと、対象となる前景３次元モデルデータを学習サーバ１０２に入力して学習しても良い。この手法によると、多くの人が作成した仮想視点パスデータをインターネット等を経由して収集し、学習に用いることが可能である。学習に用いることができる仮想視点パスデータは、前景オブジェクトに対する相対座標、または競技のフィールド座標、ゴール座標、各種ライン座標等の背景オブジェクトに対する相対座標の情報を有するものとする。すなわち、学習に用いることができる仮想視点パスデータは、仮想視点パスデータの座標と前景３次元モデルデータの座標とを関係付けられる情報を含むものとする。

学習フェーズについて、前景３次元モデルデータを入力データ、仮想視点パスデータを教師データとする方法について説明した。さらに、それぞれの仮想視点パスデータの出来の良さを示すスコアを付与することによって、良い教師データと悪い教師データを入力して精度を高めることができる。

また、競技によってシーン毎にシーン情報を付与することによって、シーンを判別する手段と組み合わせて、シーン毎に適した仮想視点データを生成するよう学習することも可能である。例えばサッカーであれば、定常、ペナルティエリア付近侵入、ゴール、フリーキック、コーナーキック、スローイン等のシーンを設定することが可能である。

さらに、チームが分かれた競技について学習する場合、どちらのチームに重きをおいた仮想視点パスデータかという情報を付与するようにしてもよい。これによ、ユーザがチームを選択し、選択されたチームがよりよく見える仮想視点パスのスコアが高くなるように学習することも可能である。

図７は、仮想視点画像データの生成時に、仮想視点パス生成部３０５を用いて仮想視点パスデータを自動生成する処理の流れを示すフローチャートである。システム図における各装置に関する制御を分けて記載する。また各装置が協調動作する順序に従って説明する。

仮想視点操作端末１０４は、仮想視点操作部３０９で、ユーザの操作に基づき生成した仮想視点パスの対象時間（以下、生成対象時間と呼称する）を表すタイムコードを生成する。そして仮想視点操作端末１０４は、データ送信部３１１を介して生成したタイムコードを仮想視点画像生成サーバ１０３に送信する（Ｓ７０１）。ユーザの操作としては、例えば、キーボード等を用いた生成対象時間の入力や、マウス等を用いたシークバー等での生成対象時間の範囲の選択などとすることができる。また、トライシーンや、ゴールシーン等、特定のシーンを指定するようにしても良い。

なお、ここではユーザが時間やシーンを指定する構成としたが、これらの指定をシステム側が自動で行うようにしてもよい。画像認識技術を用いて、複数施視点画像の各フレームを予めスコアや優先順位が設定されたシーンに分類し、高スコアまたは優先順位の高いフレームを含む領域を、生成対象時間として自動選択するようにしてもよい。

仮想視点画像生成サーバ１０３は、データ受信部３０８で仮想視点パスを生成する対象時間を示すタイムコードを受信する（Ｓ７０２）。

仮想視点画像生成サーバ１０３は、受信した生成対象時間を示すタイムコードに基づいて、データ受信部３０７を介してデータサーバ１０１から仮想視点画像データの生成に使用する素材データを受信する。また、仮想視点画像生成サーバ１０３は、データ受信部３０７を介して学習サーバ１０２から学習済み仮想視点パス生成モデルを受信する（Ｓ７０３）。ここで仮想視点画像データの生成に使用する素材データとは、生成対象時間を示すタイムコードで特定されるフレームの前景テクスチャデータと、前景３次元モデルデータとする。

仮想視点画像生成サーバ１０３は、仮想視点パス生成部３０５で、受信した素材データに含まれる前景３次元モデルデータに基づいて、受信した学習済み仮想視点パス生成モデルを用いて仮想視点パスデータを自動生成する（Ｓ７０４）。

仮想視点画像生成サーバ１０３は、仮想視点画像生成部３０６で、受信した仮想視点画像データの生成に使用する素材データ、および仮想視点パス生成部３０５で生成した仮想視点パスデータを用いて、仮想視点画像データを生成する（Ｓ７０５）。

仮想視点画像生成サーバ１０３は、データ送信部３０８を介して、生成した仮想視点画像データを仮想視点操作端末１０４に送信する（Ｓ７０６）。

仮想視点操作端末１０４は、データ受信部３１２を介して仮想視点画像生成サーバ１０３から仮想視点画像データを受信する（Ｓ７０７）。

仮想視点操作端末１０４は、表示部３１０で受信した仮想視点画像を表示する（Ｓ７０８）。

なお、図７に示す処理では、学習サーバ１０２から受信した学習済み仮想視点パス生成モデルを用いて、仮想視点画像生成サーバ１０３において仮想視点パスを生成しているが、仮想視点パスを学習サーバ１０２において生成するようにしてもよい。すなわち、仮想視点画像生成サーバ１０３から前景３次元モデルデータ等を学習サーバ１０２に送信すると、学習サーバ１０２が学習済み仮想視点パス生成モデルを用いて仮想視点パスデータを生成して仮想視点画像生成サーバ１０３に送信する。そして仮想視点画像生成サーバ１０３は、受信した仮想視点パスデータに基づき仮想視点画像データを生成するようにしてもよい。

図８は、仮想視点パス生成部３０５を学習する際のＵＩ画面８００の例である。この例では、予め作成された仮想視点パスデータを用いて学習する場合のＵＩ画面を示す。

コンテンツリスト８０１から、学習対象のコンテンツを選択する。選択したコンテンツに含まれる仮想視点パスデータは仮想視点画像再生ウィンドウ８０２で確認できる。仮想視点画像の再生操作は操作ボタン群で操作可能である。ユーザは学習対象の時間をタイムコード指定ウィンドウ８０４で指定し、オプションで該時間の仮想視点パスの評価スコア、競技種別、シーン種別、優先チームをウィンドウ８０５から８０８で指定することができる。学習開始ボタン８０９で学習を開始する。

図９は、仮想視点パス生成部３０５で生成された仮想視点パスデータに基づき生成された仮想視点画像を編集するためのＵＩ画面９００の例である。仮想視点画像生成の対象コンテンツを表示するコンテンツ情報表示部９０１を備える。仮想視点画像識別情報は９０１のウィンドウに表示される。操作部９０３で仮想視点画像の再生操作を行う。操作部９０３はシークバー、再生ボタン、停止ボタンを備える。仮想視点画像データを生成するために、生成対象時間を９０４のウィンドウにタイムコードを入力することで指定する。また、オプションで競技種別、シーン、優先チームをウィンドウ９０５、９０６、９０７で指定することができる。生成開始ボタン９０８を押下することにより、仮想視点画像生成サーバ１０３にデータが送信され、仮想視点画像データが生成される。

また自動生成された仮想視点パスデータの出来栄えを示す評価スコアウィンドウ９０９を備える。

素材データに含まれる前景３次元モデルデータには、仮想視点の位置に関わらず仮想視点画像の品質が悪い、苦手なシーンを生成してしまうものが存在する。例えば、ラグビーのスクラム等、複数の選手が密集して固まった状態では、選手個々の前景３次元モデルデータが精度よく生成できず、仮想視点画像の画質が低下する。また、オブジェクトがポール等の陰に隠れてしまうと3次元モデルが乱れてしまうため前景３次元モデルデータが精度よく生成できず、仮想視点画像の画質が低下する。

そこで学習する際には、入力された前景３次元モデルデータが苦手なシーンを生成してしまうフレームを含む場合、自動生成される仮想視点パスの評価スコアが低くなるように仮想視点パスを学習させる。これにより、生成される仮想視点画像に苦手なシーンが含まれ易い仮想視点パスデータに対しては、評価スコアを低く算出する仮想視点パス生成部３０５とすることができる。そしてこの仮想視点パスデータの評価スコアをＵＩ画面９００に表示することで、ユーザは出来栄えを数値で把握することができる。

以上、実施形態１によれば、仮想視点パスデータを自動的に生成することにより、ユーザが煩雑な仮想視点操作をすることなく、仮想視点画像データを生成することができる。

（実施形態２）
実施形態２では、仮想視点画像データを生成する際にキーになるフレームを複数指定し、各キーフレームについて１フレームから１つの仮想視点データを自動生成する。さらに、生成した複数のキーフレームの仮想視点をつなげる仮想視点データをさらに自動生成して、それらを仮想視点パスデータとする。１フレームで１つの仮想視点を自動生成することで、学習コスト、仮想視点パスデータ生成コストを下げることが可能である。

学習方法は、１回の学習において、入力データである前景３次元モデルデータと教師データである仮想視点データを連続した複数フレーム入力するのではなく、１フレーム入力する。その他のフローは実施形態１と同等である。但し、実施形態１と同様に、連続フレームを入力して学習しても良いが、１回の学習に用いるフレーム数を小さくすることにより学習コスト、仮想視点パスデータ生成コストを下げるものとする。

図１０は、実施形態２を実現する機能構成を示す図である。実施形態１と同様のブロックは、同じ番号を付与し説明を省略する。

仮想視点操作端末１０４の仮想視点操作部１００１は、仮想視点画像生成サーバ１０３に対し、キーフレームを指定し、仮想視点データの生成を要求する。

仮想視点画像生成サーバ１０３の仮想視点パス生成部１００２は、キーフレームの仮想視点データに基づいて、仮想視点パスデータを生成する機能をさらに有する。キーフレームから生成した仮想視点を滑らかにつなぐ方法として、スプライン曲線を描画するアルゴリズムを用いる。またズーム値は各キーフレームのズーム値を線形に変化させるものとする。ここでは、スプライン曲線の描画方法を用いたが、仮想視点を補間してそれらを滑らかに繋ぐ仮想視点を生成する他の方法を用いてもよく、単純に仮想視点同士を直線で結んでもよい。

さらに距離に応じて、キーフレーム間を結ぶときのキーフレーム間のフレーム数を変化させても良い。尚、完成した仮想視点画像は、キーフレーム間のフレーム数が多いほど、同一フレームレートで再生したときにスローに見える。

図１１は、実施形態２における仮想視点画像生成処理の流れを示すフローチャートである。実施形態１と同様の処理は、同じ番号を付与し説明を省略する。

仮想視点操作端末の仮想視点パス生成部１００２は、仮想視点画像データを生成する生成対象時間と、キーフレームのタイムコードを複数個指定し、仮想視点画像生成サーバ１０３に送信する（Ｓ１１０１）。

仮想視点画像生成部１０３は、データ受信部３０７を介して生成対象時間およびキーフレームを示すタイムコードデータを受信する（Ｓ１１０２）。

仮想視点画像生成部１０３は、仮想視点パス生成部１００２で、受信した素材データに含まれるキーフレームの前景３次元モデルデータに基づいて、キーフレームの仮想視点データを生成する（Ｓ１１０３）。

さらに仮想視点画像生成部１０３は、仮想視点パス生成部１００２で、キーフレームの仮想視点を滑らかに結ぶ仮想視点パスデータを生成する（Ｓ１１０４）。以降の処理は、実施形態１と同様である。

以上、実施形態２によれば、１フレームの前景３次元モデルデータから生成された仮想視点に基づき仮想視点パスデータを自動生成することができる。これによれば、複数フレームの前景３次元モデルデータに基づき仮想視点パスデータを生成するよりも、学習コスト、仮想視点パスデータ生成コストを下げることが可能である。

（その他の実施形態）
なお、上述した各処理部のうち、仮想視点パス生成部３０５については、機械学習された学習済みモデルを用いて処理を実行したが、ルックアップテーブル（ＬＵＴ）等のルールベースの処理を行ってもよい。その場合には、例えば、入力データと出力データとの関係をあらかじめＬＵＴとして作成する。そして、この作成したＬＵＴを仮想視点画像生成サーバ１０３のメモリに格納しておくとよい。仮想視点パス生成部３０５の処理を行う場合には、この格納されたＬＵＴを参照して、出力データを取得することができる。つまりＬＵＴは、前記処理部と同等の処理をするためのプログラムとして、ＣＰＵあるいはＧＰＵ等と協働で動作することにより、上記処理部の処理を行う。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、１または複数のプロセッサまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサまたは回路のネットワークを含みうる。

プロセッサまたは回路は、中央演算処理装置（ＣＰＵ）、マイクロプロセッシングユニット（ＭＰＵ）、グラフィクスプロセッシングユニット（ＧＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートウェイ（ＦＰＧＡ）を含みうる。また、プロセッサまたは回路は、デジタルシグナルプロセッサ（ＤＳＰ）、データフロープロセッサ（ＤＦＰ）、またはニューラルプロセッシングユニット（ＮＰＵ）を含みうる。

１００ローカルネットワーク
１０１データサーバ
１０２学習サーバ
１０３仮想視点画像生成サーバ
１０４仮想視点操作端末

Claims

仮想視点画像データを生成するための仮想視点パスデータを生成する情報処理装置であって、
複数のカメラを用いた同期撮影により取得された複数視点画像データに含まれるオブジェクトの位置及び形状を表す３次元モデルデータを取得する取得手段と、
３次元モデルデータを入力することで仮想視点データを出力する出力手段に、前記取得手段で取得した前記３次元モデルデータを入力することで、前記仮想視点パスデータを生成する生成手段と、
を備えたことを特徴とする情報処理装置。
前記出力手段は、教師データとなる仮想視点パスデータと、それに対応する入力データとなる少なくとも３次元モデルデータにより学習された学習済みモデルであること、
を特徴とする請求項１に記載の情報処理装置。
前記出力手段は、前記３次元モデルデータの連続する複数のフレームに対応する複数の仮想視点データを出力すること、
を特徴とする請求項１又は２に記載の情報処理装置。
前記出力手段は、前記３次元モデルデータの連続しない複数のフレームに対応する複数の仮想視点データを出力し、
前記生成手段は、前記出力手段から出力された前記複数の仮想視点データを補間して前記仮想視点パスデータを生成すること、
を特徴とする請求項１又は２に記載の情報処理装置。
前記取得手段は、前記仮想視点パスデータを生成するための追加情報をさらに取得し、
前記出力手段は、前記３次元モデルデータと前記追加情報とに基づき前記仮想視点パスデータを出力すること、
を特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記追加情報は、競技種別、３次元モデルのチーム情報、３次元モデルのモデル種別情報、競技のフィールド座標情報、ゴール座標情報、各種ライン座標情報の少なくとも１つを含むこと、
を特徴とする請求項５に記載の情報処理装置。
前記取得手段は、前記仮想視点画像データを生成する対象となる時間を指定するタイムコードをさらに取得し、
前記生成手段は、前記タイムコードに対応するフレームの前記３次元モデルデータに基づき、前記仮想視点データを生成すること
を特徴とする請求項１乃至６のいずれか１項に記載の情報処理装置。
前記３次元モデルデータは、前記複数視点画像データに含まれる前景オブジェクトの３次元モデルデータであること
を特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
前記生成手段は、前記仮想視点パスデータを生成する際に、前記３次元モデルデータに応じて前記仮想視点パスを評価する評価スコアを算出すること
を特徴とする請求項１乃至８のいずれかに１項に記載の情報処理装置。
前記出力手段は、ネットワークを介して接続された外部装置であること、
を特徴とする請求項１乃至９のいずれか１項に記載の情報処理装置。
前記生成手段は、前記出力手段を含むこと、
を特徴とする請求項１乃至９のいずれか１項に記載の情報処理装置。
仮想視点画像データを生成するための仮想視点パスデータを生成する情報処理方法であって、
複数のカメラを用いた同期撮影により取得された複数視点画像データに含まれるオブジェクトの位置及び形状を表す３次元モデルデータを取得する取得ステップと、
３次元モデルデータを入力することで仮想視点データを出力する出力手段に、前記取得ステップで取得した前記３次元モデルデータを入力することで、前記仮想視点パスデータを生成する生成ステップと、
を有することを特徴とする情報処理方法。
コンピュータを請求項１乃至１１のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。