JP2021152724A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2021152724A
JP2021152724A JP2020052631A JP2020052631A JP2021152724A JP 2021152724 A JP2021152724 A JP 2021152724A JP 2020052631 A JP2020052631 A JP 2020052631A JP 2020052631 A JP2020052631 A JP 2020052631A JP 2021152724 A JP2021152724 A JP 2021152724A
Authority
JP
Japan
Prior art keywords
virtual viewpoint
data
information processing
dimensional model
viewpoint image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020052631A
Other languages
English (en)
Inventor
裕尚 伊藤
Hironao Ito
裕尚 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020052631A priority Critical patent/JP2021152724A/ja
Priority to US17/204,083 priority patent/US11503272B2/en
Publication of JP2021152724A publication Critical patent/JP2021152724A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking

Abstract

【課題】仮想視点画像を生成するための仮想視点の指定に係るユーザの手間を削減する。【解決手段】仮想視点操作端末は、仮想視点操作部で、ユーザの操作に基づき生成した仮想視点パスの生成対象時間を表すタイムコードを生成し、生成したタイムコードを仮想視点画像生成サーバに送信する。仮想視点画像生成サーバは、受信した生成対象時間を示すタイムコードに基づいて、データサーバから仮想視点画像データの生成に使用する素材データを受信し、学習サーバから学習済み仮想視点パス生成モデルを受信する。仮想視点画像生成サーバは、仮想視点パス生成部で、受信した素材データに含まれる前景3次元モデルデータに基づいて、受信した学習済み仮想視点パス生成モデルを用いて仮想視点パスデータを自動生成する。【選択図】図3

Description

本発明は、仮想視点画像を生成するための技術に関する。
複数の撮像装置を用いた撮像システムで撮像した画像に基づいて、指定された仮想視点から見た仮想視点画像を生成することができる画像処理システムがある。特許文献1のシステムでは、複数の撮像装置で撮像した画像を処理することにより仮想視点画像を生成することができる。
仮想視点画像を生成する画像処理システムにおいて、仮想視点を指定する方法としては、ユーザ入力に基づき指定する方法がある。特許文献1においては、ユーザが仮想視点を指定する方式や、仮想視点の配置領域に制約を設け、ユーザが指定した仮想視点の移動先が制約を満たさない位置である場合は、制約を満たす位置まで仮想視点を自動的に戻す方法等が記載されている。
特開2017−211828号公報
しかしながら、仮想視点画像を生成するたびにユーザが仮想視点を指定することとすると、ユーザの手間が大きくなる。一方、仮想視点を予め固定的に定めることとすると、仮想視点画像の生成対象のシーンに適さない仮想視点が設定されてしまう虞がある。
そのため本発明は、仮想視点画像を生成するための仮想視点の指定に係るユーザの手間を削減することを目的とする。
本開示の技術は、仮想視点画像データを生成するための仮想視点パスデータを生成する情報処理装置であって、複数のカメラを用いた同期撮影により取得された複数視点画像データに含まれるオブジェクトの形状を表す3次元モデルデータを取得する取得手段と、3次元モデルデータを入力することで仮想視点データを出力する出力手段を用いて、前記取得手段で取得した前記3次元モデルデータに対応する前記仮想視点データに基づき、前記仮想視点パスデータを生成する生成手段と、を備えたことを特徴とする。
本発明は、仮想視点画像を生成するための仮想視点の指定に係るユーザの手間を削減することができる。
本発明を適用できるシステムを示す図である。 図1のシステムを構成する各装置のハードウェア資源を示す図である。 実施形態1を実現するソフトウェア構成を示す図である。 入力データ、学習モデル、出力データから成る本発明に関わる学習モデルを利用した構造の概念図である。 本発明に関わる入力データおよび教師データの構造を示す図である。 実施形態1における学習フェーズのフローチャートである。 実施形態1における仮想視点画像生成処理のフローチャートである。 仮想視点パス生成部305を学習する際のUI画面の例である。 仮想視点画像を生成するためのUI画面の例である。 実施形態2を実現するソフトウェア構成を示す図である。 実施形態2における仮想視点画像生成処理のフローチャートである。
(実施形態1)
本発明の実施形態1について説明する。
図1は、本実施形態を適用できるシステム例を示す図である。本システムは、データサーバ101、学習サーバ102、仮想視点画像生成サーバ103、および仮想視点操作端末104の情報処理装置、ならびにそれらを接続するローカルネットワーク100で構成される。データサーバ101は、仮想視点画像データの生成に必要なデータが蓄積される。学習用サーバ102は仮想視点を自動生成する仮想視点パス生成部の学習を行う。仮想視点操作端末104は、ユーザが仮想視点を操作するためのUIを備える。
図2は、図1のシステムを構成する各サーバのハードウェア資源を例示する図である。CPU202は、ROM203やRAM204に格納されているコンピュータプログラムやデータを用いてコンピュータ全体の制御を行う。即ち、CPU202は、後述する図3に示す各処理部として機能することになる。ROM203には、本コンピュータの設定データや、ブートプログラム等が格納されている。RAM204は、外部記憶装置205からロードされたコンピュータプログラムやデータ、ネットワークインターフェースカード(NIC)206を介して外部から取得したデータ等を一時的に記憶するためのエリアを有する。更に、RAM204は、CPU202が各種の処理を実行する際に用いるワークエリアを有する。即ち、RAM204は、例えば、フレームメモリとして割り当てたり、その他の各種のエリアを適宜提供したりすることができる。
入力部207は、キーボードやマウス等を含み、ユーザが操作することで、各種の指示をCPU202に対して入力することができる。表示部208は、CPU202による処理結果を表示する。また表示部208は、例えば液晶ディスプレイで構成される。HDD205は、大容量情報記憶装置である。HDD205には、OS(オペレーティングシステム)や、図3に示す各処理部の機能をCPU202に実現させるためのコンピュータプログラムが保存されている。更には、HDD205には、処理対象としての画像データ等が保存されていても良い。HDD205に保存されているコンピュータプログラムやデータは、CPU202による制御に従って適宜、RAM204にロードされ、CPU202による処理対象となる。NIC206には、LANやインターネット等のネットワーク、投影装置や表示装置等の他の機器を接続することができ、本コンピュータはこのNIC206を介して様々な情報を取得したり、送出したりすることができる。システムバス201は上述の各部を繋ぐバスである。
上述の各構成の動作は、CPU202が中心となって制御する。GPU209は、並列処理することにより高速なデータ処理が可能なプロセッサである。CPU202およびGPU209を協働させて高速演算を行うことが可能である。また、FPGA(Field −Programmable Gate Array)と言った複数のコアを用いて単純計算を行う集積回路を用いても良い。
本実施形態は、前述した機能を実現するコンピュータプログラムのコードを記録した記憶媒体を、システムに供給し、そのシステムがコンピュータプログラムのコードを読み出し実行することによっても実現される。この場合、記憶媒体から読み出されたコンピュータプログラムのコード自体が前述した実施形態の機能を実現し、そのコンピュータプログラムのコードを記憶した記憶媒体は本発明を構成する。また、そのプログラムのコードの指示に基づき、コンピュータ上で稼働しているOS等が上述のハードウェア資源を用いて実際の処理の一部または全部を行い、その処理によって前述した機能が実現される場合も含まれる。
さらに、以下の形態で実現しても構わない。すなわち、記憶媒体から読み出されたコンピュータプログラムを、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込む。そして、そのコンピュータプログラムに基づき、その機能拡張カードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行って、前述した機能が実現される場合も含まれる。
本実施形態を上記記憶媒体に適用する場合、その記憶媒体には、先に説明した処理に対応するコンピュータプログラムが格納されることになる。
図3は、図2に例示するハードウェア資源とプログラムを利用することで実現される機能構成例を示す図である。
データサーバ101は、データ蓄積部300とデータ送受信部301を含む。データ蓄積部300は、仮想視点画像の素材データを蓄積する。素材データには、例えばそれぞれ異なる位置の複数のカメラを用いた同期撮影により取得された複数視点画像データに含まれるオブジェクトの位置及び形状を表す3次元モデルや、3次元モデルに張り付けるテクスチャのデータ等が含まれる。本実施形態では、複数のカメラにより撮影される撮影領域内のオブジェクトの3次元モデル及びテクスチャのデータが複数視点画像データから生成されるものとするが、3次元モデル及びテクスチャのデータの取得方法はこれに限定されない。またデータ蓄積部300は、生成された仮想視点パスデータ等も蓄積する。本実施形態における仮想視点パスデータは、連続する複数の時点における仮想視点の位置及び向きを示す情報である。なお、仮想視点パスデータには、各時点における仮想視点の視野の大きさ(画角)を示す情報や、仮想視点画像の生成対象となる当該時点を示す情報が含まれていてもよい。データ送受信部301は、蓄積されたデータを送信する、または新たに蓄積するデータを受信する。
学習サーバ102は、学習用データ生成部302、学習部303、データ受信部304を含む。学習用データ生成部302は学習用のデータを生成し、学習部303に入力する。学習用データの生成方法については、後述する。学習部303は、学習用データを用いて仮想視点パスデータを生成する仮想視点パス生成部305の学習を行う。ここで、GPU209はデータをより多く並列処理することで効率的な演算を行うことができるので、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合にはGPU209で処理を行うことが有効である。そこで実施形態1では、学習部303による処理にはCPU202に加えてGPU209を用いる。具体的には、学習モデルを含む学習プログラムを実行する場合に、CPU202とGPU209が協働して演算を行うことで学習を行う。なお、学習部303の処理は、CPU202またはGPU209のみにより演算が行われても良い。
仮想視点画像生成サーバ103は、仮想視点パス生成部305、仮想視点画像生成部306、データ受信部307、データ送信部308を含む。データ受信部307は、データサーバ101から仮想視点画像を生成するための素材データを受信する。ここで、素材データとは、前景の3次元モデルおよびテクスチャ画像、ならびに背景の3次元モデルおよびテクスチャ画像を含み、さらに高画質化のための付帯データ等を含んでも良い。
仮想視点パス生成部305は、前景の3次元モデルおよび後述する追加情報等を入力として、仮想視点パスデータを生成する。仮想視点パス生成部305は、学習部303と同様にCPU202、GPU209を用いて演算を行っても良い。仮想視点画像生成部306は素材データおよび仮想視点パスデータに基づいて、仮想視点画像データを生成する。データ送信部308は、仮想視点画像データを仮想視点操作端末104に送信する。
図4は、実施形態1の学習モデルを用いた入出力の構造を示す概念図である。仮想視点パス生成モデル403に、3次元モデル401、追加情報402が入力され、仮想視点パス404が出力される。追加情報402は、必須ではなくオプションであり、例えば撮影対象の競技種別、3次元モデルデータに対応するオブジェクトのチーム情報等を含む。また追加情報402は、選手またはボール、ゴールといった3次元モデルデータに対応するオブジェクトのモデル種別情報、競技のフィールド座標情報、ゴール座標情報、各種ライン座標情報等を含む。
以降、仮想視点パス生成部305の学習フェーズについて詳細に説明する。
仮想視点パス生成部305は、少なくとも前景の3次元モデルデータを入力として、仮想視点パスを生成する。図5は、3次元モデルデータおよび仮想視点パスデータのデータ構造を示したものである。3次元モデルデータは、世界座標系における点の集合で表現され、それぞれの点の座標情報を持つ。
図5(a)は、あるフレームに含まれる前景3次元モデルデータを構成する全ての点の座標情報である。IDは点の識別子であり、x,y,zは点の座標である。
図5(b)は、あるフレームにおけるオブジェクト単位の前景3次元モデルデータを構成する点群を1つの集合体とみなし、それらの重心座標を代表点とした前景3次元モデルデータ毎の位置情報である。IDはオブジェクト単位の前景3次元モデルデータの識別子であり、x,y,zはオブジェクトの重心の座標である。図5(a)に示すような前景3次元モデルデータに含まれる全ての点を入力として学習を行う場合、学習コストが大きくなる。そのため、図5(b)で表現されるようなオブジェクト単位の前景3次元モデルの重心の座標を代表座標とし、その代表座標を入力として使用することにより学習コストを削減してもよい。ここで、3次元モデルデータは1フレーム単位のデータであり、3次元モデルデータのフレーム毎のデータには、該データに対応する複数視点画像が取得された時刻を示すタイムコードが付与される。
図5(c)は、仮想視点パスデータに含まれる、複数フレームにわたる仮想視点の座標情報である。Timecodeは各仮想視点の対象フレームを示す。x、y、zは各仮想視点の座標である。X、Y、Z、nは各仮想視点の姿勢を表すクォータニオンである。X、Y、Zはそれぞれx軸、y軸、z軸に対する撮像装置の姿勢の角度を表し、nは撮像装置の光軸方向の回転角を表す。またzoomは各仮想視点の焦点距離を表す。
図5(d)は、ある1単位の仮想視点画像を生成するためのデータに対して定まる追加情報を示す。競技種別、フィールド情報、ゴール座標情報から構成されている。例えば、あるサッカーの1試合を撮像装置で撮像して、その1試合分の仮想視点画像を生成するためのデータを作成した場合、それが1単位となる。
図5(e)は、追加情報が付与された前景3次元モデルデータを示す。IDはオブジェクト単位の前景3次元モデルの識別子であり、x,y,zは代表点の座標である。オブジェクト単位の前景3次元モデル毎に、種別情報(type)とチーム情報(team)が付与されている。
学習フェーズにおいて、前景3次元モデルデータおよび追加情報は入力データ、その入力データに対応付けられた仮想視点パスデータは教師データとなる。教師データとなる仮想視点パスデータは、複数ユーザが制作した仮想視点パスを平均化し、平滑化したものについてのデータであってもよく、複数の仮想視点パスの最大分布となるもののデータであってもよい。
また学習の際は、仮想視点パスデータのうち、特定のデータに重みをつけてもよい。仮想視点画像においては、撮像装置の位置よりも、姿勢(向き)の影響が大きいため、撮像装置の姿勢と教師データである仮想視点パスデータにおける仮想視点の姿勢との合致度合いに応じて重みをつけることが考えられる。
機械学習の具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシン等が挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習(ディープラーニング)も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。本実施形態としては深層学習を用いて学習を行うものとする。
学習部303は、誤差検出部と、更新部と、を備えてもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。
図6は、学習フェーズにおける学習の詳細な流れを示すフローチャートである。システム図(図1、3)における各装置に関する制御を分けて記載する。また各サーバが協調動作する順序に従って説明する。
この例では、ユーザが仮想視点を操作して仮想視点画像を生成しながら、同時に学習サーバ102に操作した仮想視点と3次元モデルデータを入力することで学習を行う。
仮想視点操作端末104は、仮想視点操作部309でユーザの操作に基づいた仮想視点データを生成し、データ送信部311を介して仮想視点画像生成サーバ103に送信する(S601)。
仮想視点画像生成サーバ103は、データ受信部307を介して仮想視点データを受信する(S602)。
仮想視点画像生成サーバ103は、受信した仮想視点データに基づいて、データ受信部307を介してデータサーバ101から仮想視点画像データの生成に使用するデータを受信する(S603)。ここで、仮想視点画像データの生成に使用するデータとは、仮想視点データで指定されたタイムコードで特定されるフレームの前景テクスチャデータと、前景3次元モデルデータとする。
仮想視点画像生成サーバ103は、仮想視点画像生成部306で、受信した仮想視点画像データの生成に使用するデータを用いて、受信した仮想視点データに基づき仮想視点画像データを生成する(S604)。
仮想視点画像生成サーバ103は、データ送信部308を介して生成した仮想視点画像データを仮想視点操作端末104に送信する(S605)。
仮想視点操作端末104は、データ受信部312を介して仮想視点画像生成サーバ103から仮想視点画像データを受信する(S606)。
仮想視点操作端末104は、表示部310で受信した仮想視点画像を表示する(S607)。
仮想視点操作端末104における仮想視点画像の操作終了であれば、処理を終了し、継続の場合はS601に戻って処理を繰り返す(S608)。
仮想視点画像生成サーバ103は、S605の後、データ送信部308を介して、仮想視点画像データの生成の際に用いた仮想視点データおよび前景3次元モデルデータを学習サーバ102に送信する(S609)。
仮想視点画像生成サーバ103における仮想視点画像データの生成終了であれば処理を終了し、継続の場合は、S602に戻って処理を繰り返す(S610)。
学習サーバ102は、データ受信部304を介して、仮想視点画像生成サーバ103から仮想視点データと前景3次元モデルデータを受信する(S611)。
学習サーバ102は、学習用データ生成部302で、受信した仮想視点データと前景3次元モデルデータに基づいて、学習用データを生成する(S612)。ここで生成する学習用データは、前景3次元モデルデータを入力データ、仮想視点データを教師データとする学習用データである。
学習サーバ102は、生成した学習用データを用いて学習部303で学習を行う(S613)。仮想視点画像生成サーバ103から仮想視点データおよび前景3次元モデルデータの送信が途絶えるなど、学習終了を示す条件が満たされれば処理を終了し、継続の場合は、S611に戻って処理を繰り返す(S614)。
(その他の学習方法)
本実施形態においては、仮想視点をユーザが操作しながら学習する方法について示したが、予め作成された仮想視点パスデータと、対象となる前景3次元モデルデータを学習サーバ102に入力して学習しても良い。この手法によると、多くの人が作成した仮想視点パスデータをインターネット等を経由して収集し、学習に用いることが可能である。学習に用いることができる仮想視点パスデータは、前景オブジェクトに対する相対座標、または競技のフィールド座標、ゴール座標、各種ライン座標等の背景オブジェクトに対する相対座標の情報を有するものとする。すなわち、学習に用いることができる仮想視点パスデータは、仮想視点パスデータの座標と前景3次元モデルデータの座標とを関係付けられる情報を含むものとする。
学習フェーズについて、前景3次元モデルデータを入力データ、仮想視点パスデータを教師データとする方法について説明した。さらに、それぞれの仮想視点パスデータの出来の良さを示すスコアを付与することによって、良い教師データと悪い教師データを入力して精度を高めることができる。
また、競技によってシーン毎にシーン情報を付与することによって、シーンを判別する手段と組み合わせて、シーン毎に適した仮想視点データを生成するよう学習することも可能である。例えばサッカーであれば、定常、ペナルティエリア付近侵入、ゴール、フリーキック、コーナーキック、スローイン等のシーンを設定することが可能である。
さらに、チームが分かれた競技について学習する場合、どちらのチームに重きをおいた仮想視点パスデータかという情報を付与するようにしてもよい。これによ、ユーザがチームを選択し、選択されたチームがよりよく見える仮想視点パスのスコアが高くなるように学習することも可能である。
図7は、仮想視点画像データの生成時に、仮想視点パス生成部305を用いて仮想視点パスデータを自動生成する処理の流れを示すフローチャートである。システム図における各装置に関する制御を分けて記載する。また各装置が協調動作する順序に従って説明する。
仮想視点操作端末104は、仮想視点操作部309で、ユーザの操作に基づき生成した仮想視点パスの対象時間(以下、生成対象時間と呼称する)を表すタイムコードを生成する。そして仮想視点操作端末104は、データ送信部311を介して生成したタイムコードを仮想視点画像生成サーバ103に送信する(S701)。ユーザの操作としては、例えば、キーボード等を用いた生成対象時間の入力や、マウス等を用いたシークバー等での生成対象時間の範囲の選択などとすることができる。また、トライシーンや、ゴールシーン等、特定のシーンを指定するようにしても良い。
なお、ここではユーザが時間やシーンを指定する構成としたが、これらの指定をシステム側が自動で行うようにしてもよい。画像認識技術を用いて、複数施視点画像の各フレームを予めスコアや優先順位が設定されたシーンに分類し、高スコアまたは優先順位の高いフレームを含む領域を、生成対象時間として自動選択するようにしてもよい。
仮想視点画像生成サーバ103は、データ受信部308で仮想視点パスを生成する対象時間を示すタイムコードを受信する(S702)。
仮想視点画像生成サーバ103は、受信した生成対象時間を示すタイムコードに基づいて、データ受信部307を介してデータサーバ101から仮想視点画像データの生成に使用する素材データを受信する。また、仮想視点画像生成サーバ103は、データ受信部307を介して学習サーバ102から学習済み仮想視点パス生成モデルを受信する(S703)。ここで仮想視点画像データの生成に使用する素材データとは、生成対象時間を示すタイムコードで特定されるフレームの前景テクスチャデータと、前景3次元モデルデータとする。
仮想視点画像生成サーバ103は、仮想視点パス生成部305で、受信した素材データに含まれる前景3次元モデルデータに基づいて、受信した学習済み仮想視点パス生成モデルを用いて仮想視点パスデータを自動生成する(S704)。
仮想視点画像生成サーバ103は、仮想視点画像生成部306で、受信した仮想視点画像データの生成に使用する素材データ、および仮想視点パス生成部305で生成した仮想視点パスデータを用いて、仮想視点画像データを生成する(S705)。
仮想視点画像生成サーバ103は、データ送信部308を介して、生成した仮想視点画像データを仮想視点操作端末104に送信する(S706)。
仮想視点操作端末104は、データ受信部312を介して仮想視点画像生成サーバ103から仮想視点画像データを受信する(S707)。
仮想視点操作端末104は、表示部310で受信した仮想視点画像を表示する(S708)。
なお、図7に示す処理では、学習サーバ102から受信した学習済み仮想視点パス生成モデルを用いて、仮想視点画像生成サーバ103において仮想視点パスを生成しているが、仮想視点パスを学習サーバ102において生成するようにしてもよい。すなわち、仮想視点画像生成サーバ103から前景3次元モデルデータ等を学習サーバ102に送信すると、学習サーバ102が学習済み仮想視点パス生成モデルを用いて仮想視点パスデータを生成して仮想視点画像生成サーバ103に送信する。そして仮想視点画像生成サーバ103は、受信した仮想視点パスデータに基づき仮想視点画像データを生成するようにしてもよい。
図8は、仮想視点パス生成部305を学習する際のUI画面800の例である。この例では、予め作成された仮想視点パスデータを用いて学習する場合のUI画面を示す。
コンテンツリスト801から、学習対象のコンテンツを選択する。選択したコンテンツに含まれる仮想視点パスデータは仮想視点画像再生ウィンドウ802で確認できる。仮想視点画像の再生操作は操作ボタン群で操作可能である。ユーザは学習対象の時間をタイムコード指定ウィンドウ804で指定し、オプションで該時間の仮想視点パスの評価スコア、競技種別、シーン種別、優先チームをウィンドウ805から808で指定することができる。学習開始ボタン809で学習を開始する。
図9は、仮想視点パス生成部305で生成された仮想視点パスデータに基づき生成された仮想視点画像を編集するためのUI画面900の例である。仮想視点画像生成の対象コンテンツを表示するコンテンツ情報表示部901を備える。仮想視点画像識別情報は901のウィンドウに表示される。操作部903で仮想視点画像の再生操作を行う。操作部903はシークバー、再生ボタン、停止ボタンを備える。仮想視点画像データを生成するために、生成対象時間を904のウィンドウにタイムコードを入力することで指定する。また、オプションで競技種別、シーン、優先チームをウィンドウ905、906、907で指定することができる。生成開始ボタン908を押下することにより、仮想視点画像生成サーバ103にデータが送信され、仮想視点画像データが生成される。
また自動生成された仮想視点パスデータの出来栄えを示す評価スコアウィンドウ909を備える。
素材データに含まれる前景3次元モデルデータには、仮想視点の位置に関わらず仮想視点画像の品質が悪い、苦手なシーンを生成してしまうものが存在する。例えば、ラグビーのスクラム等、複数の選手が密集して固まった状態では、選手個々の前景3次元モデルデータが精度よく生成できず、仮想視点画像の画質が低下する。また、オブジェクトがポール等の陰に隠れてしまうと3次元モデルが乱れてしまうため前景3次元モデルデータが精度よく生成できず、仮想視点画像の画質が低下する。
そこで学習する際には、入力された前景3次元モデルデータが苦手なシーンを生成してしまうフレームを含む場合、自動生成される仮想視点パスの評価スコアが低くなるように仮想視点パスを学習させる。これにより、生成される仮想視点画像に苦手なシーンが含まれ易い仮想視点パスデータに対しては、評価スコアを低く算出する仮想視点パス生成部305とすることができる。そしてこの仮想視点パスデータの評価スコアをUI画面900に表示することで、ユーザは出来栄えを数値で把握することができる。
以上、実施形態1によれば、仮想視点パスデータを自動的に生成することにより、ユーザが煩雑な仮想視点操作をすることなく、仮想視点画像データを生成することができる。
(実施形態2)
実施形態2では、仮想視点画像データを生成する際にキーになるフレームを複数指定し、各キーフレームについて1フレームから1つの仮想視点データを自動生成する。さらに、生成した複数のキーフレームの仮想視点をつなげる仮想視点データをさらに自動生成して、それらを仮想視点パスデータとする。1フレームで1つの仮想視点を自動生成することで、学習コスト、仮想視点パスデータ生成コストを下げることが可能である。
学習方法は、1回の学習において、入力データである前景3次元モデルデータと教師データである仮想視点データを連続した複数フレーム入力するのではなく、1フレーム入力する。その他のフローは実施形態1と同等である。但し、実施形態1と同様に、連続フレームを入力して学習しても良いが、1回の学習に用いるフレーム数を小さくすることにより学習コスト、仮想視点パスデータ生成コストを下げるものとする。
図10は、実施形態2を実現する機能構成を示す図である。実施形態1と同様のブロックは、同じ番号を付与し説明を省略する。
仮想視点操作端末104の仮想視点操作部1001は、仮想視点画像生成サーバ103に対し、キーフレームを指定し、仮想視点データの生成を要求する。
仮想視点画像生成サーバ103の仮想視点パス生成部1002は、キーフレームの仮想視点データに基づいて、仮想視点パスデータを生成する機能をさらに有する。キーフレームから生成した仮想視点を滑らかにつなぐ方法として、スプライン曲線を描画するアルゴリズムを用いる。またズーム値は各キーフレームのズーム値を線形に変化させるものとする。ここでは、スプライン曲線の描画方法を用いたが、仮想視点を補間してそれらを滑らかに繋ぐ仮想視点を生成する他の方法を用いてもよく、単純に仮想視点同士を直線で結んでもよい。
さらに距離に応じて、キーフレーム間を結ぶときのキーフレーム間のフレーム数を変化させても良い。尚、完成した仮想視点画像は、キーフレーム間のフレーム数が多いほど、同一フレームレートで再生したときにスローに見える。
図11は、実施形態2における仮想視点画像生成処理の流れを示すフローチャートである。実施形態1と同様の処理は、同じ番号を付与し説明を省略する。
仮想視点操作端末の仮想視点パス生成部1002は、仮想視点画像データを生成する生成対象時間と、キーフレームのタイムコードを複数個指定し、仮想視点画像生成サーバ103に送信する(S1101)。
仮想視点画像生成部103は、データ受信部307を介して生成対象時間およびキーフレームを示すタイムコードデータを受信する(S1102)。
仮想視点画像生成部103は、仮想視点パス生成部1002で、受信した素材データに含まれるキーフレームの前景3次元モデルデータに基づいて、キーフレームの仮想視点データを生成する(S1103)。
さらに仮想視点画像生成部103は、仮想視点パス生成部1002で、キーフレームの仮想視点を滑らかに結ぶ仮想視点パスデータを生成する(S1104)。以降の処理は、実施形態1と同様である。
以上、実施形態2によれば、1フレームの前景3次元モデルデータから生成された仮想視点に基づき仮想視点パスデータを自動生成することができる。これによれば、複数フレームの前景3次元モデルデータに基づき仮想視点パスデータを生成するよりも、学習コスト、仮想視点パスデータ生成コストを下げることが可能である。
(その他の実施形態)
なお、上述した各処理部のうち、仮想視点パス生成部305については、機械学習された学習済みモデルを用いて処理を実行したが、ルックアップテーブル(LUT)等のルールベースの処理を行ってもよい。その場合には、例えば、入力データと出力データとの関係をあらかじめLUTとして作成する。そして、この作成したLUTを仮想視点画像生成サーバ103のメモリに格納しておくとよい。仮想視点パス生成部305の処理を行う場合には、この格納されたLUTを参照して、出力データを取得することができる。つまりLUTは、前記処理部と同等の処理をするためのプログラムとして、CPUあるいはGPU等と協働で動作することにより、上記処理部の処理を行う。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、1または複数のプロセッサまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサまたは回路のネットワークを含みうる。
プロセッサまたは回路は、中央演算処理装置(CPU)、マイクロプロセッシングユニット(MPU)、グラフィクスプロセッシングユニット(GPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートウェイ(FPGA)を含みうる。また、プロセッサまたは回路は、デジタルシグナルプロセッサ(DSP)、データフロープロセッサ(DFP)、またはニューラルプロセッシングユニット(NPU)を含みうる。
100 ローカルネットワーク
101 データサーバ
102 学習サーバ
103 仮想視点画像生成サーバ
104 仮想視点操作端末

Claims (13)

  1. 仮想視点画像データを生成するための仮想視点パスデータを生成する情報処理装置であって、
    複数のカメラを用いた同期撮影により取得された複数視点画像データに含まれるオブジェクトの位置及び形状を表す3次元モデルデータを取得する取得手段と、
    3次元モデルデータを入力することで仮想視点データを出力する出力手段に、前記取得手段で取得した前記3次元モデルデータを入力することで、前記仮想視点パスデータを生成する生成手段と、
    を備えたことを特徴とする情報処理装置。
  2. 前記出力手段は、教師データとなる仮想視点パスデータと、それに対応する入力データとなる少なくとも3次元モデルデータにより学習された学習済みモデルであること、
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記出力手段は、前記3次元モデルデータの連続する複数のフレームに対応する複数の仮想視点データを出力すること、
    を特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記出力手段は、前記3次元モデルデータの連続しない複数のフレームに対応する複数の仮想視点データを出力し、
    前記生成手段は、前記出力手段から出力された前記複数の仮想視点データを補間して前記仮想視点パスデータを生成すること、
    を特徴とする請求項1又は2に記載の情報処理装置。
  5. 前記取得手段は、前記仮想視点パスデータを生成するための追加情報をさらに取得し、
    前記出力手段は、前記3次元モデルデータと前記追加情報とに基づき前記仮想視点パスデータを出力すること、
    を特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記追加情報は、競技種別、3次元モデルのチーム情報、3次元モデルのモデル種別情報、競技のフィールド座標情報、ゴール座標情報、各種ライン座標情報の少なくとも1つを含むこと、
    を特徴とする請求項5に記載の情報処理装置。
  7. 前記取得手段は、前記仮想視点画像データを生成する対象となる時間を指定するタイムコードをさらに取得し、
    前記生成手段は、前記タイムコードに対応するフレームの前記3次元モデルデータに基づき、前記仮想視点データを生成すること
    を特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 前記3次元モデルデータは、前記複数視点画像データに含まれる前景オブジェクトの3次元モデルデータであること
    を特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9. 前記生成手段は、前記仮想視点パスデータを生成する際に、前記3次元モデルデータに応じて前記仮想視点パスを評価する評価スコアを算出すること
    を特徴とする請求項1乃至8のいずれかに1項に記載の情報処理装置。
  10. 前記出力手段は、ネットワークを介して接続された外部装置であること、
    を特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
  11. 前記生成手段は、前記出力手段を含むこと、
    を特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
  12. 仮想視点画像データを生成するための仮想視点パスデータを生成する情報処理方法であって、
    複数のカメラを用いた同期撮影により取得された複数視点画像データに含まれるオブジェクトの位置及び形状を表す3次元モデルデータを取得する取得ステップと、
    3次元モデルデータを入力することで仮想視点データを出力する出力手段に、前記取得ステップで取得した前記3次元モデルデータを入力することで、前記仮想視点パスデータを生成する生成ステップと、
    を有することを特徴とする情報処理方法。
  13. コンピュータを請求項1乃至11のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
JP2020052631A 2020-03-24 2020-03-24 情報処理装置、情報処理方法、およびプログラム Pending JP2021152724A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020052631A JP2021152724A (ja) 2020-03-24 2020-03-24 情報処理装置、情報処理方法、およびプログラム
US17/204,083 US11503272B2 (en) 2020-03-24 2021-03-17 Information processing apparatus, information processing method and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020052631A JP2021152724A (ja) 2020-03-24 2020-03-24 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2021152724A true JP2021152724A (ja) 2021-09-30

Family

ID=77856668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020052631A Pending JP2021152724A (ja) 2020-03-24 2020-03-24 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
US (1) US11503272B2 (ja)
JP (1) JP2021152724A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115134579A (zh) * 2022-06-16 2022-09-30 抖音视界(北京)有限公司 一种虚拟视点的生成方法、装置、存储介质及电子设备
WO2023228712A1 (ja) * 2022-05-23 2023-11-30 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021163303A (ja) 2020-04-01 2021-10-11 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5729471A (en) * 1995-03-31 1998-03-17 The Regents Of The University Of California Machine dynamic selection of one video camera/image of a scene from multiple video cameras/images of the scene in accordance with a particular perspective on the scene, an object in the scene, or an event in the scene
JP6429829B2 (ja) 2016-05-25 2018-11-28 キヤノン株式会社 画像処理システム、画像処理装置、制御方法、及び、プログラム
JP6878014B2 (ja) * 2017-01-13 2021-05-26 キヤノン株式会社 画像処理装置及びその方法、プログラム、画像処理システム
US10706890B2 (en) * 2017-08-24 2020-07-07 Intel Corporation Cinematic space-time view synthesis for enhanced viewing experiences in computing environments
JP7271099B2 (ja) 2018-07-19 2023-05-11 キヤノン株式会社 ファイルの生成装置およびファイルに基づく映像の生成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023228712A1 (ja) * 2022-05-23 2023-11-30 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN115134579A (zh) * 2022-06-16 2022-09-30 抖音视界(北京)有限公司 一种虚拟视点的生成方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
US20210306616A1 (en) 2021-09-30
US11503272B2 (en) 2022-11-15

Similar Documents

Publication Publication Date Title
US11632533B2 (en) System and method for generating combined embedded multi-view interactive digital media representations
KR102215166B1 (ko) 제공장치, 제공방법 및 컴퓨터 프로그램
JP2021152724A (ja) 情報処理装置、情報処理方法、およびプログラム
EP3111420A1 (en) Hyper-lapse video through time-lapse and stabilization
JP6794545B2 (ja) 仮想カメラを構成する方法、システム及び装置
WO2020070928A1 (ja) スケルトンモデル更新装置、スケルトンモデル更新方法及びプログラム
KR101757765B1 (ko) 모션 캡처 데이터 기반 3차원 애니메이션 제작 시스템 및 그 제어 방법
WO2020145224A1 (ja) 映像処理装置、映像処理方法、及び映像処理プログラム
CN109407824A (zh) 人体模型的同步运动方法与装置
JP7387286B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7479793B2 (ja) 画像処理装置、仮想視点映像を生成するシステム、画像処理装置の制御方法及びプログラム
JP6572368B2 (ja) 生成装置および生成方法、プログラム
JP2015197374A (ja) 3次元形状推定装置及び3次元形状推定方法
CN106780676B (zh) 一种用于显示动画的方法和装置
JP7204843B2 (ja) 送信装置および送信方法、プログラム
JP6931375B2 (ja) 送信装置および送信方法、プログラム
JP7334337B2 (ja) モーション決定装置、学習装置、モーション決定方法、学習方法及びプログラム
WO2023058545A1 (ja) 情報処理装置および方法、プログラム
WO2023145571A1 (ja) 情報処理装置、情報処理方法、データ構造及びプログラム
WO2020084662A1 (ja) スケルトンモデル更新装置、スケルトンモデル更新方法及びプログラム
JP2023165323A (ja) 画像処理装置及びその制御方法及びプログラム
JP2021015404A (ja) 画像処理装置、画像処理方法及びプログラム
JP2023082681A (ja) オブジェクト姿勢推定装置及び方法
JP2023073038A (ja) 情報処理装置、情報処理方法及びプログラム
JP2022060815A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240402