JP2023075860A

JP2023075860A - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JP2023075860A
Application number: JP2021189030A
Authority: JP
Inventors: 英一松崎; Eiichi Matsuzaki
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2023-05-31

Abstract

【課題】複数の撮影領域が重複する領域に対応する仮想視点画像の生成に適した撮影装置を選択する。【解決手段】バックエンドサーバ２７０は、第１の撮影領域を撮影する撮影装置グループと、第１の撮影領域と少なくとも一部が重複する第２の撮影領域を撮影する撮影装置グループと、を含む複数の撮影装置が撮影することにより得られる複数の撮影画像に基づく仮想視点画像の生成に使用される仮想視点の位置及び前記仮想視点からの視線方向を表す視点情報を取得し、視点情報に対応する仮想視点画像が撮影領域の共通領域に対応する画像を含む場合、撮影装置グループに含まれる一以上の撮影装置に関する情報、及び、視点情報により表される仮想視点の位置及び仮想視点からの視線方向の変化と、のうち少なくともいずれかに基づいて、仮想視点画像の生成に使用される撮影装置グループが選択されるように制御する仮想視点前景画像生成部０３００５を有する。【選択図】図６

Description

本発明は、仮想視点画像を生成する技術に関する。

近年、複数の撮影装置（カメラ）を異なる位置に設置して多視点で同期撮影し、当該撮影により得られた複数視点画像を用いて仮想視点コンテンツを生成する技術が注目されている。仮想視点コンテンツの生成技術においては、ユーザは指定した視点（仮想視点）から見た画像を見ることができる。上記のようにして複数視点画像から仮想視点コンテンツを生成する技術によれば、例えば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の画像と比較してユーザに高臨場感を与えることが出来る。例えば、複数のカメラは、光軸が特定の方向を向くように設置され、その交点（以下、注視点ともいう）を中心とする撮影領域内に対応する仮想視点コンテンツが生成される。ここで光軸の中心が複数存在するようにカメラを設置し、より多くの領域で仮想視点コンテンツを生成できるようにするといったことも可能である。

特許文献１には、複数の注視点のそれぞれに向けられる複数のカメラグループから取得される撮影画像を使用して、仮想視点画像を生成することについて記載されている。

特開２０１７－２１１８２８号公報

しかしながら、特許文献１には、複数の注視点のそれぞれを中心とする複数の撮影領域が重複する領域においては、いずれのカメラグループにより仮想視点画像を生成するかについては記載されていない。このため、撮影領域が重複する領域において、仮想視点画像の生成に適切でないカメラグループが使用される可能性がある。

本発明の目的は、複数の撮影領域が重複する領域に対応する仮想視点画像の生成に適した撮影装置を選択する方法を提供することである。

本発明に係る情報処理装置は、第１の撮影領域を撮影する一以上の撮影装置を含む撮影装置グループと、前記第１の撮影領域と少なくとも一部が重複する第２の撮影領域を撮影する一以上の撮影装置を含む撮影装置グループと、を含む複数の撮影装置が撮影することにより得られる複数の撮影画像に基づく仮想視点画像の生成に使用される仮想視点の位置及び前記仮想視点からの視線方向を表す視点情報を取得する取得手段と、前記取得手段により取得される視点情報に対応する仮想視点画像の生成に使用される撮影装置グループを選択する選択手段と、前記取得手段により取得される視点情報に対応する仮想視点画像が、前記第１の撮影領域と前記第２の撮影領域とが重複する共通領域に対応する画像を含む場合、前記撮影装置グループに含まれる一以上の撮影装置に関する情報、及び、前記取得手段により取得される視点情報により表される仮想視点の位置及び仮想視点からの視線方向の変化と、のうち少なくともいずれかに基づいて、仮想視点画像の生成に使用される撮影装置グループが前記選択手段により選択されるように制御する制御手段とを有する。

本発明によれば、複数の撮影領域が重複する領域に対応する仮想視点画像の生成に適した撮影装置を選択することができる。

画像処理システム１００の概略構成図である。競技場に設置されたカメラ１１２及びカメラアダプタ１２０の様子を示す模式図である。カメラアダプタ１２０の概略構成図である。フロントエンドサーバ２３０の概略構成図である。データベース２５０の概略構成図である。バックエンドサーバ２７０の概略構成図である。仮想カメラ操作ＵＩ３３０の概略構成図である。エンドユーザ端末１９０の接続構成図である。競技場を移動するオブジェクトと注視点グループの関係を示した第一の模式図である。第一実施形態において、仮想視点前景画像生成部０３００５での処理の流れを示すフローチャート図である。競技場を移動するオブジェクトと注視点グループの関係を示した第二の模式図である。第二実施形態において、仮想視点前景画像生成部０３００５での処理の流れを示すフローチャート図である。競技場に設置された複数のカメラから仮想視点コンテンツが生成される様子を示す模式図である。

（第一実施形態）
競技場（スタジアム）やコンサートホールなどの施設に複数のカメラ及びマイクを設置し撮影及び集音を行うシステムについて、図１のシステム構成図を用いて説明する。画像処理システム１００は、センサシステム１１０ａ―センサシステム１１０ｚ、画像コンピューティングサーバ２００、コントローラ３００、スイッチングハブ１８０、及びエンドユーザ端末１９０を有する。

コントローラ３００は制御ステーション３１０と仮想カメラ操作ＵＩ３３０を有する。制御ステーション３１０は画像処理システム１００を構成するそれぞれのブロックに対してネットワーク３１０ａ―３１０ｃ、１８０ａ、１８０ｂ、及び１７０ａ―１７０ｙを通じて動作状態の管理及びパラメータ設定制御などを行う。ここで、ネットワークはＥｔｈｅｒｎｅｔ（登録商標）であるＩＥＥＥ標準準拠のＧｂＥ（ギガビットイーサーネット）や１０ＧｂＥでもよいし、インターコネクトＩｎｆｉｎｉｂａｎｄ、産業用イーサーネット等を組合せて構成されてもよい。また、これらに限定されず、他の種別のネットワークであってもよい。

最初に、センサシステム１１０ａ―センサシステム１１０ｚの２６セットの画像及び音声をセンサシステム１１０ｚから画像コンピューティングサーバ２００へ送信する動作を説明する。本実施形態の画像処理システム１００は、センサシステム１１０ａ―センサシステム１１０ｚがデイジーチェーンにより接続される。

本実施形態において、特別な説明がない場合は、センサシステム１１０ａからセンサシステム１１０ｚまでの２６セットのシステムを区別せずセンサシステム１１０と記載する。各センサシステム１１０内の装置についても同様に、特別な説明がない場合は区別せず、マイク１１１、カメラ１１２、雲台１１３、外部センサ１１４、及びカメラアダプタ１２０と記載する。なお、センサシステムの台数として２６セットと記載しているが、あくまでも一例であり、台数をこれに限定するものではない。尚、本実施形態では、特に断りがない限り、画像という文言が、動画と静止画の概念を含むものとして説明する。すなわち、本実施形態の画像処理システム１００は、静止画及び動画の何れについても処理可能である。また、本実施形態では、画像処理システム１００により提供される仮想視点コンテンツには、仮想視点画像と仮想視点音声が含まれる例を中心に説明するが、これに限らない。例えば、仮想視点コンテンツに音声が含まれていなくても良い。また例えば、仮想視点コンテンツに含まれる音声が、仮想視点に最も近いマイクにより集音された音声であっても良い。また、本実施形態では、説明の簡略化のため、部分的に音声についての記載を省略しているが、基本的に画像と音声は共に処理されるものとする。

センサシステム１１０ａ―センサシステム１１０ｚは、それぞれ１台ずつの撮影装置（カメラ１１２ａ―カメラ１１２ｚ）を有する。即ち、画像処理システム１００は、被写体を複数の方向から撮影するための複数のカメラを有する。複数のセンサシステム１１０同士はデイジーチェーンにより接続される。この接続形態により、撮影画像の４Ｋや８Ｋなどへの高解像度化及び高フレームレート化に伴う画像データの大容量化において、接続ケーブル数の削減や配線作業の省力化ができる効果があることをここに明記しておく。

尚これに限らず、接続形態として、各センサシステム１１０ａ－１１０ｚがスイッチングハブ１８０に接続されて、スイッチングハブ１８０を経由してセンサシステム１１０間のデータ送受信を行うスター型のネットワーク構成としてもよい。

また、図１では、デイジーチェーンとなるようセンサシステム１１０ａ－１１０ｚの全てがカスケード接続されている構成を示したがこれに限定するものではない。例えば、複数のセンサシステム１１０をいくつかのグループに分割して、分割したグループ単位でセンサシステム１１０間をデイジーチェーン接続してもよい。そして、分割単位の終端となるカメラアダプタ１２０がスイッチングハブに接続されて画像コンピューティングサーバ２００へ画像の入力を行うようにしてもよい。このような構成は、スタジアムにおいてとくに有効である。例えば、スタジアムが複数階で構成され、フロア毎にセンサシステム１１０を配備する場合が考えられる。この場合に、フロア毎、あるいはスタジアムの半周毎に画像コンピューティングサーバ２００への入力を行うことができ、全センサシステム１１０を１つのデイジーチェーンで接続する配線が困難な場所でも設置の簡便化及びシステムの柔軟化を図ることができる。

また、デイジーチェーン接続されて画像コンピューティングサーバ２００へ画像入力を行うカメラアダプタ１２０が１つであるか２つ以上であるかに応じて、画像コンピューティングサーバ２００での画像処理の制御が切り替えられる。すなわち、センサシステム１１０が複数のグループに分割されているかどうかに応じて制御が切り替えられる。画像入力を行うカメラアダプタ１２０が１つの場合は、デイジーチェーン接続で画像伝送を行いながら競技場全周画像が生成されるため、画像コンピューティングサーバ２００において全周の画像データが揃うタイミングは同期がとられている。すなわち、センサシステム１１０がグループに分割されていなければ、同期はとれる。

しかし、画像入力を行うカメラアダプタ１２０が複数になる（センサシステム１１０がグループに分割される）場合は、それぞれのデイジーチェーンのレーン（経路）によって遅延が異なる場合が考えられる。そのため、画像コンピューティングサーバ２００において全周の画像データが揃うまで待って同期をとる同期制御によって、画像データの集結をチェックしながら後段の画像処理を行う必要があることを明記しておく。

本実施形態では、センサシステム１１０ａはマイク１１１ａ、カメラ１１２ａ、雲台１１３ａ、外部センサ１１４ａ、及びカメラアダプタ１２０ａを有する。尚、この構成に限定するものではなく、少なくとも１台のカメラアダプタ１２０ａと、１台のカメラ１１２ａまたは１台のマイク１１１ａを有していれば良い。また例えば、センサシステム１１０ａは１台のカメラアダプタ１２０ａと、複数のカメラ１１２ａで構成されてもよいし、１台のカメラ１１２ａと複数のカメラアダプタ１２０ａで構成されてもよい。即ち、画像処理システム１００内の複数のカメラ１１２と複数のカメラアダプタ１２０はＮ対Ｍ（ＮとＭは共に１以上の整数）で対応する。また、センサシステム１１０は、マイク１１１ａ、カメラ１１２ａ、雲台１１３ａ、及びカメラアダプタ１２０ａ以外の装置を含んでいてもよい。また、カメラ１１２とカメラアダプタ１２０が一体となって構成されていてもよい。さらに、カメラアダプタ１２０の機能の少なくとも一部をフロントエンドサーバ２３０が有していてもよい。本実施形態では、センサシステム１１０ｂ―１１０ｚについては、センサシステム１１０ａと同様の構成なので省略する。なお、センサシステム１１０ａと同じ構成に限定されるものではなく、其々のセンサシステム１１０が異なる構成でもよい。

マイク１１１ａにて集音された音声と、カメラ１１２ａにて撮影された画像は、カメラアダプタ１２０ａにおいて後述の画像処理が施された後、デイジーチェーン１７０ａを通してセンサシステム１１０ｂのカメラアダプタ１２０ｂに伝送される。同様にセンサシステム１１０ｂは、集音された音声と撮影された画像を、センサシステム１１０ａから取得した画像及び音声と合わせてセンサシステム１１０ｃに伝送する。

前述した動作を続けることにより、センサシステム１１０ａ―センサシステム１１０ｚが取得した画像及び音声は、センサシステム１１０ｚから１８０ｂを用いてスイッチングハブ１８０に伝わり、その後、画像コンピューティングサーバ２００へ伝送される。

尚、本実施形態では、カメラ１１２ａ－１１２ｚとカメラアダプタ１２０ａ－１２０ｚが分離された構成にしているが、同一筺体で一体化されていてもよい。その場合、マイク１１１ａ－１１１ｚは一体化されたカメラ１１２に内蔵されてもよいし、カメラ１１２の外部に接続されていてもよい。

次に、画像コンピューティングサーバ２００の構成及び動作について説明する。本実施形態の画像コンピューティングサーバ２００は、センサシステム１１０ｚから取得したデータの処理を行う。画像コンピューティングサーバ２００はフロントエンドサーバ２３０、データベース２５０（以下、ＤＢとも記載する。）、バックエンドサーバ２７０、タイムサーバ２９０を有する。

タイムサーバ２９０は時刻及び同期信号を配信する機能を有し、スイッチングハブ１８０を介してセンサシステム１１０ａ―センサシステム１１０ｚに時刻及び同期信号を配信する。時刻と同期信号を受信したカメラアダプタ１２０ａ―１２０ｚは、カメラ１１２ａ―１１２ｚを時刻と同期信号をもとにＧｅｎｌｏｃｋさせ画像フレーム同期を行う。即ち、タイムサーバ２９０は、複数のカメラ１１２の撮影タイミングを同期させる。これにより、画像処理システム１００は同じタイミングで撮影された複数の撮影画像に基づいて仮想視点画像を生成できるため、撮影タイミングのずれによる仮想視点画像の品質低下を抑制できる。尚、本実施形態ではタイムサーバ２９０が複数のカメラ１１２の時刻同期を管理するものとするが、これに限らず、時刻同期のための処理を各カメラ１１２又は各カメラアダプタ１２０が独立して行ってもよい。

フロントエンドサーバ２３０は、センサシステム１１０ｚから取得した画像及び音声から、セグメント化された伝送パケットを再構成してデータ形式を変換した後に、カメラの識別子やデータ種別、フレーム番号に応じてデータベース２５０に書き込む。

バックエンドサーバ２７０では、仮想カメラ操作ＵＩ３３０から視点の指定を受け付け、受け付けられた視点に基づいて、データベース２５０から対応する画像及び音声データを読み出し、レンダリング処理を行って仮想視点画像を生成する等の情報処理を行う。

尚、画像コンピューティングサーバ２００の構成はこれに限らない。例えば、フロントエンドサーバ２３０、データベース２５０、及びバックエンドサーバ２７０のうち少なくとも２つが一体となって構成されていてもよい。また、フロントエンドサーバ２３０、データベース２５０、及びバックエンドサーバ２７０の少なくとも何れかが複数含まれていてもよい。また、画像コンピューティングサーバ２００内の任意の位置に上記の装置以外の装置が含まれていてもよい。さらに、画像コンピューティングサーバ２００の機能の少なくとも一部をエンドユーザ端末１９０や仮想カメラ操作ＵＩ３３０が有していてもよい。

レンダリング処理された画像は、バックエンドサーバ２７０からエンドユーザ端末１９０に送信され、エンドユーザ端末１９０を操作するユーザは視点の指定に応じた画像閲覧及び音声視聴が出来る。すなわち、バックエンドサーバ２７０は、複数のカメラ１１２により撮影された撮影画像（複数視点画像）と視点情報とに基づく仮想視点コンテンツを生成する。より具体的には、バックエンドサーバ２７０は、例えば複数のカメラアダプタ１２０により複数のカメラ１１２による撮影画像から抽出された所定領域の画像データと、ユーザ操作により指定された視点に基づいて、仮想視点コンテンツを生成する。そしてバックエンドサーバ２７０は、生成した仮想視点コンテンツをエンドユーザ端末１９０に提供する。本実施形態における仮想視点コンテンツは、仮想的な視点から被写体を撮影した場合に得られる画像としての仮想視点画像を含むコンテンツである。言い換えると、仮想視点画像は、指定された視点における見えを表す画像であるとも言える。仮想的な視点（仮想視点）は、ユーザにより指定されても良いし、画像解析の結果等に基づいて自動的に指定されても良い。すなわち仮想視点画像には、ユーザが任意に指定した視点に対応する任意視点画像（自由視点画像）が含まれる。また、複数の候補からユーザが指定した視点に対応する画像や、装置が自動で指定した視点に対応する画像も、仮想視点画像に含まれる。尚、本実施形態では、仮想視点コンテンツに音声データ（オーディオデータ）が含まれる場合の例を中心に説明するが、必ずしも音声データが含まれていなくても良い。また、バックエンドサーバ２７０は、仮想視点画像をＨ．２６４やＨＥＶＣに代表される標準技術により圧縮符号化したうえで、ＭＰＥＧ－ＤＡＳＨプロトコルを使ってエンドユーザ端末１９０へ送信してもよい。また、仮想視点画像は、非圧縮でエンドユーザ端末１９０へ送信されてもよい。とくに圧縮符号化を行う前者はエンドユーザ端末１９０としてスマートフォンやタブレットを想定しており、後者は非圧縮画像を表示可能なディスプレイを想定している。すなわち、エンドユーザ端末１９０の種別に応じて画像フォーマットが切り替え可能であることを明記しておく。また、画像の送信プロトコルはＭＰＥＧ－ＤＡＳＨに限らず、例えば、ＨＬＳ（ＨＴＴＰＬｉｖｅＳｔｒｅａｍｉｎｇ）やその他の送信方法を用いても良い。

この様に、画像処理システム１００は、映像収集ドメイン、データ保存ドメイン、及び映像生成ドメインという３つの機能ドメインを有する。映像収集ドメインはセンサシステム１１０－１１０ｚを含み、データ保存ドメインはデータベース２５０、フロントエンドサーバ２３０及びバックエンドサーバ２７０を含み、映像生成ドメインは仮想カメラ操作ＵＩ３３０及びエンドユーザ端末１９０を含む。尚本構成に限らず、例えば、仮想カメラ操作ＵＩ３３０が直接センサシステム１１０ａ－１１０ｚから画像を取得する事も可能である。しかしながら、本実施形態では、センサシステム１１０ａ－１１０ｚから直接画像を取得する方法ではなくデータ保存機能を中間に配置する方法をとる。具体的には、フロントエンドサーバ２３０がセンサシステム１１０ａ－１１０ｚが生成した画像データや音声データ及びそれらのデータのメタ情報をデータベース２５０の共通スキーマ及びデータ型に変換している。これにより、センサシステム１１０ａ－１１０ｚのカメラ１１２が他機種のカメラに変化しても、変化した差分をフロントエンドサーバ２３０が吸収し、データベース２５０に登録することができる。このことによって、カメラ１１２が他機種カメラに変わった場合に、仮想カメラ操作ＵＩ３３０が適切に動作しない虞を低減できる。

また、仮想カメラ操作ＵＩ３３０は、データベース２５０に直接アクセスせずにバックエンドサーバ２７０を介してアクセスする構成である。バックエンドサーバ２７０で画像生成処理に係わる共通処理を行い、操作ＵＩに係わるアプリケーションの差分部分を仮想カメラ操作ＵＩ３３０で行っている。このことにより、仮想カメラ操作ＵＩ３３０の開発において、ＵＩ操作デバイスや、生成したい仮想視点画像を操作するＵＩの機能要求に対する開発に注力する事ができる。また、バックエンドサーバ２７０は、仮想カメラ操作ＵＩ３３０の要求に応じて画像生成処理に係わる共通処理を追加又は削除する事も可能である。このことによって仮想カメラ操作ＵＩ３３０の要求に柔軟に対応する事ができる。

このように、画像処理システム１００においては、被写体を複数の方向から撮影するための複数のカメラ１１２による撮影に基づく画像データに基づいて、バックエンドサーバ２７０により仮想視点画像が生成される。尚、本実施形態における画像処理システム１００は、上記で説明した物理的な構成に限定される訳ではなく、論理的に構成されていてもよい。

図１３は、競技場に設置された複数のカメラから仮想視点コンテンツが生成される様子を示す模式図である。図１３（ａ）では円周上にカメラ１１２が置かれており、例えば、仮想カメラ０８００１により、あたかもゴールの近くにカメラがあるかのような映像を生成することができる。仮想カメラとは、指定された視点からの映像を再生する仮想的なカメラである。仮想カメラは、例えば設置されたカメラ１１２とは異なる位置に設置することも可能である。なお、以下の説明において、仮想カメラを仮想視点とも表す場合がある。すなわち、仮想視点の位置及び仮想視点からの視線方向は、それぞれ、仮想カメラの位置及び姿勢に対応する。

仮想カメラ０８００１の映像は、設置された複数のカメラの映像を画像処理し生成する。自由な視点からの映像を得るために、仮想カメラ０８００１のパスはオペレータにより管理される。図１３（ｂ）における仮想カメラパス０８００２とは、仮想カメラ０８００１の位置及び姿勢の変遷を表す情報である。

各カメラ１１２は光軸が特定の位置（以下、注視点という）を向くように設置される。図２は、競技場にカメラ１１２及びカメラアダプタ１２０が設置された様子を示す模式図である。各カメラ１１２は光軸が特定の注視点０６３０２を向くように設置される。同じ注視点０６３０２を向くように設置された一以上のカメラ１１２をまとめて、撮影装置グループ（以下、注視点グループという）に分割する。図２では９台のカメラ１１２ａ～１１２ｉが設置されており、２つの注視点０６３０２Ａ、０６３０２Ｂが設定されている。同じ注視点０６３０２を向くように設置されたカメラ１１２をまとめて、注視点グループに分割する。４台のカメラ１１２ａ、１１２ｃ、１１２ｅ、１１２ｇは、同じ注視点０６３０２Ａを向いており、注視点グループＡに属する。すなわち、注視点グループＡは、撮影領域０６３０１Ａを撮影するカメラのグループである。また、５台のカメラ１１２ｂ、１１２ｄ、１１２ｆ、１１２ｈ、１１２ｉは、同じ注視点０６３０２Ｂを向いており、注視点グループＢに属する。すなわち、注視点グループＢは、撮影領域０６３０１Ｂを撮影するカメラのグループである。それぞれの注視点グループに属するカメラにより、注視点を中心とする仮想視点コンテンツが生成されることとなる。なお、注視点グループに含まれるカメラの台数は上記に限定されず、一以上のカメラが含まれていればよい。

以下の説明では、同じ注視点グループに属するカメラ１１２の中で最も近いカメラ１１２の組を、論理的に隣接しているものとする。例えば、カメラ１１２ａとカメラ１１２ｂは、物理的に隣接しているが、異なる注視点グループに属するため論理的には隣接していない。カメラ１１２ａと論理的に隣接しているのは、カメラ１１２ｃである。一方、カメラ１１２ｈとカメラ１１２ｉは、物理的に隣接しているだけでなく、論理的にも隣接している。

次に図３を使用してカメラアダプタ１２０がデータを出力する処理フローについて説明する。図３はカメラアダプタ１２０ｇ、１２０ｈ、１２０ｉ間のデータの流れを表している。カメラアダプタ１２０ｇとカメラアダプタ１２０ｈ及び、カメラアダプタ１２０ｈとカメラアダプタ１２０ｉが其々接続している。またカメラアダプタ１２０ｉはフロントエンドサーバ２３０と接続している。

カメラアダプタ１２０は、ネットワークアダプタ０６１１０、伝送部０６１２０、画像処理部０６１３０及び、外部機器制御部０６１４０から構成されている。

ネットワークアダプタ０６１１０は、他のカメラアダプタ１２０、フロントエンドサーバ２３０、タイムサーバ２９０、または、制御ステーション３１０とデータ通信を行う機能を有している。また、例えばＩＥＥＥ１５８８規格のＯｒｄｉｎａｙＣｌｏｃｋに準拠し、タイムサーバ２９０と送受信したデータのタイムスタンプを保存する機能と、タイムサーバ２９０と同期した時刻を提供する時刻制御機能を有している。

伝送部０６１２０には、カメラアダプタ１２０ｇからの入力データ０６７２１がネットワークアダプタ０６１１０を介して入力され、カメラ１１２ｈからの撮影データ０６７２０が画像処理部６１３０で画像処理されて入力される。また、伝送部０６１２０は、カメラアダプタ１２０ｇからの入力データ０６７２１を画像処理部０６１３０へ出力し、画像処理部６１３０から入力されたデータを圧縮、フレームレート設定、およびパケット化してネットワークアダプタ０６１１０に出力している。また、伝送部０６１２０は、ＩＥＥＥ１５８８規格のＰＴＰ（ＰｒｅｃｉｓｉｏｎＴｉｍｅＰｒｏｔｏｃｏｌ）に準拠し、タイムサーバ２９０と時刻同期に係わる処理を行う時刻同期制御機能を有している。なお、ＰＴＰに限定するのではなく他の同様のプロトコルを利用して時刻同期してもよい。

画像処理部０６１３０は、カメラ制御部０６１４１を介してカメラ１１２が撮影した画像データに対し、前景データと背景データに分離する機能を有する。また、画像処理部０６１３０は、分離された前景データ及び、他のカメラアダプタ１２０から受取った前景データを利用し、例えばステレオカメラの原理を用いて三次元モデルに係わる映像情報（三次元モデル情報）を生成する機能を有する。

外部機器制御部０６１４０は、カメラアダプタ１２０に接続されるカメラ１１２やマイク１１１、雲台１１３などの機器を制御する機能を有している。カメラ１１２の制御では、例えば撮影パラメータ（画素数、色深度、フレームレート、ホワイトバランス）の設定、参照、カメラ１１２の状態（撮影中、停止中、同期中、エラー）取得などが行われる。また、カメラ１１２の制御では、撮影開始・停止、ピント調整撮影画像取得、同期信号提供、時刻設定などが行われる。マイク１１１の制御では、ゲイン調整や状態取得、収音開始・停止、収音された音声データの取得などが行われる。雲台１１３の制御では、例えば、パン・チルト制御や、状態取得などが行われる。

最終的に、図２に示したカメラアダプタ１２０ａ～カメラアダプタ１２０ｉが作成した前景・背景データ及び、三次元モデル情報は直接ネットワーク接続されたカメラアダプタ間を逐次伝送し、後述するフロントエンドサーバ２３０に伝送される。なお、前景データと背景データとの分離の機能、及び、三次元モデル情報を生成する機能の少なくとも一部が、後述するフロントエンドサーバ２３０等の他の装置で行われる構成であってもよい。この場合、カメラアダプタは、前景・背景データ及び、三次元モデル情報の代わりに、カメラ１１２が撮影することにより取得された画像データを送信する構成でもよい。

次に、フロントエンドサーバ２３０について図４を利用して説明する。図４は、フロントエンドサーバ２３０の機能ブロックを示した模式図である。制御部０２１１０はＣＰＵやＤＲＡＭ、プログラムデータや各種データを記憶したＨＤＤやＮＡＮＤメモリなどの記憶媒体、Ｅｔｈｅｒｎｅｔ（登録商標）等のハードウェアで構成される。制御部０２１１０は、フロントエンドサーバ２３０の各機能ブロック及びフロントエンドサーバ２３０のシステム全体の制御を行う。また、Ｅｔｈｅｒｎｅｔ（登録商標）を通じて制御ステーション３１０からの制御指示を受信し、各機能ブロックの制御やデータの入出力制御などを行う。また、同じくネットワークを通じて制御ステーション３１０からスタジアムＣＡＤデータを取得し、スタジアムＣＡＤデータをＣＡＤデータ記憶部０２１３５と撮影データファイル生成部０２１８０に送信する。なお、スタジアムＣＡＤデータはスタジアムの形状を示す三次元データであり、メッシュモデルやその他の三次元形状を表すデータであればよく、ＣＡＤ形式に限定されない。

データ入力制御部０２１２０は、Ｅｔｈｅｒｎｅｔ（登録商標）等を有してカメラアダプタ１２０とネットワーク接続されている。さらに、ネットワークを通してカメラアダプタ１２０から前景・背景データ、三次元モデル、音声データ、カメラキャリブレーション撮影画像データを取得する。

データ入力制御部０２１２０は、取得した前景・背景データをデータ同期部０２１３０、カメラキャリブレーション撮影画像データをキャリブレーション部０２１４０に送信する。また、データ入力制御部０２１２０は、受信したデータの圧縮伸張やデータルーティング処理等を行う機能を有する。また、制御部０２１１０とデータ入力制御部０２１２０は共にＥｔｈｅｒｎｅｔ（登録商標）等のネットワークによる通信機能を有しているが、これらは共有していてもよい。その場合は、制御ステーション３１０からの制御コマンドによる指示やスタジアムＣＡＤデータをデータ入力部で受けて、制御部０２１１０に対して送る方法を用いてもよい。

データ同期部０２１３０は、カメラアダプタ１２０から取得したデータをＤＲＡＭ上に一次的に記憶し、前景データや背景データ、音声データ、三次元モデルデータが揃うまでバッファする。なお、前景データ、背景データ、音声データ、三次元モデルデータをまとめて、以降では撮影データと称する。撮影データにはルーティング情報やタイムコード情報、カメラ識別子等のメタ情報が付与されており、このメタデータ情報を元にデータの属性を確認する。これにより、同一時刻のデータであることなどを判断してデータがそろったことを確認する。これは、ネットワークによって各カメラアダプタ１２０から転送されたデータが、ネットワークパケットの受信順序は保証されず、ファイル生成に必要なデータが揃うまでバッファする必要があるためである。

データがそろうと、前景及び背景データ、三次元モデルデータ、音声データは、それぞれ、画像処理部０２１５０、三次元モデル結合部０２１６０、撮影データファイル生成部０２１８０に送信される。なお、ここで揃えるデータの範囲とは後述される撮影データファイル生成部０２１８０に於いてファイル生成を行うために必要なデータがそろった場合である。また、背景データは前景データとは異なるフレームレートで撮影されてもよい。例えば、背景データのフレームレートが１ｆｐｓである場合、１秒毎に１つの背景データが取得されるため、背景データが取得されない時間については、背景データが無い状態で全てのデータがそろったとしてよい。また、データ同期部０２１３０において、所定時間を経過しデータが揃っていない場合には、データ集結の可否を示す情報で否を通知するとともに、後段のＤＢ２５０においてデータを格納する際に、カメラ番号やフレーム番号とともにデータ欠落を示す。これにより、仮想カメラ操作ＵＩ３３０からバックエンドサーバ２７０への視点指示において、データ集結したカメラ１１２の画像から所望の画像が形成できるか否かをレンダリング前に即時自動通知が可能となる。この結果、仮想カメラＵＩ３３０のオペレータの目視負荷を軽減できる。

ＣＡＤデータ記憶部０２１３５は制御部０２１１０から受け取ったスタジアム形状を示す三次元データをＤＲＡＭまたはＨＤＤやＮＡＮＤメモリ等の記憶媒体に保存する。また、ＣＡＤデータ記憶部０２１３５は、画像結合部０２１７０に対してスタジアム形状データの要求を受け取った際に保存されたスタジアム形状データを送信する。

キャリブレーション部０２１４０はカメラのキャリブレーション動作を行い、キャリブレーションによって得られたカメラパラメータを後述する非撮影データファイル生成部０２１８５に送る。また同時に、自身の記憶領域にも保持し、後述する三次元モデル結合部０２１６０にカメラパラメータ情報を提供する。

画像処理部０２１５０は前景データや背景データの画像に対して、カメラ間の色や輝度値の合わせこみ、ＲＡＷ画像データが入力される場合には現像処理、カメラのレンズ歪みの補正等の処理を行う。そして、画像処理を行った前景データは撮影データファイル生成部０２１８０、背景データは０２１７０にそれぞれ送信する。

三次元モデル結合部０２１６０は、カメラアダプタから取得した同一時刻の三次元モデルデータをキャリブレーション部０２１４０が生成したカメラパラメータを用いて結合する。また、三次元モデル結合部０２１６０は、ＶｉｓｕａｌＨｕｌｌと呼ばれる方法を用いて、スタジアム全体における前景データの三次元モデルデータを生成する。生成した三次元モデルは撮影データファイル生成部０２１８０に送信される。

画像結合部０２１７０は画像処理部０２１５０から背景データを取得し、ＣＡＤデータ記憶部０２１３５からスタジアムの三次元形状データを取得し、取得したスタジアムの三次元形状データの座標に対して背景データに映る画像の位置を特定する。背景データの各々がスタジアムの三次元形状データの座標に対して位置が特定できると、背景データをつなぎ合わせて一つの背景データとして結合する。なお、本背景データの三次元形状データの作成については、バックエンドサーバ２７０の処理として実施してもよい。

撮影データファイル生成部０２１８０は、音声データ、前景データ、三次元モデルデータ、結合された背景データを、それぞれ、データ同期部０２１３０、画像処理部０２１５０、三次元モデル結合部０２１６０、画像結合部０２１７０から取得する。また、撮影データファイル生成部０２１８０は、取得したデータを、ＤＢアクセス制御部０２１９０に対して送信する。撮影データファイル生成部０２１８０が生成するファイルは、撮影時の時刻に紐づけられた撮影データを種類別にファイル化してもよく、ある時刻の撮影データを一つのファイルにまとめたファイル形式としてもよい。

非撮影データファイル生成部０２１８５は、カメラパラメータ、スタジアムの三次元形状データを。それぞれ、キャリブレーション部０２１４０、制御部０２１１０から取得し、ファイル形式に成形した後ＤＢアクセス制御部０２１９０に送信する。なお、非撮影データファイル生成部０２１８５に入力されるデータであるカメラパラメータまたはスタジアム形状データは個別にファイル形式に成形され、どちらか一方のデータを受信した場合、それらを個別にＤＢアクセス制御部０２１９０に送信する。

ＤＢアクセス制御部０２１９０はＩｎｆｉｎｉＢａｎｄなどの高速な通信によってデータベース２５０と接続され、撮影データファイル生成部０２１８０及び非撮影データファイル生成部０２１８５から受信したファイルをデータベース２５０に対して送信する。

次に、データベース２５０について図５を利用して説明する。図５はデータベース２５０の機能ブロックを示した模式図である。制御部０２４１０はＣＰＵやＤＲＡＭ，プログラムデータや各種データを記憶したＨＤＤやＮＡＮＤメモリなどの記憶媒体、Ｅｔｈｅｒｎｅｔ（登録商標）等のハードウェアで構成される。制御部０２４１０は、データベース２５０の各機能ブロック及びデータベース２５０のシステム全体の制御を行う。

データ入力部０２４２０はＩｎｆｉｎｉＢａｎｄ等の高速な通信によって、フロントエンドサーバ２３０から取得した撮影データや非撮影データのファイルを受信する。受信したファイルはキャッシュ０２４４０に対して送られる。また、この時、受信した撮影データのメタ情報を読み出し、メタ情報に記録されたタイムコード情報やルーティング情報、カメラ識別子等の情報を元に、取得したデータへのアクセスが可能になるようにデータベーステーブルを作成する。

データ出力部０２４３０はＩｎｆｉｎｉＢａｎｄ等の高速な通信によって、バックエンドサーバ２７０から要求されたデータを後述するキャッシュ０２４４０、一次ストレージ０２４５０、二次ストレージ０２４６０のいずれに保存されているかを判断する。データ出力部０２４３０は、保存された先からデータを読み出してバックエンドサーバ２７０に送信する。

キャッシュ０２４４０は高速な入出力スループットを達成可能なＤＲＡＭ等の記憶装置を有しており、データ入力部０２４２０から取得した撮影データや非撮影データを記憶装置に格納する。格納されたデータは一定量保持され、それを超えるデータが入力される場合に、古いデータから随時一次ストレージ０２４５０へと書き出され、書き出されたデータは新たなデータによって上書きされる。

ここで、キャッシュ０２４４０に一定量保存されるデータは少なくとも１フレーム分の撮影データである。このデータをキャッシングすることにより、バックエンドサーバ２７０に於いて映像のレンダリング処理を行う際に、データベース２５０内でのスループットを最小限に抑え、最新の映像フレームを低遅延かつ連続的にレンダリングすることが可能となる。このとき、前述の目的を達成するためにはキャッシュされるデータの中には背景データを含んでいる必要がある。１フレーム分の中で背景データを有さないフレームの撮影データがキャッシュされる場合、背景データは更新されず、そのままキャッシュ上に保持される。キャッシュ可能なＤＲＡＭの容量または予め決められたシステムに設定されたキャッシュフレームサイズ、または制御ステーションからの指示によって決められる。なお、非撮影データについては、入出力の頻度が少なく、また、試合前などにおいては、高速なスループットが要求されないため、すぐに一次ストレージへとコピーされる。キャッシュされたデータはデータ出力部０２４３０によって読み出される。

一次ストレージ０２４５０はＳＳＤ等のストレージメディアを並列につなぐなどして高速化し、データ入力部０２４２０からの大量のデータの書き込み及びデータ出力部０２４３０からのデータ読み出しが同時に実現できるように構成される。キャッシュ０２４４０上に格納されたデータの古いものから順に書き出される。

二次ストレージ０２４６０はＨＤＤやテープメディア等で構成され高速性よりも大容量の一次ストレージと比較して安価で長期間の保存に適するメディアであることが求められる。撮影が完了した後、データのバックアップ先として一次ストレージ０２４５０に格納されたデータを書き出す。

次に、バックエンドサーバ２７０について図６を利用して説明する。図６は、本実施形態にかかるバックエンドサーバ２７０の構成を示している。バックエンドサーバ２７０は、データ受信部０３００１、背景テクスチャ貼り付け部０３００２、前景テクスチャ決定部０３００３、テクスチャ境界色合わせ部０３００４、仮想視点前景画像生成部０３００５を有する。バックエンドサーバ２７０はさらに、レンダリング部０３００６、自由視点音声生成部０３００７、合成部０３００８、映像出力部０３００９、前景オブジェクト決定部０３０１０を有する。バックエンドサーバ２７０はさらに、要求リスト生成部０３０１１、要求データ出力部０３０１２、背景メッシュモデル管理部０３０１３、レンダリングモード管理部０３０１４、カメラグループ管理部０３０１５を有する。

データ受信部０３００１は、データベース２５０およびコントローラ３００から送信されるデータを受信する。データベース２５０からは、スタジアムの形状を示す三次元データ（以降、背景メッシュモデルと称する）、前景データ、背景データ、前景データの三次元モデル（以降、前景三次元モデルと称する）、音声を受信する。また、コントローラ３００からは仮想カメラパラメータを受信する。仮想カメラパラメータとは、仮想視点の位置や仮想視点からの視線方向などを表す視点情報である。仮想カメラパラメータは、例えば、外部パラメータの行列と内部パラメータの行列で表される。

背景テクスチャ貼り付け部０３００２は、背景メッシュモデル管理部０３０１３から取得する背景メッシュモデルで示される三次元空間形状に対して背景データをテクスチャとして貼り付けることでテクスチャ付き背景メッシュモデルを生成する。メッシュモデルとは、例えばＣＡＤデータなど三次元の空間形状を面の集合で表現したデータのことである。テクスチャとは、物体の表面の質感を表現するために貼り付ける画像のことである。

前景テクスチャ決定部０３００３は、前景データ、前景三次元モデル群より前景三次元モデルのテクスチャ情報を決定する。前景テクスチャ境界色合わせ部０３００４は、各前景三次元モデルのテクスチャ情報と各三次元モデル群からテクスチャの境界の色合わせを行い前景オブジェクト毎に色付き前景三次元モデル群を生成する。

仮想視点前景画像生成部０３００５は、注視点グループ管理部０３０１５からの注視点グループ情報と仮想カメラパラメータから、前景データ群を仮想視点からの見た目に透視変換する。レンダリング部０３００６は、レンダリングモード管理部０３０１４で保持するレンダリングモードに基づいて背景データと前景データをレンダリングして全景画像を生成する。

レンダリングモードとして本実施例では、モデルベースレンダリング（Ｍｏｄｅｌ－ＢａｓｅｄＲｅｎｄｅｒｉｎｇ：ＭＢＲ）とイメージベースレンダリング（Ｉｍａｇｅ－ＢａｓｅｄＲｅｎｄｅｒｉｎｇ：ＩＢＲ）を対象とする。ＭＢＲとは、視体積交差法、Ｍｕｌｔｉ－Ｖｉｅｗ－Ｓｔｅｒｅｏ（ＭＶＳ）などの三次元形状復元手法により得られた対象シーンの三次元形状（モデル）を利用し，仮想視点からのシーンの見えを画像として生成する技術である。ＩＢＲとは、対象のシーンを複数視点から撮影した入力画像群を変形、合成することによって仮想視点からの見えを再現した自由視点画像を生成する技術である。レンダリングモードがＭＢＲの場合、背景メッシュモデルと前景テクスチャ境界色合わせ部０３００４で生成した前景三次元モデル群の合成により全景モデルを生成し、その全景モデルから仮想視点から見た画像を生成する。レンダリングモードがＩＢＲの場合、背景テクスチャモデルから仮想視点からの見た背景画像を生成し、仮想視点前景画像生成部０３００５で生成した前景画像を合成して仮想視点から見た全景画像を生成する。

レンダリングモード管理部０３０１４は、システムとして固有で決められたレンダリング方法を示すモード情報を管理する。本実施例では、レンダリングのモード情報としてＩＢＲおよびＭＢＲのいずれかを示すとする。なお、レンダリングモードはシステム固有ではなくユーザが任意に設定できてもよい。本システムでは、複数のレンダリングモードを有する。それは、エンドユーザ端末への最終出力画像の要求に応じて使い分けられる。例えば、設置されたカメラの台数が、ある閾値以上であればレンダリングとしてＭＢＲを用い、ある閾値以下であればＩＢＲを用いてもよい。また、撮影から映像出力までの処理遅延時間の長短で決めてもよい。遅延時間が長くても視点の自由度を優先する場合はＭＢＲ、遅延時間が短いことを要求する場合はＩＢＲを用いる。このように、複数のレンダリングモードを用いて、要求に応じて切り替え可能な構成にすることで、柔軟にシステムを構成することが可能になり、本実施の形態のスタジアム以外の被写体にも適用可能となることを明記しておく。

自由視点音声生成部０３００７は、音声群、仮想カメラパラメータより仮想視点において聞こえる音声を生成する。

合成部０３００８は、レンダリング部０３００６で生成された画像群と自由視点音声生成部０３００７で生成される音声を合成して映像を生成する。

映像出力部０３００９は、コントローラ３００とエンドユーザ端末１９０へＥｔｈｅｒｎｅｔ（登録商標）を用いて映像を出力する。ただし、外部への伝送手段としてＥｔｈｅｒｎｅｔ（登録商標）に限定するものではなく、ＳＤＩ、ＤｉｓｐｌａｙＰｏｒｔ、ＨＤＭＩ（登録商標）などの信号伝送手段を用いてもよい。

前景オブジェクト決定部０３０１０は、仮想カメラパラメータと前景三次元モデルに含まれる前景オブジェクトの空間上の位置を示す前景オブジェクトの位置情報から、表示する前景オブジェクト群を決定して、前景オブジェクトリストを出力する。つまり、前景オブジェクト決定０３０１０において、仮想視点の映像情報を物理的なカメラ１１２にマッピングする処理を実施する。本仮想視点は、レンダリングモード管理部０３０１４で設定されるレンダリングモードに応じてマッピングが異なる。そのため、図示はしていないが、複数の前景オブジェクトを決定する制御が前景オブジェクト決定０３０１０に配備されレンダリングモードと連動して制御を行うことを明記しておく。

要求リスト生成部０３０１１は、指定時間の前景オブジェクトリストに対応する前景データ群と前景三次元モデル群、また背景画像と音声データをデータベース２５０に要求するリストとして生成する。

前景オブジェクトは仮想視点を考慮してデータベース２５０にデータを要求するが、背景画像と音声データはそのフレーム対して全てのデータを要求する。また、バックエンドサーバ２７０が起動後、背景メッシュモデルが取得されるまで背景メッシュモデルの要求リストを生成する。要求データ出力部０３０１２は、入力された要求リストを元にデータベース２５０に対してデータ要求のコマンドを出力する。

背景メッシュモデル管理部０３０１３は、データベース２５０から受信した背景メッシュモデルを記憶する。注視点グループ管理部０３０１５は、コントローラ３００から設定される注視点グループ情報を記憶する。図２に示した競技場の模式図では、注視点Ａに光軸が向くように設置された４台のカメラ１１２ａ、１１２ｃ、１１２ｅ、１１２ｇを注視点グループＡとする。また、注視点Ｂに光軸が向くように設置された５台のカメラ１１２ｂ、１１２ｄ、１１２ｆ、１１２ｈ、１１２ｉを注視点グループＢとする。このように、図２の例では、２つの注視点グループに分けられる。これら注視点グループを構成するカメラ情報と、それぞれの注視点グループに共通の仮想視点コンテンツ生成領域がある場合にはその共通領域情報が注視点グループ情報としてコントローラ３００から設定される。すなわち、共通領域は、撮影領域０６３０１Ａと、撮影領域０６３０１Ａと少なくとも一部が重複する撮影領域０６３０１Ｂとの重複領域である。

図７は、仮想カメラ操作ＵＩ（３３０）の機能構成を説明するブロック図である。仮想カメラ操作ＵＩ（３３０）は、仮想カメラ管理部（０８１３０）および操作ＵＩ部（０８１２０）から構成される。これらを同一機器上に実装してもよいし、サーバ／クライアントとして実装してもよい。例えば、放送局のＵＩに使う場合は、中継車内のワークステーションに仮想カメラ管理部（０８１３０）と操作ＵＩ部（０８１２０）を実装して装置として提供してもよい。また、エンドユーザ端末（１９０）として使う場合は、例えば、仮想カメラ管理部（０８１３０）をｗｅｂサーバに実装し、エンドユーザ端末（１９０）に操作ＵＩ部を実装してもよい。

仮想カメラ操作部０８１０１は、オペレータの仮想カメラ０８００１に対する操作を処理する。オペレータの操作は、例えば、位置の変更（移動）、姿勢の変更（回転）、ズーム倍率の変更などである。オペレータは、仮想カメラ０８００１を操作するために、例えば、ジョイスティック、ジョグダイヤル、タッチパネル、キーボード、マウスなどの入力装置を使う。各入力装置の入力は予め仮想カメラ０８００１の操作と対応を決めておく。例えば、キーボードの「Ｗ」キーを、仮想カメラ０８００１を前方へ１メートル移動する操作に対応付ける。また、オペレータは軌跡を指定して仮想カメラ０８００１を操作することができる。例えば、ゴールポストを中心にして仮想カメラ０８００１が回るという軌跡を、タッチパッドに円を書いて指定する。仮想カメラ０８００１は、指定された軌跡に沿ってゴールポストの回りを移動する。また、仮想カメラ０８００１が常にゴールポストの方を向くように姿勢を変更する。仮想カメラ操作部０８１０１は、ライブ映像およびリプレイ映像の生成に利用することができる。リプレイ映像を生成する際は、カメラの位置、姿勢の他に時間を操作する。リプレイ映像では、例えば、時間を止めて仮想カメラ０８００１を移動させることも可能である。

仮想カメラパラメータ計算部０８１０２は、仮想カメラ０８００１の位置や姿勢などを表す仮想カメラパラメータを計算する。仮想カメラパラメータとして、例えば、外部パラメータの行列と内部パラメータの行列を用いる。ここで、仮想カメラ０８００１の位置と姿勢は外部パラメータに含まれ、ズーム値は内部パラメータに含まれる。

仮想カメラ制約管理部０８１０３は、仮想カメラ０８００１の位置や姿勢、ズーム値などに関する制約を管理する。仮想カメラ０８００１は、カメラと異なり、自由に視点を移動して映像を生成することができるが、あらゆる視点からの映像を生成できるわけではない。例えば、どのカメラにも映っていない対象が映る向きに、仮想カメラ０８００１を向けても映像を獲得することはできない。また、ズーム倍率を上げると画質が劣化する。一定基準の画質を保つ範囲のズーム倍率を仮想カメラ制約としてよい。仮想カメラ制約は、例えば、カメラの配置などから事前に計算しておく。

衝突判定部０８１０４は、仮想カメラ０８００１が仮想カメラ制約を満たしているかを判定する。仮想カメラパラメータ計算部０８１０２で計算された新しい仮想カメラパラメータが制約を満たしているかを判定する。制約を満たしていない場合は、例えば、オペレータの操作をキャンセルし、制約を満たす位置に仮想カメラ０８００１を止めたり、位置を戻したりする。

フィードバック出力部０８１０５は、衝突判定部０８１０４の判定結果をオペレータにフィードバックする。オペレータの操作により、仮想カメラ制約を満たさなくなる場合に、そのことをオペレータに通知する。例えば、オペレータが仮想カメラ０８００１を上方に移動しようと操作したが、移動先が仮想カメラ制約を満たさないとする。その場合、オペレータに、これ以上前方に仮想カメラ０８００１を移動できないことを通知する。通知としては、音、メッセージ出力、画面の色変化、仮想カメラ操作部０８１０１がロックする等の方法がある。さらには、自動で移動できる位置まで仮想カメラの位置を戻すことにより、オペレータの操作簡便性につながる効果がある。

仮想カメラパス管理部０８１０６は、オペレータが操作した仮想カメラ０８００１のパスを管理する。仮想カメラパス０８００２とは、仮想カメラ０８００１の１フレームごと位置や姿勢を表す情報の列である。例えば、仮想カメラ０８００１の位置や姿勢を表す情報として仮想カメラパラメータを用いる。例えば、６０フレーム／秒のフレームレートの設定で１秒分の情報は、６０個の仮想カメラパラメータの列となる。仮想カメラパス管理部０８１０６は、衝突判定部０８１０４で判定済みの仮想カメラパラメータを、バックエンドサーバ２７０に送信する。

バックエンドサーバ２７０は、受信した仮想カメラパラメータを用いて、仮想カメラ映像・音声を生成する。また、仮想カメラパス管理部０８１６０は、仮想カメラパラメータを仮想カメラパス０８００２に加えて保持する機能も有する。例えば、仮想カメラＵＩ２７０を用いて、１時間分の仮想カメラ映像・音声を生成した場合、１時間分の仮想カメラパラメータが仮想カメラパス０８００２として保存される。本仮想カメラパスを保存することによって、後からデータベースの二次ストレージ０２４６０に蓄積された映像情報と仮想カメラパスによって、仮想カメラ映像・音声を再度生成することが可能になる。つまり、高度な仮想カメラ操作を行うオペレータが生成した仮想カメラパスと二次ストレージ０２４６０の蓄積された映像情報を再利用可能になる。仮想カメラパスとして、複数のシーンを選択可能に仮想カメラ管理部０８１３０に蓄積することもできる。仮想カメラ管理部０８１３０に蓄積する際には、シーンのスクリプトや試合の経過時間、シーンの前後指定時間、プレーヤ情報等のメタ情報もあわせて入力・蓄積することができる。これらの仮想カメラパスを仮想カメラパラメータとして、バックエンドサーバ２７０に通知する。

これにより、エンドユーザ端末１９０は、バックエンドサーバ２７０に仮想カメラパスの選択情報を要求することで、シーン名やプレーヤ、試合経過時間から、仮想カメラパスを選択可能になる。そこで、エンドユーザ端末１９０において、選択可能な仮想カメラパスの候補を通知し、エンドユーザはエンドユーザ端末１９０において、複数の候補の中から希望の仮想カメラパスを選択する。そして、エンドユーザ端末１９０で選択された仮想カメラパスに応じた映像生成をバックエンドサーバ２７０に要求することで、映像配信サービスをインタラクティブに享受することができる。

オーサリング部０８１０７は、オペレータがリプレイ映像を生成する際の編集機能を提供する。リプレイ映像用の仮想カメラパス０８００２の初期値として、仮想カメラパス管理部０８１０６から仮想カメラパス０８００２の一部を取り出す。前述されたように、仮想カメラパス管理部０８１０６には、シーン名、プレーヤ、経過時間、シーンの前後指定時間をメタ情報としてもつ。例えば、シーン名がゴールシーン、シーンの前後指定時間を前後合わせて１０秒分とした仮想カメラパス０８００２を取り出す。また、編集したカメラパスに再生速度を設定する。例えば、ボールがゴールに飛んで行く間の仮想カメラパス０８００２にスロー再生を設定する。なお、異なる視点からの映像に変更する場合、つまり仮想カメラパス０８００２を変更する場合は、仮想カメラ操作部０８１０１を用いて再度仮想カメラ０８００１を操作する。

仮想カメラ映像・音声出力部（０８１０８）は、バックエンドサーバ２７０から受け取った仮想カメラ映像・音声を出力する。オペレータは出力された映像・音声を確認しながら仮想カメラ０８００１を操作する。

次に、視聴者が使用するエンドユーザ端末について、説明する。図８は、エンドユーザ端末１９０の接続構成図である。

サービスアプリケーションが動作するエンドユーザ端末１９０は、例えばＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）である。なお、エンドユーザ端末１９０は、ＰＣに限らず、スマートフォンやタブレット端末、高精細な大型ディスプレイでもよいものとする。

エンドユーザ端末１９０は、インターネット回線を介して、映像を配信するバックエンドサーバ２７０と接続されている。例えば、ＰＣは、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）ケーブルや、無線ＬＡＮを介してルータおよび、インターネット回線に接続されている。

また、視聴者がスポーツ放送映像を視聴するディスプレイと、視聴者の視点変更などの操作を受け付けるユーザ入力機器とが、接続されている。例えば、ディスプレイは液晶ディスプレイであり、ＰＣとＤｉｓｐｌａｙＰｏｒｔケーブルを介して接続されている。

ユーザ入力機器はマウスやキーボードであり、ＰＣとＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ケーブルを介して接続されている。

ここで、本実施形態において解決すべき課題について説明する。本実施形態のように、複数の撮影領域が重複する共通領域における仮想視点コンテンツを生成する場合、カメラグループの選択方法によっては、仮想視点コンテンツの画質の違いにより視聴者に対し不快感を与える画質劣化が生じる。画質の違いが生じる原因としては、例えばカメラ台数の違いが挙げられる。より多くのカメラで撮影された画像から仮想視点コンテンツを生成した方が、得られる複数視点画像の多さから鮮鋭な画像が得られる。カメラ台数の違いが生じる原因としては、カメラ設置の時点から注視点グループを構成するカメラ台数に違いがあるケースや、撮影中にカメラが故障するなどの異常が発生して注視点グループを構成するカメラ台数が減ってしまうといったケースが挙げられる。また、カメラ台数が同じであった場合でも、生成する仮想視点コンテンツの前景オブジェクトのまでの距離やカメラが対応する解像度の違いによっても画質の違いが生じる。前景オブジェクトまでの距離が遠いカメラを用いる場合、生成する仮想視点コンテンツに合わせて画像を拡大処理しなければならない事となり、ぼやけた画像となってしまう。

上述した課題を解決するための処理について、図９、１０を用いて説明する。図９はフィールド上を移動する人やボールなどのオブジェクトと注視点グループの関係を示した模式図である。

図９では、白丸で表されるオブジェクトが初めは０６３０５に示す位置に存在し、０６３０４に示す軌道上を０６３０７まで移動する様子を示している。ここで、オペレータは図７に示した仮想カメラ操作ＵＩ３３０の仮想カメラ操作部０８１０１を操作し、０６３０４に示す軌道でオブジェクトを追いかけるように仮想カメラ０８００１を操作するものとする。図６に示したバックエンドサーバ２７０では、コントローラ３００からオペレータの操作に基づく仮想カメラパラメータが入力されると、仮想視点前景画像生成部０３００５は、注視点グループ情報と仮想カメラパラメータを取得する。仮想視点前景画像生成部０３００５は、取得した情報に基づいて、前景データ群を仮想視点からの見た目に透視変換する。注視点グループ管理部０３０１５からは注視点グループ情報として、注視点グループＡ、Ｂそれぞれを構成するカメラ情報、並びにそれぞれの注視点グループが撮影する撮影領域が重複する生成領域があることを示す共通領域情報が出力される。

図１０は、仮想視点前景画像生成部０３００５にて透視変換する際に使用する注視点グループの選択される処理の流れを示したフローチャート図である。

まず仮想視点前景画像生成部０３００５では、オペレータの操作に基づく仮想カメラパラメータが入力される。このとき、オブジェクトは初め撮影領域０６３０１Ａ内にあり、撮影領域０６３０１Ａ内から撮影領域０６３０１Ｂに向かって移動する。したがって、仮想視点前景画像生成部０３００５は、共通領域０６３０３にオブジェクトが移動するまでは共通領域ではないと判断する（Ｓ１００１）。よって、仮想視点コンテンツを生成するために使用されるカメラ１１２として、注視点グループＡを構成するカメラが選択され（Ｓ１００２）、仮想視点コンテンツが生成される（Ｓ１００３）。オブジェクトが０６３０６に示す位置に移動すると、仮想視点前景画像生成部０３００５では仮想カメラ０８００１が共通領域を向いている、すなわち、仮想カメラ０８００１に対応する仮想視点画像が共通領域に対応する画像を含むと判断する（Ｓ１００１）。仮想視点前景画像生成部０３００５は、各注視点グループに含まれるカメラに関する情報に基づき、画質の優位な注視点グループを選択する。ここでは仮想視点前景画像生成部０３００５は、例えば、カメラの数に関する情報に基づいて、カメラ台数の多い注視点グループＢを構成するカメラを選択し（Ｓ１００５）、仮想視点コンテンツを生成する（Ｓ１００３）。なお、カメラの数は、注視点グループに含まれるカメラの数のうち、異常の発生していないカメラの数であるものとする。ただしこれに限定されず、注視点グループに含まれるカメラ全体の数であってもよい。

次にオブジェクトが撮影領域０６３０１Ｂ内に移動すると仮想視点前景画像生成部０３００５は共通領域ではないと判断し（Ｓ１００１）、注視点グループＢを構成するカメラが選択される（Ｓ１００２）。仮想視点前景画像生成部０３００５は、注視点グループＢからの画像データを使用して仮想視点コンテンツを生成する（Ｓ１００３）。以降、オブジェクトが０６３０７に示す位置に移動するまで注視点グループＢを使用した仮想視点コンテンツの生成が繰り返される（Ｓ１００４）。

本実施形態によれば、複数の撮影領域が重なる共通領域において、画質の優位な注視点グループが選択されるため、画質のよい仮想視点コンテンツを生成することが可能となる。なお、画質の優位な注視点グループの判断は予めコントローラ３００内で行い、その結果がコントローラ３００から注視点グループ管理部０３０１５に設定されている構成でもよい。

また本実施形態では、画質の優位な注視点グループをカメラの台数の多さから判断するとしているが、これに限定されない。例えば、カメラ設置位置に関する情報、及び、各カメラの対応している解像度に関する情報に基づいて、注視点グループが選択される構成でもよい。例えば、カメラ設置位置情報に基づき、注視点グループを構成するカメラと、生成する仮想視点コンテンツに含まれるオブジェクトとの間の距離によって、注視点グループが選択されてもよい。また、注視点グループに含まれる、より高い解像度に対応するカメラの台数に基づいて、注視点グループが選択されてもよい。

（第二実施形態）
第一実施形態では、複数の注視点を有する複数の撮影領域が重なる共通領域が存在する場合に、画質の優位な注視点グループのカメラを用いて共通領域の仮想視点コンテンツを生成する例について説明した。本実施形態では、共通領域における仮想視点コンテンツの生成に使用する注視点グループの別の決定方法について説明する。

図１１は、フィールド上を移動する人やボールなどのオブジェクトと注視点グループの関係を示した第二の模式図である。図１１では、白丸で表されるオブジェクトが、初めは０６３０８に示す位置に存在し、０６３０７に示す軌道上を０６３１０まで移動する様子を示している。ここで、オペレータは図７に示した仮想カメラ操作ＵＩ３３０の仮想カメラ操作部０８１０１を操作し、０６３０４に示す軌道でオブジェクトを追いかけるように仮想カメラ０８００１を操作するものとする。第一実施形態では、オブジェクトが撮影領域０６３０１Ａ内にある場合は、仮想視点コンテンツの生成使用するカメラグループとして注視点グループＡが選択される。また、代位実施形態では、共通領域０６３０３においては、仮想視点コンテンツの生成使用するカメラグループとして、画質の優位な注視点グループである、カメラ台数の多い注視点グループＢが選択される。

しかしながら、図１１に示す例において、第一実施形態と同様に注視点グループが選択されると、共通領域０６３０３において注視点グループＢが選択された後に、再度注視点グループＡが選択されることとなる。このように、仮想視点コンテンツの生成に使用されるカメラグループが頻繁に切り替わることにより、画質の変化が発生し、ユーザに違和感を与えてしまう虞がある。したがって、本実施形態では、図１１に示すような場合でも、仮想視点コンテンツの画質の変化を抑制することが可能な注視点グループの選択方法について説明する。

図１２は、本例において仮想視点前景画像生成部０３００５にて透視変換する際に使用する注視点グループの選択される処理の流れを示したフローチャート図である。

まず仮想視点前景画像生成部０３００５では、オペレータの操作に基づく仮想カメラパラメータが入力されると、保持している選択済み注視点グループ情報の初期化を行う（Ｓ２００１）。次に、仮想視点前景画像生成部０３００５は、仮想視点コンテンツのオブジェクトは初め撮影領域０６３０１Ａ内にある為、共通領域０６３０３にオブジェクトが移動するまでは共通領域ではないと判断する（Ｓ２００１）。したがって、仮想視点前景画像生成部０３００５は、注視点グループＡを構成するカメラを選択し（Ｓ２００３）、仮想視点コンテンツを生成する（Ｓ２００４）。オブジェクトが０６３０９に示す位置に移動すると、仮想視点前景画像生成部０３００５では、仮想カメラ０８００１が共通領域を向いていると判断し（Ｓ２００２）、直前の処理で選択された注視点グループが有るかどうかを判断する（Ｓ２００６）。直前の処理で選択された注視点グループが無い場合は、画質の優位な注視点グループとしてカメラ台数の多い注視点グループＢが選択され（Ｓ２００７）、仮想視点コンテンツが生成される（Ｓ２００４）。

直前の処理で選択された注視点グループが有る場合には（Ｓ２００６）、直前の処理で選択された注視点グループを継続して選択し（Ｓ２００８）、仮想視点コンテンツを生成する（Ｓ２００４）。図１１に示した仮想視点コンテンツのオブジェクトの移動では、０６３０９に示す位置にオブジェクトが移動する直前には注視点グループＡを構成するカメラが選択されている。したがって、オブジェクトが０６３０９に示す位置に移動すると、仮想視点前景画像生成部０３００５では注視点グループＡが再び選択されて仮想視点コンテンツが生成される。

次にオブジェクトが撮影領域０６３０１Ａ内に移動すると、仮想視点前景画像生成部０３００５は共通領域ではないと判断する（Ｓ２００２）。よって、仮想視点前景画像生成部０３００５は、注視点グループＡを構成するカメラを選択し（Ｓ２００３）、仮想視点コンテンツを生成する（Ｓ２００４）。以降、オブジェクトが０６３１０に示す位置に移動するまで仮想視点コンテンツの生成が繰り返される（Ｓ２００５）。

以上述べたように、本実施形態によれば、複数の撮影領域が重複する共通領域における仮想視点コンテンツの生成に使用されるカメラグループとして、直前の処理で選択された注視点グループが継続して選択される。これにより、注視点グループの切り替わりが頻繁に発生することが抑制され、結果として画質が変化することを抑制することが可能となる。

なお、上述した例では、直前に選択された注視点グループが選択される構成について説明したが。これに限定されない。例えば、リプレイ画像の生成のように、撮影済みの撮影画像に基づいて仮想視点コンテンツを生成する場合は、オブジェクトの移動経路がわかっている。このため、オブジェクトを見るような仮想カメラの移動経路を決定した後に、共通領域における仮想視点コンテンツの生成に使用されるカメラグループを選択することが可能である。このような場合は、例えば図９のように仮想カメラの移動経路が複数の撮影領域を経由する場合は、共通領域における仮想視点コンテンツの生成に使用されるカメラグループとして、画質の優位な注視点グループが選択されるようにする。また、図１１のように仮想カメラが一つの撮影領域内を移動する場合は、共通領域における仮想視点コンテンツの生成に使用されるカメラグループとして、仮想カメラが移動する撮影領域を撮影する注視点グループが選択されるようにする。この選択方法においては、仮想カメラの移動経路の代わりに、オブジェクトの移動経路が使用されてもよい。このように、仮想カメラの移動経路、またはオブジェクトの移動経路に応じて、共通領域における仮想視点コンテンツの生成に使用されるカメラグループが選択される構成でもよい。

また、上述した第一の実施形態と本実施形態を組み合わせて実施してもよい。この場合、例えば、カメラに関する情報（台数及び解像度）に基づいて選択される注視点グループと、仮想カメラの位置及び姿勢の変化に応じて選択される注視点グループとが異なる場合がありうる。この場合は、仮想カメラの位置及び姿勢の変化に応じて選択される注視点グループが優先して選択されるようにしてもよい。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００画像処理システム
２７０バックエンドサーバ
０３００５仮想視点前景画像生成部

Claims

第１の撮影領域を撮影する一以上の撮影装置を含む撮影装置グループと、前記第１の撮影領域と少なくとも一部が重複する第２の撮影領域を撮影する一以上の撮影装置を含む撮影装置グループと、を含む複数の撮影装置が撮影することにより得られる複数の撮影画像に基づく仮想視点画像の生成に使用される仮想視点の位置及び前記仮想視点からの視線方向を表す視点情報を取得する取得手段と、
前記取得手段により取得される視点情報に対応する仮想視点画像の生成に使用される撮影装置グループを選択する選択手段と、
前記取得手段により取得される視点情報に対応する仮想視点画像が、前記第１の撮影領域と前記第２の撮影領域とが重複する共通領域に対応する画像を含む場合、前記撮影装置グループに含まれる一以上の撮影装置に関する情報、及び、前記取得手段により取得される視点情報により表される仮想視点の位置及び仮想視点からの視線方向の変化と、のうち少なくともいずれかに基づいて、仮想視点画像の生成に使用される撮影装置グループが前記選択手段により選択されるように制御する制御手段と
を有することを特徴とする情報処理装置。
前記撮影装置グループに含まれる一以上の撮影装置に関する情報は、前記撮影装置グループに含まれる撮影装置の数に関する情報を含むことを特徴とする請求項１に記載の情報処理装置。
前記撮影装置グループに含まれる撮影装置の数に関する情報は、前記撮影装置グループに含まれる撮影装置のうち異常が発生していない撮影装置の数を表すことを特徴とする請求項２に記載の情報処理装置。
前記制御手段は、前記取得手段により取得される視点情報に対応する仮想視点画像が前記共通領域に対応する画像を含む場合、前記撮影装置グループに含まれる撮影装置の数がより多い撮影装置グループが前記選択手段により選択されるように制御することを特徴とする請求項２または３に記載の情報処理装置。
前記撮影装置グループに含まれる一以上の撮影装置に関する情報は、前記撮影装置グループに含まれる撮影装置が対応する解像度に関する情報を含むことを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記制御手段は、前記取得手段により取得される視点情報に対応する仮想視点画像が前記共通領域に対応する画像を含む場合、撮影装置が対応する解像度がより高い撮影装置を含む撮影装置グループが前記選択手段により選択されるように制御することを特徴とする請求項５に記載の情報処理装置。
前記撮影装置グループに含まれる一以上の撮影装置に関する情報は、前記撮影装置グループに含まれる撮影装置の設置位置に関する情報を含むことを特徴とする請求項１乃至６のいずれか１項に記載の情報処理装置。
前記制御手段は、前記取得手段により取得される視点情報に対応する仮想視点画像が前記共通領域に対応する画像を含む場合、前記撮影装置グループに含まれる撮影装置のうち、前記仮想視点画像に含まれるオブジェクトと撮影装置の設置位置との距離がより短い撮影装置を含む撮影装置グループが前記選択手段により選択されるように制御することを特徴とする請求項７に記載の情報処理装置。
前記制御手段は、前記取得手段により取得される視点情報により表される仮想視点の位置及び仮想視点からの視線方向の変化に応じた仮想視点画像が、前記第１の撮影領域と前記第２の撮影領域とのうち一方に対応する画像のみを含む場合、前記仮想視点画像に含まれる撮影領域を撮影する撮影装置グループが前記選択手段により選択されるように制御することを特徴とする請求項１乃至８のいずれか１項に記載の情報処理装置。
前記制御手段は、前記撮影装置グループに含まれる一以上の撮影装置に関する情報に基づいて選択される撮影装置グループと、前記取得手段により取得される視点情報により表される仮想視点の位置及び仮想視点からの視線方向の変化に基づいて選択される撮影装置グループとが異なる場合、前記取得手段により取得される視点情報により表される仮想視点の位置及び仮想視点からの視線方向の変化に基づいて選択される撮影装置グループが前記選択手段により優先して選択されるように制御することを特徴とする請求項１乃至９のいずれか１項に記載の情報処理装置。
前記選択手段は、前記取得手段により取得される視点情報に対応する仮想視点画像に含まれる撮影領域を撮影する撮影装置グループを、前記仮想視点画像の生成に使用される撮影装置グループとして選択することを特徴とする請求項１乃至１０のいずれか１項に記載の情報処理装置。
前記選択手段により選択された撮影装置グループに含まれる一以上の撮影装置が撮影することにより得られる複数の撮影画像に基づいて、仮想視点画像を生成する生成手段を有することを特徴とする請求項１乃至１１のいずれか１項に記載の情報処理装置。
第１の撮影領域を撮影する一以上の撮影装置を含む撮影装置グループと、前記第１の撮影領域と少なくとも一部が重複する第２の撮影領域を撮影する一以上の撮影装置を含む撮影装置グループと、を含む複数の撮影装置が撮影することにより得られる複数の撮影画像に基づく仮想視点画像の生成に使用される仮想視点の位置及び前記仮想視点からの視線方向を表す視点情報を取得する取得工程と、
前記取得工程において取得される視点情報に対応する仮想視点画像の生成に使用される撮影装置グループを選択する選択工程と、
前記取得工程において取得される視点情報に対応する仮想視点画像が、前記第１の撮影領域と前記第２の撮影領域とが重複する共通領域に対応する画像を含む場合、前記撮影装置グループに含まれる一以上の撮影装置に関する情報、及び、前記取得工程において取得される視点情報により表される仮想視点の位置及び仮想視点からの視線方向の変化と、のうち少なくともいずれかに基づいて、仮想視点画像の生成に使用される撮影装置グループが前記選択工程において選択されるように制御する制御工程と
を有することを特徴とする情報処理方法。
コンピュータを、請求項１乃至１２のいずれか１項に記載の情報処理装置として機能させるためのプログラム。