JP2022110751A

JP2022110751A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2022110751A
Application number: JP2021006356A
Authority: JP
Inventors: 直樹梅村; Naoki Umemura
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2022-07-29
Also published as: US20220230337A1

Abstract

【課題】オブジェクトの三次元形状を表す形状データに関する処理を適切に行う。【解決手段】複数のカメラによる撮影により取得された複数の画像と、カメラパラメータを取得し、各カメラの被写界深度内に注目オブジェクトが存在するか否かをカメラパラメータに基づいて判定し、被写界深度内に注目オブジェクトが存在すると判定されたカメラの画像に基づいて、注目オブジェクトの三次元形状を表す形状データに関する処理を行う。【選択図】図３

Description

本開示の技術は、複数の撮影装置の撮影画像に基づいて三次元モデルに関する処理を行う技術に関する。

昨今、複数の撮影装置をそれぞれ異なる位置に設置して多視点で同期撮影し、当該撮影により得られた複数の画像を用いて、指定された視点（仮想視点）からの見えを表す仮想視点画像を生成する技術が注目されている。仮想視点画像を生成する際は、撮影対象エリアに存在する人物等の被写体（オブジェクト）の三次元形状を表す形状データを求めることによって、撮影対象エリアを仮想視点から見たときの映像を作り出す。仮想視点画像の生成対象は種々あるが、例えばスタジアムで行われるスポーツイベントが挙げられる。例えばサッカーの場合には複数の撮影装置が、フィールドの周囲を取り囲むように配置されることになる。特許文献１では、複数のカメラそれぞれが、選手等が移動し得るフィールド上の全範囲をその被写界深度に収めるように合焦位置を制御する技術が開示されている。

特開２０１９－１６１４６２号公報

しかしながら、例えば選手の表情といったオブジェクトの一部を拡大して高解像度で撮影したい場合もある。この場合、複数の撮影装置で得られる撮影画像の中には、被写界深度から外れてオブジェクトが写っているものも含まれてしまう。このようなオブジェクトが被写界深度から外れた撮影画像を、三次元形状を表す形状データの生成などに使用した場合には、適切な処理がなされなくなる。

本開示の技術は、上記課題に鑑みてなされたものであり、その目的は、オブジェクトの三次元形状を表す形状データに関する処理を適切に行うことを目的とする。

本開示に係る情報処理装置は、視点の異なる複数の撮影装置による撮影により取得された複数の画像と、当該複数の撮影装置の位置及び姿勢を特定するためのパラメータを取得する取得手段と、前記複数の撮影装置の被写界深度内に特定オブジェクトが存在するか否かを前記パラメータに基づいて判定する判定手段と、前記複数の撮影装置のうち、前記判定手段によって被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置の画像に基づいて、前記特定オブジェクトの三次元形状を表す形状データに関する処理を行う処理手段と、を有することを特徴とする。

本開示の技術によれば、オブジェクトの三次元形状を表す形状データに関する処理を適切に行うことができる。

仮想視点画像を生成する画像処理システムの構成の一例を示すブロック図。カメラ（撮影装置）が配置されている様子を俯瞰的に示す模式図。選手のオブジェクトを側面から見た場合の模式図。情報処理装置のハードウェア構成を示すブロック図仮想視点画像の生成を行うサーバのソフトウェア構成を示すブロック図（ａ）及び（ｂ）は、可視性判定を説明する図。可視性判定の結果を示す表。仮想視点画像生成処理の流れを示すフローチャート。カメラの画角と被写界深度との関係を示した模式図可視性判定の結果と被写界深度判定の結果とをまとめた表。

以下、本開示の実施形態について、図面を参照して説明する。なお、以下の実施形態は発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

［実施形態１］
＜基本的なシステム構成＞
図１は、本実施形態に係る、仮想視点画像を生成する画像処理システムの構成の一例を示すブロック図である。画像処理システム１００は、複数のカメラシステム１１０ａ～１１０ｔ、スイッチングハブ（ＨＵＢ）１１５、サーバ１１６、データベース（ＤＢ）１１７、制御装置１１８及び表示装置１１９を有する。図１において、各カメラシステム１１０内には、カメラ１１１a～１１１tとカメラアダプタ１１２a～１１２ｔがそれぞれ内部配線によって接続されて存在する。そして、隣り合うそれぞれのカメラシステム間はネットワークケーブル１１３a～１１３sによって相互に接続されている。すなわち、各カメラシステム１１０はネットワークケーブルによってデイジーチェーン接続で伝送を行う。スイッチングハブ１１５は、各ネットワーク装置間のルーティングを行う。サーバ１１６は、カメラシステム１１０から送信されてきた撮影画像の加工、オブジェクト（被写体）の三次元モデルの生成、三次元モデルへの色付け（レンダリング）といった処理を行う情報処理装置である。また、サーバ１１６は、本システムの時刻同期を行うための時刻同期信号を生成するタイムサーバ機能も有している。各カメラ１１１は、同期信号に基づいて互いに高精度に同期してフレーム単位で撮影を行う。データベース１１７は、サーバ１１６で加工された撮影画像や生成された三次元モデルのデータを蓄積したり、蓄積されているデータをサーバ１１６に送ったりする情報処理装置である。制御装置１１８は、各カメラシステム１１０やサーバ１１６を制御する情報処理装置である。また、制御装置１１８は、仮想カメラ（仮想視点）の設定にも利用される。表示装置１１９は、制御装置１１８においてユーザが仮想視点を指定するための設定用ユーザインタフェース画面（ＵＩ画面）の表示や、生成された仮想視点画像の閲覧用ＵＩ画面の表示などを行う。表示装置１１９は、例えばテレビ、コンピュータのモニタ、タブレットやスマートフォンの液晶表示部などであり、機器の種類は問わない。

スイッチングハブ１１５とカメラシステム１１０ａ、１１０ｔはそれぞれネットワークケーブル１１４ａ、１１４ｂで接続されている。同様にスイッチングハブ１１５とサーバ１１６との間はネットワークケーブル１１４ｃで接続され、さらにサーバ１１６とデータベース１１７との間がネットワークケーブル１１４ｄで接続されている。そして、スイッチングハブ１１５と制御装置１１８との間はネットワークケーブル１１４ｅで接続され、さらに制御装置１１８と表示装置１１９との間が、映像用ケーブル１１４ｆで接続されている。

なお、図１の例ではカメラシステム１１０ａ～１１０ｔの間をデイジーチェーン接続で構成したが、スイッチングハブ１１５と各カメラシステム１１０とをそれぞれ直接接続するスター型接続でも構わない。また、図１の例では、カメラシステム１１０は２０台構成としているが例示にすぎない。実際のカメラシステムの数は、撮影空間の大きさ、対象イベントの内容、想定されるオブジェクトの数、要望される画質などを考慮して決定される。

ここで、画像処理システム１００における仮想視点画像生成の大まかな流れを説明する。カメラ１１１ａで撮影された画像は、カメラアダプタ１１２ａにおいて前景となるオブジェクト（被写体）と背景とを分離するなどの画像処理が施された後、ネットワークケーブル１１３ａを通してカメラシステム１１０ｂのカメラアダプタ１１２ｂに伝送される。同様にカメラシステム１１０ｂは、カメラ１１１ｂで撮影された画像を、カメラシステム１１０ａから受信した撮影画像と合わせてカメラシステム１１０ｃに伝送する。このような動作を続けることにより、カメラシステム１１０ａ～１１０tまでの各カメラ１１１ａ～１１１ｔが取得した撮影画像は、カメラシステム１１０ｔからネットワークケーブル１１４ｂを介してスイッチングハブ１１５に伝送され、その後、サーバ１１６に伝送される。

なお、本実施形態では、サーバ１１６にて三次元モデルの生成と仮想視点画像の生成の両方を行っているが、システム構成はこれに限定されるものではない。例えば、三次元モデルの生成を行うサーバと仮想視点画像の生成を行うサーバが別々に存在してもよい。

＜カメラ配置＞
図２は、上述の画像処理システム１００における２０台のカメラ１１１ａ～１１１tが、サッカーを行うフィールドの周囲に配置されている様子を俯瞰的に示す模式図である。本実施形態では、２０台のカメラ１１１ａ～１１１tは、第１カメラ群（第１撮影装置群）と第２カメラ群（第２撮影装置群）とに分けられる。第１カメラ群は、相対的に離れた位置からフィールド全体を撮影する１０台のカメラ１１１ｋ～１１１ｔから成る。一方、第２カメラ群は、相対的に近い位置からフィールド内の特定の領域を撮影する１０台のカメラ１１１ａ～１１１ｊから成る。そして、撮影距離が遠い第１カメラ群に属する１０台のカメラ１１１ｋ～１１１ｔはフィールド中央を向いているものとする。また、撮影距離が近い第２カメラ群に属する１０台のカメラ１１１ａ～１１１ｊは、５台ずつ異なる方向を向いているものとする。すなわち、カメラ１１１ａ、１１１ｂ、１１１ｃ、１１１ｉ、１１１ｊはフィールド左側のゴール前付近を向いており、カメラ１１１ｄ、１１１ｅ、１１１ｆ、１１１ｇ、１１１ｈはフィールド右側のゴール前付近を向いている。なお、一般的に撮影距離と被写界深度とは相関関係にあり、撮影距離が遠いほど被写界深度は長くなる。したがって、第１カメラ群に属するカメラ１１１ｋ～１１１ｔの方が、第２カメラ群に属するカメラ１１１ａ～１１１ｊよりも広い（深い）被写界深度を持つことになる。そして、第２カメラ群に属するカメラ１１１ａ～１１１ｊの担当撮影領域が十分な数のカメラによって多くの方向から撮影がなされるようにすることで、より高画質な仮想視点画像の生成が可能になる。この場合において、双方のカメラ群に属する各カメラの位置はフィールド上の任意の１点を原点とした３次元座標の座標値で規定されているものとする。なお、各カメラ群に属するカメラは、カメラ群単位で全てが同じ高さでもよいし、バラバラの高さでも構わない。

第１カメラ群を構成する各カメラ１１１ｋ～１１１ｔは、フィールドの全域（高さ方向を含む３次元空間の全体）をその被写界深度に収めるようにカメラパラメータが設定されているものとする。すなわち、各カメラ１１１ｋ～１１１ｔの撮影画像においては、フィールドでプレイする選手等が常にピントが合っている状態で写っていることになる。他方、第２カメラ群を構成する各カメラ１１１ａ～１１１ｊは、自身に割り当てられたフィールド片側のゴール前付近を中心とした一定範囲がその被写界深度に収まるようにカメラパラメータが設定されているものとする。すなわち、各カメラ１１１ａ～１１１ｊについては、一定範囲内に選手等が入った場合にはより高精細で高画質な撮影画像が得られる代わりに、その被写界深度が狭く（浅く）なっている。そのため、各カメラ１１１ａ～１１１ｊにおいては、その画角内であっても被写界深度外となってしまうフィールド上の領域が存在し、写っている選手のピントがボケてしまうことがある。図３は、図２においてセンターサークル内にいる選手２０１を矢印２０２の方向（側面）から見た場合の模式図である。いま、２つのカメラ群における被写界深度の違いを説明するため、第１カメラ群に属するカメラ１１１ｑと第２カメラ群に属するカメラ１１１ｆだけを示している。いま、カメラ１１１ｆに関し、台形ＡＢＣＤで示した領域が、当該カメラで撮影した際の被写界深度を表している。つまり、カメラ１１１ｆの場合、当該カメラから見て線分ＡＤよりも手前側と線分ＢＣよりも奥側の領域は被写界深度から外れることなる。その結果、線分ＢＣよりも奥に存在する選手２０１については、その撮影画像においてピントがずれたり、オブジェクト本来の色が取得できなかったりすることになる。同様にカメラ１１１ｑの被写界深度が、五角形ＥＦＧＨＩにより示されている。カメラ１１１ｑの場合、当該カメラから見て線分ＥＩよりも手前側と線分ＧＨよりも奥側の領域は被写界深度外となる。なお、図３における線分ＡＤ及び線分ＥＩは「前方被写界深度」、線分ＢＣ及び線分ＧＨは「後方被写界深度」と呼ばれる。図３から、選手２０１はカメラ１１１ｆの被写界深度外に存在し、且つ、カメラ１１１ｑの被写界深度内に存在していることが分かる。

なお、本実施形態では説明の便宜上、第１カメラ群については全１０台のカメラが同一の注視点で撮影を行い、第２カメラ群については５台ずつのグループに分けて異なる注視点で撮影を行うこととしているが、これに限定されない。例えば、撮影距離が遠い第１カメラ群についても複数のグループに分けた上で、グループ単位で注視点を異ならせて撮影を行ってもよい。また、撮影距離の近い第２カメラ群を３つ以上のグループに分けてそれぞれ別々の注視点で撮影を行うようにしてもよい。また、第２カメラ群に属する１０台のカメラ１１１ａ～１１１ｊは互いに異なる位置又は異なる領域に向けられていてもよいし、１０台のうち数台が同じ位置又は同じ領域に向けられていてもよい。また、第１カメラ群に属する１０台のカメラ１１１ｋ～１１１ｔも、互いに異なる位置又は異なる領域に向けられていてもよいし、１０台のうち数台が同じ位置又は同じ領域に向けられていてもよい。さらには、撮影距離が異なる（すなわち、被写界深度が異なる）カメラ群を３つ以上設けてもよい。

＜ハードウェア構成＞
図４は、サーバ１１６や制御装置１１８といった情報処理装置のハードウェア構成を示すブロック図である。情報処理装置は、ＣＰＵ２１１、ＲＯＭ２１２、ＲＡＭ２１３、補助記憶装置２１４、操作部２１５、通信Ｉ／Ｆ２１６及びバス２１７を有する。

ＣＰＵ２１１は、ＲＯＭ２１２またはＲＡＭ２１３に格納されているコンピュータプログラムおよびデータを用いて情報処理装置の全体を制御することで、情報処理装置の各機能を実現する。なお、情報処理装置は、ＣＰＵ２１１とは異なる専用の１又は複数のハードウェアあるいはＧＰＵ（Graphics Processing Unit）を有していてもよい。そして、ＣＰＵ２１１による処理の少なくとも一部をＧＰＵあるいは専用のハードウェアが行うようにしてもよい。専用のハードウェアの例としては、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、およびＤＳＰ（デジタルシグナルプロセッサ）などがある。ＲＯＭ２１２は、変更を必要としないプログラムなどを格納する。ＲＡＭ２１３は、補助記憶装置２１４から供給されるプログラムやデータ、及び通信Ｉ／Ｆ２１７を介して外部から供給されるデータなどを一時記憶する。補助記憶装置２１４は、例えばハードディスクドライブ等で構成され、画像データや音量データなどの種々のデータを記憶する。操作部２１５は、液晶ディスプレイやＬＥＤ等で構成される表示デバイスとキーボードやマウス等で構成される入力デバイスを有し、グラフィカルユーザインタフェース（ＧＵＩ）などを介して様々なユーザ指示をＣＰＵ２１１に入力する。なお、表示デバイスと入力デバイスの機能を兼ね備えたタッチパネルでもよい。通信Ｉ／Ｆ２１６は、情報処理装置の外部の装置との通信に用いられる。例えば、情報処理装置が外部の装置と有線で接続される場合には、通信用のケーブルが通信Ｉ／Ｆ２１６に接続される。情報処理装置が外部の装置と無線通信する機能を有する場合には、通信Ｉ／Ｆ２１６はアンテナを備える。バス２１７は、情報処理装置の各部をつないで情報を伝達する。

＜ソフトウェア構成＞
図５は、第１カメラ群及び第２カメラ群で得られた撮影画像に基づき仮想視点画像の生成を行うサーバ１１６のソフトウェア構成を示すブロック図である。サーバ１１６は、データ取得部５０１、三次元モデル生成部５０２、距離推定部５０３、可視性判定部５０４、被写界深度判定部５０５及び仮想視点画像生成部５０６を有する。以下、各部の機能について説明する。

データ取得部５０１は、第１カメラ群及び第２カメラ群に属する各カメラの位置、姿勢、画角、焦点距離、絞り値などの撮影条件を規定するパラメータ（カメラパラメータ）及び各カメラで得られた撮影画像データを、スイッチングハブ１１５を介して取得する。また、データ取得部５０１は、制御装置１１８で設定された仮想視点に関する情報（具体的には、仮想視点の位置及び姿勢、画角など。（以下、「仮想視点情報」と表記。））を、スイッチングハブ１１５を介して取得する。

三次元モデル生成部５０２は、データ入力部５０１から受け取った各カメラのカメラパラメータと撮影画像データに基づいて、フィールド上の選手やボールといったオブジェクトの三次元モデルを生成する。ここで、具体的な生成手順について簡単に説明する。まず、各撮影画像に対し前景背景分離処理を行って、オブジェクトのシルエットを表す前景画像を生成する。ここでは前景背景分離の方式として背景差分法を用いることとする。背景差分法では、まず、撮影画像における時系列に異なるフレーム同士を比較し、画素値の差が小さい箇所を動きのない画素として特定し、当該特定された動きのない画素を用いて背景画像を生成する。そして、得られた背景画像と撮影画像の注目するフレームとを比較することで、当該フレームにおいて背景との差分の大きい画素を前景となる画素として特定して、前景画像を生成する。以上の処理を、撮影画像それぞれについて行う。次に、各撮影画像に対応する複数の前景画像を用いて、視体積交差法（例えば、Shape from silhouette法）により三次元モデルを抽出する。視体積交差法では、対象三次元空間を細かい単位立方体（ボクセル）に分割し、各ボクセルが複数の撮影画像に映る場合の画素位置を三次元計算によって求め、各ボクセルが前景の画素に該当するか否かを判断する。全ての撮影画像において前景の画素と判断された場合、そのボクセルは対象三次元空間において、オブジェクトを構成するボクセルであると特定される。こうして特定されたボクセルのみを残し、他のボクセルを削除していく。そして、最終的に残ったボクセル群（３次元座標を持つ点の集合）が、対象三次元空間に存在するオブジェクトの三次元形状を表すモデル（三次元の形状データ）となる。

距離推定部５０３は、三次元モデル生成部５０２が生成した各三次元モデルについて、三次元モデルを構成する点（ボクセル）と各カメラの撮像面との距離を、データ取得部５０１から入力されたカメラパラメータを用いて推定する。ここで、具体的な推定手順について簡単に説明する。まず、対象三次元モデルの任意の点の座標（世界座標）に対し、対象カメラの位置と姿勢を表す外部行列を掛けてカメラ座標系に変換する。対象カメラの位置を原点としてそのレンズが向く方向をカメラ座標系のｚ軸における正とした場合のｚ値が、当該任意の点を対象カメラから見たときの距離となるので、これを対象三次元モデルの全点について行って各点から対象カメラまでの距離を得る。こうした処理を、各カメラについて行うことで、対象三次元モデルから各カメラまでの距離を示す距離情報が得られる。

可視性判定部５０４は、三次元モデルが生成された各オブジェクトについて、距離推定部５０３で得られた距離情報を用いて、その三次元形状を表すモデルが各カメラから見えているか否かをボクセル単位で判定する。ここで、可視性判定の具体的な手順について図を参照して説明する。図６（ａ）は、等間隔で設置された８台のカメラ６１１～６１８で、底面が正八角形の正角柱で人物を模試的に表現したオブジェクト６００を撮影する様子を真上から見た概略図である。いま、８台のカメラ６１１～６１８は、オブジェクト６００の中心点から等距離、かつ、同じ高さにある。そして、８つの点６０１～６０８は、オブジェクト６００を構成する側面同士の接合部における各カメラ６１１～６１８の高さが同じになる箇所（代表点）を示している。図６（ｂ）は、上記８つのカメラ６１１～６１８のうちのカメラ６１３とオブジェクト６００との関係を側面から見た場合の模式図である。どのカメラの視線の先にも代表点があるようにオブジェクト６００は十分な高さがあるものとする。また、各カメラ６１１～６１８の視線方向は、オブジェクト６００の中心点方向であり、いずれのカメラも地面と水平に設置してあるものとする。図７は、８つのカメラ６１１～６１８でオブジェクト６００を撮影した際に、代表点６０１～６０８が各カメラの撮影画像に写る（見えている）か否かを示した表である。図７の表において、行と列の交わった部分には“１”または“０”の値が入っており、“１”は特定のカメラから特定の代表点が見えていること（可視性あり）を意味し、“０”は見えていないこと（可視性なし）を意味している。実際の可視性判定においては、まず、対象カメラを基準として、判定対象となるオブジェクトの三次元モデルの注目する点（ボクセル）までの距離と予め既知であるオブジェクトの中心座標までの距離とを比較する。そして、注目する点までの距離がオブジェクトの中心座標までの距離よりも短い場合（すなわち、注目する点の方が対象カメラにより近い場合）は可視、そうでない場合は非可視となる。

被写界深度判定部５０５は、三次元モデルが生成された各オブジェクトについて、第１カメラ群及び第２カメラ群に属する各カメラの被写界深度に収まっているか否かを判定する。この判定には、データ取得部５０１から提供される各カメラの撮影画像データとカメラパラメータ、及び距離推定部５０３で得られた距離情報を用いる。具体的には、以下のとおりである。まず、前述の距離情報によって、各オブジェクトから各カメラまでの距離（撮影空間におけるオブジェクトの位置を表す座標値）がオブジェクト毎に分かっている。そこで、対象カメラのカメラパラメータからその前方被写界深度と後方被写界深度を計算によって求め、撮影画像内の対象オブジェクトの位置（例えば中心座標）が、求めた前方被写界深度と後方被写界深度との間に収まっているか否かを判断する。これを撮影画像に写っている全てのオブジェクトについてカメラ単位で行なうことで、各オブジェクトが各カメラの被写界深度に含まれているかどうかが分かる。

仮想視点画像生成部５０６は、データ取得部５０１から入力される仮想視点情報に基づき、各オブジェクトの三次元モデルに対して色付け（レンダリング処理）を行って、仮想視点からの見えを表す画像を生成する。その際、被写界深度判定部６０５の判定結果や可視性判定部５０４の判定結果が参照される。

＜仮想視点画像の生成処理＞
図８は、サーバ１１６における、仮想視点画像生成処理の流れを示すフローチャートである。図８のフローチャートに示す一連の処理は、仮想視点情報を含んだユーザ指示（仮想視点画像の生成を指示する信号）を制御装置１１８から受信したことに応答して開始し、フレーム単位で（撮影画像が動画の場合）実行されるものとする。なお、以下の説明において記号「Ｓ」はステップを意味する。

Ｓ８０１では、データ取得部５０１が、第１カメラ群及び第２カメラ群が同期撮影を行って得た撮影画像データと、両カメラ群に属する各カメラ１１１ａ～１１１ｔについてのカメラパラメータを取得する。

Ｓ８０２では、三次元モデル生成部５０２が、撮影距離の遠い第１カメラ群の撮影画像データと第１カメラ群に属する各カメラのカメラパラメータに基づいて、選手やボールといったオブジェクトの三次元モデルを生成する。この段階では撮影距離が遠いカメラの撮影画像を用いることから、得られる三次元モデルはその精度が相対的に低いものになる。

Ｓ８０３では、距離推定部５０３が、Ｓ８０２で生成された各オブジェクトの三次元モデルについて、三次元モデルを構成する各点から第１カメラ群に属する各カメラ１１１ｋ～１１１ｔまでの距離を推定して、上述の距離情報を生成する。次のＳ８０４以降の処理は、オブジェクト単位で実行される。

Ｓ８０４では、被写界深度判定部５０５が、第１及び第２カメラ群に属する各カメラ１１１ａ～１１１ｔそれぞれの被写界深度内に注目オブジェクトが存在するか否かを、Ｓ８０３で得られた距離推定の結果に基づき判定する。図９は、カメラの画角と被写界深度との関係を示した模式図である。例えばサッカーやラグビーといった多人数で行うスポーツの試合では、図９に示すように各カメラの画角内には複数の選手（この例ではオブジェクトＡ～Ｄ）が入り込む可能性が高い。しかしながら、あるカメラにおいて複数の選手が撮影できていたとしても、その全ての選手が高画質・高精度に撮影できているとは限らない。つまり、図９に示すように、カメラの画角内に複数の選手が収まっている状態のとき、被写界深度内に存在する選手（オブジェクトＢとＣ）と被写界深度から外れて存在している選手（オブジェクトＡとＤ）とが混在し得ることになる。特に第２カメラ群のように撮影距離が近い（つまり、被写界深度が狭い）カメラにおいてはこのような撮影画像が得られやすい。そこで、本ステップでは、オブジェクト単位で、第１及び第２カメラ群に属する各カメラの被写界深度に含まれるかどうかを、カメラパラメータから求まる前方被写界深度及び後方被写界深度と、Ｓ８０３における距離推定の結果に基づいて判定する。いま、第１カメラ群の各カメラ１１１ａ～１１１ｊは、フィールド全体をカバーする広い被写界深度を持つので、フィールド上の選手やボールであれば常に被写界深度内に収まることになる。また、いずれか一方のゴール前付近にいる選手やボールは、第２カメラ群の各カメラ１１１ｋ～１１１ｔの被写界深度内にも収まることになる。そして、フィールド外にいる監督や控え選手、観客等のオブジェクトについてはその多くが被写界深度内に存在しないと判定されることになる。そして、判定結果に従って次のように処理が振り分けられる。まず、注目オブジェクトがどのカメラの被写界深度にも収まっていない場合には、次のオブジェクトを処理するべくＳ８１４に進む。注目オブジェクトが、第１カメラ群のカメラの被写界深度にのみ収まっていればＳ８０５に進み、第１カメラ群に加えて第２カメラ群のカメラの被写界深度内にも収まっていればＳ８０７に進む。

Ｓ８０５では、可視性判定部５０４が、注目オブジェクトの三次元モデルについて、第１カメラ群に属する各カメラから見たときの可視性を判定する。判定の結果、注目オブジェクトの三次元モデルが可視性ありであればＳ８０６に進む。一方、可視性なしであれば当該オブジェクトについてはレンダリング不要ということになり、次のオブジェクトを処理するべくＳ８１４に進む。

Ｓ８０６では、仮想視点画像生成部５０６が、制御装置１１８から提供された仮想視点情報に基づき、Ｓ８０２にて生成された注目オブジェクトの三次元モデルに色を付けるレンダリング処理を行なう。具体的には、第１カメラ群ベースの三次元モデルを構成する点群のうち可視性ありと判定された各点に対し、注目オブジェクトをその被写界深度内に含む第１カメラ群のカメラの撮影画像を使って色を付ける処理（レンダリング）が行なわれる。なお、Ｓ８０６では、注目オブジェクトに対する色をどのカメラの撮影画像を使って決めるかについて決定する処理を行い、レンダリングは後で行ってもよい。つまり、注目オブジェクトの色の決定に使用する撮影画像を、その注目オブジェクトを被写界深度内に含む第１カメラ群のカメラの撮影画像とすることを決定する。

Ｓ８０７では、Ｓ８０４にて被写界深度内に注目オブジェクトが存在すると判定された第２カメラ群に属するカメラに関し、一定条件を満たすか否かによって処理が振り分けられる。この場合の一定条件としては、例えば被写界深度内に注目オブジェクトが存在すると判定された第２カメラ群に属するカメラの総数が一定数以上あることであり、この際の一定数（閾値）は、次のＳ８１０において三次元モデルを生成するのに十分な撮影画像の数をユーザが予め設定しておけばよい。また、カメラの総数だけでなく、一定数以上の撮影方向（例えばオブジェクトの正面・背面・右側面・左側面の４方向）から撮影できていること、といった条件を加えてもよい。判定の結果、注目オブジェクトが被写界深度内に存在すると判定された第２カメラ群のカメラが一定数以上あった場合はＳ８１０に進み、なかった場合はＳ８０８に進む。

Ｓ８０８では、可視性判定部５０４が、注目オブジェクトの三次元モデルについて、第１及び第２カメラ群に属する各カメラから見たときの可視性を判定する。判定の結果、注目オブジェクトの三次元モデルが可視性ありであればＳ８０９に進む。一方、可視性なしであれば、当該オブジェクトについてはレンダリング不要ということになり、次のオブジェクトを処理するべくＳ８１４に進む。図１０は、図２においてフィールド中央に位置する選手２０１の形状を図６に示す正角柱のオブジェクト６００と仮定した場合の可視性判定の結果と被写界深度判定の結果とをまとめた表である。いま、選手２０１の三次元モデルとしてのオブジェクト６００における代表点６０６と６０７とを結んだ線分を含む面が、カメラ１１１ａの正面から見えているものとする。図１０の表において、項目「可視性」が“１”は可視性ありを表し、“０”は可視性なしを表す。また、項目「被写界深度」が“１”は被写界深度内にあることを表し、“０”は被写界深度外にあることを表す。このように三次元モデルを構成する各点について、各カメラからの可視性と被写界深度の情報をまとめることにより、三次元モデルを構成する各点について、可視性のあり／なし、被写界深度の内／外を容易に特定することが可能になる。

Ｓ８０９では、仮想視点画像生成部５０６が、制御装置１１８から提供された仮想視点情報に基づき、Ｓ８０２にて生成された注目オブジェクトの三次元モデルに色を付けるレンダリング処理を行なう。本ステップでもＳ８０６と同様、第１カメラ群ベースの三次元モデルが対象となる。Ｓ８０６と異なるのは、可視性ありと判定された各点への色付けに、Ｓ８０４にて注目オブジェクトが被写界深度内に存在すると判定された第２カメラ群のカメラによる撮影画像を優先的に使用する点である。優先使用を決定する際に、上述の図１０の表を参照することができる。なお、第１カメラ群のカメラからのみ可視性があると判定された点（ボクセル）については、第１カメラ群の撮影画像を用いて色付けがなされることになる。オブジェクトにより接近した位置から撮影を行なう第２カメラ群であってその被写界深度内に注目オブジェクトが存在する撮影画像を優先して色付けに用いることで、オブジェクトの色をより正確に表現した仮想視点画像が得られることになる。

Ｓ８１０では、三次元モデル生成部５０２が、選手等を近い距離から撮影する第２カメラ群の撮影画像データと第２カメラ群に属する各カメラのカメラパラメータに基づいて、選手等のオブジェクトの三次元モデルを生成する。ただし、生成の際に使用されるのは、第２カメラ群の撮影画像データのうち、Ｓ８０４にて注目オブジェクトが被写界深度内に存在すると判定された第２カメラ群のカメラによって撮影された画像データである。オブジェクトをより接近した位置から撮影する第２カメラ群の撮影画像を用いることで、より精緻な三次元モデルが得られることになる。

Ｓ８１１では、距離推定部５０３が、Ｓ８１０で生成された注目オブジェクトの三次元モデルについて、当該三次元モデルを構成する各点から第２カメラ群に属する各カメラまでの距離を推定して距離情報を生成する。ただし、距離推定の際に使用されるのは、第２カメラ群に属する各カメラのうち、Ｓ８０４にて注目オブジェクトが被写界深度内に存在すると判定されたカメラである。

Ｓ８１２では、可視性判定部５０４が、Ｓ８１０にて生成された注目オブジェクトの三次元モデルについて、第２カメラ群に属する各カメラから見たときの可視性を判定する。ただし、可視性判定の際に使用されるのはＳ８１１と同様、第２カメラ群に属する各カメラのうち、Ｓ８０４にて注目オブジェクトが被写界深度内に存在すると判定されたカメラである。判定の結果、注目オブジェクトの三次元モデルが可視性ありであればＳ８１３に進む。一方、可視性なしであれば、当該オブジェクトについてはレンダリング不要ということになり、次のオブジェクトを処理するべくＳ８１４に進む。

Ｓ８１３では、仮想視点画像生成部５０６が、制御装置１１８から提供された仮想視点情報に基づき、Ｓ８１０にて生成された注目オブジェクトの三次元モデルに色を付けるレンダリング処理を行なう。本ステップでは上述のＳ８０６及びＳ８０９とは異なり、第２カメラ群ベースの三次元モデルが対象となる。そして、Ｓ８０９と同様、可視性ありと判定された各点への色付けに使用する撮影画像として、Ｓ８０４にて注目オブジェクトが被写界深度内に存在すると判定された第２カメラ群のカメラによる撮影画像を優先的に使用する。第２カメラ群の撮影画像を優先して色付けに用いることで、精緻な三次元モデルを正確な色で表現した高画質な仮想視点画像が得られることになる。

Ｓ８１４では、すべてのオブジェクトについて処理が完了したか否かが判定される、未処理のオブジェクトがあればＳ８０４に戻り、次の注目オブジェクトを決定して処理を続行する。一方、すべてのオブジェクトについて処理が完了していれば本処理を終了する。

以上が、本実施形態に係る、仮想視点画像生成処理の流れである。なお、Ｓ８０６、Ｓ８０９、Ｓ８１３のレンダリング処理において、実際に色付けの対象となる点（ボクセル）は、可視性ありと判定された点のうちオブジェクト同士の遮蔽判定（オクルージョン判定）によって最終的に残った点である。また、本実施形態では、撮影対象空間におけるオブジェクトの位置の特定にフィールド全体を撮影範囲に収めたカメラ１１１ｋ～１１１ｌのカメラパラメータを用いたが、これに限定されない。例えば、選手等にＧＰＳ機能を搭載した機器を携帯させるなど、距離推定以外の方法でオブジェクトの位置を特定してもよい。

以上のとおり本実施形態に拠れば、オブジェクトがその被写界深度に収まっているカメラの撮影画像だけを三次元モデルの生成や色付けに使用することが可能となり、より高画質な仮想視点画像を生成することができる。

（その他の実施例）
本開示は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１１６サーバ
５０１データ取得部
５０２三次元モデル生成部
５０５被写界深度判定部
５０６仮想視点画像生成部

Claims

視点の異なる複数の撮影装置による撮影により取得された複数の画像と、当該複数の撮影装置の位置及び姿勢を特定するためのパラメータを取得する取得手段と、
前記複数の撮影装置の被写界深度内に特定オブジェクトが存在するか否かを前記パラメータに基づいて判定する判定手段と、
前記複数の撮影装置のうち、前記判定手段によって被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置の画像に基づいて、前記特定オブジェクトの三次元形状を表す形状データに関する処理を行う処理手段と、
を有することを特徴とする情報処理装置。
前記処理手段は、前記判定手段によって被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置の画像に基づいて、前記特定オブジェクトの三次元形状を表す形状データを生成する、ことを特徴とする請求項１に記載の情報処理装置。
前記処理手段は、前記判定手段によって被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置の画像に基づいて、前記特定オブジェクトの三次元形状を表す形状データに対する色情報を決定する、ことを特徴とする請求項１又は２に記載の情報処理装置。
前記特定オブジェクトから前記複数の撮影装置それぞれまでの距離を推定する推定手段をさらに有し、
前記判定手段は、前記複数の撮影装置それぞれの被写界深度内に前記特定オブジェクトが存在するか否かを、前記パラメータと前記推定手段による推定の結果に基づいて判定する、
ことを特徴とする請求項１乃至３のいずれか一項に記載の情報処理装置。
前記複数の撮影装置は、第１の撮影装置群と当該第１の撮影装置群よりも前記特定オブジェクトまでの撮影距離が近い第２の撮影装置群とを少なくとも含み、
前記処理手段は、前記特定オブジェクトが、前記第１の撮影装置群に属する撮影装置の被写界深度内に存在し、かつ、前記第２の撮影装置群に属する撮影装置の被写界深度内に存在すると前記判定手段によって判定された場合、前記第２の撮影装置群に属する撮影装置の画像を用いて前記特定オブジェクトの三次元形状を表す形状データを生成する、
ことを特徴とする請求項１乃至４のいずれか一項に記載の情報処理装置。
前記処理手段は、前記判定手段によって前記特定オブジェクトが被写界深度内に存在すると判定された前記第２の撮影装置群に属する撮影装置に関して一定の条件が満たされる場合に、前記第２の撮影装置群に属する撮影装置の画像のみを用いて前記特定オブジェクトの三次元形状を表す形状データを生成する、ことを特徴とする請求項５に記載の情報処理装置。
前記一定の条件は、前記判定手段によって前記特定オブジェクトが被写界深度内に存在すると判定された前記第２の撮影装置群に属する撮影装置の総数が一定数以上であることを特徴とする請求項６に記載の情報処理装置。
前記処理手段は、前記特定オブジェクトが、前記第１の撮影装置群に属する撮影装置の被写界深度内に存在し、かつ、前記第２の撮影装置群に属する撮影装置の被写界深度内に存在すると前記判定手段によって判定された場合、前記第２の撮影装置群に属する撮影装置の画像を前記第１の撮影装置群に属する撮影装置の画像よりも優先的に用いて、前記特定オブジェクトの三次元形状を表す形状データに対する色情報を決定することを特徴とする請求項５乃至７のいずれか一項に記載の情報処理装置。
前記形状データは、前記特定オブジェクトの三次元形状をボクセルで表現したデータであり、
前記判定手段は、被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置から前記形状データに係る前記特定オブジェクトが見えるかどうかをボクセル単位で判定し、
前記処理手段は、前記判定手段によって撮影装置から見えると判定されたボクセルに対して前記色情報を決定する、
ことを特徴とする請求項３に記載の情報処理装置。
視点の異なる複数の撮影装置による撮影により取得された複数の画像と、当該複数の撮影装置の位置及び姿勢を特定するためのパラメータを取得する取得ステップと、
前記複数の撮影装置の被写界深度内に特定オブジェクトが存在するか否かを前記パラメータに基づいて判定する判定ステップと、
前記複数の撮影装置のうち、前記判定ステップにて被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置の画像に基づいて、前記特定オブジェクトの三次元形状を表す形状データに関する処理を行う処理ステップと、
を有することを特徴とする情報処理方法。
コンピュータを、請求項１乃至９のいずれか一項に記載の情報処理装置として機能させるためのプログラム。