JP2019106170A

JP2019106170A - ３次元モデルの生成装置、生成方法及びプログラム

Info

Publication number: JP2019106170A
Application number: JP2018170606A
Authority: JP
Inventors: 圭輔森澤; Keisuke Morisawa; 究小林; Kiwamu Kobayashi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2019-06-27

Abstract

【課題】対象オブジェクトの一部を遮ってしまうような構造物等が撮影シーン内に存在していても、生成される３次元モデルにおいて欠損が生じないようにする。【解決手段】オブジェクトに対応する３次元形状データを生成する生成装置であって、複数の撮影方向からの撮影により得られた複数の撮影画像内の前記オブジェクトの領域、及び、前記複数の撮影方向の少なくとも一つの撮影方向からの撮影時に前記オブジェクトを遮る可能性のある構造物の領域を表す画像データを取得する第１取得手段と、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記オブジェクトの領域に含む画像の数を取得する第２取得手段と、前記第１取得手段により取得された画像データと、前記第２取得手段により取得された画像の数とに基づき、前記オブジェクトに対応する３次元形状データを生成する生成手段と、を有することを特徴とする。【選択図】図４

Description

本発明は、画像内オブジェクトの３次元モデルの生成に関する。

従来、複数台のカメラによって異なる視点から同期撮影された複数視点画像を用いて、オブジェクトの３次元形状を推定する手法として、「視体積交差法（Visual Hull）」と呼ばれる手法が知られている（特許文献１）。図１の（ａ）〜（ｃ）は、視体積交差法の基本原理を示す図である。あるオブジェクトを撮影した画像からは、撮像面に当該オブジェクトの２次元シルエットを表すマスク画像が得られる（図１（ａ））。そして、カメラの投影中心からマスク画像の輪郭上の各点を通すように、３次元空間中に広がる錐体を考える（図１（ｂ））。この錐体のことを該当するカメラによる対象の「視体積」と呼ぶ。さらに、複数の視体積の共通領域、すなわち視体積の交差を求めることによって、オブジェクトの３次元形状（３次元モデル）が求まる（図１（ｃ））。このように視体積交差法による形状推定では、オブジェクトが存在する可能性のある空間中のサンプリング点をマスク画像に射影し、複数の視点で共通して射影した点がマスク画像に含まれるかを検証することにより、オブジェクトの３次元形状を推定する。

特開２０１４−１０８０５号公報

上述の視体積交差法では、マスク画像が対象オブジェクトのシルエットを正しく表現できている必要があり、マスク画像上のシルエットが不正確な場合は生成される３次元形状も不正確なものになってしまう。例えば、対象オブジェクトである人物の一部が、当該人物の手前に存在する構造物等の静止物体によって遮られ、マスク画像が示す人物のシルエットの一部が欠けてしまうと、生成される３次元モデルに欠損が生じてしまう。また、シルエットの一部が欠けたマスク画像については使用しないこととすると、得られる３次元モデルの形状精度が落ちてしまう。特に、構造物によって遮られている部分が相対的に小さい場合は、たとえシルエットの一部が掛けたマスク画像であっても、使用することで高い形状精度の３次元モデルが得られるので極力利用することが望ましい。

本発明は、上記の課題に鑑みてなされたものであり、その目的は、対象オブジェクトの一部を遮ってしまうような構造物等が撮影シーン内に存在していても、生成される３次元モデルにおいて欠損が生じないようにすることである。

本発明に係る、オブジェクトに対応する３次元形状データを生成する生成装置は、複数の撮影方向からの撮影により得られた複数の撮影画像内の前記オブジェクトの領域、及び、前記複数の撮影方向の少なくとも一つの撮影方向からの撮影時に前記オブジェクトを遮る可能性のある構造物の領域を表す画像データを取得する第１取得手段と、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記オブジェクトの領域に含む画像の数を取得する第２取得手段と、前記第１取得手段により取得された画像データと、前記第２取得手段により取得された画像の数とに基づき、前記オブジェクトに対応する３次元形状データを生成する生成手段と、を有することを特徴とする。

本発明によれば、対象オブジェクトの一部を遮ってしまうような構造物等が撮影シーン内に存在していても、欠損のない、もしくは低減させた高品質な３次元モデルの生成が可能となる。

（ａ）〜（ｃ）は、視体積交差法の基本原理を示す図（ａ）は仮想視点画像生成システムの構成を示すブロック図、（ｂ）はカメラアレイを構成する各カメラの配置例を示す図３次元モデル生成装置の内部構成を示す機能ブロック図実施形態１に係る、３次元モデル形成処理の流れを示すフローチャート（ａ）〜（ｈ）は、各カメラで撮影された画像の一例を示す図（ａ）〜（ｈ）は、構造物マスクの一例を示す図（ａ）〜（ｈ）は、前景マスクの一例を示す図（ａ）〜（ｈ）は、統合マスクの一例を示す図統合マスクを元に生成される統合３次元モデルの一例を示す図従来手法による、前景マスクのみを用いて生成した３次元モデルの一例を示す図実施形態２に係る、３次元モデル形成処理の流れを示すフローチャート（ａ）は統合マスクを元に生成した統合３次元モデルを示し、（ｂ）は構造物マスクのみに基づいて生成した構造物の３次元モデルを示し、（ｃ）は（ａ）の統合３次元モデルと（ｂ）の構造物の３次元モデルとの差分により得られた前景のみの３次元モデルを示す図

以下、添付図面を参照して、本発明を実施形態に従って詳細に説明する。なお、以下の実施形態において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。

実施形態１

本実施形態では、撮影シーンにおける前景の２次元シルエットに加え、その少なくとも一部を遮る構造物の２次元シルエットをも含むマスク画像を用いて、前景について欠損のない、もしくは低減させた３次元モデルを生成する態様について説明する。この態様では、前景の一部を遮る構造物等を含んだ３次元モデルが生成される。なお、本明細書において、「前景」とは、時系列で同じアングルから撮影を行った場合において動きのある（その絶対位置が変化し得る）、仮想的な視点から見ることが可能な、撮影画像内に存在する動的オブジェクト（動体）を指す。また、「構造物」とは、時系列で同じアングルから撮影を行った場合において動きのない（その絶対位置が変化しない、即ち静止している）、前景を遮ってしまう可能性のある、撮影画像内に存在する静的オブジェクトを指す。

以下の説明では、サッカーの試合を撮影シーンとして仮想視点画像を生成する場合において、選手やボールといった前景（動的オブジェクト）の一部が、サッカーゴール等の構造物（静的オブジェクト）によって遮られてしまうケースを想定している。なお、仮想視点画像とは、エンドユーザ及び／又は選任のオペレータ等が自由に仮想カメラの位置及び姿勢を操作することによって生成される映像であり、自由視点画像や任意視点画像などとも呼ばれる。また、生成される仮想視点画像やその元になる複数視点画像は、動画であっても、静止画であってもよい。以下に述べる各実施形態では、動画の複数視点画像を用いて動画の仮想視点画像を生成するための３次元モデルを生成する場合を例に説明するものとする。

本実施形態ではサッカーを撮影シーンとし、固定的に設置されたサッカーゴールを構造物として以下説明を行うものとするが、これに限定されない。例えば、さらにコーナーフラッグを構造物として扱ってもよいし、屋内スタジオなどを撮影シーンとする場合には家具や小道具を構造物として扱うこともできる。即ち、静止または静止に近い状態が継続する静止物体であればよい。

（システム構成）
図２（ａ）は、本実施形態に係る、３次元モデル生成装置を含む仮想視点画像生成システムの構成の一例を示すブロック図である。仮想視点画像生成システム１００は、複数のカメラを含むカメラアレイ１１０、制御装置１２０、前景分離装置１３０、３次元モデル生成装置１４０、レンダリング装置１５０で構成される。制御装置１２０、前景分離装置１３０、３次元モデル生成装置１４０及びレンダリング装置１５０は、演算処理を行うＣＰＵ、演算処理の結果やプログラム等を記憶するメモリなどを備えた一般的なコンピュータ（情報処理装置）によって実現される。

図２（ｂ）は、カメラアレイ１１０を構成する全８台のカメラ２１１〜２１８の配置を、フィールド２００を真上から見た俯瞰図において示した図である。各カメラ２１１〜２１８は、地上からある一定の高さにフィールド２００を囲むように設置されており、一方のゴール前を様々な角度から撮影して、視点の異なる複数視点画像データを取得する。芝生のフィールド２００上には、サッカーコート２０１が（実際には白のラインで）描かれており、その左側にサッカーゴール２０２が置かれている。また、サッカーゴール２０２の前の×印２０３は、カメラ２１１〜２１８の共通の視線方向（注視点）を示し、破線の円２０４は注視点２０３を中心としてカメラ２１１〜２１８がそれぞれ撮影可能なエリアを示している。本実施形態では、フィールド２００の1つの角を原点として、長手方向をx軸、短手方向をy軸、高さ方向をz軸とした座標系で表すこととする。カメラアレイ１１０
の各カメラで得られた複数視点画像のデータは、制御装置１２０及び前景分離装置１３０へ送られる。なお、図２（ａ）では、各カメラ２１１〜２１８と、制御装置１２０及び前景分離装置１３０とは、スター型のトポロジーで接続されているがデイジーチェーン接続によるリング型やバス型のトポロジーでもよい。また、図２において、カメラ８台の例を示したが、カメラの数は、８台未満または８台を超えてもよい。

制御装置１２０は、カメラパラメータや構造物マスクを生成し、３次元モデル生成装置１４０に供給する。カメラパラメータは、各カメラの位置や姿勢（視線方向）を表す外部パラメータと、各カメラが備えるレンズの焦点距離や画角（撮影領域）などを表す内部パラメータからなり、キャリブレーションによって得られる。キャリブレーションは、チェッカーボードのような特定パターンを撮影した複数の画像を用いて取得した３次元の世界座標系の点とそれに対応する２次元上の点との対応関係を求める処理である。構造物マスクは、各カメラ２１１〜２１８で取得される各撮影画像中に存在する構造物の２次元シルエットを示すマスク画像である。マスク画像は、撮影画像内の抽出対象の部分がどこであるかを特定する基準画像であり、０と１で表される２値画像である。本実施形態では、サッカーゴール２０２を構造物として扱い、各カメラそれぞれが所定位置から所定アングルで撮影した画像内のサッカーゴール２０２の領域（２次元シルエット）を示すシルエット画像が構造物マスクとなる。なお、構造物マスクの元になる撮影画像は、試合の前後やハーフタイム中など、前景となる選手等が存在していないタイミングで撮影したものを使用すればよい。ただし、例えば屋外では日照変動の影響を受けるなどにより、事前・事後に撮影した画像では不適切な場合がある。このような場合、例えば選手等が写っている動画のうち所定数のフレーム（例えば連続する１０秒分のフレーム）を用いて、そこから選手等を消すことで得てもよい。この場合、各フレームにおける各画素値の中央値を採用した画像に基づいて構造物マスクを得ることができる。

前景分離装置１３０は、入力される複数視点の各撮影画像それぞれに対し、フィールド２００上の選手やボールに対応する前景領域とそれ以外の背景領域を判別する処理を行なう。この前景領域の判別には、予め用意した背景画像（構造物マスクの元になる撮影画像と同じでよい）を用いる。具体的には、各撮影画像について背景画像との差分を求め、当該差分に対応する領域を前景領域として特定する。これにより、撮影画像毎の前景領域を示す前景マスクを生成する。本実施形態においては、撮影画像の中の、選手やボールを表す前景領域に属する画素を“０”、それ以外の背景領域に属する画素を“１”で表す２値画像が、前景マスクとして生成されることになる。

３次元モデル生成装置１４０は、カメラパラメータや複数視点画像に基づいて、オブジェクトの３次元モデルを生成する。３次元モデル生成装置１４０の詳細については後述する。生成した３次元モデルのデータは、レンダリング装置１５０に出力される。

レンダリング装置１５０は、３次元モデル生成装置１４０から受け取った３次元モデル、制御装置１２０から受け取ったカメラパラメータ、前景分離装置１３０から受け取った前景画像、予め用意した背景画像に基づいて、仮想視点画像を生成する。具体的には、カメラパラメータから前景画像と３次元モデルとの位置関係を求め、３次元モデルに対応する前景画像をマッピングして、任意のアングルから注目オブジェクトを見た場合の仮想視点画像が生成される。こうして例えば、選手が得点を決めたゴール前の決定的シーンの仮想視点画像を得ることができる。

なお、図２に示した仮想視点画像生成システムの構成は一例でありこれに限定されない。例えば、１台のコンピュータが複数の装置（例えば前景分離装置１３０と３次元モデル生成装置１４０など）の機能を兼ね備えてもよい。或いは、各カメラのモジュールに前景分離装置１３０の機能を持たせ、各カメラから撮影画像とその前景マスクのデータを供給するように構成してもよい。

（３次元モデル生成装置）
図３は、本実施形態に係る３次元モデル生成装置１４０の内部構成を示す機能ブロック図である。３次元モデル生成装置１４０は、データ受信部３１０、構造物マスク保存部３２０、マスク合成部３３０、座標変換部３４０、３次元モデル形成部３５０、データ出力部３６０で構成される。以下、各部について詳しく説明する。

データ受信部３１０は、カメラアレイ１１０を構成する各カメラのカメラパラメータ及び撮影シーン内に存在する構造物の２次元シルエットを表す構造物マスクを、制御装置１２０から受信する。また、カメラアレイ１１０の各カメラで得られた撮影画像（複数視点画像）及び各撮影画像内に存在する前景の２次元シルエットを表す前景マスクのデータを前景分離装置１３０から受信する。受信したデータのうち、構造物マスクは構造物マスク保存部３２０に、前景マスクはマスク合成部３３０に、複数視点画像は座標変換部３４０に、カメラパラメータは座標変換部３４０と３次元モデル形成部３５０に、それぞれ渡される。

構造物マスク保存部３２０は、構造物マスクをＲＡＭ等に格納・保持し、必要に応じてマスク合成部３３０へ供給する。

マスク合成部３３０は、構造物マスク保存部３２０から構造物マスクを読み出し、これをデータ受信部３１０から受け取った前景マスクと合成して、両者を１つに統合したマスク画像（以下、「統合マスク」と呼ぶ）を生成する。生成した統合マスクは、３次元モデル形成部３５０へ送られる。

座標変換部３４０は、データ受信部３１０から受け取った複数視点画像を、カメラパラメータに基づき、カメラ座標系から世界座標系に変換する。この座標変換により、視点の異なる各撮影画像が、それぞれ３次元空間上のどの領域を示しているのかを表す情報に変換される。

３次元モデル形成部３５０は、世界座標系に変換された複数視点画像、各カメラに対応する統合マスクを用いて、撮影シーン内の構造物を含むオブジェクトの３次元モデルを視体積交差法により生成する。生成したオブジェクトの３次元モデルのデータは、データ出力部３６０を介してレンダリング装置１５０へ出力される。

（３次元モデルの形成処理）
図４は、本実施形態に係る、３次元モデル形成処理の流れを示すフローチャートである。この一連の処理は、３次元モデル生成装置１４０が備えるＣＰＵが、ＲＯＭやＨＤＤ等の記憶媒体にされた所定のプログラムをＲＡＭに展開してこれを実行することで実現される。以下、図４のフローに沿って説明する。

まず、ステップ４０１では、データ受信部３１０が、各カメラ２１１〜２１８から見た場合の構造物（ここでは、サッカーゴール２０２）の２次元シルエットを表す構造物マスクと、各カメラのカメラパラメータを、制御装置１２０から受信する。図５（ａ）〜（ｈ）は、カメラアレイ１１０を構成するカメラ２１１〜２２２でそれぞれ撮影される画像を示している。いま、サッカーコート２０１上に選手（ゴールキーパ）が一人、サッカーゴール２０２の前に存在している。そして、図５（ａ）、（ｂ）、（ｈ）の各撮像画像においては、カメラと選手との間にサッカーゴール２０２が位置するため、選手の一部がサッカーゴール２０２によって隠れてしまっている。図５（ａ）〜（ｈ）の各撮影画像からは、サッカーゴール２０２の領域が１（白）、それ以外の領域が０（黒）の２値で表現された、構造物マスクがそれぞれ得られることになる。図６（ａ）〜（ｈ）は、図５（ａ）〜（ｈ）の各撮影画像に対応する構造物マスクを示している。

次に、ステップ４０２では、データ受信部３１０が、各カメラ２１１〜２１８で撮影された画像における前景（ここでは、選手やボール）の２次元シルエットを示す前景マスクを、その元になった複数視点画像と共に、前景分離装置１３０から受信する。図７（ａ）〜（ｈ）は、図５（ａ）〜（ｈ）の各撮影画像に対応する前景マスクをそれぞれ示している。前景分離装置１３０は、同じアングルから撮影された画像間で時間的に変化のある領域を前景として抽出するため、図７（ａ）、（ｂ）、（ｈ）の各図では、サッカーゴール２０２に隠れている選手の一部の領域は前景領域として抽出されない。受信した前景マスクのデータはマスク合成部３３０に送られる。

次に、ステップ４０３では、マスク合成部３１０が、構造物マスク保存部３２０から構造物マスクのデータを読み出し、読み出した構造物マスクと、データ受信部３１０から受け取った前景マスクとを合成する処理を実行する。この合成は、２値（白黒）で表される前景マスクと構造物マスクの各画素について論理和（ＯＲ）を求める演算処理である。図８（ａ）〜（ｈ）は、図６（ａ）〜（ｈ）に示した各構造物マスクと、図７（ａ）〜（ｈ）で示した各前景マスクとをそれぞれ合成して得られた統合マスクを示している。出来上がった統合マスクにおいては、選手のシルエットに欠損は見られない。

そして、ステップ４０４において、３次元モデル形成部３５０が、ステップ４０３で得た統合マスクを元に視体積交差法を用いて３次元モデルを生成する。これにより、異なる視点から撮影された複数画像間の共通撮影領域に存在する前景と構造物の３次元形状を表すモデル（以下、「統合３次元モデル」と呼ぶ）が生成される。本実施形態の場合であれば、選手やボールに加え、サッカーゴール２０２を含んだ統合３次元モデルが生成されることになる。統合３次元モデルの生成は、具体的には以下のような手順で行う。まず、フィールド２００上の３次元空間を一定の大きさを持つ立方体（ボクセル）で充填したボリュームデータを用意する。ボリュームデータを構成するボクセルの値は０と１で表現され、「１」は形状領域、「０」は非形状領域をそれぞれ示す。次に、各カメラ２１１〜２１８のカメラパラメータ（設置位置や視線方向など）を用いて、ボクセルの３次元座標を世界座標系からカメラ座標系に変換する。そして、統合マスクで示される構造物及び前景がそのカメラ座標系にある場合は、ボクセルによって当該構造物及び前景の３次元形状を表したモデルが生成される。なお、ボクセルそのものではなく、ボクセルの中心を示す点の集合（点群）によって、３次元形状を表現してもよい。図９は、図８で示した統合マスクを元に生成される統合３次元モデルを示しており、符号９０１は前景である選手の３次元形状、符号９０２は構造物であるサッカーゴール２０２の３次元形状に相当する。前述の通り、統合マスクには前景である選手のシルエットに欠損が無いため、出来上がった統合３次元モデルにおいても欠損は生じていない。図１０は、従来手法による、前景マスクのみを用いて生成した３次元モデルを示している。前述の通り、図７の（ａ）、（ｂ）、（ｈ）で示す前景マスクでは、選手の一部が前景領域として表現されていないため、生成される３次元モデルにおいて当該一部が欠損してしまう。本実施形態の手法では、前景マスクと構造物マスクを合成したマスク画像を用いることで、前景の３次元モデルの一部に欠損が生じるのを回避することが可能となる。

以上が、本実施形態に係る、３次元モデル形成処理の内容である。動画の仮想視点画像を生成する場合には、上述の各ステップの処理をフレーム単位で繰り返し行い、フレーム毎の３次元モデルを生成する。ただし、構造物マスクの受信と保存（ステップ４０１）については、フローの開始直後にのみ行えば足り、２フレーム目以降については省略可能である。さらに、同じ撮影場所にて日時を変えて撮影を行うような場合は、構造物マスクの受信・保存を初回だけ行なってＲＡＭ等に保持しておき、次回以降は保持しておいたものを利用してもよい。

以上のとおり本実施形態によれば、前景となるオブジェクトを隠してしまう構造物が存在していても、前景に欠損のない、もしくは低減させた高精度な３次元モデルを生成することができる。

実施形態２

実施形態１では、撮影シーン内に存在する構造物を含む形で、欠損のない、もしくは低減させた前景の３次元モデルを生成した。次に、構造物を取り除いた、欠損のない、もしくは低減させた前景のみの３次元モデルを生成する態様を、実施形態２として説明する。なお、システム構成など実施形態１と共通する内容については説明を省略ないしは簡略化し、以下では差異点を中心に説明するものとする。

本実施形態の３次元モデル生成装置１４０の構成も、実施形態１と基本的には同じであるが（図３を参照）、以下の点で異なっている。

まず、構造部マスク保存部３２０に対する構造物マスクの読み出しが、マスク合成部３３０だけでなく、３次元モデル生成部３５０によってもなされる。図３における破線の矢印はこのことを表している。そして、３次元モデル生成部３５０では、統合マスクを用いた前景＋構造物の統合３次元モデルの生成に加え、構造物マスクを用いた構造物のみの３次元モデルの生成も行う。そして、統合マスクを元に生成した統合３次元モデルと、構造物マスクを元に生成した構造物の３次元モデルとの差分を求めることで、欠損のない、もしくは低減させた前景のみの３次元モデルを抽出する。

（３次元モデルの形成処理）
図１１は、本実施形態に係る、３次元モデル形成処理の流れを示すフローチャートである。この一連の処理は、３次元モデル生成装置１４０が備えるＣＰＵが、ＲＯＭやＨＤＤ等の記憶媒体にされた所定のプログラムをＲＡＭに展開してこれを実行することで実現される。以下、図１１のフローに沿って説明する。

ステップ１１０１〜ステップ１１０４は、実施形態１の図４のフローにおけるステップ４０１〜ステップ４０４にそれぞれ対応し、異なるところはないので説明を省略する。

続くステップ１１０５において、３次元モデル形成部３５０は、構造部マスク保存部３２０から構造物マスクを読み出し、視体積交差法により構造物の３次元モデルを生成する。

次に、ステップ１１０６において、３次元モデル形成部３５０は、ステップ１１０４で生成した前景＋構造物の合成３次元モデルとステップ１１０５で生成した構造物の３次元モデルとの差分を求め、前景のみの３次元モデルを抽出する。ここで、構造物の３次元モデルを３次元空間上で例えば１０％程度膨張させてから統合３次元モデルとの差分を求めてもよい。これにより、統合３次元モデルから構造物に対応する部分を確実に除去することができる。このとき、構造物の３次元モデルの一部のみを膨張させるようにしてもよい。例えば、サッカーゴール２０２の場合であれば、サッカーコート２０１内には選手が存在する可能性が高いため、コート２０１側には膨張させないようにし、コート２０１と反対側のみ膨張させるといった具合に、領域に応じて膨張させる部分を決定してもよい。さらには、選手やボール等の前景となるオブジェクトが構造物からどれだけ離れているかによって膨張させる割合（膨張率）を変化させてもよい。例えば、前景となるオブジェクトが構造物から遠い位置にある場合は、膨張率を大きくすることで、確実に構造物の３次元モデルが除去されるようにする。また、前景となるオブジェクトが構造物に近い位置にあるほど膨張率を小さくすることで、前景の３次元モデルの部分までが誤って除去されないようにする。この際の膨張率は、前景からの距離に応じてリニアに変化させてもよいし、１又は複数の基準となる距離を設けて段階的に決定してもよい。

図１２（ａ）は、前述の図９と同じ、統合マスクを元に生成した統合３次元モデルを示している。図１２（ｂ）は、構造物マスクのみに基づいて生成した構造物の３次元モデルを示している。そして、図１２（ｃ）は、図１２（ａ）の統合３次元モデルと図１２（ｂ）の構造物の３次元モデルとの差分により得られた、前景のみの３次元モデルを示している。

以上が、本実施形態に係る、３次元モデルの形成処理の内容である。なお、動画の仮想視点画像を生成する場合は、上述の各ステップの処理をフレーム単位で繰り返し行い、フレーム毎の３次元モデルを生成する。ただし、構造物マスクの受信と保存（ステップ１１０１）及び構造物の３次元モデルの生成（ステップ１１０５）については、フローの開始直後にのみ行えば足り、２フレーム目以降については省略可能である。さらに、同じ撮影場所にて日時を変えて撮影を行うような場合は、構造物マスクの受信・保存及び構造物の３次元モデル生成を初回だけ行なってＲＡＭ等に保持しておき、次回以降は保持しておいたものを利用してもよい。

（変形例）
なお、本実施形態では、前景＋構造物の統合３次元モデルから、構造物の３次元モデルを差し引くことで、前景のみの３次元モデルを生成したがこれに限定されない。例えば、前景＋構造物の統合３次元モデルを構成するボクセル毎（或いは所定領域毎）にどのマスク画像に含まれるかをカウントし、カウント値が閾値以下の部分を統合３次元モデルから削除することで前景のみの３次元モデルを求めてもよい。この際の閾値は、全カメラ台数より少ない任意の値を、各カメラの設置位置や視線方向などを考慮して設定する。カメラ台数が全８台で図２（ａ）のようなカメラ配置の本実施形態の場合は、閾値として例えば“２”を設定することで、サッカーゴールのみを削除することができる。

以上のとおり本実施形態によれば、前景となるオブジェクトを隠してしまう構造物が存在していても、構造物を含まない高精度な前景のみの３次元モデルを生成することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１４０３次元モデル生成装置
３１０データ受信部
３３０マスク合成部
３５０３次元モデル形成部

Claims

オブジェクトに対応する３次元形状データを生成する生成装置であって、
複数の撮影方向からの撮影により得られた複数の撮影画像内の前記オブジェクトの領域、及び、前記複数の撮影方向の少なくとも一つの撮影方向からの撮影時に前記オブジェクトを遮る可能性のある構造物の領域を表す画像データを取得する第１取得手段と、
前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記オブジェクトの領域に含む画像の数を取得する第２取得手段と、
前記第１取得手段により取得された画像データと、前記第２取得手段により取得された画像の数とに基づき、前記オブジェクトに対応する３次元形状データを生成する生成手段と、
を有することを特徴とする生成装置。
前記オブジェクトに対応する３次元形状データは、前記構造物に対応する３次元形状データを含まない前記オブジェクトに対応する３次元形状データであり、
前記生成手段は、
前記第１取得手段により取得された画像データに基づいて、前記構造物に対応する３次元形状データを含む前記オブジェクトに対応する３次元形状データを生成し、
前記構造物に対応する３次元形状データを含む前記オブジェクトに対応する３次元形状データと、前記第２取得手段により取得された画像の数とに基づいて、前記構造物に対応する３次元形状データを含まない前記オブジェクトに対応する３次元形状データを生成することを特徴とする請求項１に記載の生成装置。
前記構造物に対応する３次元形状データを含む前記オブジェクトに対応する３次元形状データから、前記第２取得手段により取得された画像の数が閾値以下の部分領域に対応するデータを除くことにより、前記構造物に対応する３次元形状データを含まない前記オブジェクトに対応する３次元形状データを生成することを特徴とする請求項２に記載の生成装置。
前記閾値は、前記複数の撮影方向に基づく値であることを特徴とする請求項３に記載の生成装置。
前記閾値は、前記複数の撮影方向からの撮影を行う撮影装置の設置位置に基づく値であることを特徴とする請求項３又は４に記載の生成装置。
前記閾値は、前記複数の撮影方向からの撮影を行う撮影装置の台数より少ない値であることを特徴とする請求項３乃至５の何れか１項に記載の生成装置。
前記画像データは、前記オブジェクトの領域を表す第１画像と前記構造物の領域を表す第２画像とが合成された画像データであり、
前記第２取得手段は、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、前記所定の要素に対応する画素又は領域を前記オブジェクトの領域に含む前記第１画像の数を取得することを特徴とする請求項１乃至６の何れか１項に記載の生成装置。
前記画像データは、前記オブジェクトの領域を表す第１画像の画像データと前記構造物の領域を表す第２画像の画像データを含み、
前記第２取得手段は、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、前記所定の要素に対応する画素又は領域を前記オブジェクトの領域に含む前記第１画像の数を取得することを特徴とする請求項１乃至６の何れか１項に記載の生成装置。
オブジェクトに対応する３次元形状データを生成する生成装置であって、
複数の撮影方向からの撮影により得られた複数の撮影画像内の前記オブジェクトの領域、及び、前記複数の撮影方向の少なくとも一つの撮影方向からの撮影時に前記オブジェクトを遮る可能性のある構造物の領域を表す画像データを取得する第１取得手段と、
前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記構造物の領域に含む画像の数を取得する第２取得手段と、
前記第１取得手段により取得された画像データと、前記第２取得手段により取得された画像の数とに基づき、前記オブジェクトに対応する３次元形状データを生成する生成手段と、
を有することを特徴とする生成装置。
前記画像データは、前記オブジェクトの領域を表す第１画像と前記構造物の領域を表す第２画像とが合成された画像データであり、
前記第２取得手段は、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記構造物の領域に含む前記第２画像の数を取得することを特徴とする請求項９に記載の生成装置。
前記画像データは、前記オブジェクトの領域を表す第１画像の画像データと前記構造物の領域を表す第２画像の画像データを含み、
前記第２取得手段は、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記構造物の領域に含む前記第２画像の数を取得することを特徴とする請求項９に記載の生成装置。
前記オブジェクトは、動体であることを特徴とする請求項１乃至１１の何れか１項に記載の生成装置。
人物とボールのうち少なくとも一方は、前記オブジェクトであることを特徴とする請求項１乃至１２の何れか１項に記載の生成装置。
前記構造物は、静止状態が継続する物体であることを特徴とする請求項１乃至１３の何れか１項に記載の生成装置。
サッカーの試合に用いられるサッカーゴール又はコーナーフラッグの少なくとも一方は、前記構造物であることを特徴とする請求項１乃至１４の何れか１項に記載の生成装置。
前記構造物は、所定の位置に設置された物体であることを特徴とする請求項１乃至１５の何れか１項に記載の生成装置。
前記構造物の少なくとも一部は、オブジェクトである人物が競技を行うフィールド上に設置されていることを特徴とする請求項１乃至１６の何れか１項に記載の生成装置。
前記構造物は、指定された物体であることを特徴とする請求項１乃至１７の何れか１項に記載の生成装置。
前記第１画像と前記第２画像は、前記生成装置が有する受信手段を介して取得されることを特徴とする請求項７、８、１０及び１１の何れか１項に記載の生成装置。
前記要素は、前記３次元空間を構成する点又はボクセルであることを特徴とする請求項１乃至１９の何れか１項に記載の生成装置。
オブジェクトに対応する３次元形状データを生成する生成方法であって、
複数の撮影方向からの撮影により得られた複数の撮影画像内の前記オブジェクトの領域、及び、前記複数の撮影方向の少なくとも一つの撮影方向からの撮影時に前記オブジェクトを遮る可能性のある構造物の領域を表す画像データを取得する第１取得工程と、
前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記オブジェクトの領域に含む画像の数を取得する第２取得工程と、
前記第１取得工程により取得された画像データと、前記第２取得工程により取得された画像の数とに基づき、前記オブジェクトに対応する３次元形状データを生成する生成工程と、
を有することを特徴とする生成方法。
前記オブジェクトに対応する３次元形状データは、前記構造物に対応する３次元形状データを含まない前記オブジェクトに対応する３次元形状データであり、
前記生成工程は、
前記第１取得工程により取得された画像データに基づいて、前記構造物に対応する３次元形状データを含む前記オブジェクトに対応する３次元形状データを生成する第１生成工程と、
前記第１生成工程により生成された前記構造物に対応する３次元形状データを含む前記オブジェクトに対応する３次元形状データと、前記第２取得工程により取得された画像の数とに基づいて、前記構造物に対応する３次元形状データを含まない前記オブジェクトに対応する３次元形状データを生成する前記第２生成工程と、
を有することを特徴とする請求項２１に記載の生成方法。
前記第２生成工程において、前記第１生成工程により生成された前記構造物に対応する３次元形状データを含む前記オブジェクトに対応する３次元形状データから、前記第２取得工程により取得された画像の数が閾値以下の部分領域に対応するデータを除くことにより、前記構造物に対応する３次元形状データを含まない前記オブジェクトに対応する３次元形状データを生成することを特徴とする請求項２２に記載の生成方法。
前記画像データは、前記オブジェクトの領域を表す第１画像と前記構造物の領域を表す第２画像とが合成された画像データであり、
前記第２取得工程において、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記オブジェクトの領域に含む前記第１画像の数を取得することを特徴とする請求項２１乃至２３の何れか１項に記載の生成方法。
前記画像データは、前記オブジェクトの領域を表す第１画像の画像データと前記構造物の領域を表す第２画像の画像データを含み、
前記第２取得工程において、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記オブジェクトの領域に含む前記第１画像の数を取得することを特徴とする請求項２１乃至２３の何れか１項に記載の生成方法。
オブジェクトに対応する３次元形状データを生成する生成方法であって、
複数の撮影方向からの撮影により得られた複数の撮影画像内の前記オブジェクトの領域、及び、前記複数の撮影方向の少なくとも一つの撮影方向からの撮影時に前記オブジェクトを遮る可能性のある構造物の領域を表す画像データを取得する第１取得工程と、
前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記構造物の領域に含む画像の数を取得する第２取得工程と、
前記第１取得工程により取得された画像データと、前記第２取得工程により取得された画像の数とに基づき、前記オブジェクトに対応する３次元形状データを生成する生成工程と、
を有することを特徴とする生成方法。
前記画像データは、前記オブジェクトの領域を表す第１画像と前記構造物の領域を表す第２画像とが合成された画像データであり、
前記第２取得工程において、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記構造物の領域に含む前記第２画像の数を取得することを特徴とする請求項２６に記載の生成方法。
前記画像データは、前記オブジェクトの領域を表す第１画像の画像データと前記構造物の領域を表す第２画像の画像データを含み、
前記第２取得工程において、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記構造物の領域に含む前記第２画像の数を取得することを特徴とする請求項２６に記載の生成方法。
コンピュータを、請求項１乃至２０に記載の生成装置として機能させるためのプログラム。