JP2023090835A

JP2023090835A - ファイルの生成装置およびファイルに基づく映像の生成装置

Info

Publication number: JP2023090835A
Application number: JP2023073248A
Authority: JP
Inventors: 裕尚伊藤; Hironao Ito; 和文小沼; Kazufumi Konuma; 充前田; Mitsuru Maeda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-07-19
Filing date: 2023-04-27
Publication date: 2023-06-29
Also published as: EP3826298A1; US20210134058A1; WO2020017134A1; JP7271099B2; US11715263B2; JP2020014159A; US20230351693A1; EP3826298A4

Abstract

【課題】より多くの装置が仮想視点映像を生成できるようにする。【解決手段】複数視点画像に基づく仮想視点画像の生成に用いる素材データを格納したファイルを生成するファイル生成装置であって、共通フォーマットで定義された各素材データをまとめてファイル化するファイル生成手段と、前記ファイル生成手段により生成された前記ファイルを出力する出力手段と、を備えたことを特徴とする。【選択図】図１

Description

本発明は、仮想視点映像のファイルの生成及びその取扱いに関する。

複数のカメラを用いてオブジェクトを多方向から撮像して得られた複数視点映像から、ユーザが指定した任意の仮想視点から見た映像を再現する技術として、仮想視点映像生成技術がある。仮想視点映像の生成には、複数視点映像、前景画像、前景シルエット画像、前景３Ｄモデル、カメラパラメータ、背景画像、背景３Ｄモデルといった様々な映像素材が用いられる。これら映像素材は生成後にデータベースに蓄積され、ユーザが指定した仮想視点に基づいてデータベースから適切な素材データを取得して、仮想視点映像が生成される（特許文献１を参照）。

特開２０１７－２１１８２８号公報

しかしながら、データベースに格納される素材データのフォーマットを解釈できない装置は、当該素材データに基づく仮想視点映像を再生することが困難である。

例えば、データベースに格納される素材データのフォーマットが各素材を生成する装置毎にオリジナルのものが定義され、その取得方法も素材によって異なっていた場合、世の中に広く普及した端末（例えばスマートフォンなど）が仮想視点映像を生成することが困難であった。

本発明は、上記の課題に鑑みてなされたものであり、より多くの装置が仮想視点映像を生成できるようにすることを目的とする。

本発明に係るファイル生成装置は、複数の視点で撮影された画像に基づく仮想視点映像の生成に用いる素材データを取得する取得手段と、前記取得手段により取得された素材データと前記素材データの種別を示す種別情報とを格納したファイルを生成するファイル生成手段と、前記ファイル生成手段により生成された前記ファイルを出力する出力手段とを備えたことを特徴とする。

本発明によれば、より多くの装置が仮想視点映像を生成できるようになる。

実施形態１に係る、ファイル生成装置の機能ブロック図実施形態１に係る、Ｖｖｖｍファイル生成処理の流れを示すフローチャート（ａ）はＶｖｖｍファイルのデータ構造の一例を示す図、（ｂ）は格納データ情報のビットアサインの一例を示す図（ａ）は各カメラの撮影画像のメタデータの一例を示す図、（ｂ）はカメラパラメータのメタデータの一例、（ｃ）はそのビットアサインを示す図、（ｄ）は背景３Ｄモデルのメタデータの一例、（ｅ）はそのビットアサインを示す図（ａ）及び（ｂ）は、ボックスの構造の一例を示す図Ｖｖｖｍファイルの一例を示す図（ａ）はｃｉｍｇボックスの一例、（ｂ）はそのシンタックスを示す図（ａ）はｃａｍｐボックスの一例、（ｂ）はそのシンタックスを示す図（ａ）はｆｉｍｇボックスの一例、（ｂ）はそのシンタックスを示す図（ａ）はｂｉｍｇボックスの一例、（ｂ）はそのシンタックスを示す図（ａ）はｆｍｄｌボックスの一例、（ｂ）はそのシンタックスを示す図（ａ）はｂｍｄｌボックスの一例、（ｂ）はそのシンタックスを示す図（ａ）は実施形態１に係る仮想視点映像生成装置の機能ブロック図、（ｂ）は映像化部の内部構成を示すブロック図実施形態１に係る、Ｖｖｖｍファイルから仮想視点映像を生成する処理の流れを示すフローチャートＶｖｖｍファイルのデータ構造のバリエーションを示す図（ａ）、（ｃ）、（ｅ）はメタデータの一例を示す図であり、（ｂ）、（ｄ）、（ｆ）はそれらのビットアサインを示す図Ｖｖｖｍファイルのデータ構造のバリエーションを示す図Ｖｖｖｍファイルのデータ構造のバリエーションを示す図実施形態２に係る、ファイル生成装置の機能ブロック図（ａ）は実施形態２に係る仮想視点映像生成装置の機能ブロック図、（ｂ）は映像化部の内部構成を示すブロック図、（ｃ）は前景色づけ部の内部構成を示すブロック図

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。

実施形態１

本実施形態の仮想視点映像生成システムは、仮想視点映像の素材データを包含したファイルを生成するファイル生成装置と、当該ファイルを用いて仮想視点映像を生成する仮想視点映像生成装置とで構成される。本明細書においては、仮想視点映像（Virtual viewpoint video）の素材（material）データを包含するファイルを、「Ｖｖｖｍファイル」と呼ぶこととする。なお、仮想視点映像とは、エンドユーザ及び／又は選任のオペレータ等が自由に仮想カメラの位置及び姿勢を操作することによって生成される映像であり、自由視点映像や任意視点映像などとも呼ばれる。また、仮想視点映像は、動画であっても、静止画であっても良い。以下では、仮想視点映像が動画である場合の例を中心に説明する。

ファイル生成装置は、複数視点映像やカメラパラメータといった仮想視点映像の生成に必要な素材データを格納したＶｖｖｍファイルを生成する。この際、Ｖｖｖｍファイルには、格納されている素材データを特定する情報である格納データ情報が付加される。仮想視点映像生成装置は、Ｖｖｖｍファイルに含まれる格納データ情報に基づき、自装置において仮想視点映像の生成が可能と分かれば、Ｖｖｖｍファイル内の素材データを用いて仮想視点映像を生成する。

（ファイル生成装置）
図１は、本実施形態に係るファイル生成装置１０の機能ブロック図である。ファイル生成装置１０は、データ入力部１１、カメラパラメータ生成部１２、ファイル生成部１３、ファイル出力部１４で構成される。なお、ファイル生成装置１０は、ＣＰＵ、ＲＡＭ、ＲＯＭ、ＨＤＤといった、演算やデータ記憶のためのハードウェアを備えた情報処理装置であり、例えばＰＣなどである。図１に示す各部の機能は、ＣＰＵが、所定のプログラムをＲＯＭ又はＨＤＤから読み込んでＲＡＭに展開し、これをＣＰＵが実行するなどして実現される。以下、図１に示す各部の役割について説明する。

データ入力部１１は、Ｖｖｖｍファイルに格納される各種の素材データ或いはその元になるデータの入力を、外部インタフェース（不図示）を介して受け付ける。本実施形態の場合、撮影シーンに設置された複数のカメラに関するカメラ情報、当該複数のカメラで撮影された複数視点映像、スタジアム等の施設（背景オブジェクト）の３次元形状を表す背景３Ｄモデルのデータが、外部装置から入力される。例えば、カメラ情報は各カメラのキャリブレーションを行うＰＣから、複数視点映像データは複数のカメラから、背景３Ｄモデルのデータはこれを生成するＰＣからそれぞれ入力される。カメラ情報には、各カメラの位置、姿勢（視線方向）、画角といった情報が含まれる。撮影途中でカメラの台数や各カメラの位置、姿勢、画角が変わった場合には、カメラ情報が再取得される。また、複数視点映像を構成するカメラ毎の撮影画像は、各カメラに付加されたカメラＩＤと関連づけられ、どのカメラで撮影した画像かを判別できるようになっている。入力されたカメラ情報はカメラパラメータ生成部１２へ送られ、複数視点映像及び背景３Ｄモデルの各データは、ファイル生成部１３に送られる。

カメラパラメータ生成部１２は、データ入力部１１から受け取ったカメラ情報に基づき、共通の注視点を向いた複数のカメラからなるカメラ群単位で、カメラパラメータを生成する。このカメラパラメータには、各カメラ群を構成するカメラの台数の情報、各カメラのＩＤ（カメラの識別番号等）と紐付けられた、各カメラの位置、姿勢、画角の情報が少なくとも含まれる。これらに加え、シャッタースピード、絞り値、ＩＳＯ感度、色温度、レンズの焦点距離、撮影ターゲットまでの距離などの情報を含めてもよい。生成されたカメラパラメータは、ファイル生成部１３に送られる。

ファイル生成部１３は、データ入力部１１から受け取った複数視点映像と背景３Ｄモデルのデータ、カメラパラメータ生成部１２から受け取ったカメラパラメータを、共通フォーマットで１つのファイルにまとめる。そして、素材データとして、カメラパラメータ、背景３Ｄモデル、複数視点映像が格納されていることを示す格納データ情報を生成し、当該ファイルに素材データと共に格納して、上述のＶｖｖｍファイルを生成する。なお、撮影途中で１又は複数のカメラの位置、姿勢、画角等が変更された場合には、変更後の内容が時刻情報と共にそのカメラパラメータに付加され、Ｖｖｖｍファイル内に格納されることになる。こうすることで、格納されている複数視点映像を撮影しているカメラの位置、姿勢、画角等が途中で変わっていた場合においても、その事実と内容をＶｖｖｍファイル内のカメラパラメータから把握することが可能となる。また、上記ファイル生成の際には、例えばファイル転送時の容量制限等を考慮して、複数のＶｖｖｍファイルに分割してもよい。このような分割によるファイル生成を行った際には、本来は１つのファイルになるはずだった複数の分割ファイル同士を相互に関連付けるといった処理も併せてなされる。

ファイル出力部１４は、ファイル生成部１３で生成されたＶｖｖｍファイルを、仮想視点映像を生成可能な各種装置に出力する。出力態様としては、例えば、ＰＣへの有線送信、スマートフォンやタブレットといった携帯端末への無線送信、ネットワークを介してのサーバへのアップロード、携帯可能な記憶媒体への格納などが考えられる。

以上が、ファイル生成装置１０の主要機能を担う各部の説明である。

（Ｖｖｖｍファイルの生成）
続いて、ファイル生成装置１０でＶｖｖｍファイルを生成する処理の流れを説明する。図２は、本実施形態に係る、Ｖｖｖｍファイル生成処理の流れを示すフローチャートである。なお、各処理の冒頭における記号「Ｓ」はステップを意味する。

Ｓ２０１では、データ入力部１１が、背景３Ｄモデルのデータ及び撮影を行う各カメラの情報を、外部ＰＣ等から受信する。受信した背景３Ｄモデルのデータはファイル生成部１３に送られ、カメラ情報はカメラパラメータ生成部１２に送られる。続くＳ２０２では、カメラパラメータ生成部１２が、データ入力部１１から受け取ったカメラ情報に基づき、上述のカメラパラメータを生成する。生成したカメラパラメータは、ファイル生成部１３に送られる。

Ｓ２０３では、ファイル生成部１３が、データ入力部１１から受け取った背景３Ｄモデルと、カメラパラメータ生成部１２から受け取ったカメラパラメータを、Ｖｖｖｍファイルに格納する。

Ｓ２０４では、データ入力部１１が、複数視点映像の取得を開始する。例えば、デイジーチェーン方式等で接続された複数のカメラに対し撮影開始信号が送信され、これに応じて各カメラの撮影画像のデータがフレーム単位で順次受信される。撮影開始信号の発信元は、ファイル生成装置１０でもよいし、別の装置でもよい。取得された複数視点映像のデータは、ファイル生成部１３に順次送られる。

Ｓ２０５では、ファイル生成部１３が、データ入力部１１から受け取った複数視点映像のデータをＶｖｖｍファイル内に格納する。格納は例えばフレーム単位で実行され、複数視点映像を構成する各撮影画像がどのカメラで撮影されたのかが識別可能なように格納される。

Ｓ２０６では、データ入力部１１が、複数視点映像の取得が完了したか否かを判定する。例えば、撮影を行っている複数のカメラに対し撮影停止信号が送信され、撮影された全フレーム分のデータの受信が完了していれば、複数視点映像の取得完了と判定してＳ２０７に進む。一方、撮影が継続中で未受信のフレームデータがあれば、Ｓ２０５に戻って複数視点映像の取得とそのＶｖｖｍファイルへの格納を続行する。

Ｓ２０７では、ファイル生成部１３が、Ｖｖｖｍファイルに格納された素材データの中身を示す格納データ情報を生成し、Ｖｖｖｍファイルに付加する。完成したＶｖｖｍファイルは、ファイル出力部１４に送られる。

そして、Ｓ２０８では、ファイル出力部１４が、ユーザ等が指定する出力先としての仮想視点映像生成装置２０に、Ｖｖｖｍファイルを出力する。

以上が、ファイル生成装置１０における、Ｖｖｖｍファイル生成処理の流れである。なお、図２のフローでは、ファイル生成部１３が全フレームデータの取得処理が終了した後に１つのＶｖｖｍファイルにまとめているが、これに限定されない。例えば、フレーム単位で生成したファイルを順次出力し、出力先の外部装置で１つのファイルにまとめても構わない。

（Ｖｖｖｍファイルのデータ構造）
図３（ａ）は、本実施形態に係る、Ｖｖｖｍファイルのデータ構造の一例を示す図である。図３（ａ）に示すＶｖｖｍファイル３００は、データバージョン３０１、格納データ情報３０２、カメラパラメータ３０３、背景３Ｄモデル３０４、フレームデータ３０５から構成される。フレームデータ３０５は、第１フレームから第Ｎフレームまで存在し、１つのフレームデータにはＭ台のカメラによる撮影画像が含まれている。この場合において、Ｎ及びＭは１以上の自然数である。

Ｖｖｖｍファイル３００にどのような素材データが格納されているかは、格納データ情報３０２に示される。図３（ｂ）は格納データ情報３０２のビットアサインの一例を示している。いま、格納データ情報３０２は３２ビットの値を持ち、各ビットは、“１”であればその対象データが格納されていることを示し、“０”であればその対象データが格納されていないことを示す。図３（ａ）で示すＶｖｖｍファイル３００には、各カメラの撮影画像（複数視点映像）、カメラパラメータ、背景３Ｄモデルの３種類の素材データが格納される。この場合、ｂ０、ｂ１、ｂ５の各ビットが“１”、他のビットは“０”となる。ｂ１０～ｂ１３は独自に定義することができる。例えば、データ名称をデプスマップ或いは距離画像とした、前景画像と同じフォーマットで各画素値がカメラから被写体までの距離を表す画像を追加してもよい。また、仮想視点映像の生成を高速化するためのデータや高画質化するためのデータを追加してもよい。

また、格納される素材データそれぞれについても、それがどのようなデータであるかを示す付属情報（メタデータ）が付与される。図４（ａ）は各カメラの撮影画像のメタデータの一例を示している。図４（ｂ）はカメラパラメータのメタデータの一例を示し、同（ｃ）は格納カメラパラメータのビットアサインを示している。図４（ｄ）は背景３Ｄモデルのメタデータの一例を示し、同（ｅ）は格納背景３Ｄモデルのビットアサインを示している。なお、カメラパラメータ３０３の先頭（最初の４byte）には設置カメラの台数を示す情報が含まれ、この台数情報に続いてカメラパラメータに関するメタデータが、カメラの台数分だけ続くことになる。

以上のようにして、仮想視点映像の生成に必要な様々な素材データが共通のフォーマットで定義され、まとめてファイル化される。なお、カメラパラメータ３０３は、１つのＶｖｖｍファイルに対して１つでもよいが、フレーム単位でカメラパラメータを持つようにしてもよい。フレーム単位でカメラパラメータを持つことで、撮影途中でカメラの位置・姿勢が変化するケースや、一部のカメラが故障してカメラ群を構成するカメラ台数が変化するケースにも対応することができる。

（Ｖｖｖｍファイルの具体例）
続いて、ＩＳＯＢＭＦＦ（ISO Base Media File Format ISO/IEC 14496-12 MPEG-4 Part 12）規格に準拠した、本実施形態のＶｖｖｍファイルの具体例を説明する。ＩＳＯＢＭＦＦ規格では、「ボックス」という単位でファイルが構成される。図５（ａ）はボックスの構造を示す図であり、サイズ情報を格納する領域、タイプ情報を格納する領域、及びデータを格納する領域で構成される。また、図５（ｂ）に示すように、ボックスの中にデータとしてさらにボックスを含む構造とすることも可能である。

図６は、ＩＳＯＢＭＦＦに準拠したＶｖｖｍファイルの内部構造の一例を示している。ＩＳＯＢＭＦＦに準拠したＶｖｖｍファイル６００は、ｆｔｙｐ６０１、ｍｏｏｖ６０２、ｃｉｍｇ６０３、ｃａｍｐ６０４、ｆｉｍｇ６０５、ｂｉｍｇ６０６、ｆｍｄｌ６０７、ｂｍｄｌ６０８及びｍｄａｔ６０９の各ボックスで構成されている。以下、各ボックスについて説明する。

ｆｔｙｐボックス（File Type Compatibility Box）６０１は、ファイル内の最初に配置されるボックスである。ｆｔｙｐボックス６０１には、ファイルフォーマットの情報、ボックスのバージョンを示す情報、他のファイルフォーマットとの互換性に関する情報、ファイルを作成したメーカ名称の情報などが記載される。Ｖｖｖｍファイル内に格納される各素材データの種別を示す上述の格納データ情報３０２は、このｆｔｙｐボックス６０１に格納されても良い。また、ｍｏｏｖボックス（Movie Box）６０２は、ファイル内にどんなデータがどのように格納されているかを明らかにするボックスであり、メディアデータを管理するための時間軸やアドレスなどの情報が入る。そして、ｍｄａｔボックス（Media Data Box）６０９には、動画や音声といった、仮想視点映像を生成する際に使用するメディアデータ（素材データ）が入る。ｍｄａｔボックス６０９にどのようにデータを格納したのかをｍｏｏｖボックス６０２に記載しておくことで、これらメディアデータへのアクセスが可能になる。ｆｔｙｐボックス６０１、ｍｏｏｖボックス６０２及びｍｄａｔボックス６０９は、ＩＳＯＢＭＦＦ準拠のファイルにおいて共通で設けられるボックスである。これに対し、ｃａｍｐ６０４、ｆｉｍｇ６０５、ｂｉｍｇ６０６、ｆｍｄｌ６０７及びｂｍｄｌ６０８の各ボックスは、Ｖｖｖｍファイルに特有のボックスである。以下、Ｖｖｖｍファイルに特有のボックスについて具体例を交えて説明する。

ｃｉｍｇボックス（Camera-captured Image Data Box）６０３は、カメラ毎に設定可能で、各カメラの撮影画像のフォーマット情報が入る。図７（ａ）はｃｉｍｇボックス６０３の一例であり、同（ｂ）はそのシンタックスである。

ｃａｍｐボックス（Camera Parameter Data Box）６０４は、カメラ毎に設定可能で、カメラパラメータとしてどのようなデータが格納されているかを示す情報とそれに対応するカメラパラメータの各値が入る。図８（ａ）はｃａｍｐボックス６０４の一例であり、同（ｂ）はそのシンタックスである。

ｆｉｍｇボックス（Foreground Image Data Box）６０５は、前景画像としてどのような画像データが格納されているかを示す情報と各前景画像のフォーマット情報が入る。図９（ａ）はｆｉｍｇボックス６０５の一例であり、同（ｂ）はそのシンタックスである。「前景フォーマット」９０１は、ＲＡＷ、ＬＯＧ、ＲＧＢ、ＹＵＶといった前景画像の保存形式とビット深度を示す。「前景シルエットフォーマット」９０２は、前景シルエット画像のビット深度を示し、例えば、１ビット前景なのか背景なのかを示したり、８ビットで前景シルエットとしての確からしさを表現することができる。「切り出し前景フォーマット」９０３も「前景フォーマット」９０１と同様の情報を示す。

ｂｉｍｇボックス（Background Image Data Box）６０６は、背景画像としてどのような画像データが格納されているかを示す情報と各背景画像のフォーマット情報が入る。図１０（ａ）はｂｉｍｇボックス６０６の一例であり、同（ｂ）はそのシンタックスである。「背景フォーマット」１００１は、上述の「前景フォーマット」９０１と同様、背景画像の保存形式とビット深度の情報を示す。「背景テクスチャフォーマット」１００２は、その保存形式やビット深度の情報に加え、対応する背景３Ｄモデルの頂点座標の数を示す。「切り出し背景フォーマット」１００３は「背景フォーマット」１００１と同様の情報を示す。

ｆｍｄｌボックス（Foreground Model Data Box）６０７は、前景３Ｄモデルとしてどのようなデータが格納されているかを示す情報と各前景３Ｄモデルのフォーマット情報が入る。図１１（ａ）はｆｍｄｌボックス６０７の一例であり、同（ｂ）はそのシンタックスである。「点群フォーマット」１１０１は、各点が何ミリのボクセルの座標を表現するかを示す。「メッシュモデルフォーマット」１１０２は、メッシュの頂点数などを示す。「ビルボードフォーマット」１１０３は、ビルボードを立てる座標の単位を示す。「バウンディングボックスフォーマット」１１０４は、バウンディングボックスが代表頂点２点で示されるのか、代表頂点１点と、幅、奥行き、高さで示されるのか、といった表現形式を示す。

ｂｍｄｌボックス（Background Model Data Box）６０８は、背景３Ｄモデルとしてどのようなデータが格納されているかを示す情報と各背景３Ｄモデルのフォーマット情報が入る。図１２（ａ）はｂｍｄｌボックス６０８の一例であり、同（ｂ）はそのシンタックスである。「点群フォーマット」１２０１や「メッシュモデルフォーマット」１２０２は、上述の前景３Ｄモデルに関する、「点群フォーマット」１１０１や「メッシュモデルフォーマット」１１０２と同様の情報が示される。

本実施形態では、ＩＳＯＢＭＦＦ規格を例に説明したが、Ｖｖｖｍファイルのフォーマットはこれに限定されない。例えば、ＩＳＯＢＭＦＦと互換性のあるＨＥＩＦ（High Efficiency Image File Format）やＭｉＡＦ（Multi-Image Application Format）など他の規格であってもよい。或いは独自のフォーマットや今後新たに登場するフォーマットであっても構わない。また、それぞれのパラメータの値や表現も上述の例に限定されない。また、図６に示すｃｉｍｇ６０３、ｃａｍｐ６０４、ｆｉｍｇ６０５、ｂｉｍｇ６０６、ｆｍｄｌ６０７、ｂｍｄｌ６０８の各ボックスのうち、少なくとも１つがｍｏｏｖボックス６０２に格納されるようにしてもよい。

（仮想視点映像生成装置）
続いて、図３（ａ）で示したデータ構造を持つＶｖｖｍファイル３００を用いて、仮想視点から見た映像を生成する仮想視点映像生成装置について説明する。図１３（ａ）は、本実施形態に係る、仮想視点映像生成装置２０の内部構成を示す機能ブロック図である。仮想視点映像生成装置２０は、ファイル入力部２１、生成可否判定部２２、前景背景分離部２３、仮想視点パス入力部２４、映像化部２５、映像出力部２６で構成される。なお、仮想視点映像生成装置２０は、ＣＰＵ、ＲＡＭ、ＲＯＭ、ＨＤＤといった、演算やデータ記憶のためのハードウェアを備えた情報処理装置であり、例えばＰＣなどである。図１３（ａ）に示す各部の機能は、ＣＰＵが、所定のプログラムをＲＯＭ又はＨＤＤから読み込んでＲＡＭに展開し、これをＣＰＵが実行することで実現される。以下、図１３（ａ）に示す各部の役割について説明する。

ファイル入力部２１は、ファイル生成装置１０で生成されたＶｖｖｍファイル３００の入力を受け付け、各処理に必要なデータを読み出して、各処理に対応した機能ブロックに渡す。例えば、格納データ情報３０２を読み出して、生成可否判定部２２に送る。また、各カメラのカメラパラメータ３０３を読み出して、前景背景分離部２３と映像化部２５に送る。また、背景３Ｄモデル３０４を読み出して、映像化部２５に送る。また、仮想視点入力部２４から受け取った仮想視点パスの情報に基づき、設定された仮想視点に対応する時刻のフレームデータ３０５を読み出し、前景・背景分離部２３に送る。

生成可否判定部２２は、ファイル入力部２１から受け取った格納データ情報３０２を参照して、Ｖｖｖｍファイル３００内の素材データによって仮想視点映像を生成可能であるかを判定する。すなわち、格納データ情報で特定される素材データが、自装置が持つ機能に応じて要求される素材データを満たす場合、仮想視点映像が生成可能であると判定する。仮想視点映像を生成する手法にはいくつかあるが、仮想視点映像生成装置２０は、例えば、前景画像、背景画像、前景３Ｄモデル、背景３Ｄモデルの４つの素材データを用いることによって、モデルベースレンダリングに基づく仮想視点映像を生成できる。ここで、本実施形態のＶｖｖｍファイル３００に格納される素材データは、各カメラで撮影された画像（複数視点映像）、カメラパラメータ、背景３Ｄモデルの３種類であるとする。この例において、仮想視点映像生成装置２０は、各カメラの撮影画像から前景と背景を分離する機能、さらに、前景３Ｄモデルを生成する機能を持っていれば、仮想視点映像を生成できる。生成可否判定部２２は、自装置が採用する仮想視点映像の生成手法を前提として、自装置が有する仮想視点映像生成のための諸機能を踏まえた対応可否の判定基準（必要な素材データを示した判定用テーブル等）を予め作成し保持しておく。そして、当該判定基準に示された素材データがＶｖｖｍファイル３００に含まれるか否かを、格納データ情報３０２を用いて確認することで、仮想視点映像が生成可能かどうかを判定する。以下に、対応可否の判定基準の一例として、バリエーションＡ～Ｃを示す。

格納データ情報３０２を用い上記判定基準に照らして得られた判定結果は、映像出力部２６を介して、仮想視点映像生成装置２０が備える不図示のモニタ等に表示するなどして、ユーザに通知される。

前景背景分離部２３は、各カメラの撮影画像を前景と背景とに分離して前景シルエット画像を生成する。例えば、まず、カメラ毎に複数フレーム分の撮影画像を用いて背景画像を生成する。具体的には、同一カメラで撮影された複数フレーム間の画像比較により、動きのある領域と動きの無い領域とを検出し、動きのない領域を背景画像とする。背景画像を得ると、次に、各カメラの撮影画像と該生成した背景画像との間で対応する画素同士を比較し、画素値の差が所定の閾値以上である画素を前景画素とする。これにより、各カメラの撮影画像と同じ画像サイズであって、画素値が“１”を前景画素、画素値が“０”を背景画素とした前景シルエット画像が得られる。こうして得られた、背景画像と前景シルエット画像は、映像化部２５に送られる。なお、撮影画像を前景と背景とに分離する手法は、上述の例に限定されない。例えば、撮影画像から前景３Ｄモデルを生成する処理の中で、機械学習技術等を用いて前景部分を分離することで、前景シルエット画像を生成してもよい。

仮想視点設定部２４は、不図示のＵＩ等を介したユーザ指定に基づいて、或いは予め決められた仮想視点の設定情報を読み込んで、仮想視点を設定する。動画による仮想視点映像を生成する場合に設定される仮想視点は、その生成対象時間（例えば１０秒間、複数視点映像が６０ｆｐｓで撮影されていれば６００フレーム分）の間で移動するように設定されることが多い。そのようなユーザ指示等に基づき設定された仮想視点の移動経路（以下、「仮想視点パス」と呼ぶ。）の情報は、ファイル入力部２１と映像化部２５に送られる。仮想視点として設定されるパラメータは、例えば仮想カメラの位置、姿勢、画角等であり、さらに焦点位置や絞り値等を含んでもよい。

映像化部２５は、仮想視点設定部２４から受け取った仮想視点パスの情報に基づいて仮想視点映像を生成する。映像化部２５の詳細については後述する。映像化部２５で生成した仮想視点映像のデータは、映像出力部２６に送られる。

映像出力部２６は、映像化部２５から受け取った仮想視点映像のデータを、不図示のモニタに表示したり、或いは外部装置に送信するなどして出力する。

（映像化部の詳細）
図１３（ｂ）は、本実施形態に係る、映像化部２５の詳細を示す機能ブロック図である。本実施形態の映像化部２５は、前景３Ｄモデル生成部２５１、前景色づけ部２５２、背景色づけ部２５３、合成部２５４で構成される。以下、各部について説明する。

前景３Ｄモデル生成部２５１は、前述の前景背景分離部２３で生成された前景シルエット画像とファイル入力部２１から受け取ったカメラパラメータとに基づき、前景３Ｄモデルを生成する。例えば、視体積交差法による前景３Ｄモデルの生成手順は、以下の１）～３）のとおりである。

１）予め設定された前景３Ｄモデルの生成対象空間に一定の大きさをもった直方体（ボクセル）を敷き詰める。生成対象空間は、仮想視点パスに基づき、仮想カメラから見える範囲を算出して決定する。

２）各カメラのカメラパラメータを用いて、各直方体を三次元的にカメラの前景シルエット画像上に射影し、前景画素と重なるか確認する。前景画素と重ならない場合、該直方体は、前景３Ｄモデルを形成する直方体でないと判定する。全カメラのうち１台でも前景３Ｄモデルを形成する直方体でないと判定された場合、該直方体を削除する。

３）上記２）の処理をすべての直方体に対して行い、残った直方体の重心座標の点の集合を前景３Ｄモデルとする。

なお、ここでは視体積交差法を用いた前景３Ｄモデルの生成方法を説明したが、３Ｄモデルの生成方法はこれに限定されない。そして、上述のようにして生成した前景３Ｄモデルは、前景色づけ部２５２に送られる。

前景色づけ部２５２は、前景３Ｄモデル生成部２５１で生成された前景３Ｄモデルに対し、仮想視点設定部２４から受け取った仮想視点パスに基づき色づけ処理を行って、前景色付き画像を生成する。色づけ処理の具体的な手順は、以下の１）～３）のとおりである。

１）前景３Ｄモデルの表面上の各点がどのカメラから見えるかの判定（可視性判定）を行う。この可視性判定では、まず、各点を全カメラの前景シルエット画像に射影する。この際、複数の点が、前景シルエット画像上の同じ画素に射影された場合は、カメラからみて最も距離が短い位置にある点が見える点、その他の点は見えない点と判定する。この処理を前景３Ｄモデルの表面上の全点に対して行って、各点に色づけするためのカメラを特定する。

２）仮想視点パスに基づいて、前景３Ｄモデルを仮想視点映像となる画像に射影し、各画素に写る点を特定する。

３）画素毎に、上記１）の可視性判定で射影された点が見えると判定されたカメラの撮影画像を用いて、当該点が射影された画素の色を決定する。この際、複数のカメラから見える点の場合は、仮想視点の向きと各カメラの向きを比較し、より角度の小さい２つのカメラの撮影画像を適宜重み付けるなどして、色を決定すればよい。

上述のようにして生成した前景色付き画像のデータは、合成部２５４に送られる。

背景色づけ部２５３は、各カメラの撮影画像から抽出された背景画像を用いて、背景３Ｄモデルに貼り付ける背景テクスチャを生成する。具体的には、以下の１）～５）の手順で、背景テクスチャが生成される。

１）背景３Ｄモデルにおいて代表点となる頂点を設定する。

２）上記１）で設定された頂点を、仮想視点に近い２台のカメラ（カメラ１、カメラ２とする）のカメラパラメータを用いて、仮想視点映像となる画像上に射影する。

３）仮想視点とカメラ１の対応点、仮想視点とカメラ２の対応点を用いて、仮想視点とカメラ１間の射影行列１、及び、仮想視点とカメラ２間の射影行列２を算出する。

４）仮想視点映像となる画像における各画素の座標を、射影行列１と射影行列２を用いて、カメラ１の背景画像とカメラ２の背景画像にそれぞれ射影し、当該座標が射影された位置の画素値をそれぞれ取得する。

５）得られた２つの画素値の平均値を、仮想視点映像となる画像における背景領域の画素値とする。

さらに、背景色づけ部２５３は、生成した背景テクスチャを、Ｖｖｖｍファイル内に格納されていた背景３Ｄモデルに対し貼り付け、仮想視点から見たときの背景画像（仮想背景画像）を生成する。上述のようにして生成した仮想背景画像のデータは、合成部２５４に送られる。

合成部２５４は、前景色づけ部２５２から受け取った前景色付き画像と、背景色づけ部２５３から受け取った仮想背景画像とを合成し、仮想視点からの見えを表す画像を生成する。具体的には、前景色付き画像の各画素に対し、仮想背景画像における対応する画素の画素値を上書きする処理を行なう。

図１４は、本実施形態に係るＶｖｖｍファイル３００から、仮想視点映像生成装置２０が仮想視点映像を生成し出力するまでの処理の流れを示すフローチャートである。なお、各処理の冒頭における記号「Ｓ」はステップを意味する。以下、図１４のフローに沿って説明する。

Ｓ１４０１では、ファイル入力部２１が、Ｖｖｖｍファイル３００から格納データ情報３０２を読み出し、生成可否判定部２２に出力する。続くＳ１４０２では、生成可否判定部２２が、予め用意された生成可否判定基準の情報を読み出し、格納データ情報３０２を参照して、Ｖｖｖｍファイル３００内に格納された素材データを用いて仮想視点映像を生成可能であるかを判定する。判定の結果、仮想視点映像を生成可能な場合は、Ｓ１４０３に進む。この際、映像出力部２６が、仮想視点映像を生成可能であることを示すメッセージを不図示のモニタに表示するなどの通知を行ってもよい。一方、仮想視点映像を生成不可能な場合は、Ｓ１４０９に進む。

Ｓ１４０３では、ファイル入力部２１が、Ｖｖｖｍファイル３００からカメラパラメータ３０３と背景３Ｄモデル３０４を読み出し、カメラパラメータ３０３を前景背景分離部２３に、背景３Ｄモデル３０４を映像化部２５にそれぞれ出力する。続くＳ１４０４では、仮想視点設定部２４は、ユーザ指定等に基づき仮想視点パスを設定し、その情報をファイル入力部２１と映像化部２５に出力する。

Ｓ１４０５では、ファイル入力部２１が、入力された仮想視点パスに対応するフレームデータ３０５をＶｖｖｍファイル３００から読み出し、前景背景分離部２３に出力する。以降のＳ１４０６及びＳ１４０７は、フレーム単位で実行される。

Ｓ１４０６では、前景背景分離部２３が、各カメラの撮影画像に対して前景背景分離処理を行って、前景シルエット画像と背景画像を生成し、映像化部２５に出力する。続くＳ１４０７では、映像化部２５が、入力された仮想視点パス、前景シルエット画像及び背景画像に基づき仮想視点映像を生成する。

Ｓ１４０８では、映像出力部２６が、Ｓ１４０８で生成された仮想視点映像のデータを出力する。また、Ｓ１４０９では、映像出力部２６が、仮想視点映像を出力できない旨のメッセージを不図示のモニタに表示するなどの通知を行う。

以上が、Ｖｖｖｍファイル３００から仮想視点映像を生成し出力するまでの処理の流れである。

＜Ｖｖｖｍファイルのバリエーション＞
共通のフォーマットで素材データをファイル化したＶｖｖｍファイルのデータ構造は、前述の図３（ａ）に示す例に限定されない。以下に、Ｖｖｖｍファイルのデータ構造のバリエーションを示す。

図１５に示すＶｖｖｍファイル１５００は、データバージョン１５０１、格納データ情報１５０２、カメラパラメータ１５０３、背景３Ｄモデル１５０４、フレームデータ１５０５から構成される。そして、フレームデータ１５０５は、第１フレームから第Ｎフレームまで存在し、１つのフレームデータには、前景画像群、前景３Ｄモデル群、背景画像群が含まれている。そして、前景画像群には、Ｍ台のカメラに対応した前景画像と前景シルエット画像が含まれる。また、前景３Ｄモデル群には、Ｏ個の前景３Ｄモデルが含まれる。また、背景画像群には、Ｐ個の背景画像が含まれる。この場合において、Ｎ、Ｍ、Ｏ及びＰは、いずれも１以上の自然数である。Ｖｖｖｍファイル１５００にどのような素材データが格納されているかは、格納データ情報１５０２によって示される。そして、図１６（ａ）は前景画像に関するメタデータの一例を示し、同（ｂ）はそのビットアサインを示している。ここで、前景切り出し画像は、カメラの撮影画像から前景領域を切り出した画像を意味し、前景画像をメインプロファイルとするときの拡張プロファイルに相当する。Ｖｖｖｍファイルに格納されているのが前景切り出し画像のみで前景画像自体は格納されていない場合、仮想視点映像生成装置側が前景切り出し画像に対応していないと仮想視点映像を生成できないということになる。例えば、あるバージョンのメインプロファイルには対応可能であるが、拡張プロファイルには対応できないという装置の場合、前景画像に関するメタデータを確認することで、自装置では仮想視点映像の生成ができないと判断することができる。このように、素材データに付与されるメタデータによって、仮想視点映像の生成可否をさらに詳細に判断することが可能になる。また、図１６（ｃ）は背景画像に関するメタデータの一例を示し、同（ｄ）は格納背景画像のビットアサインを示している。そして、図１６（ｅ）は前景３Ｄモデルのメタデータの一例を示し、同（ｆ）は格納前景３Ｄモデルのビットアサインを示している。前景３Ｄモデルや背景３Ｄモデルには、点の集合で構成される点群モデルや、多角形の面を集めて構成されるメッシュモデルなど、いくつか種類がある。仮想視点映像を生成する装置は、Ｖｖｖｍファイルに格納されている前景／背景の３Ｄモデルの種類が、自装置で対応可能な種類であるかを、これらメタデータを参照して判断することができる。図１５に示すデータ構造を持つＶｖｖｍファイル１５００を生成し、それを用いて仮想視点映像を生成する態様については、次の実施形態２おいて説明することとする。

図１７に示すＶｖｖｍファイル１７００は、データバージョン１７０１、格納データ情報１７０２、背景３Ｄモデル１７０３、フレームデータ１７０４から構成される。そして、フレームデータ１７０４は、第１フレームから第Ｎフレームまで存在し、１つのフレームデータには、前景画像群、前景３Ｄモデル群、可視性情報、背景テクスチャ群が含まれている。ここで、可視性情報は、前述の可視性判定の結果に相当する情報である。前景画像群には、Ｍ台のカメラに対応した前景画像が含まれる。また、前景３Ｄモデル群には、Ｏ個の前景３Ｄモデルが含まれる。また、可視性情報には、Ｑ個の可視性情報が含まれる。また、背景テクスチャ群には、背景３Ｄモデルに貼り付けるＲ個の背景テクスチャが含まれる。ここでのＱ及びＲも１以上の自然数である。また、Ｒ個の背景テクスチャは背景画像を合成して生成するため、Ｒ≦Ｐとなる。そして、Ｖｖｖｍファイル１７００にどのような素材データが格納されているかは、格納データ情報１７０２によって示される。メタデータとビットアサインについては省略する。図１７に示すＶｖｖｍファイル１７００の場合、前景３Ｄモデルに加えて、可視性情報と背景テクスチャのデータも含まれている。したがって、前景色づけ部２５２における可視性判定や、背景色づけ部２５３における背景テクスチャの生成を省くことができ、仮想視点映像装置側の負荷を軽くすることができる。

図１８に示すＶｖｖｍファイル１８００は、データバージョン１８０１、格納データ情報１８０２、背景３Ｄモデル１８０３、フレームデータ１８０４から構成される。そして、フレームデータ１８０４は、第１フレームから第Ｎフレームまで存在し、１つのフレームデータには、テクスチャ付き前景３Ｄモデル群と背景テクスチャ群とが含まれている。ここで、テクスチャ付き前景３Ｄモデルは、前述の前景色づけ処理が施された前景３Ｄモデルを意味する。テクスチャ付き前景３Ｄモデル群には、Ｏ個のテクスチャ付き前景３Ｄモデルが含まれる。また、背景テクスチャ群には、Ｒ個の背景テクスチャが含まれる。そして、Ｖｖｖｍファイル１８００にどのような素材データが格納されているかは、格納データ情報１８０２によって示される。メタデータとビットアサインについては省略する。図１８に示すＶｖｖｍファイル１８００の場合、既に色づけ処理が済んだ前景３Ｄモデルが含まれていることから、図１７のＶｖｖｍファイル１７００よりも仮想視点映像装置側の負荷をさらに軽くすることができる。

なお、図３（ａ）、図１５、図１７におけるフレームデータを構成する画像データ（各カメラの撮影画像、前景画像、背景画像）は、カメラに付された通し番号順に格納されるのが通常であるが、これに限定されない。例えば各素材データのヘッダにカメラ番号を付与した上で、順不同で格納してもよい。また、本実施形態では、各カメラの撮影画像や前景画像などのデータを、フレーム単位で読み出し可能なように格納しているが、カメラ単位で読み出し可能なように格納してもよい。

また、図３（ａ）、図１５、図１７、図１８で例示したデータ構造においては、どのＶｖｖｍファイルにも背景３Ｄモデルが含まれているが必須ではない。例えば、○○スタジアムでのサッカーの試合といったように、撮影シーンが同一施設で行われる同種イベントである場合は、背景３Ｄモデルは、予め用意したものを共通で繰り返し使用可能である。受信したＶｖｖｍファイルに背景３Ｄモデルが含まれていなくても、仮想視点映像生成装置がその撮影シーンに対応する背景３Ｄモデルのデータを他の情報処理装置から取得するなどして、仮想視点映像を生成してもよい。この際、対応可否の判定基準がそれに応じたものになることは言うまでもない。

以上のとおり本実施形態によれば、仮想視点映像を生成するために必要な素材データが共通のフォーマットでまとめてファイル化される。これにより、共通フォーマットのＶｖｖｍファイルに対応した端末やアプリケーションであれば容易に仮想視点映像を生成できるようになり、仮想視点映像の利用環境が拡がる。

実施形態２

次に、前述の図１５に示すデータ構造を持つＶｖｖｍファイル１５００を生成し、それを用いて仮想視点映像を生成する態様を、実施形態２として説明する。なお、実施形態１と共通する内容については説明を省略ないしは簡略化することとし、以下では差異点を中心に説明を行うものとする。

前述のとおり、図１５に示すＶｖｖｍファイル１５００は、データバージョン１５０１、格納データ情報１５０２、カメラパラメータ１５０３、背景３Ｄモデル１５０４、フレームデータ１５０５から構成される。このため、本実施形態に係るファイル生成装置は、前景背景分離を実施し、前景３Ｄモデルの生成を行って、前景画像、前景シルエット画像、前景３Ｄモデル、背景画像の各データをフレーム単位で格納する。そして、Ｖｖｖｍファイル１５００には、これらの素材データが格納されていることを示す格納データ情報１５０２が付加される。また、本実施形態に係る仮想視点映像生成装置は、格納データ情報１５０２を参照して生成可否の判定を行って仮想視点映像の生成が可能であれば、当該ファイル内の前景画像、背景画像、前景３Ｄモデルの各素材データを用いて仮想視点映像を生成する。

（ファイル生成装置）
図１９は、実施形態１の図１に対応する図であり、本実施形態に係るファイル生成装置１０’の機能ブロック図である。ファイル生成装置１０’は、データ入力部１１’、カメラパラメータ生成部１２’、ファイル生成部１３’、ファイル出力部１４に加え、前景背景分離部１９０１と前景３Ｄモデル生成部１９０２を有する。以下、図１９に示す各部の役割について説明する。

データ入力部１１’は、その機能は、実施形態１のデータ入力部１１と同じであるが、入力されたデータの出力先が異なる。すなわち、カメラ情報、複数視点映像、背景３Ｄモデルの入力を受け付けると、カメラ情報はカメラパラメータ生成部１２’に、背景３Ｄモデルはファイル生成部１３’に、複数視点映像のデータは前景背景分離部１９０１にそれぞれ送られる。

カメラパラメータ生成部１２’も、その機能は実施形態１のカメラパラメータ生成部１２と同じであるが、生成したカメラパラメータの出力先が異なる。本実施形態の場合、生成されたカメラパラメータは、前景背景分離部１９０１、前景３Ｄモデル生成部１９０２及びファイル生成部１３’に送られる。

前景背景分離部１９０１は、実施形態１の仮想視点映像生成装置２０における前景背景分離部２３と同様、各カメラの撮影画像を前景と背景とに分離する処理を行い、前景画像、前景シルエット画像、背景画像を生成する。そして、得られた前景シルエット画像を前景３Ｄモデル生成部１９０２に、前景画像と背景画像をファイル生成部１３’にそれぞれ送る。

前景３Ｄモデル生成部１９０２は、実施形態１の仮想視点映像生成装置２０の映像化部２５における前景３Ｄモデル生成部２５１と同様、前景シルエット画像と仮想視点パスとに基づき前景３Ｄモデルを生成する。そして、得られた前景３Ｄモデルを、ファイル生成部１３’に送る。

ファイル生成部１３’は、データ入力部１１’から背景３Ｄモデル、前景背景分離部１９０１から前景画像、前景シルエット画像及び背景画像、前景３Ｄモデル生成部１９０２から前景３Ｄモデル、カメラパラメータ生成部１２’からカメラパラメータを取得する。そして、取得したこれらデータを共通フォーマットでファイル化する。この際、前景画像、前景シルエット画像、前景３Ｄモデル及び背景画像は、フレーム単位で格納される。さらに、前景画像と前景シルエット画像はカメラ単位でも識別可能となるように、前景３Ｄモデルはモデル単位でも識別可能となるように、それぞれ格納される。さらに、素材データとしてこれらが格納されていることを示す格納データ情報１５０２を付加して、図１５に示すＶｖｖｍファイル１５００を生成する。

（仮想視点映像生成装置）
図２０（ａ）及び（ｂ）は、実施形態１の図１３（ａ）及び（ｂ）に対応する図であり、本実施形態に係る仮想視点映像生成装置２０’と映像化部２５’の内部構成をそれぞれ示している。図２０（ａ）には前景背景分離部２３に対応する処理ブロックが存在せず、図２０（ｂ）には前景３Ｄモデル生成部２５１に対応する処理ブロックが存在しない。以下、図２０（ａ）及び（ｂ）に示す各部の機能について説明する。

ファイル入力部２１’は、ファイル生成装置１０’で生成されたＶｖｖｍファイルの入力を受け付け、各処理に必要なデータを読み出して、各処理に対応したブロックに渡す。図１５に示すＶｖｖｍファイル１５００が入力された場合は、格納データ情報１５０２を読み出して、それを生成可否判定部２２’に送る。また、カメラパラメータ１５０３と背景３Ｄモデル１５０４を読み出して、映像化部２５’に送る。また、仮想視点設定部２４から受け取った仮想視点パスの情報に基づき、設定された仮想視点パスに対応するフレームデータ１５０５を読み出し、映像化部２５’に送る。

生成可否判定部２２’は、ファイル入力部２１’から受け取った格納データ情報を用いて、入力されたＶｖｖｍファイルに基づき仮想視点映像を生成可能であるかを判定する。前述の通り、本実施形態の仮想視点映像装置２０’は、前景背景分離機能と前景３Ｄモデル生成機能とを有しない。よって、入力されたＶｖｖｍファイルが、図１５（ａ）に示すＶｖｖｍファイル１５００であれば生成可能と判断されるが、例えば図３（ａ）に示すＶｖｖｍファイル３００であれば生成不可能と判断されることになる。

映像化部２５’は、仮想視点設定部２４から受け取った仮想視点パスの情報に基づいて仮想視点映像を生成する。映像化部２５’の詳細については後述する。そして、映像出力部２６が、映像化部２５’にて生成された仮想視点映像のデータを、不図示のモニタに表示したり、或いは外部端末等に送信するなどして出力する。

（映像化部の詳細）
図２０（ｂ）に示す通り、本実施形態の映像化部２５’は、前景色づけ部２５２’、背景色づけ部２５３、合成部２５４とで構成される。背景色づけ部２５３と合成部２５４は、実施形態１と異なるところはない。図２０（ｃ）は、本実施形態に係る前景色づけ部２５２’の内部構成を示すブロック図である。前景色づけ部２５２’は、使用モデル決定部２０００と、複数種類の前景３Ｄモデルに対応した色づけ部、具体的には、メッシュモデル色づけ部２００１、ビルボード色づけ部２００２、点群モデル色づけ部２００３とで構成される。使用モデル決定部２０００によって決定された色づけ部において、前景オブジェクトの３Ｄモデルに色づけがなされ、仮想視点から見た前景色つき画像が生成される。例えば、入力された前景３Ｄモデルのタイプが、ビルボード形式であった場合は、ビルボード色づけ部２００２が、当該前景３Ｄモデルに適用する色づけ部として決定される。ビルボードの場合はそれを立てる座標位置のみが示される（オブジェクトの三次元形状は持たない）ので、指定された座標位置に描画対象のオブジェクトがあるときの仮想視点から見える方向と大きさを計算し、仮想視点から見た前景を生成する。

モデル決定部２０００は、前景３Ｄモデルに付与されたメタデータに基づいて、フレームデータ１５０５に含まれる前景３Ｄモデルの種類を特定し、３つの色づけ部２００１～２００３のうちどれを使用して色づけ処理を行うかを決定する。この際、フレームデータ１５０５内に複数種類の前景３Ｄモデルが格納されていれば、予め定めた優先順（例えば、点群モデル色づけ部２００３、メッシュモデル色づけ部２００１、ビルボード色づけ部２００２の順）に使用する色づけ部を決定する。また、仮想視点の設定時にユーザが仮想視点映像生成モードを指定した場合には、当該指定に係る生成モードの内容に応じて決定するようにしてもよい。例えば、高画質モードが指定された場合は点群モデル色づけ部２００３、通常画質モードが指定された場合はメッシュモデル色づけ部２００１、高速モードが指定された場合はビルボード色づけ部２００２、といった具合である。このように、予め定めた基準によって、前景３Ｄモデルに対する色づけ処理に用いる処理部を決定することにより、目的や用途に応じた適切な前景を生成することができる。

ここで、例えば、前景色づけ部２５２’が点群モデル色づけ部２００３を有しておらず、仮想視点映像生成装置２０’に入力されたＶｖｖｍファイル１５００のフレームデータ１５０５に格納された前景３Ｄモデルが点群モデルのみであったと仮定する。この場合、生成可否判定部２２’は、前景３Ｄモデルに関するメタデータを参照して、フレームデータ１５０５に含まれる前景３Ｄモデルが点群モデルだけであることを特定する。そして、自装置が点群モデルに対応した色づけ部を持たないことにより、仮想視点映像を生成することはできないと判定する。このように、格納データ情報１５０２だけでなく、それぞれの素材データに付与されたメタデータの内容を確認することにより、さらに詳細に仮想視点映像生成可否を判断することが可能となる。

＜変形例＞
なお、映像化部２５’は、設定された仮想視点パスの下で実際に用いる素材データだけをＶｖｖｍファイル１５００から取得することで、より効率的に仮想視点映像を生成するようにしてもよい。すなわち、ファイル入力部２１’が、仮想視点設定部２４から入力された仮想視点パスの情報に基づいて、仮想視点映像の生成に実際に使用する素材データのみを特定して、映像化部２５’に渡すようにする。この特定の際には、対象となるフレームデータ１５０５に含まれる素材の種類（前景画像、前景３Ｄモデル、背景画像）を指定した上で、さらにカメラＩＤやモデルＩＤといったさらに細かな指定が含まれるようにする。以下に、設定された仮想視点に対応する素材データをどのように特定するのかについて説明する。

まず、前景画像と背景画像については、設定された仮想視点位置と近い視点位置のカメラで撮影された前景画像或いは背景画像を、Ｖｖｖｍファイル内のカメラパラメータに基づいて特定する。この際、選択する前景画像が少ないと、障害物に隠れるオクルージョンにより、色づけができない場合もある。また、選択する背景画像が少ないと、仮想視点に映る背景がすべて色づけできない可能性がある。そのため、複数台（例えば、視点位置が近いカメラから順に６台分）のカメラの撮影画像における前景画像や背景画像を選択するようにする。この際、台数を多くしたり、高さの異なるカメラを混ぜたりすることで、オクルージョンの影響を受けづらくしたり、背景が色づけできない可能性を低減したりすることができる。

次に、前景３Ｄモデルについては、Ｖｖｖｍファイルに含まれる前景３Ｄモデルのバウンディングボックス情報に基づいて特定する。バウンディングボックス情報は、前景３Ｄモデルを直方体で囲ったときの、当該直方体の３次元座標を示す情報である。このバウンディングボックス情報を用いて、各前景３Ｄモデルが、設定された仮想視点から見えるか否かを判定する。具体的には、バウンディングボックスを表す直方体の各頂点を、仮想視点映像となる２次元画像に向けて射影したときに、各頂点に対応する点が当該画像上に存在するか否かを確認する。こうして、設定された仮想視点から見える前景３Ｄモデルが特定される。

なお、設定された仮想視点パスの下で実際に使用する素材データだけを取得して効率的に仮想視点映像を生成する上述の内容は、図１５に示すデータ構造のＶｖｖｍファイルに限定されるものではない。他のあらゆるデータ構造のＶｖｖｍファイルに対しても適用可能である。

以上のとおり本実施形態の場合、ファイル生成装置が、素材データとして、前景画像、背景画像及び前景３Ｄモデルが含まれるＶｖｖｍファイルを生成する。したがって、前景背景分離機能や前景３Ｄモデル生成機能を有していない仮想視点映像生成装置においても、Ｖｖｖｍファイルに対応していれば容易に仮想視点映像を生成することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０ファイル生成装置
１３ファイル化部
１４ファイル出力部
２０仮想視点映像生成装置
２２生成可否判定部
２５映像化部
２６映像出力部

Claims

複数の視点で撮影された画像に基づく仮想視点映像の生成に用いる素材データを取得する取得手段と、
前記取得手段により取得された素材データと前記素材データの種別を示す種別情報とを格納したファイルを生成するファイル生成手段と、
前記ファイル生成手段により生成された前記ファイルを出力する出力手段と
を備えたことを特徴とするファイル生成装置。