JP6898264B2

JP6898264B2 - 合成装置、方法及びプログラム

Info

Publication number: JP6898264B2
Application number: JP2018034847A
Authority: JP
Inventors: 敬介野中
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2021-07-07
Anticipated expiration: 2038-02-28
Also published as: JP2019149112A

Description

本発明は、高速な処理が可能であり且つオクルージョン問題に対処できる自由視点画像の合成装置、方法及びプログラムに関する。

従来、スポーツシーンなどを対象として、カメラで撮影されていない自由な視点からの映像（以下、自由視点映像）を生成する技術が提案されている。この技術は複数のカメラで撮影された映像を基に、それらの配置されていない仮想的な視点の映像を合成し、その結果を画面上に表示することでさまざまな視点での映像観賞を可能とするものである。

ここで、自由視点映像合成技術のうち、視体積交差法と呼ばれる原理を利用して、被写体の3DCGモデルを生成することで高品質な自由視点映像を合成する既存技術が存在する。このフルモデル方式では、複数のカメラから得られる被写体の概形情報を3次元空間に逆投影し、それらを膨大な数の点群データに記述し、被写体の概形を精緻に再現するものである（手法によってはマーチングキューブと呼ばれる手法でポリゴンデータ化することもあるが、膨大な点群データを中間的に使用する点は変わらない）。あらかじめ生成された被写体の3DCGモデルを入力として、仮想視点の位置を決めてディスプレイ上にレンダリングすることで、自由視点映像が生成される。

特願2017-167472号

当該フルモデル方式に対して、本出願人は点群データを介さずに仮想的な平面群を用いて視体積交差法を実現する技術を提案している（特許文献１）。この技術では膨大な数のデータへのアクセスが不要となり、また「被写体モデル生成から合成映像表示までを一度に行うこと（中間データを吐き出さず合成すること）が可能である」ため、点群データを介する手法に比べて格段に高速に自由視点映像合成を行えるといったメリットがある。また、当該特許文献では、ユーザの選択した仮想的な視点の座標に応じて、仮想平面群の密度や座標を適応的に変更することで、実際の計算機におけるGPU（Graphics Processing Unit）のもつメモリ領域サイズに適した映像合成となる方法も提案されている。

しかしながら、特許文献１の手法にも改良の余地があった。具体的に、特許文献１では、複数のカメラからみた被写体の深度を明示的に計算していないため、カメラ画像内の被写体の前後関係を考慮することができず、結果として不自然な映像合成となる場合があった。

より具体的には、図１に模式例を示すように、例えばあるカメラCAから見て、xyz座標系で示されている世界座標系においてxy平面上に２つの対象（オブジェクト）（例えば、フィールド上のスポーツ選手といったような２人の人物等が想定されるが、ここでは模式例として２つの「円柱」で例示している）が前後に並んでおり一方（灰色の円柱CLB）がもう一方（白色の円柱CLF）によって遮蔽されているシーンを考える（このような対象同士のカメラ画像内の遮蔽を、以後オクルージョンと呼ぶ）。なお、図示するようにカメラCA（及び仮想視点に対応するカメラCV）から見ると+x方向が手前側、-x方向が後方側となる。この場合、カメラCAで撮影された画像（テクスチャ）PAは、手前側の遮蔽されていない対象（白色の円柱CLF）に貼り付けられる（マッピングされる）べきであり、オクルージョンによって見えない後方の対象（灰色の円柱CLB）にはマッピングされるべきではない。しかしながら、前述の通り特許文献１においては、（計算の高速化を実現するために）被写体の前後関係を計算していないため、オクルージョンの有無にかかわらずカメラ画像をすべての被写体に貼り付けてしまうことから、不自然な合成映像となる場合があった。

すなわち、合成映像を得るために用いる仮想視点が図１にてカメラCV（従って、カメラCVは実写映像を得るためのものではない）のような位置にあったとするとき、仮想視点に対応するカメラCVにおける合成映像は、当該位置に実際のカメラがあったとする場合に得られるべきものとして、画像PVのように後方の対象である灰色の円柱CLBのみが撮影された状態となっており、当該灰色の円柱CLBが白色の円柱CLFで遮蔽された状態ではないことが望まれるものである。しかしながら、当該合成映像を生成するための実写映像としてカメラCAの画像を用いたとすると、画像PAのように手前の白色の円柱CLFによって灰色の円柱CLBに対してオクルージョンが生じた状態（を仮想視点PVから見ていることに相当する状態）の画像PVAが合成され、本来合成されるべき画像PVが合成されないということがあった。

本発明は上記従来技術の課題に鑑み、特許文献１の枠組みに即した高速な処理によりオクルージョン問題にも対処することが可能な合成装置、方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は合成装置であって、多視点画像の各視点画像から撮影されている対象の領域の尤度画像を求める算出部と、前記尤度画像の各々を３次元空間内に配置された複数の逆投影平面へと逆投影した逆投影データを得る逆投影部と、前記逆投影データに対して前記多視点画像の全部又は一部の視点画像のテクスチャを、当該逆投影データを構成する前記複数の逆投影平面へと順番に逆投影して描画して前記対象をレンダリングすることで、前記対象の自由視点画像を合成する描画部と、を備えることを特徴とする。また、当該装置に対応する方法及びプログラムであることを特徴とする。

本発明によれば、多視点画像の全部又は一部の視点画像のテクスチャを逆投影平面へと順番に逆投影して描画することにより、高速な処理によりオクルージョンに対処して自由視点画像を合成することが可能となる。

特許文献１の手法による合成映像に関して、合成の際に用いる映像及び対象の位置関係の態様によっては改良の余地があることの模式例を示す図である。一実施形態に係る合成装置の機能ブロック図である。カメラ校正によってカメラ画像の座標と世界座標系の座標との対応付けが可能となることを示す模式図である。抽出部により適用される背景差分法の模式例を図である。面群設定部及び順設定部でそれぞれ設定する面群及び順番の一実施形態に係る模式例を示す図である。逆投影部の処理を模式的に示す図である。一実施形態に係る描画部、再投影部及び付与部の動作のフローチャートである。再投影部が再投影領域を得る処理の模式例を示す図である描画部による描画の模式例を示す図である。

図２は、一実施形態に係る合成装置の機能ブロック図である。図示する通り、合成装置10は、校正部1、抽出部2、算出部3、面群設定部4、順設定部5、逆投影部6、描画部7、再投影部8及び付与部9を備える。図示する通り、このうち逆投影部6、描画部7、再投影部8及び付与部9はレンダリング部20を構成している。合成装置10はその全体的な動作として、多視点映像としての複数のカメラ映像V_c,t(u,v)を入力として受け取り、当該カメラ映像V_c,t(u,v)に対してユーザ入力等によって指定される仮想視点CV（すなわち、自由視点CV）における合成映像SY_t(u,v)を出力する。

なお、特許文献１に示される構成に対する主要な追加構成（ないし追加処理を行う構成）として、図２の合成装置10は順設定部5、描画部7、再投影部8及び付与部9を備えるものである。当該追加構成の機能部による追加処理と、当該追加処理に連携したその他の各機能部での処理と、のそれぞれが、本発明においてオクルージョンに配慮した合成映像SY_t(u,v)を得ることを可能にするのに寄与している。

ここで、本発明の説明に用いる映像データ等に関する表記の説明を行う。入力される多視点映像「V_c,t(u,v)」とは、複数N台のカメラc（c=1,2,…,N）の時刻t（t=1,2,3,…）の画素位置(u,v)（u,vは整数）における画素値を表すものとして、当該映像Vを変数（且つインデクス）c,t,u,vの関数として表記するものである。同様に、出力される合成映像「SY_t(u,v)」も、当該時刻tの画素位置(u,v)における画素値を表すものとして、当該合成映像SYを関数として表記するものである。以下の説明に現れる各データもこれと同様に、大文字部分がデータ関数名を表し、これに続く下付き小文字部分がカメラc、時刻t、仮想平面k（後述）を区別するインデクスであり、さらにこれに続く(u,v)や(i,j)が位置を区別するインデクスである。当該インデクスのうちの一部が存在しない場合もある。

合成装置10は映像上の各時刻t=1,2,3,…の多視点映像V_c,t(u,v)（時刻tを固定した場合は多視点画像V_c,t(u,v)）につき合成処理を行うことで合成映像SY_t(u,v)（時刻tを固定した場合は合成画像SY_t(u,v)）を出力するが、当該合成処理は任意の時刻tについて共通である。従って、以下の説明においてはこのような入力映像V_c,t(u,v)における任意の時刻tにおける処理であるものとして、場合によっては特に時刻tに言及することなく、説明を行う。図１の合成装置10の各部の処理の概要は以下の通りである。

まず、合成装置10への入力としての多視点画像V_c,t(u,v)は、校正部1、抽出部2及び描画部7へと入力される。ここで、当該入力される多視点画像V_c,t(u,v)の各カメラcにおける画像には、異なるカメラ画像間での時刻同期が行われたうえで、（すなわち、時刻tは異なるカメラ画像間で当該同期された共通時刻であるものとして、）同一の対象が当該カメラcの撮影位置から撮影されているものとする。

＜校正部1＞
校正部1は、いわゆるカメラ校正を行うものであり、多視点画像（における各カメラcの画像）V_c,t(u,v)を入力として、カメラcごとに実空間の地面（フィールド）の座標(x,y,z)とカメラ画像V_c,t(u,v)との対応付けを取り、得られたキャリブレーション（校正）データ（すなわち、カメラパラメータ）のうちの外部パラメータを逆投影部6及び描画部7へと出力する。当該各部2,6,7は当該得られた校正データを用いることでそれぞれの処理が可能となる。（なお、周知のように、キャリブレーションではレンズ歪を解消する内部パラメータも得ることができるが、合成装置10の各部では当該内部パラメータを用いた歪補正済みのデータを利用してよい。内部パラメータに関するデータ授受の流れは図２では省略している。）

なお、校正部1による当該キャリブレーション操作は固定カメラを前提とした場合であれば、各カメラcにおいてある時刻tに一度操作を行うのみよく、その後の時刻t+1,t+2,…においては既に時刻tで得られている校正データを利用するようにすればよい。また、多視点画像V_c,t(u,v)に既に校正データが紐づけて与えられている場合には、校正部1は省略されてもよい。（この場合は、校正部1が合成装置10の外部構成として存在しているものとみなすことができる。）

図３に、当該カメラ校正によりカメラcの画像V_c,t(u,v)の座標(u,v)_cと世界座標系の点(x,y,z)との対応付けが可能となることの模式例を示す。カメラcのカメラ中心と座標(u,v)_cとを通る直線L(u,v)上に点(x,y,z)が存在するという形で当該対応付けが可能となっている。なお、当該カメラ校正による世界座標系(x,y,z)は全てのカメラcにおいて共通のものである。

校正部1におけるカメラ校正に関しては、任意の既存手法を用いてよく、自動及び／又は人手により、例えば特徴点や線分を検出可能なマーカを世界座標(x,y,z)の既知の位置に配置したうえで、カメラcの座標(u,v)_cにおける特徴点座標や線分関連座標との対応関係を求め、カメラパラメータを取得するようにするようにすればよい。

＜抽出部2＞
抽出部2では、各カメラcの画像V_c,t(u,v)に対して、既存手法である背景差分法を用いて画像内の背景と前景を分類し、当該分類を表現する2値又は前景の尤度（グレースケール階調等で与えればよい）を画素値とするマスク画像M_c,t(u,v)を得て、算出部3へと出力する。ここで、当該分類される前景は画像V_c,t(u,v)において撮影されている対象（例えば、人物等）の領域となる。

図４は、抽出部2での抽出処理の模式例を示す図であり、対象（オブジェクト）としての人物を含むある時刻tの原画像[1]に対し、背景差分法を適用することによって、背景差分結果としての画像[2]が生成されている。この画像[2]は、対象である人物に相当する前景画素部分が白色（画素値が1）であってその他の背景画素部分は黒色（画素値が0）であるマスク画像となっている。

なお、図４では、このマスク画像[2]と原画像[1]とから、人物（対象）のテクスチャ情報を含み背景画素部分は黒色のままであるオブジェクトのテクスチャ画像[3]も取得可能となることが示されている。このように、画像背景とその前景との分離を行うことによって、人物等の対象（の画像情報）を大まかに抽出することが可能となる。

ここで、抽出部2において背景差分法を適用するに際しては、各カメラcの画像V_c,t(u,v)についての背景画像BG_c,t(u,v)を予め与えておくものとする。なお、カメラcが固定されており光源条件などが不変であるならば、背景画像は静止画でよい。また、抽出部2においてマスク画像M_c,t(u,v)を2値マップ（前景／背景の区別のみ）ではなく前景に関する尤度マップとして求める場合は、任意種類の既存の対象（物体など）尤度の算出手法を用いてよく、例えば顕著性(Saliency)マップ等として求めるようにすればよい。

なお、抽出部2に関しても前述の校正部1と同様に、入力される画像V_c,t(u,v)に予めマスク画像M_c,t(u,v)が紐づけられているのであれば、抽出部2は合成装置10から省略された外部構成としてもよい。

＜算出部3＞
算出部3は、抽出部2で生成されたマスク画像M_c,t(u,v)を用い、後段側に位置している機能部（この後の処理を担う機能部）である逆投影部6によって逆投影面群に逆投影するために用いるアルファ値α1_c,t(u,v)を、各視点画像としてのカメラ画像c毎に算出し、当該アルファ値α1_c,t(u,v)を逆投影部6へと出力する。なお、当該算出されるアルファ値は、後段側の描画部7において最終的に合成される自由視点画像SY_t(u,v)におけるオブジェクトの輪郭の残り具合を加減するパラメータとしての役割を果たすこととなる。算出部3では具体的に以下の各実施形態でアルファ値α1_c,t(u,v)を算出することができる。

第一実施形態では、最も簡素な算出手法として、抽出部2から得られたマスク画像M_c,t(u,v)の画素値をそのままアルファ値として採用する。例えば、マスク画像M_c,t(u,v)が２値(0又は1)のものとして抽出されている場合であれば、その画素値をそのまま２値のアルファ値としてもよい。すなわち、前景（画素値＝1）領域のアルファ値が1となり、背景（画素値＝0）領域のアルファ値が0となる。また、マスク画像M_c,t(u,v)が前景の尤度マップとして与えられていれば、当該尤度マップをそのままで、あるいは、値が0以上1以下となるように規格化したものとして、アルファ値を得るようにすればよい。

なお、第一実施形態は、算出部3が合成装置10から省略されている構成（算出部3で得たマスク画像M_c,t(u,v)がアルファ値α1_c,t(u,v)であるものとして直接に逆投影部6へと入力される構成）とみなすこともできる。（尤度マップに関して規格化する場合は当該規格化を抽出部2の段階で実施しておけばよい。）

第一実施形態は、抽出部2において、前景被写体のマスク画像M_c,t(u,v)が正しく抽出されている場合には有効となる。しかしながら、実際には、現実世界の映像からマスク画像を抽出した際、ノイズの影響により、例えば被写体の一部が欠損しているようなマスク画像（２値の場合）が抽出されることも少なくない。このように、正しいマスク画像の抽出が期待され得ない状況にも好適な別の実施形態として、以下の第二及び第三実施形態がある。

なお、第二及び第三実施形態ではマスク画像M_c,t(u,v)の前景と背景とが2値的に区別されることを前提とする。マスク画像M_c,t(u,v)が前景の尤度としてグレースケール階調等の2値よりも多い段階値（又は連続値）で与えられている場合には、当該尤度に対して閾値判定から前景又は背景の区別を得るようにすればよい。

第二実施形態では、マスク画像M_c,t(u,v)における前景の画素は第一実施形態と同様の値（アルファ値が１）を採用するが、背景の画素についてはそのアルファ値を、非ゼロであってゼロより大きく１未満の値τ（0<τ<1、例えばτ＝0.5）に設定することにより、アルファ値α1_c,t(u,v)を算出する。

第二実施形態によれば、次いで実施される逆投影部6における処理で逆投影を行ってアルファ値α1_c,t(u,v)を重ね合わせた際、背景画素値τがゼロではないので、前景と背景との境界部分が若干残りやすくなる効果が期待され、抽出部2で抽出されたマスク画像M_c,t(u,v)の不正確さによる悪影響を低減する方向へと処理を進めることが可能となる。

第三実施形態は、上記の第二実施形態で背景アルファ値τがその位置によらず固定値とされていたのを位置に応じて変化させるものであり、マスク画像M_c,t(u,v)における前景と背景との境界からアルファ値を決定する対象となる画素までの距離が大きくなるに従い、当該背景画素に設定されるアルファ値が減少していくものとして、アルファ値α1_c,t(u,v)を算出する。具体的には、アルファ値を決定する対象の背景画素から、当該画素近傍のマスク境界までの距離（例えば垂線距離）をdとして、アルファ値αを、例えば次式
（１） α＝θ・f(d)
を用いて算出することができる。ここで、f(d)はアルファ値を返すdの単調減少関数であり、θはアルファ値の減衰率である。

第三実施形態は、第二実施形態と比較すると、より自然な見た目をもって被写体（対象）を自由視点映像化することを可能にするが、一方で、各画素近傍のマスク境界までの距離dを算出する必要があるので、計算量及び計算時間が増大する方向にあるといえる。

さらに、以上に述べた各実施形態以外でも、例えば前景の画素のアルファ値を1とし、一方で背景の画素のアルファ値を1未満の値とするような算出方法であれば、種々の方法が採用可能である。

＜面群設定部4＞
面群設定部4は、多視点画像V_c,t(u,v)の世界座標系xyzをモデル化した３次元モデル空間内に、後段側処理部の逆投影部6等で用いる投影先としての複数の面である逆投影面群Pを設定して、順設定部5へと当該設定結果（すなわち、面群Pを構成する各面が３次元モデル空間内において占める座標位置・範囲）を出力する。詳細を後述する通り、この逆投影面群Pは、入力された多視点画像V_c,t(u,v)を３次元モデル空間へ逆投影する際の基準として用いられるものである。

面群設定部4では具体的に、ユーザ入力等によって指定される３次元モデル空間内の仮想視点CVの位置（及び視線の向き）に応じたものとして、逆投影面群Pを設定することができる。図５は、当該設定する一実施形態を説明するための模式例を示す図である。（図５はまた、後述する順設定部5の一実施形態の模式例ともなっている。）一実施形態では、ユーザ入力等により指定される３次元モデル空間内での仮想視点CVの位置及びその視線方向Lc（すなわち、仮想視点CVのカメラ軸Lc）に対し、当該カメラ軸Lcの直線を貫くそれぞれ所定サイズのK個の平面からなる平面群P={P_t,k|k=1,2,…,K}であって、各平面P_t,kがカメラ軸Lcに対して所定角度をなして互いに平行なものとして設定することができる。

ここで、設定する各平面P_t,kの３次元モデル空間内での向きに関して、次のような各実施形態が可能である。すなわち、各平面P_t,kがカメラ軸Lcとなす角は任意の所定角でよいが、一実施形態では当該角度を直角としてよい。また、カメラ軸Lcを基準として各平面P_t,kの向きを設定するのではなく、３次元モデル空間内に設定されているxyz座標（世界座標系xyzと同一）を基準とした向きを設定するようにしてもよい。例えばxy平面が地面（フィールド）であるものとして、xy平面に平行な平面群Pを設定してもよいし、あるいは、yz平面又はzx平面に平行な平面群Pを設定してもよい。

なお、校正部1に関して図３等を参照して説明した世界座標系xyz（すなわち、多視点画像V_c,t(u,v)が撮影された空間としての世界座標系xyz）を、合成画像SY_t(u,v)を得るレンダリングのためにモデル化したものが３次元モデル空間である。ここで、世界座標系xyzの各点の位置と３次元モデル空間の各点の位置は一対一に対応しているので、３次元モデル空間に関してもその座標系を世界座標系と同じ「xyz」であるものとして、以下でも説明を行うものとする。

また、一実施形態では、互いに平行な平面P_t,k同士は隣接するもの同士が所定距離dをもって離れて位置しているものとして平面群Pを設定すればよい。別の一実施形態では、平面P_t,kのうち隣接するものの間の距離は一定値dではなく、変化するものであってもよい。例えば、３次元モデル空間において対象の存在する可能性の高い位置の近くに存在する平面P_t,kほど当該距離を小さくする等の設定を用いてもよい。

なお、本発明において面群設定部4で設定する平面群Pは、従来技術の視体積交差法における３次元ボクセル（点群）が果たす役割を、深さ情報を不要として２次元領域（としての当該平面群P）において実現することで、メモリ消費を抑制して高速に自由視点の合成映像SY_t(u,v)の合成を可能とするものである。従って、３次元モデル空間xyz内において平面群Pが配置される範囲は、多視点画像V_c,t(u,v)から抽出部2でその被写体領域がマスクM_c,t(u,v)として抽出される対象（最終的に描画部7にて自由視点でのレンダリングがなされる対象）が存在しうる範囲をカバーするものであればよい。当該存在しうる範囲の情報は多視点画像V_c,t(u,v)に紐づいた情報として予め与えておき、面群設定部4では当該範囲をカバーするように、平面群Pを設定すればよい。（当該紐づいた情報はさらに、校正部1の校正情報に関連付けられて予め与えられていてもよい。）すなわち、平面群Pに関して、構成される平面の個数K、面間の距離d、各面の大きさなどのメモリ消費に関連する設定を、当該範囲をカバーするように設定すればよい。

なお、仮想視点CVの視点位置（及び向き）をユーザ等が指定する場合は、任意の既存の情報入力インタフェースを利用してよい。例えば、数値として直接入力してもよいし、当該数値を既存の視線位置検出技術（瞳撮影用のカメラに対するユーザの瞳の位置の検出）から求めるようにしてもよい。当該数値をマウス操作やタッチパネル上の操作から算出して取得してもよい。複数の視点位置の候補からメニュー選択で入力するようにしてもよい。

＜順設定部5＞
順設定部5は、面群設定部4で以上のように設定した面群Pを構成する各平面P_t,kに対して順番を設定して、当該順番設定された面群P={P_t,k|k=1,2,…,K}を描画部7へと出力する。後述する描画部7では当該出力された順番に従って面群Pを用いた処理を行う。

順設定部5では具体的に、面群設定部4が設定した面群P={P_t,k|k=1,2,…,K}に関して、面群設定部4においてユーザ入力等によって指定された仮想視点CVの位置との関係に基づいた順番を設定することができる。好適な一実施形態として、仮想視点CVから各面が近い順で順番を付与してもよい。なお、以下では面群P={P_t,k|k=1,2,…,K}等の表記を用いた場合、各面を区別するインデクスkは、順設定部5で当該付与された順番を表しているものとする。また、説明例として、当該近い順番kを設定した場合を説明する。すなわち、面群Pにおける平面P_t,kとは、仮想視点CVからの距離の近さがk番目である平面を表すものとし、kが小さいほど仮想視点CVに対して手前に位置しており、kが大きいほど仮想視点CVから見て奥側に位置しているものとする。

例えば、図５の模式例は指定された仮想視点CVに対してカメラ軸方向Lcに垂直な面群P（模式例として、K=3個の平面で構成される面群P）を面群設定部4において設定し、さらに、順設定部5において仮想視点CVから位置が近い順にk=1,2,3と順番を設定することで、面群Pとして当該近い順の3個の平面P_t,1,P_t,2,P_t,3が３次元モデル空間xyz内に、互いに距離dだけ離れて設定される例となっている。また、当該設定された3個の平面P_t,1,P_t,2,P_t,3は対象OBの存在しうる範囲をカバーしているものとなっている。

＜レンダリング部20＞
レンダリング部20は、校正部1で得たキャリブレーションデータと、算出部3で算出されたアルファ値α1_c,t(u,v)と、順設定部5で設定された順序付与された面群P={P_t,k|k=1,2,…,K}と、を用いることにより、合成装置10への入力としての多視点画像V_c,t(u,v)における対象を自由視点化してディスプレイ領域にレンダリングした結果として、合成画像SY_t(u,v)を得る。

より具体的に、レンダリング部20はハードウェアとしては例えばGPUを用いて実現することが可能であり、順序付与して設定された面群P={P_t,k|k=1,2,…,K}をGPUの頂点シェーダへ当該順序kにて入力し、面群設定部4においてユーザ等から指定された仮想視点CVの情報（視点位置座標及び視線向き情報）に基づいて、ディスプレイ上に当該仮想視点CVにおけるものとしての対象の自由視点画像をレンダリングし、合成画像SY_t(u,v)を得る。（GPUのピクセルシェーダによってピクセル単位でレンダリングするようにしてもよい。）ここでこの際、対象以外の背景の情報である3DCGデータも読み込み、公知の方法に基づき同時に並行してレンダリングを行うことによって、最終的な自由視点画像を合成することができる。なお、背景の情報としての3DCGデータは、抽出部2で背景差分法を適用する際に用意しておく所定背景を仮想視点CVで見たものへと変換（平面部分ごとの平面射影変換等）することで合成されるものであってもよい。

以下、レンダリング部20における当該レンダリング処理を実現するための要素処理を担う逆投影部6、描画部7、再投影部8及び付与部9に関して説明する。ここで、各部6,7,8,9の個別処理を説明した後に、描画部7以降の各部7,8,9についてはさらに、互いに連携しての繰り返し処理・更新処理を伴うものであるため、後述の図７を参照してその動作フローを説明する。

＜逆投影部6＞
図６は逆投影部6の処理を、カメラが3個(c=1,2,3)及び面群Pが3個の面(k=1,2,3)で構成される場合に関して、模式的に示すものである。逆投影部6は、算出部3から得た各カメラc（c=1,2,…,N）に関するアルファ値α1_c,t(u,v)を、順設定部5で得た面群P={P_t,k|k=1,2,…,K}の各々の面P_t,k上に逆投影したうえで積算することにより、各面P_t,k上における積算されたアルファ値α2_t,k(i,j)を得る。

ここで、各データ内容の区別の明確化のために、次のように区別した表記を用いている。すなわち、算出部3で得られるアルファ値を「α1」、逆投影部6でこれらを各カメラcについて積算して得られるアルファ値を「α2」として名前（関数表記の名前）を区別している。また、算出部3のアルファ値α1は入力画像V_c,t(u,v)の位置(u,v)に対応するので画素位置(u,v)として表記し、一方、逆投影部6のアルファ値α2はxyz空間内に配置された各面P_t,k上における分布として与えられるものであるため、(u,v)とは区別してその平面上の位置を(i,j)としている。なお、当該位置(i,j)は画素位置(u,v)とは異なり、一般に実数で指定されるものとなる。

図６にも模式的に示されているが、逆投影部6ではインデクスkで指定される各逆投影面P_t,kに対して、以下の手順１〜３で当該面P_t,k上における積算されたアルファ値α2_t,k(i,j)を得ることができる。なお、（後述する描画部7とは異なり、）逆投影部8では各逆投影面P_t,kに関して、（インデクスkで指定される順番に限らず、）任意の順番で以下の手順１〜３を実施してよい。また、複数の平面P_t,kに関して並行で実施してもよい。

（手順１）アルファ値画像α1_c,t(u,v)を、当該画像を得たカメラcの３次元モデル空間xyz内での配置位置に対応する位置に配置する。

（手順２）３次元モデル空間xyz内に上記配置したアルファ値画像α1_c,t(u,v)を、対応するカメラcのカメラ中心から、面P_t,kへ向けて逆投影することで、アルファ値画像α1_c,t(u,v)の各画素位置(u,v)の面P_t,k上における逆投影位置(i_[u,v],j_[u,v])_cを得る。ここで、空間xyz内にて当該逆投影される範囲はカメラcのカメラ中心を頂点としアルファ値画像α1_c,t(u,v)を底面（当該錐体の切断面、2値で底面領域が定義される場合を想定）とする錐体CN_c,tで表現される。図６ではc=1,2,3に関して当該錐体CN_c,tが破線によって模式的に示されている。面P_t,kへ向けての投影結果は積集合「P_t,k∩CN_c,t」である。

（手順３）上記得た逆投影位置(i_[u,v],j_[u,v])_c（当該位置は、面P_t,kの配置によってxyz空間内の位置でもある）上において対応する各カメラc（c=1, 2,…, Nの全てのうち、当該逆投影が可能なもの）のアルファ値α1_c,t(u,v)（すなわち、投影元のアルファ値α1_c,t(u,v)）を積算することにより、アルファ値α2_t,k(i,j)を得る。こうして例えば、アルファ値α1_c,t(u,v)が2値マスクである場合、すべてのカメラcにおいて1となっている箇所のα2_t,k(i,j)は1（対象）となり、１つでも0が含まれれば0（対象の領域ではない）となる。また、算出部3にて0〜1の値を連続的にα1_c,t(u,v)に設定した場合は、境界が徐々に0に近づく効果が得られる。

＜描画部7＞
描画部7では、面群設定部4においてユーザ入力等で指定された仮想視点CVから見た自由視点画像として、合成画像SY_t(u,v)を合成する。ここで、多視点画像V_c,t(u,v)に撮影されている対象を当該仮想視点CVから見た状態として前景テクスチャTX_c,t(u,v)としてレンダリングすると共に、既に説明した通りの公知の手法で当該仮想視点CVから見た状態での背景BG_t(u,v)を合成することにより、合成画像SY_t(u,v)を得る。

ここで、描画部7では具体的に前景テクスチャTX_c,t(u,v)を描画するに際して、順設定部5で得た面群P={P_t,k|k=1,2,…,K}の順番kに従って逆投影面P_t,kの順で描画を行う。当該描画の際に用いる多視点画像V_c,t(u,v)は、インデクスc=1,2,…,Nで区別される全カメラcのうち、指定された仮想視点CVに位置（及び向き）が近いと判定されたn個（n≦N）のものを用いる。なお、当該n個を用いることは、例えば仮想視点CVから逆向きのカメラcの画像V_c,t(u,v)は、対象を仮想視点CVとは反対側から見ているものに相当するため、描画に必要なテクスチャが含まれていない可能性が高いためである。

例えば、各カメラcが対象を円周状に又は球面状に取り囲んで配置され対象の方を向いて撮影している場合であって、仮想視点CVも当該円周又は球面の近傍から対象の方を見るものとして設定される場合であれば、位置の近さと向きの近さとは連動するので、位置又は向きのいずれかの近いn個を選択すればよい。各カメラcの配置が任意の場合には、位置及び向きの両方を考慮して、仮想視点CVに近いと判定されるn個のカメラcを選択すればよい。

以下、説明のため、当該位置（及び向き）が近いと判定されたn個のカメラのインデクスがc=1,2,3,…,nであるものとする。

＜再投影部8＞
また、描画部7における逆投影面P_t,kに関する描画において、当該n個のカメラにおける多視点画像V_c,t(u,v)の中からそれぞれ、実際に当該描画に用いるための領域S_c,t,k(u,v)の設定を行うのが再投影部8である。再投影部8は領域S_c,t,k(u,v)を求めて描画部7及び付与部9へと出力する。

＜付与部9＞
また、描画部7が当該描画するために用いる領域S_c,t,k(u,v)（画像V_c,t(u,v)の一部に相当）の各画素位置(u,v)に関しては、順番kに従って逆投影面P_t,kの順で描画を行っていくに際して、既にテクスチャTX_c,t(u,v)の描画に用いられたか否か等の描画履歴を反映した情報が制御値d_c,t,k-1(u,v)として保持・更新されており、描画部7では当該制御値d_c,t,k-1(u,v)を考慮して描画を行う。付与部9は、当該描画の際に考慮される制御値d_c,t,k-1(u,v)を求め、描画部7へと出力するものである。

付与部9では、各画素位置(u,v)に関しては、順番kに従って逆投影面P_t,kの順で描画を行っていくに際しての描画履歴を反映したものとして、制御値d_c,t,k-1(u,v)を求める。例えば、当該描画がなされた回数として制御値d_c,t,k-1(u,v)として求めてよい。以下では制御値d_c,t,k-1(u,v)は当該描画がなされた回数であるものとして説明する。

以上、描画部7、再投影部8及び付与部9の個別処理の概略を説明した。図７は、描画部7、再投影部8及び付与部9が互いに連携してテクスチャTX_c,t(u,v)を描画する動作の一実施形態に係るフローチャートである。以下、図７の各ステップを説明しながら、各部7,8,9の動作の詳細を説明する。ここで、図７のフロー構造が繰り返し処理の構成を取ることが見て取れるが、当該繰り返し処理は順番k=1,2,…,Kに従って逆投影面P_t,kの順で描画することを表現したものである。従って、図７の説明においてはインデクスkを逆投影面P_t,kの識別子kとしての意味のほか、当該繰り返し処理の回数カウンタkの意味としても用いることとする。

図７のフローを開始する際にはカウンタkを初期値k=1へと設定したうえで、ステップS1へと進む。

＜ステップS1＞
ステップS1では、付与部9が制御値d_c,t,k-1(u,v)の初期値「k=1」における初期値d_c,t,0(u,v)を、描画に用いる対象となっている各カメラc=1,2,…,nの画像V_c,t(u,v)の各画素位置(u,v)に対応するものとして設定してから、ステップS2へと進む。（なお、「初期値d_c,t,0(u,v)」との記載に関して、「k=0」の逆投影面P_t,kは存在しないが、以下に説明するように「制御値d_c,t,k-1(u,v)」（k≧1）は逆投影面P_t,k（k≧1）に対する描画の際に利用する制御値であるので、初回k=1の逆投影面P_t,1で利用する制御値として「初期値d_c,t,0(u,v)」が存在する。）

ここで、ステップS1の時点ではまだ描画がなされていないので、付与部9では初期値d_c,t,0(u,v)の値を全てのカメラc=1,2,…,n及び画素位置(u,v)に関して0（描画回数ゼロ）として付与すればよい。

＜ステップS2＞
ステップS2では、再投影部8が、描画対象の各カメラc=1,2,…,nにおける画像V_c,t(u,v)内の部分領域として、再投影領域S_c,t,k(u,v)を設定してからステップS3へと進む。

図８は、再投影部8が再投影領域S_c,t,k(u,v)を得る処理の模式例を示す図である。図８にて、[1]から[2]へと矢印線L1で示される処理は既に図６等も参照して説明した逆投影部6による逆投影処理を示すものであり、逆投影平面P_t,k上に逆投影されたアルファ値α2_t,k(i,j)が楕円状の領域として示されている。図８ではこれに次いで[2]から[3]へと矢印線L2で示されるのが再投影部8による処理の模式例となっている。

ここで、再投影部8の処理及びその意義を説明するに際して、用語を次のように定義する。図６の模式例等においても既に説明の通り、逆投影部6で得る逆投影されたアルファ値α2_t,k(i,j)を全ての逆投影面P_t,k上に分布した状態として空間xyz内に並べたもの{α2_t,k(i,j)|k=1,2,…,K}は、従来技術の視体積交差法におけるビジュアル・ハルに相当するものを本発明独自のものとして得たものである。そこで、当該ビジュアル・ハルに相当する並べたデータ{α2_t,k(i,j)|k=1,2,…,K}を「逆投影データ」と呼ぶこととする。

逆投影データ{α2_t,k(i,j)|k=1,2,…,K}内からあるkに関して取り出した１つの平面P_t,kのアルファ値α2_t,k(i,j)は、当該逆投影データでその形状が表現される対象（人物等）を当該平面P_t,kでスライスした「断面」に相当するものである。（なお、図８の[2]では、楕円形状として当該断面を模式的に示している。）

再投影部8では、当該インデクスk（処理順番k）で指定される平面P_t,kにおける当該断面としてのアルファ値α2_t,k(i,j)を、各カメラc=1,2,…,nにおける画像平面(u,v)_cに再投影することで、対応する画像V_c,t(u,v)内における再投影領域S_c,t,k(u,v)を取得する。ここで、アルファ値α2_t,k(i,j)のうち値が0より大きく前景と判定される領域を再投影することで再投影領域S_c,t,k(u,v)を取得するようにすればよい。なお、明らかなように、再投影部8における再投影とは逆投影部6による逆投影(u,v)→(x,y,z)の逆、すなわち通常の投影(x,y,z)→(u,v)であり、アルファ値α2_t,k(i,j)の断面領域をカメラcで撮影した場合に画像平面(u,v)_c上に形成される領域を求める処理である。

上記のように取得される各カメラ画像V_c,t(u,v)内の再投影領域S_c,t,k(u,v)は、再投影の処理内容から明らかなように、逆投影面平面P_t,k上の対象の断面を描画するためのテクスチャを含んだものである。そこで、次のステップS3で描画部7が当該断面に対する描画を行うこととなる。

＜ステップS3＞
ステップS3では、描画部7が、各カメラ画像V_c,t(u,v)（c=1,2,…,n）内の再投影領域S_c,t,k(u,v)のテクスチャを、当該インデクスkで指定される逆投影面P_t,kへと逆投影（(u,v)_c→(x,y,z)の投影）することにより、逆投影面P_t,k上にテクスチャを描画してから、ステップS4へと進む。（当該描画される範囲はアルファ値α2_t,k(i,j)の断面領域となる。）

図９は、当該描画をカメラc=1,2の2台の画像で行う場合の模式例を示す図である。

当該描画の際には、逆投影面P_t,k上の同一位置(i,j)のテクスチャTX_t,k(i,j)が、複数のカメラ画像V_c,t(u,v)（c=1,2,…,n）内の再投影領域S_c,t,k(u,v)の対応位置(u_[i,v],v_[i,v])_cからそれぞれ描画されて得られることとなる。従って、描画部7では、以下の加算式に模式的に示されるように、当該描画に用いる複数のカメラcからの画素をどのように配分してテクスチャTX_t,k(i,j)を得るかを決定したうえで、当該配分に従って描画を行うこととなる。以下の加算式では「E_c」がカメラcの画素「V_c,t(u_[i,v],v_[i,v])」の配分の割合を表す係数である。
TX_t,k(i,j)=Σ_c E_c* V_c,t(u_[i,v],v_[i,v])

ここで、当該配分して描画する手法に関して、種々の実施形態が可能である。

第一実施形態では、カメラcの配分係数E_cを、当該カメラcの位置（及び向き）と、指定されている仮想視点CVの位置（及び向き）と、が近いほど、当該係数の値を大きくして重点的に当該近いカメラcの画素が配分されるようにしてよい。なお、カメラの位置（及び向き）の近さの評価は、仮想視点CVに近いカメラc=1,2,…,nを決定した際と同じ評価を用いればよい。

第二実施形態では、カメラcの配分係数E_cを、当該描画に用いるカメラcの画素「V_c,t(u_[i,v],v_[i,v])」に対して付与部9から与えられている制御値d_c,t,k-1(u_[i,v],v_[i,v])、すなわち既に描画に利用された回数が多いほど、小さくなるように設定することができる。第二実施形態によれば、ある時点で描画に用いられた画素はその後、描画への影響が小さくなることとなる。特別の場合として、1回でも描画に用いられたのであれば配分係数E_c=0とすることで、その後は描画に利用しないようにフラグ付与することもできる。同様に、所定の上限回数に到達した時点で配分係数E_c=0としてもよい。

なお、第二実施形態では、カメラcの配分係数E_cは、描画先の位置(i,j)に対応する描画元の位置(u_[i,v],v_[i,v])ごとの係数E_c(u_[i,v],v_[i,v])となる。また、k=1の初回の描画においては未描画の状態である（制御値d_c,t,0がステップS1で与えた初期値である）ため、第二実施形態による配分係数E_cは全て等しくなる。

当該配分に関する第一実施形態と第二実施形態とは組み合わせることも可能である。なお、配分係数E_cは第一実施形態及び／又は第二実施形態で求めたうえで、全カメラc=1,2,…,nでの総和が1となるように規格化したうえで、描画を行うようにすればよい。

すなわち、当該配分して描画する手法に関して、前述のように配分係数E_cで重みづけ和を取ることに関して具体的に、アルファブレンドにより重ね合わせるようにしてもよい。（なお、各配分係数E_cに関して、0≦E_c≦1の範囲で設定し、テクスチャをTX_t,k(i,j)を得るための係数E_cの総和Σ_c E_cの値が1に正規化されるような重みづけ和がアルファブレンドに相当する。）

この場合、所定関数gを用いて制御値d_c,t,k-1(u_[i,v],v_[i,v])からアルファ値α_c,t,k-1(u_[i,v],v_[i,v])を以下のように求めたうえで、当該アルファ値α_c,t,k-1(u_[i,v],v_[i,v])を用いてアルファブレンドを行うようにすればよい。所定関数gは配分係数E_cに関する第二実施形態と概ね同様に、制御値d_c,t,k-1(u_[i,v],v_[i,v])すなわち既に描画に用いられた回数が大きいほど透過度を増すような関数を用いればよい。
α_c,t,k-1(u_[i,v],v_[i,v])=g(d_c,t,k-1(u_[i,v],v_[i,v]))

ここで、上記求めたアルファ値α_c,t,k-1(u_[i,v],v_[i,v])は全カメラc=1,2,…,nでの総和が1となるように規格化してもよい。

例えば、図７のカメラc=1,2の例に関して、（配分係数E_cに関する第一実施形態と同様に）カメラからの距離m1,m2をも考慮したうえで、アルファブレンドを行う場合、以下のようにアルファブレンド結果を得ることができる。
TX_t,k(i,j)=α*{1-m1/(m1+m2)}*V_1,t(u_[i,v],v_[i,v])
+[1-m2/(m1+m2)+(1-α)*{1- m1/(m1+m2)}]*V_2,t(u_[i,v],v_[i,v])
ここで、α=α_1,t,k-1(u_[i,v],v_[i,v])、すなわちαはカメラc=1のアルファ値である。

当該アルファブレンド例は、カメラc=1のアルファ値によって減少した分（カメラc=1のテクスチャ描画が透明化された分）をカメラc=2に分配し、そのテクスチャの不透明度を増すという処理の例となっている。全く同様にして、α、βをカメラc=1,2のアルファ値として、一般には以下の式を用いてもよい。
TX_t,k(i,j)=[α*{1-m1/(m1+m2)} +(1-β)*{1- m2/(m1+m2)}]*V_1,t(u_[i,v],v_[i,v])
+[β*{1-m2/(m1+m2)}+(1-α)*{1- m1/(m1+m2)}]*V_2,t(u_[i,v],v_[i,v])
上記の式において明らかなように、V_1,t(u_[i,v],v_[i,v])及びV_2,t(u_[i,v],v_[i,v])のそれぞれの係数は、カメラc=1,2の区別と、その距離m1,m2と、の両方を考慮した、規格化されたアルファ値となっている。
また、カメラが3個以上の場合も同様に、アルファ値により透明化されたカメラのテクスチャ分をその他のカメラに分配するようにすればよい。

＜ステップS4＞
ステップS4では、直近のステップS3での描画部7での描画結果に基づき、付与部9が次(k+1回目)のステップS3で描画部7が用いるための制御値d_c,t,k+1(u,v)を求めてからステップS5へと進む。前述の通り、当該制御値d_c,t,k+1(u,v)は、カメラcの画像V_c,t(u,v)の画素(u,v)が当該時点までに描画に用いられた回数として求めればよい。

＜ステップS5＞
ステップS5では全ての逆投影面Pt,k(i,j)についての描画が完了したか否かを判定し、完了していれば、すなわち当該時点でのk=KであればステップS7へと進み、完了していなければ、すなわちk＜KであればステップS6へと進む。

＜ステップS6＞
ステップS6ではkに次の値k+1を設定して、すなわちkの値を1だけ増分してからステップS2に戻る。

＜ステップS7＞
ステップS7では、以上のK回の繰り返しで全ての逆投影面P_t,k(i,j)(k=1,2,…,K)に関して得られているテクスチャTX_t,k(i,j)（当該テクスチャはすなわちxyz空間内での対象の描画結果となっている）を、描画部7が仮想視点CVの画像平面(u,v)へと投影することで対象（前景）のレンダリング結果を得ると共に、背景を前述の通り公知手法でレンダリングすることにより、合成映像SY_t(u,v)を得て、当該フローは終了する。

以上、本発明によれば、インデクスkで指定される順番で逆投影面P_t,k(i,j)に描画することにより、及び、合成映像SY_t(u,v)を得る際のレンダリングに関してアルファ値等によるカメラ間での配分を行うことにより、先行手法としての特許文献１における自由視点映像合成のもつ高速な処理形態（リアルタイム性）を損なわずに、オクルージョンによる品質低下の問題を解決することができる。以下、本発明における説明上の補足を述べる。

（１）描画部7による処理（図７のステップS7）では、逆投影面P_t,k上の異なる複数の位置(i,j)（実数i,jによる位置）のテクスチャTX_t,k(i,j)が、合成画像SY_t(u,v)における同一の画素(u,v)（整数）へと逆投影されて対応するものとなっていることもありうる。このような場合に関しては、GPU等の実装に応じた処理で扱うようにすればよい。例えば、当該複数の位置(i,j)（例えば、(0.1, 0.1), (0.11, 0.09), (0.09, 0.11)の3つの互いに近接する位置など）のテクスチャの平均値として求める等してよい。

（２）本発明の合成装置10は、一般的な構成のコンピュータとして実現可能である。すなわち、CPU（中央演算装置）及びGPU（グラフィック処理装置）、当該CPU等にワークエリアを提供する主記憶装置、ハードディスクやSSDその他で構成可能な補助記憶装置、キーボード、マウス、タッチパネルその他といったユーザからの入力を受け取る入力インタフェース、ネットワークに接続して通信を行うための通信インタフェース、表示を行うディスプレイ、カメラ及びこれらを接続するバスを備えるような、一般的なコンピュータによって合成装置10を構成することができる。また、合成装置10の各部の処理はそれぞれ、当該処理を実行させるプログラムを読み込んで実行するCPU及び／又はGPUによって実現することができるが、任意の一部の処理を別途の専用回路等において実現するようにしてもよい。

10…合成装置、1…校正部、2…抽出部、3…算出部、4…面群設定部、5…順設定部、6…逆投影部、7…描画部、8…再投影部、9…付与部、20…レンダリング部

Claims

多視点画像の各視点画像から撮影されている対象の領域の尤度画像を求める算出部と、
前記尤度画像の各々を３次元空間内に配置された複数の逆投影平面へと逆投影して各々の逆投影平面上で各々の尤度画像の尤度を積算したものとして逆投影データを得る逆投影部と、
前記逆投影データの尤度によって前景領域を判定し、当該前景領域を前記多視点画像の各々へと投影して再投影領域を定め、前記多視点画像の全部又は一部の視点画像のテクスチャのうち当該再投影領域に属するものを、前記複数の逆投影平面へと順番に逆投影して描画して前記対象をレンダリングすることで、前記対象の自由視点画像を合成する描画部と、を備えることを特徴とした合成装置。
前記描画部では、前記多視点画像の全部又は一部の視点画像のテクスチャを前記逆投影して描画する際に、視点画像の各画素において既に当該描画に用いられているか否かに関する履歴を考慮することを特徴とする請求項１に記載の合成装置。
前記描画部では、前記多視点画像の全部又は一部の視点画像のテクスチャを前記逆投影して描画する際に、視点画像の各画素において既に当該描画に用いられている回数に基づき、当該回数が多い画素は描画に用いる割合を下げることを特徴とする請求項１に記載の合成装置。
前記描画部では、前記回数が多いほど透過度合いを増すアルファ値を用いて、前記描画を行うことを特徴とする請求項３に記載の合成装置。
前記描画部では、前記多視点画像の全部又は一部の視点画像のテクスチャを前記逆投影して描画する際に、同一箇所を描画するのに用いるテクスチャにおける前記アルファ値の総和が一定となるよう規格化したうえで描画することを特徴とする請求項４に記載の合成装置。
前記描画部では、前記多視点画像の全部又は一部の視点画像のテクスチャを前記逆投影して描画する際に、前記合成される自由視点画像の仮想視点の位置と各視点画像の視点の位置との相違に応じた描画を行うことを特徴とする請求項１ないし５のいずれかに記載の合成装置。
前記描画部では、前記相違が大きい視点画像ほど、描画に用いる割合を下げることを特徴とする請求項６に記載の合成装置。
前記順番は、前記合成される自由視点画像の仮想視点と前記複数の逆投影平面との位置関係に応じた順番であることを特徴とする請求項１ないし７のいずれかに記載の合成装置。
前記順番は、前記合成される自由視点画像の仮想視点に対して前記複数の逆投影平面の各々が近いほど、早い順番であることを特徴とする請求項８に記載の合成装置。
多視点画像の各視点画像から撮影されている対象の領域の尤度画像を求める算出段階と、
前記尤度画像の各々を３次元空間内に配置された複数の逆投影平面へと逆投影して各々の逆投影平面上で各々の尤度画像の尤度を積算したものとして逆投影データを得る逆投影段階と、
前記逆投影データの尤度によって前景領域を判定し、当該前景領域を前記多視点画像の各々へと投影して再投影領域を定め、前記多視点画像の全部又は一部の視点画像のテクスチャのうち当該再投影領域に属するものを、前記複数の逆投影平面へと順番に逆投影して描画して前記対象をレンダリングすることで、前記対象の自由視点画像を合成する描画段階と、を備えることを特徴とした合成方法。
コンピュータを、合成装置であって、
多視点画像の各視点画像から撮影されている対象の領域の尤度画像を求める算出部と、
前記尤度画像の各々を３次元空間内に配置された複数の逆投影平面へと逆投影して各々の逆投影平面上で各々の尤度画像の尤度を積算したものとして逆投影データを得る逆投影部と、
前記逆投影データの尤度によって前景領域を判定し、当該前景領域を前記多視点画像の各々へと投影して再投影領域を定め、前記多視点画像の全部又は一部の視点画像のテクスチャのうち当該再投影領域に属するものを、前記複数の逆投影平面へと順番に逆投影して描画して前記対象をレンダリングすることで、前記対象の自由視点画像を合成する描画部と、を備える合成装置として機能させることを特徴とするプログラム。