JP2021022032A

JP2021022032A - 合成装置、方法及びプログラム

Info

Publication number: JP2021022032A
Application number: JP2019136729A
Authority: JP
Inventors: 敬介野中; Keisuke Nonaka
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2021-02-18
Anticipated expiration: 2039-07-25
Also published as: JP7038683B2

Abstract

【課題】多視点画像を用いることで、オクルージョンが発生していたとしても、被写体を仮想視点で見た際の状態を高品質且つ効率的に合成することのできる合成装置を提供する。【解決手段】多視点画像より被写体の３次元モデルを生成する生成部1と、３次元モデルより、多視点画像の各カメラ視点での被写体の深度マップを推定する推定部2と、３次元モデルが表す被写体の表面上の空間点に関して、各カメラ視点での深度マップとの間で空間位置の整合を調べ、整合していると判定される場合及びされない場合にそれぞれオクルージョン無し及び有りである旨を紐づけることでカメラ視点ごと及び空間点ごとのオクルージョン情報を求める比較部3と、オクルージョン情報を参照して、多視点画像の各カメラ視点でのテクスチャを選択して利用することにより、指定される仮想視点において被写体を描画する描画部4と、を備える。【選択図】図２

Description

本発明は、多視点画像を用いることで、オクルージョンが発生していたとしても、被写体を仮想視点で見た際の状態を高品質且つ効率的に合成することのできる合成装置、方法及びプログラムに関する。

従来、新たな映像表現を目的として仮想的な視点から見た被写体映像を合成する、自由視点映像合成技術が数多く提案されている。その中でも、実写の映像のみから被写体の3次元コンピュータグラフィクス（3DCG、３次元ＣＧ）モデルを生成し、任意の仮想視点座標からの被写体鑑賞を可能とする方式（以下、フルモデル方式）は、少ないカメラ台数で実現可能であり、かつ視点の移動範囲に制限がないという長所をもち、広く利用されている。

ここで、フルモデル方式ではより自然な映像合成を実現するために、仮想視点と各カメラの3次元座標や方向を考慮して、近傍の（または類似の方向を向いている）カメラの映像をテクスチャとして動的に被写体3DCGに貼り付けるという方法が取られている（特許文献１）。しかしながら、複数の被写体が存在するシーンにおいて、前方の被写体によって後方の被写体の一部領域が遮蔽されてしまい、ある仮想視点において近傍カメラの映像から参照するべきテクスチャが得られず、映像合成した際に被写体の一部分が欠落するという問題がある（図１：以下、この被写体が遮蔽される現象をオクルージョン、遮蔽された領域をオクルージョン領域と呼ぶ）。なお、一般にゲームなどに用いられる3DCGモデルでは、すべてのテクスチャを予め制作しておくため本問題は発生しない。

図１は、オクルージョンにより合成映像した際の被写体の一部分が欠落することを模式的な例を用いて示す図である。撮影及び仮想視点の指定に関する状況EVに示される通り、XYZ世界座標系（XZ平面が水平であり地面とし、Y軸が垂直高さ方向とする）で指定される実世界において、実際のカメラacにより地面（XZ平面）上にある手前側の第１オブジェクトOB1（灰色の円柱）と奥側の第２オブジェクトOB2（白色の直方体）を地面上の概ね同じ高さで概ね水平に撮影しているものとする。すなわち、実際のカメラacから撮影される際に、第２オブジェクトOB2は第１オブジェクトOB1によって遮蔽されることにより、オクルージョンが発生しているものとする。

ここで、状況EVに示されるように、合成映像を得るための仮想視点が仮想カメラvcによって指定されるものとする。仮想カメラvcは、実際のカメラacよりも高い位置（+Y方向の位置）から、地面（XZ平面）上にある第２オブジェクトOB2を見下ろして撮影するようにすることで、その画角内に第２オブジェクトOB2のみを撮影するように、その位置姿勢が設定されている。従って、仮想カメラvcによる映像合成における本来の結果RVは、模式的に示される通り、第２オブジェクトOB2のレンダリング結果に関して、第２オブジェクトOB2由来の第２テクスチャTX2のみで構成されるべきものである。

しかしながら、仮想カメラvcによる合成映像に、第１オブジェクトOB1によるオクルージョンが発生している実際のカメラacによるテクスチャが利用されると、実際の結果RAとして模式的に示される通り、本来なら全て第２オブジェクトOB2由来の第２テクスチャTX2のみで構成されるべき第２オブジェクトOB2のレンダリング結果の領域の一部が、第１オブジェクトOB1の第１テクスチャTX1（オクルージョン領域をなす）によって欠落することとなる。

特開2018-163467号公報特願2018-034847号特開2015-045920号公報

W. N. Martin and J. K. Aggarwal, ``Volumetric Description of Objects from Multiple Views,'' IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 5, no. 2, pp. 150-158, 1983. A. Bogomjakov, C. Gotsmann, and M. Magnor, "Free-Viewpoint Video from Depth Cameras," Proc. Vision, Modeling and Visualization, pp. 89-96, 2006. J. Starck, J. Kilner and A. Hilton, "A Free-Viewpoint Video Renderer," Journal of Graphics, GPU, and Game Tools, 14:3, 57-72, 2009.

従来技術においては、オクルージョンがある際の合成映像における被写体の欠落に対して種々の対策が講じられているが、それぞれ問題になりうる点があった。

特許文献１では3DCGのオクルージョン領域の箇所においてのみ、最近傍のカメラだけではなくより離れたカメラの映像を参照することで、可能な限り被写体の欠落を防ぐ技術が提案されている。しかしながら、当該技術では、あるカメラにおけるオクルージョン領域を決定する際に、そのカメラからみたビューポートにおいて画素ごとに奥行方向に光線を飛ばし、一定間隔ごとにすべての被写体3DCGのポリゴンとの衝突判定を行うことで、前方被写体のポリゴンか否か（オクルージョン領域であるか否か）を判定しており、膨大な計算時間を要することがわかっている。そのため、上記従来技術ではリアルタイムでの自由視点映像合成などが困難であった。

非特許文献２では、デプスカメラから得られた深度情報を基にオクルージョンを決定するという方式が取られているが、映像のみを用いる場合においては対応ができず、またユーザ選択の仮想視点によらないテクスチャの貼り付けを行うため不自然な合成結果となることが想定される。

特許文献３、非特許文献３では、デプスカメラを利用することなく、被写体の概形から得られる深度情報を基に仮想視点の位置に応じた映像合成を行っている。しかしながら、特許文献３については可視であるカメラの合成の具体的な処理内容が規定されておらず、どのようにレンダリング映像の色を決めるかが明確ではない。非特許文献３ではオクルージョン領域を推定する対象となるカメラとして仮想視点の近傍カメラ群の一部（テクスチャ補間用カメラ群）を選択し、テクスチャ補間用カメラ群によるオクルージョン領域の補間を行っている。しかしながら、テクスチャ補間用カメラ群は近傍カメラ群から選択されるため、カメラ配置が近い場合には、必要なテクスチャ情報が得られず十分なオクルージョン領域の補間ができない可能性が高い。また、テクスチャ補間用カメラ群の選択には近傍カメラ群の深度情報を用いているため、近傍カメラ群の数を増やすことは結果として、リアルタイム性を損なうことにつながる。

そのため、高品質且つ効率的な自由視点映像合成を行うためは、上記近傍カメラ群に相当する「オクルージョン領域の算出対象となるカメラ（以下、参照カメラ）」をシーンに合わせて選択することが望ましいと考えられるが、非特許文献３ではこのような手法は採られていない。

以上のような従来技術の課題に鑑み、本発明は、多視点画像を用いることで、オクルージョンが発生していたとしても、被写体を仮想視点で見た際の状態を高品質且つ効率的に合成することのできる合成装置、方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は合成装置であって、多視点画像より被写体の３次元モデルを生成する生成部と、前記３次元モデルより、前記多視点画像の各カメラ視点での、被写体の深度マップを推定する推定部と、前記３次元モデルが表す被写体の表面上の空間点に関して、前記各カメラ視点での深度マップとの間で空間位置の整合を調べ、整合していると判定される場合にはオクルージョン無しである旨を、整合していないと判定される場合にはオクルージョン無しである旨を紐づけることで、カメラ視点ごと及び空間点ごとのオクルージョン情報を求める比較部と、前記オクルージョン情報を参照して、前記多視点画像の各カメラ視点でのテクスチャを選択して利用することにより、指定される仮想視点において被写体を描画する描画部と、を備えることを特徴とする。また、当該合成装置に対応する合成方法及びプログラムであることを特徴とする。

本発明によれば、３次元モデルと各視点での深度マップとを比較して空間位置の整合を調べることによりカメラ視点ごと及び空間点ごとのオクルージョン情報を求め、このオクルージョン情報を用いて描画を行うことにより、多視点画像にオクルージョンが発生していたとしても、被写体を仮想視点で見た際の状態を高品質且つ効率的に合成することができる。

オクルージョンにより合成映像した際の被写体の一部分が欠落することを模式的な例を用いて示す図である。一実施形態に係る合成装置の機能ブロック図である。一実施形態に係る生成部の機能ブロック図である。比較部における比較処理とその結果として得られるオクルージョン情報の模式例を示す図である。式(2)によるマッピングに関連する各種のデータを模式的に示す図である。第一実施形態及び第二実施形態で決定部によって決定されるカメラの模式例を示す図である。第二実施形態において決定部がカメラ視点を限定されたものに決定する手法の一例をフローチャートで示す図である。式(4)での算出における直線等の配置の模式例を示す図である。図７のフローによる決定の例における撮影状況を示す図である。一般的なコンピュータ装置におけるハードウェア構成を示す図である。

図２は、一実施形態に係る合成装置の機能ブロック図である。合成装置10は、生成部1、推定部2、比較部3、描画部4及び決定部5を備える。後述するように、一実施形態では合成装置10において決定部5を省略することも可能である。合成装置10はその全体的な動作として、多視点映像として構成される複数のカメラ映像を生成部1及び描画部4において読み込み、ユーザ入力等によって指定される仮想視点での自由視点映像を合成して描画部4より出力する。当該自由視点映像においては、仮想視点において見た状態にある被写体（多視点映像に撮影されている被写体）が描画されている。

説明のため、合成装置10において処理されるデータや処理の前提となるデータに関する用語（変数名）を次のように定めるものとする。入力データとしての多視点映像は複数（少なくとも２個）のN個の視点、すなわちN個のカメラ映像で構成されるものとする。i番目（1≦i≦N）のカメラをc_i、当該カメラc_iの３次元空間上の座標（世界座標）をp_ci=(x_ci,y_ci,z_ci)、当該座標p_ciから当該カメラc_iが撮影している２次元画像範囲としてのビューポート（当該カメラc_iの撮影している向きや画角に対応しているビューポート）をV_ci、ユーザ入力等で指定された仮想視点（最終的に出力される自由視点映像の視点）の座標（世界座標）をp_u=(x_u,y_u,z_u)、同様にユーザ入力等で指定されるビューポート（最終的に出力される自由視点映像における、当該視点座標p_uから見た向きや画角に対応しているビューポート）をV_uとする。

なお、合成装置10における上記以外のデータに関する用語（変数名）も、以降の説明でその都度、定めるものとする。

合成装置10への入力としての多視点映像は、異なるカメラ視点の映像間において予め時刻同期が取られたうえで、共通のシーンが撮影されているものとする。特に言及がない限り、合成装置10における多視点映像の各時刻のフレーム（N視点の多視点画像）に対する処理は共通であるため、以下での合成装置10の各部の処理内容の説明においては、この各時刻（任意の１時刻）のN視点の多視点画像を処理の対象として説明を行う。

（生成部1）
生成部1は、入力される多視点画像より、多視点画像に撮影されている被写体の3DCGモデルを生成して、推定部2へと出力する。ここで、生成部1が出力する3DCGモデルとは、１つ以上の被写体の３次元形状情報で構成されるものであり、その表面のテクスチャ情報は含まないものである。生成部1での3DCGモデル生成には、任意の既存手法を用いてよく、例えば視体積交差法を用いてよい。

図３は、生成部1が視体積交差法を用いる場合の、一実施形態に係る生成部1の機能ブロック図である。生成部1は、パラメータ推定部11、マスク抽出部12及びモデル生成部13を備え、入力としての多視点画像はパラメータ推定部11及びマスク抽出部12において読み込まれ、モデル生成部13より3DCGモデルを出力する。

（パラメータ推定部11）
パラメータ推定部11は、ある時刻において撮影されている映像のフィールド（所定平面）の特徴的な点（コートの白線の交点など）と実際の実空間上のフィールド上の点との対応付けを行い、N視点の各々に関してカメラパラメータ（外部パラメータ及び内部パラメータ）として算出し、モデル生成部13へと出力する。例えば、多視点映像が一般的なスポーツ映像である場合は、スポーツ種別に応じたコートのサイズが規格化されているため、このサイズの情報を事前知識として利用して、画像平面上の点が実空間上（世界座標系）のどの座標に対応するかを容易に計算することが可能である。このカメラキャリブレーションは、手動のほか、任意の既存の自動キャリブレーションに関する手法を用いても行うことができる。例えば、手動の方法としては画面上の白線の交点をユーザ操作により選択し、あらかじめ測定されたフィールドモデルとの対応付をとることで、カメラパラメータを推定できる（画面に歪みがある場合は下記の通り先に内部パラメータを推定しておく）。

多視点映像において、固定カメラでの撮影を前提とした場合（すなわち、各カメラc_iの座標p_ci等が時間変化しない場合）は、パラメータ推定部11での本カメラキャリブレーションの処理は、多視点映像の任意の１時刻（例えば最初の時刻）のみに関して行い、得られたカメラパラメータを多視点映像のその他の時刻でも共通のものとして利用すればよい。また、移動カメラを前提とした場合（すなわち、各カメラc_iの座標p_ci等が時間変化する場合）は、前述の任意の既存手法の自動キャリブレーション処理により、映像の各時刻のフレーム（多視点画像）に対して処理を行うようにすればよい。

なお、3DCGの分野において数学的な関係として既知のように、パラメータ推定部11によって以上のようにして推定されたカメラパラメータを用いることで、「３次元世界座標⇔３次元カメラ座標系⇒２次元投影座標系⇒ビューポート」の変換関係（ビューイングパイプラインの関係）が取得されることから、各カメラc_iの座標p_ci及びビューポートV_ciを決定することができる。ここで、ビューポートV_ciは、カメラc_iで撮影した２次元画像（各々の画素位置(u,v)と画像サイズ「横w×縦h」で特定される２次元画像）に対応しており、推定されたカメラパラメータより、カメラc_iの位置p_ciから各画素位置(u,v)へ向けて、世界座標内へと逆投影する光線の情報なども算出可能となる。

なお、以上のような、パラメータ推定部11によって推定されるカメラパラメータ及びこれに関連する情報は、合成装置10内の全ての機能部において参照可能な情報として共有され、当該機能部において当該情報が必要となる処理の際に利用されるものとする。（この情報を参照する流れを表す矢印線などは、図２及び図３において描くのを省略している。）

（マスク抽出部12）
マスク抽出部12は、N視点の多視点画像の各カメラciの画像より、被写体の形状を0,1の2値マスク画像として得て、このN枚の2値マスク画像をモデル生成部13へと出力する。この2値マスク画像は、各画素位置において値0が被写体に該当しない背景、値1が被写体に該当する前景として定義され、被写体の形状（領域）を表現するものである。（なお、値0,1と前景・背景の対応付けに関しては逆の定義でもよい。）

マスク抽出部12において、2値マスクを得るための方法として、既存技術である背景差分法を用いてよい。この技術では、あらかじめ被写体のいない映像またはその平均値などの統計情報を背景統計情報として登録し、背景統計情報と対象時刻のカメラ映像との差分をとり、それに対してしきい値処理を行うことで被写体領域を抽出する。マスク抽出部12では背景差分法以外にも、機械学習を用いた人物領域抽出技術など、任意の既存技術を利用して、被写体領域を表す2値マスク画像を得るようにしてもよい。

（モデル生成部13）
モデル生成部13は、パラメータ推定部11にて推定されたN個のカメラパラメータと、マスク抽出部12にて抽出されたN個の2値マスク画像とを用いて、後段側の描画部4において自由視点映像として合成される被写体の3DCGモデルを生成し、生成部1での最終的な出力として、推定部2へと出力する。モデル生成部13では、任意の既存の自由視点映像技術（例えば前掲の特許文献１や非特許文献１）などでも利用されている、任意の既存の視体積交差法ベースの手法で3DCGモデルを生成することができる。既知のように、視体積交差法の原理は、N個の各カメラc_iの位置p_ciより対応する2値マスク画像の前景領域（シルエット）に向かって３次元逆投影を行うことで得られるN個の錐体（視体積）の共通部分として3DCGモデルを得るというものである。

以降、説明のために、モデル生成部13（生成部1）において生成された3DCGモデルをM_j={v,e}とし、M_jはk(j)個の頂点vとそれらを結ぶm(j)本のエッジeにより表面形状が構成されるポリゴンモデルを想定する。ここで、各々のポリゴンモデルM_jの識別子j=1,2,…,nであり、個別のオブジェクトにそれぞれ対応しているn個（n≧1）のポリゴンモデルが得られたものとする。（例えば、スポーツ映像において、複数の選手がそれぞれポリゴンモデルとして得られたものとする。）

（推定部2）
推定部2は、生成部1より得られた3DCGモデル（上記のように、ポリゴンモデルM_jとして３次元世界座標で表面が定義されている）を、各カメラc_iの位置p_ciから見た際の深度マップD_ciを推定し、得られた深度マップD_ciを比較部3へと出力する。

当該深度マップD_ciはすなわち、次の情報で構成されるものである。説明のため、カメラc_iの画像PIC_i上の各画素位置(u_i,v_i)（カメラパラメータに関して前述の通り、この画素位置(u_i,v_i)は、ビューポートV_ciと対応が得られている）に対して、カメラc_iの位置p_ciより３次元逆投影による光線を飛ばし、n個のポリゴンモデルM_j(j=1,2,…,n)のいずれかの表面に最初に衝突した3次元位置をs(u_i,v_i)とする。（従って、当該最初に衝突した位置s(u_i,v_i)よりも奥の側にさらに当該光線を延ばした範囲は、3DCGモデル内においてオクルージョンが発生しうる範囲となる。）深度マップD_ciは、各画素位置(u_i,v_i)に対して深度の値として、カメラの位置p_ciと光線の最初の衝突位置s(u_i,v_i)との間のユークリッド距離||p_ci-s(u_i,v_i)||₂を与えたマップである。（ここで「||・||₂」は引数「・」のユークリッド距離を表す。）

なお、深度マップD_ciのユークリッド距離の値は、対応するカメラc_iの画像PIC_iに対してマスク抽出部12で得られた2値マスクにおいて、前景として定義されているような画素位置(u_i,v_i)についてのみ求めるようにすればよい。背景として定義されているような画素位置(u_i,v_i)に関しては、光線の衝突位置s(u_i,v_i)を求めることができないため、深度の値なし、あるいは無限大である旨の情報を深度マップD_ciにおいて与えておけばよい。

推定部2での深度マップD_ciの推定処理は、既存のハードウェアとしてのGPU（グラフィック処理装置）と、既存のソフトウェアとしての当該GPUのプログラミングライブラリ等とを用いて、高速に行うことが可能である。

例えば、OpenGL等のレンダーバッファにデプスバッファを関連付けることで、オフスクリーンレンダリングとして当該ビューポートV_ciの深度情報を生成することができる。オフスクリーンレンダリングはウインドウ（表示装置としてのディスプレイ）に表示しない、GPU用のメモリ空間上の描画（レンダリング）処理のことであり、汎用GPUは3DCGレンダリング処理に最適化されていることから、極めて高速に処理が可能である。そのため、複数のオフスクリーンレンダリング（複数の見えないウインドウの3DCG描画）も可能である。上記処理により、カメラ位置p_ciから見た被写体の深度マップD_ciを取り出すことができる。なお、GPU用のメモリ空間は後述する図１０でのGPU用メモリ78において構成される。なお、GPU及びGPU用メモリに代えて、又は加えて、CPU（中央演算装置）及びRAM（図１０でのCPU71及びRAM73）により同様に、ディスプレイ表示させることなく深度マップD_ciを求めてもよい。

なお、推定部2において上記処理により得られる深度の値は一般に奥行きが深くなるにつれて急激に精度が落ちるという問題がある。この問題についてはシャドウマップと呼ばれる深度の精度低下を防ぐ既存技術を適用することができる。その他、シャドウマップ技術において既知の問題であるシャドウアクネやピーターパン現象なども発生することが懸念されるが、これらに対処する既存技術と同様のアプローチで緩和可能である。

なお、決定部5が省略される実施形態においては、推定部2は、N個の全てのカメラc_i(i=1,2,…,N)に関して対応する深度マップD_ciを求め、比較部3へと出力する。決定部5が利用される実施形態においては、後述するように決定部5ではN個の全てのカメラ視点の中から一部分のL個（L<N）のカメラ視点を決定して推定部2に出力することとなり、推定部2は当該決定された一部分のL個のカメラc_i'のみに関して対応する深度マップD_ci'を求め、比較部3へと出力する。（なお、i'は1,2,…,Nの中から決定部5で決定されたL個のインデクスのうち任意のものを表す。）

また、以下に説明する比較部3及び描画部4の処理も推定部2の処理と同様に、決定部5が省略される実施形態においてはN個全部のカメラ視点を対象として実施され、決定部5が利用される実施形態においては決定されたL個のみのカメラ視点を対象として実施される。実施される処理自体に関してはN個全部の場合と一部分のL個のみの場合とで共通であるため、比較部3及び描画部4の説明は、決定部5が省略されN個全部のカメラ視点を対象とする場合に関して説明する。

（比較部3）
比較部3は、各カメラc_i視点に関して、推定部2から得た深度マップD_ciの深度を、生成部1で得た3DCGモデルにおける対応する頂点v_kの深度と比較することにより、比較結果としての各頂点v_kが位置p_ciにあるカメラc_iから見えているか否かの情報（オクルージョン情報）を描画部4へと出力する。具体的には、以下の式(1)により各頂点v_kに関する比較結果としてのフラグ情報flag_ci(v_k)を得るようにすればよい。

式(1)において、D_ci(v_k)は、深度マップD_ci内において、3DCGモデルの頂点v_kに対応する画素値（深度値）を返す関数であり、具体的には、３次元世界座標で与えられる頂点v_kの位置を深度マップD_ci上へと投影した（すなわち、ビューポートV_ci上へと投影した）２次元画素位置(u(v_k),v(v_k))を求めたうえで、この画素位置における深度値を返すようにすればよい。

なお、当該投影した２次元画素位置(u(v_k),v(v_k))の要素u(v_k)及びv(v_k)のうち少なくとも一方が、整数としての画素位置(u,v)ではない実数値の位置である場合には、画像の拡大縮小の際に用いられるのと同様の既存手法である補間処理を適用した値を、関数D_ci(v_k)が返すようにすればよい。例えば、最近傍補間により、実数値の位置に最も近い整数位置(u,v)での深度値を返すようにしてもよいし、線形補間により、近傍の複数の整数位置(u,v)での深度値の、実数値の位置との距離の近さに応じた重みづけ和として深度値を返すようにしてもよい。

また、式(1)において、「||・||₂」は推定部2の説明で既に述べた通りユークリッド距離であり、その引数「v_k-p_ci」は頂点v_kの３次元世界座標（ベクトル値）からカメラ位置pciの３次元世界座標（ベクトル値）を減じたものである。すなわち、||v_k-p_ci||₂は、頂点v_kの位置とカメラ位置p_ciとの間のユークリッド距離である。

さらに、式(1)において、λはユーザの設定によるオフセット値（実数値）である。λの値に特段の規定はないが、被写体3DCGモデルを生成した生成部1において、モデルの解像度を決定するボクセルのサイズなどに応じて決定してよい。例えばボクセルのサイズが1cm³（各辺1cmの立方体）であれば、1辺の半分の距離であるλ=0.5cmなどと設定することで判定誤差を吸収する。また、推定部2に関して述べたように深度の精度に応じて、精度が高い領域ではλを短く設定し、精度が低い領域ではλを長く設定することもできる。加えてλは負の値も取りうる。

すなわち、正の定数a>0,b>0を設けておき、一定範囲内のオフセット値λ（-a≦λ≦b）の全て又は少なくとも一部に関して成立する場合に、式(1)右辺の上段側の条件（「if」で示される条件）が成立するものと判定すればよい。全ての場合、式(1)右辺の上段側の条件部分は以下の式(1-1)となり、少なくとも一部の場合、式(1)右辺の上段側の条件部分は以下の式(1-2)となる。

以上のようにして計算される式(1)のフラグ情報flag_ci(v_k)の値が0の場合、頂点v_kはカメラc_iから見て不可視でありオクルージョン領域にあることを意味し、値が1の場合は逆に、頂点v_kはカメラc_iから見て可視でありオクルージョン領域にはないことを意味するものとして、このように定義されるフラグ情報flag_ci(v_k)の形で、比較部3はオクルージョン情報として比較結果を得ることができる。すなわち、オクルージョン情報は頂点数k（各々がk(j)個の頂点を含む個別のモデルM_j（j=1,2,…,n）のn個全部での頂点数k=Σk(j）)、カメラ台数Nの場合にk*N個のフラグ情報として与えられることとなる。

上記のように本実施形態では、各カメラc_iのビューポートV_ci内での各画素位置についてオクルージョン情報を求めるのではなく、各カメラc_iで3DCGモデルを見た際の各頂点v_kについてオクルージョン情報を求めるようにすることにより、比較部3において高速にオクルージョン情報を得ることができる。この際の処理は、ユークリッド距離||v_k-p_ci||₂を閾値判定によって評価するという簡素な処理であり、光線を飛ばして当該光線上の各位置やその近傍での様子を調べるといったような複雑な処理は不要であることからも、高速にオクルージョン情報を得ることができる。これは、次の式(1')の実施形態でも同様である。

あるいは、式(1)に代えて以下の式(1')でフラグ情報flag_ci(v_k)を求めてもよい。（式(1')においても、フラグ情報の定義は式(1)の場合と同様である。）式(1')のthは判定用の正の閾値であり、式(1)のオフセットλと同様にユーザ設定で所定値を与えておけばよい。

式(1)を用いる場合、カメラ位置p_ciから頂点v_kまでの距離||v_k-p_ci||₂が対応する深度値D_ci(v_k)よりも閾値判定で大きいと判定される場合に、頂点v_kは3DCGモデルの表面より奥側にあるものとして、オクルージョン有りと判定する。式(1')を用いる場合、カメラ位置p_ciから頂点v_kまでの距離||v_k-p_ci||₂が対応する深度値D_ci(v_k)と閾値判定で一致すると判定される場合に、頂点v_kは3DCGモデルの表面上にあるものとして、オクルージョン無しと判定する。

式(1),(1')のいずれを用いる場合も、カメラ位置p_ciから頂点v_kまでの距離||v_k-p_ci||₂が対応する深度値D_ci(v_k)に整合していると判定される場合はオクルージョン無しと判定し、整合していないと判定される場合はオクルージョン有りと判定することとなる。

図４は、比較部3における比較処理とその結果として得られるオクルージョン情報の模式例を示す図である。3DCGモデル内のポリゴンg_k1の１つの頂点v_k1と、g_k2の１つの頂点v_k2とは、カメラc_iのビューポートV_ciに投影した際の位置が（偶然により）、共に(u0,v0)であったものとし、対応する共通の深度がD_ci(u0,v0)であったものとする。（なお、当該3DCGモデルにおけるポリゴンg_k1及びg_k2以外のポリゴンは描くのを省略している。）図４の例では、この深度と対応する距離との整合性の判定が、以下の通りであったことから、図中にも示される通り、頂点v_k1及び頂点v_k2のフラグ情報が以下に掲げるように得られる。
・D_ci(u0,v0)≒||v_k1-p_ci||₂（深度と距離が概ね等しく整合する）との判定により、
flag_ci(v_k1)=1（頂点v_k1のフラグ情報は1、すなわち頂点v_k1はオクルージョン無し）
・D_ci(u0,v0)<||v_k2-p_ci||₂（「深度<距離」であり整合しない）との判定により、
flag_ci(v_k2)=1（頂点v_k2のフラグ情報は0、すなわち頂点v_k2はオクルージョン有り）

（描画部4）
描画部4は、生成部1にて生成された3DCGモデルと、比較3部にて得られたオクルージョン情報とを用いて、ユーザ指定等により設定される仮想視点p_uから見たものとしての自由視点映像の各時刻のフレーム画像（自由視点画像）をレンダリング（描画）することにより、合成装置10からの出力としての合成映像の各時刻フレームを得る。描画部4では当該レンダリングの際に、前景として3DCGモデルの表面に貼り付けるテクスチャを生成部1に入力された元の多視点画像より取得して描画し、3DCGモデルの背景に関しては、マスク抽出部12で背景差分法を利用する場合に用いるのと同様の所定の背景情報を視点p_uから見たものとして描画すればよい。

具体的に描画部4では次のように、視点p_uから見た3DCGモデルの描画を行う。まず、視点p_uの近傍の２つのカメラを選択する。（説明のため、当該選択された２つの近傍カメラをc₁,c₂とする。）そして、これらカメラc₁,c₂の画像PIC₁,PIC₂よりテクスチャを取得して、各モデルM_j(j=1,2,…,n)を構成している各ポリゴン（任意の１つをポリゴンgとする）へと、オクルージョン情報を考慮してマッピングする。

ここで、上記マッピングするための前処理としてのオクルージョン情報の考慮において、まず、3DCGモデルのあるポリゴンgを構成する３頂点のオクルージョン情報を用いて、当該ポリゴンの可視判定を行う。（ここでは、説明のためポリゴンgが三角ポリゴンで形成されるものとして３頂点であるものとしているが、実際にはそれぞれのポリゴンを構成する頂点数に依存し、例えば四角形ポリゴンなら４頂点となる。以下、説明例としてポリゴンgは３頂点であるものとするが、４頂点以上であっても同様に処理することが可能である。）

カメラc₁に対するポリゴンgの可視判定フラグをg_c1と表現する場合、ポリゴンgを構成する３頂点すべてが可視であれば（すなわち、比較部3でフラグ情報として得た３頂点のオクルージョン情報が全て「オクルージョン無し」であれば）g_c1は可視、３頂点のうちいずれか１つでも不可視であれば（すなわち、比較部3でフラグ情報として得た３頂点のオクルージョン情報の少なくとも１つが「オクルージョン有り」であれば）、g_c1は不可視と設定する。同様にして、カメラc₂での当該ポリゴンgの可視判定フラグg_c2も設定する。描画部4は、このカメラc₁,c₂ごとの各ポリゴンgの可視判定の結果（可視判定フラグg_c1,g_c2）に応じて、以下（１）、（２）、（３）のように場合分けすることでテクスチャマッピングを行う。

（１）…可視判定フラグg_c1,g_c2のいずれも可視である場合
以下の式(2)の通り、アルファブレンドによりマッピングを行えばよい。

式(2)において、texture_c1(g)及びtexture_c2(g)はそれぞれ、ポリゴンgがカメラc₁及びc₂のビューポートV_c1及びV_c2において対応する画像領域のテクスチャであり（すなわち、元の画像PIC₁及びPIC₂においてポリゴンgが見えている範囲のテクスチャであり）、H_c1及びH_c2はそれぞれ、これらビューポートV_c1及びV_c2でのテクスチャtexture_c1(g)及びtexture_c2(g)を、指定される仮想視点p_uのビューポートV_uで見ている状態へと変形する平面射影変換行列である。既知のように、この平面射影変換行列はカメラパラメータ等を用いて計算することができる。

また、式(2)においてaは比率の係数であり、0<a<1の範囲で与えられ、比率a:(1-a)でテクスチャtexture_c1(g)及びtexture_c2(g)をアルファブレンドすることを指定するものである。この係数aは、仮想視点p_uとカメラ位置p_c1の距離d(p_u,p_c1)と、仮想視点p_uとカメラ位置p_c2の距離d(p_u,p_c2)と、の比率に応じたものとして、前者の距離が小さいほど（すなわち、視点p_uがカメラ位置p_c1に近いほど）値が大きく1に近くなるものとして、この距離の比率を引数とした所定関数の返り値として求めるようにしてよい。

なお、距離d(p_u,p_c1)及びd(p_u,p_c2)に関しては、後述する決定部5での距離と同様にして、ユークリッド距離あるいは角度も考慮した距離として計算すればよい。

なお、図５に、上記説明した式(2)によるマッピングに関連する各種のデータを模式的に示す。図５にてポリゴンgは、世界座標内のボクセル格子VXを元に定義され、v1,v2,v3を３頂点とする三角ポリゴンである。ボクセル格子VX上の格子点は白丸または黒丸（○または●）で示され、前者は3DCGモデルの外部に位置し、後者は3DCGモデルの内部に位置することを表す。ポリゴンg等は、これら外部と内部の境界の表面として、3DCGモデルを表している。

（２）…可視判定フラグg_c1,g_c2のいずれかのみが可視である場合
当該ポリゴンgが可視であるカメラのテクスチャのみを用いてレンダリングする。すなわち式(2)において、可視であるカメラのtexture_ci(i=1,2のいずれか)に対応する係数a又は(1-a)の値を1とする。（c₁が可視の場合a=1とし、c₂が可視の場合(1-a)=1とする。）その他の形態としては、仮想視点p_uから見て次に近いカメラc₃であってポリゴンgが可視であるものを、c₁及びc₂のうち不可視であるカメラの代わりとして参照する。この際、テクスチャのアルファブレンドの方法は式(2)と同様とすればよい。

（３）…可視判定フラグg_c1,g_c2の全てのみが不可視である場合
仮想視点p_uからみてカメラc₁,c₂の次に近いカメラc₃（その判定フラグg_c3が可視とする）のテクスチャを用いてレンダリングする。この際、当該可視であるカメラc₃が上記の場合（２）の可視であるものに該当するとみなして、場合（２）と同様にしてもよい。次に近いカメラc₃の判定フラグg_c3も不可視であった場合は、さらに次に近いカメラc₄,c₅,…といったように順々にカメラテクスチャを参照し、最も近く且つ可視であるものを見つけたうえで同様にすればよい。

描画部4では、3DCGモデルの各ポリゴンg（仮想視点p_uから見える状態にあるもの）につき、以上（１）〜（３）の場合分けを行ってマッピングすることで、3DCGモデルの全体を仮想視点p_uで見た状態のレンダリング結果を得ることができる。

なお、以上の説明では、仮想視点p_uに最も近いものとして初期参照するカメラ台数を２としたが、ユーザ指定等により、２以上の任意の複数（B≧2とする）のカメラを初期参照する対象としてもよい。この際、初期参照カメラ台数Bに応じて、式(2)をB台のカメラの線形和（重みの総和が1）とする拡張（一般化）を行った以下の式(2')を利用することで、以上の説明と同様にマッピングが可能である。

式(2')でB=2とする場合に該当する式(2)と同様に、式(2')にてw_bはB個全体（あるいは場合（２）、（３）ではB'個全体）での総和が1（Σw_b=1）となる重み係数であり、距離d(p_u,p_cb)の所定関数などを用いて、カメラc_bの位置p_cbが仮想視点p_uに近いほど大きな値として設定される。また同様に、H_cbは、カメラc_bのビューポートV_cbでのテクスチャtexture_cb(g)を仮想視点p_uのビューポートV_uで見ている状態へと変形する平面射影変換行列である。

なお、一般のB台の際に場合（２）、（３）に該当し、可視であるカメラが減ってB'台である（1≦B'<B）際も、式(2')と同様に、当該B'台での線形和（重みの総和が１）を用いればよい。また、全てのカメラにおいて不可視となったポリゴンgについては、テクスチャをマッピングしないようにすればよい。

（生成部1から描画部4までのまとめ）
既に述べたように合成装置10において決定部5が省略される実施形態が可能であり、この実施形態では、以上の生成部1から描画部4までの処理により、すべてのカメラ（N台）に対応するオクルージョン情報の高速な生成が可能となり、それに応じて、カメラ配置に応じた最適な参照カメラを参照することで、オクルージョンを高速且つ高品質に補間したレンダリングも可能となる。例えば、事前撮影した映像を用いたオフライン処理や、例えばN=20台程度のカメラ台数でのリアルタイム自由視点映像合成などに対応可能となる。

（決定部5）
一方で、カメラ台数Nが極めて多い場合、生成部1から描画部4までの処理ではリアルタイムでのオクルージョン情報の推定ができない可能性がある。そこで、このような場合に対処するための別の実施形態として、決定部5を追加で利用するようにしてよい。決定部5では、ユーザ指定等で設定される仮想視点p_uに応じて、N台全部の中から動的にオクルージョン情報を生成する対象カメラ（L<Nとして所定数L台とする）を決定して、当該L台のカメラの情報を推定部2、比較部3及び描画部4へと出力する。

推定部2、比較部3及び描画部4では、N台のカメラ全部のデータを参照対象として行っていたのと同様の処理をL台に限定されたカメラのデータに関してのみ行うようにすることで、カメラ台数Nが多い場合であっても高速処理が可能となる。なお、決定部5を用いる実施形態においても、生成部1において3DCGモデルを生成する際には、L台に限定するのではなく、N台全部のデータ（多視点画像のN視点全ての画像）を利用してよいことに注意されたい。

具体的に、決定部5にてN台全体から限定する一部のL台にカメラを決定する実施形態は、以下の第一実施形態又は第二実施形態が可能である。なお、所定数Lに関しては、合成装置10を実現しているハードウェアとしての計算機のCPUやGPUを用いて、合成装置10を実現するソフトウェアにより当該CPU及び／又はGPUを稼働させる際にリアルタイムでのオクルージョン情報生成処理が可能であるカメラ台数として、予め性能試験などを行うことで定めておけばよい。すなわち、台数Lは、合成装置10がハードウェアとして利用する演算装置（CPU及び／又はGPU）の性能を反映した値とすればよい。

（決定部5の第一実施形態）
第一実施形態にて決定部5は、N個のカメラc_iの位置p_ciと指定される仮想視点の位置p_uとの距離d(p_ci,p_u)を計算し、この距離が小さい側のL個のカメラc_iのみを限定して利用するように決定してよい。すなわち、仮想視点p_uへ近い側の上位L個のカメラc_iに決定してよい。

ここで、距離d(p_ci,p_u)に関しては、世界座標でのカメラc_iの視点位置p_ci及び仮想視点の位置p_uの間のユークリッド距離||p_ci-p_u||₂として計算してもよいし、さらに各視点の向きの違いも反映した距離として計算してもよい。例えば、カメラ視点p_ciの向きと仮想視点p_uの向きとの違いが角度θ(p_ci,p_u)≧0°であったものとすると、以下の式(3)のようにユークリッド距離と角度の違いとの重みづけ和で距離d(p_ci,p_u)を評価してもよい。この評価により、ユークリッド距離が同じ場合は、カメラ視点p_ciの向きが仮想視点puの向きにより近い方が、より近いものとして評価されることとなる。ここで、Aは正の値として予め設定しておく、長さ次元の重み係数である。
d(p_ci,p_u)=||p_ci-p_u||₂+A*θ(p_ci,p_u) …(3)

一般に、仮想視点から近いカメラ映像を用いるほど、レンダリングされる3DCGがより高品質となり、結果としてより高品質な自由視点映像合成が可能となるため、第一実施形態において、仮想視点p_u近傍の限定されたカメラ台数L（<N）を用いることによる画質劣化は軽微である。

（決定部5の第二実施形態）
第二実施形態は、次の事情を考慮するものである。すなわち、複数のカメラの配置間隔が極めて近い場合は、オクルージョン領域のテクスチャマッピングを行う参照元のカメラとして仮想視点p_u近傍のカメラよりも少し離れたカメラを用いるほうが良い場合がある。

従って、第二実施形態にて決定部5は、全N台のうちから限定するL台のカメラを、第一実施形態のように位置が仮想視点p_uに最も近い側の上位からL台として決定するのではなく、原則として位置が仮想視点p_uに近い側を優先して決定するが、実際に決定されるカメラ視点の位置が仮想視点p_uから見てある程度、拡がりを有するようにして決定する。

図６は、第一実施形態及び第二実施形態で決定部5によって決定されるカメラの模式例を示す図である。図６では、共通の多視点画像のカメラ群GR（180°の半円周上に10°ずつ離れてN=19個が配置されたカメラ視点で構成される）及び仮想視点p_uを表す仮想カメラvcに対して、L=5として第一実施形態を適用した結果R1と第二実施形態を適用した結果R2が、決定されたカメラをグレー表示することで示されている。結果R1では仮想カメラvcの最近傍のL=5台のカメラが限定対象として決定されているのに対し、結果R2では仮想カメラvcの近傍側の同数L=5台のカメラが基本的に選択されつつも、選択されるカメラ同士の間隔が結果R1よりも拡がっていることを見て取ることができる。カメラ群GRが並ぶ180°の半円の内部に被写体があるものとして、結果R2のカメラ配置では結果R1のカメラ配置と比べて被写体をより広い角度範囲で撮影可能となっている。

図７に、第二実施形態において決定部5がカメラ視点を限定されたものに決定する手法の一例をフローチャートで示す。

ステップS1では、N個のカメラ視点p_ciの位置に対して、仮想視点p_uの位置からの近さの順位付けを行ったうえで、ステップS2へと進む。この順位付けは、第一実施形態と同様の手法で距離d(p_ci,p_u)を計算して、当該距離の小さい順とすればよい。この順位は、ステップS2及びS3にて参照して利用されるものである。

ステップS2では、決定カメラ集合及び候補カメラ集合に初期値を設定したうえで、ステップS3へと進む。ステップS2にて、決定カメラ集合の初期値には、ステップS1で求めた順位が高い（すなわち、仮想視点p_uにより近い）所定数（Lより小さい所定数、例えば１）のカメラ視点を設定すればよい。また、候補カメラ集合の初期値には、N台全体のカメラのうち、決定カメラ集合に所属するものとして設定されなかった残りのカメラ視点の全てを設定すればよい。例えば、決定カメラ集合として1台のみのカメラ視点が初期値に設定されたとすると、候補カメラ集合の初期値は、当該1台以外の残りのN-1台のカメラ視点で構成されることとなる。

以下、図７のフロー構造に示される通りのステップS3〜S8の繰り返し処理において、候補カメラ集合の中からカメラ視点が選択されて決定カメラ集合に追加されるという処理が繰り返されることで、決定カメラ集合（及び候補カメラ集合）が繰り返して更新され、最終的に得られる決定カメラ集合が、決定部5によって選ばれた結果として出力されることとなる。

ステップS3では、候補カメラ集合の中から、仮想視点p_uの位置に最も近いカメラ視点を判定対象のカメラ視点p_cj[判定]として選出し、3DCGモデルが表現しているオブジェクトに対して、決定カメラ集合に属する各カメラ視点p_ciから当該オブジェクトを見た際の撮影配置と、判定対象のカメラ視点p_cj[判定]から当該オブジェクトを見た際の撮影配置と、の乖離の大きさを評価してからステップS4へと進む。具体的には、決定カメラ集合に属するカメラ視点p_ciの各々と、判定対象のカメラ視点p_cj[判定]との撮影配置の乖離を以下の式(4)の値A_i,j[判定]として評価する。

式(4)にて、3DCGモデルはn個のオブジェクト（前述のモデルM_j）で構成され、k番目（k=1,2,…,n）のオブジェクトの重心をG_kとする。Line(p_ci,G_k)はカメラ視点p_ciより重心G_kに向かう線分であり、同様にLine(p_cj[判定],G_k)はカメラ視点p_cj[判定]より重心G_kに向かう線分であり、cos(Line(p_ci,G_k), Line(p_cj[判定],G_k))はこれら２つの線分のなす角の余弦である。式(4)に示されるように、値A_i,j[判定]はn個のオブジェクトについての当該余弦の平均値である。

なお、式(4)の計算においてのカメラ視点p_ci及びp_cj[判定]並びに重心G_kに関しては、３次元世界座標で計算してもよいし、人物の身長や動作を想定してあらかじめ一定の高さに設定しておいたX-Z平面に平行な平面に投影したカメラ視点や、当該平面でのオブジェクトの断面形状における重心を用いてもよい。

図８は、式(4)での算出における直線等の配置の模式例を示す図である。図８では決定カメラ集合に属するカメラ視点p_ci=p_c1であり、判定対象のカメラ視点p_cj[判定]=p_c2とし、3DCGモデルは2個のオブジェクトOBJ-1及びOBJ-2で構成されその重心がそれぞれG₁及びG₂である場合の、式(4)に現れる4種類の直線Line(,)と、余弦が評価される2つの角度（2つのオブジェクトのそれぞれで定義される1つの角度、オブジェクトG₁に関して2つの破線矢印の間の角度、オブジェクトG₂に関して2つの一点鎖線矢印の間の角度）とが示されている。

ステップS4では、ステップS3で評価した値A_i,j[判定]により、判定対象のカメラ視点p_cj[判定]の撮影配置の乖離が大きいか否かを判定し、肯定（乖離が大きい）判定の場合はステップS5へと進み、否定（乖離が小さい）判定の場合はステップS8へと進む。

余弦関数の性質から明らかなように、式(4)の値A_i,j[判定]が小さいほど当該なす角が大きく、撮影配置の乖離が大きいことを表している。従って、ステップS4では、決定カメラ集合に属する各カメラ視点p_ciの全てに関して、判定対象のカメラ視点p_cj[判定]との間でステップS3にて式(4)により算出された値A_i,j[判定]を参照し、決定カメラ集合に属する全てのカメラ視点p_ciに関してこの値A_i,j[判定]が所定閾値以下となった場合に、前記なす角が大きく撮影配置の乖離が大きいものとして肯定判定を得る。一方、少なくとも１つのカメラ視点p_ciに関してこの値A_i,j[判定]が所定閾値より大きくなった場合、否定判定を得る。

ステップS5では、ステップS4で肯定判定を得た判定対象のカメラ視点p_cj[判定]を決定カメラ集合に所属するものとして、決定カメラ集合の要素に追加し、且つ、候補カメラ集合の要素から削除することで、決定カメラ集合及び候補カメラ集合を更新してからステップS6へと進む。ステップS6では、現時点での決定カメラ集合の要素数がL台に到達したか否かを判定し、到達していればステップS7へと進み、到達していなければステップS3へと戻る。

ステップS7では、L台に到達した現時点での決定カメラ集合を決定部5で決定された最終結果として出力して、図７のフローを終了する。

ステップS8では、ステップS4で否定判定を得た判定対象のカメラ視点p_cj[判定]を、候補カメラ集合から削除することで候補カメラ集合を更新してから、ステップS3へと戻る。（ステップS8で削除された判定対象のカメラ視点p_cj[判定]は、候補カメラ集合に属さないものとなるため、以降のステップS3では判定対象として選出されないものとなり、従って、決定カメラ集合に属するものとしても選出されないものとなる。）

ここで、以上の図７のフローによる決定の例を示す。図９は、当該例における撮影状況を示す図である。3DCGモデルは1個のみのオブジェクトOBJ-0で構成され、その重心がG₀であり、重心G₀を中心とした円周上に5つのカメラc₁〜c₅が10°ずつ離れて配置されている。仮想視点p_u(不図示)はカメラ視点c1に最も近く、ステップS1にて近い順は円周上の角度の通りにc₁,c₂,c₃,c₄,c₅と算出されたものとする。ステップS2では初期値の決定カメラ集合{c₁,c₂}及び候補カメラ集合{c₃,c₄,c₅}として決定されたものとする。従って、ステップS3〜S8の繰り返し処理では、判定対象のカメラ視点p_cj[判定]として、1回目にカメラc₃が評価され、2回目にカメラc₄が評価され、3回目にカメラc₅が評価されることとなる。式(4)の値A_i,j[判定]のステップS5での閾値判定は0.95以下であれば、乖離しているものと肯定判定するものとする。

1回目のカメラc₃の評価では、カメラc₁とc₃の成す角が20°（値A=0.94）、カメラc₂とc₃のなす角度が10°（A=0.98）である。カメラc₂,c₃の組においてしきい値以下とならないので、候補としてのカメラc₃に関して否定判定となり、決定カメラ集合に追加されない。

2回目のカメラc₄の評価では、カメラc₁とc₄の成す角が30°（値A=0.87）、カメラc₂とc₄のなす角度が20°（値A=0.94）である。すべてにおいてしきい値以下なので、候補としてのカメラc₄に関して肯定判定となり、決定カメラ集合に追加されて{c₁,c₂,c₄}が得られる。

3回目のカメラc₅の評価では、カメラc₁とc₅の成す角が40°（値A=0.77）、カメラc₂とc₅のなす角度が30度（値A=0.87）、カメラc₄とc₅のなす角度が10°（値A=0.98）である。カメラc₄,c₅の組においてしきい値以下とならないので、候補としてのカメラc₃に関して否定判定となり、決定カメラ集合に追加されない。

以下、本発明に関して、追加や変形の実施形態等に関する補足説明を行う。

（１）決定部5での第二実施形態の変形例として、3DCGモデルを構成するn個のオブジェクト（重心がG_kのモデルM_k、k=1,2,…,n）ごとにL台のカメラを決定するようにしてもよい。この場合、式(4)に代えて以下の式(4')を利用してn個の平均ではなく個別の余弦をそれぞれ算出してモデルM_k（オブジェクトM_k）の評価値A'_{i,j[判定],k}を求め、以上説明したのと同様の判定（値Aではなく値A'に関して判定する）を行うことで、図７のフローはn個のオブジェクトごとにそれぞれ実施すればよい。

そして、推定部2、比較部3及び描画部4においてもそれぞれ、n個のオブジェクトごとに区別して設定されたL台のカメラに関して、同様の処理を行えばよい。この際、推定部2、比較部3及び描画部4では、3DCGモデルの全体ではなく、対象とする個別のオブジェクトM_kのみに関して処理を行えばよい。（なお、推定部2で求める深度マップ自体は、N台の全カメラを利用した3DCGモデルとして生成部1で得られたものを利用して、L台のカメラに関して深度マップを得ているため、全てのn個のオブジェクトが反映されたものとなっているため、オブジェクトごとに処理する場合も比較部3において適切にオクルージョン情報を得ることができる。）

（２）本発明は前掲の特許文献２のように「モデル自体の形状を、モデル表面に配置されるポリゴンではなく描画空間全体に配置されるポリゴンを用いて表現する3DCGモデル」などにも広く適用可能である。その際には、以上の説明においてポリゴン頂点v_kと記載していた項目が、レンダリング時のウインドウ内のピクセルが対応するポリゴン内部の空間座標に置き換わるといった差異が発生するが、モデルとして被写体表面を表すものであるという点では共通であるため、モデル形状表現の規則に則る形で一般性を損なわず容易に拡張可能である。例えば、特許文献２においては、空間上に平行に配置されたポリゴン群に張り付けられるテクスチャのアルファ（不透明度）を、対応する画素のオクルージョン情報に応じて増減させ複数のカメラのテクスチャを参照することで、以上の説明と同様に仮想視点からみたオクルージョン領域を補間することができる。

（３）図１０は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。合成装置10はそれぞれ、このような構成を有する１台以上のコンピュータ装置70として実現可能である。コンピュータ装置70は、所定命令を実行するCPU（中央演算装置）71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU（グラフィックス演算装置）72、CPU71にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、GPU72用のメモリ空間を提供するGPUメモリ78、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77と、これらの間でデータを授受するためのバスBSと、を備える。

合成装置10の各部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び／又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置（プロセッサ）の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。描画部4での描画結果としての自由視点画像はディスプレイ76で表示してもよい。

10…合成装置、1…生成部、2…推定部、3…比較部、4…描画部、5…決定部

Claims

多視点画像より被写体の３次元モデルを生成する生成部と、
前記３次元モデルより、前記多視点画像の各カメラ視点での、被写体の深度マップを推定する推定部と、
前記３次元モデルが表す被写体の表面上の空間点に関して、前記各カメラ視点での深度マップとの間で空間位置の整合を調べ、整合していると判定される場合にはオクルージョン無しである旨を、整合していないと判定される場合にはオクルージョン無しである旨を紐づけることで、カメラ視点ごと及び空間点ごとのオクルージョン情報を求める比較部と、
前記オクルージョン情報を参照して、前記多視点画像の各カメラ視点でのテクスチャを選択して利用することにより、指定される仮想視点において被写体を描画する描画部と、を備えることを特徴とする合成装置。
前記比較部は、前記３次元モデルが表す被写体の表面上の空間点（v_k）を前記多視点画像の各カメラ（c_i）視点の画像平面（V_ci）へと投影した平面点（u(v_k),v(v_k)）を求め、前記深度マップの当該平面点での深度値（D_ci(v_k)）が示す空間位置と、当該空間点（v_k）と、を比較することで前記空間位置での整合を調べることを特徴とする請求項１に記載の合成装置。
前記推定部は、演算装置用のメモリ空間を利用することで、ディスプレイに表示させない対象として前記深度マップを推定することを特徴とする請求項１または２に記載の合成装置。
前記描画部は、指定される仮想視点において、前記３次元モデルの表面要素ごとに描画を行うことで被写体の全体を描画し、
各表面要素に対して、対応している前記３次元モデルが表す被写体の表面上の空間点を参照し、前記オクルージョン情報において当該空間点に関してオクルージョン無しである旨が紐づいているカメラ視点であって、且つ、前記多視点画像の各カメラ視点の中で仮想視点に近いと判定されるカメラ視点におけるテクスチャを選択して利用して、当該表面要素を描画することを特徴とする請求項１ないし３のいずれかに記載の合成装置。
前記描画部は、各表面要素を描画するに際して、前記近いと判定された各カメラ視点におけるテクスチャを、各カメラ視点と仮想視点との距離が小さいほど大きな割合でアルファブレンドして描画することを特徴とする請求項４に記載の合成装置。
前記全カメラ視点のうち一部分のみを、指定される仮想視点に近いと判定されるカメラ視点として決定する決定部をさらに備え、
前記推定部、比較部及び描画部では、前記多視点画像の全カメラ視点のうち、前記決定部によって決定された一部分のみを対象としてそれぞれ、前記深度マップを推定すること、前記オクルージョン情報を求めること、前記被写体を描画すること、を実施することを特徴とする請求項１ないし５のいずれかに記載の合成装置。
前記決定部は、前記全カメラ視点のうち一部分のみを、指定される仮想視点に近いと判定されるカメラ視点であって、且つ、被写体を撮影するカメラ視点の配置が相互に乖離していると判定されるカメラ視点として決定することを特徴とする請求項６に記載の合成装置。
前記決定部で決定する前記全カメラ視点のうち一部分のみの数は、前記合成装置が利用する演算装置の性能を反映した所定数であることを特徴とする請求項６または７に記載の合成装置。
前記生成部では、視体積交差法を用いて、被写体の３次元モデルを生成することを特徴とする請求項１ないし８のいずれかに記載の合成装置。
多視点画像より被写体の３次元モデルを生成する生成手順と、
前記３次元モデルより、前記多視点画像の各カメラ視点での、被写体の深度マップを推定する推定手順と、
前記３次元モデルが表す被写体の表面上の空間点に関して、前記各カメラ視点での深度マップとの間で空間位置の整合を調べ、整合していると判定される場合にはオクルージョン無しである旨を、整合していないと判定される場合にはオクルージョン無しである旨を紐づけることで、カメラ視点ごと及び空間点ごとのオクルージョン情報を求める比較手順と、
前記オクルージョン情報を参照して、前記多視点画像の各カメラ視点でのテクスチャを選択して利用することにより、指定される仮想視点において被写体を描画する描画手順と、を備えることを特徴とする合成方法。
多視点画像より被写体の３次元モデルを生成する生成手順と、
前記３次元モデルより、前記多視点画像の各カメラ視点での、被写体の深度マップを推定する推定手順と、
前記３次元モデルが表す被写体の表面上の空間点に関して、前記各カメラ視点での深度マップとの間で空間位置の整合を調べ、整合していると判定される場合にはオクルージョン無しである旨を、整合していないと判定される場合にはオクルージョン無しである旨を紐づけることで、カメラ視点ごと及び空間点ごとのオクルージョン情報を求める比較手順と、
前記オクルージョン情報を参照して、前記多視点画像の各カメラ視点でのテクスチャを選択して利用することにより、指定される仮想視点において被写体を描画する描画手順と、をコンピュータに実行させることを特徴とする合成プログラム。