JP7197451B2

JP7197451B2 - 画像処理装置、方法及びプログラム

Info

Publication number: JP7197451B2
Application number: JP2019178048A
Authority: JP
Inventors: 智明今野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2022-12-27
Anticipated expiration: 2039-09-27
Also published as: JP2021056679A

Description

本発明は、ユーザの視界情報を考慮することでモデル生成の計算コストを抑制でき、且つ、描画に用いた際にも自然な表示を実現できる３Ｄモデルを生成する画像処理装置、方法及びプログラムに関する。

現実空間の物理オブジェクトに、仮想オブジェクトを重畳してユーザに提示するAR（Augmented Reality、拡張現実）技術に関しての研究・開発が進められている。ユーザは、スマートフォンやスマートグラスなどのHMD（Head Mounted Display、ヘッドマウントディスプレイ）を利用することで、ビデオシースルー方式や光学シースルー方式でのAR表現が可能となる。ARでの表現力を高める上で、前後関係など、表示される仮想オブジェクトとユーザの周辺環境の物理オブジェクトとが自然であることは重要である。

仮想オブジェクトを表示するときのユーザ周辺の実オブジェクトとの幾何学的整合性を考慮した表示を行うためのシステムが提案されている（特許文献１）。一方で、仮想オブジェクトの生成方法に関して、カメラ映像を利用して３Ｄ（３次元）モデルを生成する手法がある。例えば、複数のカメラを被写体の周りを囲むように配置して撮影された映像から３Ｄモデルを生成することができる（特許文献２）。特許文献２においては、被写体が複数いる場合、遠景のオブジェクトが近景のオブジェクトに隠れてしまう場合、幾何学的整合性を保つため、遠景のオブジェクトを近景のオブジェクトで上書きするといった手法が記載されている。

特開２０１８－１０６２６２号公報特開２０１９－１０１７９５号公報特開２０１８－１６３４６７号公報

A. Laurentini, ``The visual hull concept for silhouette-based image understanding,'' IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 16, no. 2, Feb 1994.

AR体験においては、ユーザの視界に含まれる物理オブジェクトとの整合性を保った上で、リアルタイムに変化するユーザの視点位置に応じて仮想オブジェクトが表示されることで、体験品質の向上が期待される。しかしながら、上述の複数のカメラ映像を利用した３Ｄモデル生成を行う場合、カメラの台数や３Ｄモデル化する対象となる領域の密度によって、計算コストが大きくなる可能性がある。

この計算コスト増大への対処として、ユーザの視界情報を考慮することで、表示上不必要な領域に関して、３Ｄモデル化する対象領域を削減できる可能性がある。しかしながら、従来技術ではこの可能性については検討されておらず、この点において課題を有していた。

特許文献１では、ユーザの視界情報を考慮して物理オブジェクトと仮想オブジェクトがマッチするような表示の仕組みについて記載されているが、仮想オブジェクトの生成における計算コストの削減に関しては記載がなされていない。すなわち、仮想オブジェクトと実オブジェクトとの幾何学的整合性を確認するためには、表示上不必要な領域であっても仮想オブジェクトを点群データとして求める必要があり、計算コストを削減できない。

また、特許文献２では、複数の仮想オブジェクト同士のオクルージョンを考慮したモデル生成について記載されているが、この生成の際の計算コストの削減については記載されておらず、またユーザ周辺の物理環境などは考慮されていない。すなわち、特許文献２も特許文献１と同様に、幾何学的整合性を保って近景オブジェクトにより上書きして描画するためには、表示上不必要な領域であっても遠景オブジェクトを求める必要があり、計算コストを削減できない。

非特許文献1では、複数の映像から形状モデルを生成する手法が提案されているが、モデルの生成時にユーザの視界情報などは考慮されない。

上記従来技術の課題に鑑み、本発明は、ユーザの視界情報を考慮することでモデル生成の計算コストを抑制したうえで、描画に用いた際にも自然な表示を実現できる３Ｄモデルを生成する画像処理装置、方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、多視点画像の各視点の画像より、撮影されているオブジェクトの領域をマスク画像として抽出する抽出部と、前記マスク画像に視体積交差法を適用して、前記オブジェクトの３Ｄモデルを、所定のボクセル集合の各ボクセルにつき当該３Ｄモデルに属するか否かを判定することによって生成する生成部と、を備える画像処理装置であって、前記生成部は、前記適用する前に予め、ユーザ視点におけるものとして取得された深度情報を、仮想カメラ視点を基準としたボクセル空間に配置して当該深度情報の与える空間位置を定めたうえで、各ボクセルが当該深度情報の与える空間位置よりも仮想カメラ視点に近い側にあるか遠い側にあるかを判定し、近い側にあると判定されたボクセルのみを、視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定することを特徴とする。また、前記画像処理装置に対応する方法又はプログラムであることを特徴とする。

本発明によれば、ユーザ視点におけるものとして取得された深度情報を用いることで、ユーザ視点でオクルージョン領域に該当すると判定される領域に関して視体積交差法の適用を抑制することで、計算コストを抑制したうえで、描画に用いた際にも自然な表示を実現できる３Ｄモデルを生成することができる。

一実施形態に係る画像処理システムの機能構成を示す図である。画像処理システムのユースケースとしてのテレプレゼンスの模式図である。本発明の一実施形態に係る画像処理システムと従来技術のサーバサイドレンダリングとを対比した表（各情報の模式的なイラストを含む）である。一実施形態に係る取得部の機能ブロック図である。既存技術としての視体積交差法を模式的に示す図である。生成部においてオクルージョン領域を除外して視体積交差法を適用することで計算負荷が低減されることを、従来技術との対比で模式的に示す図である。一実施形態に係る生成部による視体積交差法のフローチャートである。一実施形態に係るステップS12でのオクルージョン領域にあるか否かの判定処理のフローチャートである。第一実施形態で発生しうる課題を模式的に示す図である。図９に模式的に示された第一実施形態の課題に対して第二実施形態によって提供される解決策を模式的に示す図である。第二実施形態による生成部13のモデル生成の手順の一例を示すフローチャートである。説明例に対応する時刻t=0秒の描画情報と時刻t=0.1秒での描画情報との模式例を示す図である。一般的なコンピュータ装置におけるハードウェア構成の例を示す図である。

図１は、一実施形態に係る画像処理システムの機能構成を示す図である。画像処理システム100は、ネットワークNWを介して相互に通信可能な画像処理装置10及び端末装置20を備えて構成される。画像処理装置10は機能ブロック構成として、撮影部11、抽出部12、生成部13及び描画部14を備える。端末装置20は機能ブロック構成として、取得部21、表示側撮影部22及び表示部23を備える。

画像処理システム100のユースケースとして、図２にその模式図を示すように、複数のカメラ映像から任意の視点のビューを作り出すことができる自由視点映像技術を活用して、遠隔にいる人物が別の場所にあたかも存在するかのような体験が可能なテレプレゼンスなどを挙げることができる。この場合、撮影環境PE側にサーバ装置としての画像処理装置10が存在し、複数台（N台、N≧2）のカメラC1,C2,…,CNを利用して、被写体OBの３Ｄモデルを作る。作られた被写体の３Ｄモデルは仮想カメラにより描画（レンダリング）され、描画結果の仮想オブジェクトVOBがユーザに送信される。

そして、模式図としての図２にさらに示されるように、視聴環境WE側では、ユーザUはスマートグラスなどのARが視聴可能なデバイスとして構成される端末装置20を身につけており、ユーザの視聴環境の物理オブジェクトPOBと描画された仮想オブジェクトVOBが重畳された状態で表示される。（スマートグラス等の端末装置20を利用せずにユーザUが直接の目視で見た場合、物理オブジェクトPOBは実物として存在するが、端末装置20でAR用の表示として描画された仮想オブジェクトVOBは実物としては存在しない。）視聴環境WEには、テーブルなどの物理的オブジェクトPOBがあり、テーブルの奥側に仮想オブジェクトVOBとしての人物を配置しようとした場合、図２にも模式的に示されるように、仮想オブジェクトVOBの一部の領域が物理オブジェクトPOBに遮られる形でオクルージョンを考慮した表示がなされることが望ましい。

本発明の一実施形態に係る画像処理システム100ではこのように視聴ユーザ側のオクルージョンを考慮した表示が可能であり、且つ、オクルージョンに関連する領域は３Ｄモデルを生成することを省略して、計算負荷を低減させることが可能である。

図１にシステム構成を示したような画像処理システム100の枠組み自体は、ARにおけるサーバサイドレンダリングとして従来技術でも存在するものであるが、本発明の一実施形態に係る画像処理システム100は上記のようにオクルージョンに関連して従来技術にない効果を奏するものである。図３は、本発明の一実施形態に係る画像処理システム100と従来技術のサーバサイドレンダリングとを対比した表（各情報の模式的なイラストを含む）である。

図３に示されるように、AR表示の視聴者であるユーザ側からの取得情報は、従来技術ではスマートグラス等を介したユーザの視線情報のみが取得されるのに対し、本発明の一実施形態（以下、図３の説明において「本手法」と略称する）では視線情報に加えてデプス情報が取得される。生成３Ｄモデルに関して、従来技術ではオクルージョン箇所を考慮せずに生成されるのに対して、本手法ではオクルージョンは除外して計算負荷を低減して生成することが可能である。従って、この生成３Ｄモデルを用いた描画結果においても、従来技術ではオクルージョン箇所が除外されないのに対して本手法では除外して描画がなされ、ユーザに対するAR表示としての表示画像も同様に、従来技術ではオクルージョンが反映されないのに対して、本手法では反映される。

こうして、図３の模式的なイラストにも示されるように、従来技術では３Ｄモデルを生成する際に、ユーザの視聴環境にある物理オブジェクト（図２のテーブル等の物理オブジェクトPOB）は考慮されないため、３Ｄモデルを生成する被写体が人物であったなら、その全身がモデル生成の対象となる。そして、全身をレンダリングしたビュー画像が送られてくるため、視聴デバイス側でオクルージョン処理などを行わない限りは、物理オブジェクトに関係なく全身の仮想オブジェクトが表示されることになる。従来技術では、物理的なテーブルの上に仮想的な人物が重なってしまう表示となる。

上記のように従来技術とは異なり、オクルージョンを考慮することで３Ｄモデル生成の計算負荷を低減し、且つ、これによりオクルージョンを考慮した描画も可能な一実施形態に係る画像処理システム100の動作の詳細を、図１に示す機能ブロックの各機能部の詳細として以下で説明する。

＜撮影部11＞
撮影部11は、図２の撮影環境PEにおいてその模式例を示したように、撮影環境PE（例えば撮影スタジオ等）において、３Ｄモデル生成対象となる人物等のオブジェクトOBを取り囲んで撮影するように配置された複数N台（N≧2）のカメラC1,C2,…,CNをハードウェアとして構成される。撮影部11は当該各視点のカメラでオブジェクトOBを撮影することで得られる画像（N視点の多視点画像）を抽出部12及び描画部14へと出力する。

ここで、撮影部11をハードウェアとして構成するN台（N≧2）の各カメラC1,C2,…,CNのカメラパラメータ（内部パラメータ及び外部パラメータ）は既知または事前のキャリブレーションによって推定されており、画像処理装置10ではこのカメラパラメータの情報を参照して利用可能であるものとする。（例えば、後述する生成部13や描画部14の処理は、このカメラパラメータを参照して行うことが可能である。）

なお、撮影部11では映像としてリアルタイムにオブジェクトOBを撮影してN視点の多視点映像を取得し、画像処理装置10ではリアルタイムにこのオブジェクトOBを仮想オブジェクトVOBとして描画してその結果を端末装置20の側においてリアルタイムで表示させることができる。画像処理システム100の各機能部に関する以下の説明は、時間軸上での処理に関する特段の言及がない限り、このようなリアルタイムの処理における、ある１つの任意の時刻に関するものとする。すなわち、撮影部11で得る多視点画像とは、多視点映像におけるある任意の１時刻のフレームであるものとする。

＜抽出部12＞
抽出部12では、撮影部11で得た多視点画像におけるN視点のN枚の画像のそれぞれについて、撮影されているオブジェクトOBを前景のシルエットとして抽出することでマスク画像（シルエットの前景に該当する画素には値「1」を、それ以外の背景に該当する画素には値「0」を与えた２値マスク画像）を作成し、当該抽出されたN枚のマスク画像を生成部13へと出力する。

抽出部12でマスク画像を抽出する手法には任意の既存技術を利用してよい。例えば、多視点画像の各視点のN枚の画像についてそれぞれオブジェクトOBが存在しない状態で撮影された背景画像を予め用意しておき、背景差分法によりこの背景画像と相違すると判定される領域を前景と判定することで、抽出部12はマスク画像を抽出するようにしてよい。

＜取得部21＞
AR表示の視聴を行うユーザUが存在する視聴環境WE（図２）にある端末装置20（AR表示の視聴デバイス）の側に備わる取得部21は、この端末装置20を利用するユーザの環境情報をリアルタイムで取得して、ネットワークNWを経由してこの環境情報を画像処理装置10の生成部13へと送信する。ここで、取得部21で環境情報を取得した際は、その取得時刻がタイムスタンプとして紐づけられたうえで、生成部13へと送信される。

図４は一実施形態に係る取得部21の機能ブロック図であり、取得部21は位置姿勢取得部211及びデプス取得部212を備える。取得部21ではユーザの環境情報として、位置姿勢取得部211が取得するユーザ視点に関する位置姿勢の情報（視線情報）と、デプス取得部212が取得するユーザから見た視聴環境における深度情報（深度の空間的な分布情報）を表すデプス画像の情報と、を生成部13へと送信することができる。位置姿勢取得部211及びデプス取得部212では位置姿勢の情報及びデプス画像をそれぞれ取得するに際して、後述する表示側撮影部22で撮影される画像を利用するようにしてもよいし、この画像を利用しないで環境情報を取得するようにしてもよい。

（位置姿勢取得部211）
位置姿勢取得部211では、任意の既存手法により、端末装置20の位置姿勢の情報を取得することができる。この位置姿勢の情報は、カメラパラメータにおける外部パラメータの情報に相当するものとして、ユーザUが存在する視聴環境PE（図２）で定義される３次元世界座標系において、端末装置20の位置及び姿勢を与えるものである。

例えば、位置姿勢取得部211はハードウェアとして位置姿勢を取得するセンサ（加速度センサ、ジャイロセンサ、方位センサ等の全部又は一部）を備えて構成され、当該センサの計測出力より位置姿勢の情報をリアルタイムに取得するようにしてもよい。また、位置姿勢取得部211は表示側撮影部22で撮影して得られた画像を解析することにより、位置姿勢を取得するようにしてもよい。例えば、ユーザUが存在する視聴環境WE（図２）には予め、カメラの位置姿勢の検出に利用可能な所定のマーカ（AR技術で利用される正方マーカ等）を配置しておき、表示側撮影部22で得た画像に対してコーナ検出又はSIFT特徴量等の検出を行うことにより画像内でのマーカ領域を検出したうえで、外部パラメータとして位置姿勢を取得するようにしてもよい。

（デプス取得部212）
デプス取得部212では、任意の既存手法により、ユーザUが存在する視聴環境WE（図２）にある端末装置20から見たデプス画像（位置姿勢取得部211の取得する位置姿勢にデプスカメラ等があるものとしたデプス画像）を取得することができる。

例えば、デプス画像取得部212はハードウェアとしてデプスカメラ（ＴＯＦ（光の到達時間）方式やパターン照射方式等の任意の既存のデプスカメラ）を備えて構成されることで、当該デプスカメラによりデプス画像を取得してよい。また、デプス画像取得部212は表示側撮影部22で撮影して得られた画像を解析することにより、デプス画像を取得するようにしてもよい。例えば、表示側撮影部22で撮影した現時刻の画像と過去時刻の画像との間で同一点対応を求めたうえでステレオマッチングにより深度を取得してデプス画像を求めるようにしてもよいし、予め深層学習によって撮影画像からデプス画像を出力するよう学習されたニューラルネットワークを適用することでデプス画像を求めるようにしてもよい。

なお、前述の図３の表内の「デプス情報」に対する模式的なイラストとして、デプス画像取得部212で得るデプス画像の模式例が示されている。この模式的なデプス情報は、図２の物理オブジェクトPOBの例としてのテーブルに関するものであり、テーブル面（垂直及び水平の２面）に該当する箇所は深度値が小さいものとして白色寄りで、テーブル面以外の箇所は深度値が大きいものとして黒色寄りで、デプス画像をグレースケール画像として表現したものとなっている。

＜生成部13＞
生成部13では、抽出部12で得たN視点のN枚のマスク画像に対して、取得部21から送信される端末装置20側のユーザの環境情報を考慮することで、オクルージョン領域を除外した形で視体積交差法を適用し、生成されたオブジェクトOBの３Ｄモデル（仮想オブジェクトVOB）を描画部14へと出力する。なお、抽出部12から得られるN枚のマスク画像には撮影部11における共通の撮影時刻（N台のカメラで同期されている）が紐づいており、取得部21での環境情報にもタイムスタンプとして取得時刻が紐づいているので、生成部13ではN枚のマスク画像の時刻と同一時刻の環境情報を参照したうえで、３Ｄモデルを生成することができる。

図５は、既存技術としての視体積交差法を模式的に示す図である。既知のように、視体積交差法の原理は、N台のカメラC1,C2,…,CNの位置（図５ではカメラをそのカメラ中心として示す）からそれぞれ、マスク画像M1,M2,…,MNの前景上へと３次元逆投影を行って得られる視錐体V1,V2,…,VNが全て通過する共通体積部分（ビジュアル・ハルVH）として、３Ｄモデルを得るものである。なお、図５では模式例としてN台のカメラのうち最初の2台C1,C2とそのマスク画像M1,M2及び視錐体V1,V2のみが示されている。

この図５に模式的に示される原理に基づく視体積交差法（ボクセルを利用するもの）で実際に３Ｄモデルを生成する際は、３次元逆投影とは逆に、マスク画像上への２次元投影を利用することができる。すなわち、モデル空間に所定のボクセル集合（３次元モデル空間内での離散的な格子点集合）を予め定義して配置しておき、ボクセルの各点（X,Y,Z）に関して、N台のカメラC1,C2,…,CNのマスク画像M1,M2,…,MN上へと２次元投影を行うことで各マスク画像上での投影位置(x,y)_[1],( x,y)_[2]…, (x,y)_[N]を求め、N枚のマスク画像の全てにおいて、シルエットとしての前景上に投影されたようなボクセル点（X,Y,Z）に関しては３Ｄモデルの内部（又は表面）に属すると判定し、これ以外のボクセル点（X,Y,Z）（少なくとも１枚のマスク画像において背景上に投影されたボクセル点（X,Y,Z））に関しては、３Ｄモデルに属さない外部の点であると判定することができる。こうして肯定判定を得られたボクセルの集合が、得られる３Ｄモデルとなる。

上記のように、ボクセルを用いた既存技術としての視体積交差法においては、３次元モデル空間内の所定範囲（例えば直方体状の範囲）に、所定密度のボクセル集合(X,Y,Z)を定義しておき、当該格子点としての全てのボクセル点(X,Y,Z)に関して、視体積交差法によるN枚のマスク画像上への前景／背景への投影結果の判定を行うこととなる。

生成部13では、上記既存技術としての視体積交差法をそのまま適用するのではなく、取得部21で得られる環境情報を参照することにより、モデル空間内に予め所定範囲に所定密度で定義されているボクセル集合の全ての点(X,Y,Z)のうち、オクルージョンの影響がないと判定されるもののみについて、視体積交差法によるN枚のマスク画像上への前景／背景への投影結果の判定を行う。これにより、生成部13ではボクセルの全ての点(X,Y,Z)のうち、オクルージョンの影響があると判定されるものに関しては投影処理を最初から省略し、生成される３Ｄモデルを構成する点から除外する判定を得ることが可能となるため、従来技術と比べて計算負荷を低減することが可能となる。

図６は、生成部13においてオクルージョン領域を除外して視体積交差法を適用することで計算負荷が低減されることを、従来技術との対比で模式的に示す図である。第１パネルPL1内に示される従来技術では、予め定義されるボクセル集合VS内の全ての点について視体積交差法を適用し、前景該当ボクセルの集合としてオブジェクトOBの仮想オブジェクトVOB'が３Ｄモデルとして得られる。一方、第２パネルPL2内に示される生成部13の手法では、ボクセル集合VS内の全ての点のうち、オクルージョンの影響があると判定される点を除外して視体積交差法を適用し、前景該当ボクセルの集合としてオブジェクトOBの仮想オブジェクトVOBが３Ｄモデルとして得られる。

図６に示される従来技術の仮想オブジェクトVOB'は人物等のモデル化対象のオブジェクトOBの全身がモデル化されているのに対し、生成部13の仮想オブジェクトVOBは、図２に模式例を示したテーブル等の物理オブジェクトPOBによるオクルージョン領域ROC（仮想カメラVCから見た、ある視錐体領域におけるオクルージョン領域ROCとしてその一部分が示される）を予め除外し、全身のうちの一部のみがモデル化されている。なお、図６ではオクルージョン領域ROCとの区別として、仮想カメラVCから見た、ある視錐体領域における視体積交差法の判定対象の領域RDもその一部分が示されている。

図７は、一実施形態に係る生成部13による視体積交差法のフローチャートであり、以上説明した通りのオクルージョン領域を除外する手法の詳細を示すものである。

ステップS10では、視体積交法を適用する際の全体的な設定として、得られる３Ｄモデルを構成するか否かの判定対象となるボクセル集合等を設定してから、ステップS11へと進む。ステップS10において、３Ｄモデル空間内の所定範囲に所定密度で設定したボクセル集合を{v_i|i=1,2,…,M}とする。当該設定される各ボクセルv_i(i=1,2,…,M)に対して以降のステップS11～S17の繰り返し処理で３Ｄモデルに属する点か否かの判定が行われるが、i番目に判定されるのがボクセルv_iであるものとする。当該ボクセルv_iの判定順序は任意でよく、例えば３次元空間内のラスタスキャン順等で定めておけばよい。

ステップS10ではボクセル集合{v_i|i=1,2,…,M}を設定したうえでさらに、各ボクセルv_iが３Ｄモデルに属するか否かの２値の判定結果の初期値として判定結果E(v_i)=0（「３Ｄモデルには属さない」を表す）を設定する。以下に説明するように、ボクセルv_iのうち、以降のステップS11～S17の繰り返し処理においてステップS16に到達したものは判定結果がE(v_i)=1（「３Ｄモデルに属する」を表す）に書き換えられることとなり、ステップS16に到達しなかったものは当該書き換えられることなく、初期値としての判定結果E(v_i)=0（「３Ｄモデルには属さない」）が実際の結果として確定することとなる。

また、ステップS10ではさらに、ボクセル集合{v_i|i=1,2,…,M}を設定した３次元モデル空間内に、オクルージョン領域の判定を行うための基準位置としてのAR視聴を行うユーザの仮想視点VC（図６で模式的に示した仮想カメラVC）を設定する。この仮想視点の位置は、ユーザ側の端末装置20の取得部21の位置姿勢取得部211で取得され送信された位置姿勢に即したものとして、３次元モデル空間内に設定すればよい。（なお、この３次元モデル空間に関しては、撮影部11を構成するカメラが撮影している撮影環境PEの世界座標系に一致するものとして設定してよい。）

すなわち、位置姿勢取得部211ではユーザが存在する視聴環境WEの世界座標系における位置姿勢を取得するが、これに予め設定しておく所定変換（並進及び回転）を施すことで、３次元モデル空間内での仮想視点VCの位置姿勢を得ることができる。この所定変換は、画像処理システム100で提供するAR視聴コンテンツを用意する管理者等が、撮影側環境PEにおけるモデル化対象となるオブジェクトOBの配置（移動範囲等を含み、撮影部11を構成するカメラを基準とする配置）と、視聴環境WEにおける仮想オブジェクトVOBの配置（移動範囲等を含み、視聴デバイスとしての端末装置20を基準とする配置）と、を考慮して、これらの位置合わせを行うための情報として予め設定しておけばよい。

また、当該所定変換に対してさらに、端末装置20を利用するユーザの指定入力による、仮想オブジェクトの表示位置姿勢を調整する変換を適用する（所定変換と位置調整変換の合成変換を適用する）ことで、３次元モデル空間内での仮想視点VCの位置姿勢を得るようにしてもよい。この調整するための情報に関しては、時刻を紐づけたうえで環境情報に含めて生成部13に送信すればよい。

既に説明したように、この図７のフロー全体はリアルタイムに各時刻について実施することができるが、この各時刻のステップS10で設定される仮想視点VCの位置姿勢は、所定変換が施されることにより、位置姿勢取得部211で取得した位置姿勢と同様の挙動で３Ｄモデル空間内を移動するものとなる。

ステップS11では、３Ｄモデルに属する点であるか否かの判定がまだ行われていない未処理のボクセルv_iを選択してから、ステップS12へと進む。ステップS12では、当該ボクセルv_iがオクルージョン領域にあるか否かを判定してから、ステップS13へと進む。

図８は、一実施形態に係るステップS12でのオクルージョン領域にあるか否かの判定処理のフローチャートである。図８に示される手順における主要な処理は、当該ボクセルv_iをデプス取得部212より送信されて得られたデプス画像の深度値と照合することで、当該ボクセルv_iが深度値の示す位置よりも手前側（仮想カメラVCに近い側）にあればオクルージョン領域にないと判定し、逆に奥側（仮想カメラVCよりも遠い側）にあればオクルージョン領域にあると判定するものである。

ステップS20では、当該ボクセルv_iと仮想カメラVCとの間の距離dist(v_i,VC)を計算してから、ステップS21へと進む。（この距離dist(v_i,VC)をボクセルv_iに紐づくものとして距離e_iと表記する。なお、ボクセルviに関しては予め３Ｄモデル空間内に設定され、仮想カメラVCも図７のステップS10で３Ｄモデル空間内の位置（及び姿勢）が求められているので、３Ｄモデル空間内で距離e_iを計算できる。）

ステップS21では当該ボクセルv_iをボクセル空間座標系（すなわち、３Ｄモデル空間座標系）から仮想カメラVCの座標系に変換してから、ステップS22へと進む。この座標変換されたボクセルをv'_iと表記する。なお、仮想カメラVCの位置姿勢は図７のステップS10で３Ｄモデル空間内において求められているので、この「v_i→v'_i」の座標変換が可能である。

ステップS22では、ステップS21で得た座標変換ボクセルv'_i=(X,Y,Z)を仮想カメラVCの画像座標系に定義される「前景デプス画像」の画素位置(x,y)にマッピングし、この画素位置(x,y)の画素値としてステップS20で求めた距離e_i=e_i(x,y)を割り当ててからステップS23へと進む。（ここで、この距離e_iを画素値として割り当てることで、仮想カメラVCの画像座標系の画像としてボクセルv_i毎に定義される「前景デプス画像」が得られる。マッピングした画素位置(x,y)以外では「前景デプス画像」の画素値は定義されない。）

ステップS22における、ボクセルv'_iの空間座標位置(X,Y,Z)から仮想カメラVCの２次元画像座標系の位置(x,y)への変換は、仮想カメラVCについて予め設定されている内部パラメータを用いた２次元投影として行うことができる。（なお、端末装置20の表示部23においてAR表示を行う際も、この仮想カメラVCの内部パラメータを用いて画像処理装置10の描画部14（後述）でなされた描画結果が表示されることとなる。）

ステップS23では、ステップS21で得た座標変換ボクセルv'_i=(X,Y,Z)が仮想カメラVCの画角内（仮想カメラVCの位置から画像平面の画像範囲（通常は矩形）へと３次元逆投影した視錐体の範囲内）に含まれているか否かを調べてから、ステップS24へと進む。ステップS23での仮想カメラVCの画角の範囲は、仮想カメラVCのカメラパラメータとして予め定められた範囲を用いればよい。（なお、当該範囲内において描画部14（後述）の描画もなされることとなる。）

ステップS24では、ステップS23で調べた結果が、ボクセルv'_iが画角範囲内であった場合（肯定の場合）にはステップS25へと進み、範囲外であった場合（否定の場合）にはステップS27へと進む。

ステップS25では、ステップS22にてマッピングした画素位置(x,y)において、同ステップS22で求めた前景デプス画像の画素値（距離e_i）から「背景デプス画像」の画素値d(x,y)を減算した差D=e_i(x,y)-d(x,y)を求め、ステップS26へと進む。ここで、減算する「背景デプス画像」には、端末装置20のデプス取得部212で取得されたデプス画像を用いる。（すなわち、「背景デプス画像」とは、ユーザの視聴環境WEに存在する背景（物理オブジェクトPOB等）の深度の画像として、ボクセルv'_iの深度を与える「前景デプス画像」と区別したものである。）

なお、デプス取得部212では仮想カメラVCの画像平面の画素位置(x,y)において深度d(x,y)を与えたものとしてデプス画像を取得可能なように、予めキャリブレーション等を行ったうえで、深度を取得するものとする。

ステップS26では、ステップS25で求めた差Dが正である（D>0）か否かを判定し、肯定（D>0）であればステップS27へと進み、否定（D≦0）であればステップS28へと進む。

ステップS27では、当該ボクセルv_iはオクルージョン領域に該当するとの判定結果を得て、図８のフロー（図７のステップS12の判定処理）を終了する。ステップS28では、当該ボクセルv_iはオクルージョン領域に該当しないとの判定結果を得て、図８のフローを終了する。

ここで、ステップS26からステップS27に至る場合は差D>0であり、当該ボクセルv_iの空間位置が対応する深度値d(x,y)の与える空間位置よりも奥側（仮想カメラVCからみて遠方側）であるため、オクルージョン領域にあるものと判定している。一方、ステップS26からステップS28に至る場合はこの逆であるため、オクルージョン領域ではないものと判定している。

なお、オクル―ジョン領域にあると判定するステップS27に至るのはステップS26からではなく、ステップS24での否定判定を得てから至る場合もある。ステップS24で否定判定を得た場合は、当該ボクセルv_iが仮想カメラVCの画角の範囲外の場合であり、この場合は当該ボクセルv_iがAR表示を行いうる範囲内を逸脱している（描画部14や表示部23によるAR描画及び表示の範囲からフレームアウトしている）ため、３Ｄモデル生成及びAR描画等を省略するための便宜上、オクルージョン領域であるとの判定結果を付与することとなる。

以上、図７のステップS12の一実施形態として図８の各ステップを説明したので、再び図７の各ステップの説明に戻る。

ステップS13では、ステップS12の判定結果が否定（オクルージョン領域でない）であった場合にはステップS14へと進み、肯定（オクルージョン領域である）であった場合には当該ボクセルv_iについての処理は完了したものとしてステップS17へと進む。

ステップS14では、当該ボクセルv_iに視体積交差法を適用し、図５で説明したように、抽出部12で得たN枚のマスク画像の全てにおいて前景シルエット上に当該ボクセルv_iが投影されることで３Ｄモデルに含まれる点に該当するか否かを調べてから、ステップS15へと進む。

ステップS15では、ステップS14での結果が肯定で３Ｄモデルに含まれる点に該当するものであった場合にはステップS16へと進み、否定であった場合には当該ボクセルv_iについての処理は完了したものとしてステップS17へと進む。ステップS16では当該ボクセルv_iの判定結果を初期値から書き換えてE(v_i)=1（「３Ｄモデルに属する」）とし、当該ボクセルv_iについての処理は完了したものとしてステップS17へと進む。

ステップS17ではステップS10で設定したボクセル集合{v_i|i=1,2,…,M}の全てのボクセルについて処理が完了したか否かを判断し、完了していればステップS18へと進み、未処理のボクセルが残っていればステップS11へと戻る。なお、ステップS11～S17の繰り返し処理により、ボクセル集合{v_i|i=1,2,…,M}の各ボクセルに関して、以下の３通りのいずれかの判定結果が得られることとなる。

（第１ケース）「S16→S17」と遷移することで、視体積交差法（S14）を適用したうえで、E(v_i)=1（オクルージョン領域に該当せず、「３Ｄモデルに属する」）と判定される。
（第２ケース）「S15→S17」と遷移することで、視体積交差法（S14）を適用したうえで、E(v_i)=0（オクルージョン領域に該当せず、「３Ｄモデルに属さない」）と判定される。
（第３ケース）「S13→S17」と遷移することで、視体積交差法（S14）を適用することなく、E(v_i)=0（オクルージョン領域に該当するため「３Ｄモデルに属さない」）と判定される。

ステップS18では、E(v_i)=1（「３Ｄモデルに属する」）と判定されたボクセル集合に対してポリゴン化することで表面形状を得るようにする等の後処理を行い、描画が可能な状態としての３Ｄモデルを生成部13より描画部14へと出力して、図７のフローは終了する。ポリゴン化などの後処理には任意の既存技術を用いてよい。

なお、図７のフローに即して上記の第１～第３ケースの区別を付与して各ボクセルv_iの判定結果を得るようにしたうえで、ステップS14において視体積交差法を適用するに際しては、任意の既存手法を組み合わせるようにしてもよい。

＜描画部14＞
描画部14では、生成部13で生成された３Ｄモデルを、撮影部11で得た多視点画像のテクスチャを用いて仮想カメラVCの視点においてレンダリングすることで描画し、得られた仮想視点画像（描画がなされた箇所以外は画素値が定義されないマスク画像となる）を端末装置20の表示部23へと送信する。

描画部14におけるレンダリングには、自由視点映像の合成等において利用されている任意の既存手法（例えば前掲の特許文献３の手法）を利用してよく、３Ｄモデルの要素であるポリゴンを仮想カメラVC視点の画像平面へと投影し、当該投影したポリゴンに、撮影部11で得た多視点画像より対応するテクスチャを選択して、投影による変形を反映したうえで貼り付けるようにすればよい。ここで、N個の視点の多視点画像のうち、仮想カメラVCに近い位置姿勢にある１つ以上の画像よりテクスチャを選択すればよい。２つ以上の画像を用いる場合は重みづけ和などを用いてよい。

＜表示部23及び表示側撮影部22＞
表示部23は、描画部14より送信された仮想視点画像をユーザに対して表示することで、ユーザに対してAR視聴を可能とする。ハードウェアとしての表示部23は例えば、光学シースルー型HMD又はビデオシースルー型HMDとして実現することができる。前者（光学シースルー型HMD）の場合であれば、ユーザの肉眼にそのまま見えている視聴環境WEの実物の背景に対して、描画部14より送信された仮想視点画像（マスク画像）のみを重畳表示すればよい。後者（ビデオシースルー型HMD）の場合、ハードウェアとしてはカメラで構成される表示側撮影部22が撮影した視聴環境WEの背景画像に対して、描画部14より送信された仮想視点画像（マスク画像）を重畳表示すればよい。なお、端末装置20側での画像撮影が不要な場合、表示側撮影部22は省略してよい。

以上、本発明の一実施形態によれば、モデル生成や描画を行うサーバ（画像処理装置10）において、モデル生成を簡略化することができるため、サーバでのモデル生成や簡略化されたモデルによるレンダリングコストの削減などが期待でき、且つ、視聴デバイス（端末装置20）の側において、物理オブジェクトとのオクルージョンを考慮した仮想オブジェクトの表示が可能になり、より自然なAR表示が実現できる。

なお、画像処理装置10と端末装置20とで利用する各種の３次元座標系自体は、AR表示を実現するものとして、既存のサーバサイドレンダリングと同様の関係を用いればよいが、まとめると以下の通りである。

端末装置20では、視聴側の世界座標系(X,Y,Z)_{[視聴側世界]}において位置姿勢情報を取得し、デプス画像にはこの位置姿勢情報が、デプス画像を取得したデプスカメラの位置姿勢を表すものとして、同じ時刻で取得されたものとして紐づいている。画像処理装置10においては、撮影部11では、撮影側の世界座標系(X,Y,Z)_{[撮影側世界]}に配置されたモデル化対象のオブジェククトOBをN視点の各カメラCk(k=1,2,…,N)のカメラ座標(X,Y,Z)_[Ck]において撮影する。生成部13では、３Ｄモデル空間としてのボクセル空間(X,Y,Z)_{[ボクセル]}に予めボクセルを定義しておく。既知のカメラパラメータにより、N個のカメラ座標系と撮影側世界座標系との相互変換「(X,Y,Z)_[Ck]⇔(X,Y,Z)_{[撮影側世界]}」が可能である。また、ボクセル空間(X,Y,Z)_{[ボクセル]}は撮影の舞台である世界座標系(X,Y,Z)_{[撮影側世界]}に管理者等が設定するものであるため、これらの相互変換「(X,Y,Z)_{[ボクセル]}⇔(X,Y,Z)_{[撮影側世界]}」も可能である。（同一のものとして「(X,Y,Z)_{[ボクセル]}=(X,Y,Z)_{[撮影側世界]}」として設定してもよい。）

また、ステップS10で説明したように所定変換によって、視聴を行う端末装置20側の世界座標系と画像処理装置10側のボクセル座標系とが「(X,Y,Z)_{[視聴側世界]}⇔(X,Y,Z)_{[ボクセル]}」のように変換可能である。特に、この変換により視聴側世界座標で取得された端末装置20の位置姿勢をボクセル座標系の位置姿勢に変換したものが、ボクセル座標系内において仮想カメラVCの位置姿勢を与える。このように仮想カメラVCの位置姿勢がボクセル座標系(X,Y,Z)_{[ボクセル]}において与えられていることから、ボクセル座標系と仮想カメラVCの座標系との変換「(X,Y,Z)_{[ボクセル]}⇔(X,Y,Z)_[VC]」（ステップS21の「v_i→v'_i」等）も、原点位置及び座標軸の向きの変換として可能である。

そして、画像処理装置10において仮想カメラVCの座標系(X,Y,Z)_[VC]で求めた３Ｄモデルを描画して端末装置20の側で表示する際には、仮想カメラVCの視点がそのまま、端末装置20におけるAR視聴を行うユーザ視点に一致するものとして扱えばよい。（例えば、表示部23での表示を、ビデオシースルー方式で実現し、表示側撮影部22で撮影した背景画像に対して重畳表示する場合、仮想カメラVCの内部パラメータを、表示側撮影部22を構成するハードウェアとしてのカメラの内部パラメータと同じものとすることで、表示が整合するように描画部14において描画を行うことが可能となる。光学シースルー方式の場合も同様である。）

以上説明した実施形態を第一実施形態とし、以下ではこの変形例である第二実施形態ないし第六実施形態を説明する。

＜第二実施形態＞
第二実施形態は、第一実施形態において得られた仮想オブジェクトを用いて３Ｄモデル空間に光源を配置したうえで仮想オブジェクトの影を含めて描画を行う場合に発生しうる、次のような課題への対処を可能とするものである。

すなわち、３Ｄモデル空間において光源を設置して描画した場合、光源と仮想オブジェクトとの位置関係より、影が生成される。しかしながら、第一実施形態ではオクルージョンを考慮して一部のボクセルについてはモデル生成を省略していることで、省略された領域に対する影が生成されなくなる。オクルージョン領域自体は、ユーザのビューから見えない部分であるが、その影についてはユーザから見える部分である場合がある。この場合に、ユーザから見ると影が途切れたり消失したりしている状態となり、不自然に見えてしまうというのが第一実施形態で発生しうる課題である。

そこで、第二実施形態では、オクルージョン領域である全てのボクセルに関してモデル化をスキップするのではなく、オクルージョン領域であるボクセルのうち、影に影響する部分のボクセルはモデル化し、影に影響しない部分のみモデル化をスキップする。

図９は第一実施形態で発生しうる上記の課題を模式的に示す図である。（なお、図９では３Ｄモデル空間をその２次元断面によって模式的に示している。）第一実施形態では、仮想カメラVCから見て物理オブジェクトPOBに遮蔽されている領域はオクルージョン領域ROCを形成し、生成される仮想オブジェクトVOBはこのオクルージョン領域ROC外部のみにおいて生成され、図９の例においては本来のオブジェクトOBの上側部分up及び下側部分dpの２つに分断された形で生成されている。ここで、図３で説明した従来技術を適用して仮想オブジェクトVOBを生成したと仮定すると、上側部分up及び下側部分dpの２つに分断されるのではなく、その中間部分mp（オクルージョン領域ROC内にある）をも含めて、本来のオブジェクトOBの全体が生成されることとなる。

このように第一実施形態で生成された仮想オブジェクトVOBに対して仮想光源VLを配置して、その影を仮想空間内に定義される地面GR上において描画すると、上側部分upに由来する上側影領域usと下側部分dpに由来する下側影領域dsと、の２領域に分断された影が描画されるが、仮想カメラVCはこの分断された状態の影が見える位置にあり、AR視聴ユーザに不自然な印象を与えてしまう。

図１０は、図９に模式的に示された第一実施形態の課題に対して第二実施形態によって提供される解決策を模式的に示す図である。図１０にて図９と同一の符号は同一内容を表すため、重複した説明は省略する。図１０に示されるように、不自然な印象を与える原因であった、仮想オブジェクト生成が省略された中間部分mpについて、第二実施形態では、第一領域m1及び第二領域m2の区別を得ることができる。

第一領域m1は、オクルージョン領域ROC内にあるが仮想オブジェクトVOBを構成する領域として視体積交法を適用して算出されたものであり、仮想オブジェクトVOBのテクスチャ描画においては無視するが、影の描画においては考慮するように扱うものである。第二領域m2は、結果的に第一実施形態と同様に視体積交差法の適用対象除外として扱われるものである。（なお、図１０の例では上側部分up寄りと下側部分dp寄りの２領域で第二領域m2が構成されている。）

第二実施形態では、オクルージョン領域ROC内であっても上記の第一領域m1のように、影に影響する領域の区別を得ることができ、図１０に示されるように影の描画の際には第一領域m1によって生じる中間影領域ms1も描画されることで、影領域がus,ms,dsと途切れることなく連続したものとして描画され、仮想カメラVCから見た際の第一実施形態での不自然な印象を解消することが可能となる。

第二実施形態は具体的に以下のように、生成部13、描画部14及び表示部23の処理が第一実施形態から変更や追加を伴うものとなる。（その他の機能部の処理内容は第二実施形態と第一実施形態とで同様であるため、重複した説明は行わない。）

＜生成部13…第二実施形態＞
図１１は、第二実施形態による生成部13のモデル生成の手順の一例を示すフローチャートである。図１１のフローチャートは、図７のフローチャートに示されるのと同様のステップS10～S18に、第二実施形態での追加手順としてのステップS131及びS132を加えたものである。ステップS10～S18に関しては図７の同符号のステップと特段の追加説明がない限り同様であるため、重複する説明は省略し、相違点としてのステップS13,S131,S132,S16,S18に関して以下で説明する。

図１１のステップS13では図７のステップS13と同様に、当該ボクセルv_iがオクルージョン領域に該当するか否かの判定結果による場合分けでフローの進み先が分岐する。図１１のステップS13にて否定判定の場合（オクルージョン領域に該当しない場合）は、図７と同様にステップS14へと進むが、肯定判定の場合（オクルージョン領域に該当する場合）、ステップS131へと進む。

ステップS131では、当該ボクセルv_iが影に影響するものであるか否かの判定を行い、ステップS132へと進む。ステップS131での判定の詳細はステップS16での追加処理の詳細と共に後述する。ステップS132では、ステップS131での判定結果が肯定（影響する）の場合、ステップS14へと進み、否定（影響しない）の場合、当該ボクセルv_iについての処理は完了したものとしてステップS17へと進む。

上記のようにステップS13での肯定判定での分岐先のステップS131,S132が追加されることにより、図１１の第二実施形態のステップS18では、図１０の模式例の第一領域m1として示したように、オクルージョン領域に該当するが、影に影響するボクセルをも含めて３Ｄモデルを得ることができる。すなわち、第一実施形態では各ボクセルv_iの判定結果は第１～第３ケースのいずれかであったが、第二実施形態ではこの第３ケースに関しても影に影響しうると判定されたボクセルであれば、視体積交差法を適用する対象となり、３Ｄモデルを構成する点であるか否かの判定結果が得られることとなる。

（ステップS131での判定処理の詳細）
ステップS131では、当該ボクセルv_iを仮想空間内の所定位置が定義されている仮想光源VLにおけるカメラ座標系の画像平面にマッピングし、その画素位置(x,y)を求め、仮想光源VLとボクセルv_iとの距離e2_i=dist(v_i,VL)を計算する。ここで、後述するステップS16の追加処理により、仮想光源VLにおけるカメラ座標系の画像平面には、仮想光源VLから見て３Ｄモデルに属するボクセルとの距離のうちの最小値が「光源デプス画像」として記録され継続的に更新されている。

従って、ステップS131ではさらに、この光源デプス画像における当該画素位置(x,y)の値L(x,y)を参照し、距離e2_iとこの光源デプス値L(x,y)との大小関係を判定し、「e2_i>L(x,y)」であれば、当該ボクセルv_iよりも光源VLに近い側（且つ、当該ボクセルv_iと光源VLとを結ぶ線分上）に、３Ｄモデルを構成するボクセルが既に存在するので、当該ボクセルv_iは影に影響しないと判定する。（当該より近い既に存在するボクセルによる影で、当該ボクセルv_iによる影も生成できるためのである。）逆に、否定判定すなわち「e2_i≦L(x,y)」の場合は、当該ボクセルv_iは影に影響すると判定する。

（ステップS16での追加処理の詳細）
ステップS16での追加処理として、上記ステップS131で参照するための「光源デプス画像」の画素値を更新する。具体的には、ステップS131と同様に、当該３Ｄモデルを構成する点であると判定されたボクセルv_iに関して、仮想光源VLにおけるカメラ座標系の画像平面にマッピングし、その画素位置(x,y)を求め、仮想光源VLとボクセルv_iとの距離e2_i=dist(v_i,VL)を計算する。そして、当該計算した距離e2_iに関して、現時点での同位置(x,y)における光源デプス画像の画素値L(x,y)との大小関係を調べ、距離e2_iの方が小さい（「e2_i<L(x,y)」）ならば、光源デプス画像の画素値L(x,y)を、当該より小さい距離e2_iの値で上書きして更新する。否定「e2_i≧L(x,y)」の場合、値の更新は行わない。なお、光源デプス画像の画素の初期値として、ステップS10において各画素位置(x,y)における光源デプス値L(x,y)＝∞（無限大）を設定しておけばよい。計算された距離e2_iの値によらず常に、大小関係は「e2_i<∞」である。

以上、ステップS16での追加処理として更新する光源デプス画像を用いた、ステップS131の判定処理の意義は次の通りである。

すなわち、図１１に示されるフローの繰り返し処理で３Ｄモデルに属するか等が所定順番（ラスタスキャン順など）で判定される各ボクセルv_iに関して、オクルージョン領域にあると判定された場合（ステップS131に到達した場合）、当該判定等の処理が既に完了している別のボクセルv_j(j<i)であって、当該ボクセルv_iから見て、光源VLを遮蔽する位置に存在し、且つ、３Ｄモデルに属するもの（オクルージョン領域内のものも含む）が存在する場合、当該ボクセルv_iは影に影響しないと判定する。一方、このような別のボクセルv_jが存在しない場合、当該ボクセルv_iは、（処理順番においてv_i自身より前に）既に判定された３Ｄモデルを構成するいずれのボクセルによっても遮蔽されることなく、光源VLを直接に見ることができる位置にあるため、当該ボクセルv_iは影に影響すると判定している。

光源デプス画像は、上記のように仮想光源VLから見て当該ボクセルv_iが別のボクセルv_j（３Ｄモデルを構成するもの）によって遮蔽されているか否かの判定を行うための手段の一例であり、光源カメラの内部パラメータを設定しておくことで、簡素に当該判定を行うことができるものである。（光源デプス画像をそのまま用いて何らかの描画を行うためのものではない。）

＜描画部14…第二実施形態＞
描画部14では、生成部13で得られた３Ｄモデルを用いて、光源を反映した描画を行う。ここで、３Ｄモデルの全体のうち、オクルージョン領域とは判定されなかった部分に関しては、そのテクスチャを第一実施形態と同様にして光源を反映したうえで描画し、且つ、光源が存在することによって当該領域によって生じる影も描画するようにすればよい。一方、３Ｄモデルの全体のうち、オクルージョン領域と判定された部分に関しては、ユーザ視点（仮想カメラ）から見えないためテクスチャ描画は省略するが、当該領域によって当該光源との関係で生じる影に関する描画は行うようにすればよい。（すなわち、テクスチャ描画は、３Ｄモデル全体のうち、オクルージョン領域でない部分のみを用いて行い、影の描画は、オクルージョン領域であるか否かを問わず、３Ｄモデル全体を用いて行えればよい。）光源効果を付与した影の描画に関しては、３ＤＣＧ（３Ｄコンピュータグラフィックス）の分野で利用されている任意の既存手法を利用してよい。

＜表示部23…第二実施形態＞
表示部23では、描画部14で得られた描画結果としての、仮想オブジェクトのテクスチャとその影とを表示すれよい。

＜第三実施形態＞
第三実施形態は、第一実施形態での生成部13に対する追加処理として、次を行うものである。すなわち、生成部13では予め、第一実施形態によってオクルージョン領域を除外して３Ｄモデルを構成するボクセルを求めておき、追加処理として、オクルージョン領域に該当すると判定されたボクセル集合に関しても、ボクセル密度を所定割合だけ下げたうえで、視体積交差法を適用し、３Ｄモデルを構成するボクセルを求める。

第一実施形態において高密度でオクルージョン領域外から求めた３Ｄモデルを構成するボクセル集合（第１ボクセル集合と呼ぶ）に加えて、第三実施形態においてさらに、低密度でオクルージョン領域内から求めた３Ｄモデルを構成するボクセル集合（第２ボクセル集合と呼ぶ）の用途の一例として、第三実施形態では次が可能である。

この用途を説明するための前提事項をまず説明する。画像処理システム100においては既に説明したように、画像処理装置10と端末装置20との間で時刻を同期したうえでリアルタイムに、端末装置20側で環境情報を取得して画像処理装置10に送信し、画像処理装置10側で多視点映像を撮影して３Ｄモデルを生成して仮想視点における描画を行って描画結果を端末装置20に送信し、端末装置20の側でこの描画結果をユーザに対して表示してAR視聴を可能とする。

ここで、端末装置20の側での環境情報（位置姿勢の情報のみ、または、位置姿勢情報とデプス画像の両方）の取得は、位置姿勢センサ等の専用デバイスを利用して低負荷且つ高速な処理レートで実現できるのと比べて、画像処理装置10の側での多視点映像からの３Ｄモデル生成及び描画は、データサイズが環境情報に比べて多いことに加え計算量も多いため、画像処理装置10を計算リソースが豊富な専用サーバ等で実装したとしても、実現できる処理レートに限界がある場合がありうる。このことへの対処として、端末装置20の側での環境情報の取得及び送信は高速レート（例えば0.1秒ごと）で行い、画像処理装置10の側での生成部13による３Ｄモデル生成までを低速レート（例えば1秒ごと）で行い、描画部14による描画及びこの描画情報の送信を高速レートに合わせるようにすることで、端末装置20の側において高速レートでの表示を実現することが可能である。

この際、画像処理装置10の側において低速レート（例として1秒ごと）での生成部13で生成された３Ｄモデルを当該1秒ごとの時刻t=0,1,2,…においてそれぞれMD(0),MD(1),MD(2),…とすると、描画部14では高速レート（例として0.1秒ごと）に、直近に生成されている３Ｄモデルを補間して描画を行うようにすればよい。例えば、時刻t=0の３ＤモデルにはMD(0)をそのまま利用できるが、時刻t=0.1,0.2,0.3,…に関して、この直近のモデルMD(0)を補間したモデルMD'(0.1),MD'(0.2),MD'(0.3),…を用いればよい。

第三実施形態はこのような補間が可能な３Ｄモデルを、計算量を抑制して生成することが可能なものである。例えば、時刻t=0.1での補間モデルMD'(0.1)は、モデルMD(0)に対して、時刻t=0から時刻t=0.1の間までの環境情報の変化（仮想カメラの位置姿勢の変化分）を反映して座標移動（回転及び並進による移動）させ、オクルージョン領域の内外の区別を付与するようにすればよい。（すなわち、補間モデルMD'(0.1)は、モデルMD(0)と同一形状のままで、仮想カメラの位置姿勢の移動に伴って、見えている位置姿勢のみが変化したものとなる。この時刻t=0～0.1間での位置姿勢の変化を表す変換（剛体変換）をT_[0→0.1]とすると、「MD'(0.1)=T_[0→0.1]・MD(0)」である。）以下の説明を含め、t=0.2,0.3,…等に関しても同様にして補間できる。

補間モデルMD'(0.1)におけるオクルージョン領域の内外の区別の付与及びこれに基づく描画部14での描画は次のように付与すればよい。説明のため、モデルMD(0)のうち高密度で求められているオクルージョン領域外の可視部分をMD(0)_[可視]、低密度で求められておりオクルージョン領域内にある遮蔽された部分をMD(0)_[遮蔽]とする。同様に、区別された結果としての補間モデルMD'(0.1)における可視部分及び遮蔽部分をそれぞれMD'(0.1)_[可視]及びMD'(0.1)_[遮蔽]とする。また、第一実施形態の処理（この第三実施形態での前処理に相当）によって時刻t=0秒のモデルMD(0)を求める際にデプス取得部122から送信されて求まっている、背景デプス画像によって定まる空間内の面領域をオクルージョン表面OC(0)とする。オクルージョン表面OC(0)とはすなわち、仮想カメラの位置から深度画像の各位置(x,y)へと３次元逆投影を行う直線上において、仮想カメラの位置からその深度d(x,y)だけ離れた点(X,Y,Z)を通るような、モデル空間内の平面である。

このオクルージョン表面は、上記深度画像の離散的な各位置(x,y)を３次元逆投影して得られる離散的な各位置(X,Y,Z)を通る面として求めればよい。例えば曲面フィッティングによって求めてもよいし、離散的な各位置(X,Y,Z)を頂点とするポリゴンとして求めてもよい。当該ポリゴン等として面を求めたうえで、面を構成する各々の面要素（個別のポリゴン等）に関して、仮想カメラの位置（t=0等のモデルを求めた時刻の位置でも、t=0.1,0.2,…等の補間対象の時刻の位置でもよい）から面要素の位置に延ばした直線の向きと、当該面要素の法線の向きのなす角が閾値判定で直角に近いと判定される場合、当該面要素は除外してオクルージョン表面を求めてもよい。（当該判定される面要素は、対応する実際の物理オブジェクトの表面が存在しない可能性があるため、除外して求めるようにしてもよい。）

ここで、オクルージョン表面OC(0)は、図２等の物理オブジェクトPOBの模式例でテーブルとして例示したように、撮影側の世界座標において静止している（従って、描画のための仮想空間においても同様に静止している）と仮定する。すなわち、時刻t=0秒でのオクルージョン領域OC(0)と時刻t=0.1秒での、オクルージョン表面OC(0.1)との関係は、モデルMD(0)とモデルMD'(0.1)との関係と同様に、「OC(0.1)=T_[0→0.1]・OC(0)」であるものとする。（換言すれば、時刻t=0秒で生成した３Ｄモデルや求まったオクル―ジョン表面は、時刻t=0.1でも同じモデル空間内の位置に静止しており、モデル空間内の仮想視点のみが動いているものと仮定する。）

当該仮定により、補間モデルMD'(0.1)における可視部分MD'(0.1)_[可視]及び遮蔽部分MD'(0.1)_[遮蔽]の区別は、時刻t=0.1秒での仮想カメラの位置から見て、当該静止しているオクルージョン表面OC(0.1)による遮蔽の有無により判断することができる。すなわち、補間モデルMD'(0.1)を構成する各ポリゴンについて、時刻t=0.1秒の仮想カメラ位置に投影を行う際に、オクルージョン表面OC(0.1)を通過すれば遮蔽部分MD'(0.1)_[遮蔽]に属し、通過しなければ可視部分MD'(0.1)_[可視]に属するものとして判断することができる。この判断には、図７のステップS13と同様の手法を用いてよく、時刻t=0.1秒での仮想カメラの位置から見た深度情報（時刻t=0秒の位置に静止しているオクルージョン表面）に関して、モデルMD'(0.1)がこの深度情報によって遮蔽されるか否かの区別により、遮蔽されていれば遮蔽部分MD'(0.1)_[遮蔽]とし、遮蔽されていなければ可視部分MD'(0.1)_[可視]として判断できる。

別の手法として、デプス画像が時刻t=0.1,0.2,…等でもリアルタイムに得られている場合であれば、上記のような３Ｄモデルとしてのオクルージョン表面OC(0.1)等を用いることなく、補間モデルMD'(0.1)を構成する各ポリゴンについて時刻t=0.1のデプス画像を参照して図７のステップS13と同様の処理を適用し、可視部分MD'(0.1)_[可視]及び遮蔽部分MD'(0.1)_[遮蔽]の区別を得るようにしてもよい。

当該求めた可視部分MD'(0.1)_[可視]に対する描画部14による描画は、第一実施形態と同様でよい。図１２は、以上の説明例に対応する時刻t=0秒の描画情報G(0)と時刻t=0.1秒での描画情報G(0.1)との模式例を示す図である。描画情報G(0)及びG(0.1)はそれぞれ、グレー地で示す可視部分MD(0)_[可視]及びMD'(0.1)_[可視]を描画したものである。その他の白地で示す遮蔽部分やオクル―ジョン表面は描画されないが、以上の説明例の模式例として示されている。

図１２の例にて、撮影環境PE側で描画されるオブジェクトOB及び視聴環境WE側でオクル―ジョン領域を発生させる物理オブジェクトPOBは図２の模式例と同様にそれぞれ人物及びテーブルである。時刻t=0秒の描画情報G(0)では、視聴環境WE側のユーザがこれらを正面から見た状態として描画されており、時刻t=0.1秒の描画情報G(0.1)では、これらをやや上方側から見込んだ状態として描画されている。（すなわち、仮想カメラは正面からやや上方側へと移動している。）

＜第四実施形態＞
第四実施形態は第三実施形態の変形例である。第三実施形態では、オクルージョン領域内の全体を対象として、低密度で視体積交差法を適用して３Ｄモデルを構成するボクセル集合（第２ボクセル集合）を求めたが、第四実施形態は、オクルージョン領域内の一部分のみを対象として、低密度で視体積交差法を適用して３Ｄモデルを構成するボクセル集合（第３ボクセル集合とする）を求めるものである。

すなわち、第三実施形態の第２ボクセル集合と第四実施形態の第３ボクセル集合との関係は「第２ボクセル集合⊃第３ボクセル集合」であり、低密度で視体積交差法する対象となるオクルージョン領域の範囲が狭まる分だけ、第四実施形態では計算の高速化が期待できる。

第四実施形態においてオクルージョン領域の全体の中から、低密度で視体積交差法を適用する一部分のオクルージョン領域を決定する手法としては、オクルージョン領域ではなかったと判定された領域に閾値判定で近いと判定される領域（「閾値近接領域」と呼ぶ）として決定してもよい。この閾値近接領域を決定するための閾値判定は、位置姿勢取得部211で得られるユーザ視点に対応する仮想視点の位置姿勢の時間変動が大きいほど、閾値近接領域が広くなるように、閾値判定を緩和するようにしてもよい。

この閾値近接領域はいわば、現実にオクルージョンがない領域にバッファ領域を加えることで、オクルージョンがないものとして扱う領域（現実にはオクルージョン領域である領域も含む）として拡張しているものとしての役割を果たすものである。

＜第五実施形態＞
第五実施形態は、第三実施形態の変形例として、上記の閾値判定の緩和の考え方と同様にして、位置姿勢取得部211で得られるユーザ視点に対応する仮想視点の位置姿勢の時間変動（仮想視点の動き）が閾値判定で大きいと判定される場合に、第三実施形態を適用するようにし、当該判定されない場合には第一実施形態を適用する場合分けを行うものである。

すなわち、ユーザ視点に対応する仮想視点の動きが大きいと判定される場合には、第三実施形態の適用により、オクルージョン領域外において高密度で３Ｄモデルを求めることに加えて、オクルージョン領域内においても低密度で３Ｄモデルを求めるようにし、ユーザ視点に対応する仮想視点の動きが大きいとは判定されない場合には、第一実施形態の適用により、オクルージョン領域外において高密度で３Ｄモデルを求めることのみを実施する。

＜第六実施形態＞
第六実施形態は、第四実施形態の変形例として、上記の閾値判定の緩和の考え方と同様にして、位置姿勢取得部211で得られるユーザ視点に対応する仮想視点の位置姿勢の時間変動（仮想視点の動き）が閾値判定で大きいと判定される場合に、第四実施形態を適用するようにし、当該判定されない場合には第一実施形態を適用する場合分けを行うものである。

すなわち、ユーザ視点に対応する仮想視点の動きが大きいと判定される場合には、第四実施形態の適用により、オクルージョン領域外において高密度で３Ｄモデルを求めることに加えて、オクルージョン領域内の一部領域においても低密度で３Ｄモデルを求めるようにし、ユーザ視点に対応する仮想視点の動きが大きいとは判定されない場合には、第一実施形態の適用により、オクルージョン領域外において高密度で３Ｄモデルを求めることのみを実施する。

＜ハードウェア構成＞
図１３は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。画像処理装置10及び端末装置20の各々は、このような構成を有する１台以上のコンピュータ装置70として実現可能である。なお、２台以上のコンピュータ装置70で画像処理装置10又は端末装置20の各々を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU（中央演算装置）71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU（グラフィックス演算装置）72、CPU71にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、GPU72用のメモリ空間を提供するGPUメモリ78、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77センサ78、及びカメラ79と、これらの間でデータを授受するためのバスBSと、を備える。

画像処理装置10及び端末装置20の各部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び／又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置（プロセッサ）の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。端末装置20で環境情報を専用センサで取得する際の１種類以上の専用センサとして、センサ78を用いることができる。端末装置20の表示部23は、ディスプレイ76（光学シースルー方式又はビデオシースルー方式）で実現できる。撮影部11及び表示側撮影部22はカメラ79で実現できる。

100…画像処理システム
10…画像処理装置、11…撮影部、12…抽出部、13…生成部、14…描画部
20…端末装置、21…取得部、22…表示側撮影部、23…表示部

Claims

多視点画像の各視点の画像より、撮影されているオブジェクトの領域をマスク画像として抽出する抽出部と、
前記マスク画像に視体積交差法を適用して、前記オブジェクトの３Ｄモデルを、所定のボクセル集合の各ボクセルにつき当該３Ｄモデルに属するか否かを判定することによって生成する生成部と、を備える画像処理装置であって、
前記生成部は、前記適用する前に予め、ユーザ視点におけるものとして取得された深度情報に空間変換を施すことにより、仮想カメラ視点を基準としたボクセル空間に配置して当該深度情報の与える空間位置を、当該仮想カメラ視点から見た深度情報が前記ユーザ視点におけるものとして取得された深度情報に整合するように定めたうえで、各ボクセルが当該深度情報の与える空間位置よりも仮想カメラ視点に近い側にあるか遠い側にあるかを判定し、近い側にあると判定されたボクセルのみを、視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定し、
前記生成された３Ｄモデルを、前記仮想カメラ視点を基準とした画像平面に投影して前記多視点画像のテクスチャを用いて描画することで、前記ユーザ視点で見た際の当該描画された３Ｄモデルが、前記深度情報より近い側に位置する部分を含み、前記深度情報より遠い側に位置する部分を含まないようにする描画部をさらに備えることを特徴とする画像処理装置。
多視点画像の各視点の画像より、撮影されているオブジェクトの領域をマスク画像として抽出する抽出部と、
前記マスク画像に視体積交差法を適用して、前記オブジェクトの３Ｄモデルを、所定のボクセル集合の各ボクセルにつき当該３Ｄモデルに属するか否かを判定することによって生成する生成部と、を備える画像処理装置であって、
前記生成部は、前記適用する前に予め、ユーザ視点におけるものとして取得された深度情報を、仮想カメラ視点を基準としたボクセル空間に配置して当該深度情報の与える空間位置を定めたうえで、各ボクセルが当該深度情報の与える空間位置よりも仮想カメラ視点に近い側にあるか遠い側にあるかを判定し、近い側にあると判定されたボクセルのみを、視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定し、
前記ボクセル空間には所定位置の光源が設定されており、
前記生成部は、所定のボクセル集合の各ボクセルに関して、所定の順番で、前記予め近い側にあるか遠い側にあるかを判定したうえで、近い側にあると判定されたボクセルに関して前記３Ｄモデルに属するか否かを判定し、
前記遠い側にあると判定されたボクセルに関してはさらに、前記所定の順番の判定によって既に前記３Ｄモデルに属するものと判定されているボクセルによって、前記光源から遮蔽されているか否かを判定し、
遮蔽されていないと判定された場合には、当該ボクセルを視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定することを特徴とする画像処理装置。
前記生成された３Ｄモデルのうち、前記近い側にあると判定されたボクセルに該当する部分のみを、前記仮想カメラ視点を基準とした画像平面に投影して前記多視点画像のテクスチャを用いて描画し、且つ、
前記生成された３Ｄモデルの全体を用いて、前記光源による当該３Ｄモデルの影を、前記画像平面に対して描画する描画部をさらに備えることを特徴とする請求項２に記載の画像処理装置。
多視点画像の各視点の画像より、撮影されているオブジェクトの領域をマスク画像として抽出する抽出部と、
前記マスク画像に視体積交差法を適用して、前記オブジェクトの３Ｄモデルを、所定のボクセル集合の各ボクセルにつき当該３Ｄモデルに属するか否かを判定することによって生成する生成部と、を備える画像処理装置であって、
前記生成部は、前記適用する前に予め、ユーザ視点におけるものとして取得された深度情報を、仮想カメラ視点を基準としたボクセル空間に配置して当該深度情報の与える空間位置を定めたうえで、各ボクセルが当該深度情報の与える空間位置よりも仮想カメラ視点に近い側にあるか遠い側にあるかを判定し、近い側にあると判定されたボクセルのみを、視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定し、
前記生成部は、前記近い側にあると判定されたボクセルについては第一ボクセル密度で視体積交差法を適用し、さらに、前記遠い側にあると判定されたボクセルについては前記第一ボクセル密度よりも低い第二ボクセル密度で視体積交差法を適用することを特徴とする画像処理装置。
前記生成部は、前記遠い側にあると判定されたボクセルについて、前記近い側にあると判定されたボクセルに近いと判定されるもののみに関して、前記第一ボクセル密度よりも低い前記第二ボクセル密度で視体積交差法を適用することを特徴とする請求項４に記載の画像処理装置。
前記生成部は、第一時刻において前記第一ボクセル密度及び前記第二ボクセル密度で視体積交差法を適用することにより前記３Ｄモデルを生成し、
前記生成された３Ｄモデルを、前記仮想カメラ視点を基準とした画像平面に投影して前記多視点画像のテクスチャを用いて描画する描画部をさらに備え、
前記描画部は、前記第一時刻においては前記３Ｄモデルのうち前記第一ボクセル密度の部分のみに関して描画を行い、
前記第一時刻よりも後の第二時刻においては、前記深度情報を、当該第二時刻における仮想カメラ視点を基準としたボクセル空間に配置して当該深度情報の与える空間位置を定めたうえで、各ボクセルが当該深度情報の与える空間位置よりも仮想カメラ視点に近い側にあるか遠い側にあるかを判定し、近い側にあると判定されたボクセルに該当する部分のみに関して、前記３Ｄモデルの描画を行うことを特徴とする請求項４または５に記載の画像処理装置。
多視点画像の各視点の画像より、撮影されているオブジェクトの領域をマスク画像として抽出する抽出部と、
前記マスク画像に視体積交差法を適用して、前記オブジェクトの３Ｄモデルを、所定のボクセル集合の各ボクセルにつき当該３Ｄモデルに属するか否かを判定することによって生成する生成部と、を備える画像処理装置であって、
前記生成部は、前記適用する前に予め、ユーザ視点におけるものとして取得された深度情報を、仮想カメラ視点を基準としたボクセル空間に配置して当該深度情報の与える空間位置を定めたうえで、各ボクセルが当該深度情報の与える空間位置よりも仮想カメラ視点に近い側にあるか遠い側にあるかを判定し、近い側にあると判定されたボクセルのみを、視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定し、
前記ユーザ視点の位置姿勢の時間変化が取得されており、
前記時間変化が閾値判定により大きいと判定された場合には、
前記生成部は、前記近い側にあると判定されたボクセルについては第一ボクセル密度で視体積交差法を適用し、さらに、前記遠い側にあると判定されたボクセルの全部又は一部について前記第一ボクセル密度よりも低い第二ボクセル密度で視体積交差法を適用し、
前記時間変化が前記閾値判定により大きいとは判定されなかった場合には、
前記生成部は、前記近い側にあると判定されたボクセルのみを、視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定することを特徴とする画像処理装置。
多視点画像の各視点の画像より、撮影されているオブジェクトの領域をマスク画像として抽出する抽出段階と、
前記マスク画像に視体積交差法を適用して、前記オブジェクトの３Ｄモデルを、所定のボクセル集合の各ボクセルにつき当該３Ｄモデルに属するか否かを判定することによって生成する生成段階と、を備える、コンピュータが実行する画像処理方法であって、
前記生成段階は、前記適用する前に予め、ユーザ視点におけるものとして取得された深度情報に空間変換を施すことにより、仮想カメラ視点を基準としたボクセル空間に配置して当該深度情報の与える空間位置を、当該仮想カメラ視点から見た深度情報が前記ユーザ視点におけるものとして取得された深度情報に整合するように定めたうえで、各ボクセルが当該深度情報の与える空間位置よりも仮想カメラ視点に近い側にあるか遠い側にあるかを判定し、近い側にあると判定されたボクセルのみを、視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定し、
前記生成された３Ｄモデルを、前記仮想カメラ視点を基準とした画像平面に投影して前記多視点画像のテクスチャを用いて描画することで、前記ユーザ視点で見た際の当該描画された３Ｄモデルが、前記深度情報より近い側に位置する部分を含み、前記深度情報より遠い側に位置する部分を含まないようにする描画段階をさらに備えることを特徴とする画像処理方法。
多視点画像の各視点の画像より、撮影されているオブジェクトの領域をマスク画像として抽出する抽出段階と、
前記マスク画像に視体積交差法を適用して、前記オブジェクトの３Ｄモデルを、所定のボクセル集合の各ボクセルにつき当該３Ｄモデルに属するか否かを判定することによって生成する生成段階と、を備える、コンピュータが実行する画像処理方法であって、
前記生成段階は、前記適用する前に予め、ユーザ視点におけるものとして取得された深度情報を、仮想カメラ視点を基準としたボクセル空間に配置して当該深度情報の与える空間位置を定めたうえで、各ボクセルが当該深度情報の与える空間位置よりも仮想カメラ視点に近い側にあるか遠い側にあるかを判定し、近い側にあると判定されたボクセルのみを、視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定し、
前記ボクセル空間には所定位置の光源が設定されており、
前記生成段階は、所定のボクセル集合の各ボクセルに関して、所定の順番で、前記予め近い側にあるか遠い側にあるかを判定したうえで、近い側にあると判定されたボクセルに関して前記３Ｄモデルに属するか否かを判定し、
前記遠い側にあると判定されたボクセルに関してはさらに、前記所定の順番の判定によって既に前記３Ｄモデルに属するものと判定されているボクセルによって、前記光源から遮蔽されているか否かを判定し、
遮蔽されていないと判定された場合には、当該ボクセルを視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定することを特徴とする画像処理方法。
多視点画像の各視点の画像より、撮影されているオブジェクトの領域をマスク画像として抽出する抽出段階と、
前記マスク画像に視体積交差法を適用して、前記オブジェクトの３Ｄモデルを、所定のボクセル集合の各ボクセルにつき当該３Ｄモデルに属するか否かを判定することによって生成する生成段階と、を備える、コンピュータが実行する画像処理方法であって、
前記生成段階は、前記適用する前に予め、ユーザ視点におけるものとして取得された深度情報を、仮想カメラ視点を基準としたボクセル空間に配置して当該深度情報の与える空間位置を定めたうえで、各ボクセルが当該深度情報の与える空間位置よりも仮想カメラ視点に近い側にあるか遠い側にあるかを判定し、近い側にあると判定されたボクセルのみを、視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定し、
前記生成段階は、前記近い側にあると判定されたボクセルについては第一ボクセル密度で視体積交差法を適用し、さらに、前記遠い側にあると判定されたボクセルについては前記第一ボクセル密度よりも低い第二ボクセル密度で視体積交差法を適用することを特徴とする画像処理方法。
多視点画像の各視点の画像より、撮影されているオブジェクトの領域をマスク画像として抽出する抽出段階と、
前記マスク画像に視体積交差法を適用して、前記オブジェクトの３Ｄモデルを、所定のボクセル集合の各ボクセルにつき当該３Ｄモデルに属するか否かを判定することによって生成する生成段階と、を備える、コンピュータが実行する画像処理方法であって、
前記生成段階は、前記適用する前に予め、ユーザ視点におけるものとして取得された深度情報を、仮想カメラ視点を基準としたボクセル空間に配置して当該深度情報の与える空間位置を定めたうえで、各ボクセルが当該深度情報の与える空間位置よりも仮想カメラ視点に近い側にあるか遠い側にあるかを判定し、近い側にあると判定されたボクセルのみを、視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定し、
前記ユーザ視点の位置姿勢の時間変化が取得されており、
前記時間変化が閾値判定により大きいと判定された場合には、
前記生成段階は、前記近い側にあると判定されたボクセルについては第一ボクセル密度で視体積交差法を適用し、さらに、前記遠い側にあると判定されたボクセルの全部又は一部について前記第一ボクセル密度よりも低い第二ボクセル密度で視体積交差法を適用し、
前記時間変化が前記閾値判定により大きいとは判定されなかった場合には、
前記生成段階は、前記近い側にあると判定されたボクセルのみを、視体積交差法の適用対象として前記３Ｄモデルに属するか否かを判定することを特徴とする画像処理方法。
コンピュータを請求項１ないし７のいずれかに記載の画像処理装置として機能させることを特徴とするプログラム。