JP2018067106A

JP2018067106A - 画像処理装置、画像処理プログラム、及び画像処理方法

Info

Publication number: JP2018067106A
Application number: JP2016204603A
Authority: JP
Inventors: 都市　雅彦; Masahiko Toshi; 雅彦都市
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-10-18
Filing date: 2016-10-18
Publication date: 2018-04-26

Abstract

【課題】複数の撮影装置の画像を用いて自由視点から見た画像を生成する処理の負荷を軽減する。【解決手段】抽出部１１１は、複数の撮影装置によって空間を撮影した複数の画像それぞれから動領域を抽出する。表面情報生成部１１２は、空間内の注目領域に対応する動領域から物体の表面情報を生成し、注目領域に対応する動領域から物体の表面情報を生成する頻度よりも少ない頻度で、注目領域以外の非注目領域に対応する動領域と、静止領域とから物体の表面情報を生成する。画像生成部１１３は、注目領域に対応する動領域から生成された表面情報と、非注目領域に対応する動領域から生成された表面情報と、静止領域から生成された表面情報とを用いて、空間内の所定位置から見た画像を生成する。【選択図】図１

Description

本発明は、画像処理装置、画像処理プログラム、及び画像処理方法に関する。

次世代の画像コンテンツとして、３次元空間における自由視点画像が注目されている。例えば、被写体の周囲に複数の固定視点カメラを配置し、それらのカメラによって撮影された多視点画像を用いて、カメラが配置されていない位置から見た画像を生成することで、自由視点映像を生成する技術が開発されている。複数のカメラの撮影画像から被写体の３次元形状を推定して自由視点映像を生成する方法として、被写体のシルエット画像を用いる方法と、被写体のテクスチャ情報を用いる方法とが知られている。

前者の方法は、視体積交差法（VisualHull：ＶＨ）と呼ばれている。この方法では、被写体を複数の視点から撮影した複数の画像それぞれから背景を取り除いて、シルエット画像が生成される。そして、カメラの焦点とシルエット画像とを結んでできるCone（視体積）が生成され、Cone同士の重なり領域が被写体の３次元形状として復元される。

後者の方法は、複数の視点間でテクスチャ情報を利用したステレオマッチングを行う方法である（例えば、特許文献１を参照）。この方法では、まず、被写体を複数の視点から撮影した撮影画像から、ハリスのコーナー検出、Difference of Gaussian（ＤＯＧ）等の特徴量抽出処理を用いて、特徴点が抽出される。次に、視点間における特徴点同士の対応付けが行われ、被写体の表面を近似する接平面（パッチ）が求められる。そして、求めたパッチを拡張することで、被写体の３次元形状が復元される。

ＶＨ処理によれば、被写体の３次元形状を安定して得ることができるが、凹部分が再現されない等の理由から、３次元形状の精度が低くなる。そこで、ＶＨ処理とステレオマッチングとを組み合わせて、精度を向上させる方法が提案されている（例えば、非特許文献１を参照）。

被写体の３次元形状は、PointCloud（点群）、ポリゴン、デプスマップ等のデータ形式で表現される。複数の視点の撮影画像とデプスマップとを基に、仮想視点から見た画像を生成するアルゴリズムとして、view synthesis algorithm in view synthesis reference software 2.0（ＶＳＲＳ２．０）も知られている。

米国特許出願公開第２００９／００５２７９６号明細書

W. Matusik, C．Buehler, R．Raskar, S．Gortler and L．McMillan,"Image-Based Visual Hulls", SIGGRAPH 2000.

複数のカメラの撮影画像から自由視点映像を生成する際には、大量の映像データを転送する通信処理と、それらの映像データを用いた負荷の大きな演算処理とが行われる。このため、処理負荷が増大し、リアルタイム処理を行うことは困難である。

１つの側面において、本発明の目的は、複数の撮影装置の画像を用いて自由視点から見た画像を生成する処理の負荷を軽減することである。

１つの案では、画像処理装置は、抽出部、表面情報生成部、及び画像生成部を含む。抽出部は、複数の撮影装置によって空間を撮影した複数の画像それぞれから動領域を抽出する。表面情報生成部は、空間内の注目領域に対応する動領域から物体の表面情報を生成し、注目領域に対応する動領域から物体の表面情報を生成する頻度よりも少ない頻度で、注目領域以外の非注目領域に対応する動領域と、静止領域とから物体の表面情報を生成する。画像生成部は、注目領域に対応する動領域から生成された表面情報と、非注目領域に対応する動領域から生成された表面情報と、静止領域から生成された表面情報とを用いて、空間内の所定位置から見た画像を生成する。

実施形態によれば、複数の撮影装置の画像を用いて自由視点から見た画像を生成する処理の負荷を軽減することができる。

画像処理装置の機能的構成図である。画像処理のフローチャートである。画像処理システムの機能的構成図である。カメラの配置を示す図である。注目領域を示す図である。入力映像処理部から複数の３次元形状推定部に対するマスク画像の転送を示す図である。複数の入力映像処理部から３次元形状推定部に対するマスク画像の転送を示す図である。複数の入力映像処理部から複数の３次元形状推定部に対するマスク画像の転送を示す図である。入力映像処理部から複数の３次元形状推定部に対する撮影画像の転送を示す図である。複数の入力映像処理部から３次元形状推定部に対する撮影画像の転送を示す図である。複数の入力映像処理部から複数の３次元形状推定部に対する撮影画像の転送を示す図である。自由視点映像生成処理のフローチャートである。画像処理システムのハードウェア構成図である。情報処理装置の構成図である。

以下、図面を参照しながら、実施形態を詳細に説明する。
図１は、実施形態の画像処理装置の機能的構成例を示している。図１の画像処理装置１０１は、抽出部１１１、表面情報生成部１１２、及び画像生成部１１３を含む。

図２は、図１の画像処理装置１０１が行う画像処理の例を示すフローチャートである。まず、抽出部は、複数の撮影装置によって空間を撮影した複数の画像それぞれから動領域を抽出する（ステップ２０１）。

次に、表面情報生成部１１２は、空間内の注目領域に対応する動領域から物体の表面情報を生成し、注目領域に対応する動領域から物体の表面情報を生成する頻度よりも少ない頻度で、注目領域以外の非注目領域に対応する動領域と、静止領域とから物体の表面情報を生成する（ステップ２０２）。そして、画像生成部１１３は、注目領域に対応する動領域から生成された表面情報と、非注目領域に対応する動領域から生成された表面情報と、静止領域から生成された表面情報とを用いて、空間内の所定位置から見た画像を生成する（ステップ２０３）。

このような画像処理装置１０１によれば、複数の撮影装置の画像を用いて自由視点から見た画像を生成する処理の負荷を軽減することができる。

図３は、図１の画像処理装置１０１を含む画像処理システムの機能的構成例を示している。図３の画像処理システムは、カメラ３１０−１〜カメラ３１０−Ｎ（Ｎは２以上の整数）、画像処理装置１０１、及び表示装置３１７を含む。画像処理装置１０１は、入力映像処理部３１１−１〜入力映像処理部３１１−Ｎ、通信部３１２、３次元形状推定部３１３−１〜３次元形状推定部３１３−Ｎ、通信部３１４、映像生成部３１５、及び位置指定部３１６を含む。

入力映像処理部３１１−ｉ（ｉ＝１〜Ｎ）は、カメラ３１０−ｉに対応して設けられ、取得部３２１−ｉ及び抽出部３２２−ｉを含む。３次元形状推定部３１３−ｉは、カメラ３１０−ｉに対応して設けられ、動領域位置生成部３３１−ｉ、静止領域位置生成部３３２−ｉ、記憶部３３３−ｉ、及び合成部３３４−ｉを含む。

抽出部３２２−ｉは、図１の抽出部１１１に対応し、動領域位置生成部３３１−ｉ及び静止領域位置生成部３３２−ｉは、表面情報生成部１１２に対応し、映像生成部３１５は、画像生成部１１３に対応する。カメラ３１０−ｉは、撮影装置に対応する。

図４は、カメラ３１０−ｉの配置例を示している。図４のカメラＣ１〜カメラＣ１８は、カメラ３１０−１〜カメラ３１０−１８（Ｎ＝１８）にそれぞれ対応し、被写体であるスポーツ競技のフィールドを囲むように、円状又は楕円状に一定間隔で固定して設置される。１８台のカメラＣｉを一定間隔で設置した場合、隣接する２台のカメラＣｉの光軸がなす角度は約２０度になる。

３次元形状を復元するためには、隣接する２台のカメラＣｉの光軸がなす角度が２０度以下であることが好ましいが、十分な精度で３次元形状を復元可能である場合は、２０度よりも大きくても構わない。したがって、カメラＣｉの台数は１８台に限定されるものではなく、１７台以下であってもよく、１９台以上であってもよい。

カメラ３１０−１〜カメラ３１０−Ｎは、同一のフレーム開始信号に従って、時間同期した映像を撮影する。各カメラ３１０−ｉが撮影した映像は、入力映像処理部３１１−ｉへ出力される。

入力映像処理部３１１−ｉの取得部３２１−ｉは、カメラ３１０−ｉから映像を取得し、抽出部３２２−ｉは、映像に含まれる複数時刻の撮影画像それぞれから動領域を抽出することで、各撮影画像を動領域と静止領域とに分割する。各時刻の撮影画像は、フレームと呼ばれることもある。抽出部３２２−ｉは、撮影画像と、動領域と静止領域の分割結果を表すマスク画像とを、通信部３１２を介して３次元形状推定部３１３−ｉへ転送する。このとき、抽出部３２２−ｉは、撮影画像及びマスク画像を、３次元形状推定部３１３−ｉ以外の複数の３次元形状推定部３１３−ｊ（ｊ≠ｉ）へも転送する。

３次元形状推定部３１３−ｉは、カメラ３１０−ｉの撮影画像と、カメラ３１０−ｉ以外の複数のカメラ３１０−ｊ（ｊ≠ｉ）の撮影画像とを用いて、カメラ３１０−ｉの撮影対象である物体の表面の３次元形状を復元する。例えば、図４に示したカメラ配置の場合、カメラ３１０−ｉ以外のすべてのカメラ３１０−ｊの撮影画像を参照する必要はなく、カメラ３１０−ｉに近い４台程度のカメラ３１０−ｊの撮影画像を参照すれば十分である。

３次元形状推定部３１３−ｉは、動領域及び静止領域それぞれに適した３次元形状推定処理を行って、物体の表面の３次元形状を表す表面情報を生成する。この表面情報は、例えば、デプスマップのようなデータ形式で表現される。デプスマップは、カメラ３１０−ｉの撮影画像の画素毎に、カメラ３１０−ｉの位置から見た奥行き情報を格納する配列である。

３次元形状推定部３１３−ｉは、３次元空間内で被写体を含む注目領域を特定し、注目領域に対応する動領域から表面情報を生成する頻度よりも少ない頻度で、非注目領域に対応する動領域と静止領域とから表面情報を生成する。そして、３次元形状推定部３１３−ｉは、カメラ３１０−ｉの撮影画像と、カメラ３１０−ｉから見た表面情報とを、通信部３１４を介して映像生成部３１５へ転送する。

自由視点映像生成処理においては、３次元形状推定処理の演算量が非常に大きいため、リアルタイム処理を行うためには、３次元形状推定処理の演算量を削減することが望ましい。３次元形状を表す表面情報としてデプスマップを用いる場合、画素毎に奥行き情報が計算されるため、画素数に比例して演算量が増加する。

しかし、撮影領域内の床、構造物等の静止物体は形状が変化しないため、静止領域に対して計算された奥行き情報は、再利用することが可能である。また、主観画質の観点から、非注目領域に対応する動領域の奥行き情報の更新頻度を削減しても、大幅な画質劣化にはならない。したがって、注目領域に対応する動領域については、表面情報を生成する頻度を高くし、非注目領域に対応する動領域と静止領域については、表面情報を生成する頻度を低くすることで、演算量を効果的に削減することができる。

また、カメラ３１０−ｉから見た表面情報をステレオマッチングによって生成する場合、カメラ３１０−ｉから見えない裏側の表面情報は計算されないため、すべてのカメラ３１０−ｊの撮影画像を参照する必要はない。さらに、ステレオマッチングを行う３次元形状推定部３１３−ｉをカメラ３１０−ｉ毎に設けることで、撮影画像の転送処理に伴う負荷を分散させることが可能になる。

図５は、注目領域の例を示している。図５の注目領域５０１は、図４に示したスポーツ競技のフィールドを含む直方体であり、ユーザ又は画像処理システムの外部の装置によって、あらかじめ設定される。注目領域５０１以外の非注目領域には、例えば、ベンチ、観客席等が含まれる。注目領域５０１の形状としては、直方体以外に、平面又は曲面で囲まれた他の立体形状を用いてもよい。

位置指定部３１６は、３次元空間内の仮想カメラ位置を入力映像処理部３１１−ｉ、３次元形状推定部３１３−ｉ、及び映像生成部３１５へ出力する。仮想カメラ位置は、例えば、３次元空間内の所定位置を表す３次元座標であり、ユーザによって指定される。

映像生成部３１５は、位置指定部３１６から出力される仮想カメラ位置を視点として、仮想カメラ位置から撮影されるであろう画像を生成し、表示装置３１７へ出力する。映像生成部３１５は、仮想カメラ位置に近い複数のカメラ３１０−ｉの撮影画像及び表面情報を参照して、仮想カメラ位置から見た画像を合成する。例えば、図４に示したカメラ配置の場合、すべてのカメラ３１０−ｉの撮影画像を参照する必要はなく、仮想カメラ位置に近い４台程度のカメラ３１０−ｉの撮影画像を参照すれば十分である。

表示装置３１７は、映像生成部３１５が生成した画像を画面上に表示する。映像生成部３１５は、生成した画像を表示装置３１７へ出力する代わりに、不図示の記憶装置に格納してもよい。

次に、図３の画像処理装置１０１が行う画像処理について、より詳細に説明する。
入力映像処理部３１１−ｉの抽出部３２２−ｉは、カメラ３１０−ｉの映像から、背景差分法、フレーム間差分法等によって動領域を抽出する。そして、抽出部３２２−ｉは、各時刻の撮影画像に含まれる画素のうち、動領域の画素に論理“１”を設定し、それ以外の画素に論理“０”を設定した、２値のマスク画像を生成する。

図６〜図８は、入力映像処理部３１１−ｉと３次元形状推定部３１３−ｉとの間におけるマスク画像転送の例を示している。図６は、１つの入力映像処理部３１１−ｉから複数の３次元形状推定部３１３−ｉに対するマスク画像の転送を示し、図７は、複数の入力映像処理部３１１−ｉから１つの３次元形状推定部３１３−ｉに対するマスク画像の転送を示している。図８は、複数の入力映像処理部３１１−ｉから複数の３次元形状推定部３１３−ｉに対するマスク画像の転送を示している。

この例では、入力映像処理部３１１−ｐは、以下の５つの３次元形状推定部３１３−ｉに対してマスク画像を転送する。

３次元形状推定部３１３−（ｐ−４）
３次元形状推定部３１３−（ｐ−２）
３次元形状推定部３１３−ｐ
３次元形状推定部３１３−（ｐ＋２）
３次元形状推定部３１３−（ｐ＋４）

ただし、３次元形状推定部３１３−１と３次元形状推定部３１３−Ｎとが隣接していると仮定して、次のような置き換えが行われる。

３次元形状推定部３１３−０→３次元形状推定部３１３−Ｎ
３次元形状推定部３１３−（−１）→３次元形状推定部３１３−（Ｎ−１）
３次元形状推定部３１３−（−２）→３次元形状推定部３１３−（Ｎ−２）
３次元形状推定部３１３−（−３）→３次元形状推定部３１３−（Ｎ−３）
３次元形状推定部３１３−（Ｎ＋１）→３次元形状推定部３１３−１
３次元形状推定部３１３−（Ｎ＋２）→３次元形状推定部３１３−２
３次元形状推定部３１３−（Ｎ＋３）→３次元形状推定部３１３−３
３次元形状推定部３１３−（Ｎ＋４）→３次元形状推定部３１３−４

そして、３次元形状推定部３１３−ｑは、以下の５つの入力映像処理部３１１−ｉからマスク画像を受信する。

入力映像処理部３１１−（ｑ−４）
入力映像処理部３１１−（ｑ−２）
入力映像処理部３１１−ｑ
入力映像処理部３１１−（ｑ＋２）
入力映像処理部３１１−（ｑ＋４）

ただし、入力映像処理部３１１−１と入力映像処理部３１１−Ｎとが隣接していると仮定して、次のような置き換えが行われる。

入力映像処理部３１１−０→３次元形状推定部３１３−Ｎ
入力映像処理部３１１−（−１）→入力映像処理部３１１−（Ｎ−１）
入力映像処理部３１１−（−２）→入力映像処理部３１１−（Ｎ−２）
入力映像処理部３１１−（−３）→入力映像処理部３１１−（Ｎ−３）
入力映像処理部３１１−（Ｎ＋１）→入力映像処理部３１１−１
入力映像処理部３１１−（Ｎ＋２）→入力映像処理部３１１−２
入力映像処理部３１１−（Ｎ＋３）→入力映像処理部３１１−３
入力映像処理部３１１−（Ｎ＋４）→入力映像処理部３１１−４

３次元形状推定部３１３−ｉの動領域位置生成部３３１−ｉは、受信したマスク画像と、あらかじめ計算されているカメラパラメータとを用いてＶＨ処理を行い、動領域に対応する物体の３次元形状を生成する。物体の３次元形状は、例えば、PointCloud、ポリゴン、デプスマップ等のデータ形式で表現される。このとき、動領域位置生成部３３１−ｉは、物体の３次元形状のうち、カメラ３１０−ｉの位置から見える部分の３次元形状を生成する。

例えば、３次元空間を表すＸＹＺ座標系における点（Ｘ，Ｙ，Ｚ）は、次式によって、撮影画像を表すｘｙ座標系における点（ｘ，ｙ）に変換することができる。

式（１）のｓは、カメラ３１０−ｉの焦点と撮影画像の投影面との距離を表し、３行３列の行列Ａは、カメラ３１０−ｉの内部パラメータを表し、３行４列の行列（Ｒ｜Ｔ）は、カメラ３１０−ｉの外部パラメータを表す。Ｒは回転行列を表し、Ｔは並進ベクトルを表す。式（２）のｆは、カメラ３１０−ｉの焦点距離を表し、ｋｘは、ｘ方向の単位長さ当たりの画素数を表し、ｋｙは、ｙ方向の単位長さ当たりの画素数を表し、（ｏｘ，ｏｙ）は、撮影画像上でカメラ３１０−ｉの光軸に対応する位置の座標を表す。ＶＨ処理では、例えば、行列Ａ及び行列（Ｒ｜Ｔ）がカメラパラメータとして用いられる。

生成された３次元形状には、注目領域に対応する前景の３次元形状と、非注目領域に対応する背景の３次元形状とが含まれている。そこで、動領域位置生成部３３１−ｉは、あらかじめ指定された注目領域の３次元座標を用いて、３次元形状を前景と背景とに分割する。

そして、動領域位置生成部３３１−ｉは、前景及び背景の３次元形状を撮影画像上にそれぞれ投影して、前景マスク画像及び背景マスク画像を生成する。前景マスク画像では、前景の動領域の画素に論理“１”が設定され、それ以外の画素に論理“０”が設定される。また、背景マスク画像では、背景の動領域の画素に論理“１”が設定され、それ以外の画素に論理“０”が設定される。

図６〜図８に示したマスク画像転送によれば、３次元形状推定部３１３−ｑの動領域位置生成部３３１−ｑは、カメラ３１０−（ｑ−４）〜カメラ３１０−（ｑ＋４）の範囲内のカメラ３１０−ｉのマスク画像を用いて、物体の３次元形状を生成する。図４に示したカメラ配置の場合、カメラ３１０−ｑの光軸とカメラ３１０−（ｑ−４）の光軸がなす角度は約−８０度であり、カメラ３１０−ｑの光軸とカメラ３１０−（ｑ＋４）の光軸がなす角度は約８０度である。

カメラ３１０−ｑから見えない、物体の裏側の３次元形状を計算する必要はないため、カメラ３１０−ｑの光軸に対して−９０度〜９０度の範囲内の光軸を有するカメラ３１０−ｉのマスク画像を用いれば十分である。

図９〜図１１は、入力映像処理部３１１−ｉと３次元形状推定部３１３−ｉとの間における撮影画像転送の例を示している。図９は、１つの入力映像処理部３１１−ｉから複数の３次元形状推定部３１３−ｉに対する撮影画像の転送を示し、図１０は、複数の入力映像処理部３１１−ｉから１つの３次元形状推定部３１３−ｉに対する撮影画像の転送を示している。図１１は、複数の入力映像処理部３１１−ｉから複数の３次元形状推定部３１３−ｉに対する撮影画像の転送を示している。

この例では、入力映像処理部３１１−ｐは、以下の３つの３次元形状推定部３１３−ｉに対して撮影画像を転送する。

３次元形状推定部３１３−（ｐ−１）
３次元形状推定部３１３−ｐ
３次元形状推定部３１３−（ｐ＋１）

そして、３次元形状推定部３１３−ｑは、以下の３つの入力映像処理部３１１−ｉから撮影画像を受信する。

入力映像処理部３１１−（ｑ−１）
入力映像処理部３１１−ｑ
入力映像処理部３１１−（ｑ＋１）

３次元形状推定部３１３−ｉの動領域位置生成部３３１−ｉは、受信した撮影画像の画素値とカメラパラメータとを用いてステレオマッチングを行うことで、ＶＨ処理よりも詳細に３次元形状を推定して、物体の表面情報を生成する。

このとき、動領域位置生成部３３１−ｉは、ステレオマッチングの探索範囲を前景マスク画像及び背景マスク画像の範囲内に制限することで、ステレオマッチングの演算量を削減することができる。前景マスク画像の範囲内のステレオマッチングによって、前景の動領域の表面情報が生成され、背景マスク画像の範囲内のステレオマッチングによって、背景の動領域の表面情報が生成される。

また、動領域位置生成部３３１−ｉは、前景の動領域についてはステレオマッチングの頻度を高くし、背景の動領域と静止領域についてはステレオマッチングの頻度を低くすることで、さらに演算量を削減することができる。例えば、動領域位置生成部３３１−ｉは、前景の動領域については、１フレーム毎にステレオマッチングを行い、背景の動領域については、Ｍ枚（Ｍは２以上の整数）のフレーム毎に１回のみステレオマッチングを行ってもよい。動領域位置生成部３３１−ｉは、前景の動領域の表面情報を合成部３３４−ｉへ出力し、背景の動領域の表面情報を記憶部３３３−ｉに格納する。

静止領域位置生成部３３２−ｉは、入力映像処理部３１１−ｉから受信したマスク画像及び撮影画像と、カメラパラメータとを用いて、ステレオマッチングを行うことで、静止領域に対応する物体の表面情報を生成し、記憶部３３３−ｉに格納する。

静止領域の表面情報は、１フレーム毎に生成する必要はなく、背景の動領域の表面情報と同じ頻度か、又はそれよりも少ない頻度で生成される。例えば、被写体がスポーツ競技のフィールドである場合、試合開始前に静止領域の表面情報を生成してもよい。試合開始前の場合、リアルタイム処理である必要はなく、時間をかけて静止領域の表面情報を生成することができる。

静止領域位置生成部３３２−ｉは、１フレームの撮影画像から静止領域の表面情報を生成してもよく、複数のフレームの撮影画像から複数の表面情報を生成して、それらの表面情報を平均した結果を出力してもよい。また、カメラ３１０−ｉとともに距離センサが設けられている場合、静止領域位置生成部３３２−ｉは、距離センサから出力される奥行き情報を用いて表面情報を生成してもよい。さらに、静止領域位置生成部３３２−ｉは、被写体であるスタジアム等の設計情報を基に３次元モデルを生成し、生成した３次元モデルから表面情報を生成してもよい。

図９〜図１１に示した撮影画像転送によれば、動領域位置生成部３３１−ｑ及び静止領域位置生成部３３２−ｑは、カメラ３１０−（ｑ−１）〜カメラ３１０−（ｑ＋１）の範囲内のカメラ３１０−ｉの撮影画像を用いて、物体の表面情報を生成する。このように、ステレオマッチングでは、カメラ３１０−ｑの光軸に対して、ＶＨ処理よりも狭い範囲内の光軸を有するカメラ３１０−ｉの撮影画像を用いれば十分である。

記憶部３３３−ｉは、動領域位置生成部３３１−ｉが生成した背景の動領域の表面情報と、静止領域位置生成部３３２−ｉが生成した静止領域の表面情報とを記憶する。合成部３３４−ｉは、記憶部３３３−ｉから背景の動領域及び静止領域の表面情報を読み出し、読み出した表面情報と、動領域位置生成部３３１−ｉから出力される前景の動領域の表面情報とを合成して、１画面の表面情報を生成する。

例えば、Ｍ枚のフレーム毎に１回、背景の動領域のステレオマッチングが行われる場合、残りのＭ−１枚のフレームに対しては、記憶部３３３−ｉが記憶している背景の動領域の表面情報が読み出される。

合成部３３４−ｉは、前景マスク画像及び背景マスク画像の各画素の画素値に基づいて、前景の動領域の表面情報、背景の動領域の表面情報、又は静止領域の表面情報のいずれか１つを選択する。このとき、合成部３３４−ｉは、前景マスク画像の画素値が論理“１”の範囲については、前景の動領域の表面情報を選択し、背景マスク画像の画素値が論理“１”の範囲については、背景の動領域の表面情報を選択する。また、合成部３３４−ｉは、前景マスク画像及び背景マスク画像の画素値がともに論理“０”の範囲については、静止領域の表面情報を選択する。

そして、合成部３３４−ｉは、選択したそれぞれの画素の表面情報を合成して１画面の表面情報を生成し、カメラ３１０−ｉの撮影画像と生成した表面情報とを、通信部３１４を介して映像生成部３１５へ転送する。

映像生成部３１５は、仮想カメラ位置の周辺にある１台以上のカメラ３１０−ｉの撮影画像と、対応する合成部３３４−ｉが生成した表面情報とを参照して、仮想カメラ位置から見た画像を生成する。そして、映像生成部３１５は、生成した画像を表示装置３１７へ出力する。例えば、映像生成部３１５は、ＶＳＲＳ２．０等のアルゴリズムを用いて、仮想カメラ位置から見た画像を生成することができる。

表示装置３１７は、映像生成部３１５が生成した各時刻の画像を画面上に表示することで、自由視点映像を出力する。

図３の画像処理システムによれば、主観画質に影響のある前景の動領域については高い頻度で表面情報が生成され、主観画質に影響の少ない背景の動領域と静止領域については低い頻度で表面情報が生成される。これにより、主観画質を保ちつつ、演算量を削減することができる。

また、ＶＨ処理及びステレオマッチングを行う３次元形状推定部３１３−ｉをカメラ３１０−ｉ毎に設けることで、マスク画像及び撮影画像の転送処理に伴う負荷を分散させることができる。これにより、自由視点映像生成処理をリアルタイムで行うことが可能になる。

図１２は、図３の画像処理装置１０１が行う自由視点映像生成処理の例を示すフローチャートである。まず、画像処理装置１０１は、フレーム番号を示す制御変数ｋに０を設定し（ステップ１２０１）、入力映像処理部３１１−ｉの取得部３２１−ｉは、カメラ３１０−ｉからｋ番目の撮影画像を取得する（ステップ１２０２）。そして、抽出部３２２−ｉは、ｋ番目の撮影画像から動領域を抽出してマスク画像を生成し、ｋ番目の撮影画像及びマスク画像を複数の３次元形状推定部３１３−ｉへ転送する（ステップ１２０３）。

３次元形状推定部３１３−ｉの動領域位置生成部３３１−ｉは、受信したマスク画像とカメラパラメータとを用いてＶＨ処理を行い、動領域に対応する物体の３次元形状を生成する（ステップ１２０４）。そして、動領域位置生成部３３１−ｉは、３次元形状を、注目領域に対応する前景と、非注目領域に対応する背景とに分割し（ステップ１２０５）、前景マスク画像及び背景マスク画像を生成する（ステップ１２０６）。

次に、動領域位置生成部３３１−ｉは、前景マスク画像の範囲内で、ｋ番目の撮影画像とカメラパラメータとを用いてステレオマッチングを行い、前景の動領域の表面情報を生成する（ステップ１２０７）。

次に、動領域位置生成部３３１−ｉは、ｋをＭで除算した剰余が０であるか否かをチェックする（ステップ１２０８）。Ｍとしては、例えば、２〜１０の範囲の整数を用いることができる。

剰余が０である場合（ステップ１２０８，ＹＥＳ）、動領域位置生成部３３１−ｉは、背景マスク画像の範囲内で、ｋ番目の撮影画像とカメラパラメータとを用いてステレオマッチングを行い、背景の動領域の表面情報を生成する（ステップ１２１０）。これにより、動領域位置生成部３３１−ｉは、Ｍ枚のフレーム毎に１回のみ、背景の動領域の表面情報を生成することができる。そして、動領域位置生成部３３１−ｉは、背景の動領域の表面情報を記憶部３３３−ｉに格納し、合成部３３４−ｉは、記憶部３３３−ｉから背景の動領域の表面情報を読み出す。

一方、剰余が０ではない場合（ステップ１２０８，ＮＯ）、合成部３３４−ｉは、記憶部３３３−ｉに既に格納されている背景の動領域の表面情報を読み出す（ステップ１２０９）。

次に、静止領域位置生成部３３２−ｉは、ｋの値をチェックする（ステップ１２１１）。ｋが０である場合（ステップ１２１１，ＹＥＳ）、静止領域位置生成部３３２−ｉは、入力映像処理部３１１−ｉから受信したマスク画像と、ｋ番目の撮影画像と、カメラパラメータとを用いてステレオマッチングを行う（ステップ１２１３）。そして、静止領域位置生成部３３２−ｉは、静止領域の表面情報を生成して記憶部３３３−ｉに格納し、合成部３３４−ｉは、記憶部３３３−ｉから静止領域の表面情報を読み出す。

一方、ｋが１以上である場合（ステップ１２０８，ＮＯ）、合成部３３４−ｉは、記憶部３３３−ｉに既に格納されている静止領域の表面情報を読み出す（ステップ１２１２）。この場合、最初のフレームに対してのみ、静止領域の表面情報が生成される。

次に、合成部３３４−ｉは、前景の動領域の表面情報、背景の動領域の表面情報、及び静止領域の表面情報を合成して、１画面の表面情報を生成し、ｋ番目の撮影画像と生成した表面情報とを映像生成部３１５へ転送する（ステップ１２１４）。

次に、映像生成部３１５は、仮想カメラ位置の周辺にある１台以上のカメラ３１０−ｉのｋ番目の撮影画像及び表面情報を参照して、仮想カメラ位置から見たｋ番目の画像を生成し、表示装置３１７へ出力する（ステップ１２１５）。

次に、画像処理装置１０１は、自由視点映像の出力を終了するか否かを判定する（ステップ１２１６）。例えば、画像処理装置１０１は、ユーザ又は画像処理システムの外部の装置から停止指示が入力された場合に、自由視点映像の出力を終了することができる。自由視点映像の出力を終了しない場合（ステップ１２１６，ＮＯ）、画像処理装置１０１は、ｋを１だけインクリメントして（ステップ１２１７）、ステップ１２０２以降の処理を繰り返す。一方、自由視点映像の出力を終了する場合（ステップ１２１６，ＹＥＳ）、画像処理装置１０１は、処理を終了する。

ところで、自由視点映像の視点となる仮想カメラ位置は、ユーザの操作又は所定のアルゴリズムによって変更することが可能である。例えば、仮想カメラ位置の変更方法として、３次元空間内の直線又は曲線に沿って仮想カメラ位置を連続的に移動させる方法と、次の仮想カメラ位置まで瞬間的に移動させる方法とが考えられる。

前者の方法を用いる場合、位置指定部３１６は、ある位置からユーザが指定した方向に向かって、複数の仮想カメラ位置を連続的に生成してもよい。また、位置指定部３１６は、ある位置からユーザが指定した最終位置までの間を滑らかに補間して、複数の仮想カメラ位置を連続的に生成してもよい。このように、仮想カメラ位置を連続的に移動させる場合は、仮想カメラ位置の移動経路を予測することができる。

そこで、位置指定部３１６は、仮想カメラ位置とその移動方向とを、入力映像処理部３１１−ｉ及び３次元形状推定部３１３−ｉへ出力する。そして、移動方向が示す移動先の位置から所定範囲内に存在しないカメラ３１０−ｉに対応する入力映像処理部３１１−ｉ及び３次元形状推定部３１３−ｉは、動作を停止する。これにより、画像処理装置１０１は、予測される移動先から遠いカメラ３１０−ｉの撮影画像を用いた処理を省略することができる。

後者の方法を用いる場合、仮想カメラ位置が指定された位置まで瞬間的に移動して、カメラが切り替わったような映像が生成される。したがって、次の仮想カメラ位置が事前に分かっている場合を除いて、仮想カメラ位置の予測が難しいため、すべての３次元形状推定部３１３−ｉを動作させておくことが望ましい。ただし、処理の遅延が許される場合には、仮想カメラ位置が変更される度に、変更後の位置に近いカメラ３１０−ｉに対応する３次元形状推定部３１３−ｉのみを起動して、他の３次元形状推定部３１３−ｉの動作を停止させることも可能である。

図１及び図３の画像処理装置１０１の構成は一例に過ぎず、画像処理装置１０１の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、処理の負荷を分散させる必要がない場合は、図３の入力映像処理部３１１−２〜入力映像処理部３１１−Ｎ、３次元形状推定部３１３−２〜３次元形状推定部３１３−Ｎ、通信部３１２、及び通信部３１４を省略することができる。この場合、入力映像処理部３１１−１及び３次元形状推定部３１３−１が、カメラ３１０−１〜カメラ３１０−Ｎの撮影画像に対する処理を行う。

図２及び図１２のフローチャートは一例に過ぎず、画像処理装置１０１の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、図１２のステップ１２０４において、動領域位置生成部３３１−ｉは、ＶＨ処理以外の方法により３次元形状を生成してもよい。また、ステップ１２０７、ステップ１２１０、及びステップ１２１３において、動領域位置生成部３３１−ｉ及び静止領域位置生成部３３２−ｉは、ステレオマッチング以外の方法により表面情報を生成してもよい。表面情報をデプスマップ以外のデータ形式で表現しても構わない。

図４のカメラ配置及び図５の注目領域は一例に過ぎず、被写体に応じて別のカメラ配置及び注目領域を用いてもよい。図６〜図１１の転送処理は一例に過ぎず、画像処理装置１０１の構成又は条件に応じて、転送先の３次元形状推定部３１３−ｉの個数又は組み合わせを変更してもよい。

式（１）及び式（２）のカメラパラメータは一例に過ぎず、画像処理装置１０１の構成又は条件に応じて別のカメラパラメータを用いてもよい。

図１３は、図３の画像処理装置１０１のハードウェア構成例を示している。図１３の画像処理装置１０１は、計算装置１３１１−１〜計算装置１３１１−Ｎ、スイッチ１３１２、計算装置１３１３、及び計算装置１３１４−１〜計算装置１３１４−Ｎを含む。計算装置１３１１−１〜計算装置１３１１−Ｎ、計算装置１３１３、及び計算装置１３１４−１〜計算装置１３１４−Ｎは、スイッチ１３１２を介して互いに接続されている。

計算装置１３１１−ｉ（ｉ＝１〜Ｎ）は、図３の入力映像処理部３１１−ｉに対応し、計算装置１３１３は、映像生成部３１５及び位置指定部３１６に対応し、計算装置１３１４−ｉは、３次元形状推定部３１３−ｉに対応する。スイッチ１３１２は、通信部３１２及び通信部３１４に対応し、例えば、Ethernet（登録商標）、InfiniBand（登録商標）等のスイッチであってもよい。

図１４は、図１及び図３の画像処理装置１０１、図１３の計算装置１３１１−ｉ、計算装置１３１３、及び計算装置１３１４−ｉとして用いられる情報処理装置（コンピュータ）の構成例を示している。

図１４の情報処理装置は、Central Processing Unit（ＣＰＵ）１４０１、メモリ１４０２、入力装置１４０３、出力装置１４０４、補助記憶装置１４０５、媒体駆動装置１４０６、及びネットワーク接続装置１４０７を含む。これらの構成要素はバス１４０８により互いに接続されている。

情報処理装置が計算装置１３１１−ｉである場合、カメラ３１０−ｉは、映像用のインタフェースを介してバス１４０８に接続されていてもよい。

メモリ１４０２は、例えば、Read Only Memory（ＲＯＭ）、Random Access Memory（ＲＡＭ）、フラッシュメモリ等の半導体メモリであり、画像処理に用いられるプログラム及びデータを格納する。メモリ１４０２は、図３の記憶部３３３−ｉとして用いることができる。メモリ１４０２は、カメラパラメータ、カメラ３１０−ｉの撮影画像、抽出部３２２−ｉが生成するマスク画像、動領域位置生成部３３１−ｉが生成する前景マスク画像及び背景マスク画像等を記憶することもできる。

ＣＰＵ１４０１（プロセッサ）は、例えば、メモリ１４０２を利用してプログラムを実行することにより、図１の抽出部１１１、表面情報生成部１１２、及び画像生成部１１３として動作する。ＣＰＵ１４０１は、プログラムを実行することにより、図３の入力映像処理部３１１−ｉ、３次元形状推定部３１３−ｉ、映像生成部３１５、及び位置指定部３１６としても動作する。ＣＰＵ１４０１は、プログラムを実行することにより、取得部３２１−ｉ、抽出部３２２−ｉ、動領域位置生成部３３１−ｉ、静止領域位置生成部３３２−ｉ、及び合成部３３４−ｉとしても動作する。

入力装置１４０３は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置１４０４は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。処理結果は、仮想カメラ位置から見た画像であってもよい。出力装置１４０４は、図３及び図１３の表示装置３１７として用いることができる。

補助記憶装置１４０５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置１４０５は、ハードディスクドライブであってもよい。情報処理装置は、補助記憶装置１４０５にプログラム及びデータを格納しておき、それらをメモリ１４０２にロードして使用することができる。補助記憶装置１４０５は、図３の記憶部３３３−ｉとして用いることができる。

媒体駆動装置１４０６は、可搬型記録媒体１４０９を駆動し、その記録内容にアクセスする。可搬型記録媒体１４０９は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体１４０９は、Compact Disk Read Only Memory（ＣＤ−ＲＯＭ）、Digital Versatile Disk（ＤＶＤ）、Universal Serial Bus（ＵＳＢ）メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体１４０９にプログラム及びデータを格納しておき、それらをメモリ１４０２にロードして使用することができる。

このように、画像処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ１４０２、補助記憶装置１４０５、又は可搬型記録媒体１４０９のような、物理的な（非一時的な）記録媒体である。

ネットワーク接続装置１４０７は、図３の通信部３１２、通信部３１４、又は図１３のスイッチ１３１２に接続され、通信に伴うデータ変換を行う通信インタフェースである。ネットワーク接続装置１４０７は、Local Area Network、Wide Area Network等の通信ネットワークに接続されてもよい。この場合、情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置１４０７を介して受信し、それらをメモリ１４０２にロードして使用することができる。

なお、情報処理装置が図１４のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、情報処理装置が計算装置１３１１−ｉ又は計算装置１３１４−ｉである場合は、入力装置１４０３及び出力装置１４０４を省略してもよい。情報処理装置が計算装置１３１３であり、表示装置３１７を含まない場合は、出力装置１４０４を省略してもよい。

可搬型記録媒体１４０９を使用しない場合は、媒体駆動装置１４０６を省略してもよい。処理の負荷を分散させる必要がなく、通信部３１２、通信部３１４、及びスイッチ１３１２を設けない場合は、ネットワーク接続装置１４０７を省略してもよい。

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

図１乃至図１４を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
（付記１）
複数の撮影装置によって空間を撮影した複数の画像それぞれから動領域を抽出する抽出部と、
前記空間内の注目領域に対応する動領域から物体の表面情報を生成し、前記注目領域に対応する動領域から物体の表面情報を生成する頻度よりも少ない頻度で、前記注目領域以外の非注目領域に対応する動領域と、静止領域とから物体の表面情報を生成する表面情報生成部と、
前記注目領域に対応する動領域から生成された表面情報と、前記非注目領域に対応する動領域から生成された表面情報と、前記静止領域から生成された表面情報とを用いて、前記空間内の所定位置から見た画像を生成する画像生成部と、
を備えることを特徴とする画像処理装置。
（付記２）
前記表面情報生成部は、前記複数の画像を用いて、前記物体の３次元形状のうち、前記複数の撮影装置各々の位置から見える部分の３次元形状を生成し、生成した３次元形状を用いて前記部分の表面情報を生成することを特徴とする付記１記載の画像処理装置。
（付記３）
前記抽出部は、前記複数の画像各々の動領域と静止領域とを示すマスク画像を生成し、前記表面情報生成部は、前記マスク画像と前記複数の画像を参照して、前記部分の３次元形状と前記静止領域の表面情報とを生成し、前記部分の３次元形状から、前記注目領域に対応する動領域を示す第１マスク画像と、前記非注目領域に対応する動領域を示す第２マスク画像とを生成し、前記第１マスク画像と前記複数の画像を参照して前記注目領域に対応する動領域の表面情報を生成し、前記第２マスク画像と前記複数の画像を参照して前記非注目領域に対応する動領域の表面情報を生成することを特徴とする付記２記載の画像処理装置。
（付記４）
前記抽出部は、前記複数の撮影装置にそれぞれ対応して設けられた複数の抽出部を含み、
前記表面情報生成部は、前記複数の撮影装置にそれぞれ対応して設けられた複数の表面情報生成部を含み、
前記複数の抽出部各々は、前記複数の画像各々から動領域を抽出し、
前記複数の表面情報生成部各々は、前記複数の撮影装置各々が撮影した画像と、前記複数の撮影装置各々の位置から所定範囲内に存在する撮影装置が撮影した画像とを用いて、前記物体の表面情報を生成することを特徴とする付記１乃至３のいずれか１項に記載の画像処理装置。
（付記５）
前記所定位置を移動方向に沿って移動させる位置指定部をさらに備え、
前記複数の表面情報生成部のうち、前記移動方向が示す移動先の位置から所定範囲内に存在しない撮影装置が撮影した画像を用いて、前記物体の表面情報を生成する表面情報生成部は、動作を停止することを特徴とする付記４記載の画像処理装置。
（付記６）
複数の撮影装置によって空間を撮影した複数の画像それぞれから動領域を抽出し、
前記空間内の注目領域に対応する動領域から物体の表面情報を生成し、前記注目領域に対応する動領域から物体の表面情報を生成する頻度よりも少ない頻度で、前記注目領域以外の非注目領域に対応する動領域と、静止領域とから物体の表面情報を生成し、
前記注目領域に対応する動領域から生成された表面情報と、前記非注目領域に対応する動領域から生成された表面情報と、前記静止領域から生成された表面情報とを用いて、前記空間内の所定位置から見た画像を生成する、
処理をコンピュータに実行させる画像処理プログラム。
（付記７）
前記コンピュータは、前記複数の画像を用いて、前記物体の３次元形状のうち、前記複数の撮影装置各々の位置から見える部分の３次元形状を生成し、生成した３次元形状を用いて前記部分の表面情報を生成することを特徴とする付記６記載の画像処理装置。
（付記８）
前記コンピュータは、前記複数の画像各々の動領域と静止領域とを示すマスク画像を生成し、前記マスク画像と前記複数の画像を参照して、前記部分の３次元形状と前記静止領域の表面情報とを生成し、前記部分の３次元形状から、前記注目領域に対応する動領域を示す第１マスク画像と、前記非注目領域に対応する動領域を示す第２マスク画像とを生成し、前記第１マスク画像と前記複数の画像を参照して前記注目領域に対応する動領域の表面情報を生成し、前記第２マスク画像と前記複数の画像を参照して前記非注目領域に対応する動領域の表面情報を生成することを特徴とする付記７記載の画像処理装置。
（付記９）
前記コンピュータは、前記複数の撮影装置各々が撮影した画像と、前記複数の撮影装置各々の位置から所定範囲内に存在する撮影装置が撮影した画像とを用いて、前記物体の表面情報を生成することを特徴とする付記６乃至８のいずれか１項に記載の画像処理装置。
（付記１０）
前記コンピュータは、前記所定位置を移動方向に沿って移動させ、前記移動方向が示す移動先の位置から所定範囲内に存在しない撮影装置が撮影した画像を用いて前記物体の表面情報を生成する処理を停止することを特徴とする付記９記載の画像処理装置。
（付記１１）
コンピュータが、
複数の撮影装置によって空間を撮影した複数の画像それぞれから動領域を抽出し、
前記空間内の注目領域に対応する動領域から物体の表面情報を生成し、前記注目領域に対応する動領域から物体の表面情報を生成する頻度よりも少ない頻度で、前記注目領域以外の非注目領域に対応する動領域と、静止領域とから物体の表面情報を生成し、
前記注目領域に対応する動領域から生成された表面情報と、前記非注目領域に対応する動領域から生成された表面情報と、前記静止領域から生成された表面情報とを用いて、前記空間内の所定位置から見た画像を生成する、
ことを特徴とする画像処理方法。
（付記１２）
前記コンピュータは、前記複数の画像を用いて、前記物体の３次元形状のうち、前記複数の撮影装置各々の位置から見える部分の３次元形状を生成し、生成した３次元形状を用いて前記部分の表面情報を生成することを特徴とする付記１１記載の画像処理装置。
（付記１３）
前記コンピュータは、前記複数の画像各々の動領域と静止領域とを示すマスク画像を生成し、前記マスク画像と前記複数の画像を参照して、前記部分の３次元形状と前記静止領域の表面情報とを生成し、前記部分の３次元形状から、前記注目領域に対応する動領域を示す第１マスク画像と、前記非注目領域に対応する動領域を示す第２マスク画像とを生成し、前記第１マスク画像と前記複数の画像を参照して前記注目領域に対応する動領域の表面情報を生成し、前記第２マスク画像と前記複数の画像を参照して前記非注目領域に対応する動領域の表面情報を生成することを特徴とする付記１２記載の画像処理装置。
（付記１４）
前記コンピュータは、前記複数の撮影装置各々が撮影した画像と、前記複数の撮影装置各々の位置から所定範囲内に存在する撮影装置が撮影した画像とを用いて、前記物体の表面情報を生成することを特徴とする付記１１乃至１３のいずれか１項に記載の画像処理装置。
（付記１５）
前記コンピュータは、前記所定位置を移動方向に沿って移動させ、前記移動方向が示す移動先の位置から所定範囲内に存在しない撮影装置が撮影した画像を用いて前記物体の表面情報を生成する処理を停止することを特徴とする付記１４記載の画像処理装置。

１０１画像処理装置
１１１抽出部
１１２表面情報生成部
１１３画像生成部
３１０−１〜３１０−Ｎカメラ
３１１−１〜３１１−Ｎ入力映像処理部
３１２、３１４通信部
３１３−１〜３１３−Ｎ３次元形状推定部
３１５映像生成部
３１６位置指定部
３１７表示装置
３２１−１〜３２１−Ｎ取得部
３２２−１〜３２２−Ｎ抽出部
３３１−１〜３３１−Ｎ動領域位置生成部
３３２−１〜３３２−Ｎ静止領域位置生成部
３３３−１〜３３３−Ｎ記憶部
３３４−１〜３３４−Ｎ合成部
５０１注目領域
１３１１−１〜１３１１−Ｎ、１３１３、１３１４−１〜１３１４−Ｎ計算装置
１３１２スイッチ
１４０１ＣＰＵ
１４０２メモリ
１４０３入力装置
１４０４出力装置
１４０５補助記憶装置
１４０６媒体駆動装置
１４０７ネットワーク接続装置
１４０８バス
１４０９可搬型記録媒体

Claims

複数の撮影装置によって空間を撮影した複数の画像それぞれから動領域を抽出する抽出部と、
前記空間内の注目領域に対応する動領域から物体の表面情報を生成し、前記注目領域に対応する動領域から物体の表面情報を生成する頻度よりも少ない頻度で、前記注目領域以外の非注目領域に対応する動領域と、静止領域とから物体の表面情報を生成する表面情報生成部と、
前記注目領域に対応する動領域から生成された表面情報と、前記非注目領域に対応する動領域から生成された表面情報と、前記静止領域から生成された表面情報とを用いて、前記空間内の所定位置から見た画像を生成する画像生成部と、
を備えることを特徴とする画像処理装置。
前記表面情報生成部は、前記複数の画像を用いて、前記物体の３次元形状のうち、前記複数の撮影装置各々の位置から見える部分の３次元形状を生成し、生成した３次元形状を用いて前記部分の表面情報を生成することを特徴とする請求項１記載の画像処理装置。
前記抽出部は、前記複数の画像各々の動領域と静止領域とを示すマスク画像を生成し、前記表面情報生成部は、前記マスク画像と前記複数の画像を参照して、前記部分の３次元形状と前記静止領域の表面情報とを生成し、前記部分の３次元形状から、前記注目領域に対応する動領域を示す第１マスク画像と、前記非注目領域に対応する動領域を示す第２マスク画像とを生成し、前記第１マスク画像と前記複数の画像を参照して前記注目領域に対応する動領域の表面情報を生成し、前記第２マスク画像と前記複数の画像を参照して前記非注目領域に対応する動領域の表面情報を生成することを特徴とする請求項２記載の画像処理装置。
前記抽出部は、前記複数の撮影装置にそれぞれ対応して設けられた複数の抽出部を含み、
前記表面情報生成部は、前記複数の撮影装置にそれぞれ対応して設けられた複数の表面情報生成部を含み、
前記複数の抽出部各々は、前記複数の画像各々から動領域を抽出し、
前記複数の表面情報生成部各々は、前記複数の撮影装置各々が撮影した画像と、前記複数の撮影装置各々の位置から所定範囲内に存在する撮影装置が撮影した画像とを用いて、前記物体の表面情報を生成することを特徴とする請求項１乃至３のいずれか１項に記載の画像処理装置。
前記所定位置を移動方向に沿って移動させる位置指定部をさらに備え、
前記複数の表面情報生成部のうち、前記移動方向が示す移動先の位置から所定範囲内に存在しない撮影装置が撮影した画像を用いて、前記物体の表面情報を生成する表面情報生成部は、動作を停止することを特徴とする請求項４記載の画像処理装置。
複数の撮影装置によって空間を撮影した複数の画像それぞれから動領域を抽出し、
前記空間内の注目領域に対応する動領域から物体の表面情報を生成し、前記注目領域に対応する動領域から物体の表面情報を生成する頻度よりも少ない頻度で、前記注目領域以外の非注目領域に対応する動領域と、静止領域とから物体の表面情報を生成し、
前記注目領域に対応する動領域から生成された表面情報と、前記非注目領域に対応する動領域から生成された表面情報と、前記静止領域から生成された表面情報とを用いて、前記空間内の所定位置から見た画像を生成する、
処理をコンピュータに実行させる画像処理プログラム。
コンピュータが、
複数の撮影装置によって空間を撮影した複数の画像それぞれから動領域を抽出し、
前記空間内の注目領域に対応する動領域から物体の表面情報を生成し、前記注目領域に対応する動領域から物体の表面情報を生成する頻度よりも少ない頻度で、前記注目領域以外の非注目領域に対応する動領域と、静止領域とから物体の表面情報を生成し、
前記注目領域に対応する動領域から生成された表面情報と、前記非注目領域に対応する動領域から生成された表面情報と、前記静止領域から生成された表面情報とを用いて、前記空間内の所定位置から見た画像を生成する、
ことを特徴とする画像処理方法。