JP6357396B2

JP6357396B2 - 背景差分装置、方法、及びプログラム

Info

Publication number: JP6357396B2
Application number: JP2014204611A
Authority: JP
Inventors: 達哉大澤; 悠米本; 行信谷口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-10-03
Filing date: 2014-10-03
Publication date: 2018-07-11
Anticipated expiration: 2034-10-03
Also published as: JP2016076015A

Description

本発明は、背景差分装置、方法、及びプログラムに係り、特に、画像から背景となる画像を差分することで前景物体領域の情報だけを取得する背景差分装置、方法、及びプログラムに関する。

コンピュータビジョン分野では、注視したい被写体のみの情報を取得するため入力された映像から背景となる情報を差分し、前景物体領域だけの情報を抜き出す背景差分を行う研究が行われている。

例えば、監視カメラなど固定カメラを用いて、撮影された映像の各画素値の頻度分布を時系列で観測し、これを統計モデルに当てはめることで、逐次的に背景モデルを生成し、背景モデルから外れた値が入力された場合に前景として抜き出すことで、動物体など前景物体領域の情報のみを抜き出す方法がある（非特許文献１）。

C. Stauffer, W.E.L. Grimson, "Adaptive Background Mixture Models for Real-Time Tracking", Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 246-252, 1999.

非特許文献１の背景差分を行う方法においては、固定カメラを用いることでカメラの各画素値が背景を映している場合、あまり大きく変動することがないということが前提となっており、カメラが動くような状況においては背景と前景を分けることができないという問題がある。

本発明では、上記問題を解決するために成されたものであり、カメラが固定されていない場合であっても、各時刻における深度画像から、前景物体領域の深度情報を得ることができる背景差分装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る背景差分方法は、深度画像取得部と、位置姿勢推定部と、仮想背景深度画像生成部と、背景差分取得部と、背景モデル更新部と、繰り返し判定部と、を含む背景差分装置における背景差分方法であって、前記深度画像取得部は、時系列に連続して入力される、カメラにより取得した深度画像を取得し、前記位置姿勢推定部は、前記深度画像取得部によって取得された前記深度画像を取得したときの前記カメラの位置及び姿勢を推定し、前記仮想背景深度画像生成部は、前記位置姿勢推定部により推定した前記カメラの位置及び姿勢と、予め用意された又は前回更新された背景の三次元位置を表す背景モデルとに基づいて、前記カメラにより取得することを仮定した場合に得られる、背景を表す仮想背景深度画像を生成し、前記背景差分取得部は、前記深度画像と、前記仮想背景深度画像生成部により生成された前記深度画像に対応する前記仮想背景深度画像との差分に基づいて、前景物体領域の深度情報を取得し、前記背景モデル更新部は、前記深度画像と、前記位置姿勢推定部により推定された前記カメラの位置及び姿勢とに基づいて、前記背景モデルを更新し、前記繰り返し判定部は、予め定められた終了条件を満たすまで、前記深度画像取得部による取得と、前記位置姿勢推定部による推定と、前記仮想背景深度画像生成部による生成と、前記背景差分取得部による取得と、前記背景モデル更新部による更新とを繰り返す。

第２の発明に係る背景差分装置は、時系列に連続して入力される、カメラにより取得した深度画像を取得する深度画像取得部と、前記深度画像取得部によって取得された前記深度画像を取得したときの前記カメラの位置及び姿勢を推定する位置姿勢推定部と、前記位置姿勢推定部により推定した前記カメラの位置及び姿勢と、予め用意された又は前回更新された背景の三次元位置を表す背景モデルとに基づいて、前記カメラにより取得することを仮定した場合に得られる、背景を表す仮想背景深度画像を生成する仮想背景深度画像生成部と、前記深度画像と、前記仮想背景深度画像生成部により生成された前記深度画像に対応する前記仮想背景深度画像との差分に基づいて、前景物体領域の深度情報を取得する背景差分取得部と、前記深度画像と、前記位置姿勢推定部により推定された前記カメラの位置及び姿勢とに基づいて、前記背景モデルを更新する背景モデル更新部と、予め定められた終了条件を満たすまで、前記深度画像取得部による取得と、前記位置姿勢推定部による推定と、前記仮想背景深度画像生成部による生成と、前記背景差分取得部による取得と、前記背景モデル更新部による更新とを繰り返す繰り返し判定部と、を含んで構成されている。

第１及び第２の発明によれば、深度画像取得部により、時系列に連続して入力される、カメラにより取得した深度画像を取得し、位置姿勢推定部により、取得された深度画像を取得したときのカメラの位置及び姿勢を推定し、仮想背景深度画像生成部により、推定したカメラの位置及び姿勢と、予め用意された又は前回更新された背景の三次元位置を表す背景モデルとに基づいて、カメラにより取得することを仮定した場合に得られる、背景を表す仮想背景深度画像を生成し、背景差分取得部により、深度画像と、生成された深度画像に対応する仮想背景深度画像との差分に基づいて、前景物体領域の深度情報を取得し、背景モデル更新部により、深度画像と、推定されたカメラの位置及び姿勢とに基づいて、背景モデルを更新し、繰り返し判定部により、予め定められた終了条件を満たすまで、深度画像取得部による取得と、位置姿勢推定部による推定と、仮想背景深度画像生成部による生成と、背景差分取得部による取得と、背景モデル更新部による更新とを繰り返す。

このように、時系列に連続して入力される、カメラにより取得した深度画像を取得し、取得された深度画像を取得したときのカメラの位置及び姿勢を推定し、推定したカメラの位置及び姿勢と、予め用意された又は前回更新された背景の三次元位置を表す背景モデルとに基づいて、カメラにより取得することを仮定した場合に得られる、背景を表す仮想背景深度画像を生成し、深度画像と、生成された深度画像に対応する仮想背景深度画像との差分に基づいて、前景物体領域の深度情報を取得し、深度画像と、推定されたカメラの位置及び姿勢とに基づいて、背景モデルを更新することを、予め定められた終了条件を満たすまで繰り返すことにより、カメラが固定されていない場合であっても、各時刻における深度画像から、前景物体領域の深度情報を得ることができる。

また、第１及び第２の発明において、前記仮想背景深度画像生成部により前記仮想背景深度画像を生成することは、前記背景モデルを構成する複数のボクセルの各々について、前記位置姿勢推定部により推定した前記カメラの位置及び姿勢に基づいて、前記カメラから見たときの前記ボクセルの座標値に変換し、前記変換された前記ボクセルの座標値に基づいて、前記カメラにより取得される画像の画像平面へ前記ボクセルを投影し、前記ボクセルが投影された前記画像平面の同一画素に投影された他のボクセルに付与された背景らしさを示す信頼度と、前記ボクセルの前記信頼度とを比較し、前記信頼度の比較結果に基づいて、前記ボクセルが投影された前記画像平面の画素の深度情報を更新することにより、前記仮想背景深度画像を生成してもよい。

また、第１及び第２の発明において、前記背景モデル更新部により前記背景モデルを更新することは、前記深度画像の各画素を三次元空間に逆投影し、前記逆投影により得られた各画素に対応する三次元点の各々について、前記位置姿勢推定部により推定された前記カメラの位置及び姿勢に基づいて、前記背景モデルの三次元空間における三次元座標に変換し、前記三次元点の各々について変換された前記三次元座標に基づいて、前記背景モデルを構成する複数のボクセルの各々に付与された背景らしさを示す信頼度を更新してもよい。

また、本発明のプログラムは、コンピュータに、上記の背景差分方法における各ステップを実行させるためのプログラムである。

以上説明したように、本発明の背景差分装置、方法、及びプログラムによれば、時系列に連続して入力される、カメラにより取得した深度画像を取得し、取得された深度画像を取得したときのカメラの位置及び姿勢を推定し、推定したカメラの位置及び姿勢と、予め用意された又は前回更新された背景の三次元位置を表す背景モデルとに基づいて、カメラにより取得することを仮定した場合に得られる、背景を表す仮想背景深度画像を生成し、深度画像と、生成された深度画像に対応する仮想背景深度画像との差分に基づいて、前景物体領域の深度情報を取得し、深度画像と、推定されたカメラの位置及び姿勢とに基づいて、背景モデルを更新することを、予め定められた終了条件を満たすまで繰り返すことにより、カメラが固定されていない場合であっても、各時刻における深度画像から、前景物体領域の深度情報を得ることができる。

本発明の実施の形態に係る背景差分装置の機能的構成を示すブロック図である。各ボクセルに背景らしさの信頼度のついたボクセル空間の例を示す図である。ボクセル空間の原点の設定例を示す図である。ボクセルと逆投影に利用した深度画像Ｉｍの画素を結ぶベクトルの計算の例を示す図である。本発明の実施の形態に係る背景差分装置における背景差分処理ルーチンを示すフローチャート図である。本発明の実施の形態に係る背景差分装置における仮想背景深度画像の生成処理ルーチンを示すフローチャート図である。本発明の実施の形態に係る背景差分装置における背景モデル更新処理ルーチンを示すフローチャート図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る背景差分装置の構成＞
次に、本発明の実施の形態に係る背景差分装置の構成について説明する。図１に示すように、本発明の実施の形態に係る背景差分装置１００は、ＣＰＵと、ＲＡＭと、後述する背景差分処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この背景差分装置１００は、機能的には、カメラ１０と、入力部１２と、演算部２０と、出力部９０とを含んで構成されている。

カメラ１０は、前景物体及び背景を含む領域を撮影し、入力部１２に深度画像Ｉｍを画像データとして出力する。また、カメラ１０は、予め定められた間隔の各時刻において、撮影を行う。なお、本実施の形態においては、カメラ１０は、例えばステレオカメラなどの深度カメラを用いる。なお、深度画像Ｉｍの各画素には、各画素のＺ値を画素値として保持している。

入力部１２は、カメラ１０から時系列に連続して入力される各時刻の深度画像Ｉｍの画像データを受け付ける。

演算部２０は、深度画像取得部２２と、位置姿勢推定部２４と、背景モデル記憶部２６と、仮想背景深度画像生成部２８と、背景差分取得部３０と、背景モデル更新部３２と、繰り返し判定部３４と、を含んで構成されている。

深度画像取得部２２は、入力部１２において受け付けた現時刻の深度画像Ｉｍを取得する。なお、深度画像取得部２２は、初回の処理において、一番早い時刻に撮影された深度画像Ｉｍを取得し、繰り返し処理毎に、現時刻に撮影された深度画像Ｉｍを取得するように、処理毎に撮影された時刻をずらしながら現時刻に撮影された深度画像Ｉｍを取得する。

位置姿勢推定部２４は、深度画像取得部２２において取得した深度画像Ｉｍに基づいて、当該深度画像Ｉｍを撮影した現時刻のカメラ位置、及び姿勢を推定する。本実施の形態においては、深度画像取得部２２において前回取得した深度画像Ｉｍと、深度画像取得部２２において取得した深度画像Ｉｍとに基づいて、時間的に隣接する深度情報のずれを用いてカメラ１０の位置及び姿勢を推定する。なお、初回の処理の場合には、カメラ１０の位置及び姿勢のパラメータ（Ｘ，Ｙ，Ｚ，θｘ，θｙ，θｚ）として、初期位置及び姿勢（０，０，０，０，０，０）を設定し、以後の繰り返し処理について推定するカメラ１０の位置及び姿勢として、初期位置及び姿勢からの相対的な位置及び姿勢を推定する。また、本実施の形態においては、例えば、Iterative Closest Point(ICP)アルゴリズムにより推定する（非特許文献２：R.A. Newcombe , S. Izadi , O. Hilliges , D. Molyneaux , D. Kim , A.J. Davison , P. Kohli , J. Shotton , S. Hodges and A. Fitzgibbon "KinectFusion: Real-time Dense Surface Mapping and Tracking", Proc. IEEE Int. Symp. Mixed and Augmented Reality (ISMAR), 2011）。

背景モデル記憶部２６には、背景の三次元位置を表す背景モデルが記憶されている。なお、本実施の形態では、三次元位置を表す背景モデルを、図２に示すような各ボクセルに背景らしさの信頼度を付与したボクセル空間として表す。また、ボクセルの範囲は、本実施の形態において利用する深度カメラのセンシング範囲及びカメラの動作範囲から予め決定されているものとする。また、図３に示すように、ボクセル空間の原点を初期時刻のカメラ位置及び姿勢として設定する。

仮想背景深度画像生成部２８は、位置姿勢推定部２４において取得した現時刻のカメラ１０の位置及び姿勢に合わせて、背景モデル記憶部２６に記憶されている背景モデルを二次元の画像上に投影することにより、カメラ１０により取得することを仮定した場合に得られる、背景を表す仮想背景深度画像Ｓｍを生成する。具体的には、まず、カメラ１０の位置及び姿勢に合わせて、背景モデル記憶部２６に記憶されている背景モデルを座標変換する。カメラの位置及び姿勢が、回転行列Ｒと並進行列Ｔとで表される場合、各ボクセルの中心を表す三次元座標に対し、下記（１）式の変換行列Ｋをかけて、カメラから見たときのボクセルの座標値に座標変換を行う。なお、本実施の形態においては、各ボクセルの中心を表す三次元座標は、例えば、４行１列であるものとする。

次に、各ボクセルを仮想画像平面へと投影を行う。これはカメラ１０の内部パラメータで構成されるカメラ行列をＡとすれば、座標変換後のボクセルの中心を表す三次元座標に対し、Ａ行列をかけることで、画像平面上のどの画素に各ボクセルが投影されるかを計算する。次に、投影後の仮想画像平面における信頼度の比較を行う。画素上に投影したボクセルの信頼度が、既に同一画素に投影済みのボクセルの信頼度より高い場合、若しくは、まだその同一画素に投影されたボクセルがない場合に、投影したボクセルの値を用いて仮想画像平面の当該画素の画素値を更新する。本実施の形態では、ボクセルが投影された仮想画像平面の画素の画素値として、座標変換後のボクセルの中心を表す三次元座標のＺ値を格納する。一方、画素上に投影したボクセルの信頼度が、既に同一画素に投影済みのボクセルの信頼度以下である場合には、全てのボクセルが処理されたかどうかを確認し、全てのボクセルの処理が終わるまで、ボクセルの仮想画像平面への投影を繰り返す。なお、カメラの内部パラメータ（焦点距離や投影中心）は予めキャリブレーション済みで定められているものとする。また、本実施の形態において、Ａ行列は、例えば３行４列であるものとし、一例として、パラメータは５か所に設定されているものとする。

背景差分取得部３０は、深度画像取得部２２において取得した深度画像Ｉｍから、仮想背景深度画像生成部２８において生成された仮想背景深度画像Ｓｍを差分し、背景以外の前景物体領域の深度情報を取得する。具体的には、カメラ１０の計測誤差を考慮して、深度画像Ｉｍの画素値が、対応する仮想背景深度画像Ｓｍの画素値を中心として一定の範囲に含まれる場合には、差分値を０とする。この範囲は、例えば、カメラ１０で既知の距離を複数回計測し、その頻度分布より、計測値の分散σを求めておき、固定のパラメータｎと計測値の分散σとの積ｎσ以内に含まれるように設定する。

背景モデル更新部３２は、深度画像取得部２２において取得した深度画像Ｉｍを三次元空間に逆投影し、背景モデル記憶部２６から三次元背景モデルに取り込むとともに、深度画像Ｉｍを三次元空間に逆投影した結果を用いて、背景モデルの信頼度を更新し、更新した背景モデルを背景モデル記憶部２６に記憶する。具体的には、まず、深度画像Ｉｍを三次元空間へ逆投影を行う。ここで、深度画像Ｉｍの各画素のＺ値、カメラ行列Ａ、及び位置姿勢推定部２４において取得したカメラ１０の位置及び姿勢を元に、下記（２）式に従って、各画素に対応する三次元点の三次元空間における計測値を求める。

ただし、ｄは深度画像Ｉｍの画素のＺ値、（ｕ，ｖ）は深度画像の二次元の画素位置、（Ｃｕ，Ｃｖ）は深度画像Ｉｍの画像中心、ｆは焦点距離を表す。なお、ｕが横軸方向、ｖが縦軸方向を表す。

次に、上記（２）式で取得した各画素に対応する三次元点の三次元空間における計測値を、位置姿勢推定部２４において取得したカメラ１０の位置及び姿勢に合わせて変換する。これは、カメラの位置及び姿勢が、回転行列Ｒと並進行列Ｔとで表される場合、各三次元点に対し、上記（１）式の変換行列Ｋをかけて座標変換を行う。

次に、座標変換された各三次元点が、予め設定されたボクセルのどの箱に含まれるかを計算し、各ボクセルの信頼度を更新する。ここで、各ボクセルの信頼度の初期値は０となっており、各三次元点を範囲のボクセルを決定し、当該ボクセルの信頼度を下記（３）式に従って更新することで信頼度を加算する。

ただし、αは、学習率を表し、事前に設定しておくパラメータであり、ｗは、更新前の信頼度を表す。

また、図４に示すように当該ボクセルと、当該ボクセルへ逆投影された深度画像Ｉｍの画素とを結ぶベクトルを計算し、当該ベクトル上の他のボクセルの信頼度を下記（４）式に従って更新することで信頼度を減算する。

繰り返し判定部３４は、背景差分取得部３０により取得した背景以外の前景物体領域の深度情報を出力部９０に出力すると共に、予め定められた終了条件を満たすか否かを判定する。当該終了条件を満たす場合には、背景差分装置１００による処理を終了し、当該終了条件を満たしていない場合には、深度画像取得部２２、位置姿勢推定部２４、仮想背景深度画像生成部２８、背景差分取得部３０、背景モデル更新部３２、及び繰り返し判定部３４の処理を繰り返す。なお、本実施の形態においては、予め定められた終了条件は、処理対象となる深度画像Ｉｍが入力部１２において受け付けた深度画像Ｉｍの最後の深度画像であることとする。

＜本発明の実施の形態に係る背景差分装置の作用＞
次に、本実施の形態に係る背景差分装置１００の作用について説明する。入力部１２において、カメラ１０から時系列に連続して入力される各時刻の深度画像Ｉｍを受け付けると、背景差分装置１００によって、図５に示す背景差分処理ルーチンが実行される。

まず、ステップＳ１００では、入力部１２において受け付けた現時刻の深度画像Ｉｍを取得する。

次に、ステップＳ１０２では、ステップＳ１００において取得した現時刻の深度画像Ｉｍに基づいて、又は、ステップＳ１００において取得した現時刻の深度画像Ｉｍ、及び前回の処理においてステップＳ１００において取得した一時刻前の深度画像Ｉｍに基づいて、ステップＳ１００において取得した深度画像Ｉｍを撮影した現時刻のカメラ１０の位置及び姿勢を推定する。

次に、ステップＳ１０４では、ステップＳ１０２において取得したカメラ１０の位置及び姿勢に合わせて、背景モデル記憶部２６に記憶されている背景モデルを二次元の画像上に投影することにより、仮想背景深度画像Ｓｍを生成する。

次に、ステップＳ１０６では、ステップＳ１００において取得した深度画像Ｉｍから、ステップＳ１０４において取得した仮想背景深度画像Ｓｍを差分して、前景物体領域の深度情報を取得する。

次に、ステップＳ１０８では、ステップＳ１００において取得した深度画像Ｉｍを三次元空間に逆投影し、背景モデル記憶部２６から三次元背景モデルに取り込むとともに、深度画像Ｉｍを三次元空間に逆投影した結果を用いて、背景モデルの信頼度を更新し、更新した背景モデルを背景モデル記憶部２６に記憶する。

次に、ステップＳ１１０では、ステップＳ１００において取得した深度画像Ｉｍが、入力部１２において受け付けた時系列に連続した深度画像Ｉｍのうち、最後の時刻の深度画像Ｉｍであるか判定する。時系列において最後の時刻の深度画像Ｉｍである場合には、背景差分処理ルーチンの処理を終了し、一方、時系列において最後の時刻の深度画像Ｉｍでない場合には、ステップＳ１００に移行し、ステップＳ１００〜ステップＳ１１０の処理を繰り返す。

上記ステップＳ１０４の仮想背景深度画像の生成の処理について、図６に示す仮想背景深度画像の生成処理ルーチンにおいて詳細に説明する。

図６のステップＳ２００では、背景モデル記憶部２６に記憶されている背景モデルを構成する各ボクセルのうち、処理対象となるボクセルの中心を表す三次元座標に対して、ステップＳ１０２において取得したカメラ位置及び姿勢に基づく、上記（１）式に表す変換行列Ｋをかけて、座標変換を行う。

次に、ステップＳ２０２では、ステップＳ２００において座標変換されたボクセルを仮想画像平面の対応する画素上に投影する。

次に、ステップＳ２０４では、ステップＳ２００において取得したボクセルの信頼度と、ステップＳ２０２において投影した画素上の、ステップＳ２０２の処理前に既に投影済みのボクセルの信頼度とを比較する。処理対象となるボクセルの信頼度が、ステップＳ２０２において投影した画素上の、ステップＳ２０２の処理前に既に投影済みのボクセルの信頼度以下である場合には、ステップＳ２０８へ移行し、一方、ステップＳ２００において取得したボクセルの信頼度が、ステップＳ２０２において投影した画素上の、ステップＳ２０２の処理前に既に投影済みのボクセルの信頼度より高い、若しくは、ステップＳ２０２において処理対象となるボクセルを投影する画素に、ステップＳ２０２の処理前に投影されたボクセルがない場合には、ステップＳ２０６へ移行する。

ステップＳ２０６では、ステップＳ２０２において投影された画素の画素値である信頼度を、処理対象のボクセルの信頼度に更新する。

ステップＳ２０８では、背景モデルを構成する全てのボクセルについてステップＳ２００〜ステップＳ２０４又はステップＳ２０６までの処理を終了したか否かを判定する。全てのボクセルについてステップＳ２００〜ステップＳ２０４又はステップＳ２０６までの処理を終了している場合には、仮想背景深度画像の生成処理ルーチンの処理を終了し、全てのボクセルについてステップＳ２００〜ステップＳ２０４又はステップＳ２０６の処理を終了していない場合には、処理対象となるボクセルを変更し、ステップＳ２００〜ステップＳ２０８までの処理を繰り返す。

上記ステップＳ１０８の背景モデルの更新の処理について、図７に示す背景モデル更新処理ルーチンにおいて詳細に説明する。

図７に示す、ステップＳ３００では、ステップＳ１００において取得した深度画像Ｉｍの各画素のＺ値、カメラ行列Ａ、及びステップＳ１０２において取得したカメラ１０の位置及び姿勢に基づいて、上記（２）式に従って、当該深度画像Ｉｍの各画素を三次元空間に逆投影し、当該深度画像Ｉｍの各画素の三次元空間における計測値の各々を取得する。

次に、ステップＳ３０２では、ステップＳ３００において取得した各画素に対応する三次元点の三次元空間における計測値の各々を、ステップＳ１０２において取得したカメラ１０の位置及び姿勢に合わせて、上記（１）式に従って変換する。

次に、ステップＳ３０４では、ステップＳ３０２において取得した座標変換された各三次元点が、予め設定されたボクセルのどの箱に含まれるかを計算し、上記（３）式、及び上記（４）式に従って該当するボクセルの信頼度を更新し、背景モデルの更新処理ルーチンの処理を終了する。

以上説明したように、本発明の実施の形態に係る背景差分装置によれば、時系列に連続して入力される、カメラにより取得した深度画像を取得し、取得された深度画像を取得したときのカメラの位置及び姿勢を推定し、推定したカメラの位置及び姿勢と、予め用意された又は前回更新された背景の三次元位置を表す背景モデルとに基づいて、仮想背景深度画像を生成し、深度画像と、生成された深度画像に対応する仮想背景深度画像との差分に基づいて、前景物体領域の深度情報を取得し、深度画像と、推定されたカメラの位置及び姿勢とに基づいて、背景モデルを更新することを、予め定められた終了条件を満たすまで繰り返すことにより、カメラが固定されていない場合であっても、各時刻における深度画像から、前景物体領域の深度情報を得ることができる。

また、入力に深度カメラを利用し、カメラの位置及び姿勢を逐次的に推定するとともに、三次元の背景モデルを構築することで、従来技術では達成できなかったカメラが動くような状況においても前景物体領域だけの情報を抽出することが可能である。例えば、この技術を用いることによって装着している人の動作に伴って、動きが生じるウェアラブルカメラから注目する物体に関する情報を取り出したりすることが可能となる。

また、処理を繰り返すことで各時刻における入力深度画像データに対し、背景を差分することで前景物体領域の深度情報のみを得ることが可能となる。

また、入力に深度カメラを利用し、カメラの位置・姿勢を逐次的に推定するとともに、三次元の背景モデルを構築することで、カメラが動くような状況においても前景物体領域だけの情報を抽出することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、本実施の形態においては、カメラの位置及び姿勢を、時間的に隣接する深度画像の深度情報のずれを用いて推定する場合について説明したが、これに限定されるものではなく、画像からカメラの位置及び姿勢を推定する手法であればどのような手法を用いてもよい。例えば、深度カメラから一緒に取得できる二次元画像から特徴点を抽出し、これを追跡した結果からカメラの位置及び姿勢を推定することも可能である。

また、本実施の形態においては、深度画像Ｉｍの各画素には、各画素のＺ値を画素値として保持している場合について説明したが、これに限定されるものではない。例えば、白黒の濃淡の値等の、深度画像Ｉｍの各画素値として、Ｚ値が復元できる値であればよい。

また、本実施の形態においては、Ａ行列は３行４列であるものとし、パラメータは５か所に設定されているものとする場合について説明したが、これに限定されるものではない。例えば、カメラの特性によって、ひずみやゆがみのパラメータが含まれる場合には、当該パラメータについても設定してもよい。

また、本実施の形態においては、現時刻において取得した深度画像について処理を行う場合について説明したが、これに限定されるものではない。例えば、処理対象となる深度画像の各々を読み込み、時系列順に処理対象となる深度画像を選択し、処理を繰り返してもよい。

また、図１で示した背景差分装置における各部の一部もしくは全部の機能をコンピュータのプログラムで構成し，そのプログラムをコンピュータを用いて実行して本発明を実現することができること、図５で示した背景差分処理の手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFDや、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

１０カメラ
１２入力部
２０演算部
２２深度画像取得部
２４位置姿勢推定部
２６背景モデル記憶部
２８仮想背景深度画像生成部
３０背景差分取得部
３２背景モデル更新部
３４繰り返し判定部
９０出力部
１００背景差分装置

Claims

深度画像取得部と、位置姿勢推定部と、仮想背景深度画像生成部と、背景差分取得部と、背景モデル更新部と、繰り返し判定部と、を含む背景差分装置における背景差分方法であって、
前記深度画像取得部は、時系列に連続して入力される、カメラにより取得した深度画像を取得し、
前記位置姿勢推定部は、前記深度画像取得部によって取得された前記深度画像を取得したときの前記カメラの位置及び姿勢を推定し、
前記仮想背景深度画像生成部は、前記位置姿勢推定部により推定した前記カメラの位置及び姿勢と、予め用意された又は前回更新された背景の三次元位置を表す背景モデルであって、かつ、背景らしさを示す信頼度が各々付与された複数のボクセルで構成される背景モデルとに基づいて、前記カメラにより取得することを仮定した場合に得られる、背景を表す仮想背景深度画像を生成し、
前記背景差分取得部は、前記深度画像と、前記仮想背景深度画像生成部により生成された前記深度画像に対応する前記仮想背景深度画像との差分に基づいて、前景物体領域の深度情報を取得し、
前記背景モデル更新部は、前記深度画像と、前記位置姿勢推定部により推定された前記カメラの位置及び姿勢とに基づいて、前記背景モデルを構成する複数のボクセルの各々に付与された背景らしさを示す信頼度を更新し、
前記繰り返し判定部は、予め定められた終了条件を満たすまで、前記深度画像取得部による取得と、前記位置姿勢推定部による推定と、前記仮想背景深度画像生成部による生成と、前記背景差分取得部による取得と、前記背景モデル更新部による更新とを繰り返す
背景差分方法。
前記仮想背景深度画像生成部により前記仮想背景深度画像を生成することは、
前記背景モデルを構成する複数のボクセルの各々について、
前記位置姿勢推定部により推定した前記カメラの位置及び姿勢に基づいて、前記カメラから見たときの前記ボクセルの座標値に変換し、
前記変換された前記ボクセルの座標値に基づいて、前記カメラにより取得される画像の画像平面へ前記ボクセルを投影し、
前記ボクセルが投影された前記画像平面の同一画素に投影された他のボクセルに付与された背景らしさを示す信頼度と、前記ボクセルの前記信頼度とを比較し、前記信頼度の比較結果に基づいて、前記ボクセルが投影された前記画像平面の画素の深度情報を更新することにより、前記仮想背景深度画像を生成する請求項１記載の背景差分方法。
前記背景モデル更新部により前記背景モデルを更新することは、
前記深度画像の各画素を三次元空間に逆投影し、
前記逆投影により得られた各画素に対応する三次元点の各々について、前記位置姿勢推定部により推定された前記カメラの位置及び姿勢に基づいて、前記背景モデルの三次元空間における三次元座標に変換し、
前記三次元点の各々について変換された前記三次元座標に基づいて、前記背景モデルを構成する複数のボクセルの各々に付与された背景らしさを示す信頼度を更新する請求項１又は２記載の背景差分方法。
時系列に連続して入力される、カメラにより取得した深度画像を取得する深度画像取得部と、
前記深度画像取得部によって取得された前記深度画像を取得したときの前記カメラの位置及び姿勢を推定する位置姿勢推定部と、
前記位置姿勢推定部により推定した前記カメラの位置及び姿勢と、予め用意された又は前回更新された背景の三次元位置を表す背景モデルであって、かつ、背景らしさを示す信頼度が各々付与された複数のボクセルで構成される背景モデルとに基づいて、前記カメラにより取得することを仮定した場合に得られる、背景を表す仮想背景深度画像を生成する仮想背景深度画像生成部と、
前記深度画像と、前記仮想背景深度画像生成部により生成された前記深度画像に対応する前記仮想背景深度画像との差分に基づいて、前景物体領域の深度情報を取得する背景差分取得部と、
前記深度画像と、前記位置姿勢推定部により推定された前記カメラの位置及び姿勢とに基づいて、前記背景モデルを構成する複数のボクセルの各々に付与された背景らしさを示す信頼度を更新する背景モデル更新部と、
予め定められた終了条件を満たすまで、前記深度画像取得部による取得と、前記位置姿勢推定部による推定と、前記仮想背景深度画像生成部による生成と、前記背景差分取得部による取得と、前記背景モデル更新部による更新とを繰り返す繰り返し判定部と
を含む、背景差分装置。
前記仮想背景深度画像生成部は、
前記背景モデルを構成する複数のボクセルの各々について、
前記位置姿勢推定部により推定した前記カメラの位置及び姿勢に基づいて、前記カメラから見たときの前記ボクセルの座標値に変換し、
前記変換された前記ボクセルの座標値に基づいて、前記カメラにより取得される画像の画像平面へ前記ボクセルを投影し、
前記ボクセルが投影された前記画像平面の同一画素に投影された他のボクセルに付与された背景らしさを示す信頼度と、前記ボクセルの前記信頼度とを比較し、前記信頼度の比較結果に基づいて、前記ボクセルが投影された前記画像平面の画素の深度情報を更新することにより、前記仮想背景深度画像を生成する請求項４記載の背景差分装置。
前記背景モデル更新部は、
前記深度画像の各画素を三次元空間に逆投影し、
前記逆投影により得られた各画素に対応する三次元点の各々について、前記位置姿勢推定部により推定された前記カメラの位置及び姿勢に基づいて、前記背景モデルの三次元空間における三次元座標に変換し、
前記三次元点の各々について変換された前記三次元座標に基づいて、前記背景モデルを構成する複数のボクセルの各々に付与された背景らしさを示す信頼度を更新する請求項４又は５記載の背景差分装置。
コンピュータに、請求項１〜３の何れか１項記載の背景差分方法における各ステップを実行させるためのプログラム。