以下、本発明の実施の形態(以下実施形態という)である物体検出装置1について、図面に基づいて説明する。物体検出装置1は監視領域を撮影した画像を用いて当該監視領域に存在する物体を検出する。本実施形態では人物を検出対象の物体とする例を説明する。
[第1の実施形態]
図1は本実施形態に係る物体検出装置1の概略の構成および機能を示すブロック構成図である。
物体検出装置1は撮影部2、記憶部3、画像処理部4および出力部5を含んで構成される。
撮影部2は監視領域を撮影して撮影画像を出力する撮影手段であり、いわゆる監視カメラである。例えば、撮影部2は共通する監視領域を同時撮影する複数の監視カメラで構成される。各監視カメラは画像処理部4と接続され、所定の監視領域を撮影して撮影画像を画像処理部4に出力する。例えば、監視カメラは、監視領域である部屋の天井に当該部屋を俯瞰する視野に固定された状態で設置され、当該部屋を所定の撮影周期で撮影し、撮影画像を順次、画像処理部4に出力する。以下、上記撮影周期で刻まれる時間の単位を時刻と称し、最新の撮影画像を撮影した時刻を現時刻と称する。各監視カメラは予めキャリブレーションされ、各監視カメラの撮像画像の座標系と、全監視カメラに共通する世界座標系の仮想空間との間で座標変換が可能である。
記憶部3は、ROM(Read Only Memory)、RAM(Random Access Memory)等の記憶装置である。記憶部3は、各種プログラムや各種データを記憶し、画像処理部4との間でこれらの情報を入出力する。
画像処理部4は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)等の演算装置を用いて構成される。画像処理部4は記憶部3からプログラムを読み出して実行することで、後述する各手段として機能する。また、画像処理部4は各種データを記憶部3に記憶させたり、記憶部3から読み出したりする。画像処理部4は撮影部2および出力部5とも接続され、撮影画像を処理し、撮影画像から監視領域に存在する人を検出してその検出位置の履歴(移動軌跡)を出力部5に出力する。
出力部5は画像処理部4から入力された移動軌跡を外部出力する出力装置である。例えば、出力部5は液晶ディスプレイ、CRT(Cathode Ray Tube)などの表示装置である。また、出力部5は例えば、監視センターのサーバーとの通信を行う通信装置であってもよい。
図2は物体検出装置1の機能ブロック図である。記憶部3は背景画像記憶手段30、物体情報記憶手段31、全体識別器記憶手段32、部分識別器記憶手段33などとして機能する。また、画像処理部4は物体検出手段40、検証領域設定手段41、特徴領域特定手段42、誤検出判定手段43、物体情報更新手段44などとして機能する。
背景画像記憶手段30は、監視領域の背景の像のみが含まれ、人の像が含まれていない背景画像を記憶する。背景画像は例えば、物体検出手段40により撮影画像から生成される。
物体情報記憶手段31は、物体検出装置1による追跡中の人物ごとに、現時刻より過去の時刻に当該人物を検出した位置、当該人物の三次元形状モデル、および過去の撮影画像における当該人物の像の色特徴量を当該人物の人物IDに対応付けて記憶する。
全体識別器記憶手段32は、検出対象物体の全体画像の特徴を機械学習した識別器(以下、全体識別器)を予め記憶している。本実施形態では検出対象物体の全体は人の全身である。全体識別器は例えば、予め人の全身が写っている多数の学習用画像それぞれから抽出した特徴量と人が写っていない多数の学習用画像それぞれから抽出した特徴量との識別境界をリアルアダブースト(Real AdaBoost)法により機械学習した識別関数であり、識別対象の画像から抽出した特徴量を入力された全体識別器は当該画像が有する人の全身らしさの度合い(以下、全身尤度)を出力する。なお、全体識別器は、人が写っている学習用画像に対する全身尤度と人が写っていない学習用画像に対する全身尤度との差が極大となるように学習する。
ここで、全身の学習用画像のサイズは規格化され、全て一定サイズであり、一方、全体識別用の窓領域(以下、全身窓)は、このサイズを適宜拡大縮小したサイズに設定される。全体識別器で用いる特徴量は、少なくとも物体検出手段40が用いる特徴量と異なるものであり、例えばHOG(Histograms of Oriented Gradients)特徴量を用いることができる。
部分識別器記憶手段33は、検出対象物体を構成する部分ごとに、各部分の画像の特徴を機械学習した識別器(以下、部分識別器)を予め記憶している。本実施形態では人の全身を構成する部位が検出対象物体の部分に当たる。例えば、部位のうち頭部の画像の特徴を機械学習した部分識別器は、予め人の頭部が写っている領域を切り出した多数の学習用画像それぞれから抽出した特徴量と人の頭部が写っていない多数の学習用画像それぞれから抽出した特徴量との識別境界をアダブースト法により機械学習した識別関数であり、識別対象の画像から抽出した特徴量を入力された部分識別器は当該画像が有する頭部らしさの度合い(以下、頭部尤度)を出力する。
全身の場合と同様、各部位の学習用画像のサイズはそれぞれ規格化され、部位ごとに全て一定サイズであり、一方、部位識別用の窓領域(以下、部位窓)は、そのサイズを適宜拡大縮小したサイズに設定される。部分識別器で用いる特徴量も、少なくとも物体検出手段40が用いる特徴量と異なるものであり、例えばHOG特徴量を用いることができる。
各部位の部分識別器は、全身窓内の位置ごとに、当該部位が存在し得る可能性の高さを表す部位存在度と共に記憶されている。全体識別器は、全身窓に包含される部位窓の中から各部位を一つずつ選択した部位窓の組み合わせのうち、当該組み合わせを構成する部位窓の尤度を当該部位窓の位置に応じた部位存在度で重み付け加算して全身尤度を算出する。
物体検出手段40は、撮影画像から監視領域に存在する人物を検出し、既検出の人物については追跡し、また監視領域へ新たに現れた新規人物や監視領域から居なくなった人物を判断する。
具体的には人物の検出に関し、物体検出手段40は、背景差分処理により撮影画像から変化領域を抽出し、この変化領域に人の形状モデルを当てはめ、当てはまった形状モデルの重心を検出位置とする。
そのために、物体検出手段40は、撮影画像から背景画像を生成して背景画像記憶手段30に記憶させる。そして、背景差分処理では、新たに撮影された撮影画像において背景画像との差分値が予め定めた差分閾値以上である画素の集まりを変化領域として抽出する。
人物の追跡に関しては、物体検出手段40は、追跡中の各人物について、物体情報記憶手段31に記憶された過去の検出位置に基づいて現時刻における当該人物の検出位置を複数予測し、予測した検出位置(以下、予測位置)のそれぞれに当該人物の三次元形状モデルを配置して撮影画像に投影する。物体検出手段40は、予測位置ごとに、変化領域に対する投影領域の適合度を算出するとともに、投影領域内の色特徴量と当該人物の色特徴量との類似度を算出し、適合度と類似度とを重み付け加算した評価値(以下、予測位置評価値)を算出する。そして、物体検出手段40は、追跡中の各人物について、予測位置評価値が最大の予測位置を当該人物の検出位置とする。なお、検出位置として、予測位置評価値が上位である予測位置の平均値を算出してもよい。
新規人物の判定に関しては、物体検出手段40は、変化領域のうち、追跡中の全人物の検出位置への投影領域との非重複領域を求める。そして、物体検出手段40は非重複領域のうちに、予め定めた面積閾値(例えば人ひとり分の投影領域の半分の面積)以上の面積を有する部分が存在する場合、その位置に新たな人物が現れたとして新規の人物IDを付与し、当該部分に当てはまる三次元形状モデルを求めるとともに、当該三次元形状モデルの投影領域の重心を当該新規人物の検出位置とする。
また、物体検出手段40は、最大の予測位置評価値が予め定めた下限値未満の人物については、監視領域外へ移動したとして検出位置を出力しない。
以上のように、物体検出手段40は、監視領域に存在する1又は複数の所定物体を検出し、求めた各検出位置を検証領域設定手段41に出力する。
検証領域設定手段41は、物体検出手段40が互いに近接する複数の検出位置を出力した場合に、それら検出位置の中に誤検出が含まれるかを検証するための検証領域を撮影画像に設定する。1組の互いに近接する複数の検出位置それぞれを注目検出位置として、検証領域は各注目検出位置について設定される。つまり、1組の近接する複数の検出位置について複数の検証領域が設定される。ここで、近接する複数の検証位置のうち注目検出位置を除いた残りの検証位置を対照検出位置とすると、各検証領域は、注目検出位置を中央部に含み、且つ縁部に対照検出位置を含むように設定される。検証領域は検出位置に対応付けて設定され、検証領域設定手段41は検出位置と検証領域とを対応付けた情報を特徴領域特定手段42に出力する。
近接する複数の検出位置とは、例えば、撮影画像上で他の検出位置よりも検出位置どうしの距離が短い検出位置のペアであり、且つ、各人物の検出位置に当該人物の三次元形状モデルを投影した投影領域どうしの重複度(モデル重複度)が予め定めた上限値未満である検出位置のペアである。
ここで、検出位置に関する上述の条件のうち、距離の条件は、検証領域の中央部と縁部以外に第三の検出位置が混在しないようにするための条件である。また、モデル重複度の条件はオクルージョンの影響を有意な尤度を算出できる範囲に制限するための条件である。ちなみに、モデル重複度の上限値は事前実験に基づき例えば30%に設定することができる。
本実施形態では、物体検出装置1は新規人物を検出したときに、それが誤検出か否かを調べる。この場合、検証領域設定手段41は、物体検出手段40により撮影画像にて検出されている全ての検出位置を用いて、検出位置のペアとして一方が新規人物の検出位置であるものを全て生成し、各ペアについて検出位置間の撮影画像上での距離を算出する。次に検証領域設定手段41は、得られたペアを距離が小さいものから順に選択し、モデル重複度の条件を判定する。すなわち、検証領域設定手段41は、選出した検出位置のペアについて各人物の検出位置に当該人物の三次元形状モデルを投影しモデル重複度を算出する。そして、検証領域設定手段41は最初に上限値未満のモデル重複度が算出されたペアについて検証領域を設定する。
選出したペアを構成する2つの検出位置のうち任意の一方を注目検出位置、他方を対照検出位置として、検証領域設定手段41は例えば、注目検出位置を重心とし、対照検出位置に対応する三次元形状モデルの投影領域に少なくとも一辺が外接し、全体識別器の窓領域以上の大きさを有する矩形を検証領域として設定する。ちなみに、検証領域設定手段41は、互いに近接する検出位置のペアについての検証領域を、当該ペアの一方と他方とをそれぞれ注目検出位置として2通り設定する。
また、物体検出装置1は追跡中の人物の中に誤検出が紛れていないかを確認する処理を行うこともできる。この場合は、例えば、各検出位置について1回ずつ誤検出か否かの判定を行えば十分であると考えて、基本的にペアは任意の検出位置を重複して含まないように生成することができる。具体的には、検証領域設定手段41は、ペアとして2つの検出位置の組み合わせを全て生成し、各ペアについて検出位置間の撮影画像上での距離を算出する。次に、検証領域設定手段41は、距離の昇順にペアを並べて、その並びの先頭から順に検出位置を重複選出しないようにペアを選出する。ただし、検出位置が奇数の場合は最後のペアにおいて重複選出を許容する。続いて、検証領域設定手段41は、選出したペアについて、上述の新規人物の場合と同様にしてモデル重複度を算出して上限値と比較する。モデル重複度が上限値以上であるペアが検出された場合は当該ペア以降のペアを選出し直す。そして、最終的に選出されたペアごとに、上述した検証領域を2つずつ設定する。
なお、上述の処理にて、撮影画像上での距離に代えて仮想空間中での距離を用いてもよい。また、モデル重複度に代えて撮影画像における検出位置のペアのX方向距離およびY方向距離を用い、X方向距離およびY方向距離のそれぞれが予め設定した下限割合以上であることを条件としてもよい。
また、検証領域設定手段41は、全体識別器を用いて撮影画像における各人物の検出位置の尤度を算出し、尤度が予め設定された下限値以下の検出位置を削除し、残った検出位置を用いてペアを定めてもよい。この下限値は外乱による変化領域に基づき検出されたものであることが明らかな検出位置を削除する程度の低い値に設定することができ、下限値に基づく検出位置の削除はいわば足切り処理である。このように、検証領域設定手段41が特徴領域特定手段42および誤検出判定手段43の前段で足切り処理を行うことで、後段の処理負荷を減じることができる。
また、監視領域を同時撮影する複数の監視カメラの撮影画像のうち、距離の条件とモデル重複度の条件とを満たす撮影画像において検証領域を設定することで、設定し損ねを減じることができる。なお、複数の撮影画像が条件を満たす場合は、最も投影領域が大きな撮影画像に対して検証領域を設定すればよい。
以上のように、検証領域設定手段41は、物体検出手段40が複数の検出位置を出力した場合、複数の検出位置それぞれと対応する撮影画像上の位置に、中央部に一方の検出位置(注目検出位置)の所定物体を含み得、且つ縁部に当該検出位置と異なる検出位置(対照検出位置)の所定物体を含み得る検証領域を設定する。そして、この縁部は後述するように、中央部と比較して対照検出位置が物体特徴領域として特定されにくくなる不利な位置である。
特徴領域特定手段42は、人物の画像特徴を予め学習した識別器を用い、各検証領域において人物の画像特徴が最も現れている領域(物体特徴領域)を特定する。本実施形態では、特徴領域特定手段42は、部分識別器を用い、検証領域設定手段41が設定した検証領域ごとに、当該検証領域内で最も頭部らしい領域を物体特徴領域として特定し、特定した物体特徴領域を誤検出判定手段43に出力する。
ここで、全身に比べて面積が小さい頭部は誤識別を生じやすいため、検証領域内において最も人の全身らしい領域内で、最も頭部らしい領域を特定するのがよい。そこで、特徴領域特定手段42は、人物の全身の特徴を学習した全体識別器を用いて各検証領域において全身の特徴が最も現れている全身領域(全体領域)を特定し、さらに人物の特定部位の特徴を学習した部分識別器を用いて各検証領域内の全身領域において特定部位(特定部分)の特徴が最も現れている物体特徴領域を特定する。具体的には、特徴領域特定手段42は、検証領域ごとに、最大の全身尤度、および当該最大尤度が得られた全身窓を特定する。さらに、特徴領域特定手段42は、検証領域ごとに、全身尤度が最大の全身窓において当該全身尤度を算出した際に選択された頭部の部位窓を物体特徴領域として特定する。その際に、全身らしい領域内において頭部が存在する可能性が高い位置ほど頭部らしい領域として特定されやすく調整するのがよい。
なお、既に述べたように、全身の尤度は部位の尤度を用いて算出される。特徴領域特定手段42は、各部位について、部分識別器記憶手段33から当該部位の部分識別器を読み出して、撮影画像(又は検証領域)内の各所に当該部位の識別用の窓領域である部位窓を設定し、各部位窓内の特徴量を当該部位の部分識別器に入力して各部位窓の画像に対する当該部位の尤度を算出する。そして、特徴領域特定手段42は、物体特徴領域の特定に際しては、検証領域ごとに、当該検証領域内の各所に全身識別用の窓領域である全身窓を設定し、全体識別器記憶手段32から読み出した全体識別器により全身窓ごとに、当該全身窓に包含される部位窓の中から各部位を一つずつ選択した部位窓の組み合わせのうち、当該組み合わせを構成する部位窓の尤度を当該部位窓の位置に応じた重みで重み付け加算した加算値が最大となる組み合わせを選出し、選出した組み合わせに対する加算値を当該全身窓に対する全身尤度とする。
さらに、特徴領域特定手段42は、検証領域を設定され検証対象とされる各検出位置において人の全身らしさの度合いを表す評価値を算出し誤検出判定手段43に出力する。具体的には、特徴領域特定手段42は、各検出位置を重心とする全身窓に対して算出した全身尤度を当該検出位置についての評価値とする。つまり、検証領域設定手段41により設定された検出位置のペアに対し2つの評価値が求められる。
ここで、各検出位置についての上述の評価値と各検証領域での最大の全身尤度とは必ずしも一致しないことに留意する。特に、2つの検出位置のうち評価値が大きい方を注目検出位置とする検証領域では、当該注目検出位置又はその近傍にて、最大尤度として当該評価値に近い値を与える全身窓が特定される可能性が高いのに対し、2つの検出位置のうち評価値が大きい方を対照検出位置とする検証領域では、対照検出位置が位置する検証領域の縁部は後述するように検証領域からはみ出さないように全身窓を設定して全体識別器で識別する処理では検証領域の中央部と比較して不利となることから、例えば、最大尤度の全身窓は、評価値が大きい対照検出位置の近傍ではなく、評価値が小さい注目検出位置又はその近傍にて特定されることが起こり得る。このような検証領域内にて評価値が最大の検出位置と最大尤度の全身窓の位置とが大きくずれる乖離事象は基本的には、2つの検出位置のいずれにも人物が存在し、注目検出位置の評価値が対照検出位置の評価値よりは小さいが誤検出における評価値よりは十分に大きい場合に起こる。
以上説明したように、特徴領域特定手段42は、所定物体の画像特徴を予め学習した識別器を用い、複数の検出位置それぞれの検証領域において所定物体の画像特徴が最も現れている物体特徴領域を特定する。また、特徴領域特定手段42は、識別器を用いて、検証領域に含まれる複数の検出位置それぞれに画像特徴が現れている度合いを当該検出位置の評価値として算出する。
誤検出判定手段43は、特徴領域特定手段42で特定された物体特徴領域の位置に基づいて検出位置の誤検出を判定する。具体的には、誤検出判定手段43は、検出位置のペアに対して2つ設定された検証領域のそれぞれにおいて特徴領域特定手段42が特定した頭部領域どうしの重複度(特徴領域重複度)を算出し、これを予め定めた閾値と比較するとともに、当該ペアを構成する検出位置のそれぞれに対応して特徴領域特定手段42が評価値として算出した全身尤度どうしを比較する。そして、誤検出判定手段43は、特徴領域重複度が閾値以上であれば全身尤度が低い方の検出位置を誤検出であると判定し、特徴領域重複度が閾値未満であれば2つの検出位置がいずれも誤検出ではないと判定する。ちなみに、特徴領域重複度が閾値未満となる場合とは、ペアをなす検証位置の両方に人物が存在し、2つの検証領域の一方にて上述の乖離事象が生じていることが推定される場合である。
特徴領域重複度は、例えば次式により算出する。
なお、特徴領域重複度の代わりに頭部領域間の距離を算出し、予め定めた閾値と比較してもよい。例えば、誤検出判定手段43は、当該距離が閾値以下であれば全身尤度が低い方の検出位置を誤検出であると判定し、距離が閾値より大きければ2つの検出位置がいずれも誤検出ではないと判定する。頭部領域間の距離は例えば、頭部領域の重心間の距離で定義することができる。また、例えば、各頭部領域の左上座標間の距離を頭部領域間の距離としてもよい。
誤検出判定手段43は、監視領域における複数の検出位置から、誤検出と判定した検出位置を削除し、残りの検出位置を出力部5および物体情報更新手段44に出力する。
以上説明したように、誤検出判定手段43は、検出位置のペアに対して設定された2つの検証領域から特定した2つの物体特徴領域が予め定めた基準よりも近接する場合に、当該ペアが誤検出を含むと判定する。また、誤検出判定手段43は、ペアが誤検出を含むと判定した場合に、当該ペアを構成する検出位置のうち評価値が低い方を誤検出によるものと判定する。
図3は、物体検出手段40が撮影画像100から検出した2つの検出位置110,120のうち、検出位置110が誤検出である場合の処理例であり、一方、図4は、物体検出手段40が撮影画像200から検出した2つの検出位置210,220のいずれもが誤検出ではない場合の処理例である。なお、本実施形態では例えば、検出位置110,210が新規人物の検出位置であるとする。また、検出位置110,120,210,220における三次元形状モデルの投影領域をそれぞれ人物モデル領域115,125,215,225とする。
まず、図3における処理例について説明する。検証領域設定手段41は検出位置110,120のペアに対して、検出位置110の人物モデル領域115を中央部に含み、検出位置120の人物モデル領域125を縁部に含む検証領域130を設定するとともに、検出位置120の人物モデル領域125を中央部に含み、検出位置110の人物モデル領域115を縁部に含む検証領域140を設定する。
特徴領域特定手段42は全体識別器および部分識別器を用い、検証領域130,140それぞれの範囲内で全身尤度が最大となる全身窓を探索する。その際、検証領域の重心に設定された検出位置(以下、検証領域中央の検出位置)は、当該位置に全身窓の重心が位置したときに、当該全身窓はその全体が検証領域内に存在し、検証領域からのはみ出しを生じない。そのため、検証領域中央の検出位置に人が写っていれば、特徴領域特定手段42は当該人の領域が全身窓の中央に位置した状態で全身尤度を算出できるため、検証領域中央の検出位置およびその近傍においては十分に高い全身尤度が算出される。
これに対し、検証領域の境界に接した人物モデル領域に対応する検出位置(以下、検証領域縁部の検出位置)は、当該位置に全身窓の重心を位置させようとすると当該全身窓が検証領域からはみ出してしまうため、当該位置に全身窓の重心を位置させることができない。そのため、検証領域縁部の検出位置に人が写っていれば、特徴領域特定手段42は当該人の領域が全身窓の中央からずれた状態でしか全身尤度を算出できないため、検証領域縁部の検出位置およびその近傍においては低めの全身尤度が算出される。
一方、検証領域中央の検出位置に人が写っていない場合は、中央部であってもその検出位置およびその近傍においては縁部に人が写っている場合に比べて十分に低い全身尤度が算出される。また、検証領域縁部の検出位置に人が写っていない場合も、その検出位置およびその近傍においては人が写っている場合に比べて十分に低い全身尤度が算出される。
具体的には、検証領域130内では人が写っていない検出位置110が中央部にあり、人が写っている検出位置120は右下寄りの縁部にあるので、特徴領域特定手段42は、全身尤度が最大の全身窓として、検証領域130にて中央から右下に偏り検証領域130の境界に接した全身窓150を選出し、全身窓150における頭部の部位窓160を検証領域130における物体特徴領域160として特定する。また、特徴領域特定手段42は、検出位置110に全身窓を設定したときの全身尤度を検出位置110の評価値とする。
一方、検証領域140内では人が写っている検出位置120が中央部にあり、人が写っていない検出位置110は左上寄りの縁部にあるので、特徴領域特定手段42は、全身尤度が最大の全身窓として、検証領域140の中央にて全身窓170を選出し、全身窓170における頭部の部位窓180を検証領域140における物体特徴領域180として特定する。また、特徴領域特定手段42は、検出位置120に全身窓を設定したときの全身尤度を検出位置120の評価値とする。
誤検出判定手段43は、検証領域130における物体特徴領域160と検証領域140における物体特徴領域180との特徴領域重複度を算出する。物体特徴領域160,180はいずれも検出位置120に写っている人の頭部位置に対応して特定されるので、この場合の特徴領域重複度は基準値以上に高い値となる。また、この場合、検出位置110の評価値は検出位置120の評価値より低い値となる。そこで、誤検出判定手段43は、特徴領域重複度が基準値以上であることから検出位置110,120の一方が誤検出であると判定するとともに、評価値が第2位である検出位置110が誤検出であったと判定する。
つまり、2つの検出位置の一方に所定物体が存在せず他方に所定物体が存在している場合は、所定物体が存在する方の検出位置を中央部に設定した検証領域に対しても所定物体が存在する方の検出位置を縁部に設定した検証領域に対しても、所定物体が存在する方の検出位置またはその近傍が物体特徴領域として特定されるため、2つの検証領域から特定した物体特徴領域が予め定めた基準よりも近接することをもって一方が誤検出であると判定できる。また、評価値は誤検出された検出位置の方が正しく検出された検出位置よりも低くなるため、2つの検出位置のうち評価値が低い方を誤検出であると判定できる。
次に、図4における処理例について説明する。検証領域設定手段41は、検出位置210,220のペアに対して、検出位置210の人物モデル領域215を中央部に含み、検出位置220の人物モデル領域225を縁部に含む検証領域230を設定するとともに、検出位置220の人物モデル領域225を中央部に含み、検出位置210の人物モデル領域215を縁部に含む検証領域240を設定する。
この場合には、検出位置210,220のいずれにも人が写っている。ここで、検出位置220の評価値が検出位置210の評価値より大きいとする。検証領域230内では評価値が小さい検出位置210は中央部にあるのに対し、評価値が大きい検出位置220は右下寄りの縁部にある。そのため、特徴領域特定手段42は、検出位置210に写る人の領域に対してはそれが中央に位置する全身窓を設定でき、当該全身窓から得られる全身尤度は基本的には検出位置210の評価値程度となるのに対し、特徴領域特定手段42は、検出位置220に写る人の領域に対してはそれが中央からずれた全身窓しか設定できず、当該全身窓は検出位置220の評価値より低めの全身尤度を与える。その結果、検証領域230では、検出位置220の人の領域を捉える全身窓ではなく、検出位置220よりは小さい評価値を与える検出位置210の人の領域を捉える全身窓250が選出される上述した乖離事象の発生を期待できる。よって、特徴領域特定手段42は全身窓250を選出し、全身窓250における頭部の部位窓260を検証領域230における物体特徴領域260として特定する。また、特徴領域特定手段42は、検出位置210に全身窓を設定したときの全身尤度を検出位置210の評価値とする。
一方、検証領域240では、評価値が大きい検出位置220が中央部にあり、評価値が小さい検出位置210が左上寄りの縁部にあるので、特徴領域特定手段42は、全身尤度が最大の全身窓として、検証領域240の中央にて全身窓270を選出し、全身窓270における頭部の部位窓280を検証領域240における物体特徴領域280として特定する。また、特徴領域特定手段42は、検出位置220に全身窓を設定したときの全身尤度を検出位置220の評価値とする。
誤検出判定手段43は、検証領域230における物体特徴領域260と検証領域240における物体特徴領域280との特徴領域重複度を算出する。物体特徴領域260と物体特徴領域280と互いに異なる検出位置210,220に写っている人の頭部位置に対応して特定されるので、この場合の特徴領域重複度は基準値よりも低い値となる。また、この場合、検出位置210,220の評価値はともに人の全身尤度の下限値よりも高い値となる。そこで、誤検出判定手段43は、特徴領域重複度が基準値よりも低く、評価値がともに下限値よりも高いことから検出位置210,220はともに誤検出ではないと判定する。
つまり、2つの検出位置の両方に所定物体が存在している場合は、どちらも検証領域の中央に設定した場合に物体特徴領域として特定されるため、2つの検証領域から特定した物体特徴領域が予め定めた基準よりも離れることをもって両方が誤検出ではないと判定できる。
物体情報更新手段44は、検証対象とした新規人物が誤検出ではないと判定された場合、その検出位置、色特徴、三次元形状モデルなどを物体情報記憶手段31に記憶させる。なお、上述したように追跡中の人物についても誤検出判定手段43による判定を行うことができ、当該判定にて誤検出ではないとされた人物については検出位置を追記し、色特徴を更新する。
次に物体検出装置1の動作について説明する。図5は物体検出装置1の動作を説明する概略の処理フロー図である。物体検出装置1は監視領域が無人の状態で起動される。起動後、撮影部2は、所定の撮影周期にて監視領域の画像を撮影し、当該周期で撮影画像を画像処理部4に入力する。画像処理部4は起動直後に物体検出手段40として動作し、物体検出手段40は予め設定した初期化期間の撮影画像から背景画像を生成して背景画像記憶手段30に記憶させる。例えば、物体検出手段40は複数時刻の撮影画像を平均化して背景画像を生成する。
以降、物体検出装置1は、撮影画像を取得するたびに図5のステップS1〜S9の処理を繰り返す。
画像処理部4は、撮影部2から撮影画像を取得すると(ステップS1)、物体検出手段40として動作し、撮影画像中の物体を検出して各検出位置を出力する(ステップS2)。
具体的には、物体検出手段40は背景画像記憶手段30から背景画像を読み出し、撮影画像と背景画像との差分処理を行って撮影画像における変化領域を抽出する。また、物体検出手段40は、背景画像記憶手段30の背景画像を、撮影画像の中の変化領域以外の部分を重み付け加算した背景画像に更新する。
さらにステップS2にて物体検出手段40は、物体情報記憶手段31から追跡中の各人物の過去の検出位置、三次元形状モデルおよび色特徴量を読み出し、人物ごとに、過去の検出位置から予測される範囲内の位置で、撮影画像における色特徴量と読み出した色特徴量との類似度合いおよび変化領域に対する三次元形状モデルの投影領域の当てはまり度合いが基準以上に高い位置を、当該人物の検出位置とする。そして、物体検出手段40は、追跡中の人物以外の変化領域が抽出されている場合は当該変化領域に当てはまる三次元形状モデルを定め、また当該変化領域と対応する位置を新たな追跡対象の人物の検出位置とする。なお、追跡中の人物のうち現時刻において監視領域外に移動した人物は検出されない。
続いて、画像処理部4は検証領域設定手段41として動作する。検証領域設定手段41は、物体検出手段40により検出された検出位置を入力され、検出位置のうち尤度が下限値未満の検出位置を削除する足切り処理を行う(ステップS3)。
具体的には、検証領域設定手段41は、全体識別器記憶手段32から全体識別器を読み出し、撮影画像に入力された検出位置を重心とする全身窓を設定して画像から特徴量を抽出し、抽出した特徴量を全体識別器に入力して検出位置に対する全身尤度を算出する。そして、検証領域設定手段41は、各検出位置の全身尤度を下限値と比較して、全身尤度が下限値未満の検出位置を削除する。
続いて、検証領域設定手段41は、残余の検出位置を対象に近接検出位置の抽出を行い、近接検出位置の有無を確認する(ステップS4)。
具体的には、検証領域設定手段41は、検出位置のペア間の撮影画像上での距離を算出するとともに、新規人物についてはステップS2にて物体検出手段40により生成された三次元モデルを、また追跡中の人物については物体情報記憶手段31から読み出した三次元形状モデルを、各人物の検出位置と対応する撮影画像上の位置に投影する。
さらにステップS4にて検証領域設定手段41は、他の検出位置よりも検出位置どうしの距離が短い検出位置のペアであり、且つ、投影領域どうしの重複度であるモデル重複度が予め定めた上限値未満である検出位置のペアを抽出する。本実施形態で説明する新規人物の検証においては、ペアの一方は新規人物の検出位置であり、当該新規人物との間で距離の条件および重複度の条件を満たす追跡中人物の検出位置が探索される。
条件を満たすペアが抽出された場合、検証領域設定手段41は、近接検出位置ありとして(ステップS4にてYESの場合)、当該ペアの検出位置について誤検出を調べる検出位置検証処理S5を行う。
図6は検出位置検証処理S5の概略のフロー図である。検証領域設定手段41は、近接検出位置として抽出した検出位置のペアを順次、注目ペアに設定して(ステップS50)、ステップS51〜S58の処理を行う。なお、或る新規人物に関して生成されるペアは基本的に1つであるが、複数の新規人物が検出された場合にはステップS50〜S58がループ処理として実行される。
検証領域設定手段41は注目ペアに対して検証領域を設定する(ステップS51)。具体的には、検証領域設定手段41は、注目ペアを構成する検出位置の一方を重心とし、他方の検出位置に対応する投影領域に少なくとも一辺が外接し、全体識別器の窓領域以上の大きさを有する矩形を検証領域として設定する。ここで、注目ペアを構成する2つの検出位置それぞれを重心とする2つの検証領域が設定される。
続いて、画像処理部4は特徴領域特定手段42として動作し、特徴領域特定手段42に注目ペアの検証領域が入力される。特徴領域特定手段42は、注目ペアの各検証領域内で全身尤度が最大の全身窓を検出する全身識別処理(ステップS52)と、全身尤度が最大の全身窓内で頭部尤度が最大の部位窓を検出する部位識別処理(ステップS53)とを行行い、物体特徴領域を特定する(ステップS54)。
具体的には、特徴領域特定手段42は、まず、検証領域内の撮影画像から特徴量を抽出するとともに全体識別器記憶手段32および部分識別器記憶手段33から全体識別器および部分識別器を読み出す。特徴領域特定手段42は、次に、検証領域からはみ出さない範囲のあらゆる位置に全身窓を設定するとともに、各全身窓からはみ出さない範囲の各部位の部位存在度が0より大きなあらゆる位置に当該部位の部位窓を設定し、部位窓内の特徴量を部分識別器に入力して部位尤度を算出し、得られた部位尤度を全体識別器に入力して全身尤度を算出する。
特徴領域特定手段42は、各検証領域について、最大の全身尤度および最大尤度が算出された全身窓を特定するとともに、最大尤度が算出された全身窓内での頭部の部位窓を物体特徴領域として特定する。
続いて、画像処理部4は誤検出判定手段43として動作し、誤検出判定手段43に注目ペアの物体特徴領域が入力される。ここで、物体特徴領域は、注目ペアに対して設定された2つの検証領域それぞれにおいて特定されており、2つの物体特徴領域が誤検出判定手段43に入力される。
誤検出判定手段43は、注目ペアに対して特定された2つの物体特徴領域の特徴領域重複度を算出して(ステップS55)、特徴領域重複度を基準値と比較する(ステップS56)。誤検出判定手段43は、特徴領域重複度が基準値以上である場合は(ステップS56にてYESの場合)、注目ペアを構成する検出位置のうち評価値である全身尤度が低い方の検出位置を誤検出であると判定する(ステップS57)。
他方、特徴領域重複度が基準値未満である場合(ステップS56にてNOの場合)、誤検出判定手段43は、注目ペアを構成する検出位置のいずれもが誤検出ではないと判定する。
検証領域設定手段41は全ペアを処理したか否かを確認し(ステップS58)、未処理のペアがあれば(ステップS58にてNOの場合)、ステップS50に処理を戻して次のペアの処理を行う。一方、全ペアを処理し終えると(ステップS58にてYESの場合)、検証領域設定手段41は処理を図6のステップS6に進める。
図6に戻り、ステップS6以降の処理を説明する。誤検出判定手段43は、ステップS57にて誤検出と判定された検出位置がある場合は(ステップS6にてYESの場合)、当該検出位置を削除し(ステップS7)、残余の検出位置を出力部5および物体情報更新手段44に出力する(ステップS8)。
また、ステップS4にて、ペアが抽出されず検証領域設定手段41が近接検出位置なしと判定した場合(ステップS4にてNOの場合)は、検出位置はステップS5〜S7の誤検出判定に関する処理をスキップして物体情報更新手段44に出力される(ステップS8)。
出力部5はディスプレイに検出位置を表示する。また、物体情報更新手段44は、検出位置が誤検出と判定されなかった人物について、物体情報記憶手段31に検出位置を追記し、色特徴を更新する(ステップS9)。一方、誤検出と判定された検出位置に関しては物体情報記憶手段31への追記、更新は行わない。
特に、本実施形態で検証対象としている新規人物については、誤検出ではないと判定された場合は(ステップS6にてNOの場合)、物体情報更新手段44は、当該新規人物の検出位置、三次元形状モデル、撮影画像における当該人物の像の色特徴量を当該人物の人物IDに対応付けて物体情報記憶手段31に記憶させる。一方、新規人物の検出位置が誤検出であると判定された場合は(ステップS6にてYESの場合)、それらの情報は物体情報記憶手段31へ記憶されない。
以上、第1の実施形態を用いて説明した本発明では、近接する複数の検出位置に対して、各検出位置を注目検出位置とし残りを対照検出位置として、注目検出位置ごとに、中央部に当該注目検出位置を含み、且つ識別器による識別において中央部と比較して不利となる縁部に対照検出位置を含む検証領域を設定する。この検証領域では、検証領域が誤検出ではない検出位置を複数含む場合に上述した乖離事象を発生させることができ、これを利用することで、検出位置での識別器による評価値(尤度)について誤検出か否かの判定閾値を設定せずに、誤検出の判定が可能となる。
上述した実施形態では、検証領域設定手段41は近接する複数の検出位置として2つの検証位置、つまり検出位置のペアを選出し、当該ペアに対し検証領域を設定した。しかし、検出位置の配置によっては3以上の検出位置の組を選出し、本発明を適用することが可能である。すなわち、3以上の検出位置の組に対して誤検出判定のための検証領域を設定することも可能である。また3以上の検出位置の組と2つの検出位置のペアを混在させて選出してもよい。ちなみに、3以上の検出位置からなる組を選出する場合、上述したモデル重複度の条件は必要だが、距離の条件は不要となる。
この3以上の検出位置の組に対して検証領域を設定して誤検出判定を行う例として、次に第2の実施形態を示す。
[第2の実施形態]
以下、第1の実施形態と同一の構成要素には同一の符号を付して第1の実施形態での説明を援用しここでの説明の簡素化を図ることとし、主に、第2の実施形態の物体検出装置1が第1の実施形態と異なる点について説明する。
第1の実施形態で述べたように、検証領域設定手段41は、物体検出手段40が近接する複数の検出位置を出力した場合に、1組の互いに近接する複数の検出位置に対して注目検出位置を変えて複数の検証領域を設定する。第2の実施形態では、検証領域を設定する1組の互いに近接する複数の検出位置の個数は3つである。検証領域設定手段41は3つの検出位置からなる組に対して、各検出位置を注目検出位置として3通りの検証領域を設定する。
図7は3つの検出位置を含む検証領域の一例を示す模式図である。図7には、3つの検出位置に対応して3つの三次元形状モデルの投影領域300〜302が示され、また、それぞれ投影領域300〜302を囲む矩形である3通りの検証領域310〜312が示されている。例えば、当該組における任意の1つの検出位置を注目検出位置、残りの2つを対照検出位置として、検証領域設定手段41は、注目検出位置を重心とし、各対照検出位置に対応する三次元形状モデルの投影領域に少なくとも一辺が外接し、全体識別器の窓領域以上の大きさを有する矩形を検証領域として設定する。図7において、検証領域310は投影領域301の検出位置を注目検出位置として設定され、投影領域300,302にそれぞれ検証領域310の境界が外接している。同様に、検証領域311は投影領域300の検出位置を注目検出位置として設定され、投影領域301,302にそれぞれ検証領域311の境界が外接し、検証領域312は投影領域302の検出位置を注目検出位置として設定され、投影領域300,301にそれぞれ検証領域312の境界が外接している。
特徴領域特定手段42は第1の実施形態と同様にして、識別器を用い、各検証領域において人物の画像特徴が最も現れている領域(物体特徴領域)を特定する。例えば、本実施形態の特徴領域特定手段42は第1の実施形態と同様、検証領域内で最も頭部らしい領域を物体特徴領域として特定し、特定した物体特徴領域を誤検出判定手段43に出力する。
誤検出判定手段43は、特徴領域特定手段42で特定された物体特徴領域の位置に基づいて検出位置の誤検出を判定する。本実施形態の誤検出判定手段43は、組を構成する3つの検出位置それぞれについて、当該検出位置を注目検出位置として中央に配置した検証領域において中央で物体特徴領域が特定されなかった場合に当該検出位置は誤検出であると判定し、一方、中央で物体特徴領域が特定された場合に当該検出位置は誤検出でないと判定する。
具体的には、誤検出判定手段43は、3通りの検証領域それぞれにて、物体特徴領域が注目検出位置よりも対照検出位置に近い位置で特定された場合に、注目検出位置を誤検出によるものと判定し、一方、物体特徴領域が対照検出位置よりも注目検出位置に近い位置で特定された場合に、注目検出位置を誤検出によるものではないと判定する。
図8は投影領域300〜302に対応する3つの検出位置の正誤パターンの例を示す模式図である。図8は正誤パターンのうち例として6つを示しており、パターンの種類は縦方向に並べ、横方向には各パターンについて3通りの検証領域310〜312を設定した状態を並べている。投影領域内に示す“人”はそこに人物の像が存在する、つまりその検出位置が誤検出ではないことを表しており、一方、投影領域内に示す“誤”はその検出位置が誤検出であることを表している。また、投影領域内に示す“□”は、検証領域にて物体特徴領域として特定される人の頭部領域を表している。なお、パターン4の検証領域312およびパターン5の検証領域311にて2つの“人”の投影領域内に点線で示す“□”は、それら2つの□のいずれか一方に物体特徴領域が特定されることを表している。
例えば、パターン1では3つの検証領域310〜312の任意の1つにて投影領域300に対応する位置に物体特徴領域が特定されているので、投影領域300に対応する検出位置は誤検出ではないと判定される。一方、検証領域310〜312のいずれにおいても投影領域301,302に対応する位置には物体特徴領域が特定されていないので、投影領域301,302に対応する検出位置は誤検出であると判定される。
また、パターン4では検証領域310にて投影領域301に対応する位置に物体特徴領域が特定されており、また検証領域311にて投影領域300に対応する位置に物体特徴領域が特定されているので、投影領域300,301に対応する検出位置は誤検出ではないと判定される。一方、検証領域310〜312のいずれにおいても投影領域302に対応する位置には物体特徴領域が特定されていないので、投影領域302に対応する検出位置は誤検出であると判定される。
この第2の実施形態の誤検出判定手段43での誤検出の判定方法は、2つの検出位置からなる組、すなわち第1の実施形態で述べた検出位置のペアに適用することもできる。つまり、第1の実施形態の誤検出判定は特徴領域重複度についての判定を含んでいたが、第2の実施形態の方法を用いれば、特徴領域重複度についての判定を行わずに、検出位置のペアについて誤検出判定を行うことができる。
また、第2の実施形態の方法は、監視領域内にて2つの検出位置からなる組と3つの検出位置からなる組との両方が抽出され得る場合にも適用することができる。
[変形例]
(1)上記実施形態では、物体検出装置1が誤検出に関する検証を専ら新規人物の検出位置について行うことを念頭に説明したが、物体検出装置1は追跡中の検出位置についての誤検出判定にも用いることができる。一方、新規人物の検出位置はそれ以前の時刻にて追跡がなされていない分、追跡中の検出位置より信頼度が低いと考えられ、この点、新規人物の検出位置についての誤検出判定は特に有用である。また、新規人物の検出位置および撮影画像の縁部の検出位置(監視領域外に出そうな人物)についてのみ検証を行ってもよい。
(2)上述の各構成では、物体検出手段40は撮影部2が撮影した画像を用いて物体を検出する例を示したが、物体検出手段40は、マイクロ波センサが出力した信号または熱画像センサが撮影した画像など、撮影部2が撮影した画像以外を用いて物体を検出する構成とすることもできる。この場合、誤検出の検証は撮影部2が撮影した撮影画像を用いて行う。そのため、予めマイクロ波センサと撮影部2または熱画像センサと撮影部2のキャリブレーションを行っておき、物体検出手段40は、撮影部2が撮影する撮影画像の座標系に変換した検出位置を出力する。
(3)上述の各構成では、物体特徴領域として頭部領域を用いる例を示したが、このような特定の部位の領域ではなく、検出対象の全身の領域を物体特徴領域として用いてもよい。その場合、特徴領域特定手段42は全身尤度が最大となる全身窓を物体特徴領域として特定する。
この場合、第1の実施形態の誤検出判定手段43は例えば、全身窓どうしが予め定めた基準よりも近接する場合に、複数の検出位置のうちの1つ以外を誤検出によるものと判定することができる。
(4)上述の各構成では、物体特徴領域として特定する部位を頭部とする例を示したが、例えば肩または頭部と肩を合わせた部位など、検出対象とする物体において安定して高い部位尤度が算出される他の部位を物体特徴領域に用いてもよい。
(5)第1の実施形態において、特徴領域重複度は全身領域どうしの重複度でもよい。また、特徴領域重複度の代わりに全身領域間の距離を算出し、予め定めた閾値と比較してもよい。全身領域間の距離は例えば、全身領域の重心間の距離で定義することができる。また、例えば、各全身領域の左上座標間の距離を全身領域間の距離としてもよい。
(6)さらに別の変形例においては、物体特徴領域として特定の部位の領域と全身の領域との両方を物体特徴領域として用いてもよい。その場合、特徴領域特定手段42は全身尤度が最大の全身窓と部位窓を物体特徴領域として特定する。
この場合、第1の実施形態の誤検出判定手段43は、全身窓どうしの特徴領域重複度または距離と部位窓どうしの特徴領域重複度または距離とを重み付け加算した加算値を基準値と比較して誤検出の有無を判定することができる。例えば、誤検出判定手段43は、重複度については加算値が基準値以上の場合に、また距離については加算値が基準値以下の場合に、複数の検出位置のうちの1つ以外を誤検出によるものと判定することができる。
(7)上述の説明では、アダブースト法で機械学習した全体識別器および部分識別器を例示したが、識別器はサポートベクターマシーン(Support Vector Machine:SVM)法など他の方法により機械学習したものであってもよい。
(8)上述の説明では、HOG特徴量を用いて尤度を算出する例を示したが、LBP(Local Binary Pattern)特徴、ハールライク(Haar-like)特徴量などの他の特徴量を用いたり、複数の特徴量を組み合わせて用いたりするなど、物体検出手段40が用いる特徴量と異なる特徴量であれば、対象とする物体の検出に適した種々の特徴量を用いることができる。また、全体識別器が用いる特徴量と部分識別器が用いる特徴量は同種であってもよいし、異種であってもよい。
(9)上述の各構成では、全体識別器が部位尤度の重み付け加算値を全身尤度として算出する例を示した。この点に関する変形例として、全体識別器は、さらに全身窓の学習用画像そのものをも学習しておき、全身窓の画像に対する尤度を部位尤度の重み付け加算値にさらに重み付け加算して全身尤度を算出する構成とすることができる。
(10)また別の実施形態においては、特徴領域特定手段42は、まず全体識別器を用いて最大の全身尤度がされた全身窓を検証領域内で特定し、特定した全身窓内で部分識別器が最大尤度を算出した部位窓を物体特徴領域として検出してもよい。
(11)上述の各構成では、検出対象を人とした例を示したが、検出対象は車両などであってもよい。車両の場合、物体特徴領域として特定する部分はヘッドライトやフロントバンパーなどとするのが好適である。