JP5217917B2

JP5217917B2 - 物体検知追跡装置，物体検知追跡方法および物体検知追跡プログラム

Info

Publication number: JP5217917B2
Application number: JP2008286095A
Authority: JP
Inventors: 彬陳
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-11-07
Filing date: 2008-11-07
Publication date: 2013-06-19
Anticipated expiration: 2028-11-07
Also published as: JP2010113562A

Description

本発明は，カメラにより撮像された画像から人などの特定物体を検知し，追跡する技術に関するものであり，特に，パターン識別を含めて複数の情報を統合し，異なる次元空間での特定物体の存在可能性の分布を互いの入力情報として，各次元空間での特定物体の存在可能性の分布を逐次更新することにより，短い処理時間で安定的な特定物体の検知，追跡を行う物体検知追跡装置，物体検知追跡方法および物体検知追跡プログラムに関するものである。

画像や映像から人などの特定物体を検知する技術がある。以下，画像からの人の検知を例として，特定物体を検知する技術を説明する。

一般に，画像から人領域を検出する場合には，人の画像パターンを学習してパターンマッチングを行うことにより，画像から人領域を検出する。また，複数のカメラで計測したシーンの三次元情報を手がかりとして人領域の検出を行う画像領域を絞り込んでから，パターンマッチングにより，画像から人領域を検出する技術がある。

なお，ステレオカメラで撮像された画像を用いたステレオ画像処理により，監視空間内の三次元情報を計測して仮想平面上の物体領域を抽出し，監視空間の混雑度を計測する技術が知られている（例えば，特許文献１参照）。

また，ステレオ画像に基づいて特徴点の空間座標を求め，座標値が近い特徴点同士を同一のクラスタにまとめることにより個々の人間の分類を行い，個々の人間の移動状況を追跡する技術が知られている（例えば，特許文献２参照）。

また，テンプレート走査により画像から人の目を検出する技術が知られている（例えば，特許文献３参照）。

また，所定の区域を通過する人の頭頂部を上方から撮影するカメラと，所定の区域を通過する人の正面を撮影するカメラとを用いて人を検知する技術が知られている（例えば，特許文献４参照）。
特開２００１−０３４８８３号公報特開平１０−０４９７１８号公報特開２００３−１９６６５５号公報特開２００５−１４０７５４号公報

上述のパターンマッチングにより画像から人領域を検出する技術では，精度よく人領域の検出を行うために多数の画像パターンを用いるため，高速に画像から人領域を検出することは困難であった。

また，人パターンの定義を厳しくすると人の検出見逃しが多くなってしまい，逆に人パターンの定義を甘くすると人の誤検出が多く発生してしまうため，安定的に人領域を検出することが難しかった。

本発明は，上記の問題点の解決を図り，短時間の処理で，ロバストに画像から特定物体を検知し，追跡することが可能となる技術を提供することを目的とする。

撮像された画像から特定物体の領域を検知し，検知された特定物体の領域を追跡する物体検知追跡装置は，基準画像を含む複数の撮像画像から基準画像の三次元情報を生成する三次元情報生成部と，基準画像における特定物体の存在可能性に基づいて仮想平面上に投影する三次元情報の領域を定義するマスク情報によりマスクされた三次元情報を所定の仮想平面に投影し，仮想平面における特定物体の存在可能性を示す第一のマップ情報を生成する第一マップ情報生成部と，第一のマップ情報における特定物体の存在可能性を示す値に応じて仮想平面における特定物体の候補位置のサンプルを抽出する特定物体候補位置サンプル抽出部と，特定物体の候補位置のサンプルごとに，特定物体の候補位置に存在すると仮定された特定物体の像を基準画像に投影することにより基準画像での特定物体の候補領域を決定し，特定物体の候補領域における特定物体の存在可能性を示す特定物体らしさの値を算出する特定物体らしさ算出部と，特定物体の候補位置のサンプルごとに算出された特定物体の候補領域における特定物体らしさを統合し，基準画像における特定物体の存在可能性を示す第二のマップ情報を生成する第二マップ情報生成部と，第二のマップ情報からマスク情報を生成するマスク情報生成部とを備える。

また，撮像された画像から特定物体の領域を検知し，検知された特定物体の領域を追跡する物体検知追跡方法は，コンピュータが，基準画像を含む複数の撮像画像から基準画像の三次元情報を生成する過程と，基準画像における特定物体の存在可能性に基づいて仮想平面上に投影する三次元情報の領域を定義するマスク情報によりマスクされた三次元情報を所定の仮想平面に投影し，仮想平面における特定物体の存在可能性を示す第一のマップ情報を生成する過程と，第一のマップ情報における特定物体の存在可能性を示す値に応じて仮想平面における特定物体の候補位置のサンプルを抽出する過程と，特定物体の候補位置のサンプルごとに，特定物体の候補位置に存在すると仮定された特定物体の像を基準画像に投影することにより基準画像での特定物体の候補領域を決定し，特定物体の候補領域における特定物体の存在可能性を示す特定物体らしさの値を算出する過程と，特定物体の候補位置のサンプルごとに算出された特定物体の候補領域における特定物体らしさを統合し，基準画像における特定物体の存在可能性を示す第二のマップ情報を生成する過程と，第二のマップ情報からマスク情報を生成する過程とを実行する。

また，撮像された画像から特定物体の領域を検知し，検知された特定物体の領域を追跡する物体検知追跡プログラムは，コンピュータを，基準画像を含む複数の撮像画像から生成された基準画像の三次元情報を，基準画像における特定物体の存在可能性に基づいて仮想平面上に投影する三次元情報の領域を定義するマスク画像によりマスクして所定の仮想平面に投影し，仮想平面における特定物体の存在可能性を示す第一のマップ情報を生成する第一マップ情報生成部と，第一のマップ情報における特定物体の存在可能性を示す値に応じて仮想平面における特定物体の候補位置のサンプルを抽出する特定物体候補位置サンプル抽出部と，特定物体の候補位置のサンプルごとに，特定物体の候補位置に存在すると仮定された特定物体の像を基準画像に投影することにより基準画像での特定物体の候補領域を決定し，特定物体の候補領域における特定物体の存在可能性を示す特定物体らしさの値を算出する特定物体らしさ算出部と，特定物体の候補位置のサンプルごとに算出された特定物体の候補領域における特定物体らしさを統合し，基準画像における特定物体の存在可能性を示す第二のマップ情報を生成する第二マップ情報生成部と，第二のマップ情報からマスク情報を生成するマスク情報生成部として機能させる。

異なる次元空間での特定物体の存在可能性の分布を互いの入力情報として，各次元空間での特定物体の存在可能性の分布を逐次更新することにより，従来よりも短い処理時間で，安定的な特定物体の検知，追跡を行うことができるようになる。

以下，本実施の形態について，図を用いて説明する。

本実施の形態では，撮像された画像からの特定物体の検知，追跡の例として，人の検知，追跡の例を説明する。このとき，撮像された画像から特定物体の領域を検出し，その特定物体の領域を追跡する物体検知追跡装置は，撮像された画像から人の領域を検出し，その人の領域を追跡する人検知追跡装置となる。

図１は，本実施の形態による人検知追跡装置の構成例を示す図である。

人検知追跡装置１０は，複数のカメラ２０により撮像された画像から，人が写っている予測される領域を検知し，その人領域の経時変化を追跡する。

人検知追跡装置１０は，画像取得部１１，三次元情報生成部１２，マップｂ生成部１３，人候補位置サンプル抽出部１４，人らしさ算出部１５，マップａ生成部１６，マスク画像生成部１７を備える。

画像取得部１１は，所定の間隔で複数のカメラ２０により撮像される画像を取得する。各カメラの位置や方向などは，あらかじめ校正しておく。取得された複数の画像のうちの１つは，人領域の検出を行う基準画像となり，その他の画像は参照画像となる。

三次元情報生成部１２は，取得された複数の画像から，環境の三次元情報を生成する。ここでは，三次元情報として，基準画像の各画素についての被写体までの距離を示す画像である距離画像（Depth Map ）を生成する。なお，異なる位置から同じ被写体を撮像した複数の画像（基準画像を含む）から，基準画像における被写体までの距離を算出する技術については，従来から知られている。

マップｂ生成部１３は，生成された距離画像を，基準画像における人領域の確率分布（後述のマップａ）に基づいて生成されたマスク画像によりマスクし，距離画像の各画素を仮想平面上に投影した画素数の二次元ヒストグラムを生成する。生成された二次元ヒストグラムは，仮想平面における人の存在可能性を示す情報である。以下では，生成された二次元ヒストグラムをマップｂと呼ぶものとする。

マスク画像は，仮想平面上に投影する距離画像の領域を定義するマスク情報である。マップｂ生成部１３は，マスク画像により定義された距離画像の領域の画素について，仮想平面上への投影を行う。マスク画像は，後述のマスク画像生成部１７によって，人領域の確率分布に基づいて生成される。人領域の確率分布は，マップａ生成部１６によって生成されたものを用いるが，初期設定では一様分布であるものとする。

図２は，本実施の形態による距離画像の生成およびマップｂ生成の一例を説明する図である。

ここでは，仮想平面を，撮影空間における床平面と同じ法線を持つ面とする。以下，本実施の形態において，距離画像が投影される仮想平面を床面と呼ぶ。また，人領域の確率分布は初期設定の状態であるものとし，マスク画像により距離画像の全画素の投影が定義されているものとする。

三次元情報生成部１２は，参照画像を用いて，基準画像の三次元情報である距離画像を生成する。

基準画素の各画素の座標を（ｉ，ｊ）とする。距離画像の各画素の座標も同様に（ｉ，ｊ）となる。基準画像における各画素の画素値は，その画素の色や明るさを示す値であるが，距離画像における各画素の画素値は，基準画像における画素に写った被写体までの距離を示す値となる。距離画像における画素値をｄとする。

マップｂ生成部１３は，距離画像を床面のグリッドマップに投影し，マップｂを生成する。床面のグリッドマップは，例えば１０ｃｍ間隔のグリッドで区切られている。

床面の座標を，（ｘ，ｙ）とする。なお，床面の法線方向，すなわち高さ方向の座標をｚとする。距離画像における画素の三次元情報（ｉ，ｊ，ｄ）を，床面における三次元座標Ｑ（ｘ，ｙ，ｚ）に変換する。

Ｑ（ｘ，ｙ，ｚ）＝ｆ（ｉ，ｊ，ｄ）
変換に用いる関数ｆ（）は，基準画像カメラ２０の位置，方向などの設定や，床面の位置との関係により決定される。変換された座標Ｑ（ｘ，ｙ，ｚ）のｘ座標，ｙ座標が，その画素に写った被写体の床面における位置を示す。該当する床面上の区分領域の画素数を＋１する。

距離画像の全画素についてＱ（ｘ，ｙ，ｚ）を求め，そのｘ座標，ｙ座標に基づいて，床面のグリッドマップにおける画素数の二次元ヒストグラムであるマップｂを生成する。さらに，本実施の形態では，床面のグリッドマップの各区分領域の画素数を全画素数で割ることにより，マップｂの正規化を行っておく。

ここで得られたマップｂは，基準画像に写った被写体の床面における位置を示す情報である。すなわち，マップｂは，基準画像に写った何らかの物体の，床面上での存在可能性を示す確率分布として扱うことができる。値が大きい区分領域の位置に，基準画像に写った何らかの物体が存在する可能性が高いと考えられる。

なお，ここでは，初期段階でマスク画像により距離画像の全画素の投影が定義されているものとしているので，マップｂは，基準画像に写った何らかの物体の，床面上での存在可能性を示す情報となっている。基準画像上における人の存在可能性を示す人領域の確率分布（後述のマップａ）に基づいて生成されたマスク画像によって，距離画像の投影する領域が定義されている場合には，マップｂは，基準画像に写った人らしき物体の，床面上での存在可能性を示す情報となる。

図１において，人候補位置サンプル抽出部１４は，リサンプリング（再標本化）により，マップｂ生成部１３により生成されたマップｂから，人の候補位置のサンプルを抽出する。リサンプリングとは，ある標本点系列で表現された確率分布関数を，別の標本点系列で標本化して，新しい標本点系列で表現しなおすことをいう。

図３は，本実施の形態によるマップｂからのリサンプリングの一例を説明する図である。リサンプリングの手法としては様々な手法が存在するが，ここではその一例について説明する。

図３に示す例では，マップｂの各位置（座標点）について，それぞれ乱数を用いてサンプルとして抽出するか否かを判定する。このとき，物体が存在する確率が高い座標点ほど，サンプルとして選択されやすくなるようにする。ここでは，グリッドで区分された領域の中心を判定を行う座標点とし，その区分領域の値（その区分領域に投影された画素数／全画素数）を用いて，その座標点を人候補位置のサンプルとして抽出するか否かの判定を行う。

図３（Ａ）は，マップｂにおいて，ｙ座標をあるｙ₁で固定した場合の値Ｐ（ｘ，ｙ₁）を示す。Ｐの値は，（その区分領域に投影された画素数／全画素数の値）であるので，０≦Ｐ≦１の値となる。

ここで，ある位置（ｘ₁，ｙ₁）について，サンプルとして抽出するか否かを判定する例を説明する。まず，乱数Ｐ_r（ただし，０≦Ｐ_r≦１）を発生させる。ここでは，位置（ｘ₁，ｙ₁）のサンプル抽出判定のために発生された乱数を，Ｐ_r（ｘ₁，ｙ₁）と表記する。座標点（ｘ₁，ｙ₁）における値Ｐ（ｘ₁，ｙ₁）と，乱数値Ｐ_r（ｘ₁，ｙ₁）とを比較し，
Ｐ（ｘ₁，ｙ₁）＞Ｐ_r（ｘ₁，ｙ₁）
であれば，その座標点を人候補位置のサンプルとして抽出すると判断する。

このようなサンプル抽出の可否判定を，マップｂ上の所定の全座標点（ｘ，ｙ）について，それぞれ乱数Ｐ_r（ｘ，ｙ）を発生させて行う。Ｐの値が大きい座標点ほど，すなわち床面上で物体が存在する可能性が高い位置（区分領域）ほど，サンプルとして抽出される可能性が高くなる。

図３（Ｂ）は，あるマップｂをイメージした図であり，図３（Ｃ）は，リサンプリングにより，図３（Ｂ）のマップｂから人候補位置のサンプルを抽出した床面のイメージを示す図である。図３（Ｃ）において，縦棒で示された床面上の位置がサンプルとして抽出された人候補領域である。物体が存在する可能性が高い位置ほど，サンプルとして選択されやすくなる。

図１において，人らしさ算出部１５は，人候補位置のサンプルごとに，床面のその人候補位置に人が存在すると仮定し，その人の像を基準画像に投影した領域である人候補領域の人らしさの値を算出する。人候補領域の人らしさとは，その人候補領域に人が存在する可能性の高さ，すなわちその人候補領域に人が写っている可能性の高さを示す。

人らしさ算出部１５は，人候補領域投影部１５０，肌色尤度分布生成部１５１と，人候補領域人らしさ算出部１５２，人属性データベース１５６，肌色モデル１５７，顔検出器１５８を備える。

人候補領域投影部１５０は，抽出されたサンプルの人候補位置に人が存在すると仮定し，その仮定された人の像を基準画像上に投影する。具体的には，人候補領域投影部１５０は，床面上の人候補位置に存在する人が写ると考えられる基準画像上の領域（人候補領域）を，透視変換により求める。

図４は，本実施の形態による人候補領域の算出の一例を説明する図である。

人属性データベース１５６には，例えば人の身長（高さ），幅などの人の属性に関する設定情報が格納されている。人候補領域投影部１５０は，人属性データベース１５６の設定情報に基づいて，床面上の人候補位置に人が立っているものと仮定し，その人の像（例えば，高さ１．８ｍ，幅０．６ｍ）を設定する。

床面を底面とする三次元空間上で仮定された人の像を，基準画像上に人候補領域として透視変換する。三次元空間をカメラで撮像すると，近くにある物体は画像に大きく写り，遠くにある物体は画像に小さく写る。透視変換とは，三次元物体を二次元で表現する場合に，遠近感を表現する投影法をいう。すなわち，カメラの位置から近い人候補位置に存在すると仮定された人の領域は，基準画像上に比較的大きな人候補領域として投影され，カメラの位置から遠い人候補位置に存在すると仮定された人の領域は，基準画像上に比較的小さな人候補領域として投影される。

図１において，肌色尤度分布生成部１５１は，基準画像における肌色尤度の分布を求める。人の肌色の尤度を示す肌色モデル１５７が，あらかじめ用意されている。

図５は，本実施の形態による肌色モデルの例を示す図である。

図５に示す例では，肌色モデル１５７が，ＨＳＶ色空間における色相（Ｈ）と彩度（Ｓ）との対応（ＨＳ平面）において，肌色尤度によって表されたものである。図５に示す肌色モデル１５７において，濃い部分ほど肌色尤度が高いことを示している。尤度とは，結果から推測された尤もらしさをいう。

このような肌色モデル１５７を用意するために，たくさんの人肌の画像のサンプルを集め，人肌部分の画素に出現する色の頻度をＨＳ平面にプロットする。本実施の形態では，各ＨＳにおける頻度をピーク値で正規化したものを，そのＨＳの対応における肌色尤度とする。

図６は，本実施の形態による基準画像における肌色尤度分布生成の例を説明する図である。

肌色尤度分布生成部１５１は，肌色モデル１５７を用いて，基準画像における肌色尤度の分布を求める。具体的には，基準画像の各画素について，それぞれ色相（Ｈ），彩度（Ｓ）を求める。例えば基準画像がＲＧＢ色空間で表現されている場合に，そのＲＧＢ色空間をＨＳＶ色空間に変換する技術が知られている。求められたＨＳの対応で肌色モデル１５７を参照し，画素ごとの肌色尤度を求める。求められた画素ごとの肌色尤度を，基準画像に対応する画像平面で表したものが，その基準画像の肌色尤度分布である。

図１において，人候補領域人らしさ算出部１５２は，人候補領域の人らしさを算出する。人候補領域の人らしさは，基準画像における人候補領域に人が写っている可能性の高さを示す尤度である。

図７は，本実施の形態による人候補領域の人らしさ算出の例を説明する図である。

まず，人候補領域人らしさ算出部１５２は，図７（Ａ）に示すように，基準画像の人候補領域内において，パターンマッチングにより人の特徴部位の探索を行う。

ここでは，探索する人の特徴部位を人の顔とし，あらかじめ用意された顔検出器１５８を用いたパターンマッチングにより，基準画像の人候補領域内における人の顔検出を行う。顔検出器１５８としては，大まかな顔検出ができる顔検出器１５８から，精密な顔検出ができる顔検出器１５８まで，複数の段階の顔検出器１５８を用意する。

従来の画像から人領域を検知する技術では，人領域の検知を顔の識別精度の高さに頼っていたため多数の段階の顔検出器１５８が必要であったが，本実施の形態では，人領域の検知を顔の識別精度の高さに頼らないため，従来よりも少ない段階の顔検出器１５８を用意すればよい。本実施の形態では，顔検出器１５８の段階が少ないため，従来よりも処理時間が短く済む。

基準画像の人候補領域内において顔検出を行う場合には，肌色尤度分布を参照し，基準画像の人候補領域内における肌色分布が集中する領域について顔パターンをマッチングし，検出された顔の顔らしさ（パターンとの類似度）を算出する。このとき，算出された顔らしさが所定の閾値以下である場合には，その人候補領域から人の顔が検出されなかったものと判断し，その人候補領域の人らしさの値を０に設定する。

人候補位置のサンプルがマップｂにおいて人の存在可能性が高い領域から抽出されたサンプルであれば，基準画像上に投影された人候補領域から，人の顔の画像が検出される可能性は高い。逆に，人候補位置のサンプルがマップｂにおいて人の存在可能性が低い領域から抽出されたサンプルであれば，基準画像上に投影された人候補領域から，人の顔の画像が検出される可能性は低い。マップｂにおいて人の存在可能性が低い領域から抽出された人候補位置のサンプルから得られた人候補領域の人らしさの値は，０となる可能性が高い。

次に，人候補領域人らしさ算出部１５２は，図７（Ｂ）に示すように，参照画像において，基準画像で検出された顔領域に対応する顔候補の探索を行う。

ここでは，各参照画像のエピポーラ線上で顔候補の探索を行う。複数の候補が検出された場合には，基準画像の人候補領域内で検出された顔領域にパターン的に最も類似している領域を，参照画像における検出顔領域とする。

図８は，エピポーラ線を説明する図である。図８において，カメラａが注目している点Ｍとカメラａの焦点とを結ぶ直線，およびカメラａの焦点とカメラｂの焦点とを結ぶ直線の２直線から形成した平面が，カメラｂの画像平面と交わることによって生成される直線は，エピポーラ線と呼ばれる。注目点Ｍがカメラａの画像平面上に写った点ｍは，カメラａの焦点から注目点Ｍまで距離に応じて，カメラｂの画像平面のエピポーラ線上のいずれかの点ｍ’に写ることになる。

人候補領域人らしさ算出部１５２は，基準画像の人候補領域から検出された顔領域の位置と，それに対応する参照画像から検出された顔領域の位置との関係から，ステレオビジョンの原理に基づいて，検出された顔の三次元空間上での位置を算出する。

人候補領域人らしさ算出部１５２は，図７（Ｃ）に示すように，顔の三次元空間上での位置を床面のグリッドマップに投影し，マップｂ生成部１３で生成されたマップｂを参照して，顔領域が検出された人候補領域の人らしさの値を算出する。

具体的には，床面上での人の存在可能性を示す情報であるマップｂから，検出された顔の位置における人の存在可能性を示す値を取得し，その値を顔領域が検出された人候補領域の人らしさの値とする。マップｂから取得された値を用いた何らかの計算を行い，人候補領域の人らしさの値とするようにしてもよい。

検出された顔の位置がマップｂ上で値が高い領域であれば，検出された顔が本当に人の顔である可能性は高く，その顔が検出された人候補領域に人が写っている可能性は高い。検出された顔の位置がマップｂ上で値が低い領域であれば，その顔が本当に人の顔である可能性は低く，その顔が検出された人候補領域に人が写っている可能性は低い。

マップｂにおいて人の存在可能性が高い領域から抽出された人候補位置のサンプルについて，基準画像上に投影された人候補領域の人らしさを算出した場合について考察する。この場合，人候補領域から顔らしき画像が検出される可能性は高く，検出された顔らしき画像が本当に人の顔の画像である可能性が高いので，人候補領域から検出された顔の位置が，もとの抽出された人候補位置の近傍となる可能性が高い。

人候補領域から検出された顔の位置がもとの抽出された人候補位置の近傍であれば，人候補領域から検出された顔が，抽出された人候補位置に存在する人の顔である可能性が高い。このとき，顔の位置がもとの人候補位置の近傍の，マップｂの値の高い領域に出現するため，マップｂから高い値が取得され，その人候補領域の人らしさの値は高くなる。

しかし，人候補領域から検出された顔の位置がもとの抽出された人候補位置から離れた位置であれば，人候補領域から検出された顔が，誤検出された顔である可能性がある。このとき，顔の位置がもとの人候補位置から離れた，マップｂの値の低い領域に出現する可能性があるため，マップｂから低い値が取得されてその人候補領域の人らしさが低くなる可能性がある。

このように，人らしさ算出部１５によって，人候補位置の人の像から基準画面に投影された人候補領域の人らしさが，人候補領域に人が写っている可能性が高いほど値が高くなるように算出される。人らしさ算出部１５は，人候補位置サンプル抽出部１４でサンプル抽出されたすべての人候補位置について，対応する基準画像の人候補領域の人らしさの算出を行う。

図１において，マップａ生成部１６は，人らしさ算出部１５によって得られた各人候補領域の人らしさを統合し，基準画像に対応する画像平面において人が写っている可能性を表した確率分布を生成する。本実施の形態では，このような基準画像に対応する画像平面の人領域の確率分布をマップａと呼ぶものとする。

マップａは，基準画像における人の存在可能性を示す情報である。マップａの各画素は，基準画像の各画素に対応する。すなわち，マップａにおける各画素の値は，基準画像における同じ座標の画素に人が写っている可能性を示す値となる。

図９は，本実施の形態による人領域確率分布の生成の一例を説明する図である。

マップａ生成部１６は，図９（Ａ）に示すように，基準画像に対応する画像平面で人候補領域の統合を行う。ここでは，人候補領域ａ，人候補領域ｂ，人候補領域ｃの３つの人候補領域の統合の例について説明する。

３つの人候補領域は，人らしさ算出部１５によって，それぞれ人らしさの値が求められている。ここでは，人候補領域ａの人らしさの値を０．１，人候補領域ｂの人らしさの値を０．３，人候補領域ｃの人らしさの値を０．４とする。

図９（Ａ）に示すように，基準画像に対応する画像平面において，各人候補領域を，基準画像上での位置に基づいて配置し，基準画像に対応する画像平面の各画素の値を，その画素に配置された人候補領域の人らしさの値から求める。ここでは，基準画像に対応する画像平面における各画素の値は，その画素に配置された人候補領域の人らしさの値そのままとする。

このとき，複数の人候補領域が重なり合う画素が発生する。ここでは，重なった人候補領域の人らしさの値のうち，最大の値をその画素の値として設定する。重なった人候補領域の人らしさの値の平均値を求めたり，重なった人候補領域の人らしさの値を加算するなどの設計は任意である。

このように，人らしさ算出部１５によって得られた各人候補領域の人らしさを統合し，図９（Ｂ）に示すような基準画像における人の存在可能性を示す情報であるマップａが得られる。

図１において，マスク画像生成部１７は，マップａ生成部１６により生成されたマップａから，マップｂの生成時に距離画像をマスクするマスク画像を生成する。マスク画像は，マップａと同様に，基準画像に対応する画像平面である。マスク画像生成部１７は，人存在仮定領域サンプル抽出部１７０を備える。

人存在仮定領域サンプル抽出部１７０は，リサンプリングにより，マップａから，基準画像上での人の存在を仮定する領域のサンプルを抽出する。ここでは，抽出される人の存在を仮定する領域を人存在仮定領域と呼ぶ。

図１０は，本実施の形態による人領域確率分布からのリサンプリングの一例を説明する図である。

人存在仮定領域サンプル抽出部１７０は，マップａの各画素の値に応じて，その画素を中心とした人存在仮定領域を抽出するか否かの判定を行う。このとき，上述の人候補位置サンプル抽出部１４におけるマップｂからの人候補位置のサンプル抽出と同様に，値が大きい画素ほどサンプルとして抽出される可能性が高くなり，値が小さい画素ほどサンプルとして抽出される可能性が低くなるように，人存在仮定領域のサンプル抽出の判定を行う。マップｂからのリサンプリングの場合と同様に，マップａからのリサンプリングの手法にも様々な手法が存在する。

図１０（Ａ）に示すマップａにおいて，濃い領域が値の高い領域である。図１０（Ｂ）では，図１０（Ａ）に示すマップａ上に，抽出されたサンプルの人存在仮定領域（各枠線）が示されている。例えば，図１０（Ａ）に示すマップａにおいてリサンプリングを行うと，図１０（Ｂ）に示すような各人存在仮定領域が得られる。図１０（Ｂ）に示すように，マップａにおいて値が高い領域ほど，サンプルの人存在仮定領域が集中して抽出され易くなっている。

マスク画像生成部１７では，人存在仮定領域サンプル抽出部１７０で抽出された人存在仮定領域のサンプルから，マスク画像が生成される。

図１１は，本実施の形態による人候補領域のサンプルからマスク画像を生成する一例を説明する図である。

マスク画像生成部１７は，基準画像に対応する画像平面上で，人存在仮定領域サンプル抽出部１７０で抽出されたすべての人存在仮定領域のサンプルをマージし，マスク画像を生成する。

図１１（Ａ）に示すように，基準画像に対応する画像平面上に抽出されたすべての人存在仮定領域のサンプルを配置する。図１１（Ｂ）に示すように，配置されたすべての人存在仮定領域をマージしてマスク領域を生成し，マスク領域内の各画素に１の値を，マスク領域外の各画素に０の値を付与することにより，マスク画像が得られる。図１１において，マスク領域が，仮想平面上に投影する距離画像の定義領域である。得られたマスク画像は，次のマップｂ生成時に距離画像をマスクするマスク画像として利用される。

なお，ここではマスク領域内の画素の値を一様にしているが，人存在仮定領域の重なり具合によって，マスク領域内の画素の値に重み付けを行うようにしてもよい。人存在仮定領域が多く重なっている領域は，それだけ人が存在する可能性が高い領域と考えることができる。このとき，マスク画像を用いたマップｂ生成部１３の処理では，マスク画像のマスク領域内の各画素の値に応じて，該当する距離画像の画素の投影時に，その値に重み付けを行う。このようにすれば，マップｂにおいて，より人が存在する可能性が高い位置が強調されることになる。

人検知追跡装置１０は，次々と取得される撮像画像に対して，以上説明したような処理を，マップａ，マップｂを更新しながら繰り返し実行していく。

初期の段階では，一様分布のマップａからマスク画像が生成されているため，そのマスク画像で距離画像をマスクして生成されたマップｂは，何らかの物体の存在可能性を示すマップｂであった。人らしさ算出部１５を経た一連の処理を繰り返していくことにより，より人が写っている可能性が高い領域のマスク画像がマップａから生成されるようになり，そのマスク画像で距離画像をマスクして生成されたマップｂは，より正確に仮想平面上の人の存在可能性を示す値の情報に収束していく。同様に，マップａも，より正確に基準画像上の人の存在可能性を示す値の情報に収束していく。

また，リサンプリングによりマップａから抽出された人存在仮定領域のサンプルからマスク画像を生成することにより，人の存在可能性が高い領域を中心としつつもある程度のあいまい性を持たせたマスク領域が定義されるため，基準画像における人領域の経時変化を追跡していくことができる。

マップａは，基準画像における人の存在可能性の分布を示す情報であり，マップｂは仮想平面における人の存在可能性の分布を示す情報である。すなわちマップａとマップｂの次元空間は異なる。本実施の形態による人検知追跡装置１０では，マップａとマップｂの異なる次元空間での人の存在可能性の分布を，リサンプリングによって互いの入力情報とする。

マップａは，次元空間が異なるマップｂからのリサンプリングにより得られた情報と，パターン識別を用いた人らしさの算出とにより逐次更新され，マップｂは，次元が異なるマップａからのリサンプリングにより得られた情報と，カメラにより撮像された画像とにより逐次更新される。マップａの経時変化は，基準画像における人領域の経時変化となり，マップｂの経時変化は，仮想平面（床面）における人の位置の経時変化となる。

このように，本実施の形態による人検知追跡装置１０は，緩やかなパターン識別を含めて複数の情報を統合し，異なる次元空間での人の存在可能性の分布を互いの入力情報として，各次元空間での人の存在可能性の分布を逐次更新することにより，短い処理時間で安定的な画像からの人の検知，追跡を行うことができる。

なお，人検知追跡装置１０は，コンピュータ（図示省略）が備えるＣＰＵ，メモリ等のハードウェアとソフトウェアプログラムとにより実現することができる。距離画像の生成などのパターン化された処理を高速に実行したい一部の処理を回路により実現し，その他の処理をコンピュータとソフトウェアプログラムとによって実現することもできる。

図１２は，本実施の形態による人検知追跡処理フローチャートである。

人検知追跡装置１０では，初期の段階において，マップａが一様分布に初期設定されている（ステップＳ１０）。

人検知追跡装置１０において，マスク画像生成部１７は，人存在仮定領域サンプル抽出部１７０により，マップａから人存在仮定領域のサンプルを抽出し（ステップＳ１１），抽出された人存在仮定領域を統合することにより，マスク画像を生成する（ステップＳ１２）。

画像取得部１１は，適正に配置された複数のカメラ２０から画像を取得し（ステップＳ１３），三次元情報生成部１２は，基準画像の三次元情報を示す距離画像を生成する（ステップＳ１４）。

マップｂ生成部１３は，マスク情報によりマスクされた距離画像を，仮想平面（床面）に投影し，仮想平面における人の存在可能性の分布を示す，画素数の二次元ヒストグラムであるマップｂを生成する（ステップＳ１５）。人候補位置サンプル抽出部１４は，マップｂからのリサンプリングにより，仮想平面における人候補位置のサンプルを抽出する（ステップＳ１６）。

人らしさ算出部１５は，人候補位置のサンプルごとに，人候補位置に存在すると仮定された人の像を基準画像に投影することにより得られた，基準画像上の人候補領域の人らしさの値を算出する人らしさ算出処理を行う（ステップＳ１７）。マップａ生成部１６は，人候補位置のサンプルごとに算出された人候補領域の人らしさを統合し，基準画像における人の存在可能性の分布を示すマップａを生成する（ステップＳ１８）。

以降，ステップＳ１１からステップＳ１８の処理を繰り返していく。

図１３は，本実施の形態による人らしさ算出処理フローチャートである。

人らしさ算出部１５は，人候補位置サンプル抽出部１４により抽出された人候補位置のサンプルを１つ選択し（ステップＳ２０），人候補領域投影部１５０により，その人候補位置に存在すると仮定された人の像を基準画像に投影した人候補領域を求める（ステップＳ２１）。肌色尤度分布生成部１５１は，あらかじめ用意された人の肌色モデル１５７を用いて，基準画像における肌色尤度分布を生成する（ステップＳ２２）。

人候補領域人らしさ算出部１５２は，人候補領域内での顔検出器１５８を用いたパターンマッチングにより，人候補領域内の顔領域の探索を行う（ステップＳ２３）。このとき，肌色尤度分布を参照し，人候補領域内の肌色分布が集中する領域について，顔領域の探索を行う。

検出された顔領域の顔らしさを算出し，顔らしさの値が所定の閾値以下であれば（ステップＳ２４のＮＯ），その人候補領域の人らしさの値を０に設定し（ステップＳ２５），人候補領域の人らしさのリストに追加する（ステップＳ３２）。

人候補領域における顔領域の顔らしさの値が所定の閾値より大きければ（ステップＳ２４のＹＥＳ），参照画像において人候補領域における顔領域に対応するエピポーラ線上での顔検出器１５８を用いたパターンマッチングにより，参照画像上での顔領域の探索を行い（ステップＳ２６），人候補領域における顔領域に対応する，参照画像における顔領域を検出する。このとき複数の参照画像があれば，全参照画像について顔領域の探索を行う。人候補領域における顔領域に対応する顔領域が複数検出された場合には（ステップＳ２７のＹＥＳ），人候補領域における顔領域との類似度を算出し，最も類似度が高いものを，参照画像における顔領域として選択する（ステップＳ２８）。

人候補領域における顔領域と，対応する参照画像における顔領域とから，ステレオビジョン原理に基づいて，検出された顔の三次元位置を算出する（ステップＳ２９）。顔の三次元位置でマップｂを参照して（ステップＳ３０），顔の位置における人の存在可能性を示す値をマップｂから取得し，取得された値から人候補領域の人らしさの値を算出し（ステップＳ３１），人候補領域の人らしさのリストに追加する（ステップＳ３２）。

人らしさ算出部１５は，ステップＳ２０からステップＳ３２までの処理を，すべての人候補位置のサンプルについて実行し，すべての人候補位置のサンプルについて評価が完了したら（ステップＳ３３のＹＥＳ），人らしさ算出処理を終了し，すべての人候補位置のサンプルに対する評価リスト，すなわちすべての人候補領域の人らしさのリストをマップａ生成部１６に渡す。

以上，本実施の形態について説明したが，本発明はその主旨の範囲において種々の変形が可能であることは当然である。

例えば，本実施の形態では，撮像された画像からの人の検知，追跡を行う例を説明しているが，人以外の特定の物体の検知，追跡を行うことも当然可能である。本実施の形態の説明において，“人”を“特定物体”に置き換えれば，特定物体の検知，追跡を行う技術の説明となる。

本実施の形態による人検知追跡装置の構成例を示す図である。本実施の形態による距離画像の生成およびマップｂ生成の一例を説明する図である。本実施の形態によるマップｂからのリサンプリングの一例を説明する図である。本実施の形態による人候補領域の算出の一例を説明する図である。本実施の形態による肌色モデルの例を示す図である。本実施の形態による基準画像における肌色尤度分布生成の例を説明する図である。本実施の形態による人候補領域の人らしさ算出の例を説明する図である。エピポーラ線を説明する図である。本実施の形態による人領域確率分布の生成の一例を説明する図である。本実施の形態による人領域確率分布からのリサンプリングの一例を説明する図である。本実施の形態による人候補領域のサンプルからマスク画像を生成する一例を説明する図である。本実施の形態による人検知追跡処理フローチャートである。本実施の形態による人らしさ算出処理フローチャートである。

符号の説明

１０人検知追跡装置
１１画像取得部
１２三次元情報生成部
１３マップｂ生成部
１４人候補位置サンプル算出部
１５人らしさ算出部
１５０人候補領域投影部
１５１肌色尤度分布生成部
１５２人候補領域人らしさ算出部
１５６人属性データベース
１５７肌色モデル
１５８顔検出器
１６マップａ生成部
１７マスク画像生成部
１７０人存在仮定領域サンプル抽出部
２０カメラ

Claims

撮像された画像から特定物体の領域を検知し，検知された特定物体の領域を追跡する物体検知追跡装置であって，
基準画像を含む複数の撮像画像から，基準画像の三次元情報を生成する三次元情報生成部と，
基準画像における特定物体の存在可能性に基づいて仮想平面上に投影する三次元情報の領域を定義するマスク情報によりマスクされた前記三次元情報を所定の仮想平面に投影し，仮想平面における前記特定物体の存在可能性を示す第一のマップ情報を生成する第一マップ情報生成部と，
前記第一のマップ情報における前記特定物体の存在可能性を示す値に応じて，前記仮想平面における前記特定物体の候補位置のサンプルを抽出する特定物体候補位置サンプル抽出部と，
前記特定物体の候補位置のサンプルごとに，前記特定物体の候補位置に存在すると仮定された前記特定物体の像を前記基準画像に投影することにより，前記基準画像での前記特定物体の候補領域を決定し，前記特定物体の候補領域における前記特定物体の存在可能性を示す前記特定物体らしさの値を算出する特定物体らしさ算出部と，
前記特定物体の候補位置のサンプルごとに算出された前記特定物体の候補領域における前記特定物体らしさを統合し，前記基準画像における前記特定物体の存在可能性を示す第二のマップ情報を生成する第二マップ情報生成部と，
前記第二のマップ情報から前記マスク情報を生成するマスク情報生成部とを備える
ことを特徴とする物体検知追跡装置。
前記マスク情報生成部は，前記第二のマップ情報における前記特定物体の存在可能性を示す値に応じて，前記基準画像における前記特定物体の存在仮定領域のサンプルを抽出し，抽出された前記特定物体の存在仮定領域のサンプルを統合することにより，前記マスク画像を生成する
ことを特徴とする請求項１に記載された物体検知追跡装置。
前記特定物体らしさ算出部は，前記基準画像における前記特定物体の候補領域からパターンマッチングにより前記特定物体の特徴部位を検出し，前記基準画像以外の撮像画像から前記検出された特徴部位に対応する前記特定物体の特徴部位を検出し，前記検出された特徴部位の前記仮想平面における位置を算出し，算出された位置における前記特定物体の存在可能性を示す値を前記第一のマップ情報から取得し，取得された値から前記特定物体の候補領域における前記特定物体らしさの値を算出する
ことを特徴とする請求項１または請求項２に記載された物体検知追跡装置。
撮像された画像から特定物体の領域を検知し，検知された特定物体の領域を追跡する物体検知追跡方法であって，
コンピュータが，
基準画像を含む複数の撮像画像から，基準画像の三次元情報を生成する過程と，
基準画像における特定物体の存在可能性に基づいて仮想平面上に投影する三次元情報の領域を定義するマスク情報によりマスクされた前記三次元情報を所定の仮想平面に投影し，仮想平面における前記特定物体の存在可能性を示す第一のマップ情報を生成する過程と，
前記第一のマップ情報における前記特定物体の存在可能性を示す値に応じて，前記仮想平面における前記特定物体の候補位置のサンプルを抽出する過程と，
前記特定物体の候補位置のサンプルごとに，前記特定物体の候補位置に存在すると仮定された前記特定物体の像を前記基準画像に投影することにより，前記基準画像での前記特定物体の候補領域を決定し，前記特定物体の候補領域における前記特定物体の存在可能性を示す前記特定物体らしさの値を算出する過程と，
前記特定物体の候補位置のサンプルごとに算出された前記特定物体の候補領域における前記特定物体らしさを統合し，前記基準画像における前記特定物体の存在可能性を示す第二のマップ情報を生成する過程と，
前記第二のマップ情報から前記マスク情報を生成する過程とを実行する
ことを特徴とする物体検知追跡方法。
撮像された画像から特定物体の領域を検知し，検知された特定物体の領域を追跡する物体検知追跡装置のコンピュータが実行するプログラムであって，
前記コンピュータを，
基準画像を含む複数の撮像画像から生成された基準画像の三次元情報を，基準画像における特定物体の存在可能性に基づいて仮想平面上に投影する三次元情報の領域を定義するマスク画像によりマスクして所定の仮想平面に投影し，仮想平面における前記特定物体の存在可能性を示す第一のマップ情報を生成する第一マップ情報生成部と，
前記第一のマップ情報における前記特定物体の存在可能性を示す値に応じて，前記仮想平面における前記特定物体の候補位置のサンプルを抽出する特定物体候補位置サンプル抽出部と，
前記特定物体の候補位置のサンプルごとに，前記特定物体の候補位置に存在すると仮定された前記特定物体の像を前記基準画像に投影することにより，前記基準画像での前記特定物体の候補領域を決定し，前記特定物体の候補領域における前記特定物体の存在可能性を示す前記特定物体らしさの値を算出する特定物体らしさ算出部と，
前記特定物体の候補位置のサンプルごとに算出された前記特定物体の候補領域における前記特定物体らしさを統合し，前記基準画像における前記特定物体の存在可能性を示す第二のマップ情報を生成する第二マップ情報生成部と，
前記第二のマップ情報から前記マスク情報を生成するマスク情報生成部として
機能させるための物体検知追跡プログラム。