以下、本発明の実施形態として、イベント会場が撮影された撮影画像から個々の人を検出する物体検出装置の例を含み、検出結果を監視員に対して表示する画像監視装置1の例を説明する。
[画像監視装置1の構成]
図1は画像監視装置1の概略の構成を示すブロック図である。画像監視装置1は、撮影部2、通信部3、記憶部4、画像処理部5および表示部6からなる。
撮影部2は監視カメラであり、通信部3を介して画像処理部5と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部5に入力する撮影手段である。例えば、撮影部2はイベント会場に設置されたポールに当該監視空間を俯瞰する視野を有して設置される。その視野は固定されていてもよいし、予めのスケジュール或いは通信部3を介した外部からの指示に従って変更されてもよい。また、例えば、撮影部2は監視空間をフレーム周期1秒で撮影してカラー画像を生成する。カラー画像の代わりにモノクロ画像を生成してもよい。
通信部3は通信回路であり、その一端が画像処理部5に接続され、他端が同軸ケーブルまたはLAN(Local Area Network)、インターネットなどの通信網を介して撮影部2および表示部6と接続される。通信部3は撮影部2から撮影画像を取得して画像処理部5に入力し、画像処理部5から入力された検出結果を表示部6に出力する。
記憶部4は、ROM(Read Only Memory)、RAM(Random Access Memory)等のメモリ装置であり、各種プログラムや各種データを記憶する。記憶部4は画像処理部5と接続され、画像処理部5との間でこれらの情報を入出力する。
画像処理部5は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)等の演算装置で構成される。画像処理部5は記憶部4と接続され、記憶部4からプログラムを読み出して実行することにより各種の処理手段・制御手段として動作し、各種データを記憶部4に記憶させ、また記憶部4から読み出す。また、画像処理部5は、通信部3を介して撮影部2および表示部6とも接続され、通信部3経由で撮影部2から取得した撮影画像を解析することにより個々の人を検出し、検出結果を通信部3経由で表示部6に出力する。
表示部6は、液晶ディスプレイ又はCRT(Cathode Ray Tube)ディスプレイ等のディスプレイ装置であり、通信部3を介して画像処理部5と接続され、画像処理部5による検出結果を表示する表示手段である。監視員は表示された検出結果を視認して混雑の発生等を判断し、必要に応じて人員配置の変更等の対処を行う。
なお、本実施形態においては、撮影部2と画像処理部5の個数が1対1である画像監視装置1を例示するが、別の実施形態においては、撮影部2と画像処理部5の個数を多対1或いは多対多とすることもできる。
[画像監視装置1の機能]
図2は画像監視装置1の機能を示す機能ブロック図である。通信部3は画像取得手段30および物体位置出力手段31等として機能し、記憶部4は密度推定器記憶手段40および単体識別器記憶手段41等として機能する。画像処理部5は、密度推定手段50、候補位置抽出手段51、グループ生成手段52および物体位置決定手段53等として機能する。
画像取得手段30は撮影手段である撮影部2から撮影画像を順次取得して、取得した撮影画像を密度推定手段50および候補位置抽出手段51に順次出力する。
密度推定器記憶手段40は、所定の密度ごとに当該密度にて物体(人)が存在する空間を撮影した画像(密度画像)それぞれの画像特徴を学習した推定密度算出関数であって、画像の特徴量を入力されると当該画像に撮影されている物体の密度の推定値(推定密度)を算出して出力する推定器(密度推定器)を表す情報を予め記憶している。つまり密度推定器記憶手段40は上記推定密度算出関数の係数等のパラメータを密度推定器の情報として予め記憶している。
密度推定手段50は、画像取得手段30から入力された撮影画像内の任意の領域を解析して当該領域に撮影された物体の密度を、当該領域における物体の混雑の度合い(混雑度合い)として推定する混雑推定手段である。具体的には、密度推定手段50は、任意の領域の撮影画像から密度推定用の特徴量(推定用特徴量)を抽出するとともに密度推定器記憶手段40から密度推定器を読み出して、抽出した推定用特徴量のそれぞれを密度推定器に入力することによって密度を推定する。この推定を撮影画像内の複数の位置にて行うことにより、撮影画像内での推定密度の分布(物体の密度分布)が求められ、密度推定手段50は推定した密度分布を候補位置抽出手段51に出力する。
密度推定の処理と密度推定器について具体的に説明する。
密度推定手段50は、撮影画像の各画素の位置に窓(推定用抽出窓)を設定し、各推定用抽出窓における撮影画像から推定用特徴量を抽出する。推定用特徴量はGLCM(Gray Level Co-occurrence Matrix)特徴である。
各推定用抽出窓に撮影されている監視空間内の領域は同一サイズであることが望ましい。すなわち、好適には密度推定手段50は不図示のカメラパラメータ記憶手段から予め記憶されている撮影部2のカメラパラメータを読み出し、カメラパラメータを用いたホモグラフィ変換により撮影画像の任意の画素に撮影されている監視空間内の領域が同一サイズとなるように撮影画像を変形してから推定用特徴量を抽出する。
密度推定器は多クラスの画像を識別する識別器で実現することができ、多クラスSVM(Support Vector Machine)法で学習した識別関数とすることができる。
密度は、例えば、人が存在しない「背景」クラス、0人/m2より高く2人/m2以下である「低密度」クラス、2人/m2より高く4人/m2以下である「中密度」クラス、4人/m2より高い「高密度」クラスの4クラスと定義することができる。
推定密度は各クラスに予め付与された値であり、分布推定の結果として出力される値である。本実施形態では各クラスに対応する値を「背景」、「低密度」、「中密度」、「高密度」と表記する。
すなわち、密度推定器は「背景」クラス、「低密度」クラス、「中密度」クラス、「高密度」クラスのそれぞれに帰属する多数の画像(密度画像)の特徴量に多クラスSVM法を適用して学習して得られる、各クラスの密度画像を他のクラスと識別するための識別関数である。この学習により導出された識別関数のパラメータが密度推定器として記憶されている。なお、密度画像の特徴量は、推定用特徴量と同種であり、GLCM特徴である。
密度推定手段50は、各画素に対応して抽出した推定用特徴量のそれぞれを密度推定器に入力することによってその出力値である推定密度を取得する。なお、撮影画像を変形させて推定用特徴量を抽出した場合、密度推定手段50はカメラパラメータを用いたホモグラフィ変換により密度分布を元の撮影画像の形状に変形させる。
こうして得られた、撮影画像の画素ごとの推定密度の集まりが密度分布である。ここで、密度推定手段50が出力する密度分布からは撮影画像の各所における人の粗密状況が分かるが、密度分布から個々の人の位置までは分からない。これに対し、密度推定手段50の後に設けられる候補位置抽出手段51、グループ生成手段52および物体位置決定手段53は、撮影画像に現れている個々の人の位置を検出する手段である。
単体識別器記憶手段41は、単独の人(物体)が撮影された画像(単体画像)の特徴を学習した識別器(単体識別器)を予め記憶している。
図3は単体識別器記憶手段41が記憶している単体識別器の情報を模式的に表した図である。
単体識別器は、画像の特徴量を入力されると当該画像が単体画像であることの尤もらしさを表す評価値(識別スコア)を算出して出力する評価値算出関数の係数、および識別スコアに対して適用する閾値等のパラメータで表される。
単体識別器は多数の単体画像とそれぞれが人以外しか写っていない多数の無人画像とからなる学習用画像の特徴量に線形SVM法を適用して学習した識別器とすることができる。
学習用アルゴリズムとして線形SVMを用いた場合、評価値算出関数の係数は重みベクトルである。この重みベクトルは特徴量の各要素に対する重みであり、入力された画像の特徴量と重みベクトルとの内積の値が識別スコアを表す。学習において、当該重みベクトルと特徴量との内積が0より大きい場合は人、0以下の場合は人以外と識別されるように調整される。よって、入力された画像が単体画像であるか否かを識別する閾値は原理上は0であり、通常は、閾値は0に設定することができる。ただし、単体画像を単体画像でないと識別する誤りを減じるために、閾値を0よりも小さな値に設定してもよい。
なお、学習用画像の特徴量はHOG(Histograms of Oriented Gradients)特徴量である。
単体識別器記憶手段41が記憶している単体識別器は、密度が高いほど単独の物体を構成する部分のうちの少ない部分の画像特徴を学習した識別器となっている。単体識別器記憶手段41は、低密度クラスを表す値と対応付けて単独の人の全身の画像特徴を学習した単体識別器である全身識別器100、中密度クラスを表す値と対応付けて単独の人の上部2/3の画像特徴を学習した単体識別器である上半身識別器101、高密度クラスを表す値と対応付けて単独の人の上部1/3の画像特徴を学習した単体識別器である頭部近傍識別器102を記憶している。
全身識別器100は単独の人の全身が撮影された単体画像を用いて学習した単体識別器であり、上半身識別器101は単独の人の上部2/3が撮影された単体画像(人の全身が撮影された単体画像の上部2/3を切り出した画像など)を用いて学習した単体識別器であり、頭部近傍識別器102は単独の人の上部1/3が撮影された単体画像(人の全身が撮影された単体画像の上部1/3を切り出した画像など)を用いて学習した単体識別器である。
このように、単体識別器記憶手段41は、低密度クラスと対応付けて全身識別器100を、中密度クラスと対応付けて上半身識別器101を、高密度クラスと対応付けて頭部近傍識別器102を記憶している。
候補位置抽出手段51は、単体識別器記憶手段41から単体識別器を読み出し、読み出した単体識別器を用いて、撮影画像において単体画像の特徴を有する候補位置を抽出し、抽出した候補位置をグループ生成手段52に出力する。
具体的には、まず、候補位置抽出手段51は、撮影画像内に所定間隔にて評価位置を複数設定し、各評価位置を基準として識別用の窓(識別用抽出窓)を設定する。例えば、候補位置抽出手段51は、撮影画像全体に1画素間隔で評価位置を設定し、各画素の位置を人の頭部重心を表す評価位置として当該位置を基準に識別用抽出窓を設定する。
そして、識別用抽出窓を設定した候補位置抽出手段51は、各識別用抽出窓内の画像の特徴量を抽出し、抽出した特徴量を単体識別器に入力することによって各評価位置の識別スコアを取得する。
このとき、候補位置抽出手段51は、混雑によるオクルージョンを考慮しつつ識別に用いる画像をできる限り大きくするために、各評価位置における物体の密度が高いほど識別用抽出窓を小さく、密度が低いほど識別用抽出窓を大きく設定し、識別用抽出窓の大きさに対応した単体識別器を用いる。
そのために、候補位置抽出手段51は、各評価位置に単独の人の上部1/3の形状に定められた窓を設定するとともに密度推定手段50から入力された密度分布を参照し、当該窓内における最多の推定密度を当該評価位置の密度と決定する。
そして、候補位置抽出手段51は、密度が低密度である評価位置に単独の人の全身の形状に定められた識別用抽出窓を設定して識別用抽出窓内の撮影画像から単体識別用の特徴量(識別用特徴量)を抽出し、抽出した特徴量を全身識別器に入力して識別スコアを取得する。また、候補位置抽出手段51は、密度が中密度である評価位置に単独の人の上部2/3の形状に定められた識別用抽出窓を設定して識別用抽出窓内の撮影画像から識別用特徴量を抽出し、抽出した特徴量を上半身識別器に入力して識別スコアを取得する。また、候補位置抽出手段51は、密度が高密度である評価位置に単独の人の上部1/3の形状に定められた識別用抽出窓を設定して識別用抽出窓内の撮影画像から識別用特徴量を抽出し、抽出した特徴量を頭部近傍識別器に入力して識別スコアを取得する。
こうして評価位置ごとの識別スコアを取得した候補位置抽出手段51は、各識別スコアを予め定めた閾値と比較し、識別スコアが閾値以上である評価位置を候補位置として抽出する。例えば、上述したように人と人以外とを分ける閾値を0と定めたSVMを用いた場合、候補位置抽出手段51は、0より大きな識別スコアが取得された評価位置を抽出する。そして、候補位置抽出手段51は候補位置ごとに、候補位置、密度、識別スコア、使用した単体識別器の閾値および使用した識別用抽出窓を対応付けた情報(候補位置情報)をグループ生成手段52に出力する。
こうして抽出される候補位置は、多くの場合、個々の人のそれぞれに対して複数個抽出される。そこで、グループ生成手段52が候補位置のうち同一人物のものと考えられる1以上の候補位置からなるグループ(候補位置グループ)を生成し、物体位置決定手段53が候補位置グループごとに候補位置を1つに統合して個々の人の位置(物体位置)を決定する。
図4は密度クラスごとの候補位置と候補位置グループの例を示す模式図である。図4(a)は低密度領域の例であり、図4(b)は中密度領域の例であり、図4(c)は高密度領域の例である。図4(a)〜(c)それぞれの左側部分には人物の近傍にて抽出された複数の候補位置に対応する識別用抽出窓の例を示している。具体的には、図4(a)の低密度領域では1人の人物200の近傍に4つの候補位置が抽出され、これに対応して全身に対応した形状・大きさの4つの識別用抽出窓201が示されている。図4(b)の中密度領域では近接する2人の人物210,211の近傍に5つの候補位置が抽出され、これに対応して人の上部2/3に対応した形状・大きさの5つの識別用抽出窓212が示されている。図4(c)の高密度領域では近接する3人の人物220〜222の近傍に7つの候補位置が抽出され、これに対応して人の上部1/3に対応した形状・大きさの7つの識別用抽出窓223が示されている。また、図4(a)〜(c)の右側部分はそれぞれの左側部分に示した候補位置から生成される候補位置グループの例を示している。
ここで、高い密度が推定された領域では人同士が近接しているため広い範囲で候補位置グループを生成すると、複数人の候補位置から1つの候補位置グループを生成する誤りが生じて、人の位置を検出し損ねる。その一方で、低い密度が推定された領域では高い密度が推定された領域よりも広い範囲で同一人物についての候補位置が抽出され得るため、狭い範囲で候補位置グループを生成すると、同一人物の候補位置から複数の候補位置グループを生成する誤りが生じて、人の位置が過剰に検出されてしまう。
そこで、グループ生成手段52は、候補位置にて推定された密度を参照し、撮影画像内の密度が高い位置ほど狭い範囲(統合範囲)で抽出された候補位置からなる候補位置グループを生成する。例えば、低密度領域では統合範囲が広い結果、図4(a)の右側に示すように、1人の人物200の近傍の識別用抽出窓201で示す4つの候補位置全てから1つの候補位置グループ202が生成され得る。これに対して中密度領域では統合範囲が狭く設定される結果、図4(b)の右側に示すように、識別用抽出窓212で示す5つの候補位置から2人の人物210,211に対応して2つの候補位置グループ213,214が生成され、またさらに統合範囲が狭く設定される高密度領域では図4(c)の右側に示すように、識別用抽出窓223で示す7つの候補位置から3人の人物220〜222に対応して3つの候補位置グループ224〜226が生成され得る。
統合範囲は候補位置同士の近接度合いを示す任意の尺度を用いて定義することができる。つまり、グループ生成手段52は、近接度合いに関する下限を設定し、当該下限以上に近接していれば統合範囲内であるとして候補位置グループを生成する。そして、その際に、グループ生成手段52は、撮影画像内の密度が高い位置ほど候補位置同士の近接度合いに関する下限を高く設定し、密度が低い位置ほど下限を低くする。
グループ生成手段52は生成した各候補位置グループに帰属する候補位置の候補位置情報に当該候補位置グループの識別子を付与し、各候補位置グループの情報を物体位置決定手段53に出力する。
具体的にはグループ生成手段52は各候補位置と対応して設定された識別用抽出窓(候補領域)同士の重複割合によって近接度合いを測り、統合範囲を制御することができる。すなわち、重複割合について下限割合を設定し、識別用抽出窓同士が下限割合以上に重複している場合を統合範囲とする。そして、グループ生成手段52は、撮影画像内の密度が高い位置ほど高い下限割合を設定し、下限割合以上で重複している複数の候補領域からなる候補位置グループを抽出する。例えば、候補領域AとBの重複割合を式(1)にて定義し、密度が低密度である候補位置に対しては下限割合を0.5と設定し、密度が中密度である候補位置に対しては下限割合を0.65と設定し、密度が高密度である候補位置に対しては下限割合を0.8と設定する。なお、式(1)においてSA,SB,SA∩Bはそれぞれ候補領域Aの面積、候補領域Bの面積、候補領域A,Bの重複部分の面積を表す。
さらに、グループ生成手段52は、人の配置の偏りによる検出し損ねを防止するために、撮影画像内の任意の領域にて密度推定手段50により推定される物体の密度に対する、候補位置抽出手段51により抽出される候補位置の当該領域における密度の比に応じて、当該領域における候補位置グループを構成する候補位置の上限数を設定し、上限数以下の候補位置からなる前記候補位置グループを生成・抽出する。具体的には、グループ生成手段52は、密度推定手段50により推定された密度ごとに、抽出された候補位置の数および当該密度が推定された領域の大きさに応じて候補位置グループを構成する候補位置の上限数を設定する。例えば、2人/m2より高く4人/m2以下の密度画像から学習した中密度クラスと推定された領域が3.5m2相当である場合、当該領域に撮影されている人の数は7〜14人と推定される。そして、例えば、当該領域から40個の候補位置が抽出された場合、候補位置グループを構成する候補位置の数は平均的には2.9〜5.7個と推定される。これに対応してグループ生成手段52は、中密度の候補位置グループを構成する候補位置の上限数を6個に設定する。
物体位置決定手段53は、例えば、候補位置グループごとに、当該候補位置グループを構成する候補位置のうち識別スコアが最大の候補位置を物体位置と決定する。そして、物体位置決定手段53は、決定した物体位置の情報を物体位置出力手段31に出力する。
物体位置出力手段31は物体位置決定手段53から入力された物体位置の情報を表示部6に順次出力し、表示部6は物体位置出力手段31から入力された物体位置の情報を表示する。例えば、物体位置の情報はインターネット経由で送受信され、表示部6に表示される。監視員は表示された情報を視認することによって監視空間に混雑が発生している地点を把握し、当該地点に警備員を派遣し或いは増員するなどの対処を行う。
[画像監視装置1の動作]
図5、図6および図7のフロー図を参照して画像監視装置1の動作を説明する。
画像監視装置1が動作を開始すると、イベント会場に設置されている撮影部2は所定時間おきに監視空間を撮影して撮影画像を画像処理部5が設置されている画像解析センター宛に順次送信する。そして、画像処理部5は撮影画像を受信するたびに図5のフロー図に従った動作を繰り返す。
まず、通信部3は画像取得手段30として動作し、撮影部2からの撮影画像の受信待ち状態となる。撮影画像を取得した画像取得手段30は当該撮影画像を画像処理部5に出力する(ステップS1)。
撮影画像を入力された画像処理部5は密度推定手段50として動作し、撮影画像から密度分布を推定する(ステップS2)。密度推定手段50は、撮影画像の各画素の位置にて推定用特徴量を抽出するとともに記憶部4の密度推定器記憶手段40から密度推定器を読み出し、各推定用特徴量を密度推定器に入力して撮影画像の各画素における推定密度を取得することにより、撮影画像における密度分布を推定する。
密度分布を推定した画像処理部5は候補位置抽出手段51としても動作し、候補位置抽出手段51には画像取得手段30から撮影画像が入力されるとともに密度推定手段50から密度分布が入力される。これらを入力された候補位置抽出手段51は、密度分布に背景クラス以外の推定密度が含まれているか否かを確認する(ステップS3)。
背景クラス以外の推定密度が含まれている場合は(ステップS3にてYES)、候補位置抽出手段51は、少なくとも1人以上の人が撮影されているとして、撮影画像から個々の物体の候補位置を抽出する処理を行う(ステップS4)。他方、背景クラスのみの場合は(ステップS3にてNO)、人が撮影されていないとして、ステップS4,S5の処理を省略する。
図6のフローチャートを参照して、ステップS4の候補位置抽出処理を説明する。
候補位置抽出手段51は、撮影画像中の各画素の位置を順次、評価位置に設定する(ステップS400)。そして、候補位置抽出手段51は、密度推定手段50から入力される密度分布を参照して、評価位置の密度を特定する(ステップS401)。具体的には、候補位置抽出手段51は評価位置に単独の人の上部1/3の形状に定められた窓を設定して当該窓内で最多の推定密度を評価位置の密度として特定する。
密度を特定した候補位置抽出手段51は、単体識別器記憶手段41から当該密度に応じた単体識別器を読み出し、当該密度に応じた識別用抽出窓を設定して識別用抽出窓内の撮影画像から識別用特徴量を抽出し(ステップS402)、抽出した識別用特徴量を当該密度に応じた単体識別器に入力して識別スコア(評価値)を算出する(ステップS403)。
そして、候補位置抽出手段51は、評価位置の評価値が所定の閾値を超えていれば(ステップS404にてYES)、当該評価位置を物体の候補位置とし、候補位置情報を生成する(ステップS405)。一方、評価位置の評価値が所定の閾値を超えていなければ(ステップS404にてNO)、当該評価位置は候補位置とはされず、ステップS405の処理は省略される。
候補位置抽出手段51は、ステップS404,S405にて或る画素を評価位置とした処理を終えると、撮影画像の全ての画素の位置を評価位置に設定し終えたか否かを確認し(ステップS406)、未設定の画素がある場合は(ステップS406にてNO)、処理をステップS400に戻して次の画素の位置を処理する。
他方、候補位置抽出手段51が全ての画素の位置を評価位置に設定して候補位置の抽出処理を終えた場合(ステップS406にてYES)、生成された候補位置情報はグループ生成手段52に出力され、処理は図5のステップS5に進められる。候補位置抽出手段51は生成した候補位置情報をグループ生成手段52に出力する。
図7のフローチャートを参照して、ステップS5の候補位置統合処理を説明する。
グループ生成手段52は評価値の降順に候補位置情報を並べたリストを生成する(ステップS500)。グループ生成手段52は、リスト先頭の候補位置の密度に応じた下限割合と上限数とを設定するとともに(ステップS501)、候補位置グループのメンバー数を“1”に初期化する(ステップS502)。
グループ生成手段52は、リストの2番目以降の候補位置情報を順次、比較位置情報に設定し(ステップS503)、リスト先頭の候補位置の識別用抽出窓と比較位置情報の候補位置(比較位置)の識別用抽出窓との重複割合を算出する。当該重複割合がステップS501にて設定した下限割合を超えている場合(ステップS504にてYES)、グループ生成手段52は比較位置をリスト先頭の候補位置と同じ候補位置グループとすることとし、比較位置情報をリストから削除するとともに(ステップS505)、メンバー数を1だけ増加する(ステップS506)。
ステップS506にて増加させたメンバー数がステップS501にて設定した上限数に達していない場合(ステップS507にてNO)、グループ生成手段52は比較位置情報がリスト終端であるか否かを判断する(ステップS508)。また、ステップS504にて重複割合が下限割合以下である場合は(ステップS504にてNO)、ステップS505〜S507の処理を省略してステップS508の判断を行う。
グループ生成手段52は、比較位置情報がリスト終端でない場合(ステップS508にてNO)、ステップS503〜S508の処理を繰り返し、リスト終端に達すると(ステップS508にてYES)、現在のリスト先頭の候補位置についての候補位置グループの抽出を終了する。
また、グループ生成手段52は、ステップS506にて増加させたメンバー数が上限数に達した場合(ステップS507にてYES)、比較位置情報がリスト終端でなくても、現在のリスト先頭の候補位置についての候補位置グループの抽出を終了する。
グループ生成手段52によりリスト先頭の候補位置についての候補位置グループが生成されると、物体位置決定手段53は、候補位置グループ内の評価値が最大の候補位置、つまりリスト先頭の候補位置を物体位置に決定する(ステップS509)。
また、グループ生成手段52は候補位置グループの生成処理S501〜S508が完了したリスト先頭の候補位置情報を削除する(ステップS510)。ステップS510の削除処理後、リストに候補位置情報が残っていれば(ステップS511にてNO)、グループ生成手段52は処理をステップS501に戻し、新たなリスト先頭の候補位置についての候補位置グループの生成を行う。一方、リストが空になると(ステップS511にてYES)、候補位置統合処理S5は終了し、処理は図5のステップS6に進められる。候補位置抽出手段51は、生成した候補位置情報をグループ生成手段52に出力する。
再び図5を参照して説明を続ける。物体位置決定手段53はステップS5にて決定した物体位置の情報を通信部3に出力し(ステップS6)、通信部3は物体位置出力手段31として動作して物体位置の情報を表示部6に送信する。
以上の処理を終えると、処理はステップS1に戻され、次の撮影画像に対する処理が行われる。
[変形例]
(1)上記実施形態において、グループ生成手段52は各候補位置と対応して設定された識別用抽出窓(候補領域)同士の重複割合を尺度に用いて候補位置同士の近接度合いを測る具体例を示したが、重複割合に代えて候補位置間の距離を尺度に用い、候補位置同士の距離によって近接度合いを測ることもできる。この構成では、グループ生成手段52は、候補位置同士の距離について上限を設定する。そして、グループ生成手段52は撮影画像内の混雑度合いが高い位置ほど短い上限距離を設定し、上限距離以下の距離にある複数の候補位置からなる候補位置グループを抽出する。この場合、例えば、グループ生成手段52は、密度が低密度である候補位置同士に対しては上限距離を60画素と設定し、密度が中密度である候補位置同士に対しては上限距離を40画素と設定し、密度が高密度である候補位置同士に対しては上限距離を30画素と設定して、密度ごとに候補位置グループを抽出する。
(2)上記実施形態およびその変形例において、グループ生成手段52の処理として例示した、候補位置グループを構成する候補位置の上限数の設定および当該上限数以下の候補位置からなる候補位置グループを抽出する処理は省略することもできる。
(3)上記実施形態およびその変形例において、物体位置決定手段53は評価値が最大の候補位置を物体位置と決定したが、候補位置の平均値または重み付け平均値を物体位置と決定してもよい。すなわち、物体位置決定手段53は、候補位置グループごとに当該候補位置グループを構成する候補位置の平均値を物体位置と決定する、または、候補位置グループごとに当該候補位置グループを構成する候補位置を当該候補位置の評価値(負の評価値を含み得る場合は全てを正となるようシフトさせた評価値)で重み付けて平均して重み付け平均値を物体位置と決定する。
(4)上記実施形態およびその変形例においては、検出対象の物体を人とする例を示したが、これに限らず、検出対象の物体を車両、椅子や机等の什器、牛や羊等の動物等とすることもできる。また、検出対象を1種類とせず人、椅子および机の3種類とするなど、複数種類とすることもできる(複数種類の物体が混在する空間での検出)。
(5)上記実施形態およびその変形例においては、各密度クラスに対応付ける単体識別器として人の全身、上部2/3および上部1/3を識別するものを用いたが、識別する部分および大きさは一例であり、検出対象や撮影する監視空間の特性、採用する特徴量や評価値の種類などの違いに応じ、それぞれに適した別の設定とすることができる。
(6)上記実施形態およびその変形例においては、多クラスSVM法にて学習した密度推定器を例示したが、多クラスSVM法に代えて、決定木型のランダムフォレスト法、多クラスのアダブースト(AdaBoost)法または多クラスロジスティック回帰法などにて学習した密度推定器など種々の密度推定器とすることができる。
或いは識別型のCNN(Convolutional Neural Network)を用いた密度推定器とすることもできる。
(7)上記実施形態およびその変形例においては、密度推定器が推定する背景以外の密度のクラスを3クラスとしたが、より細かくクラスを分けてもよい。
その場合、3段階(全身、上半身および頭部近傍)の単体識別器に代えて、クラス分けに対応したより細かい段階の単体識別器とし、クラスと単体識別器を対応付けて単体識別器記憶手段41に記憶させておくことができる。或いは、クラスと3段階の単体識別器を多対一で対応付けて単体識別器記憶手段41に記憶させておくこともできる。
(8)上記実施形態およびその変形例においては、多クラスに分類する密度推定器を例示したがこれに代えて、特徴量から密度の値(推定密度)を回帰する回帰型の密度推定器とすることもできる。すなわち、リッジ回帰法、サポートベクターリグレッション法、回帰木型のランダムフォレスト法またはガウス過程回帰(Gaussian Process Regression)などによって、特徴量から推定密度を求めるための回帰関数のパラメータを学習した密度推定器とすることができる。
或いは回帰型のCNNを用いた密度推定器とすることもできる。
これらの場合、密度クラスの値の代わりに連続値で出力される推定密度の値域を、単体識別器と対応付けて単体識別器記憶手段41に記憶させておく。
(9)上記実施形態およびその変形例においては、密度推定器が学習する特徴量および推定用特徴量としてGLCM特徴を例示したが、これらはGLCM特徴に代えて、局所二値パターン(Local Binary Pattern:LBP)特徴量、ハールライク(Haar-like)特徴量、HOG特徴量、輝度パターンなどの種々の特徴量とすることができ、またはGLCM特徴とこれらのうちの複数を組み合わせた特徴量とすることもできる。
(10)上記各実施形態およびその各変形例においては、混雑推定手段である密度推定手段50が物体の混雑度合いとしてその密度を推定する例を示したが、混雑推定手段は画像の複雑度の解析によって混雑度合いを推定することもできる。例えば、混雑推定手段は撮影画像を互いに色が類似する隣接画素ごとの領域に分割し、所定のブロックごとに分割領域を計数して計数値に応じた高さの複雑度を算出する(予めの実験を通じて求めた、計数値が多いほど高い複雑度が定まる関係に基づき算出)。或いは、混雑推定手段は所定のブロックごとに撮影画像の周波数解析を行ってピーク周波数の高さに応じた高さの複雑度を求める(予めの実験を通じて求めた、ピーク周波数が高いほど高い複雑度が定まる関係に基づき算出)。そして、混雑推定手段は、ブロックごとに複雑度に応じた高さの混雑度合いを推定する(予めの実験を通じて求めた、複雑度が高いほど高い混雑度合いが定まる関係に基づき算出)。
(11)上記実施形態およびその変形例においては、注目している候補位置に人の上部1/3の形状に定められたモデルの投影領域または該形状に定められた窓を設定して当該領域内の推定密度を集計することによって、当該候補位置における推定密度を決定する例を示したが、処理量を削減するために当該領域に代えて候補位置の画素、候補位置の8近傍領域または16近傍領域などの小さな領域とすることもできる。或いは、確度を上げるために当該領域に代えて候補位置を代表位置とする単独の人の上部2/3の形状に定められたモデルの投影領域または該形状に定められた窓、または候補位置を代表位置とする単独の人の全身の形状に定められたモデルの投影領域または該形状に定められた窓などの大きな領域とすることもできる。
(12)上記実施形態およびその変形例において示した、識別スコアと対比する閾値は単体識別器ごとに異なる値とすることもできる。
(13)上記実施形態およびその変形例においては、線形SVM法により学習された単体識別器を例示したが、線形SVM法に代えてアダブースト法など、従来知られた各種の学習法を用いて学習した単体識別器とすることもできる。また、識別器の代わりにパターンマッチング器を用いることもでき、その場合の識別スコアは人の学習用画像から抽出した特徴量の平均パターンと入力画像の特徴量との内積などとなり、識別スコア算出関数は当該スコアを出力値とし入力画像の特徴量を入力値とする関数とすることができる。また単体識別器として識別型のCNNを用いても良い。特に、識別処理に加えて識別用抽出窓のサイズの推定処理をも行うR−CNN(Regions with CNN features)法等を用いる場合、候補領域である識別用抽出窓の大きさは可変サイズとすることができる。R−CNN法については例えば"Rich feature hierarchies for accurate object detection and semantic segmentation", Ross Girshick他, CVPR 2014に記載がある。
(14)上記実施形態およびその変形例においては、単体識別器が学習する特徴量としてHOG特徴量を例示したが、これらはHOG特徴量に代えて、局所二値パターン特徴量、ハールライク特徴量、輝度パターンなどの種々の特徴量とすることができ、またはHOG特徴量とこれらのうちの複数を組み合わせた特徴量とすることもできる。