JP6920944B2

JP6920944B2 - 物体検出装置

Info

Publication number: JP6920944B2
Application number: JP2017184443A
Authority: JP
Inventors: 知行永橋; 秀紀氏家; 龍佑野坂
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2021-08-18
Anticipated expiration: 2037-09-26
Also published as: JP2019061407A

Description

本発明は、人等の物体が存在し得る空間が撮影された撮影画像から個々の物体の位置を検出する物体検出装置に関し、特に、混雑が生じ得る空間が撮影された撮影画像から個々の物体の位置を検出する物体検出装置に関する。

イベント会場等の混雑が発生し得る空間においてはパニックの発生等を防止するために、異常な行動をとる不審者を早期に発見することが求められる。この要請に応えるため、例えば、会場の各所に監視カメラを配置して撮影画像から人の分布を推定し、推定した分布を表示することによって監視員による混雑状況の把握を容易化することが期待される。そして、その際に、個々の人の位置を検出して、検出した各位置に人の形状を模したモデルを表示すること等によって個々の人の位置を示せば、より一層の監視効率向上が期待できる。

複数人が撮影された撮影画像から個々の人の位置を検出する方法の１つに、単独の人が撮影された画像の特徴量を事前に学習した識別器を用いて撮影画像を探索することによって撮影画像から単独の人の画像特徴が現れている位置を検出する方法がある。

識別器を用いた探索処理では、一人ひとりに対して複数の候補位置が近接して抽出され得、一般に、近接して抽出された複数の候補位置に基づいて一人ひとりの位置が決定される。例えば、下記特許文献１に記載の対象検出装置は、指標値（識別器のスコア）が第一閾値を超える候補領域を抽出し、一定以上の割合で重複して抽出された複数の候補領域からなる領域グループを生成する。そして各領域グループの中から最高スコアのものを対象領域（人の領域）として検出し、または、領域グループごとに当該領域グループをなす複数の候補領域を平均化して対象領域を検出する。

特開２０１６−０４０７０５号公報

しかしながら、イベント会場等を撮影した撮影画像においては、混雑した領域において隣り合う人物の候補領域同士が一定以上の割合で重複して抽出され得る。そのため、従来技術では複数人の候補領域が混ざった領域グループから１人の領域を決定することとなってしまい、検出し損ねを生じるおそれがあった。

一方、検出し損ねを防ぐために狭い範囲で領域グループを生成すると、混雑が生じていない領域において１人しか撮影されていないにも拘らず複数の領域グループが生成されてしまい、過剰な検出を生じるおそれがある。

このように、混雑状態によらず常に一定の基準で物体の候補領域（候補位置）を統合していると、領域ごとの混雑状態の違いや混雑状態の変化によって、物体の位置を検出する精度が低下する問題があった。

本発明は、上記問題を鑑みてなされたものであり、混雑状態によらず高精度に個々の物体の位置を検出することのできる物体検出装置を提供することを目的とする。

（１）本発明に係る物体検出装置は、物体による混雑が生じ得る空間が撮影された撮影画像から個々の前記物体の位置を検出する装置であって、前記撮影画像内の任意の領域を解析して当該領域に撮影された前記物体の混雑度合いを推定する混雑推定手段と、単独の前記物体が撮影された単体画像の特徴を学習した単体識別器を用いて、前記撮影画像において前記単体画像の特徴を有する候補位置を抽出する候補位置抽出手段と、前記撮影画像内の前記混雑度合いが高い位置ほど前記候補位置同士の近接度合いに関する下限を高く設定し、前記下限以上に近接している前記候補位置からなる候補位置グループを生成するグループ生成手段と、前記候補位置グループごとに、当該候補位置グループに帰属する候補位置に基づいて前記物体の位置を決定する物体位置決定手段と、を備える。

（２）上記（１）に記載の物体検出装置において、前記候補位置抽出手段は、前記候補位置を基準として前記単体画像の特徴を有する候補領域を抽出し、前記グループ生成手段は、前記候補領域同士の重複部分の割合によって前記近接度合いを測り、前記撮影画像内の前記混雑度合いが高い位置ほど前記重複部分に関する下限割合を大きく設定し、前記下限割合以上で重複している前記候補領域に対応する前記候補位置グループを生成する構成とすることができる。

（３）上記（１）に記載の物体検出装置において、前記グループ生成手段は、前記候補位置同士の距離によって前記近接度合いを測り、前記撮影画像内の前記混雑度合いが高い位置ほど前記距離に関する上限を小さく設定し、前記上限以下の距離にある前記候補位置からなる前記候補位置グループを抽出する構成とすることができる。

（４）上記（１）〜（３）に記載の物体検出装置において、前記混雑推定手段は、所定の密度ごとに当該密度にて前記物体が存在する空間を撮影した密度画像それぞれの特徴を学習した密度推定器を用いて、前記撮影画像内の任意の領域に撮影された前記物体の前記密度を前記混雑度合いとして推定する構成とすることができる。

（５）上記（４）に記載の物体検出装置において、前記グループ生成手段は、前記撮影画像内の任意の領域にて前記混雑推定手段により推定される前記物体の前記密度に対する、前記候補位置抽出手段により抽出される前記候補位置の当該領域における密度の比に応じて、当該領域における前記候補位置グループを構成する候補位置の上限数を設定し、前記上限数以下の前記候補位置からなる前記候補位置グループを生成する構成とすることができる。

本発明によれば、混雑状態によらず高精度に個々の物体の位置を検出できる物体検出装置が得られる。

本発明の実施形態に係る画像監視装置の概略の構成を示すブロック図である。本発明の実施形態に係る画像監視装置の概略の機能ブロック図である。単体識別器記憶手段が記憶している単体識別器の情報を模式的に表した図である。密度クラスごとの候補位置および候補位置グループの例を示す模式図である。本発明の実施形態に係る画像監視装置の概略の動作を示すフロー図である。候補位置抽出処理の概略のフロー図である。候補位置統合処理の概略のフロー図である。

以下、本発明の実施形態として、イベント会場が撮影された撮影画像から個々の人を検出する物体検出装置の例を含み、検出結果を監視員に対して表示する画像監視装置１の例を説明する。

［画像監視装置１の構成］
図１は画像監視装置１の概略の構成を示すブロック図である。画像監視装置１は、撮影部２、通信部３、記憶部４、画像処理部５および表示部６からなる。

撮影部２は監視カメラであり、通信部３を介して画像処理部５と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部５に入力する撮影手段である。例えば、撮影部２はイベント会場に設置されたポールに当該監視空間を俯瞰する視野を有して設置される。その視野は固定されていてもよいし、予めのスケジュール或いは通信部３を介した外部からの指示に従って変更されてもよい。また、例えば、撮影部２は監視空間をフレーム周期１秒で撮影してカラー画像を生成する。カラー画像の代わりにモノクロ画像を生成してもよい。

通信部３は通信回路であり、その一端が画像処理部５に接続され、他端が同軸ケーブルまたはＬＡＮ（Local Area Network）、インターネットなどの通信網を介して撮影部２および表示部６と接続される。通信部３は撮影部２から撮影画像を取得して画像処理部５に入力し、画像処理部５から入力された検出結果を表示部６に出力する。

記憶部４は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等のメモリ装置であり、各種プログラムや各種データを記憶する。記憶部４は画像処理部５と接続され、画像処理部５との間でこれらの情報を入出力する。

画像処理部５は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）等の演算装置で構成される。画像処理部５は記憶部４と接続され、記憶部４からプログラムを読み出して実行することにより各種の処理手段・制御手段として動作し、各種データを記憶部４に記憶させ、また記憶部４から読み出す。また、画像処理部５は、通信部３を介して撮影部２および表示部６とも接続され、通信部３経由で撮影部２から取得した撮影画像を解析することにより個々の人を検出し、検出結果を通信部３経由で表示部６に出力する。

表示部６は、液晶ディスプレイ又はＣＲＴ（Cathode Ray Tube）ディスプレイ等のディスプレイ装置であり、通信部３を介して画像処理部５と接続され、画像処理部５による検出結果を表示する表示手段である。監視員は表示された検出結果を視認して混雑の発生等を判断し、必要に応じて人員配置の変更等の対処を行う。

なお、本実施形態においては、撮影部２と画像処理部５の個数が１対１である画像監視装置１を例示するが、別の実施形態においては、撮影部２と画像処理部５の個数を多対１或いは多対多とすることもできる。

［画像監視装置１の機能］
図２は画像監視装置１の機能を示す機能ブロック図である。通信部３は画像取得手段３０および物体位置出力手段３１等として機能し、記憶部４は密度推定器記憶手段４０および単体識別器記憶手段４１等として機能する。画像処理部５は、密度推定手段５０、候補位置抽出手段５１、グループ生成手段５２および物体位置決定手段５３等として機能する。

画像取得手段３０は撮影手段である撮影部２から撮影画像を順次取得して、取得した撮影画像を密度推定手段５０および候補位置抽出手段５１に順次出力する。

密度推定器記憶手段４０は、所定の密度ごとに当該密度にて物体（人）が存在する空間を撮影した画像（密度画像）それぞれの画像特徴を学習した推定密度算出関数であって、画像の特徴量を入力されると当該画像に撮影されている物体の密度の推定値（推定密度）を算出して出力する推定器（密度推定器）を表す情報を予め記憶している。つまり密度推定器記憶手段４０は上記推定密度算出関数の係数等のパラメータを密度推定器の情報として予め記憶している。

密度推定手段５０は、画像取得手段３０から入力された撮影画像内の任意の領域を解析して当該領域に撮影された物体の密度を、当該領域における物体の混雑の度合い（混雑度合い）として推定する混雑推定手段である。具体的には、密度推定手段５０は、任意の領域の撮影画像から密度推定用の特徴量（推定用特徴量）を抽出するとともに密度推定器記憶手段４０から密度推定器を読み出して、抽出した推定用特徴量のそれぞれを密度推定器に入力することによって密度を推定する。この推定を撮影画像内の複数の位置にて行うことにより、撮影画像内での推定密度の分布（物体の密度分布）が求められ、密度推定手段５０は推定した密度分布を候補位置抽出手段５１に出力する。

密度推定の処理と密度推定器について具体的に説明する。

密度推定手段５０は、撮影画像の各画素の位置に窓（推定用抽出窓）を設定し、各推定用抽出窓における撮影画像から推定用特徴量を抽出する。推定用特徴量はＧＬＣＭ（Gray Level Co-occurrence Matrix）特徴である。

各推定用抽出窓に撮影されている監視空間内の領域は同一サイズであることが望ましい。すなわち、好適には密度推定手段５０は不図示のカメラパラメータ記憶手段から予め記憶されている撮影部２のカメラパラメータを読み出し、カメラパラメータを用いたホモグラフィ変換により撮影画像の任意の画素に撮影されている監視空間内の領域が同一サイズとなるように撮影画像を変形してから推定用特徴量を抽出する。

密度推定器は多クラスの画像を識別する識別器で実現することができ、多クラスＳＶＭ（Support Vector Machine）法で学習した識別関数とすることができる。

密度は、例えば、人が存在しない「背景」クラス、０人／ｍ^２より高く２人／ｍ^２以下である「低密度」クラス、２人／ｍ^２より高く４人／ｍ^２以下である「中密度」クラス、４人／ｍ^２より高い「高密度」クラスの４クラスと定義することができる。

推定密度は各クラスに予め付与された値であり、分布推定の結果として出力される値である。本実施形態では各クラスに対応する値を「背景」、「低密度」、「中密度」、「高密度」と表記する。

すなわち、密度推定器は「背景」クラス、「低密度」クラス、「中密度」クラス、「高密度」クラスのそれぞれに帰属する多数の画像（密度画像）の特徴量に多クラスＳＶＭ法を適用して学習して得られる、各クラスの密度画像を他のクラスと識別するための識別関数である。この学習により導出された識別関数のパラメータが密度推定器として記憶されている。なお、密度画像の特徴量は、推定用特徴量と同種であり、ＧＬＣＭ特徴である。

密度推定手段５０は、各画素に対応して抽出した推定用特徴量のそれぞれを密度推定器に入力することによってその出力値である推定密度を取得する。なお、撮影画像を変形させて推定用特徴量を抽出した場合、密度推定手段５０はカメラパラメータを用いたホモグラフィ変換により密度分布を元の撮影画像の形状に変形させる。

こうして得られた、撮影画像の画素ごとの推定密度の集まりが密度分布である。ここで、密度推定手段５０が出力する密度分布からは撮影画像の各所における人の粗密状況が分かるが、密度分布から個々の人の位置までは分からない。これに対し、密度推定手段５０の後に設けられる候補位置抽出手段５１、グループ生成手段５２および物体位置決定手段５３は、撮影画像に現れている個々の人の位置を検出する手段である。

単体識別器記憶手段４１は、単独の人（物体）が撮影された画像（単体画像）の特徴を学習した識別器（単体識別器）を予め記憶している。

図３は単体識別器記憶手段４１が記憶している単体識別器の情報を模式的に表した図である。

単体識別器は、画像の特徴量を入力されると当該画像が単体画像であることの尤もらしさを表す評価値（識別スコア）を算出して出力する評価値算出関数の係数、および識別スコアに対して適用する閾値等のパラメータで表される。

単体識別器は多数の単体画像とそれぞれが人以外しか写っていない多数の無人画像とからなる学習用画像の特徴量に線形ＳＶＭ法を適用して学習した識別器とすることができる。

学習用アルゴリズムとして線形ＳＶＭを用いた場合、評価値算出関数の係数は重みベクトルである。この重みベクトルは特徴量の各要素に対する重みであり、入力された画像の特徴量と重みベクトルとの内積の値が識別スコアを表す。学習において、当該重みベクトルと特徴量との内積が０より大きい場合は人、０以下の場合は人以外と識別されるように調整される。よって、入力された画像が単体画像であるか否かを識別する閾値は原理上は０であり、通常は、閾値は０に設定することができる。ただし、単体画像を単体画像でないと識別する誤りを減じるために、閾値を０よりも小さな値に設定してもよい。

なお、学習用画像の特徴量はＨＯＧ（Histograms of Oriented Gradients）特徴量である。

単体識別器記憶手段４１が記憶している単体識別器は、密度が高いほど単独の物体を構成する部分のうちの少ない部分の画像特徴を学習した識別器となっている。単体識別器記憶手段４１は、低密度クラスを表す値と対応付けて単独の人の全身の画像特徴を学習した単体識別器である全身識別器１００、中密度クラスを表す値と対応付けて単独の人の上部２／３の画像特徴を学習した単体識別器である上半身識別器１０１、高密度クラスを表す値と対応付けて単独の人の上部１／３の画像特徴を学習した単体識別器である頭部近傍識別器１０２を記憶している。

全身識別器１００は単独の人の全身が撮影された単体画像を用いて学習した単体識別器であり、上半身識別器１０１は単独の人の上部２／３が撮影された単体画像（人の全身が撮影された単体画像の上部２／３を切り出した画像など）を用いて学習した単体識別器であり、頭部近傍識別器１０２は単独の人の上部１／３が撮影された単体画像（人の全身が撮影された単体画像の上部１／３を切り出した画像など）を用いて学習した単体識別器である。

このように、単体識別器記憶手段４１は、低密度クラスと対応付けて全身識別器１００を、中密度クラスと対応付けて上半身識別器１０１を、高密度クラスと対応付けて頭部近傍識別器１０２を記憶している。

候補位置抽出手段５１は、単体識別器記憶手段４１から単体識別器を読み出し、読み出した単体識別器を用いて、撮影画像において単体画像の特徴を有する候補位置を抽出し、抽出した候補位置をグループ生成手段５２に出力する。

具体的には、まず、候補位置抽出手段５１は、撮影画像内に所定間隔にて評価位置を複数設定し、各評価位置を基準として識別用の窓（識別用抽出窓）を設定する。例えば、候補位置抽出手段５１は、撮影画像全体に１画素間隔で評価位置を設定し、各画素の位置を人の頭部重心を表す評価位置として当該位置を基準に識別用抽出窓を設定する。

そして、識別用抽出窓を設定した候補位置抽出手段５１は、各識別用抽出窓内の画像の特徴量を抽出し、抽出した特徴量を単体識別器に入力することによって各評価位置の識別スコアを取得する。

このとき、候補位置抽出手段５１は、混雑によるオクルージョンを考慮しつつ識別に用いる画像をできる限り大きくするために、各評価位置における物体の密度が高いほど識別用抽出窓を小さく、密度が低いほど識別用抽出窓を大きく設定し、識別用抽出窓の大きさに対応した単体識別器を用いる。

そのために、候補位置抽出手段５１は、各評価位置に単独の人の上部１／３の形状に定められた窓を設定するとともに密度推定手段５０から入力された密度分布を参照し、当該窓内における最多の推定密度を当該評価位置の密度と決定する。

そして、候補位置抽出手段５１は、密度が低密度である評価位置に単独の人の全身の形状に定められた識別用抽出窓を設定して識別用抽出窓内の撮影画像から単体識別用の特徴量（識別用特徴量）を抽出し、抽出した特徴量を全身識別器に入力して識別スコアを取得する。また、候補位置抽出手段５１は、密度が中密度である評価位置に単独の人の上部２／３の形状に定められた識別用抽出窓を設定して識別用抽出窓内の撮影画像から識別用特徴量を抽出し、抽出した特徴量を上半身識別器に入力して識別スコアを取得する。また、候補位置抽出手段５１は、密度が高密度である評価位置に単独の人の上部１／３の形状に定められた識別用抽出窓を設定して識別用抽出窓内の撮影画像から識別用特徴量を抽出し、抽出した特徴量を頭部近傍識別器に入力して識別スコアを取得する。

こうして評価位置ごとの識別スコアを取得した候補位置抽出手段５１は、各識別スコアを予め定めた閾値と比較し、識別スコアが閾値以上である評価位置を候補位置として抽出する。例えば、上述したように人と人以外とを分ける閾値を０と定めたＳＶＭを用いた場合、候補位置抽出手段５１は、０より大きな識別スコアが取得された評価位置を抽出する。そして、候補位置抽出手段５１は候補位置ごとに、候補位置、密度、識別スコア、使用した単体識別器の閾値および使用した識別用抽出窓を対応付けた情報（候補位置情報）をグループ生成手段５２に出力する。

こうして抽出される候補位置は、多くの場合、個々の人のそれぞれに対して複数個抽出される。そこで、グループ生成手段５２が候補位置のうち同一人物のものと考えられる１以上の候補位置からなるグループ（候補位置グループ）を生成し、物体位置決定手段５３が候補位置グループごとに候補位置を１つに統合して個々の人の位置（物体位置）を決定する。

図４は密度クラスごとの候補位置と候補位置グループの例を示す模式図である。図４（ａ）は低密度領域の例であり、図４（ｂ）は中密度領域の例であり、図４（ｃ）は高密度領域の例である。図４（ａ）〜（ｃ）それぞれの左側部分には人物の近傍にて抽出された複数の候補位置に対応する識別用抽出窓の例を示している。具体的には、図４（ａ）の低密度領域では１人の人物２００の近傍に４つの候補位置が抽出され、これに対応して全身に対応した形状・大きさの４つの識別用抽出窓２０１が示されている。図４（ｂ）の中密度領域では近接する２人の人物２１０，２１１の近傍に５つの候補位置が抽出され、これに対応して人の上部２／３に対応した形状・大きさの５つの識別用抽出窓２１２が示されている。図４（ｃ）の高密度領域では近接する３人の人物２２０〜２２２の近傍に７つの候補位置が抽出され、これに対応して人の上部１／３に対応した形状・大きさの７つの識別用抽出窓２２３が示されている。また、図４（ａ）〜（ｃ）の右側部分はそれぞれの左側部分に示した候補位置から生成される候補位置グループの例を示している。

ここで、高い密度が推定された領域では人同士が近接しているため広い範囲で候補位置グループを生成すると、複数人の候補位置から１つの候補位置グループを生成する誤りが生じて、人の位置を検出し損ねる。その一方で、低い密度が推定された領域では高い密度が推定された領域よりも広い範囲で同一人物についての候補位置が抽出され得るため、狭い範囲で候補位置グループを生成すると、同一人物の候補位置から複数の候補位置グループを生成する誤りが生じて、人の位置が過剰に検出されてしまう。

そこで、グループ生成手段５２は、候補位置にて推定された密度を参照し、撮影画像内の密度が高い位置ほど狭い範囲（統合範囲）で抽出された候補位置からなる候補位置グループを生成する。例えば、低密度領域では統合範囲が広い結果、図４（ａ）の右側に示すように、１人の人物２００の近傍の識別用抽出窓２０１で示す４つの候補位置全てから１つの候補位置グループ２０２が生成され得る。これに対して中密度領域では統合範囲が狭く設定される結果、図４（ｂ）の右側に示すように、識別用抽出窓２１２で示す５つの候補位置から２人の人物２１０，２１１に対応して２つの候補位置グループ２１３，２１４が生成され、またさらに統合範囲が狭く設定される高密度領域では図４（ｃ）の右側に示すように、識別用抽出窓２２３で示す７つの候補位置から３人の人物２２０〜２２２に対応して３つの候補位置グループ２２４〜２２６が生成され得る。

統合範囲は候補位置同士の近接度合いを示す任意の尺度を用いて定義することができる。つまり、グループ生成手段５２は、近接度合いに関する下限を設定し、当該下限以上に近接していれば統合範囲内であるとして候補位置グループを生成する。そして、その際に、グループ生成手段５２は、撮影画像内の密度が高い位置ほど候補位置同士の近接度合いに関する下限を高く設定し、密度が低い位置ほど下限を低くする。

グループ生成手段５２は生成した各候補位置グループに帰属する候補位置の候補位置情報に当該候補位置グループの識別子を付与し、各候補位置グループの情報を物体位置決定手段５３に出力する。

具体的にはグループ生成手段５２は各候補位置と対応して設定された識別用抽出窓（候補領域）同士の重複割合によって近接度合いを測り、統合範囲を制御することができる。すなわち、重複割合について下限割合を設定し、識別用抽出窓同士が下限割合以上に重複している場合を統合範囲とする。そして、グループ生成手段５２は、撮影画像内の密度が高い位置ほど高い下限割合を設定し、下限割合以上で重複している複数の候補領域からなる候補位置グループを抽出する。例えば、候補領域ＡとＢの重複割合を式（１）にて定義し、密度が低密度である候補位置に対しては下限割合を０．５と設定し、密度が中密度である候補位置に対しては下限割合を０．６５と設定し、密度が高密度である候補位置に対しては下限割合を０．８と設定する。なお、式（１）においてＳ_Ａ，Ｓ_Ｂ，Ｓ_Ａ∩Ｂはそれぞれ候補領域Ａの面積、候補領域Ｂの面積、候補領域Ａ，Ｂの重複部分の面積を表す。

さらに、グループ生成手段５２は、人の配置の偏りによる検出し損ねを防止するために、撮影画像内の任意の領域にて密度推定手段５０により推定される物体の密度に対する、候補位置抽出手段５１により抽出される候補位置の当該領域における密度の比に応じて、当該領域における候補位置グループを構成する候補位置の上限数を設定し、上限数以下の候補位置からなる前記候補位置グループを生成・抽出する。具体的には、グループ生成手段５２は、密度推定手段５０により推定された密度ごとに、抽出された候補位置の数および当該密度が推定された領域の大きさに応じて候補位置グループを構成する候補位置の上限数を設定する。例えば、２人／ｍ^２より高く４人／ｍ^２以下の密度画像から学習した中密度クラスと推定された領域が３．５ｍ^２相当である場合、当該領域に撮影されている人の数は７〜１４人と推定される。そして、例えば、当該領域から４０個の候補位置が抽出された場合、候補位置グループを構成する候補位置の数は平均的には２．９〜５．７個と推定される。これに対応してグループ生成手段５２は、中密度の候補位置グループを構成する候補位置の上限数を６個に設定する。

物体位置決定手段５３は、例えば、候補位置グループごとに、当該候補位置グループを構成する候補位置のうち識別スコアが最大の候補位置を物体位置と決定する。そして、物体位置決定手段５３は、決定した物体位置の情報を物体位置出力手段３１に出力する。

物体位置出力手段３１は物体位置決定手段５３から入力された物体位置の情報を表示部６に順次出力し、表示部６は物体位置出力手段３１から入力された物体位置の情報を表示する。例えば、物体位置の情報はインターネット経由で送受信され、表示部６に表示される。監視員は表示された情報を視認することによって監視空間に混雑が発生している地点を把握し、当該地点に警備員を派遣し或いは増員するなどの対処を行う。

［画像監視装置１の動作］
図５、図６および図７のフロー図を参照して画像監視装置１の動作を説明する。

画像監視装置１が動作を開始すると、イベント会場に設置されている撮影部２は所定時間おきに監視空間を撮影して撮影画像を画像処理部５が設置されている画像解析センター宛に順次送信する。そして、画像処理部５は撮影画像を受信するたびに図５のフロー図に従った動作を繰り返す。

まず、通信部３は画像取得手段３０として動作し、撮影部２からの撮影画像の受信待ち状態となる。撮影画像を取得した画像取得手段３０は当該撮影画像を画像処理部５に出力する（ステップＳ１）。

撮影画像を入力された画像処理部５は密度推定手段５０として動作し、撮影画像から密度分布を推定する（ステップＳ２）。密度推定手段５０は、撮影画像の各画素の位置にて推定用特徴量を抽出するとともに記憶部４の密度推定器記憶手段４０から密度推定器を読み出し、各推定用特徴量を密度推定器に入力して撮影画像の各画素における推定密度を取得することにより、撮影画像における密度分布を推定する。

密度分布を推定した画像処理部５は候補位置抽出手段５１としても動作し、候補位置抽出手段５１には画像取得手段３０から撮影画像が入力されるとともに密度推定手段５０から密度分布が入力される。これらを入力された候補位置抽出手段５１は、密度分布に背景クラス以外の推定密度が含まれているか否かを確認する（ステップＳ３）。

背景クラス以外の推定密度が含まれている場合は（ステップＳ３にてＹＥＳ）、候補位置抽出手段５１は、少なくとも１人以上の人が撮影されているとして、撮影画像から個々の物体の候補位置を抽出する処理を行う（ステップＳ４）。他方、背景クラスのみの場合は（ステップＳ３にてＮＯ）、人が撮影されていないとして、ステップＳ４，Ｓ５の処理を省略する。

図６のフローチャートを参照して、ステップＳ４の候補位置抽出処理を説明する。

候補位置抽出手段５１は、撮影画像中の各画素の位置を順次、評価位置に設定する（ステップＳ４００）。そして、候補位置抽出手段５１は、密度推定手段５０から入力される密度分布を参照して、評価位置の密度を特定する（ステップＳ４０１）。具体的には、候補位置抽出手段５１は評価位置に単独の人の上部１／３の形状に定められた窓を設定して当該窓内で最多の推定密度を評価位置の密度として特定する。

密度を特定した候補位置抽出手段５１は、単体識別器記憶手段４１から当該密度に応じた単体識別器を読み出し、当該密度に応じた識別用抽出窓を設定して識別用抽出窓内の撮影画像から識別用特徴量を抽出し（ステップＳ４０２）、抽出した識別用特徴量を当該密度に応じた単体識別器に入力して識別スコア（評価値）を算出する（ステップＳ４０３）。

そして、候補位置抽出手段５１は、評価位置の評価値が所定の閾値を超えていれば（ステップＳ４０４にてＹＥＳ）、当該評価位置を物体の候補位置とし、候補位置情報を生成する（ステップＳ４０５）。一方、評価位置の評価値が所定の閾値を超えていなければ（ステップＳ４０４にてＮＯ）、当該評価位置は候補位置とはされず、ステップＳ４０５の処理は省略される。

候補位置抽出手段５１は、ステップＳ４０４，Ｓ４０５にて或る画素を評価位置とした処理を終えると、撮影画像の全ての画素の位置を評価位置に設定し終えたか否かを確認し（ステップＳ４０６）、未設定の画素がある場合は（ステップＳ４０６にてＮＯ）、処理をステップＳ４００に戻して次の画素の位置を処理する。

他方、候補位置抽出手段５１が全ての画素の位置を評価位置に設定して候補位置の抽出処理を終えた場合（ステップＳ４０６にてＹＥＳ）、生成された候補位置情報はグループ生成手段５２に出力され、処理は図５のステップＳ５に進められる。候補位置抽出手段５１は生成した候補位置情報をグループ生成手段５２に出力する。

図７のフローチャートを参照して、ステップＳ５の候補位置統合処理を説明する。

グループ生成手段５２は評価値の降順に候補位置情報を並べたリストを生成する（ステップＳ５００）。グループ生成手段５２は、リスト先頭の候補位置の密度に応じた下限割合と上限数とを設定するとともに（ステップＳ５０１）、候補位置グループのメンバー数を“１”に初期化する（ステップＳ５０２）。

グループ生成手段５２は、リストの２番目以降の候補位置情報を順次、比較位置情報に設定し（ステップＳ５０３）、リスト先頭の候補位置の識別用抽出窓と比較位置情報の候補位置（比較位置）の識別用抽出窓との重複割合を算出する。当該重複割合がステップＳ５０１にて設定した下限割合を超えている場合（ステップＳ５０４にてＹＥＳ）、グループ生成手段５２は比較位置をリスト先頭の候補位置と同じ候補位置グループとすることとし、比較位置情報をリストから削除するとともに（ステップＳ５０５）、メンバー数を１だけ増加する（ステップＳ５０６）。

ステップＳ５０６にて増加させたメンバー数がステップＳ５０１にて設定した上限数に達していない場合（ステップＳ５０７にてＮＯ）、グループ生成手段５２は比較位置情報がリスト終端であるか否かを判断する（ステップＳ５０８）。また、ステップＳ５０４にて重複割合が下限割合以下である場合は（ステップＳ５０４にてＮＯ）、ステップＳ５０５〜Ｓ５０７の処理を省略してステップＳ５０８の判断を行う。

グループ生成手段５２は、比較位置情報がリスト終端でない場合（ステップＳ５０８にてＮＯ）、ステップＳ５０３〜Ｓ５０８の処理を繰り返し、リスト終端に達すると（ステップＳ５０８にてＹＥＳ）、現在のリスト先頭の候補位置についての候補位置グループの抽出を終了する。

また、グループ生成手段５２は、ステップＳ５０６にて増加させたメンバー数が上限数に達した場合（ステップＳ５０７にてＹＥＳ）、比較位置情報がリスト終端でなくても、現在のリスト先頭の候補位置についての候補位置グループの抽出を終了する。

グループ生成手段５２によりリスト先頭の候補位置についての候補位置グループが生成されると、物体位置決定手段５３は、候補位置グループ内の評価値が最大の候補位置、つまりリスト先頭の候補位置を物体位置に決定する（ステップＳ５０９）。

また、グループ生成手段５２は候補位置グループの生成処理Ｓ５０１〜Ｓ５０８が完了したリスト先頭の候補位置情報を削除する（ステップＳ５１０）。ステップＳ５１０の削除処理後、リストに候補位置情報が残っていれば（ステップＳ５１１にてＮＯ）、グループ生成手段５２は処理をステップＳ５０１に戻し、新たなリスト先頭の候補位置についての候補位置グループの生成を行う。一方、リストが空になると（ステップＳ５１１にてＹＥＳ）、候補位置統合処理Ｓ５は終了し、処理は図５のステップＳ６に進められる。候補位置抽出手段５１は、生成した候補位置情報をグループ生成手段５２に出力する。

再び図５を参照して説明を続ける。物体位置決定手段５３はステップＳ５にて決定した物体位置の情報を通信部３に出力し（ステップＳ６）、通信部３は物体位置出力手段３１として動作して物体位置の情報を表示部６に送信する。

以上の処理を終えると、処理はステップＳ１に戻され、次の撮影画像に対する処理が行われる。

［変形例］
（１）上記実施形態において、グループ生成手段５２は各候補位置と対応して設定された識別用抽出窓（候補領域）同士の重複割合を尺度に用いて候補位置同士の近接度合いを測る具体例を示したが、重複割合に代えて候補位置間の距離を尺度に用い、候補位置同士の距離によって近接度合いを測ることもできる。この構成では、グループ生成手段５２は、候補位置同士の距離について上限を設定する。そして、グループ生成手段５２は撮影画像内の混雑度合いが高い位置ほど短い上限距離を設定し、上限距離以下の距離にある複数の候補位置からなる候補位置グループを抽出する。この場合、例えば、グループ生成手段５２は、密度が低密度である候補位置同士に対しては上限距離を６０画素と設定し、密度が中密度である候補位置同士に対しては上限距離を４０画素と設定し、密度が高密度である候補位置同士に対しては上限距離を３０画素と設定して、密度ごとに候補位置グループを抽出する。

（２）上記実施形態およびその変形例において、グループ生成手段５２の処理として例示した、候補位置グループを構成する候補位置の上限数の設定および当該上限数以下の候補位置からなる候補位置グループを抽出する処理は省略することもできる。

（３）上記実施形態およびその変形例において、物体位置決定手段５３は評価値が最大の候補位置を物体位置と決定したが、候補位置の平均値または重み付け平均値を物体位置と決定してもよい。すなわち、物体位置決定手段５３は、候補位置グループごとに当該候補位置グループを構成する候補位置の平均値を物体位置と決定する、または、候補位置グループごとに当該候補位置グループを構成する候補位置を当該候補位置の評価値（負の評価値を含み得る場合は全てを正となるようシフトさせた評価値）で重み付けて平均して重み付け平均値を物体位置と決定する。

（４）上記実施形態およびその変形例においては、検出対象の物体を人とする例を示したが、これに限らず、検出対象の物体を車両、椅子や机等の什器、牛や羊等の動物等とすることもできる。また、検出対象を１種類とせず人、椅子および机の３種類とするなど、複数種類とすることもできる（複数種類の物体が混在する空間での検出）。

（５）上記実施形態およびその変形例においては、各密度クラスに対応付ける単体識別器として人の全身、上部２／３および上部１／３を識別するものを用いたが、識別する部分および大きさは一例であり、検出対象や撮影する監視空間の特性、採用する特徴量や評価値の種類などの違いに応じ、それぞれに適した別の設定とすることができる。

（６）上記実施形態およびその変形例においては、多クラスＳＶＭ法にて学習した密度推定器を例示したが、多クラスＳＶＭ法に代えて、決定木型のランダムフォレスト法、多クラスのアダブースト（AdaBoost）法または多クラスロジスティック回帰法などにて学習した密度推定器など種々の密度推定器とすることができる。

或いは識別型のＣＮＮ（Convolutional Neural Network）を用いた密度推定器とすることもできる。

（７）上記実施形態およびその変形例においては、密度推定器が推定する背景以外の密度のクラスを３クラスとしたが、より細かくクラスを分けてもよい。

その場合、３段階（全身、上半身および頭部近傍）の単体識別器に代えて、クラス分けに対応したより細かい段階の単体識別器とし、クラスと単体識別器を対応付けて単体識別器記憶手段４１に記憶させておくことができる。或いは、クラスと３段階の単体識別器を多対一で対応付けて単体識別器記憶手段４１に記憶させておくこともできる。

（８）上記実施形態およびその変形例においては、多クラスに分類する密度推定器を例示したがこれに代えて、特徴量から密度の値（推定密度）を回帰する回帰型の密度推定器とすることもできる。すなわち、リッジ回帰法、サポートベクターリグレッション法、回帰木型のランダムフォレスト法またはガウス過程回帰（Gaussian Process Regression）などによって、特徴量から推定密度を求めるための回帰関数のパラメータを学習した密度推定器とすることができる。

或いは回帰型のＣＮＮを用いた密度推定器とすることもできる。

これらの場合、密度クラスの値の代わりに連続値で出力される推定密度の値域を、単体識別器と対応付けて単体識別器記憶手段４１に記憶させておく。

（９）上記実施形態およびその変形例においては、密度推定器が学習する特徴量および推定用特徴量としてＧＬＣＭ特徴を例示したが、これらはＧＬＣＭ特徴に代えて、局所二値パターン（Local Binary Pattern：ＬＢＰ）特徴量、ハールライク（Haar-like）特徴量、ＨＯＧ特徴量、輝度パターンなどの種々の特徴量とすることができ、またはＧＬＣＭ特徴とこれらのうちの複数を組み合わせた特徴量とすることもできる。

（１０）上記各実施形態およびその各変形例においては、混雑推定手段である密度推定手段５０が物体の混雑度合いとしてその密度を推定する例を示したが、混雑推定手段は画像の複雑度の解析によって混雑度合いを推定することもできる。例えば、混雑推定手段は撮影画像を互いに色が類似する隣接画素ごとの領域に分割し、所定のブロックごとに分割領域を計数して計数値に応じた高さの複雑度を算出する（予めの実験を通じて求めた、計数値が多いほど高い複雑度が定まる関係に基づき算出）。或いは、混雑推定手段は所定のブロックごとに撮影画像の周波数解析を行ってピーク周波数の高さに応じた高さの複雑度を求める（予めの実験を通じて求めた、ピーク周波数が高いほど高い複雑度が定まる関係に基づき算出）。そして、混雑推定手段は、ブロックごとに複雑度に応じた高さの混雑度合いを推定する（予めの実験を通じて求めた、複雑度が高いほど高い混雑度合いが定まる関係に基づき算出）。

（１１）上記実施形態およびその変形例においては、注目している候補位置に人の上部１／３の形状に定められたモデルの投影領域または該形状に定められた窓を設定して当該領域内の推定密度を集計することによって、当該候補位置における推定密度を決定する例を示したが、処理量を削減するために当該領域に代えて候補位置の画素、候補位置の８近傍領域または１６近傍領域などの小さな領域とすることもできる。或いは、確度を上げるために当該領域に代えて候補位置を代表位置とする単独の人の上部２／３の形状に定められたモデルの投影領域または該形状に定められた窓、または候補位置を代表位置とする単独の人の全身の形状に定められたモデルの投影領域または該形状に定められた窓などの大きな領域とすることもできる。

（１２）上記実施形態およびその変形例において示した、識別スコアと対比する閾値は単体識別器ごとに異なる値とすることもできる。

（１３）上記実施形態およびその変形例においては、線形ＳＶＭ法により学習された単体識別器を例示したが、線形ＳＶＭ法に代えてアダブースト法など、従来知られた各種の学習法を用いて学習した単体識別器とすることもできる。また、識別器の代わりにパターンマッチング器を用いることもでき、その場合の識別スコアは人の学習用画像から抽出した特徴量の平均パターンと入力画像の特徴量との内積などとなり、識別スコア算出関数は当該スコアを出力値とし入力画像の特徴量を入力値とする関数とすることができる。また単体識別器として識別型のＣＮＮを用いても良い。特に、識別処理に加えて識別用抽出窓のサイズの推定処理をも行うＲ−ＣＮＮ（Regions with CNN features）法等を用いる場合、候補領域である識別用抽出窓の大きさは可変サイズとすることができる。Ｒ−ＣＮＮ法については例えば"Rich feature hierarchies for accurate object detection and semantic segmentation", Ross Girshick他, CVPR 2014に記載がある。

（１４）上記実施形態およびその変形例においては、単体識別器が学習する特徴量としてＨＯＧ特徴量を例示したが、これらはＨＯＧ特徴量に代えて、局所二値パターン特徴量、ハールライク特徴量、輝度パターンなどの種々の特徴量とすることができ、またはＨＯＧ特徴量とこれらのうちの複数を組み合わせた特徴量とすることもできる。

１画像監視装置、２撮影部、３通信部、４記憶部、５画像処理部、６表示部、３０画像取得手段、３１物体位置出力手段、４０密度推定器記憶手段、４１単体識別器記憶手段、５０密度推定手段、５１候補位置抽出手段、５２グループ生成手段、５３物体位置決定手段、１００全身識別器、１０１上半身識別器、１０２頭部近傍識別器。

Claims

物体による混雑が生じ得る空間が撮影された撮影画像から個々の前記物体の位置を検出する物体検出装置であって、
前記撮影画像内の任意の領域を解析して当該領域に撮影された前記物体の混雑度合いを推定する混雑推定手段と、
単独の前記物体が撮影された単体画像の特徴を学習した単体識別器を用いて、前記撮影画像において前記単体画像の特徴を有する候補位置を抽出する候補位置抽出手段と、
前記撮影画像内の前記混雑度合いが高い位置ほど前記候補位置同士の近接度合いに関する下限を高く設定し、前記下限以上に近接している前記候補位置からなる候補位置グループを生成するグループ生成手段と、
前記候補位置グループごとに、当該候補位置グループに帰属する候補位置に基づいて前記物体の位置を決定する物体位置決定手段と、
を備えたことを特徴とする物体検出装置。
前記候補位置抽出手段は、前記候補位置を基準として前記単体画像の特徴を有する候補領域を抽出し、
前記グループ生成手段は、前記候補領域同士の重複部分の割合によって前記近接度合いを測り、前記撮影画像内の前記混雑度合いが高い位置ほど前記重複部分に関する下限割合を大きく設定し、前記下限割合以上で重複している前記候補領域に対応する前記候補位置グループを生成すること、
を特徴とする請求項１に記載の物体検出装置。
前記グループ生成手段は、前記候補位置同士の距離によって前記近接度合いを測り、前記撮影画像内の前記混雑度合いが高い位置ほど前記距離に関する上限を小さく設定し、前記上限以下の距離にある前記候補位置からなる前記候補位置グループを抽出すること、を特徴とする請求項１に記載の物体検出装置。
前記混雑推定手段は、所定の密度ごとに当該密度にて前記物体が存在する空間を撮影した密度画像それぞれの特徴を学習した密度推定器を用いて、前記撮影画像内の任意の領域に撮影された前記物体の前記密度を前記混雑度合いとして推定する請求項１から請求項３のいずれか１つに記載の物体検出装置。
前記グループ生成手段は、前記撮影画像内の任意の領域にて前記混雑推定手段により推定される前記物体の前記密度に対する、前記候補位置抽出手段により抽出される前記候補位置の当該領域における密度の比に応じて、当該領域における前記候補位置グループを構成する候補位置の上限数を設定し、前記上限数以下の前記候補位置からなる前記候補位置グループを生成すること、を特徴とする請求項４に記載の物体検出装置。