JP6893812B2

JP6893812B2 - 物体検出装置

Info

Publication number: JP6893812B2
Application number: JP2017063887A
Authority: JP
Inventors: 秀紀氏家; 昌宏前田; 黒川　高晴; 高晴黒川
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2021-06-23
Anticipated expiration: 2037-03-28
Also published as: JP2018165966A

Description

本発明は、人等の所定の物体が存在し得る空間が撮影された撮影画像から個々の物体を検出する物体検出装置に関し、特に、混雑が生じ得る空間が撮影された撮影画像から個々の物体を検出する物体検出装置に関する。

イベント会場等の混雑が発生し得る空間においては事故防止等のために、混雑が発生している区域に警備員を多く配置するなどの対応が求められる。そこで、会場の各所に監視カメラを配置して撮影画像から人の分布を推定し、推定した分布を表示することによって監視員による混雑状況の把握を容易化することができる。

その際、個々の人の位置を検出して、検出した各位置に人の形状を模したモデルを表示し、または／および人の位置関係（例えば行列を為している、取り囲んでいる）を解析して解析結果を報知することによって、より一層の監視効率向上が期待できる。

複数人が撮影された撮影画像から個々の人の位置を検出する方法に、人を模したモデルを複数個組み合わせて撮影画像に当てはめる方法や、単独の人が撮影された画像の特徴量を事前に学習した識別器を用いて撮影画像をスキャンする方法など、予め用意した単独の人の画像特徴を用いて撮影画像から単独の人の画像特徴が現れている位置を検出する方法がある。

例えば、特許文献１に記載の移動物体追跡装置においては、監視画像と背景画像との比較によって変化画素が抽出された位置に、追跡中の移動物体の形状を模した移動物体モデルを追跡中の移動物体の数だけ組み合わせて当てはめることによって個々の移動物体の位置を検出している。この移動物体追跡装置においては、人の全身の形状を近似した移動物体モデルを用いることが例示されている。

また、例えば、特許文献２に記載の物体検出装置は、多数の「人」の画像データ、「人以外」の画像データを用いて予め学習させた識別器を用いて入力画像から人を検出する。この物体検出装置が用いる識別器は、人の全身の画像データを用いて学習したものであることが示唆されている。また、この物体検出装置においては、入力画像から円を検出して人体頭部の候補領域としている。

特開２０１２−１５９９５８号公報特開２０１１−１８６６３３号公報

しかしながら、混雑が生じ得る空間が撮影された撮影画像においては、混雑状態に応じて人の隠蔽状態が変化する。そのため、単独の人の画像特徴として、混雑状態によらず常に同一部分の画像特徴を用いていると個々の人を精度良く検出し続けることが困難となる問題があった。

すなわち、混雑が生じておらず、全身が撮影されている人が多い撮影画像については、人を模したモデルを用いる方法においても、人の画像を学習した識別器を用いる方法においても、全身の画像特徴を用いた方が頭部近傍のみの画像特徴を用いるよりも高い精度で当該人を検出できる。

一方、混雑が生じ、隠蔽状態が多発している撮影画像については、人を模したモデルを用いる方法においても、人の画像を学習した識別器を用いる方法においても、全身の画像特徴を用いるよりも頭部近傍のみの画像特徴を用いた方が高い精度で当該人を検出できる。

そのため、例えば、混雑時の検出精度を高めるために頭部近傍のみの画像特徴を常に用いていると混雑が生じていない時の検出精度が低下し、混雑が生じていない時の検出精度を高めるために全身の画像特徴を常に用いていると混雑時の検出精度が低下する。
つまり、混雑状態と、個々の物体の検出のために用いる部分の多寡には、隠蔽状態の変化を要因とするトレードオフがある。

また、撮影画像中には混雑状態の異なる領域が混在し得る。これによって領域ごとに検出精度が変わることとなり、問題がより複雑化する。

このように、混雑が生じ得る空間が撮影された撮影画像においては検出対象の物体の隠蔽状態が混雑状態に応じて変化するため、当該撮影画像から個々の物体を精度良く検出することが困難であった。

本発明は上記問題に鑑みてなされたものであり、混雑が生じ得る空間が撮影された撮影画像であっても当該撮影画像中の個々の物体を精度良く検出することができる物体検出装置を提供することを目的とする。

かかる目的を達成するために本発明は、所定の物体による混雑が生じ得る空間が撮影された撮影画像から個々の前記物体を検出する物体検出装置であって、所定の密度ごとに当該密度にて前記物体が存在する空間を撮影した密度画像それぞれの画像特徴を学習した密度推定器を用いて、前記撮影画像に撮影された前記物体の前記密度の分布を推定する密度推定手段と、前記撮影画像内に個々の前記物体が存在し得る候補位置を設定して当該候補位置の前記撮影画像に単独の前記物体の画像特徴が現れている度合いを表す評価値を算出し、前記評価値が所定値以上である候補位置を前記物体の位置と判定する物体位置判定手段と、を備え、前記物体位置判定手段は、前記候補位置における前記密度に応じ、単独の前記物体を構成する部分のうちの重視する部分を変更して前記評価値を算出することを特徴とした物体検出装置を提供する。

前記物体位置判定手段は、前記候補位置における前記密度が高いほど、単独の前記物体を構成する部分のうちの少ない部分の画像特徴を重視して前記評価値を算出することが好適である。

また、前記物体位置判定手段は、前記候補位置における前記密度が高いほど、前記撮影画像の当該候補位置に単独の前記物体を構成する部分のうちの少ない部分の画像特徴が現れている度合いを表す前記評価値を算出することが好適である。

または、前記物体位置判定手段は、前記撮影画像の前記候補位置に単独の前記物体を構成する複数の部分の画像特徴が現れている度合いを表す部分評価値を算出し、当該候補位置における前記密度が高いほど、前記物体を構成する部分のうちの少ない部分の前記部分評価値に高く重み付けて前記部分評価値を総和することによって前記評価値を算出することが好適である。

また、前記物体位置判定手段は、それぞれが１以上の前記候補位置を含む互いに異なる複数通りの配置を生成する配置生成手段と、前記複数通りの配置それぞれについて、前記各候補位置に、当該候補位置における前記密度が高いほど、単独の前記物体を構成する部分のうちの少ない部分を模した物体モデルを描画してモデル画像を生成するモデル画像生成手段と、前記複数通りの配置それぞれについて、前記モデル画像の前記撮影画像に対する類似の度合いを表す前記評価値を算出する評価値算出手段と、前記評価値が最大の配置における前記候補位置を前記物体の位置と決定する最適配置決定手段と、を含むことが好適である。

また、前記物体位置判定手段は、それぞれが１以上の前記候補位置を含む互いに異なる複数通りの配置を生成する配置生成手段と、前記複数通りの配置それぞれについて、前記各候補位置に単独の前記物体を模した物体モデルを描画してモデル画像を生成するモデル画像生成手段と、前記複数通りの配置の前記モデル画像それぞれについて、前記物体を構成する部分ごとに前記物体モデルの前記撮影画像に対する類似度を求め、前記候補位置における前記密度が高いほど少ない部分に偏重させた重み付けを行って前記類似度を総和することにより前記評価値を算出する評価値算出手段と、前記評価値が最大の配置における前記候補位置を前記物体の位置と決定する最適配置決定手段と、を含むことが好適である。

また、前記物体位置判定手段は、前記撮影画像内に所定間隔にて複数の前記候補位置を設定する候補位置設定手段と、前記候補位置それぞれについて、当該候補位置の前記密度が高いほど単独の前記物体を構成する部分のうちの少ない部分の画像特徴を学習した識別器に、当該候補位置の前記撮影画像の画像特徴を入力して前記評価値を算出する評価値算出手段と、予め定めた基準を満たす前記評価値が算出された前記候補位置を前記物体の位置と決定する位置決定手段と、を含むことが好適である。

また、前記物体位置判定手段は、前記撮影画像内に所定間隔にて複数の前記候補位置を設定する候補位置設定手段と、前記候補位置それぞれについて、単独の前記物体を構成する複数の部分の画像特徴を学習した識別器に当該候補位置の前記撮影画像の画像特徴を入力して前記複数の部分の部分評価値を求め、前記候補位置における前記密度が高いほど少ない部分に偏重させた重み付けを行って前記部分評価値を総和することにより前記評価値を算出する評価値算出手段と、予め定めた基準を満たす前記評価値が算出された前記候補位置を前記物体の位置と決定する位置決定手段と、を含むことが好適である。

本発明によれば、混雑が生じ得る空間が撮影された撮影画像から個々の物体を精度良く検出できる。

画像監視装置の概略の構成を示すブロック図である。画像監視装置の機能を示す機能ブロック図である。画像監視装置の機能を示す機能ブロック図である。物体モデル記憶手段が記憶している物体モデルの情報を模式的に表した図である。密度推定手段、配置生成手段およびモデル画像生成手段による処理例を模式的に示した図である。画像監視装置の動作を示したフローチャートである。画像監視装置の物体位置判定処理のフローチャートである。画像監視装置の物体位置判定処理のフローチャートである。画像監視装置の機能を示す機能ブロック図である。物体モデル記憶手段が記憶している物体モデルの情報および重み係数記憶手段が記憶している重み係数の情報を模式的に表した図である。モデル画像生成手段が生成したモデル画像と重み画像を模式的に示した図である。画像監視装置の物体位置判定処理のフローチャートである。画像監視装置の物体位置判定処理のフローチャートである。画像監視装置の機能を示す機能ブロック図である。単体識別器記憶手段が記憶している単体識別器の情報を模式的に表した図である。評価値算出手段が設定する識別用抽出窓を模式的に示した図である。画像監視装置の物体位置判定処理のフローチャートである。画像監視装置の機能を示す機能ブロック図である。単体識別器記憶手段が記憶している単体識別器の情報および重み係数記憶手段が記憶している重み係数の情報を模式的に表した図である。評価値算出手段が識別スコアを算出する様子を模式的に示した図である。画像監視装置の物体位置判定処理のフローチャートである。

［第一の実施形態］
以下、本発明の実施形態として、イベント会場が撮影された撮影画像から個々の人を検出する物体検出装置の例を含み、検出結果を監視員に対して表示する画像監視装置１の例を説明する。この実施形態に係る画像監視装置１は、特に、物体検出装置が人を模した物体モデルを用いて個々の人を検出し、その際に物体検出装置が人の密度によって物体モデルを切り替える例を含む。

＜第一の実施形態に係る画像監視装置１の構成＞
図１は画像監視装置１の概略の構成を示すブロック図である。画像監視装置１は、撮影部２、通信部３、記憶部４、画像処理部５、および表示部６からなる。

撮影部２は、監視カメラであり、通信部３を介して画像処理部５と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次画像処理部５に入力する撮影手段である。例えば、撮影部２は、イベント会場に設置されたポールに当該監視空間を俯瞰する視野を有して設置される。その視野は固定されていてもよいし、予めのスケジュール或いは通信部３を介した外部からの指示に従って変更されてもよい。また、例えば、撮影部２は監視空間をフレーム周期１秒で撮影してカラー画像を生成する。カラー画像の代わりにモノクロ画像を生成してもよい。

通信部３は、通信回路であり、その一端が画像処理部５に接続され、他端が同軸ケーブルまたはＬＡＮ（Local Area Network）、インターネットなどの通信網を介して撮影部２および表示部６と接続される。通信部３は、撮影部２から撮影画像を取得して画像処理部５に入力し、画像処理部５から入力された検出結果を表示部６に出力する。

記憶部４は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等のメモリ装置であり、各種プログラムや各種データを記憶する。記憶部４は、画像処理部５と接続されて画像処理部５との間でこれらの情報を入出力する。

画像処理部５は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）等の演算装置で構成される。画像処理部５は、記憶部４および表示部６と接続され、記憶部４からプログラムを読み出して実行することにより各種処理手段・制御手段として動作し、各種データを記憶部４に記憶させ、読み出す。また、画像処理部５は、通信部３を介して撮影部２および表示部６とも接続され、通信部３経由で撮影部２から取得した撮影画像を解析することにより個々の人を検出し、検出結果を通信部３経由で表示部６に表示させる。

表示部６は、液晶ディスプレイ又はＣＲＴ（Cathode Ray Tube）ディスプレイ等のディスプレイ装置であり、通信部３を介して画像処理部５と接続され、画像処理部５による検出結果を表示する表示手段である。監視員は表示された検出結果を視認して混雑の発生等を判断し、必要に応じて人員配置の変更等の対処を行う。

なお、本実施形態においては、撮影部２と画像処理部５の個数が１対１である画像監視装置１を例示するが、別の実施形態においては、撮影部２と画像処理部５の個数を多対１或いは多対多とすることもできる。

＜第一の実施形態に係る画像監視装置１の機能＞
図２および図３は画像監視装置１の機能を示す機能ブロック図である。通信部３は画像取得手段３０および物体位置出力手段３１等として機能し、記憶部４は密度推定器記憶手段４０および単体特徴記憶手段４１等として機能する。画像処理部５は、密度推定手段５０および物体位置判定手段５１等として機能する。また、単体特徴記憶手段４１は物体モデル記憶手段４１０ａとしての機能を含み、物体位置判定手段５１は配置生成手段５１０ａ、モデル画像生成手段５１２ａ、評価値算出手段５１４ａおよび最適配置決定手段５１６ａとしての機能を含む。

画像取得手段３０は、撮影手段である撮影部２から撮影画像を順次取得して、取得した撮影画像を密度推定手段５０および物体位置判定手段５１に順次出力する。

密度推定器記憶手段４０は、所定の密度ごとに当該密度にて物体（人）が存在する空間を撮影した密度画像それぞれの画像特徴を学習した推定密度算出関数であって、画像の特徴量を入力されると当該画像に撮影されている物体の密度の推定値（推定密度）を算出し、算出した推定密度を出力する推定器（密度推定器）の情報を予め記憶している。つまり上記推定密度算出関数の係数等のパラメータを密度推定器の情報として予め記憶している。

密度推定手段５０は、画像取得手段３０から入力された撮影画像の各所から密度推定用の特徴量（推定用特徴量）を抽出するとともに密度推定器記憶手段４０から密度推定器を読み出して、抽出した推定用特徴量のそれぞれを密度推定器に入力することによって推定密度の分布（密度分布）を推定し、推定した密度分布を物体位置判定手段５１に出力する。

密度推定の処理と密度推定器について具体的に説明する。

密度推定手段５０は、撮影画像の各画素の位置に窓（推定用抽出窓）を設定し、各推定用抽出窓における撮影画像から推定用特徴量を抽出する。推定用特徴量はＧＬＣＭ（Gray Level Co-occurrence Matrix）特徴である。

各推定用抽出窓に撮影されている監視空間内の領域は同一サイズであることが望ましい。すなわち、好適には密度推定手段５０は不図示のカメラパラメータ記憶手段から予め記憶されている撮影部２のカメラパラメータを読み出し、カメラパラメータを用いたホモグラフィ変換により撮影画像の任意の画素に撮影されている監視空間内の領域が同一サイズとなるように撮影画像を変形してから推定用特徴量を抽出する。

密度推定器は多クラスの画像を識別する識別器で実現することができ、多クラスＳＶＭ（Support Vector Machine）法で学習した識別関数とすることができる。
密度は、例えば、人が存在しない「背景」クラス、０人／ｍ^２より高く２人／ｍ^２以下である「低密度」クラス、２人／ｍ^２より高く４人／ｍ^２以下である「中密度」クラス、４人／ｍ^２より高い「高密度」クラスの４クラスと定義することができる。

推定密度は各クラスに予め付与された値であり、分布推定の結果として出力される値である。本実施形態では各クラスに対応する値を「背景」「低密度」「中密度」「高密度」と表記する。

すなわち、密度推定器は「背景」クラス、「低密度」クラス、「中密度」クラス、「高密度」クラスのそれぞれに帰属する多数の画像（密度画像）の特徴量に多クラスＳＶＭ法を適用して学習した、各クラスの画像を他のクラスと識別するための識別関数である。この学習により導出された識別関数のパラメータが密度推定器として記憶されている。なお、密度画像の特徴量は、推定用特徴量と同種であり、ＧＬＣＭ特徴である。

密度推定手段５０は、各画素に対応して抽出した推定用特徴量のそれぞれを密度推定器に入力することによってその出力値である推定密度を取得する。なお、撮影画像を変形させて推定用特徴量を抽出した場合、密度推定手段５０は、カメラパラメータを用いたホモグラフィ変換により密度分布を元の撮影画像の形状に変形させる。

こうして得られた、撮影画像の画素ごとの推定密度の集まりが密度分布である。

密度推定手段５０が出力する密度分布から撮影画像の各所における人の粗密状況が分かるが、密度分布から個々の人の位置までは分からない。
これに対し、密度推定手段５０の後段の物体位置判定手段５１は、撮影画像に現れている個々の人の位置を判定する手段である。

物体位置判定手段５１は、単独の物体（人）としての画像特徴が現れている箇所を撮影画像上で探索することにより個々の物体を検出して個々の物体の位置を判定する。すなわち、物体位置判定手段５１は、撮影画像内に個々の物体が存在し得る候補位置を設定して当該候補位置の撮影画像に単独の物体の画像特徴（単体特徴）が現れている度合いを表す評価値を算出し、評価値が所定値以上である候補位置を物体の位置と判定する。例えば、単体特徴は人の形状であり、単体特徴記憶手段４１が予め単体特徴を記憶している。また例えば、評価値は撮影画像のエッジと人の形状を表すモデルとの類似度である。

ここで、混雑が生じ得る空間が撮影された撮影画像においては、混雑によって人と人の間で生じる隠蔽が単体特徴の一部を隠し、それによって評価値が下がれば個々の人を検出し損ねる。撮影部２が俯瞰設置されている場合は、足元に近いほど隠蔽は発生しやすく、頭に近いほど隠蔽は発生しにくい。このことを考慮し、混雑に適応させるべく単体特徴を人の頭部だけにすると混雑時の検出し損ねは減少する。しかし、頭部だけの単体特徴は肩などに対しても比較的高い評価値が算出されてしまうため、混雑していないときの誤検出が増加する。

物体位置判定手段５１は、密度分布を参照することによって、このような評価する部分の多寡と個々の物体の検出精度との間に存在するトレードオフを解消する。すなわち、物体位置判定手段５１は、候補位置における密度に応じ、単独の物体を構成する部分のうちの重視する部分を変更して評価値を算出する。特に、物体位置判定手段５１は、候補位置における密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視して評価値を算出する。例えば、物体位置判定手段５１は、候補位置の推定密度が低密度であれば全身を均等に評価して評価値を算出し、中密度であれば上半身を重視して評価値を算出し、高密度であれば頭部近傍を重視して評価値を算出する。

以下、個々の物体の検出と単体特徴について説明する。

単体特徴記憶手段４１は、単独の人（物体）の形状を模した物体モデルの情報を予め記憶した物体モデル記憶手段４１０ａとして機能し、物体モデルの情報を単体特徴として記憶している。

図４は、単体特徴記憶手段４１が記憶している単体特徴、すなわち物体モデル記憶手段４１０ａが記憶している物体モデルの情報を模式的に表した図である。

物体モデル記憶手段４１０ａが記憶している物体モデルは、具体的には立位の人の頭部、胴部、脚部に対応する３つの回転楕円体から構成される立体モデル７００である。なお頭部重心を人の代表位置とする。さらに物体モデル記憶手段４１０ａは、立体モデル７００と併せて、密度ごとの評価範囲７０２を記憶し、また立体モデル７００を撮影画像の座標系に投影するために撮影部２のカメラパラメータ７０１を記憶している。カメラパラメータ７０１は、実際の監視空間における撮影部２の設置位置及び撮像方向といった外部パラメータ、撮影部２の焦点距離、画角、レンズ歪みその他のレンズ特性や、撮像素子の画素数といった内部パラメータを含む情報である。

評価範囲７０２は密度が高いほど単独の物体を構成する部分のうちの少ない部分となっている。具体的には物体モデル記憶手段４１０ａは、低密度クラスを表す値と対応付けて「全体」、中密度クラスを表す値と対応付けて「上部２／３」、高密度クラスを表す値と対応付けて「上部１／３」という設定を記憶している。以下、全体という評価範囲と立体モデル７００との組み合わせによって表される低密度用の物体モデル７１０を全身モデル、上部２／３という評価範囲と立体モデル７００との組み合わせによって表される中密度用の物体モデル７１１を上半身モデル、上部１／３という評価範囲と立体モデル７００との組み合わせによって表される高密度用の物体モデル７１２を頭部近傍モデルと称する。

このように、物体モデル記憶手段４１０ａは、低密度クラスと対応付けて全身モデル７１０を、中密度クラスと対応付けて上半身モデル７１１を、高密度クラスと対応付けて頭部近傍モデル７１２を、カメラパラメータ７０１ととともに物体モデルの情報として記憶している。

配置生成手段５１０ａは、それぞれが１以上の候補位置を含む互いに異なる複数通りの配置を生成し、生成した各配置をモデル画像生成手段５１２ａに出力する。

そのために、配置生成手段５１０ａは、乱数に基づき撮影画像の画素のうちの推定密度が低密度、中密度または高密度である画素の中から１個以上上限個数以下の個数（配置数）の画素をランダムに決定し、決定した各画素の位置を候補位置とすることで配置を生成する。配置生成手段５１０ａは、この生成を、配置数を順次増加させながら配置数ごとに予め定めた回数ずつ反復することによって、互いに異なる複数通りの配置を生成する。なお、配置数の上限個数は監視空間に存在し得る物体の数の上限とすることができ、例えば監視空間を模した仮想空間中に立位の人の立体モデルを重ならずに配置可能な数として算出できる。

モデル画像生成手段５１２ａは、配置生成手段５１０ａから入力された複数通りの配置それぞれについて、各候補位置に、当該候補位置における密度が高いほど、単独の物体を構成する部分のうちの少ない部分を模した物体モデルを描画してモデル画像を生成し、生成した各モデル画像を評価値算出手段５１４ａに出力する。

そのために、モデル画像生成手段５１２ａは、物体モデル記憶手段４１０ａからカメラパラメータを読み出し、配置ごとに、カメラパラメータを用いて、各候補位置を立体モデルの頭部重心の高さ（例えば１．５ｍ）の水平面に逆投影することで、当該候補位置に投影される立体モデルの、監視空間を模した仮想空間内における代表位置を算出する。

また、モデル画像生成手段５１２ａは、物体モデル記憶手段４１０ａから頭部近傍モデルを読み出して各候補位置と対応する仮想空間内の代表位置に頭部近傍モデルを配置し、カメラパラメータを用いて頭部近傍モデルを撮影画像の座標系に投影する。そして、モデル画像生成手段５１２ａは、密度推定手段５０から入力された密度分布を参照して各候補位置に対応する頭部近傍モデルの投影領域内の推定密度を集計し、各候補位置における最多の推定密度（ただし背景クラスは除く）を当該候補位置の密度と決定する。

また、モデル画像生成手段５１２ａは、候補位置ごとに当該候補位置の密度に応じた物体モデルを物体モデル記憶手段４１０ａから読み出す。具体的には、モデル画像生成手段５１２ａは、候補位置の密度が低密度であれば全身モデルを読み出し、中密度であれば上半身モデルを読み出し、高密度であれば頭部近傍モデルを読み出す。そして、モデル画像生成手段５１２ａは、各配置について、各候補位置に対応して読み出した物体モデルを当該候補位置と対応する仮想空間内の代表位置に配置し、カメラパラメータを用いて各全身モデルの形状を撮影画像の座標系に投影することによって、配置ごとのモデル画像を生成する。
なお、モデル画像生成手段５１２ａは、撮影部２からの距離が遠い代表位置に配置した物体モデルから順に投影し、投影領域を上書きすることによって、物体モデル間の隠蔽を表現したモデル画像を生成する。

また、モデル画像生成手段５１２ａは、配置ごとに、モデル画像における物体モデルどうしの重なり度合いを表す隠蔽度を次式に従って算出する。
隠蔽度＝モデル間の重複領域の面積／モデルの投影領域の和領域の面積（１）

そして、モデル画像生成手段５１２ａは、配置とモデル画像と隠蔽度を対応付けて評価値算出手段５１４ａに出力する。

図５は、第一の実施形態に係る密度推定手段５０、配置生成手段５１０ａおよびモデル画像生成手段５１２ａによる処理例を模式的に示した図である。
画像７２０は、密度推定手段５０が推定した密度分布を画像化したものである。当該密度分布においては、白抜き部は推定密度が背景である領域、横線部は推定密度が低密度である領域、斜線部は推定密度が中密度である領域、格子部は推定密度が高密度である領域をそれぞれ示している。
画像７２１は、配置生成手段５１０ａが生成した配置に含まれる８個の候補位置を撮影画像の座標系に×印でプロットしたものである。
３次元モデル７２２は、モデル画像生成手段５１２ａが画像７２１に示した８個の候補位置と対応する仮想空間内の代表位置に立体モデルを配置した様子を図示したものである。
画像７２３は、モデル画像生成手段５１２ａが、画像７２０で示した密度分布に基づいて各候補位置の密度を特定し、当該密度に応じた評価範囲の立体モデルを各候補位置に投影して作成したモデル画像を示している。

評価値算出手段５１４ａは、複数通りの配置それぞれについて、モデル画像生成手段５１２ａから入力されたモデル画像の撮影画像に対する類似の度合いを表す評価値を算出し、配置ごとの評価値を最適配置決定手段５１６ａに出力する。

具体的には、評価値算出手段５１４ａは、各モデル画像と撮影画像の類似度を次式に従って算出する。
類似度＝形状適合度 − Ｗ_Ｈａ×隠蔽度（２）
ただし、Ｗ_Ｈａは０より大きな重み係数であり、事前の実験に基づいて予め設定される。形状適合度から減じる隠蔽度は過剰な物体モデルの重なりを抑制するためのペナルティ値である。このように隠蔽度を含めた類似度に基づいて最適配置を決定することで、本来の物体数以上の物体モデルが当てはまることによる物体位置の誤検出を防止できる。

形状適合度は、モデル画像と撮影画像とのエッジの類似度とすることができる。評価値算出手段５１４ａは、各モデル画像と撮影画像のそれぞれからエッジを抽出し、各モデル画像について、モデル画像から有効なエッジが抽出された画素ごとに、対応する撮影画像の画素のエッジとの差の絶対値を算出して総和し、総和値をモデル画像からエッジが抽出された画素数で除して符号を反転した値を、当該モデル画像の形状適合度として算出する。

或いは、評価値算出手段５１４ａは、各モデル画像と撮影画像のそれぞれからエッジ画像を生成し、各モデル画像について、撮影画像から生成したエッジ画像と当該モデル画像から生成したエッジ画像とのチャンファーマッチング（Chamfer Matching）を行って得られるチャンファー距離の符号を反転した値を、当該モデル画像の形状適合度として算出する。

最適配置決定手段５１６ａは、評価値算出手段５１４ａから入力された配置ごとの評価値を参照し、評価値が最大の配置における候補位置を物体の位置と決定し、決定した物体位置の情報を物体位置出力手段３１に出力する。すなわち、最適配置決定手段５１６ａは、最大の類似度が算出された配置に含まれる各候補位置を撮影画像に撮影されている各人の位置と決定する。
例えば、最適配置決定手段５１６ａは、監視員が視認し易いよう、各物体位置に物体モデルを当該物体位置の密度に応じて色分けして描画して物体位置の情報を生成し、出力する。または、物体位置の情報は物体位置の座標値そのものとすることもでき、物体位置の情報は、描画した各物体モデルの、他の物体モデルと重複していない領域とすることもできる。或いは、物体位置の情報は、上述したデータのうちの２以上を含んだデータとしてもよい。

物体位置出力手段３１は物体位置判定手段５１から入力された物体位置の情報を表示部６に順次出力し、表示部６は物体位置出力手段３１から入力された物体位置の情報を表示する。例えば、物体位置の情報は、インターネット経由で送受信され、表示部６に表示される。監視員は、表示された情報を視認することによって監視空間に混雑が発生している地点を把握し、当該地点に警備員を派遣し或いは増員するなどの対処を行う。

＜第一の実施形態に係る画像監視装置１の動作＞
図６、図７および図８のフローチャートを参照して画像監視装置１の動作を説明する。

画像監視装置１が動作を開始すると、イベント会場に設置されている撮影部２は所定時間おきに監視空間を撮影して撮影画像を画像処理部５が設置されている画像解析センター宛に順次送信する。そして、画像処理部５は撮影画像を受信するたびに図６のフローチャートに従った動作を繰り返す。

まず、通信部３は画像取得手段３０として動作し、撮影部２からの撮影画像の受信待ち状態となる。撮影画像を取得した画像取得手段３０は当該撮影画像を画像処理部５に出力する（ステップＳ１）。

撮影画像を入力された画像処理部５は密度推定手段５０として動作し、撮影画像から密度分布を推定する（ステップＳ２）。密度推定手段５０は、撮影画像の各画素の位置にて推定用特徴量を抽出するとともに記憶部４の密度推定器記憶手段４０から密度推定器を読み出し、各推定用特徴量を密度推定器に入力して撮影画像の各画素における推定密度を取得することにより密度分布を推定する。

密度分布を推定した画像処理部５は物体位置判定手段５１としても動作し、物体位置判定手段５１には画像取得手段３０から撮影画像が入力されるとともに密度推定手段５０から密度分布が入力される。これらを入力された物体位置判定手段５１は、密度分布に背景クラス以外の推定密度が含まれているか否かを確認する（ステップＳ３）。

背景クラス以外の推定密度が含まれている場合は（ステップＳ３にてＹＥＳ）、物体位置判定手段５１は、少なくとも１人以上の人が撮影されているとして、撮影画像から個々の物体の位置を判定する処理を行う（ステップＳ４）。他方、背景クラスのみの場合は（ステップＳ３にてＮＯ）、人が撮影されていないとして、ステップＳ４，Ｓ５の処理を省略する。

図７および図８のフローチャートを参照して、ステップＳ４の物体位置判定処理を説明する。単体特徴記憶手段４１が物体モデル記憶手段４１０ａとして動作し、物体位置判定手段５１が配置生成手段５１０ａ、モデル画像生成手段５１２ａ、評価値算出手段５１４ａおよび最適配置決定手段５１６ａとして動作して、物体位置判定処理が実行される。

配置生成手段５１０ａは、１から上限個数以下の範囲で配置数を順次設定して（ステップＳ１００）、ステップＳ１００〜Ｓ１１４のループ処理を制御する。

また、配置生成手段５１０ａは、反復回数をカウントするための変数Ｔを用意してＴを０に初期化し（ステップＳ１０１）、ステップＳ１０２〜Ｓ１１３の反復処理を開始する。

次に、配置生成手段５１０ａは、密度推定手段５０から入力された密度分布において推定密度が低密度、中密度または高密度の領域内に、ステップＳ１００にて設定した配置数と同数の候補位置をランダムに設定することによって、当該配置数におけるＴ通り目の配置を生成し、モデル画像生成手段５１２ａに出力する（ステップＳ１０２）。

モデル画像生成手段５１２ａは、物体モデル記憶手段４１０ａからカメラパラメータを読み出し、カメラパラメータを用いて、ステップＳ１０２で生成した配置に含まれる各候補位置を仮想空間の三次元座標に変換する（ステップＳ１０３）。

次に、モデル画像生成手段５１２ａは、撮影画像と同サイズのモデル画像を用意して初期化するとともに、各候補位置の三次元座標の撮影部２までの距離を算出し、距離が遠い候補位置から順に処理対象に設定して（ステップＳ１０４）、ステップＳ１０４〜Ｓ１０８のループ処理を実行する。

続いて、モデル画像生成手段５１２ａは密度分布を参照して処理対象の候補位置の密度を特定する（ステップＳ１０５）。モデル画像生成手段５１２ａは、物体モデル記憶手段４１０ａから頭部近傍モデルを読み出して当該候補位置の三次元座標に配置し、カメラパラメータを用いて頭部近傍モデルを撮影画像の座標系に投影し、投影領域内で最多の推定密度（ただし背景クラス以外）を候補位置の密度として特定する。

続いて、モデル画像生成手段５１２ａは、ステップＳ１０５で特定した密度に対応する物体モデルを物体モデル記憶手段４１０ａから読み出して（ステップＳ１０６）、処理対象の候補位置の三次元座標に配置し、カメラパラメータを用いて、配置した物体モデルをモデル画像に上書き投影する（ステップＳ１０７）。また、このとき、モデル画像生成手段５１２ａは物体モデルの投影面積を記録しておく。

そして、モデル画像生成手段５１２ａは、現配置数におけるＴ通り目の配置に含まれる全ての候補位置を処理し終えたか否かを確認し（ステップＳ１０８）、未処理の候補位置がある場合は（ステップＳ１０８にてＮＯ）、処理をステップＳ１０４に戻して次の候補位置を処理する。

他方、全ての候補位置を処理し終えた場合は（ステップＳ１０８にてＹＥＳ）、現配置数におけるＴ通り目の配置についてのモデル画像の完成となる。モデル画像を完成させたモデル画像生成手段５１２ａは当該モデル画像における物体モデルの隠蔽度を算出する（ステップＳ１０９）。すなわち、モデル画像生成手段５１２ａは、「モデルの投影領域の和領域の面積」であるモデル画像上の投影領域の面積を求めるとともに、ステップＳ１０７で記録していた物体モデルごとの投影面積を総和し、総和値からモデルの投影領域の和領域の面積を差し引いて「モデル間の重複領域の面積」を求め、これらを式（１）に代入して隠蔽度を算出する。
隠蔽度を算出したモデル画像生成手段５１２ａはモデル画像と隠蔽度を評価値算出手段５１４ａに出力する。

モデル画像と隠蔽度を入力された評価値算出手段５１４ａは、当該モデル画像と撮影画像の形状適合度を算出し（ステップＳ１１０）、さらに、当該形状適合度と隠蔽度から、モデル画像と撮影画像の類似度を現配置数におけるＴ通り目の配置についての評価値として算出する（ステップＳ１１１）。すなわち、評価値算出手段５１４ａは、モデル画像生成手段５１２ａから入力されたモデル画像と撮影画像のそれぞれからエッジ画像を生成し、これらのエッジ画像の類似度を形状適合度として算出する。そして、形状適合度と隠蔽度を式（２）に代入して類似度を算出する。

現配置数におけるＴ通り目の配置についての評価値が算出されると、評価値算出手段５１４ａは当該配置と評価値を対応付けて記録し、配置生成手段５１０ａは反復回数Ｔを１だけ増加させて（ステップＳ１１２）、規定回数Ｔ_ＭＡＸと比較し（ステップＳ１１３）、ＴがＴ_ＭＡＸ未満の場合は（ステップＳ１１３にてＮＯ）、処理をステップＳ１０２に戻して現配置数における反復処理を継続させる。

反復回数Ｔが規定回数Ｔ_ＭＡＸに達した場合（ステップＳ１１３にてＹＥＳ）、配置生成手段５１０ａは、現配置数における反復処理を終了させ、全ての配置数を設定し終えたか否かを確認する（ステップＳ１１４）。未設定の配置数がある場合は（ステップＳ１１４にてＮＯ）、処理をステップＳ１００に戻して次の配置数についての処理を行う。

他方、全ての配置数を設定し終えた場合は（ステップＳ１１４にてＹＥＳ）、評価値算出手段５１４ａはステップＳ１１２で記録した配置と評価値を最適配置決定手段５１６ａに入力し、最適配置決定手段５１６ａは、それらの中で評価値が最大の配置を特定し（ステップＳ１１５）、当該配置を撮影画像に撮影されている個々の人の位置を表している情報と判定する。

再び図６を参照して説明を続ける。物体位置判定手段５１はステップＳ４にて判定した個々の人の位置（物体位置）の情報を通信部３に出力する（ステップＳ５）。物体位置の情報を入力された通信部３は物体位置出力手段３１として動作し、物体位置の情報を表示部６に送信する。

以上の処理を終えると、処理はステップＳ１に戻され、次の撮影画像に対する処理が行われる。

［第二の実施形態］
以下、第一の実施形態とは異なる本発明の好適な実施形態として、人の密度によって物体モデルに対する重み付けを変更する物体検出装置の例を含んだ画像監視装置１の例を説明する。

第二の実施形態に係る画像監視装置は、単体特徴記憶手段４１が記憶している単体特徴の細部および物体位置判定手段５１が行う処理の細部が第一の実施形態に係る画像監視装置と異なり、概略の構成、概略の機能および動作の一部は共通する。そのため、概略の構成、概略の機能および動作の一部については、それぞれ第一の実施形態で参照した図１のブロック図、図２の機能ブロック図および図６のフローチャートを再び参照して説明する。

＜第二の実施形態に係る画像監視装置１の構成＞
図１のブロック図を参照して第二の実施形態に係る画像監視装置１の概略の構成を説明する。
画像監視装置１は、第一の実施形態と同様、監視空間を所定時間おきに撮影して撮影画像を出力する撮影部２と、物体位置の情報を入力されて当該情報を表示する表示部６と、撮影画像を取得して当該撮影画像から個々の人（物体）を検出し、検出した物体の位置（物体位置）の情報を生成して出力する画像処理部５とが、撮影画像および物体位置の情報等の入出力を介在する通信部３に接続されるとともに、プログラムおよび各種データ等を記憶してこれらを入出力する記憶部４が画像処理部５に接続されてなる。

＜第二の実施形態に係る画像監視装置１の機能＞
図２および図９の機能ブロック図を参照し、第二の実施形態に係る画像監視装置１の機能について説明する。

通信部３は、第一の実施形態と同様、撮影部２から撮影画像を取得して密度推定手段５０と物体位置判定手段５１に出力する画像取得手段３０、および物体位置判定手段５１から入力された物体位置の情報を表示部６に出力する物体位置出力手段３１等としての機能を含む。

また、記憶部４は、第一の実施形態と同様、所定の密度ごとに当該密度にて物体が存在する空間を撮影した密度画像それぞれの画像特徴を学習した密度推定器を記憶している密度推定器記憶手段４０、および予め単独の物体の画像特徴（単体特徴）を記憶している単体特徴記憶手段４１等としての機能を含み、単体特徴記憶手段４１が記憶している単体特徴は、密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視した評価ができるものとなっている。

また、画像処理部５は、第一の実施形態と同様、撮影画像を密度推定器で走査することによって撮影画像に撮影された物体の密度の分布を推定し、推定した密度分布を物体位置判定手段５１に出力する密度推定手段５０、および撮影画像内に個々の物体が存在し得る候補位置を設定して当該候補位置の撮影画像に単独の物体の画像特徴が現れている度合いを表す評価値を算出し、評価値が所定値以上である候補位置を物体の位置と判定し、物体位置の情報を物体位置出力手段３１に出力する物体位置判定手段５１等としての機能を含み、物体位置判定手段５１は、候補位置の密度に応じた単体特徴を用いることによって、候補位置における密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視して評価値を算出する。

ただし、上述したように、第二の実施形態に係る物体位置判定手段５１が行う処理の細部および単体特徴記憶手段４１が記憶している単体特徴の細部が第一の実施形態に係る画像監視装置１と異なる。これらの点について、図９の機能ブロック図を参照して説明する。

第二の実施形態に係る単体特徴記憶手段４１は、単独の人（物体）の形状を模した物体モデルの情報を予め記憶した物体モデル記憶手段４１０ｂ、および評価値の算出において用いる重み係数を予め記憶した重み係数記憶手段４１２ｂとして機能し、物体モデルの情報および重み係数の情報を単体特徴として記憶している。

図１０は、第二の実施形態に係る単体特徴記憶手段４１が記憶している単体特徴、すなわち物体モデル記憶手段４１０ｂが記憶している物体モデルの情報および重み係数記憶手段４１２ｂが記憶している重み係数の情報を模式的に表した図である。

物体モデル記憶手段４１０ｂが記憶している物体モデルは立位の人の頭部、胴部、脚部に対応する３つの回転楕円体から構成される立体モデル７５０である。この立体モデル７５０は人の全身の形状を表す物体モデルとなっており、以下、全身モデルと称する。なお頭部重心を人の代表位置とする。そしてさらに物体モデル記憶手段４１０ｂは、この全身モデルを撮影画像の座標系に投影するために撮影部２のカメラパラメータ７５１を全身モデルと併せて記憶している。

重み係数は密度が高いほど単独の物体を構成する部分のうちの少ない部分に偏重させた設定となっている。重み係数記憶手段４１２ｂは、低密度クラスを表す値と対応付けて「上部１／３に適用する重み係数０．３３３」「中部１／３に適用する重み係数０．３３３」「下部１／３に適用する重み係数０．３３３」、中密度クラスを表す値と対応付けて「上部１／３に適用する重み係数０．５００」「中部１／３に適用する重み係数０．４００」「下部１／３に適用する重み係数０．１００」、高密度クラスを表す値と対応付けて「上部１／３に適用する重み係数０．７００」「中部１／３に適用する重み係数０．２００」「下部１／３に適用する重み係数０．１００」を記憶している。以下、全身に均等な低密度用の重み係数７６０を全身均等重み係数、上半身を重視した中密度用の重み係数７６１を上半身偏重重み係数、頭部近傍を重視した高密度用の重み係数７６２を頭部近傍偏重重み係数と称する。

このように、物体モデル記憶手段４１０ｂは全身モデルとカメラパラメータとを物体モデルの情報として記憶しており、重み係数記憶手段４１２ｂは低密度クラスと対応付けて全身均等重み係数７６０を、中密度クラスと対応付けて上半身偏重重み係数７６１を、高密度クラスと対応付けて頭部近傍偏重重み係数７６２を記憶している。

配置生成手段５１０ｂは、第一の実施形態において説明した配置生成手段５１０ａと同様にして、それぞれが１以上の候補位置を含む互いに異なる複数通りの配置を生成する。そして、配置生成手段５１０ｂは、生成した各配置をモデル画像生成手段５１２ｂに出力する。

モデル画像生成手段５１２ｂは、配置生成手段５１０ｂから入力された複数通りの配置のそれぞれについて、各候補位置に単独の物体を模した物体モデルを描画してモデル画像を生成し、生成した各モデル画像を評価値算出手段５１４ｂに出力する。

そのために、モデル画像生成手段５１２ｂは、物体モデル記憶手段４１０ｂからカメラパラメータを読み出し、配置ごとに、カメラパラメータを用いて、各候補位置を立体モデルの頭部重心の高さの水平面に逆投影することで、当該候補位置に投影される立体モデルの、監視空間を模した仮想空間内における代表位置を算出する。

また、モデル画像生成手段５１２ｂは、物体モデル記憶手段４１０ｂから全身モデルを読み出し、各候補位置と対応する仮想空間内の代表位置に全身モデルを配置し、カメラパラメータを用いて全身モデルを撮影画像の座標系に投影する。そして、モデル画像生成手段５１２ｂは、密度推定手段５０から入力された密度分布を参照して各候補位置に対応する全身モデルの投影領域における上部１／３の領域内の推定密度を集計し、各候補位置における最多の推定密度（ただし背景クラス以外）を当該候補位置の密度と決定する。

また、モデル画像生成手段５１２ｂは、候補位置ごとに当該候補位置の密度に応じた物体モデルを重み係数記憶手段４１２ｂから読み出す。すなわち、モデル画像生成手段５１２ｂは、候補位置の密度が低密度であれば全身均等重み係数を読み出し、中密度であれば上半身偏重重み係数を読み出し、高密度であれば頭部近傍偏重重み係数を読み出す。

また、モデル画像生成手段５１２ｂは、各配置について、各候補位置と対応する仮想空間内の代表位置に全身モデルを配置し、カメラパラメータを用いて各全身モデルの形状を撮影画像の座標系に投影することによって、配置ごとのモデル画像を生成する。
なお、モデル画像生成手段５１２ｂは、撮影部２からの距離が遠い代表位置に配置した物体モデルから順に投影し、投影領域を上書きすることによって、物体モデル間の隠蔽を表現したモデル画像とする。

また、モデル画像生成手段５１２ｂは、各モデル画像と対応して、当該モデル画像における各候補位置の全身モデルの投影領域に当該候補位置の密度に応じた重み係数を設定した重み画像を生成する。すなわち、重み画像中の密度が低密度である候補位置の投影領域においては、上部１／３の領域の画素に０．３３３、中部１／３の領域の画素に０．３３３、下部１／３の領域の画素に０．３３３がそれぞれ設定される。重み画像中の密度が中密度である候補位置の投影領域においては、上部１／３の領域の画素に０．５００、中部１／３の領域の画素に０．４００、下部１／３の領域の画素に０．１００がそれぞれ設定される。重み画像中の密度が高密度である候補位置の投影領域においては、上部１／３の領域の画素に０．７００、中部１／３の領域の画素に０．２００、下部１／３の領域の画素に０．１００がそれぞれ設定される。

そして、モデル画像生成手段５１２ｂは、配置ごとに、配置とモデル画像と重み画像とを対応付けて評価値算出手段５１４ｂに出力する。

図１１は、図５で例示した密度分布および配置に対して、モデル画像生成手段５１２ｂが生成したモデル画像７７０と重み画像７７１を模式的に示した図である。なお、重み画像７７１においてはスペースの都合上、重み係数の値を有効数字１桁で示している。

評価値算出手段５１４ｂは、モデル画像生成手段５１２ｂから入力された複数通りの配置のモデル画像それぞれについて、物体を構成する部分ごとに物体モデルの撮影画像に対する類似度を求め、候補位置における密度が高いほど少ない部分に偏重させた重み付けを行って類似度を総和することにより評価値を算出し、配置ごとの評価値を最適配置決定手段５１６ｂに出力する。

具体的には、評価値算出手段５１４ｂは、各モデル画像と撮影画像の、当該モデル画像と対応する重み画像に従って重み付けた重み付け類似度を算出する。

重み付け類似度は、モデル画像と撮影画像とのエッジの重み付け類似度とすることができる。評価値算出手段５１４ｂは、各モデル画像と撮影画像のそれぞれからエッジを抽出し、各モデル画像について、モデル画像から有効なエッジが抽出された画素ごとに、対応する撮影画像の画素のエッジとの差の絶対値を算出して重み画像の当該画素に設定された重み係数にて重み付けて総和し、総和値をモデル画像からエッジが抽出された画素数で除して符号を反転した値を、当該モデル画像の重み付け類似度として算出する。

或いは、評価値算出手段５１４ｂは、各モデル画像と撮影画像のそれぞれからエッジ画像を生成し、各モデル画像について、撮影画像から生成したエッジ画像と当該モデル画像から生成したエッジ画像とのチャンファーマッチングを行って、その過程で算出される画素ごとの距離に重み画像に従った重み付けを行って得られるチャンファー距離の符号を反転した値を、当該モデル画像の重み付け類似度として算出してもよい。

最適配置決定手段５１６ｂは、評価値算出手段５１４ｂから入力された配置ごとの評価値を参照し、評価値が最大の配置における候補位置を物体の位置と決定し、決定した物体位置の情報を物体位置出力手段３１に出力する。すなわち、最適配置決定手段５１６ｂは、最大の類似度が算出された配置に含まれる各候補位置を撮影画像に撮影されている各人の位置と決定する。

＜第二の実施形態に係る画像監視装置１の動作＞
以下、図６、図１２および図１３を参照し、第二の実施形態に係る画像監視装置１の動作を説明する。

画像監視装置１が動作を開始すると、第一の実施形態と同様に、撮影部２は順次撮影画像を送信し、画像処理部５は撮影画像を受信するたびに図６のフローチャートに従った動作を繰り返す。

通信部３は画像取得手段３０として動作し、撮影画像を受信して画像処理部５に出力する（ステップＳ１）。撮影画像を入力された画像処理部５は密度推定手段５０として動作して記憶部４の密度推定器記憶手段４０から密度推定器を読み出し、撮影画像を密度推定器にて走査することによって密度分布を推定する（ステップＳ２）。

次に、画像処理部５は物体位置判定手段５１として動作し、物体位置判定手段５１は、画像取得手段３０から撮影画像および密度推定手段５０から密度分布を入力されて、密度分布に背景クラス以外の推定密度が含まれているか否かを確認する（ステップＳ３）。

物体位置判定手段５１は、背景クラス以外の推定密度が含まれている場合は（ステップＳ３にてＹＥＳ）、撮影画像から個々の物体の位置を判定する処理を行い（ステップＳ４）、背景クラスのみの場合は（ステップＳ３にてＮＯ）、ステップＳ４，Ｓ５の処理を省略する。

図１２および図１３のフローチャートを参照して、ステップＳ４の物体位置判定処理を説明する。単体特徴記憶手段４１が物体モデル記憶手段４１０ｂおよび重み係数記憶手段４１２ｂとして動作し、物体位置判定手段５１が配置生成手段５１０ｂ、モデル画像生成手段５１２ｂ、評価値算出手段５１４ｂおよび最適配置決定手段５１６ｂとして動作して、物体位置判定処理が実行される。

配置生成手段５１０ｂは、１から上限個数以下の範囲で配置数を順次設定して（ステップＳ２００）、ステップＳ２００〜Ｓ２１４のループ処理を制御する。

また、配置生成手段５１０ｂは、反復回数をカウントするための変数Ｔを用意してＴを０に初期化し（ステップＳ２０１）、ステップＳ２０２〜Ｓ２１３の反復処理を開始する。

次に、配置生成手段５１０ｂは、密度推定手段５０から入力された密度分布において推定密度が低密度、中密度または高密度の領域内に、ステップＳ２００にて設定した配置数と同数の候補位置をランダムに設定することによって、当該配置数におけるＴ通り目の配置を生成し、モデル画像生成手段５１２ｂに出力する（ステップＳ２０２）。

モデル画像生成手段５１２ｂは、物体モデル記憶手段４１０ｂからカメラパラメータを読み出し、カメラパラメータを用いて、ステップＳ２０２で生成した配置に含まれる各候補位置を仮想空間の三次元座標に変換する（ステップＳ２０３）。

次に、モデル画像生成手段５１２ｂは、撮影画像と同サイズのモデル画像および重み画像を用意して初期化するとともに、各候補位置の三次元座標の撮影部２までの距離を算出し、距離が遠い候補位置から順に処理対象に設定して（ステップＳ２０４）、ステップＳ２０４〜Ｓ２０８のループ処理を実行する。

続いて、モデル画像生成手段５１２ｂは密度分布を参照して処理対象の候補位置の密度を特定する（ステップＳ２０５）。モデル画像生成手段５１２ｂは、物体モデル記憶手段４１０ｂから全身モデルを読み出して当該候補位置の三次元座標に配置し、カメラパラメータを用いて、配置した全身モデルを撮影画像の座標系に投影する。そして、モデル画像生成手段５１２ｂは、投影領域の上部１／３の領域内で最多の推定密度を当該候補位置の密度として特定する。

続いて、モデル画像生成手段５１２ｂは、ステップＳ２０５で特定した密度に対応する重み係数を重み係数記憶手段４１２ｂから読み出し（ステップＳ２０６）、全身モデルと重み係数を投影する（ステップＳ２０７）。すなわち、モデル画像生成手段５１２ｂは、まず、カメラパラメータを用いて、ステップＳ２０５で配置した全身モデルをモデル画像に上書き投影する。また、このとき、モデル画像生成手段５１２ｂは物体モデルの投影面積を記録しておく。さらに、モデル画像生成手段５１２ｂは、読み出した重み係数を全身モデルの各部分に設定し、カメラパラメータを用いて、重み係数を設定した全身モデルを重み画像に上書き投影する。

そして、モデル画像生成手段５１２ｂは、現配置数におけるＴ通り目の配置に含まれる全ての候補位置を処理し終えたか否かを確認し（ステップＳ２０８）、未処理の候補位置がある場合は（ステップＳ２０８にてＮＯ）、処理をステップＳ２０４に戻して次の候補位置を処理する。

他方、全ての候補位置を処理し終えた場合は（ステップＳ２０８にてＹＥＳ）、現配置数におけるＴ通り目の配置についてのモデル画像および重み画像の完成となる。モデル画像を完成させたモデル画像生成手段５１２ｂはモデル画像と重み画像を評価値算出手段５１４ｂに出力する。

モデル画像と重み画像を入力された評価値算出手段５１４ｂは、当該重み画像に従って重み付けた当該モデル画像と撮影画像の重み付け類似度を現配置数におけるＴ通り目の配置についての評価値として算出する（ステップＳ２１０）。すなわち、評価値算出手段５１４ｂは、モデル画像生成手段５１２ｂから入力されたモデル画像と撮影画像のそれぞれからエッジ画像を生成し、これらのエッジ画像の画素ごとの類似度を当該画素の重み係数で重み付けて総和した重み付け類似度として算出する。

現配置数におけるＴ通り目の配置についての評価値が算出されると、評価値算出手段５１４ｂは当該配置と評価値を対応付けて記録し、配置生成手段５１０ｂは反復回数Ｔを１だけ増加させて（ステップＳ２１２）、規定回数Ｔ_ＭＡＸと比較し（ステップＳ２１３）、ＴがＴ_ＭＡＸ未満の場合は（ステップＳ２１３にてＮＯ）、処理をステップＳ２０２に戻して現配置数における反復処理を継続させる。

反復回数Ｔが規定回数Ｔ_ＭＡＸに達した場合（ステップＳ２１３にてＹＥＳ）、配置生成手段５１０ｂは、現配置数における反復処理を終了させ、全ての配置数を設定し終えたか否かを確認する（ステップＳ２１４）。未設定の配置数がある場合は（ステップＳ２１４にてＮＯ）、処理をステップＳ２００に戻して次の配置数についての処理を行う。

他方、全ての配置数を設定し終えた場合は（ステップＳ２１４にてＹＥＳ）、評価値算出手段５１４ｂはステップＳ２１２で記録した配置と評価値を最適配置決定手段５１６ｂに入力し、最適配置決定手段５１６ｂは、それらの中で評価値が最大の配置を特定し（ステップＳ２１５）、当該配置を撮影画像に撮影されている個々の人の位置を表している情報と判定する。

再び図６を参照して説明を続ける。物体位置判定手段５１はステップＳ４にて判定した物体位置の情報を通信部３に出力し（ステップＳ５）、通信部３は物体位置出力手段３１として動作して物体位置の情報を表示部６に送信する。

［第三の実施形態］
以下、第一および第二の実施形態とは異なる本発明の好適な実施形態として、単独の人の画像特徴を学習した識別器を用いて個々の人を検出する物体検出装置の例を含んだ画像監視装置１の例を説明する。この実施形態に係る画像監視装置１は、特に、物体検出装置が人の密度によって識別器を切り替える例を含む。

第三の実施形態に係る画像監視装置は、単体特徴記憶手段４１が記憶している単体特徴の細部および物体位置判定手段５１が行う処理の細部が第一および第二の実施形態に係る画像監視装置と異なり、概略の構成、概略の機能および動作の一部は共通する。そのため、概略の構成、概略の機能および動作の一部については、それぞれ第一および第二の実施形態で参照した図１のブロック図、図２の機能ブロック図および図６のフローチャートを再び参照して説明する。

＜第三の実施形態に係る画像監視装置１の構成＞
図１のブロック図を参照して第三の実施形態に係る画像監視装置１の概略の構成を説明する。
画像監視装置１は、第一および第二の実施形態と同様、監視空間を所定時間おきに撮影して撮影画像を出力する撮影部２と、物体位置の情報を入力されて当該情報を表示する表示部６と、撮影画像を取得して当該撮影画像から個々の人（物体）を検出し、検出した物体の位置（物体位置）の情報を生成して出力する画像処理部５とが、撮影画像および物体位置の情報等の入出力を介在する通信回路である通信部３に接続されるとともに、プログラムおよび各種データ等を記憶してこれらを入出力する記憶部４が画像処理部５に接続されてなる。

＜第三の実施形態に係る画像監視装置１の機能＞
図２および図１４の機能ブロック図を参照し、第三の実施形態に係る画像監視装置１の機能について説明する。

通信部３は、第一および第二の実施形態と同様、撮影部２から撮影画像を取得して密度推定手段５０と物体位置判定手段５１に出力する画像取得手段３０、および物体位置判定手段５１から入力された物体位置の情報を表示部６に出力する物体位置出力手段３１等としての機能を含む。

記憶部４は、第一および第二の実施形態と同様、所定の密度ごとに当該密度にて物体が存在する空間を撮影した密度画像それぞれの画像特徴を学習した密度推定器を記憶している密度推定器記憶手段４０、および予めの学習により生成された単独の物体の画像特徴（単体特徴）を記憶している単体特徴記憶手段４１等としての機能を含み、単体特徴記憶手段４１が記憶している単体特徴は、密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視した評価ができるものとなっている。

また、画像処理部５は、第一および第二の実施形態と同様、撮影画像を密度推定器で走査することによって撮影画像に撮影された物体の密度の分布を推定し、推定した密度分布を物体位置判定手段５１に出力する密度推定手段５０、および撮影画像内に個々の物体が存在し得る候補位置を設定して当該候補位置の撮影画像に単独の物体の画像特徴が現れている度合いを表す評価値を算出し、評価値が所定値以上である候補位置を物体の位置と判定し、物体位置の情報を物体位置出力手段３１に出力する物体位置判定手段５１等としての機能を含み、物体位置判定手段５１は、候補位置の密度に応じた単体特徴を用いることによって、候補位置における密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視して評価値を算出する。

ただし、上述したように、第三の実施形態に係る物体位置判定手段５１が行う処理の細部および単体特徴記憶手段４１が記憶している単体特徴の細部が第一および第二の実施形態に係る画像監視装置１と異なる。これらの点について、図１４の機能ブロック図を参照して説明する。

第三の実施形態に係る単体特徴記憶手段４１は、単独の人（物体）の画像特徴を学習した識別器（単体識別器）を予め記憶した単体識別器記憶手段４１１ｃとして機能し、単体識別器の情報を単体特徴として記憶している。

図１５は、第三の実施形態に係る単体特徴記憶手段４１が記憶している単体特徴、すなわち単体識別器記憶手段４１１ｃが記憶している単体識別器の情報を模式的に表した図である。

単体識別器は、画像の特徴量を入力されると当該画像が単独の人が撮影されている画像（単体画像）であることの尤もらしさを表す評価値（識別スコア）を算出して出力する評価値算出関数の係数、および識別スコアに対して適用する閾値等のパラメータで表される。
単体識別器は多数の単体画像とそれぞれが人以外しか写っていない多数の無人画像からなる学習用画像の特徴量に線形ＳＶＭ法を適用して学習した識別器とすることができる。
学習アルゴリズムとして線形ＳＶＭを用いた場合、評価値算出関数の係数は重みベクトルである。この重みベクトルは、特徴量の各要素に対する重みであり、入力された画像の特徴量と重みベクトルとの内積の値が識別スコアを表す。学習において、当該重みベクトルと特徴量との内積が０より大きい場合は人、０以下の場合は人以外と識別されるように調整される。よって、入力された画像が単体画像であるか否かを識別する閾値は原理上は０であり、通常、閾値は０に設定することができる。ただし、単体画像を単体画像でないと識別する誤りを減じるために、閾値を０よりも小さな値に設定してもよい。
なお、学習用画像の特徴量はＨＯＧ（Histograms of Oriented Gradients）特徴量である。

単体識別器記憶手段４１１ｃが記憶している単体識別器は、密度が高いほど単独の物体を構成する部分のうちの少ない部分の画像特徴を学習した識別器となっている。単体識別器記憶手段４１１ｃは、低密度クラスを表す値と対応付けて単独の人の全身の画像特徴を学習した単体識別器８００、中密度クラスを表す値と対応付けて単独の人の上部２／３の画像特徴を学習した単体識別器８０１、高密度クラスを表す値と対応付けて単独の人の上部１／３の画像特徴を学習した単体識別器８０２を記憶している。以下、単体識別器８００，８０１，８０２をそれぞれ全身識別器、上半身識別器、頭部近傍識別器と称する。

全身識別器８００は単独の人の全身が撮影された単体画像を用いて学習した単体識別器であり、上半身識別器８０１は単独の人の上部２／３が撮影された単体画像（人の全身が撮影された単体画像の上部２／３を切り出した画像など）を用いて学習した単体識別器であり、頭部近傍識別器８０２は単独の人の上部１／３が撮影された単体画像（人の全身が撮影された単体画像の上部１／３を切り出した画像など）を用いて学習した単体識別器である。

このように、単体識別器記憶手段４１１ｃは、低密度クラスと対応付けて全身識別器８００を、中密度クラスと対応付けて上半身識別器８０１を、高密度クラスと対応付けて頭部近傍識別器８０２を記憶している。

候補位置設定手段５１１ｃは、撮影画像内に所定間隔にて複数の候補位置を設定し、設定した候補位置を評価値算出手段５１４ｃに出力する。具体的には、所定間隔は１画素であり、候補位置設定手段５１１ｃは撮影画像の各画素の位置を順次候補位置に設定する。なお候補位置は人の頭部重心を表すものとする。

評価値算出手段５１４ｃは、候補位置設定手段５１１ｃから入力された候補位置のそれぞれについて、当該候補位置の密度が高いほど単独の物体を構成する部分のうちの少ない部分の画像特徴を学習した単体識別器に、当該候補位置の撮影画像の画像特徴を入力して評価値を算出し、算出した評価値とそれに付随する情報を位置決定手段５１７ｃに出力する。

そのために、評価値算出手段５１４ｃは、各候補位置に単独の人の上部１／３の形状に定められた窓を設定するとともに密度推定手段５０から入力された密度分布を参照し、当該窓内の推定密度を集計する。当該窓は後述する識別用抽出窓である。そして、評価値算出手段５１４ｃは、各候補位置における最多の推定密度を当該候補位置の密度と決定する。

また、評価値算出手段５１４ｃは、各候補位置に当該候補位置の密度に応じた識別用抽出窓を設定し、識別用抽出窓内の撮影画像から単体識別用の特徴量（識別用特徴量）を抽出する。識別用抽出窓は、各密度に応じた単体識別器の学習に用いた単体画像の形状（図１５に示した実線の矩形）を有し、予め定めた複数の倍率で拡大・縮小した大きさの窓である。すなわち、識別用抽出窓は、候補位置の密度が低密度であれば単独の人の全身の形状に定められた窓であり、中密度であれば単独の人の上部２／３の形状に定められた窓であり、高密度であれば単独の人の上部１／３の形状に定められた窓である。

図１６は、図５で例示した密度分布が得られている場合に、図５で例示した各候補位置に評価値算出手段５１４ｃが設定する識別用抽出窓を模式的に示した図である。

また、評価値算出手段５１４ｃは、候補位置ごとに当該候補位置の密度に応じた単体識別器を単体識別器記憶手段４１１ｃから読み出す。すなわち、評価値算出手段５１４ｃは、候補位置の密度が低密度であれば全身識別器を読み出し、中密度であれば上半身識別器を読み出し、高密度であれば頭部近傍識別器を読み出す。そして、評価値算出手段５１４ｃは、各候補位置について、読み出した単体識別器に当該候補位置から抽出した識別用特徴量を入力し、その出力値である識別スコアを当該候補位置の評価値として取得する。

そして、評価値算出手段５１４ｃは、候補位置ごとに、候補位置、密度、識別スコア、使用した単体識別器の閾値および使用した識別用抽出窓を対応付けた情報を位置決定手段５１７ｃに出力する。

位置決定手段５１７ｃは、評価値算出手段５１４ｃから入力された情報を参照し、予め定めた基準を満たす評価値が算出された候補位置を物体の位置と決定する。

具体的には、位置決定手段５１７ｃは、識別スコアがそれに対応する閾値以上である候補位置を抽出し、抽出した候補位置のうち対応する密度が同一であり且つ互いに近接する複数の候補位置を一つにまとめ、まとめた候補位置を人が撮影されている位置と決定する。

この候補位置をまとめる処理は、実際に人が撮影されている位置に加えてその近傍においても同一人物に対して高い識別スコアが算出されることに対処するために行う。具体的には、例えば、位置決定手段５１７ｃは、密度ごとに、閾値以上の識別スコアが算出された候補位置を識別スコアが高い順に順次注目位置に設定するとともに注目位置より識別スコアが低い候補位置を比較位置に設定する。そして、位置決定手段５１７ｃは、比較位置のうち当該比較位置に設定された識別用抽出窓と注目位置に設定された識別用抽出窓との重なりが予め定めた割合より大きい比較位置の情報を削除することで複数の候補位置を一つにまとめる。

そして、位置決定手段５１７ｃは、人が撮影されている位置と決定した候補位置を物体位置の情報として物体位置出力手段３１に出力する。

＜第三の実施形態に係る画像監視装置１の動作＞
以下、図６および図１７を参照し、第三の実施形態に係る画像監視装置１の動作を説明する。

画像監視装置１が動作を開始すると、第一および第二の実施形態と同様に、撮影部２は順次撮影画像を送信し、画像処理部５は撮影画像を受信するたびに図６のフローチャートに従った動作を繰り返す。

物体位置判定手段５１は、背景クラス以外の推定密度が含まれている場合は（ステップＳ３にてＹＥＳ）、撮影画像から個々の物体の位置を判定する処理を行い（ステップＳ４）、背景クラスのみの場合は（ステップＳ３にてＮＯ）、ステップＳ４の処理を省略する。

図１７のフローチャートを参照して、ステップＳ４の物体位置判定処理を説明する。単体特徴記憶手段４１が単体識別器記憶手段４１１ｃとして動作し、物体位置判定手段５１が候補位置設定手段５１１ｃ、評価値算出手段５１４ｃおよび位置決定手段５１７ｃとして動作して、物体位置判定処理が実行される。

候補位置設定手段５１１ｃは、撮影画像中の各画素の位置を順次候補位置に設定して評価値算出手段５１４ｃに入力し（ステップＳ３００）、ステップＳ３００〜Ｓ３０４のループ処理を制御する。

候補位置を入力された評価値算出手段５１４ｃは密度分布を参照して候補位置の密度を特定する（ステップＳ３０１）。評価値算出手段５１４ｃは候補位置に単独の人の上部１／３の形状に定められた窓を設定して当該窓内で最多の推定密度を候補位置の密度として特定する。

密度を特定した評価値算出手段５１４ｃは、単体識別器記憶手段４１１ｃから当該密度に応じた単体識別器を読み出し、当該密度に応じた識別用抽出窓を設定して識別用抽出窓内の撮影画像から識別用特徴量を抽出し（ステップＳ３０２）、抽出した識別用特徴量を当該密度に応じた単体識別器に入力して識別スコア（評価値）を算出する（ステップＳ３０３）。

そして、評価値算出手段５１４ｃは、候補位置と識別用抽出窓と密度と評価値とを対応付けて記録するとともに、撮影画像の全ての画素の位置を候補位置に設定し終えたか否かを確認し（ステップＳ３０４）、未設定の画素がある場合は（ステップＳ３０４にてＮＯ）、処理をステップＳ３００に戻して次の画素の位置を処理する。

他方、全ての画素の位置を候補位置に設定し終えた場合（ステップＳ３０４にてＹＥＳ）、位置決定手段５１７ｃは、ステップＳ３０４で記録された候補位置と識別用抽出窓と密度と評価値の組の中から評価値が閾値未満の組を削除し（ステップＳ３０５）、さらに、削除されずに残った組について、密度ごとに、互いの識別用抽出窓が予め定めた割合よりも大きく重複している組を同一人物のものとして一つの組にまとめる（ステップＳ３０６）。そして位置決定手段５１７ｃはまとめた後の各組の候補位置を撮影画像に撮影されている個々の人の位置（物体位置）と判定する。

［第四の実施形態］
以下、第一、第二および第三の実施形態とは異なる本発明の好適な実施形態として、識別器が出力する部分評価値に対する重み付けを人の密度によって変更する物体検出装置の例を含んだ画像監視装置１の例を説明する。

第四の実施形態に係る画像監視装置は、単体特徴記憶手段４１が記憶している単体特徴の細部および物体位置判定手段５１が行う処理の細部が第一、第二および第三の実施形態に係る画像監視装置と異なり、概略の構成、概略の機能および動作の一部は共通する。そのため、概略の構成、概略の機能および動作の一部については、それぞれ第一、第二および第三の実施形態で参照した図１のブロック図、図２の機能ブロック図および図６のフローチャートを再び参照して説明する。

＜第四の実施形態に係る画像監視装置１の構成＞
図１のブロック図を参照して第四の実施形態に係る画像監視装置１の概略の構成を説明する。
画像監視装置１は、第一、第二および第三の実施形態と同様、監視空間を所定時間おきに撮影して撮影画像を出力する撮影部２と、物体位置の情報を入力されて当該情報を表示する表示部６と、撮影画像を取得して当該撮影画像から個々の人（物体）を検出し、検出した物体の位置（物体位置）の情報を生成して出力する画像処理部５とが、撮影画像および物体位置の情報等の入出力を介在する通信部３に接続されるとともに、プログラムおよび各種データ等を記憶してこれらを入出力する記憶部４が画像処理部５に接続されてなる。

＜第四の実施形態に係る画像監視装置１の機能＞
図２および図１８の機能ブロック図を参照し、第四の実施形態に係る画像監視装置１の機能について説明する。

通信部３は、第一、第二および第三の実施形態と同様、撮影部２から撮影画像を取得して密度推定手段５０と物体位置判定手段５１に出力する画像取得手段３０、および物体位置判定手段５１から入力された物体位置の情報を表示部６に出力する物体位置出力手段３１等としての機能を含む。

また、記憶部４は、第一、第二および第三の実施形態と同様、所定の密度ごとに当該密度にて物体が存在する空間を撮影した密度画像それぞれの画像特徴を学習した密度推定器を記憶している密度推定器記憶手段４０、および予めの学習により生成された単独の物体の画像特徴（単体特徴）を記憶している単体特徴記憶手段４１等としての機能を含み、単体特徴記憶手段４１が記憶している単体特徴は、密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視した評価ができるものとなっている。

また、画像処理部５は、第一、第二および第三の実施形態と同様、撮影画像を密度推定器で走査することによって撮影画像に撮影された物体の密度の分布を推定し、推定した密度分布を物体位置判定手段５１に出力する密度推定手段５０、および撮影画像内に個々の物体が存在し得る候補位置を設定して当該候補位置の撮影画像に単独の物体の画像特徴が現れている度合いを表す評価値を算出し、評価値が所定値以上である候補位置を物体の位置と判定し、物体位置の情報を物体位置出力手段３１に出力する物体位置判定手段５１等としての機能を含み、物体位置判定手段５１は、候補位置の密度に応じた単体特徴を用いることによって、候補位置における密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視して評価値を算出する。

ただし、上述したように、第四の実施形態に係る物体位置判定手段５１が行う処理の細部および単体特徴記憶手段４１が記憶している単体特徴の細部が第一、第二および第三の実施形態に係る画像監視装置１と異なる。これらの点について、図１８の機能ブロック図を参照して説明する。

第四の実施形態に係る単体特徴記憶手段４１は、単独の人（物体）の画像特徴を学習した識別器（単体識別器）を予め記憶した単体識別器記憶手段４１１ｄ、および評価値の算出において用いる重み係数を予め記憶した重み係数記憶手段４１２ｄとして機能し、単体識別器の情報および重み係数の情報を単体特徴として記憶している。

図１９は、第四の実施形態に係る単体特徴記憶手段４１が記憶している単体特徴、すなわち単体識別器記憶手段４１１ｄが記憶している単体識別器の情報および重み係数記憶手段４１２ｄが記憶している重み係数の情報を模式的に表した図である。

単体識別器は、第三の実施形態にて説明したように、画像の特徴量を入力されると当該画像が単体画像であることの尤もらしさを表す評価値（識別スコア）を算出して出力する評価値算出関数の係数、および識別スコアに対して適用する閾値等のパラメータで表され、多数の単体画像と多数の無人画像からなる学習用画像の特徴量に線形ＳＶＭ法を適用して学習した識別器とすることができる。学習用画像の特徴量はＨＯＧ特徴量とすることができる。

単体識別器記憶手段４１１ｄが記憶している単体識別器は、単独の物体を構成する複数の部分の画像特徴を学習した識別器となっている。具体的には、単体識別器記憶手段４１１ｄはそれぞれが互いに異なる部分の画像特徴を学習した３つの単体識別器を記憶している。すなわち、単体識別器記憶手段４１１ｄは、人の上部１／３の画像特徴を学習した単体識別器８５０と、人の中部１／３の画像特徴を学習した単体識別器８５１と、人の下部１／３の画像特徴を学習した単体識別器８５２とを記憶している。以下、上部１／３を識別する単体識別器８５０を上部識別器、中部１／３を識別する単体識別器８５１を中部識別器、下部１／３を識別する単体識別器８５２を下部識別器と称する。

重み係数は密度が高いほど単独の物体を構成する部分のうちの少ない部分に偏重させた設定となっている。重み係数記憶手段４１２ｄは、低密度クラスを表す値と対応付けて「上部１／３に適用する重み係数０．３３３」「中部１／３に適用する重み係数０．３３３」「下部１／３に適用する重み係数０．３３３」、中密度クラスを表す値と対応付けて「上部１／３に適用する重み係数０．５００」「中部１／３に適用する重み係数０．４００」「下部１／３に適用する重み係数０．１００」、高密度クラスを表す値と対応付けて「上部１／３に適用する重み係数０．７００」「中部１／３に適用する重み係数０．２００」「下部１／３に適用する重み係数０．１００」を記憶している。以下、全身に均等な低密度用の重み係数８６０を全身均等重み係数、上半身を重視した中密度用の重み係数８６１を上半身偏重重み係数、頭部近傍を重視した高密度用の重み係数８６２を頭部近傍偏重重み係数と称する。

このように、単体識別器記憶手段４１１ｄは上部識別器８５０、中部識別器８５１および下部識別器８５２を単体識別器の情報として記憶しており、重み係数記憶手段４１２ｄは低密度クラスと対応付けられた全身均等重み係数８６０、中密度クラスと対応付けられた上半身偏重重み係数８６１および高密度クラスと対応付けられた頭部近傍偏重重み係数８６２を記憶している。

候補位置設定手段５１１ｄは、撮影画像内に所定間隔にて複数の候補位置を設定し、設定した候補位置を評価値算出手段５１４ｄに出力する。具体的には、所定間隔は１画素であり、候補位置設定手段５１１ｄは撮影画像の各画素の位置を順次候補位置に設定する。なお候補位置は人の頭部重心を表すものとする。

評価値算出手段５１４ｄは、候補位置設定手段５１１ｄから入力された候補位置のそれぞれについて、単独の物体を構成する複数の部分の画像特徴を学習した単体識別器に当該候補位置の撮影画像の画像特徴を入力して複数の部分の部分評価値を求め、候補位置における密度が高いほど少ない部分に偏重させた重み付けを行って部分評価値を総和することにより評価値を算出し、算出した評価値とそれに付随する情報を位置決定手段５１７ｄに出力する。

そのために、評価値算出手段５１４ｄは、各候補位置に人の各部分の識別用抽出窓を設定し、識別用抽出窓内の撮影画像から単体識別用の特徴量（識別用特徴量）を抽出する。識別用抽出窓は、各部分の単体識別器の学習に用いた単体画像の形状（図１９に示した実線の矩形）を有し、予め定めた複数の倍率で拡大・縮小した大きさの窓である。すなわち、識別用抽出窓は、単独の人の上部１／３、中部１／３および下部１／３の形状に定められた３つの窓である。

また、評価値算出手段５１４ｄは、各部分の単体識別器を単体識別器記憶手段４１１ｄから読み出す。すなわち、評価値算出手段５１４ｄは、上部識別器、中部識別器および下部識別器を読み出す。そして、評価値算出手段５１４ｄは、各候補位置について、部分ごとに、読み出した単体識別器に当該候補位置から抽出した識別用特徴量を入力してその出力値である部分識別スコアを当該候補位置における当該部分の部分評価値として取得する。つまり、評価値算出手段５１４ｄは、候補位置ごとに上部識別器による部分識別スコア、中部識別器による部分識別スコアおよび下部識別器による部分識別スコアを算出する。

また、評価値算出手段５１４ｄは、密度推定手段５０から入力された密度分布を参照し、各候補位置に設定した上部１／３の窓内の推定密度を集計する。そして、評価値算出手段５１４ｄは、各候補位置における最多の推定密度を当該候補位置の密度と決定する。

また、評価値算出手段５１４ｄは、候補位置ごとに当該候補位置の密度に応じた重み係数を重み係数記憶手段４１２ｄから読み出す。すなわち、評価値算出手段５１４ｄは、候補位置の密度が低密度であれば全身均等重み係数を読み出し、中密度であれば上半身偏重重み係数を読み出し、高密度であれば頭部近傍偏重重み係数を読み出す。そして、評価値算出手段５１４ｄは、各候補位置について、読み出した重み係数で対応する部分の部分評価値を重み付けて加算することによって当該候補位置の評価値を算出する。

すなわち、上部識別器による部分識別スコアをＳ_Ｕ、中部識別器による部分識別スコアをＳ_Ｍ、下部識別器による部分識別スコアをＳ_Ｌとすると、評価値算出手段５１４ｄは、注目している候補位置の密度が低密度であれば次式によって当該候補位置の識別スコアを算出する。
識別スコア＝０．３３３Ｓ_Ｕ＋０．３３３Ｓ_Ｍ＋０．３３３Ｓ_Ｌ（３）
また、評価値算出手段５１４ｄは、注目している候補位置の密度が中密度であれば次式によって当該候補位置の識別スコアを算出する。
識別スコア＝０．５００Ｓ_Ｕ＋０．４００Ｓ_Ｍ＋０．１００Ｓ_Ｌ（４）
また、評価値算出手段５１４ｄは、注目している候補位置の密度が高密度であれば次式によって当該候補位置の識別スコアを算出する。
識別スコア＝０．７００Ｓ_Ｕ＋０．２００Ｓ_Ｍ＋０．１００Ｓ_Ｌ（５）

図２０は、図５で例示した密度分布が得られている場合に、図５で例示した各候補位置について評価値算出手段５１４ｄが識別スコアを算出する様子を模式的に示した図である。画像８７０は、これらの候補位置のうち密度が低密度である３つの候補位置について、各部分と重み係数の関係を示している。画像８７１は、密度が中密度である３つの候補位置について、各部分と重み係数の関係を示している。画像８７２は、密度が高密度である２つの候補位置について、各部分と重み係数の関係を示している。なお、スペースの都合上、重み係数の値を有効数字１桁で示している。

そして、評価値算出手段５１４ｄは、候補位置ごとに、候補位置、密度、識別スコアおよび使用した識別用抽出窓を対応付けた情報を位置決定手段５１７ｄに出力する。

位置決定手段５１７ｄは、評価値算出手段５１４ｄから入力された情報を参照し、予め定めた基準を満たす評価値が算出された候補位置を物体の位置と決定する。

具体的には、位置決定手段５１７ｄは、識別スコアが０以上である候補位置を抽出し、抽出した候補位置のうち対応する密度が同一であり且つ互いに近接する複数の候補位置（識別用抽出窓同士の重複が予め定めた割合より大きな候補位置）を一つにまとめ、まとめた候補位置を人が撮影されている位置と決定する。この候補位置をまとめる処理とその意義は、第三の実施形態に係る位置決定手段５１７ｃが行う処理およびその意義と同様である。

そして、位置決定手段５１７ｄは、人が撮影されている位置と決定した候補位置を物体位置の情報として物体位置出力手段３１に出力する。

＜第四の実施形態に係る画像監視装置１の動作＞
以下、図６および図２１を参照し、第四の実施形態に係る画像監視装置１の動作を説明する。

画像監視装置１が動作を開始すると、第一、第二および第三の実施形態と同様に、撮影部２は順次撮影画像を送信し、画像処理部５は撮影画像を受信するたびに図６のフローチャートに従った動作を繰り返す。

図２１のフローチャートを参照して、ステップＳ４の物体位置判定処理を説明する。単体特徴記憶手段４１が単体識別器記憶手段４１１ｄおよび重み係数記憶手段４１２ｄとして動作し、物体位置判定手段５１が候補位置設定手段５１１ｄ、評価値算出手段５１４ｄおよび位置決定手段５１７ｄとして動作して、物体位置判定処理が実行される。

候補位置設定手段５１１ｄは、撮影画像中の各画素の位置を順次候補位置に設定して評価値算出手段５１４ｄに入力し（ステップＳ４００）、ステップＳ４００〜Ｓ４０５のループ処理を制御する。

候補位置を入力された評価値算出手段５１４ｄは、単体識別器記憶手段４１１ｄから各部分（上部・中部・下部）の単体識別器を読み出し、各部分に対応する識別用抽出窓を設定して各識別用抽出窓内の撮影画像から識別用特徴量を抽出し（ステップＳ４０１）、抽出した各識別用特徴量を対応する部分の単体識別器に入力して部分識別スコア（部分評価値）を算出する（ステップＳ４０２）。

部分評価値を算出した評価値算出手段５１４ｄは、密度分布を参照して候補位置の密度を特定する（ステップＳ４０３）。評価値算出手段５１４ｄは候補位置に設定した上部１／３の窓内で最多の推定密度を候補位置の密度として特定する。

密度を特定した評価値算出手段５１４ｄは、重み係数記憶手段４１２ｄから当該密度に応じた重み係数を読み出し、式（３）、式（４）または式（５）のうちの密度に応じた式に従って、読み出した重み係数と部分評価値を積和することにより当該候補位置の評価値を算出する（ステップＳ４０４）。

そして、評価値算出手段５１４ｄは、候補位置と識別用抽出窓と密度と評価値とを対応付けて記録するとともに、撮影画像の全ての画素の位置を候補位置に設定し終えたか否かを確認し（ステップＳ４０５）、未設定の画素がある場合は（ステップＳ４０５にてＮＯ）、処理をステップＳ４００に戻して次の画素の位置を処理する。

他方、全ての画素の位置を候補位置に設定し終えた場合（ステップＳ４０５にてＹＥＳ）、位置決定手段５１７ｄは、ステップＳ４０５で記録された候補位置と識別用抽出窓と密度と評価値の組の中から評価値が閾値未満の組を削除し（ステップＳ４０６）、さらに、削除されずに残った組について、密度ごとに、互いの識別用抽出窓が予め定めた割合よりも大きく重複している組を同一人物のものとして一つの組にまとめる（ステップＳ４０７）。そして位置決定手段５１７ｄはまとめた後の各組の候補位置を撮影画像に撮影されている個々の人の位置（物体位置）と判定する。

＜変形例＞
（１）上記各実施形態およびその変形例においては、検出対象の物体を人とする例を示したが、これに限らず、検出対象の物体を車両、牛や羊等の動物等とすることもできる。

（２）上記各実施形態およびその各変形例においては物体を１／３ずつに分けた部分を単位として単体特徴を設定する例を示したが、分け方はこれに限らない。検出対象や撮影する監視空間の特性、採用する特徴量や評価値の種類などの違いに応じ、それぞれに適した別の比率で分けた単体特徴とすることができる。また密度間でオーバーラップさせて単体特徴を設定してもよい。

（３）上記第二および第四の実施形態およびその各変形例において示した重み係数の値は一例であり、検出対象や撮影する監視空間の特性、採用する特徴量や評価値の種類などの違いに応じ、それぞれに適した別の値とすることができる。

（４）上記各実施形態およびその各変形例においては、多クラスＳＶＭ法にて学習した密度推定器を例示したが、多クラスＳＶＭ法に代えて、決定木型のランダムフォレスト法、多クラスのアダブースト（AdaBoost）法または多クラスロジスティック回帰法などにて学習した密度推定器など種々の密度推定器とすることができる。
或いは識別型のＣＮＮ（Convolutional Neural Network）を用いた密度推定器とすることもできる。

（５）上記各実施形態およびその各変形例においては、密度推定器が推定する背景以外の密度のクラスを３クラスとしたが、より細かくクラスを分けてもよい。
その場合、３段階（全身、上半身および頭部近傍）の単体特徴に代えて、クラス分けに対応したより細かい段階の単体特徴とし、クラスと単体特徴を対応付けて単体特徴記憶手段４１に記憶させておくことができる。或いは、クラスと３段階の単体特徴を多対一で対応付けて単体特徴記憶手段４１に記憶させておくこともできる。

（６）上記各実施形態およびその各変形例においては、多クラスに分類する密度推定器を例示したがこれに代えて、特徴量から密度の値（推定密度）を回帰する回帰型の密度推定器とすることもできる。すなわち、リッジ回帰法、サポートベクターリグレッション法、回帰木型のランダムフォレスト法またはガウス過程回帰（Gaussian Process Regression）などによって、特徴量から推定密度を求めるための回帰関数のパラメータを学習した密度推定器とすることができる。
或いは回帰型のＣＮＮを用いた密度推定器とすることもできる。
これらの場合、密度クラスの値の代わりに連続値で出力される推定密度の値域を、単体特徴と対応付けて単体特徴記憶手段４１に記憶させておく。

（７）第二および第四の実施形態およびその各変形例においては、各部分の重み係数を一定値とする例を示したが、各部分の重み係数を関数としてもよい。その場合、例えば重み係数記憶手段４１２ｂ、４１２ｄは、各部分内の画素の位置を入力とし当該部分内の高さが高い位置ほど大きな重み係数を出力する関数を記憶し、評価値算出手段５１４ｂ、５１４ｄは各部分内の画素の位置を当該関数に入力して画素ごとに重み付けを行う。

（８）上記各実施形態およびその各変形例においては、密度推定器が学習する特徴量および推定用特徴量としてＧＬＣＭ特徴を例示したが、これらはＧＬＣＭ特徴に代えて、局所二値パターン（Local Binary Pattern：ＬＢＰ）特徴量、ハールライク（Haar-like）特徴量、ＨＯＧ特徴量、輝度パターンなどの種々の特徴量とすることができ、またはＧＬＣＭ特徴とこれらのうちの複数を組み合わせた特徴量とすることもできる。

（９）上記各実施形態およびその各変形例においては、密度推定手段５０および物体位置判定手段５１が１画素間隔で走査して処理を行う例を示したが、これらの走査を２画素以上の間隔を空けて行うことも可能である。

（１０）上記各実施形態およびその各変形例においては、候補位置を推定密度が低密度、中密度または高密度の領域内から選んで設定する例を示したが、配置生成手段５１０ａ、配置生成手段５１０ｂ、候補位置設定手段５１１ｃおよび候補位置設定手段５１１ｄのそれぞれは、変化領域内に限定して候補位置を設定することもできる。その場合、記憶部４は監視空間の背景画像を記憶する背景画像記憶手段（不図示）を備え、画像処理部５は、撮影画像と背景画像との差分処理を行って差分値が所定の差分閾値以上である画素の集まりを変化領域として抽出する、または撮影画像と背景画像との相関処理を行って相関値が所定の相関閾値以下である画素の集まりを変化領域として抽出する変化領域抽出手段（不図示）を備え、配置生成手段５１０ａ、配置生成手段５１０ｂ、候補位置設定手段５１１ｃおよび候補位置設定手段５１１ｄのそれぞれは、変化領域抽出手段が抽出した変化領域を参照して候補位置を設定する。
なお、候補位置を設定する領域を限定する場合、配置生成手段５１０ａおよび配置生成手段５１０ｂのそれぞれは、限定した領域の大きさに応じて配置数の上限個数を変更することができる。
このような候補位置を設定する領域の限定によって、撮影画像とモデル画像の偶発的な類似または背景に対する高い識別スコアの偶発的な算出を防止でき、物体位置の誤検出を低減できる。

（１１）上記第一および第二の実施形態とその各変形例においては、配置生成手段５１０ａおよび配置生成手段５１０ｂが反復の都度ランダムに配置を生成する例を示したが、反復の２回目以降に一回前の候補位置から微小にずらした候補位置に更新することで配置を生成してもよいし、反復の２回目以降に一回前の配置に対する類似度を参照してＭＣＭＣ（Markov chain Monte Carlo）法により確率的に候補位置を探索する方法や山登り法により候補位置を逐次改善することで配置を生成してもよい。

（１２）上記各実施形態およびその各変形例においては、注目している候補位置に人の上部１／３の形状に定められたモデルの投影領域または該形状に定められた窓を設定して当該領域内の推定密度を集計することによって、当該候補位置における推定密度を決定する例を示したが、処理量を削減するために当該領域に代えて候補位置の画素、候補位置の８近傍領域または１６近傍領域などの小さな領域とすることもできる。或いは、確度を上げるために当該領域に代えて候補位置を代表位置とする単独の人の上部２／３の形状に定められたモデルの投影領域または該形状に定められた窓、または候補位置を代表位置とする単独の人の全身の形状に定められたモデルの投影領域または該形状に定められた窓などの大きな領域とすることもできる。

（１３）第三の実施形態およびその各変形例において示した、識別スコアと対比する閾値は単体識別器ごとに異なる値とすることもできる。

（１４）第三および第四の実施形態およびその変形例においては、線形ＳＶＭ法により学習された単体識別器を例示したが、線形ＳＶＭ法に代えてアダブースト（AdaBoost）法など、従来知られた各種の学習法を用いて学習した単体識別器とすることもできる。また、識別器の代わりにパターンマッチング器を用いることもでき、その場合の識別スコアは人の学習用画像から抽出した特徴量の平均パターンと入力画像の特徴量との内積などとなり、識別スコア算出関数は当該スコアを出力値とし入力画像の特徴量を入力値とする関数とすることができる。また単体識別器として識別型のＣＮＮを用いても良い。

（１５）第三および第四の実施形態およびその各変形例においては、単体識別器が学習する特徴量としてＨＯＧ特徴量を例示したが、これらはＨＯＧ特徴量に代えて、局所二値パターン特徴量、ハールライク特徴量、輝度パターンなどの種々の特徴量とすることができ、またはＨＯＧ特徴量とこれらのうちの複数を組み合わせた特徴量とすることもできる。

以上の各実施形態およびその変形例によれば、物体検出装置は、候補位置ごとの密度に応じ、当該密度により物体に生じ得る隠蔽状態に適した単体特徴（単独の物体の画像特徴）を用いて個々の物体の位置を判定するので、混雑状態の変化に伴う物体の隠蔽状態の変化と個々の物体の検出のために用いる部分の多寡に伴う検出精度の変動とのトレードオフを解消して精度の高い物体検出が可能となる。

そのうちの第一の実施形態およびその変形例に係る物体検出装置は、単体特徴を表す物体モデルを用い、候補位置ごとの密度に応じて物体モデルを切り替えることによって上記トレードオフを解消し、精度の高い物体検出を可能とする。

またそのうちの第二の実施形態およびその変形例に係る物体検出装置は、単体特徴を表す物体モデルおよび物体モデルの撮影画像に対する類似度を評価する際の重み係数を用い、候補位置ごとの密度に応じて重み係数を切り替えることによって上記トレードオフを解消し、精度の高い物体検出を可能とする。

またそのうちの第三の実施形態およびその変形例に係る物体検出装置は、単体特徴を学習した識別器を用い、候補位置ごとの密度に応じて識別器を切り替えることによって上記トレードオフを解消し、精度の高い物体検出を可能とする。

またそのうちの第四の実施形態およびその変形例に係る物体検出装置は、単体特徴を部分ごとに学習した識別器および識別器による部分ごとの部分評価値を総和する際の重み係数を用い、候補位置ごとの密度に応じて重み係数を切り替えることによって上記トレードオフを解消し、精度の高い物体検出を可能とする。

１画像監視装置、２撮影部、３通信部、４記憶部、５画像処理部、６表示部、３０画像取得手段、３１物体位置出力手段、４０密度推定器記憶手段、４１単体特徴記憶手段、４１０ａ,４１０ｂ物体モデル記憶手段、４１１ｃ,４１１ｄ単体識別器記憶手段、４１２ａ,４１２ｂ,４１２ｄ重み係数記憶手段、５０密度推定手段、５１物体位置判定手段、５１０ａ,５１０ｂ配置生成手段、５１１ｃ,５１１ｄ候補位置設定手段、５１２ａ,５１２ｂモデル画像生成手段、５１４ａ,５１４ｂ,５１４ｃ,５１４ｄ評価値算出手段、５１６ａ,５１６ｂ最適配置決定手段、５１７ｃ,５１７ｄ位置決定手段

Claims

所定の物体による混雑が生じ得る空間が撮影された撮影画像から個々の前記物体を検出する物体検出装置であって、
所定の密度ごとに当該密度にて前記物体が存在する空間を撮影した密度画像それぞれの画像特徴を学習した密度推定器を用いて、前記撮影画像に撮影された前記物体の前記密度の分布を推定する密度推定手段と、
前記撮影画像内に個々の前記物体が存在し得る候補位置を設定して当該候補位置の前記撮影画像に単独の前記物体の画像特徴が現れている度合いを表す評価値を算出し、前記評価値が所定値以上である候補位置を前記物体の位置と判定する物体位置判定手段と、
を備え、
前記物体位置判定手段は、前記候補位置における前記密度に応じ、単独の前記物体を構成する部分のうちの重視する部分を変更して前記評価値を算出することを特徴とした物体検出装置。
前記物体位置判定手段は、前記候補位置における前記密度が高いほど、単独の前記物体を構成する部分のうちの少ない部分の画像特徴を重視して前記評価値を算出する、請求項１に記載の物体検出装置。
前記物体位置判定手段は、前記候補位置における前記密度が高いほど、前記撮影画像の当該候補位置に単独の前記物体を構成する部分のうちの少ない部分の画像特徴が現れている度合いを表す前記評価値を算出する、請求項２に記載の物体検出装置。
前記物体位置判定手段は、前記撮影画像の前記候補位置に単独の前記物体を構成する複数の部分の画像特徴が現れている度合いを表す部分評価値を算出し、当該候補位置における前記密度が高いほど、前記物体を構成する部分のうちの少ない部分の前記部分評価値に高く重み付けて前記部分評価値を総和することによって前記評価値を算出する、請求項２に記載の物体検出装置。
前記物体位置判定手段は、
それぞれが１以上の前記候補位置を含む互いに異なる複数通りの配置を生成する配置生成手段と、
前記複数通りの配置それぞれについて、前記各候補位置に、当該候補位置における前記密度が高いほど、単独の前記物体を構成する部分のうちの少ない部分を模した物体モデルを描画してモデル画像を生成するモデル画像生成手段と、
前記複数通りの配置それぞれについて、前記モデル画像の前記撮影画像に対する類似の度合いを表す前記評価値を算出する評価値算出手段と、
前記評価値が最大の配置における前記候補位置を前記物体の位置と決定する最適配置決定手段と、
を含む請求項３に記載の物体検出装置。
前記物体位置判定手段は、
それぞれが１以上の前記候補位置を含む互いに異なる複数通りの配置を生成する配置生成手段と、
前記複数通りの配置それぞれについて、前記各候補位置に単独の前記物体を模した物体モデルを描画してモデル画像を生成するモデル画像生成手段と、
前記複数通りの配置の前記モデル画像それぞれについて、前記物体を構成する部分ごとに前記物体モデルの前記撮影画像に対する類似の度合いを表す前記部分評価値を求め、前記候補位置における前記密度が高いほど少ない部分に偏重させた重み付けを行って前記部分評価値を総和することにより前記評価値を算出する評価値算出手段と、
前記評価値が最大の配置における前記候補位置を前記物体の位置と決定する最適配置決定手段と、
を含む請求項４に記載の物体検出装置。
前記物体位置判定手段は、
前記撮影画像内に複数の前記候補位置を設定する候補位置設定手段と、
前記候補位置それぞれについて、当該候補位置の前記密度が高いほど単独の前記物体を構成する部分のうちの少ない部分の画像特徴を学習した識別器に、当該候補位置の前記撮影画像の画像特徴を入力して前記評価値を算出する評価値算出手段と、
予め定めた基準を満たす前記評価値が算出された前記候補位置を前記物体の位置と決定する位置決定手段と、
を含む請求項３に記載の物体検出装置。
前記物体位置判定手段は、
前記撮影画像内に複数の前記候補位置を設定する候補位置設定手段と、
前記候補位置それぞれについて、単独の前記物体を構成する複数の部分の画像特徴を学習した識別器に当該候補位置の前記撮影画像の画像特徴を入力して前記複数の部分の部分評価値を求め、前記候補位置における前記密度が高いほど少ない部分に偏重させた重み付けを行って前記部分評価値を総和することにより前記評価値を算出する評価値算出手段と、
予め定めた基準を満たす前記評価値が算出された前記候補位置を前記物体の位置と決定する位置決定手段と、
を含む請求項４に記載の物体検出装置。