以下、本発明の画像監視装置の好適な実施形態の一例として、イベント会場を撮影した監視画像を基に要注視行動を検出し、要注視行動を検出した場合に報知する画像監視装置1について説明する。
図1は画像監視装置1の概略の構成を示すブロック図である。画像監視装置1は、撮影部2、通信部3、記憶部4、画像処理部5、および報知部6からなる。
撮影部2は、監視カメラであり、通信部3を介して画像処理部5と接続され、監視空間を所定の時間間隔で撮影して監視画像を生成し、監視画像を順次画像処理部5に入力する撮影手段である。例えば、撮影部2は、監視空間であるイベント会場の一角に設置されたポールに当該監視空間を俯瞰する所定の固定視野を有して設置され、監視空間をフレーム周期1秒で撮影してカラー画像を生成する。カラー画像の代わりにモノクロ画像を生成してもよい。
通信部3は、通信回路であり、その一端が画像処理部5に接続され、他端が撮影部2および報知部6と接続される。通信部3は、撮影部2から監視画像を取得して画像処理部5に入力し、画像処理部5から入力された要注視情報を報知部6に出力する。要注視情報は、画像処理部5が検出した要注視行動の種類や検出時の監視画像等が含まれた情報である。
例えば、撮影部2および報知部6がイベント会場内の監視センターに設置され、通信部3、記憶部4および画像処理部5が遠隔地の画像解析センターに設置される場合、通信部3と撮影部2、および通信部3と報知部6をそれぞれインターネット回線にて接続し、通信部3と画像処理部5はバスで接続する構成とすることができる。その他、例えば各部を同一建屋内に設置する場合は、通信部3と撮影部2を同軸ケーブルまたはLAN(Local Area Network)、通信部3と報知部6はディスプレイケーブル、通信部3と画像処理部5はバスで接続するなど、各部の設置場所に応じた形態で適宜接続される。
記憶部4は、ROM(Read Only Memory)、RAM(Random Access Memory)等のメモリ装置であり、各種プログラムや各種データを記憶する。記憶部4は、画像処理部5と接続されて画像処理部5との間でこれらの情報を入出力する。
画像処理部5は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)等の演算装置で構成される。画像処理部5は、記憶部4からプログラムを読み出して実行することにより各種処理手段・制御手段として動作し、必要に応じて、各種データを記憶部4から読み出し、生成したデータを記憶部4に記憶させる。また、画像処理部5は、通信部3経由で撮影部2から取得した監視画像から要注視行動を検出し、検出した要注視行動に関する要注視情報を生成して通信部3に出力させる。
報知部6は、液晶ディスプレイ又はCRT(Cathode Ray Tube)ディスプレイ等のディスプレイ装置であり、通信部3から入力された要注視情報に含まれる要注視行動の種類や検出時の監視画像等の情報を表示することによって監視員に報知する。報知部6には、さらに、注意喚起を強調するためにブザーやランプ等を含めることもできる。監視員は表示された要注視行動の情報を視認して対処の要否等を判断し、必要に応じて対処員を急行させる等の対処を行う。
なお、本実施形態においては、通信部3と画像処理部5の組に対して撮影部2が1台である画像監視装置1を例示するが、別の実施形態においては、通信部3と画像処理部5の組に対して撮影部2が2台以上接続された構成とすることもできる。その場合、通信部3は各撮影部から監視画像を時分割で受信し、画像処理部5は各撮影部からの監視画像を時分割処理または並列処理する。
以下、図2〜図4を参照し、画像監視装置1の機能について説明する。
図2は、画像監視装置1における、通信部3、記憶部4および画像処理部5の機能を説明する機能ブロック図である。通信部3は画像取得手段30および要注視情報出力手段31等として機能し、記憶部4は検出基準記憶手段40等として機能する。画像処理部5は領域区分手段50、行動特徴量抽出手段51および要注視行動検出手段52等として機能する。また、行動特徴量抽出手段51は低混雑時抽出手段510、中混雑時抽出手段511および高混雑時抽出手段512を含み、要注視行動検出手段52は低混雑時検出手段520、中混雑時検出手段521および高混雑時検出手段522を含む。
画像取得手段30は、撮影手段である撮影部2から監視画像を順次取得して、取得した監視画像を領域区分手段50および行動特徴量抽出手段51に順次出力する。
領域区分手段50は、画像取得手段30が取得した監視画像を、予め様々な密度にて人が存在する空間を撮影した密度画像を用いて密度ごとの特徴量を学習した密度推定器で走査することによって、監視画像から監視空間における人の分布を推定し、監視画像を人の混雑度ごとの領域に区分し、区分した領域(区分領域)の情報を行動特徴量抽出手段51に出力する。
以下、密度推定器の学習および密度推定器による推定に用いる特徴量を、後述する行動特徴量等と区別するために密度特徴量と称する。密度特徴量はGLCM(Gray Level Co-occurrence Matrix)特徴である。なお、密度特徴量はGLCM特徴に限らずHOG(Histograms of Oriented Gradients)特徴量、局所二値パターン(Local Binary Pattern:LBP)特徴量、ハールライク(Haar-like)特徴量、輝度パターンなどの種々の特徴量またはこれらのうちの複数を組み合わせた特徴量とすることができる。
混雑度は人により生じ得る混雑の度合いの範囲を2段階以上に分けて設定される。例えば、混雑度は、人の密度に応じた3段階で予め定義され、具体的には、0.0人/m2以上2.0人/m2以下と推定される低混雑度、2.0人/m2より高く4.0人/m2以下と推定される中混雑度、4.0人/m2よりも高いと推定される高混雑度と定義される。領域区分手段50は、低混雑度と推定された領域(低混雑領域)の画素値に低混雑度を識別する符号「低」を、中混雑度と推定された領域(中混雑領域)の画素値に中混雑度を識別する符号「中」を、高混雑度と推定された領域(高混雑領域)の画素値に高混雑度を識別する符号「高」をそれぞれ設定した三値画像を出力する。
本実施形態においては、低混雑領域、中混雑領域、高混雑領域のいずれもが要注視行動を検出する検出対象に定められている。つまり、高混雑領域は領域区分手段50が検出対象の混雑度のうちで最も高い高混雑度の領域に区分した区分領域、低混雑領域は領域区分手段50が検出対象の混雑度のうちで最も低い低混雑度の領域に区分した区分領域、中混雑領域は領域区分手段50が高混雑領域以外且つ低混雑領域以外に区分した区分領域となる。
密度推定器は、多クラスSVM(Support Vector Machine:サポートベクターマシーン)法を用いて学習することができる。密度推定器の学習においては、例えば、人が写っていない0.0人/m2の無人画像、0.0人/m2より高く2.0人/m2以下の密度で人が写っている低密度画像、2.0人/m2より高く4.0人/m2以下の密度で人が写っている中密度画像および4.0人/m2よりも高い密度で人が写っている高密度画像をそれぞれ多数用意して学習画像とし、学習画像から抽出した密度特徴量に多クラスSVM法を適用して、無人画像、低密度画像、中密度画像、高密度画像の4クラスの密度特徴量を一定以上の確率で分類可能な分類関数のパラメータが導出される。このパラメータを領域区分手段50のプログラムに含めて記憶させておく。
具体的には、領域区分手段50は、まず、監視画像の全体に渡って複数の推定窓を設定し、各推定窓における監視画像から密度特徴量を抽出する。なお、GLCM特徴のように注目画素の密度特徴量を注目画素とその近傍領域から抽出する密度特徴量の場合、監視画像の各画素における密度特徴量を抽出してから推定窓内の画素に対応する密度特徴量を選択するのが効率的である。
次に、領域区分手段50は、各推定窓の密度特徴量を密度推定器に入力し、その出力値すなわち推定値として各推定窓の監視画像が無人画像、低密度画像、中密度画像、高密度画像のいずれのクラスに帰属するかを示す符号を取得する。
続いて、領域区分手段50は、無人画像および低密度画像に帰属すると推定された推定窓内の画素値に符号「低」を、中密度画像に帰属すると推定された推定窓内の画素値に符号「中」を、高密度画像に帰属すると推定された推定窓内の画素値に符号「高」をそれぞれ設定した三値画像を出力する。
図3は領域区分手段50が監視画像を区分する処理を模式的に例示した図である。
図3の例では、多数の人が撮影された監視画像100をブロック分割することによって14×11個の推定窓が設定されている。そして、各推定窓から密度特徴量が抽出されて密度推定器に入力され、推定窓ごとに帰属するクラスが推定される。推定結果110においては、推定窓111,112等の白抜きの推定窓が低密度画像または無人画像に帰属すると推定されたことを示し、推定窓113等の斜線を記した推定窓が中密度画像に帰属すると推定されたことを示し、推定窓114等の網掛けした推定窓が高密度画像に帰属すると推定されたことを示している。これらの推定窓が混雑度ごとの領域にまとめられることによって混雑度ごとの領域に区分される。区分結果120においては、白抜き区分領域121,122が低混雑領域を、斜線を記した区分領域123が中混雑領域を、網掛けした区分領域124が高混雑領域をそれぞれ示している。
行動特徴量抽出手段51は、領域区分手段50が区分した区分領域それぞれにおいて、少なくとも1以上の人を含む複数の物体からなる物体グループであって混雑度が高い区分領域ほど規模の大きな物体グループを設定し、監視画像から当該物体グループにおける人の行動特徴量を抽出し、区分領域ごとの行動特徴量を当該区分領域の混雑度と対応付けて要注視行動検出手段52に出力する。
行動特徴量抽出手段51は、低混雑時抽出手段510として、区分領域のうちの低混雑領域における人の行動特徴量を抽出する。低混雑時抽出手段510は、低混雑領域の監視画像から個々の人の領域(人物領域)および個々の物品の領域(物品領域)を物体の領域(物体領域)として検出し、物体領域同士が所定距離以下で近接し且つ少なくとも1以上の人を含む複数の物体からなる物体グループを設定する。近接を判定するための距離閾値TDLは低混雑領域の密度の定義に整合する範囲内で予め定められ、例えばその値は0.5mである。
図4は、図3の区分領域において設定される物体グループを例示した図である。
低混雑領域121においては、人物領域201とそれに近接する物品領域202からなる物体グループ200、人物領域211とそれに近接する物品領域212,213からなる物体グループ210が設定される。また、低混雑領域122においては、人物領域221とそれに近接する物品領域222からなる物体グループ220が設定される。
そして、低混雑時抽出手段510は、各物体グループに属する個々の物体領域から動き、姿勢および位置関係等の特徴量のうちの少なくともひとつを、低混雑領域における人の行動特徴量(低混雑時特徴量)として抽出し、低混雑時特徴量を要注視行動検出手段52に出力する。例えば、動きの特徴量は物体同士の接近に係る特徴量である。また例えば姿勢の特徴量は少なくとも1以上の人が物体グループ内の他の物体に関与するときの姿勢の特徴量である。
このように行動特徴量抽出手段51は、高・中混雑領域と比べてオクルージョンが発生しにくく物体同士の接近の少ない低混雑領域においては、個々の物体の全体像や部位の像を得やすいことから、個々の物体領域の情報を基礎とする行動特徴量を抽出して、高精度な要注視行動の検出を実現する。
また、行動特徴量抽出手段51は、中混雑時抽出手段511として、区分領域のうちの中混雑領域における人の行動特徴量を抽出する。中混雑時抽出手段511は、中混雑領域の監視画像から個々の人の位置(物体位置)を検出して物体位置同士が所定距離以下で近接する複数の物体位置のペアからなる物体グループを設定する。近接を判定するための距離閾値TDMは中混雑領域の密度の定義に整合する範囲内で予め定められ、例えばその値は0.4mである。
図4の例では、中混雑領域123において、互いに近接している人の位置231,232のペア、人の位置232,233のペアおよび人の位置233,234のペアが連鎖してなる物体グループ230が設定される。
そして、中混雑時抽出手段511は、物体グループに属する個々の物体位置から動き、形状および位置関係等の特徴量うちの少なくともひとつを、中混雑領域における人の行動特徴量(中混雑時特徴量)として抽出し、中混雑時特徴量を要注視行動検出手段52に出力する。例えば、動きの特徴量は物体同士の接近に係る特徴量である。また例えば形状の特徴量は物体グループの形状の特徴量である。
このように行動特徴量抽出手段51は、低混雑領域と比べてオクルージョンや物体同士の接近が発生し易いが、高混雑領域に比べて物体位置の偏りが生じやすい中混雑領域においては、物体領域の情報を用いることによる要注視行動の誤検出を防止しつつ、個々の物体位置の情報を基礎とする行動特徴量を抽出して、高精度な要注視行動の検出を実現する。
また、行動特徴量抽出手段51は、高混雑時抽出手段512として、区分領域のうちの高混雑領域における人の行動特徴量を抽出する。高混雑時抽出手段512は、高混雑領域の監視画像から当該混雑度が推定された領域のまとまり、すなわち高混雑領域全体を物体グループとし、高混雑領域全体から個々の物体を単位としない動き、形状等のうちの少なくとも一つを、高混雑領域における人の行動特徴量(高混雑時特徴量)として抽出し、高混雑時特徴量を要注視行動検出手段52に出力する。例えば、動きの特徴量は時空間セグメントや画像ブロックの動きの特徴量であり、形状の特徴量は高混雑領域の形状の特徴量である。
図4の例では、高混雑領域124自体が物体グループ240に設定される。
このように行動特徴量抽出手段51は、低・中混雑領域と比べてオクルージョンや物体同士の接近が常時発生している高混雑領域においては、物体領域や物体位置の情報を用いることによる要注視行動の誤検出を防止しつつ、不特定多数の物体の集合としての行動特徴量を抽出して、高精度な要注視行動の検出を実現する。
検出基準記憶手段40は要注視行動を検出するために予め定められた検出基準を記憶している。この検出基準は混雑度ごとに記憶され、各検出基準はそれぞれに対応する混雑度が推定された区分領域において抽出された行動特徴量との比較・判定に用いられる。
要注視行動検出手段52は、行動特徴量抽出手段51から区分領域ごとの行動特徴量を入力されて検出基準記憶手段40から区分領域の混雑度に応じた検出基準を読み出し、区分領域ごとの行動特徴量を当該区分領域の混雑度に応じた検出基準と比較して、検出基準を満たす場合に当該行動特徴量が抽出された抽出対象領域において要注視行動が発生していると判定する。
すなわち、要注視行動検出手段52は、低混雑時特徴量が入力された場合は、低混雑時特徴量を低混雑度と対応付けられた検出基準と比較して要注視行動が発生しているか否かを判定する低混雑時検出手段520として動作する。
また、要注視行動検出手段52は、中混雑時特徴量が入力された場合は、中混雑時特徴量を中混雑度と対応付けられた検出基準と比較して要注視行動が発生しているか否かを判定する中混雑時検出手段521として動作する。
また、要注視行動検出手段52は、高混雑時特徴量が入力された場合は、高混雑時特徴量を高混雑度と対応付けられた検出基準と比較して要注視行動が発生しているか否かを判定する高混雑時検出手段522として動作する。
ここで、要注視行動検出手段52は、例えば、対応付けられている検出基準が要注視行動の特徴量である要注視パターンおよび閾値である場合は、要注視パターンと区分領域から抽出された行動特徴量との類似度を算出して、類似度が閾値以上である場合に要注視行動が発生していると判定する。また、要注視行動検出手段52は、対応付けられている検出基準が正常行動の特徴量である正常パターンおよび閾値である場合は、正常パターンと区分領域から抽出された行動特徴量との相違度を算出して、相違度が閾値以上である場合に要注視行動が発生していると判定する。
要注視行動検出手段52は、要注視行動が発生していると判定した場合に、検出基準を満たした行動特徴量が抽出された位置、満たされた検出基準と対応する事象名を重畳させた監視画像を要注視情報として生成し、生成した要注視情報を要注視情報出力手段31に出力する。
要注視情報出力手段31は要注視行動検出手段52から入力された要注視情報を報知部6に順次出力し、報知部6は要注視情報出力手段31から入力された要注視情報に含まれる情報を表示する。例えば、要注視情報は、インターネット経由で送受信され、報知部6に表示される。監視員は、表示された情報を視認することによって要注視行動の対処要否を判断し、対処が必要と判断すると対処員を派遣するなどの対処を行う。
以下、図5〜図8を参照し、画像監視装置1の動作を説明する。
画像監視装置1が動作を開始すると、イベント会場に設置されている撮影部2は所定時間おきに監視空間を撮影して監視画像を順次画像処理部5が設置されている画像解析センター宛に送信する。画像処理部5は監視画像を受信するたびに図5のフローチャートに従った動作を繰り返す。
まず、通信部3は画像取得手段30として動作し、監視画像の受信を待機する。撮影部2が監視画像を送信すると、画像取得手段30は当該監視画像を受信して画像処理部5に出力する(ステップS1)。
監視画像を入力された画像処理部5は領域区分手段50として動作し、監視画像を密度推定器にて走査することによって監視画像に撮影されている人の分布を推定し(ステップS2)、推定結果に基づいて監視画像を混雑度ごとの領域に区分する(ステップS3)。これによって、監視画像は低混雑領域、中混雑領域および高混雑領域に区分される。
領域の区分を行った画像処理部5は、行動特徴量抽出手段51としても動作し、領域区分手段50による区分結果を行動特徴量抽出手段51に入力する。
区分結果を入力された行動特徴量抽出手段51は、区分結果に低混雑領域の情報が含まれているか否かを確認する(ステップS4)。行動特徴量抽出手段51は、低混雑領域の情報が含まれている場合は(ステップS4にてYES)、処理を低混雑領域の要注視行動検出処理(ステップS5)に進める。他方、低混雑領域の情報が含まれていない場合(ステップS4にてNO)、行動特徴量抽出手段51はステップS5を省略して処理をステップS6に進める。
図6のフローチャートを参照し、低混雑領域の要注視行動検出処理を説明する。行動特徴量抽出手段51はこの処理を低混雑時抽出手段510として実行し、要注視行動検出手段52はこの処理を低混雑時検出手段520として実行する。
まず、低混雑時抽出手段510は、低混雑領域の監視画像から個々の物体領域を検出する(ステップS500)。物体領域には人の領域(人物領域)と物品の領域(物品領域)が含まれる。低混雑時抽出手段510は、監視画像と背景画像の比較により変化領域を検出して、当該変化領域を予め単独の人の画像の特徴量を学習した人識別器で走査することで、変化領域の中から人物領域とそれ以外である物品領域とを検出する。
具体的には、まず、低混雑時抽出手段510は、予め無人時の監視画像などから生成して記憶部4に記憶させてある背景画像とステップS1で取得した監視画像の、低混雑領域内における輝度差が閾値以上である画素を抽出し、抽出した画素のまとまりを変化領域とする。
以下、人識別器の学習および人識別器による識別に用いる特徴量を、行動特徴量と区別するために人特徴量と称する。人特徴量はHOG(Histograms of Oriented Gradients:ヒストグラム・オブ・オリエンティッド・グラディエント)とすることができる。
人識別器は、アダブースト(AdaBoost)法を用いて学習することができる。人識別器の学習においては、例えば、単独の人が写っている人画像および人が写っていない無人画像をそれぞれ多数用意して学習画像とし、学習画像から抽出した人特徴量にアダブースト法を適用して、人画像と無人画像の2クラスの人特徴量を一定以上の確率で識別可能な識別関数のパラメータが導出される。このパラメータを低混雑時抽出手段510のプログラムに含めて記憶させおく。
次に、低混雑時抽出手段510は、低混雑領域の監視画像の変化領域全体に渡って複数の識別窓を設定し、各識別窓における監視画像から人特徴量を抽出する。なお、HOGのように注目画素の人特徴量を注目画素とその近傍領域から抽出する人特徴量の場合、低混雑領域の各画素における人特徴量を抽出してから識別窓内の画素に対応する人特徴量を選択するのが効率的である。
そして、低混雑時抽出手段510は、各識別窓の人特徴量を人識別器に入力し、その出力値すなわち識別値として各識別窓の監視画像が人画像と無人画像のいずれのクラスに帰属するかを示す符号を取得し、人画像に帰属すると識別された識別窓を人物領域に設定する。
さらに、低混雑時抽出手段510は、変化領域の中で、人物領域に設定されていない領域を特定し、その領域を物品領域に設定する。
続いて、低混雑時抽出手段510は、公知の追跡法を用いて物体領域の追跡、すなわち各物体領域と過去に低混雑領域の監視画像から検出された物体領域との対応付けを行う(ステップS501)。低混雑時抽出手段510は、例えば、過去に検出された各物体領域とステップS500で検出された各物体領域の組合せに対し、物体領域の重心位置と過去の物体領域の重心位置に基づく予測位置との類似度、物体領域における監視画像の平均色についての類似度、物体領域の形状についての類似度を総和して、総和した値が最大となるペアを対応付ける。
続いて、低混雑時抽出手段510は、ステップS500にて検出された各物体領域に対し、所定距離以下で近接してなる物体グループを検出する(ステップS502)。低混雑時抽出手段510は、重心間の距離が距離閾値TDL以下で近接している物体領域同士を物体グループとして検出する。
続いて、低混雑時抽出手段510は、各物品領域を順次処理対象に設定して(ステップS503)、ステップS503〜S509のループ処理を行う。なお、物品領域が検出されていない場合、ループ処理は省略される。
続いて、低混雑時抽出手段510は、ステップS501の追跡結果およびステップS502のグループ検出結果を参照して、注目している物品領域のグループ変遷を抽出する(ステップS504)。低混雑時抽出手段510は、注目している物品領域について、時系列で物体グループへの帰属有無と帰属した物体グループの数(構成する物体領域が異なる物体グループの数)を抽出し、連続する帰属有無の時系列データを圧縮することでグループ変遷を抽出する。例えば、注目している物品領域が、物体グループAに帰属、物体グループAに帰属、…、帰属グループ無し、帰属グループ無し、…、物体グループBに帰属という変遷を辿っていれば、当該物品領域のグループ変遷は「帰属有無:{帰属あり、帰属なし、帰属あり}、帰属数:2」となる。
行動特徴量を算出した画像処理部5は低混雑時検出手段520として動作し、記憶部4は検出基準記憶手段40として動作する。
低混雑時検出手段520は、まず、検出基準記憶手段40から低混雑時の検出基準を読み出す(ステップS505)。すなわち、低混雑時検出手段520は、物品領域のグループ変遷の正常パターン「帰属有無:{帰属あり}、帰属数:1」を読み出す。
低混雑時検出手段520は、次に、ステップS504で抽出したグループ変遷を検出基準と比較して一致するか否かを判定する(ステップS506)。
低混雑時検出手段520は、続いて、ステップS504で抽出したグループ変遷が要注視行動の検出基準を満たすか否かを判定する(ステップS507)。低混雑時検出手段520は、ステップS506での判定が不一致である場合は検出基準を満たすと判定し、一致である場合は検出基準を満たさないと判定する。
不一致である場合は、物品の置き去り行動、物品の持ち去り行動、物品の受け渡し行動が発生している可能性がある。例えば、グループ変遷が「帰属有無:{帰属あり、帰属なし、帰属あり}、帰属数:2」である場合は、物品が持ち込まれた後に置かれ、その後に持ち去られたこと、さらには持ち込んだ人物と持ち去った人物が異なる可能性があり、間接的な受け渡しが発生した可能性がある。
要注視行動の検出基準を満たすグループ変遷が検出された場合(ステップS507にてYES)、低混雑時検出手段520は、当該グループ変遷についての要注視情報を生成する(ステップS508)。低混雑時検出手段520は、当該グループ変遷が満たした検出基準と対応する事象名「置き去り/持ち去り/受け渡しの可能性あり」、注目している物品領域の座標を要注視情報として生成する。
他方、グループ変遷が検出基準を満たさない場合(ステップS507にてNO)、ステップS508は省略される。
低混雑時検出手段520は、全ての物品領域を処理し終えたか否かを判定し(ステップS509)、未処理の物品領域がある場合は(ステップS509にてNO)、処理をステップS503に戻して次の物品領域に対する処理に移行させ、全ての物品領域を処理し終えた場合は(ステップS509にてYES)、処理を図5のステップS6へ進める。また、低混雑時検出手段520は、現時刻の処理結果を次時刻以降の処理のために記憶部4に記憶させておく。
なお、以上では、低混雑時検出手段520が物品領域を含む物体グループのグループ変遷を行動特徴量として算出する例を示したが、人物領域のみからなる物体グループのグループ変遷を行動特徴量として算出することもできる。さらに物体グループ中の人物領域の形状特徴量を当該人物領域から他の物体領域に手を伸ばす姿勢を表す行動特徴量として算出し、グループ変遷と手を伸ばす姿勢を合わせて検出基準としてもよい。或いは、静的な形状特徴量に代えて、動的な特徴量である、手を伸ばす動きを表す人物領域の形状変化量を用いてもよい。
再び図5を参照する。画像処理部5は、再び行動特徴量抽出手段51として動作し、区分結果に中混雑領域の情報が含まれているか否かを確認する(ステップS6)。行動特徴量抽出手段51は、中混雑領域の情報が含まれている場合は(ステップS6にてYES)、処理を中混雑領域の要注視行動検出処理(ステップS7)に進める。他方、中混雑領域の情報が含まれていない場合(ステップS6にてNO)、行動特徴量抽出手段51はステップS7を省略して処理をステップS8に進める。
図7のフローチャートを参照し、中混雑領域の要注視行動検出処理を説明する。行動特徴量抽出手段51はこの処理を中混雑時抽出手段511として実行し、要注視行動検出手段52はこの処理を中混雑時検出手段521として実行する。
まず、中混雑時抽出手段511は、中混雑領域の監視画像から変化領域を検出して、当該変化領域と人の上半身の形状を模した形状モデルとのモデルマッチング処理によって、中混雑領域の監視画像から個々の人の位置(物体位置)を検出する(ステップS700)。中混雑時抽出手段511は、予め無人時の監視画像などから生成して記憶部4に記憶させてある背景画像とステップS1で取得した監視画像の、中混雑領域内における輝度差が閾値以上である画素を抽出し、抽出した画素のまとまりを変化領域とする。中混雑時抽出手段511は、当該変化領域における監視画像からエッジ画像を生成する。中混雑時抽出手段511は、人の上半身の形状を模した複数の形状モデルを、中混雑度に適合する範囲内の個数で変化領域内に複数通りに配置して、配置ごとにエッジ画像との一致度を算出し、一致度が最大の配置を特定する。そして、中混雑時抽出手段511は、特定した配置における各形状モデルの位置それぞれを物体位置とする。
次に、中混雑時抽出手段511は、距離閾値TDM以下で近接している物体位置のペアが連鎖してなる物体グループを検出する(ステップS701)。また、中混雑時抽出手段511は、各物体グループの外接矩形を当該物体グループの領域として算出する。なお、外接矩形に代えて、物体位置同士を結んだ線分と連鎖の始端・終端を結んだ線分とを輪郭線とする幾何学図形を物体グループの領域として算出してもよい。
続いて、中混雑時抽出手段511は、各物体グループの領域を順次注目グループに設定して(ステップS702)、ステップS702〜S709のループ処理を行う。
物体グループのループ処理において、まず、中混雑時抽出手段511は、注目している物体グループ領域の追跡すなわち当該物体グループの領域と過去に中混雑領域の監視画像から検出された物体グループの領域との対応付けを行う(ステップS703)。中混雑時抽出手段511は、ステップS701で検出した物体グループの領域と所定以上の割合で重複している過去の物体グループの領域を検出して、注目グループに対応付ける。
次に、中混雑時抽出手段511は注目している物体グループにおける動き分布を算出する(ステップS704)。中混雑時抽出手段511は、注目している物体グループに含まれる物体位置と、ステップS703で検出した過去の複数時刻の物体グループの領域それぞれに含まれる物体位置から、対応する各物体位置の時刻ごとの移動ベクトルを算出し、これらの移動ベクトルから注目グループに含まれる物体位置ごとに移動方向の頻度分布を算出する。なお、前後する時刻の物体位置の間で最も近い物体位置を対応づける。
さらに、中混雑時抽出手段511は、注目グループに含まれる物体位置ごとに、上記移動ベクトルを基に移動予測をおこない、中混雑領域内での予測軌跡に沿って、各人物が移動する確率を加算していく移動予測確率マップPM3を生成する。なお1人あたりの確率は、中混雑領域内に存在する人数分の1とする。
移動方向の頻度分布および移動予測確率マップを算出した画像処理部5は中混雑時検出手段521として動作し、記憶部4は検出基準記憶手段40として動作する。
まず、中混雑時検出手段521は、検出基準記憶手段40から中混雑時の検出基準を読み出す(ステップS705)。すなわち、中混雑時検出手段521は、特定の移動方向に偏った頻度を有する複数の移動方向の頻度分布とその閾値TM1を読み出す。また偏りの無い移動方向の頻度分布とその閾値TM2を読み出す。併せて、移動予測確率マップに適用する閾値であって人が同一方向に向かうことを示す閾値TM3を読み出す。これら頻度分布および確率マップは要注視パターンに相当する。
次に、中混雑時検出手段521は、ステップS704で算出した移動方向の頻度分布を対応する検出基準と比較して類似度を算出する(ステップS706)。中混雑時検出手段521は、ステップS704で算出した移動方向の頻度分布と偏った頻度を有する複数のパターンとの重複面積SM1、偏りの無い頻度を有するパターンとの重複面積SM2を算出する。
続いて、中混雑時検出手段521は、ステップS704で算出した移動方向の頻度分布および移動予測確率マップが要注視行動の検出基準を満たすか否かを判定する(ステップS707)。
中混雑時検出手段521は、ステップS704で算出した移動予測確率マップ上の確率PM3と閾値TM3を比較し、中混雑領域中にPM3≧TM3となる領域がある場合は、検出基準を満たす候補と判断し、全ての領域がPM3<TM3である場合は検出基準を満たさないと判断する。
そして、中混雑時検出手段521は、PM3≧TM3となる領域がある物体グループについて重複面積SM1と閾値TM1を比較し、SM1≧TM1である場合は検出基準を満たすと判定し、SM1<TM1である場合は検出基準を満たさないと判定する。
また、中混雑時検出手段521は、PM3≧TM3となる領域がある物体グループについて、重複面積SM2と閾値TM2を比較し、SM2≧TM2である場合は検出基準を満たすと判定し、SM2<TM2である場合は検出基準を満たさないと判定する。
PM3≧TM3となる領域があり且つSM1≧TM1であれば、物体グループをなす各物体位置が特定の位置に向かって移動し、さらに移動方向が一致していることから、当該物体グループは行列を生成している。
PM3≧TM3となる領域があり且つSM2≧TM2であれば、物体グループをなす各物体位置が特定の位置に向かって移動し、さらに移動方向が略均等であることから、当該物体グループは、特定位置に向かって囲い込む行動をとっており、急病人や喧嘩などのトラブルが生じている可能性を示す。
要注視行動の検出基準を満たす動き分布が検出された場合(ステップS707にてYES)、中混雑時検出手段521は、当該動き分布についての要注視情報を生成する(ステップS708)。中混雑時検出手段521は、当該動き分布が満たした検出基準と対応する事象名「行列発生」または/および「囲い込み発生」、注目している物体グループの領域の座標を要注視情報として生成する。
他方、検出基準を満たす動き分布が検出されなかった場合(ステップS707にてNO)、ステップS708は省略される。
中混雑時検出手段521は、全ての物体グループを処理し終えたか否かを判定し(ステップS709)、未処理の物体グループがある場合は(ステップS709にてNO)、処理をステップS702に戻して次の物体グループに対する処理に移行させ、全ての物体グループを処理し終えた場合は(ステップS709にてYES)、処理を図5のステップS8へ進める。また、中混雑時検出手段521は、現時刻の処理結果を次時刻以降の処理のために記憶部4に記憶させておく。
なお、以上では、中混雑時検出手段521が人物位置の動き分布を物体グループにおける行動特徴量として算出する例を示したが、人物位置の動き分布に代えて、人物位置間の距離の変化量、物体グループの領域の形状または物体グループの領域の形状変化量を物体グループにおける行動特徴量とすることもできる。
再び図5を参照する。画像処理部5は、再び行動特徴量抽出手段51として動作し、区分結果に高混雑領域の情報が含まれているか否かを確認する(ステップS8)。行動特徴量抽出手段51は、高混雑領域の情報が含まれている場合は(ステップS8にてYES)、処理を高混雑領域の要注視行動検出処理(ステップS9)に進める。他方、高混雑領域の情報が含まれていない場合(ステップS8にてNO)、行動特徴量抽出手段51はステップS9を省略して処理をステップS10に進める。
図8のフローチャートを参照し、高混雑領域の要注視行動検出処理を説明する。行動特徴量抽出手段51はこの処理を高混雑時抽出手段512として実行し、要注視行動検出手段52はこの処理を高混雑時検出手段522として実行する。
高混雑領域では、高混雑領域そのものが不特定多数の人の集団を表す物体グループに設定される。
まず、高混雑時抽出手段512は、高混雑領域での時空間セグメンテーションを行う(ステップS900)。高混雑時抽出手段512は、記憶部4から過去4時刻の監視画像を読み出し、それらと現時刻の監視画像を時刻順に並べた時空間画像の高混雑領域において、画素位置および撮影時刻が隣接する画素間にて画素値の相違度を算出し、相違度が小さければ同一セグメントとして結合させる、という処理を繰り返すことで、複数の時空間セグメントに分割する。
次に、高混雑時抽出手段512は、ステップS900にて生成した各時空間セグメントを構成するセグメントの動きベクトルを算出する(ステップS901)。高混雑時抽出手段512は、複数の時空間セグメントのそれぞれを構成する5時刻分のセグメントそれぞれの重心を求め、時空間セグメントごとに重心位置の時間変化を一次近似して動きベクトルを算出する。
続いて、高混雑時抽出手段512は、ステップS901にて算出した複数の動きベクトルからセグメントの動き分布を算出する(ステップS902)。高混雑時抽出手段512は、複数のセグメントそれぞれの動きベクトルと当該セグメントの周囲のセグメントの動きベクトルとの差ベクトルの平均ベクトル(相対動きベクトル)を算出して、複数のセグメントそれぞれの重心と相対動きベクトルを対応付けた動き分布を算出する。なお、注目セグメントに隣接するセグメントを注目セグメントの周囲のセグメントとしてもよいし、注目セグメントの重心から予め定めた半径の円内に重心が含まれるセグメントを注目セグメントの周囲のセグメントとしてもよい。
動き分布を算出した画像処理部5は高混雑時検出手段522として動作し、記憶部4は検出基準記憶手段40として動作する。
まず、高混雑時検出手段522は、検出基準記憶手段40から高混雑時の検出基準を読み出す(ステップS903)。すなわち、高混雑時検出手段522は、高混雑領域の動き分布の正常パターンと閾値TH1、閾値TH2を読み出す。
次に、高混雑時検出手段522は、ステップS902で算出した分布を検出基準と比較して相違度を算出する(ステップS904)。高混雑時検出手段522は、ステップS902で算出した動き分布とその正常パターンの間で対応するセグメントの相対動きベクトルどうしの差ベクトルの大きさを閾値TH1と比較して、差ベクトルの大きさが閾値TH1以上であるセグメントの総面積DH2を算出する。なお、注目セグメントの重心に最も近い重心を有するセグメントを注目セグメントに対応するセグメントとしてもよいし、注目セグメントの重心から予め定めた半径の円内に重心が含まれるセグメントを注目セグメントに対応するセグメントとしてもよい。
続いて、高混雑時検出手段522は、ステップS902で算出した分布が要注視行動の検出基準を満たすか否かを判定する(ステップS905)。高混雑時検出手段522は、総面積DH2を閾値TH2と比較し、DH2≧TH2である場合は検出基準を満たすと判定し、DH2<TH2である場合は検出基準を満たさないと判定する。
DH2≧TH2である場合は、高混雑領域中に他の大勢の動きとは異なる動きが生じており、人の集団移動の中での逆行や滞留など、ひったくり後の逃走行動もしくはひったくり前の接近行動等が発生している可能性がある。
要注視行動の検出基準を満たす動き分布が検出された場合(ステップS905にてYES)、高混雑時検出手段522は、当該動き分布についての要注視情報を生成する(ステップS906)。高混雑時検出手段522は、当該動き分布が満たした検出基準と対応する事象名「ひったくりなどの可能性あり」、抽出対象領域である高混雑領域において差ベクトルの大きさが閾値TH1以上であったセグメントの重心座標を要注視情報として生成する。
他方、動き分布が検出基準を満たさない場合(ステップS905にてNO)、ステップS906は省略される。
なお、以上では、高混雑時抽出手段512がセグメントの動き分布を物体グループにおける行動特徴量として算出し、特にセグメントの相対動きベクトルをセグメントの動き分布として算出する例を示したが、全セグメントの動き分布そのままをセグメントの動き分布として算出してもよい。または、動き分布に代えて、高混雑領域の全体形状、高混雑領域の全体形状の変化量を物体グループにおける行動特徴量とすることもできる。なお、複数の高混雑領域が検出された場合、動き分布は複数の高混雑領域にわたって算出することもでき、高混雑領域ごとに算出することもできる。他方、全体形状および全体形状の変化量は高混雑領域ごとに算出するのがよい。
こうして高混雑領域についての処理を終えた高混雑時検出手段522は、処理を図5のステップS10へ進める。また、高混雑時検出手段522は、現時刻の処理結果を次時刻以降の処理のために記憶部4に記憶させておく。
再び図5を参照する。要注視行動検出手段52は、図6のステップS508、図7のステップS708、図8のステップS906で要注視情報が生成されたか否かを確認し(ステップS10)、1以上の要注視情報が生成された場合は(ステップS10にてYES)、それらの要注視情報を参照して、監視画像の要注視行動が検出された座標と対応する位置に枠などを重畳するとともに要注視行動の事象名を重畳して要注視情報を再生成し、再生成した要注視情報を通信部3に出力する(ステップS11)。要注視情報を入力された通信部3は、要注視情報出力手段31として動作し、当該要注視情報を報知部6に送信する。報知部6は要注視情報を受信して表示する。表示内容を見た監視員は対処の必要性を判断し、必要と判断すると対処員を急行させる。
以上の処理を終えると、画像処理部5は処理を再びステップS1に戻し、次の監視画像の処理を行う。
以上で述べたように、画像監視装置は、領域区分手段50が監視画像を人の混雑度ごとの領域に区分し、行動特徴量抽出手段51が混雑度が高い区分領域ほど規模の大きな物体グループを設定して監視画像から当該物体グループにおける人の行動特徴量を抽出するので、混雑度の変化、特に監視画像内で異なる混雑度が混在する変化があっても混雑度に適した単位で行動特徴量を抽出し、抽出した行動特徴量から要注視行動を適確に検出することが可能となる。よって、混雑が生じ得る空間において要注視行動を高精度に検出することが可能となり、監視員による監視効率が向上する。
また、画像監視装置においては、行動特徴量抽出手段51は、高混雑領域においては当該高混雑領域を物体グループに設定して行動特徴量を抽出し、高混雑領域以外の区分領域においては当該区分領域の監視画像から個々の物体を検出して当該検出した物体のうち所定距離以下で近接する複数の物体からなる物体グループを設定して行動特徴量を抽出するので、オクルージョンや物体同士の接近が常時発生している高混雑領域においては、個々の物体の情報を用いることによる要注視行動の誤検出を防止しつつ、それ以外の区分領域では個々の物体の情報から行動特徴量を抽出して要注視行動を高精度に検出することが可能となり、監視員による監視効率が向上する。
また、画像監視装置においては、行動特徴量抽出手段51は、中混雑領域においては当該中混雑領域にて設定した物体グループに属する複数の物体の位置の特徴量を行動特徴量として抽出し、低混雑領域においては当該低混雑領域にて検出された物体グループに属する物体の領域の特徴量を行動特徴量として抽出するので、低混雑領域と比べてオクルージョンや物体同士の接近が発生し易い中混雑領域にて物体領域の情報を用いることによる要注視行動の誤検出を防止しつつ、低混雑領域では物体領域の情報から行動特徴量を抽出して要注視行動を高精度に検出することが可能となり、監視員による監視効率が向上する。
<変形例>
(1)上記実施形態においては、混雑度を3段階で定義し、2.0人/m2および4.0人/m2をその境界とする例を示したが、段階数は採用する行動特徴量の種類や特性に合わせて2段階、4段階、…などと適宜に定義でき、またその境界も採用する行動特徴量の特性に合わせて適宜に定義できる。
(2)上記実施形態およびその変形例においては、行動特徴量抽出手段51および要注視行動検出手段52が低、中、高混雑領域の順に処理を実行する例を示したが、高、中、低混雑領域の順に処理を実行するなど、これらの順序を入れ替えて実行してもよいし、これらの処理を並列して実行してもよい。
(3)上記実施形態およびその変形例においては、特定種類の行動特徴量を用いて要注視行動を検出する画像監視装置の例を示したが、その変形例に係る画像監視装置においては、これらの行動特徴量のうちの複数種類の行動特徴量を抽出して各行動特徴量に対応する要注視行動を検出することもできる。
(4)上記実施形態およびその変形例においては、混雑度の段階と物体グループの規模とが1対1に対応する例を示したが、その一部にN対1(N>1)の対応関係が混在してもよい。例えば、行動特徴量抽出手段51は、低混雑領域および中混雑領域において所定距離以内に近接している人物位置が連鎖してなる物体グループを設定して当該物体グループにおける人物位置(物体位置)の特徴量を行動特徴量Aとして抽出し(2対1の関係)、高混雑領域においては当該高混雑領域を物体グループに設定してその特徴量を行動特徴量Bとして抽出する(1対1の関係)ようにしてもよい。
(5)上記実施形態およびその変形例においては、領域区分手段50が区分した領域のいずれもが要注視行動を検出する検出対象に定められた例を示したが、領域区分手段50が区分した領域の一部を検出対象と定めない場合もある。例えば、領域区分手段50が上記低混雑領域をさらに無人画像のクラスに属する領域と低密度画像のクラスに属する領域を区分し、前者は検出対象と定められず後者は検出対象と定められる場合がある。或いは、例えば、領域区分手段50が上記高低混雑領域をさらに4.0人/m2より高く5.0人/m2以下の密度で人が写っていると推定される領域と5.0人/m2よりも高い密度で人が写っていると推定される領域に区分し、前者は検出対象と定められ後者は検出対象と定められずに区分された時点で報知の対象とする場合がある。これらの場合、行動特徴量抽出手段51は、混雑度ごとの区分領域のうちの検出対象に定められた混雑度の区分領域について、混雑度が高いほど規模の大きな物体グループにおける人の行動特徴量を抽出する。
(6)上記実施形態およびその変形例においては、領域区分手段50が多クラスSVM法にて学習した密度推定器を用いる例を示したが、領域区分手段50はこれに代えて、決定木型のランダムフォレスト法、多クラスのアダブースト(AdaBoost)法または多クラスロジスティック回帰法などにて学習した密度推定器など種々の密度推定器を用いることができる。或いは多クラスに分類する密度推定器に代えて、特徴量から密度の値を回帰する回帰型の密度推定器とすることもできる。すなわち領域区分手段50は、リッジ回帰法、サポートベクターリグレッション法または回帰木型のランダムフォレスト法などによって、特徴量から密度を求める回帰関数のパラメータを学習した回帰型の密度推定器を用いて各推定窓における密度を推定し、混雑度ごとに、当該混雑度と対応する密度が推定された推定窓をまとめることによって監視画像を当該混雑度の領域に区分する。