WO2019220589A1

WO2019220589A1 - 映像解析装置、映像解析方法、及びプログラム

Info

Publication number: WO2019220589A1
Application number: PCT/JP2018/019102
Authority: WO
Inventors: 孝之瀬光; 利貞毬山
Original assignee: 三菱電機株式会社
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2019-11-21
Also published as: GB2587555A; JP6779410B2; US11417134B2; GB2587555C; GB202017860D0; US20210064857A1; GB2587555B; JPWO2019220589A1

Abstract

監視カメラ（２）からの映像情報から人物画像を検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得る人物検出部（１１）と、人物検出部（１１）によって得られた人物画像情報及び人物の属性情報を、人物絞り込みルールに基づき、人物画像情報を絞り込み、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得る人物絞り込み部（１２）とを備える。

Description

映像解析装置、映像解析方法、及びプログラム

　この発明は、映像解析装置、映像解析方法及びプログラムに係り、特に、映像から人物の行動を認識する技術に関する。

　監視空間にて対象物としての人を監視カメラの監視画像によって検出、解析、追跡し、追跡結果に基づいて、不審人物を検出する技術として、特許文献１が知られている。
　特許文献１に示された技術は次のようなものである。すなわち、監視空間内に設置された監視カメラによって、監視空間を所定の時間間隔で撮影する。対象物を構成する複数の構成部分毎の立体形状を表す部分モデルと、それら部分モデル相互の配置関係とを記述したデータである対象物モデルを記憶させる。記憶された対象物モデルを撮影された監視空間の候補位置に所定の姿勢で仮想的に配置する。対象物モデルを投影条件に基づいて透視投影して、部分モデルが投影される部分モデル可視領域を部分モデル毎に求める。撮影された監視空間の監視画像から部分モデル可視領域に対応する部分を対象物の構成部分画像として抽出する。構成部分画像の所定の画像特徴から対象物の存在を判定する。

特開２０１０－２９７６号公報

　特許文献１に示された従来の技術では、監視空間内を撮影した監視カメラの監視画像に対して、複数の構成部分毎の立体形状を表す部分モデルを有する対象物モデルを用いて監視画像中における人の検出及び追跡の精度の向上を可能としている。
　しかし、所定の時間間隔で撮影した監視カメラの監視画像（シーン）によっては人物検出の精度が下がってしまうため、対象物モデルの精度を高める必要があり、適用先のシーンにおいて検出したい対象のサンプルを収集し、対象物モデルを更新するなどの必要があった。

　この発明は上記した課題を解決するもので、監視カメラからの映像情報から人物の行動を認識する新たな映像解析装置を得ることを目的とする。

　この発明に係る映像解析装置は、監視カメラからの映像情報から人物画像を検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得る人物検出部と、この人物検出部によって得られた人物画像情報及び人物の属性情報を、人物絞り込みルールに基づき、人物画像情報を絞り込み、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得る人物絞り込み部とを備える。

　この発明によれば、監視カメラからの映像情報から検出された人物画像情報を、人物絞り込み部により絞り込むので、人物の誤認識を効率的に削減できる。

この発明の実施の形態１に係る映像解析装置１を備えた映像解析システムを示すブロック図である。この発明の実施の形態１に係る映像解析装置１を示す機能構成図である。ピンホールカメラを床面と平行に設置した際の人物が画面に映る様子を説明する図である。実際に床面に対し平行よりやや見下ろす角度で監視カメラ２を設置した際、画面の高さに対する人物矩形の大きさの関係をプロットした図であるこの発明の実施の形態１に係る映像解析装置１のハードウェア構成を示す構成図である。この発明の実施の形態１に係る映像解析装置１におけるイベント認識の処理フローを示すフローチャートである。この発明の実施の形態２に係る映像解析装置１において、監視カメラ２が監視空間５における通路６の通行方向に直角、かつ仰角浅めに撮影した場合に得られる通路マップを示す図である。この発明の実施の形態２に係る映像解析装置１において、監視カメラ２を監視空間５における通路６の通行方向正面から撮影した場合に得られる通路マップを示す図である。この発明の実施の形態３に係る映像解析装置１を示す機能構成図である。この発明の実施の形態３に係る映像解析装置１におけるイベント認識の処理フローを示すフローチャートである。

　以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　この発明の実施の形態１について、図１から図６を用いて説明する。
　まず、最初に、この発明の実施の形態１に係る映像解析装置１を備えた映像解析システムについて図１を用いて説明する。
　撮像装置２ａ～２ｃはそれぞれ対応した監視空間内を撮影する。この実施の形態１では撮像装置２ａ～２ｃは監視カメラで有り、以下、総称して監視カメラ２と称す。

　監視カメラ２によって撮像された映像情報はネットワーク３を介して送信される。映像解析装置１は、ネットワーク３を介して受信した映像情報を基にオブジェクト（人物など）を検出し、追跡する。映像解析装置１は、見え方(画像、空間方向)に関するルールと、動き(時間方向)に関するルールを組み合わせて行動を認識し、特に、不審行動、いわゆる逸脱行動を判定し、追跡する。不審行動の判定に際しては、不審者を特定する手掛かりとなる不審行動を定義することで不審者の検知につなげる。例えば、特急車両での検札の際に、乗客の動き検知(オプティカルフロー)と車掌の認識(ＣＮＮ（Convolutional Neural Network）)を組み合わせ、「車掌が入室したタイミングで席を立ち、避けるように退室する乗客」を不審乗客として検出する。このような不審行動の検出は例えばキセル乗車をしているような乗客の認識に繋がる。

　表示装置４はディスプレイなどによって構成され、映像解析装置１にて受信した映像情報、映像解析装置１による検出結果及び追跡結果、検出結果及び追跡結果に基づくイベントの判定結果などを表示する。
　なお、ネットワーク３は有線又は無線などの形態である。
　また、映像解析装置１は、ネットワーク３を介して監視カメラ２の映像情報を受信するものを示したが、これに限るものではなく、監視カメラ２の映像情報をビデオに読み込み、ビデオに読み込まれた監視カメラ２の映像情報を入力するものでも良い。

　次に、この発明の実施の形態１に係る映像解析装置１を、図２に示す機能構成図を用いて説明する。
　人物検出部１１は、ネットワーク３を介して受信、つまり入力した監視カメラ２からの映像情報から人物画像を検出する。この検出は、見え方(画像、空間方向)に関するルールに基づくものであり、例えばＣＮＮ（Convolutional Neural Network）をベースにした機械学習の技術により実現される。
　人物画像の検出結果は、人物画像の矩形情報、検出結果の信頼度、判定に使った特徴マップなどの中間生成物などの人物画像情報として出力される。
　人物画像の検出に際し、属性判定も同時に行なわれる。属性判定としては、性別、年齢、表情、服装などを推定することにより行なわれる。例えば、車両では車掌を、ビルにおいては警備員を、高齢者及び白杖を持っている人（視覚障害者）を、係員などを認識、つまり人物の属性を認識する。
　この人物の属性の認識結果も、人物画像情報とともに人物の属性情報として得られる。

　人物絞り込み部１２は、人物検出部１１にて得られた人物画像情報及び人物の属性情報を、絞り込みルールデータベース（ＤＢ）１３に記憶された人物絞り込みルールに基づき、人物画像情報を絞り込む。絞りこまれた人物画像情報には、それに対応した人物の属性情報も付加される。
　人物絞り込み部１２は、シーン、つまり、監視カメラ２にて撮像された一画像（フレーム）において、監視空間の床面と監視カメラ２の幾何的関係に基づき計算された人物矩形高さ絞り込みルールを用いて、矩形の高さにより、人物矩形候補をスクリーニングする。絞り込みルールデータベース（ＤＢ）１３に記憶された人物絞り込みルールは、この人物矩形高さ絞り込みルールを含む。

　監視空間の床面と監視カメラ２の幾何的関係に基づき計算された人物矩形高さ絞り込みルールの生成、つまり、矩形の高さによる人物矩形候補の選定について、例えば、ピンホールカメラを床面と平行に設置した際、人物が画面に映る様子を説明する図３を用いて説明する。
　図３において、Ｈは全身が映っている場合の人物の高さ、ｈはピンホールカメラに撮像された投射面における人物画像の大きさ、Ｚ１はピンホールカメラから人物画像までの奥行き、Ｚ２はピンホールカメラから投影面までの距離である。
　投射面における人物の大きさｈは次式（１）にて現せる。
　　　ｈ＝Ｈ＊Ｚ２／Ｚ１　　　　　　　　　　　　　　　　　　　　（１）
　この式（１）から理解されるように、人物の高さＨ及びピンホールカメラから投影面までの距離Ｚ２を固定して考えれば、人物画像の大きさｈは人物までの奥行きＺ１に反比例する。

　投射面に撮像された人物画像と人物が平行でない場合、言い換えれば、ピンホールカメラの設置が、床面に対して平行に設置されていない場合でも、３次元幾何を用いて人物画像の大きさｈと人物までの奥行きＺ１の関係を数式で表すことができる。
　この場合、２つの条件が必要である。第１に、ピンホールカメラの内部行列を求めるため、実世界上の座標の相対関係が判っているパターン、例えばチェスボードなどをピンホールカメラにて複数撮影し、撮影した画像からの対応点の抽出である。第２に、ピンホールカメラと床面の幾何関係（外部行列）を計算するため、床面の複数点、具体的には３つ以上の点と画面上の対応点との関係を求めることである。

　このような事前準備はピンホールカメラ設置時に行うことができない場合もある。このような場合、画面上の高さを入力とし人物矩形の高さを出力する関数を近似的に求める方法がある。具体的には非線形でも直線でもよく、区分線形で求めることもできる。これらの関数のパラメータは、例えば、カメラにて撮影された映像から人物の映っている画面上の高さと矩形の高さを抽出し、データから最小二乗法を用いて決定するなどである。
　すなわち、カメラにて撮影された映像から人物の映っている画面上の高さと矩形の高さの関係を抽出する方法である。

　このようにして求める方法を、図４を用いて説明する。図４は、床面に対し平行よりやや見下ろす角度でカメラを設置した際、画面の高さごとの人物矩形の高さの関係をプロットしたものである。横軸に画面上の人物画像の高さを、縦軸に人物矩形の高さを示し、○印は推定値を、＊印は実測値を示す。
　図４は、一つの例として、身長１７０cmの人物に関する画面の高さと人物矩形の高さとの関係を示している。このようにして求めた画面の高さと人物矩形の高さとの関係から、人物の身長について誤差の上限と下限を設定することで受容する画面上の矩形高さ範囲を設定する。例えば、画面の高さごとに求められた人物矩形の高さの上限及び下限を２０％までを許容すれば、画面上の各高さにおいてデータを１７０ｃｍの人物でとっていた場合には１３６ｃｍ～２０４ｃｍまでの人物を検出範囲としていることになる。

　図４に示した例では、身長１７０cmの場合であるが、身長１６０cm、身長１８０cmなども同様にして検出範囲を求めることができる。
　また、画面の高さと人物矩形の高さの関係について、実際に測定した結果を用いてもよく、また、図４からも理解されるように実測値と推定値がほぼ一致していることから、画面の高さ位置ごとに身長を設定し、推定値によって決定しても良い。

　画面の高さに対し人物矩形の高さが一通りに決まるような決め方でなく、画面上の人物画像の高さごとに人物矩形の高さを分布、例えば、正規分布として表現し、分布そのもの又はその分布を表すパラメータを求めるのでもよい。

　このようにして求められた関数を用いて、例えば、一つの例として、１７０cmの人物に対して画面の高さ毎に求められた人物矩形の高さの上限及び下限を２０％までを許容するようにする。
　すなわち、人物絞り込みルールデータベース１３に保管される人物矩形高さ絞り込みルールの一つとして、人物絞り込み部１２によって身長１７０cmの人物を絞り込む場合、身長１３６ｃｍ～２０４ｃｍまでの人物を検出範囲とし、人物矩形の高さの検出範囲を、身長１３６ｃｍ～２０４ｃｍまでの検出範囲に対応させる。
　このようにして求められた人物矩形の高さの検出範囲は、人物矩形高さ絞り込みルールの一つとして人物絞り込みルールデータベース１３の人物絞り込みルールとして保管される。

　この検出範囲は人物矩形の高さの値として直接扱っているものを説明したが、分布の場合は積分値の上限値及び下限値を２０％まで許容するように設定してもよい。
　人物絞り込みルールデータベース１３に保管された人物矩形高さ絞り込みルールである人物矩形の高さの検出範囲に基づいて、人物絞り込み部１２は、シーン毎に人物検出部１１からの人物画像情報を絞り込む。
　このように、人物矩形高さ絞り込みルールである身長に対して上限値及び下限値を２０％まで許容するとの身長に対する上限値及び下限値を設定した人物矩形の高さにより、人物絞り込み部１２により人物画像情報を絞り込む、言い換えれば、上限値及び下限値が設定された人物矩形の高さの範囲から外れた人物矩形を誤認識として抑制するようにしたので、異なったシーン毎に検出したい対象人物のサンプルを抽出して映像解析装置１に学習させることをせずとも、人物画像情報の絞り込みの精度を向上できる。

　人物追跡部１４は、人物絞り込み部１２により絞り込まれた人物画像情報及びそれに対応した人物の属性情報に基づき、絞り込まれた人物画像をシーン毎に追跡する。追跡結果を人物の属性情報とともに得る。
　追跡結果は、以下のようにして得る。すなわち、一シーンである監視カメラ２にて撮像された一画像（フレーム）毎に、現フレームと前フレームの人物矩形の間の二部グラフのマッチング問題と捉え、グラフ問題として解くことにより対応付けを行う。
　このように、検出された人物矩形を基に対応付け問題として人物追跡を行う枠組みはtracking-by-detectionと呼ばれ、カルマンフィルター及び人物ごとの追跡器を学習する方式に比べた時、多人数が登場し互いにすれ違うような複雑なシナリオでもより頑健に処理が可能という利点がある。

　また、人物追跡部１４は、オプティカルフローを用いて現フレームと前フレームの人物矩形の動きをベクトルで表した動きベクトル情報を出力する。
　動きベクトル情報を用いることにより、例えば、イベント会場では客の離着席、通路の移動などが動きとして検出可能であり、ビル及び商業施設では利用者の動きが検出可能である。また、物を持つ、手を挙げるなどの要素行動も認識可能である。

　イベント判定部１５は、人物追跡部１４からの人物の追跡結果とその人物の属性情報を基にイベント検出を行う。人物追跡部１４からの人物の追跡結果は、人物追跡部１４にて用いられた人物矩形がどう推移したかの軌跡を示す軌跡情報であり、また、人物矩形の動きをベクトルで表した動きベクトル情報である。

　イベント判定部１５の判定の一例として、監視空間内に危険領域（床面）が存在し、人物が危険領域に足を踏み入れたか否かを判定する場合を説明する。この場合、イベント判定用データベース１６に危険領域の情報が保管されている。人物絞り込み部１２にて絞り込まれた人物画像情報に対応する人物追跡部１４からの人物の追跡結果である人物矩形の足元（底辺の中点）が、イベント判定用データベース１６に保管された危険領域の中に含まれるかどうかで判定を行う。なお、危険領域の情報をイベント判定用データベース１６に保管する場合を説明したが、表示装置４に示された監視カメラ２にて撮像された画像上を指定することにより危険領域を現しても良い。

　また、イベント判定部１５にて、例えば高齢者を指定し、指定された高齢者の情報と、人物追跡部１４からの人物の追跡結果とその人物の属性情報とを比較、判定し、高齢者の抽出を行なうこともできる。
　なお、指定する高齢者の情報はイベント判定用データベース１６に保管された情報であっても良い。

　さらに、イベント判定部１５では、人物追跡部１４からの複数の人物の追跡結果を組み合わせ、判定する。例えば、係員を指定し、指定された係員の情報と、人物追跡部１４からの人物の追跡結果とその人物の属性情報とを比較、判定し、係員の抽出を行なう。併せて、人物追跡部１４からの人物の追跡結果とその人物の属性情報から人物を特定する。指定した係員が監視カメラ２にて撮像された画像に現れたことをイベント判定部１５が認識した後、監視カメラ２にて撮像された画像から、特定された人物が逃げるように移動を開始したとイベント判定部１５が認識した場合、特定された人物を不審人物と判定し、出力する。「車掌が入室したタイミングで席を立ち、避けるように退室する乗客」を不審乗客として検出することが可能である。
　この場合、イベント判定用データベース１６に、係員の情報、係員の情報と人物追跡部１４からの人物矩形の軌跡情報との関係などルールを記憶しておく。

　イベント判定部１５にて判定された判定情報、危険領域への立ち入りの有無、高齢者の有無、不振人物の有無などの情報は、監視カメラ２によって撮像された映像情報とともに表示装置４に出力されることになる。

　次に、図２に示した映像解析装置１のハードウェア構成を、図５及び図６を用いて説明する。
　映像解析装置１は図５に示したように、ＣＰＵ１０１と、ＲＯＭ１０２と、ＲＡＭ１０３と、及びＨＤＤなどの二次記憶装置１０４と、入力装置１０５と、出力装置１０６と、これら装置１０１から１０６間を接続するバス１０７を備える。
　ＣＰＵ１０１は、ＲＯＭ１０２又はＲＡＭ１０３に記録されたプログラムを読み込み、処理を実行する。

　ＲＯＭ１０２は不揮発性メモリであり、プログラム及びシステムの起動に必要な処理を記録する。
　この実施の形態１では、図６に示す、映像解析装置１におけるイベント認識の処理フローを示すフローチャートを実行するプログラムを記憶している。

　図６に示すフローチャートは、人物検出ステップＳＴ１と、人物絞り込みステップＳＴ２と、人物追跡ステップＳＴ３と、イベント判定ステップＳＴ４により構成される。
　ステップＳＴ１からステップＳＴ４と図２に示した映像解析装置１における人物検出部１１、人物絞り込み部１２、人物追跡部１４、イベント判定部１５との関係は次のようになっている。
　すなわち、人物検出ステップＳＴ１は、人物検出部１１によって実行されるステップに相当し、監視カメラ２からの映像情報から人物画像を、例えばＣＮＮをベースにした機械学習の技術により、見え方(画像、空間方向)に関するルールに基づき検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得るステップである。

　人物絞り込みステップＳＴ２は、人物絞り込み部１２によって実行されるステップに相当し、人物検出ステップＳＴ１によって得られた人物画像情報及び人物の属性情報を受け、人物絞り込みルールに基づき、人物画像情報を絞り込み、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得るステップである。この時の人物絞り込みルールは、絞り込む人物の身長に対して、上限値と下限値とを設定し、上限値から下限値に相当する人物矩形の高さの検出範囲である人物矩形高さ絞り込みルールを含み、二次記憶装置１０４に記憶される。

　人物追跡ステップＳＴ３は、人物追跡部１４によって実行されるステップに相当し、人物絞り込みステップＳＴ２によって絞り込まれた人物画像情報及びそれに対応した人物の属性情報を、シーン毎に追跡し、追跡結果と追跡結果の対象となった人物の属性情報を得るステップである。この時の追跡結果は、人物矩形がどう推移したかの軌跡を示す軌跡情報であり、また、人物矩形の動きをベクトルで表した動きベクトル情報である。

　イベント判定ステップＳＴ４は、イベント判定部１５によって実行されるステップに相当し、人物追跡ステップＳＴ３によって得られた人物の追跡結果とその人物の属性情報を基にイベントの検出を行うステップである。この時のイベントの検出は、人物の動きの有無、例えば危険領域への侵入の有無の判定、指定した人物の有無の判定、不審人物の有無の判定などの判定を行なっての検出である。

　要するに、ＲＯＭ１０２に格納されているプログラムは、映像解析装置１のハードウェアを構成するコンピュータに、人物検出ステップＳＴ１として示した人物検出手順と、人物絞り込みステップＳＴ２として示した人物絞り込み手順と、人物追跡ステップＳＴ３として示した人物追跡手順と、イベント判定ステップＳＴ４として示したイベント判定手順を実行させるためのプログラムである。このプログラムは、ＣＰＵ１０１によりバス１０７を介してＲＯＭ１０２から読み出され、処理が実行される。

　ＲＡＭ１０３は揮発性メモリであり、イベント判定ステップＳＴ４によるイベントの認識、検出の際に生成される特徴マップ及び監視カメラ２によって撮像された映像情報などの一時データを、ＣＰＵ１０１の管理の下、保管され、ＣＰＵ１０１によりバス１０７を介して読み出され、処理が実行される。特徴マップとしては、上記した人物矩形の高さの検出範囲、危険領域の情報、指定する人物の属性情報、人物矩形の軌跡情報などである。

　二次記憶装置１０４はハードディスクドライブなどの記憶装置であり、監視カメラ２によって撮像された映像情報及びプログラムの設定情報などを記録する。記憶された情報はＣＰＵ１０１によりバス１０７を介して読み出され、処理が実行される。
　入力装置１０５はユーザからの入力を受け付けるキーボード及びマウスなどの装置であり、入力された情報はバス１０７を介してＣＰＵ１０１に通知される。
　出力装置１０６は結果を出力する装置で、バス１０７を介して得たＣＰＵ１０１による処理結果を表示装置４に描画するために出力し、また、他の装置に結果ファイルとして転送するためにＣＰＵ１０１による処理結果を出力する。

　次に、このように構成された映像解析装置１の動作について説明する。監視カメラ２にて撮像された映像情報を直接解析する場合も、監視カメラ２にて撮像された映像情報を一旦、二次記憶装置１０４に格納し、二次記憶装置１０４に記憶された映像情報を解析する場合も動作として同じである。
　まず、入力装置１０５から映像解析開始の指示を受けると、ＣＰＵ１０１はＲＯＭ１０２から人物検出手順のプログラムを読み出し、人物検出ステップＳＴ１を実行する。
　その結果、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報が得られる。

　次のステップとして、ＣＰＵ１０１はＲＯＭ１０２から人物絞り込み手順のプログラムを読み出し、人物絞り込みステップＳＴ２を実行する。この時、二次記憶装置１０４に記憶された人物絞り込みルールにおける人物矩形高さ絞り込みルールである人物矩形の高さの検出範囲がＣＰＵ１０１に読み出され、人物画像の検出結果としての人物画像情報が絞りこまれ、絞りこまれた人物画像情報及びそれに対応した人物の属性情報が得られる。

　そして、ＣＰＵ１０１はＲＯＭ１０２から人物追跡手順のプログラムを読み出し、人物追跡ステップＳＴ３を実行する。
　その結果、絞り込まれた人物画像情報及びそれに対応した人物の属性情報を、シーン毎に追跡し、追跡結果と追跡結果の対象となった人物の属性情報が得られる。

　最後に、ＣＰＵ１０１はＲＯＭ１０２からイベント判定手順のプログラムを読み出し、イベント判定ステップＳＴ４を実行する。
　この時、入力装置１０５によるイベントの指示情報に基づき、指示情報に沿った処理がＣＰＵ１０１によって行なわれる。例えば、人物の動きの有無、例えば危険領域への侵入の有無、指定した人物の有無、不審人物の有無などの指示情報に基づき、指示情報に基づいた判定を行い、イベントの検出結果が出力装置１０６を介して出力される。
　出力された結果は、表示装置４に表示され、ユーザに認識されることになる。

　この発明の実施の形態１に係る映像解析装置１は、上記のように構成されており、特に、人物検出部１１が見え方(画像,空間方向)に関するルールに基づき検出し、イベント判定部１５が動き(時間方向)に関するルールに基づき判定しているため、人物の認識精度が高められる。
　さらに、人物絞り込み部１２によって人物絞り込みルールの人物矩形高さ絞り込みルールに基づき、人物画像情報を絞り込むので、人物の誤認識を効率的に削減できる。その結果、異なったシーン毎に検出したい対象人物のサンプルを抽出して映像解析装置１に学習させることをせずとも、人物画像情報の絞り込みの精度を向上できるという効果がある。

実施の形態２．
　次のこの発明の実施の形態２について説明する。
　実施の形態２に係る映像解析装置１は、実施の形態１にて示した映像解析装置１と基本的構成が同じ、つまり、図２に示した機能構成図及び図５に示した構成図と基本的構成が同じである。相違する点は、人物絞り込みルールデータベース１３、ハード的には二次記憶装置１０４に記憶される人物絞り込みルールとして、さらに、監視空間内に通路が存在し、通路内に人物が現れた場合に人物を検出する通路内絞り込みルールを、実施の形態１にて示した映像解析装置１に追加したものである。

　すなわち、図７は、監視空間５内に通路６があり、監視カメラ２の設置角度が通路６の通行方向に直角に、かつ仰角浅めに撮影した通路マップであり、図８は監視カメラ２の設置角度が通路６の通行方向正面から撮影した通路マップである。

　これら通路マップから得られる通路６の通路情報を記憶させるとともに、人物検出部１１からの人物画像情報に対する人物矩形の足元情報と通路情報とを比較し、比較結果として人物矩形の足元情報が通路情報内に位置すると判定したものだけを人物画像情報として絞り込む通路内絞り込みルールを人物絞り込みルールの一つとする。
　この人物絞り込みルールは、人物絞り込みルールデータベース１３、ハード的には二次記憶装置１０４に記憶される。

　また、図６に示した人物絞り込みステップＳＴ２は、人物検出ステップＳＴ１によって得られた人物画像情報及び人物の属性情報を、人物矩形高さ絞り込みルールにより、人物画像情報が絞り込まれ、さらに、通路内絞り込みルールにより、人物画像情報が絞り込まれ、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得るステップとなる。

　なお、人物がよく通る領域を通路６として設定し、設定した領域以外の領域をマスクするマスク画像情報を通路内絞り込みルールとして記憶させ、人物絞り込みステップＳＴ２において、この通路内絞り込みルールにより、マスクされた領域における人物検出ステップＳＴ１によって得られた人物画像情報を抽出せず、マスクされていない設定した領域に対して、人物矩形高さ絞り込みルールにより、人物画像情報が絞り込まれるものでも良い。

　この発明の実施の形態２に係る映像解析装置１は、上記のように構成されており、実施の形態１に係る映像解析装置１に対し、監視空間５内に通路６がある場合、人物絞り込み部１２によって通路内絞り込みルールに基づき、人物画像情報を絞り込むので、人物の誤認識をさらに効率的に削減できる。その結果、異なったシーン毎に検出したい対象人物のサンプルを抽出して映像解析装置１に学習させることをせずとも、人物画像情報の絞り込みの精度を向上できるという効果がある。

実施の形態３．
　この発明の実施の形態３について、図９から図１１を用いて説明する。実施の形態３に係る映像解析装置１は、実施の形態１にて示した映像解析装置１に対して絞り込みルール生成部１７を追加したものである。その他の構成要素については同じである。
　なお、図９から図１１において、図１から図６に示された符号と同一符号は同一又は相当部分を示す。
　以下、絞り込みルール生成部１７を中心に説明する。

　絞り込みルール生成部１７は、人物追跡部１４からの人物の追跡結果とその人物の属性情報を、設定された絞り込み基準により、自己生成絞り込みルールを生成する。人物絞り込みルールはこの自己生成絞り込みルールを含むことになる。
　設定された絞り込み基準は、第１に、人物の追跡結果として現れた人物矩形がランダムな位置に断続的に登場する人物矩形であると誤検出、誤追跡として除き、第２に、人物の追跡結果として現れた人物矩形が同じ位置に滞留している人物矩形を、この人物矩形が誤検出であるか人物が存在するかに係らず、絞り込みルール生成に有用な情報を与えないため除く。

　さらに、時間当たりの監視空間内に現れる人物の数、いわゆる登場人物数が閾値、例えば２人以下の時間帯を抽出する。混雑していない時間帯は矩形の対応付けの候補が少なく、このような手順で抽出した追跡結果は人物検出の結果が精度よく含まれていると考えられる。
　すなわち、登場人物数が閾値以下の時間帯、つまり、監視カメラ２にて撮像された映像に人物が少ない場合、人物絞り込み部１２にて用いる人物の矩形情報に対する、対応付けの候補としての映像における人物が少なく、対応付け精度が高くなり、結果として、人物追跡部１４からの人物の追跡結果の精度が高くなる。
　時間当たりの登場人物数の時間当たりは、監視カメラ２にて撮像された画像の一フレームの時間でもよいし、複数のフレームが現れる時間でも良い。

　このようにして集めた人物追跡結果から、実施の形態１にて説明したと同様にカメラと床面との幾何関係の計算、又はカメラにて撮影された映像から人物の映っている画面上の高さと矩形の高さの関係を抽出する方法で画面上の高さごとの人物矩形の高さを求める関数を計算し、自己生成絞り込みルールとする。

　要するに、時間当たりの登場人物数が閾値以下の時間帯に、人物追跡部１４からの人物の追跡結果として現れた人物矩形の内、ランダムな位置に断続的に登場する人物矩形及び同じ位置に滞留している人物矩形を除いた人物矩形に基づき自己生成絞り込みルールを生成し、人物絞り込みルールデータベース１３に出力する。人物絞り込みルールデータベース１３は自己生成絞り込みルールを人物絞り込みルールの一つとして記憶する。
　この自己生成絞り込みルールの生成は、フレームごとに実施してもよいし、日中データを取りためておいて夜間に実施するなど、処理頻度を下げてもよい。

　人物絞り込みルールデータベース１３では、絞り込みルール生成部１７から出力された自己生成絞り込みルールにより、人物絞り込みルールの自己生成絞り込みルールが更新される。この更新された自己生成絞り込みルールにより、人物絞り込み部１２は、人物検出部１１からの人物画像情報及び人物の属性情報から、人物画像情報を絞り込む。

　この実施の形態３に係る映像解析装置１のハードウェア構成は、図５に示した構成図と同様であり、図１０に示すプログラム、さまり、映像解析装置１におけるイベント認識の処理フローを示すフローチャートを実行するプログラムを、ＲＯＭ１０２が記憶している。
　図１０に示すフローチャートは、人物検出ステップＳＴ１と、人物絞り込みステップＳＴ２と、人物追跡ステップＳＴ３と、イベント判定ステップＳＴ４、絞り込みルール生成ステップＳＴ２１により構成される。

　ステップＳＴ１からステップＳＴ４及びＳＴ２１と図９に示した映像解析装置１における人物検出部１１、人物絞り込み部１２、人物追跡部１４、イベント判定部１５、絞り込みルール生成部１７との関係は次のようになっている。
　すなわち、人物検出ステップＳＴ１は、人物検出部１１によって実行されるステップに相当し、人物絞り込みステップＳＴ２は、人物絞り込み部１２によって実行されるステップに相当し、人物追跡ステップＳＴ３は、人物追跡部１４によって実行されるステップに相当し、イベント判定ステップＳＴ４は、イベント判定部１５によって実行されるステップに相当する。

　絞り込みルール生成ステップＳＴ２１は、絞り込みルール生成部１７に相当し、人物追跡ステップＳＴ３によって得られた人物の追跡結果を基に、上記した基準に基づき自己生成絞り込みルールを生成し、生成した自己生成絞り込みルールを人物絞り込みステップＳＴ２で利用する絞り込みルールに反映する。

　また、ＲＯＭ１０２に格納されているプログラムは、映像解析装置１のハードウェアを構成するコンピュータに、人物検出ステップＳＴ１として示した人物検出手順と、人物絞り込みステップＳＴ２として示した人物絞り込み手順と、人物追跡ステップＳＴ３として示した人物追跡手順と、イベント判定ステップＳＴ４として示したイベント判定手順と、絞り込みルール生成ステップＳＴ２１として示した絞り込みルール生成手順を実行させるためのプログラムである。このプログラムは、ＣＰＵ１０１によりバス１０７を介してＲＯＭ１０２から読み出され、処理が実行される。

　次に、このように構成された映像解析装置１の動作について説明する。
　二次記憶装置１０４に記憶される人物絞り込みルールは、初期状態として実施の形態１に示したと同様に自己生成絞り込みルールを含まない人物絞り込みルールでもよく、また、人物絞り込みルールに自己生成絞り込みルールを持たせた状態でも良い。
　以下、自己生成絞り込みルールを持たない状態で説明するが、実施の形態１に示した映像解析装置１に自己生成絞り込みルールを記憶された状態からでも同様にして自己生成絞り込みルールは更新される。

　入力装置１０５から映像解析開始の指示を受けると、ＣＰＵ１０１はＲＯＭ１０２から人物検出手順のプログラムを読み出し、人物検出ステップＳＴ１を実行したのち、ＣＰＵ１０１はＲＯＭ１０２から人物絞り込み手順のプログラムを読み出し、人物絞り込みステップＳＴ２を実行する。この時、二次記憶装置１０４に人物絞り込みルールとして自己生成絞り込みルールが記憶されていないので、人物検出ステップＳＴ１にて検出された人物画像情報及びそれに対応した人物の属性情報が自己生成絞り込みルールに基づいて絞りこまれない。

　そして、ＣＰＵ１０１はＲＯＭ１０２から人物追跡手順のプログラムを読み出し、人物追跡ステップＳＴ３を実行する。
　その後、ＣＰＵ１０１はＲＯＭ１０２から絞り込みルール生成手順のプログラムを読み出し、絞り込みルール生成ステップＳＴ２１を実行する。
　その結果、上記した基準に基づき自己生成絞り込みルールが生成され、生成された自己生成絞り込みルールを二次記憶装置１０４に人物絞り込みルールの一つとして記憶される。

　監視カメラ２にて撮像された映像の次のフレームは、二次記憶装置１０４に記憶された人物絞り込みルールに基づき、人物画像情報が絞りこまれ、絞りこまれた人物画像情報及びそれに対応した人物の属性情報が得られる。
　このような処理が繰り返されることにより、二次記憶装置１０４に記憶される人物絞り込みルールの自己生成絞り込みルールは精度が向上し、人物画像情報の絞り込みの精度も高まる。
　人物画像情報の絞り込みの精度が高まった状態で、人物追跡及びイベントの判定が行なわれることになる。

　この発明の実施の形態３に係る映像解析装置１は、上記のように構成されており、実施の形態１に係る映像解析装置１と同様の効果を奏する他、絞り込みルール生成部１７にて人物絞り込みルールの一つとして自己生成絞り込みルールが生成され、人物画像情報の絞り込みに自己生成絞り込みルールが用いられるので、人物画像情報の絞り込みの精度がさらに向上し、人物の誤認識を効率的に削減できる。その結果、異なったシーン毎に検出したい対象人物のサンプルを抽出して映像解析装置１に学習させることをせずとも、人物画像情報の絞り込みの精度を向上できるという効果がある。

実施の形態４．
　次に、この発明の実施の形態４について説明する。
　実施の形態４に係る映像解析装置１は、実施の形態３にて示した映像解析装置１と基本的構成が同じ、つまり、図９に示した機能構成図及び図５に示した構成図と基本的構成が同じである。相違する点は、人物絞り込みルールデータベース１３、ハード的には二次記憶装置１０４に記憶される人物絞り込みルールとして、さらに、監視空間内に通路が存在し、通路内に人物が現れた場合に人物を検出する通路内絞り込みルールを、実施の形態３にて示した映像解析装置１に追加したものである。

　すなわち、図７及び図８に示した通路マップから得られる通路６の通路情報を記憶させるとともに、人物検出部１１からの人物画像情報に対する人物矩形の足元情報と通路情報とを比較し、比較結果として人物矩形の足元情報が通路情報内に位置すると判定したものだけを人物画像情報として絞り込む通路内絞り込みルールを人物絞り込みルールの一つとして追加する。
　この人物絞り込みルールの通路内絞り込みルールは、人物絞り込みルールデータベース１３、ハード的には二次記憶装置１０４に記憶される。

　また、図１０に示した人物絞り込みステップＳＴ２は、人物検出ステップＳＴ１によって得られた人物画像情報及び人物の属性情報を、人物矩形高さ絞り込みルールにより、人物画像情報が絞り込まれ、通路内絞り込みルールにより、人物画像情報が絞り込まれ、さらに、絞り込みルール生成ステップＳＴ２１によって生成され、順次更新される自己生成絞り込みルールにより、人物画像情報が絞り込まれ、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得るステップとなる。

　上記した実施の形態４では、通路内絞り込みルールとして図７及び図８に示した通路マップから得られる通路６の通路情報を記憶させることによって行なったものを示したが、絞り込みルール生成部１７によって通路内絞り込みルールを作成するものであっても良い。

　すなわち、通路領域以外をマスクするマスク画像を生成し、このマスク画像を通路内絞り込みルールとする。
　まず、絞り込みルール生成部１７にてマスク画像を初期化し、領域指定がされていない、例えば黒塗り状態とするマスク画像情報とする。
　その後、絞り込みルール生成部１７は、人物追跡部１４からの人物の追跡結果における人物矩形ごとに底辺の中点を足元位置として求め、人物絞り込みルールデータベース１３に記憶されたマスク画像に対して、足元位置を中心に白の円を描く。この時、円の半径は一定の値でもよいし、矩形の大きさに比例するように決めてもよい。また、円でなくてほかの図形、例えば矩形の形を描いてもよい。人物の追跡結果における人物矩形のすべてについて、白の図形の描画を終えた時、マスク画像上の白い領域を通路領域と定義する。このようにして求め、白い領域を通路領域として定義したマスク画像情報を通路内絞り込みルールとして人物絞り込みルールデータベース１３に記憶させる。
　なお、円の描画において、白色で描画するのではなく、描画された回数を加算する。具体的には描画対象（フレーム）の画素ごとにカウンタに１加算する方式でもよい。このようにして求めた画素ごとのカウントは人物の登場頻度に比例した値になっており、例えば人物検出結果の信頼度と積を取り、ある一定の閾値を超えたもののみ検出結果として採用することで領域による人物の登場しやすさを考慮した検出ができる。

　この発明の実施の形態４に係る映像解析装置１は、上記のように構成されており、実施の形態３に係る映像解析装置１に対し、監視空間５内に通路６がある場合、人物絞り込み部１２によって通路内絞り込みルールに基づき、人物画像情報を絞り込むので、人物の誤認識をさらに効率的に削減できる。その結果、異なったシーン毎に検出したい対象人物のサンプルを抽出して映像解析装置１に学習させることをせずとも、人物画像情報の絞り込みの精度を向上できるという効果がある。

　なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　この発明に係る映像解析装置は、商業施設、空港、駅、ビル、イベント会場などに設置された監視カメラの映像を解析し、人物を追跡し、イベントを検出し、防犯及びマーケティングに役立てるために使用する映像解析装置に適用される。車両などに設置された監視カメラの映像を解析し、人物を追跡し、乗客の不審行動の検出のために使用する映像解析装置に適用される。

　１　映像解析装置、１１　人物検出部、１２　人物絞り込み部、１３　人物絞り込みルールデータベース、１４　人物追跡部、１５　イベント判定部、１７　絞り込みルール生成部、１０１　ＣＰＵ、１０２　ＲＯＭ、１０３　ＲＡＭ、１０４　二次記憶装置、ＳＴ１　人物検出ステップ、ＳＴ２　人物絞り込みステップ、ＳＴ３　人物追跡ステップ、ＳＴ４　イベント判定ステップ、ＳＴ２１　絞り込みルール生成ステップ。

Claims

　監視カメラからの映像情報から人物画像を検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得る人物検出部と、
　前記人物検出部によって得られた人物画像情報及び人物の属性情報を、人物絞り込みルールに基づき、人物画像情報の絞り込みを行い、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得る人物絞り込み部と、
　を備えた映像解析装置。
　前記人物絞り込みルールは、人物の身長に対応して上限値及び下限値が設定された人物矩形の高さの検出範囲から外れた人物矩形を誤認識として抑制する人物矩形高さ絞り込みルールを含むことを特徴とする請求項１記載の映像解析装置。
　前記人物絞り込みルールは、人物矩形の足元情報が前記監視カメラによる監視空間の通路情報内に位置すると判定したものに絞り込む通路内絞り込みルールを含むことを特徴とする請求項１又は請求項２記載の映像解析装置。
　前記人物絞り込み部によって絞り込まれた人物画像情報及びそれに対応した人物の属性情報における追跡結果と追跡結果の対象となった人物の属性情報を得る人物追跡部と、
　前記人物追跡部によって得られた人物の追跡結果とその人物の属性情報を基にイベントの検出を行うイベント判定部と、
　を備えた請求項１から請求項３のいずれか１項に記載の映像解析装置。
　前記人物絞り込み部によって絞り込まれた人物画像情報及びそれに対応した人物の属性情報における追跡結果と追跡結果の対象となった人物の属性情報を得る人物追跡部と、
　前記人物追跡部によって得られた人物の追跡結果とその人物の属性情報を基にイベントの検出を行うイベント判定部と、
　前記人物追跡部によって得られた人物の追跡結果とその人物の属性情報を、設定された絞り込み基準により、自己生成絞り込みルールを生成する絞り込みルール生成部と、
　を備え、
　前記人物絞り込みルールは前記自己生成絞り込みルールを含むことを特徴とする請求項１又は請求項２記載の映像解析装置。
　前記設定された絞り込み基準により生成された自己生成絞り込みルールは、前記人物追跡部によって得られた人物の追跡結果として現れた時間当たりの人物矩形の数が閾値以下の時間帯に、前記人物追跡部によって得られた人物の追跡結果として現れた人物矩形の内、ランダムな位置に断続的に登場する人物矩形及び同じ位置に滞留している人物矩形を除いた人物矩形に基づくルールであることを特徴とする請求項５記載の映像解析装置。
　前記人物絞り込みルールは、人物矩形の足元情報が前記監視カメラによる監視空間の通路情報内に位置すると判定したものに絞り込む通路内絞り込みルール含むことを特徴とする請求項５又は請求項６記載の映像解析装置。
　前記通路内絞り込みルールは、前記絞り込みルール生成部により生成され、前記人物追跡部からの人物の追跡結果における人物矩形の足元位置情報に基づき通路領域として定義したマスク画像情報であることを特徴とする請求項７記載の映像解析装置。
　監視カメラからの映像情報から人物画像を検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得る人物検出ステップと、
　前記人物検出ステップによって得られた人物画像情報及び人物の属性情報を、人物絞り込みルールに基づき、人物画像情報を絞り込み、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得る人物絞り込みステップと、
　を備えた映像解析方法。
　前記人物絞り込みステップによって絞り込まれた人物画像情報及びそれに対応した人物の属性情報における追跡結果と追跡結果の対象となった人物の属性情報を得る人物追跡ステップと、
　前記人物追跡ステップによって得られた人物の追跡結果とその人物の属性情報を基にイベントの検出を行うイベント判定ステップと、
　前記人物追跡ステップによって得られた人物の追跡結果とその人物の属性情報を、設定された絞り込み基準により、自己生成絞り込みルールを生成する絞り込みルール生成ステップと、
　を備え、
　前記人物絞り込みルールは前記自己生成絞り込みルールを含むことを特徴とする請求項９記載の映像解析方法。
　前記人物絞り込みルールは、人物の身長に対応して上限値及び下限値が設定された人物矩形の高さの検出範囲から外れた人物矩形を誤認識として抑制する人物矩形高さ絞り込みルールを含むことを特徴とする請求項９又は請求項１０記載の映像解析方法。
　前記人物絞り込みルールは、人物矩形の足元情報が前記監視カメラによる監視空間の通路情報内に位置すると判定したものに絞り込む通路内絞り込みルールを含むことを特徴とする請求項９から請求項１１のいずれか１項に記載の映像解析方法。
　コンピュータに、
　監視カメラからの映像情報から人物画像を検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得る人物検出手順と、
　前記人物検出手順によって得られた人物画像情報及び人物の属性情報を、人物絞り込みルールに基づき、人物画像情報を絞り込み、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得る人物絞り込み手順と、
　を実行させるためのプログラム。
　前記コンピュータに実行させる手順として、さらに、
　前記人物絞り込み手順によって絞り込まれた人物画像情報及びそれに対応した人物の属性情報における追跡結果と追跡結果の対象となった人物の属性情報を得る人物追跡手順と、
　前記人物追跡手順によって得られた人物の追跡結果とその人物の属性情報を基にイベントの検出を行うイベント判定手順と、
　前記人物追跡手順によって得られた人物の追跡結果とその人物の属性情報を、設定された絞り込み基準により、自己生成絞り込みルールを生成する絞り込みルール生成手順と、
　を備え、
　前記人物絞り込みルールは前記自己生成絞り込みルールを含むことを特徴とする請求項１３記載のプログラム。
　前記人物絞り込みルールは、人物の身長に対応して上限値及び下限値が設定された人物矩形の高さの検出範囲から外れた人物矩形を誤認識として抑制する人物矩形高さ絞り込みルールを含むことを特徴とする請求項１３又は請求項１４記載の映像解析方法。
　前記人物絞り込みルールは、人物矩形の足元情報が前記監視カメラによる監視空間の通路情報内に位置すると判定したものに絞り込む通路内絞り込みルールを含むことを特徴とする請求項１３から請求項１５のいずれか１項に記載の映像解析方法。