JP2023102120A

JP2023102120A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2023102120A
Application number: JP2022002499A
Authority: JP
Inventors: 翔齊藤; Sho Saito
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2023-07-24
Also published as: US20230222833A1

Abstract

【課題】画像内の人物の追尾結果を用いて人物の行動を検知する際の検知精度を向上させる。【解決手段】人物を撮像した画像を取得する取得手段と、前記画像内の人物を検出して追尾する追尾手段と、前記追尾手段の追尾結果に基づく人物の行動検知のための処理を制御する制御手段と、を有し、前記追尾結果は、検出された人物に対する追尾の状態を表す状態情報を含み、前記制御手段は、前記処理の種別及び前記状態情報に基づいて、前記追尾結果を使用するかを制御することを特徴とする。【選択図】図７

Description

本発明は、画像内の物体を解析するための技術に関する。

人物の行動や属性を解析する方法として、監視カメラの画像から人物を検出・追尾し、追尾した人物毎に行動や属性の解析を行う方法がある。人物同士が画像上で重なっている場合、人物特徴の抽出が正確に行えない可能性があるため、人物同士の重なりを考慮して解析を行う。特許文献１では、人物検索において、他の被写体と交錯している場合には、人物の特徴量を更新しないことが開示されている。特許文献２では、人物の年齢・性別等の属性推定において、他の人物と重なっている間は推定スコアを低くすることが開示されている。

特開２０１６－１９７３４５号公報特開２０１９－１９７３５３号公報

人物が重なっている場合には、覆い隠されている人物の画像での特徴が減ることから、人物の検出・追尾精度が低下するのが一般的である。しかし、行動検知では撮影範囲内にいるそれぞれの人物の行動パターンを連続的に追跡したいため、人物が重なったことで検出・追尾精度が低下した追尾結果を一律無視すると、行動検知において使用する情報量が低下し、誤検知・未検知の発生確率が高まる。一方、人物が重なったことで検出・追尾精度が低下した追尾結果を一律採用すると、行動検知において使用する情報の精度が低下し、追尾人物の入れ替わり等による誤検知の発生確率が高まる。

本発明は上述した問題を解決するためになされたものであり、画像内の人物の追尾結果を用いて人物の行動を検知する際の検知精度を向上させることを目的とする。

本発明に係る画像処理装置は、人物を撮像した画像を取得する取得手段と、前記画像内の人物を検出して追尾する追尾手段と、前記追尾手段の追尾結果に基づく人物の行動検知のための処理を制御する制御手段と、を有し、前記追尾結果は、検出された人物に対する追尾の状態を表す状態情報を含み、前記制御手段は、前記処理の種別及び前記状態情報に基づいて、前記追尾結果を使用するかを制御することを特徴とする。

本発明によれば、画像内の人物の追尾結果を用いて人物の行動を検知する際の検知精度を向上させることができる。

実施形態１に係る画像処理システムの構成を示す図である。実施形態１に係る追尾結果の例を示すイメージ図である。実施形態１に係る追尾結果の例を示す図である。実施形態１に係る単独行動判定処理について説明するための図である。実施形態１に係る画像処理装置のハードウェア構成例を示す図である。実施形態１に係る撮像装置の処理を示すフローチャートである。実施形態１に係る画像処理装置の処理を示すフローチャートである。実施形態２に係る画像処理システムの構成を示す図である。実施形態２に係る姿勢推定結果の例を示す図である。実施形態２に係る滞留時間検知について説明するための図である。実施形態２に係る画像処理装置の処理を示すフローチャートである。

以下、添付の図面を参照して、本発明の実施形態について説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。

＜実施形態１＞
本実施形態では、画像処理システムの一例として、コンビニエンスストア等の小売店舗に設置されたカメラから出力され画像を解析して、画像内の人物の不審行動を検知した時に検知イベントを別のシステムに送信する監視システムについて説明する。本実施形態では、人物の不審行動として単独行動を検知する場合について説明する。

図１は、実施形態１に係る画像処理システムの構成を示す図である。画像処理システムは、撮像装置１００と、画像処理装置２００から構成される。撮像装置１００は、カメラであり、店舗内に複数設置されており、従業員や客を撮影する。撮像装置１００と、画像処理装置２００は、通信ネットワークを介して接続する。具体的には、有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、無線ＬＡＮ等のコンピュータネットワークで接続する。

撮像装置１００は、撮像部１０１と、画像送信部１０２から構成される。撮像部１０１は、撮像レンズ、及びＣＣＤやＣＭＯＳ等の撮像センサと、信号処理部等から構成される。撮像された画像は、所定の時間間隔で画像送信部１０２に送られる。画像送信部１０２は、撮像部１０１から取得した画像に、撮像装置情報及び時刻等の付加情報を付与して、通信ネットワークで送信可能なデータに変換する。そして、画像送信部１０２は、変換後のデータを、画像処理装置２００へ送信する。

次に、画像処理装置２００の有する機能構成について説明する。画像処理装置２００は、画像受信部２０２、人物追尾部２０３、検知制御部２０４、追尾結果記憶部２０５、パラメーター算出部２０６、パラメーター記憶部２０７、単独行動判定部２０８、及び検知結果送信部２０９の機能を有する。

画像受信部２０２は、撮像装置１００からデータを受信し、受信したデータから画像を取得して人物追尾部２０３へ順次提供する。
人物追尾部２０３は、画像内の人物を検出し、検出した人物を画像間で対応付ける追尾処理を行う。人物追尾部２０３は、まず、機械学習を用いて人物の画像上の位置を検出する。人物の画像上の位置は、画像の左上を原点として、人物を囲む矩形の中心座標、矩形のサイズ（幅、高さ）で表現する。次に、検出した人物を連続する画像間で対応付ける。具体的には、連続するフレーム間で、矩形の中心座標を結ぶ線分の長さ、矩形のサイズの変化量、過去の追尾処理により得られた人物の予測位置を用いて、各フレームから検出した各人物に対して対応付けを行う。人物追尾部２０３は、連続する画像内の同一人物を識別出来るように、検出した人物に対して追尾ＩＤを付与する。追尾ＩＤは、過去に検出された人物との同一性を表す識別子である。過去フレームで検出済みの人物には、過去フレームと同一の追尾ＩＤが付与される。一方、新規に検出した人物には新規の追尾ＩＤが付与される。また、人物追尾部２０３は、検出した人物に対して、追尾ＩＤと共に、追尾の状態を表す状態情報としての追尾保留情報を付与する。本実施形態において、追尾保留情報には、保留状態と通常状態がある。人物が重なって写っている場合等、追尾ＩＤが入れ替わっている確率が所定値以上である場合、追尾保留情報は保留状態となる。一方で、追尾ＩＤが入れ替わっている確率が所定値未満である場合、追尾保留情報は通常状態となる。保留状態は、検出した人物に対して、付与する追尾ＩＤの候補が複数ある場合、つまり追尾尤度が所定値以上である追尾ＩＤが複数ある場合に発生する。追尾尤度は、追尾の信頼度を表すスカラ値であり、値域は０．０から１．０である。また、人物同士の重なり度合が所定値以上である場合に、追尾保留情報を保留状態としてもよい。

図２を用いて、追尾処理について具体的に説明する。
図２（ａ）は、ある時点での画像における追尾結果を示すイメージ図である。図２（ａ）では、３人の人物４０１～４０３が検出され、各人物に対して追尾処理が行われている。人物４０１には追尾ＩＤ「１」が付与され、人物４０２には追尾ＩＤ「２」が付与され、人物４０３には追尾ＩＤ「３」が付与されている。また、３人の人物４０１～４０３には、追尾保留情報として、通常状態が付与されている。
図２（ｂ）、図２（ｃ）、図２（ｄ）は、図２（ａ）の時点から、ある時間経過後の画像における追尾結果を示すイメージ図である。図２（ｂ）、図２（ｃ）、図２（ｄ）に示す画像は、人物４０２が画像の右方向に移動して、人物４０３と重なっている状態を写す。図２（ｂ）、図２（ｃ）、図２（ｄ）を用いて、人物同士が重なった場合に起こり得る追尾結果のパターンについて説明する。

図２（ｂ）では、３人の人物４０１～４０３が検出され、人物４０１には追尾ＩＤ「１」が付与され、人物４０２には追尾ＩＤ「２」が付与され、人物４０３には追尾ＩＤ「３」が付与された場合を示す。この場合では、検出された人物の画像間の対応付けが正しく出来ている。但し、人物４０２，４０３には、追尾保留情報として、保留状態が付与されている。これは、人物４０２に対する追尾ＩＤの候補として、「２」と「３」の追尾尤度がそれぞれ所定値以上であるためである。同様に、人物４０３に対する追尾ＩＤの候補として、「３」と「２」の追尾尤度がそれぞれ所定値以上であるためである。以下、追尾ＩＤが付与された人物を囲む矩形を追尾矩形と呼ぶ。

図２（ｃ）では、３人の人物４０１～４０３が検出され、人物４０１には追尾ＩＤ「１」が付与され、人物４０２には追尾ＩＤ「３」が付与され、人物４０３には追尾ＩＤ「２」が付与された場合を示す。この場合では、人物４０２と人物４０３の追尾ＩＤが、入れ替わってしまっている。このように、追尾ＩＤが入れ替わった状態の追尾矩形をそのまま用いて、人物の行動を検知すると、正規の情報に別人の情報が混合し、ノイズとなってしまう。例えば、追尾ＩＤが「２」についての一連の追尾矩形に関する追尾情報では、図２（ａ）の時点で人物４０２に紐づき、図２（ｃ）時点で人物４０２とは別の人物である人物４０３に紐づいている。

以下、これについて更に詳しく説明する。実際には、人物４０２は画像の右方向へ移動している。ここで、図２（ｃ）の追尾結果を含む追尾情報の時系列変化を用いると、図２（ａ）の人物４０２から図２（ｃ）の人物４０３に向かう方向、つまり画像の右上方向に移動していることになってしまう。また、人物４０２と人物４０３の位置の違い・体格の違い・服装の違い等により、追尾矩形のサイズが、同一の人物を追尾した場合とは異なる変化をしてしまう。そのため、行動検知処理にて誤検知や未検知が発生する可能性がある。但し、図２（ｃ）では、人物４０２，４０３に対する各追尾結果に対して、保留状態を示す追尾保留情報が付与されている。そこで、本実施形態では、行動検知処理において、追尾保留状態であること、即ち追尾ＩＤが入れ替わっている可能性が高いことを加味して処理を行う。これにより、誤検知や未検知を抑制することが可能となる。

図２（ｄ）では、人物同士の重なりの影響で、手前の人物４０２については検出されたが、奥の人物４０３については未検出の場合を示す。この場合でも、人物４０２に対する追尾ＩＤの候補としての「２」と「３」の追尾尤度がそれぞれ所定値以上であるため、人物４０２には、保留状態を示す追尾保留情報が付与されている。

人物追尾部２０３は、追尾処理が完了すると、処理対象とした画像、及び当該画像に対する追尾結果を、検知制御部２０４へ提供する。図３は、追尾結果の例を示す。図３の例では、画像から検出された各人物に対する追尾結果を示す。図３に示すように、追尾結果は、追尾ＩＤ、追尾矩形中心座標（ｘ、ｙ）、追尾矩形サイズ（幅、高さ）、及び追尾保留情報を含む情報である。人物追尾部２０３は、画像受信部２０２から受信した画像に対して順次追尾処理を行って、得られた追尾結果を検知制御部２０４へ順次提供する。

検知制御部２０４は、人物追尾部２０３から追尾結果を受け取り、行動検知に関する複数の処理を制御する。検知制御部２０４は、実行対象の処理の種別に応じて、追尾保留情報が通常状態と保留状態の両方の追尾結果を含む追尾結果リストを使用するか、追尾保留情報が通常状態の追尾結果のみを含む追尾結果リストを作成して使用するかを制御する。具体的には、追尾矩形の時系列変化を基にしない処理については、保留状態も含む追尾結果リストを使用し、追尾矩形の時系列変化を基にする処理については、保留状態を除外した追尾結果リストを使用する。

本実施形態では、行動検知に関する処理として、パラメーター算出部２０６で実行する、単独行動判定用のパラメーター算出処理と、単独行動判定部２０８で実行する、単独行動判定処理の２種類がある。検知制御部２０４は、追尾矩形の時系列変化を基にする処理であるパラメーター算出処理については、保留状態を除外した追尾結果リストを作成して使用するよう制御する。また、検知制御部２０４は、追尾矩形の時系列変化を基にしない処理である、単独行動判定処理については、保留状態も含む追尾結果リストを使用するよう制御する。

パラメーター算出部２０６は、位置推定用パラメーターを算出するためのパラメーター算出処理を行う。位置推定用パラメーターは、画像座標を三次元位置情報に変換するためのパラメーターであり、単独行動判定処理で用いられる。まず、パラメーター算出部２０６は、保留状態を除外した追尾結果リストを作成する。具体的には、検知制御部２０４から取得した追尾結果のうち、追尾保留情報が保留状態であるものを除外して、追尾結果記憶部２０５へ順次格納する。これにより、追尾結果記憶部２０５には追尾保留情報が通常状態である追尾結果のみを含む時系列データが、追尾結果リストとして作成される。次に、パラメーター算出部２０６は、追尾結果記憶部２０５に格納される追尾結果リストから過去の追尾結果を読み出し、読み出した追尾結果と今回取得した追尾結果を用いて、位置推定用パラメーターを算出する。そして、算出した位置推定用パラメーターをパラメーター記憶部２０７へ格納する。

以下、位置推定用パラメーターの算出方法について説明する。画像上の物体サイズに関して、検出平面（検出対象の物体の中心座標が移動する仮想平面）上の位置情報と物体サイズの関係式は、以下の式（１）で定義できる。
Ｗ１＝ａ（ｘ－ｘｍ）＋ｂ（ｙ－ｙｍ）＋ｗｍ・・・（１）
但し、各符号は以下を表す。
Ｗ１：人体サイズ
ｘ，ｙ：追尾矩形中心座標
ｘｍ，ｙｍ：読み出した追尾結果の追尾矩形中心座標の平均値
ｗｍ：読み出した追尾結果の追尾矩形サイズ（幅）の平均値
ａ，ｂ：推定パラメーター

Ｗ１としては、追尾矩形サイズ（幅）を使用する。また、追尾矩形サイズ（高さ）を用いることも可能であるが、安定して計算するには追尾矩形サイズ（幅）を用いる方が適している。画像の縦（ｙ）方向は、座標が１ピクセル動くだけでも、横（ｘ）方向よりも奥行位置への影響が大きいため、追尾矩形のずれの影響を受けやすくなるためである。ａ，ｂの推定パラメーターは、最小二乗法を利用して、取得した追尾矩形から算出することができる。ここで、パラメーター算出部２０６は、すべての追尾矩形を使用せずに、所定時間に所定距離以上移動した追尾矩形を用いて、ａ，ｂの推定パラメーターを算出する。ポスター等へ誤追尾した追尾矩形の除去や、追尾矩形の座標偏りの防止のためである。ここで、追尾ＩＤが入れ替わっている場合、所定時間に所定距離以上移動したかどうか判定する際に、誤判定の可能性がある。本実施形態では、追尾保留状態の追尾矩形が除外されているため、誤判定の可能性が軽減される。そのため、推定パラメーターの算出精度の向上を図ることができる。パラメーター算出部２０６は、上記の式（１）を用いて算出したａ，ｂ、及びｘｍ，ｙｍ，ｗｍを、位置推定用パラメーターとしてパラメーター記憶部２０７に格納する。

単独行動判定部２０８は、検知制御部２０４から受け取った追尾結果と、パラメーター記憶部２０７から読み出した位置推定用パラメーターと、に基づいて、追尾中の各人物に対して、単独行動判定処理を行う。単独行動判定部２０８は、検知対象人物が他のすべての人物から所定の閾値以上離れている場合、または近接している人物がいても、すべての近接人物から検知対象人物への視界を遮る位置に遮蔽物が存在している場合、検知対象人物の行動を単独行動と判定する。

まず、単独行動判定部２０８は、追尾矩形の中心座標ｘ，ｙと、読み出した位置推定用パラメーターを用いて、各人物の追尾矩形の画像座標を三次元位置情報に変換する。具体的には、単独行動判定部２０８は、追尾矩形の中心座標ｘ，ｙと、読み出したａ，ｂ，ｘｍ，ｙｍ，ｗｍ、を、上記式（１）に代入して推定人体サイズとしてのＷ２を求める。即ち、Ｗ２は、ａ（ｘ－ｘｍ）＋ｂ（ｙ－ｙｍ）＋ｗｍで表される。

次に、単独行動判定部２０８は、追尾矩形の中心座標ｘ，ｙと、推定物体サイズＷ２と、以下の式（２）～（４）を用いて、三次元位置情報Ｘ，Ｙ，Ｚを求める。
Ｚ＝ｆｏｃａｌ×Ｂ／Ｗ２・・・（２）
Ｘ＝Ｚ×（ｘ－ｃｘ）／ｆｏｃａｌ・・・（３）
Ｙ＝Ｚ×（ｙ－ｃｙ）／ｆｏｃａｌ・・・（４）
但し、各符号は以下を表す。
Ｘ，Ｙ，Ｚ：三次元位置情報
Ｗ２：推定人体サイズ
ｘ，ｙ：追尾矩形の中心座標
Ｂ：人体サイズの平均値
ｆｏｃａｌ：カメラ焦点距離
ｃｘ，ｃｙ：画像中心座標
上記のＢは、追尾矩形サイズ（幅）として肩幅を想定している場合、平均的な０．４３ｍ等の値を利用することができる。上記のｆｏｃａｌは、画像の拡張領域に記載されている値を使用してもよく、撮像部１０１から撮像装置情報として取得される値を使用してもよい。上記のｃｘ，ｃｙは、表示部４１５（図５）の画面サイズから得られる画面中央の座標を使用してもよい。

続いて、単独行動判定部２０８は、追尾中の各人物の三次元位置を推定した後、全人物から２人物毎のペアを作成する。そして、以下の式（５）を用いて、作成したペア毎に人物間距離を計算する。

但し、各符号は以下を表す。
ｄ：人物間距離
Ｘｉ，Ｙｉ，Ｚｉ：人物ｉについて推定した三次元位置
Ｘｊ，Ｙｊ，Ｚｊ：人物ｊについて推定した三次元位置
上記のｄは、推定した各人物の三次元位置間のユークリッド距離である。

単独行動判定部２０８は、追尾中の人物を一人ずつ検知対象として順に処理し、検知対象人物と他のすべての人物との人物間距離を算出し、人物間距離が所定の閾値未満であるかを判定する。そして、所定の閾値未満である他の人物が存在しない場合、近接人物がいないので、検知対象人物は単独行動していると判定する。
また、単独行動判定部２０８は、カメラ画像上の遮蔽物位置を事前に推定しておく。そして、検知対象人物について、近接人物がいても、近接人物すべてから検知対象人物への視界を遮るように遮蔽物が存在している場合には、検知対象人物は単独行動していると判定する。単独行動判定部２０８は、追尾中のすべての人物を検知対象として単独行動判定処理を行い、単独行動判定結果を検知結果送信部２０９へ提供する。

検知結果送信部２０９は、単独行動判定部２０８で実行された単独行動判定結果を受け取り、予め登録された送信先に対して、単独行動判定結果を送信する。

前述のとおり、パラメーター算出処理と単独行動判定処理では、追尾保留状態の追尾結果の使用有無が異なる。パラメーター算出処理では、追尾保留状態の追尾矩形を使用せずに、位置推定用パラメーターの計算を行う。一方で、単独行動判定処理では、追尾保留状態の追尾矩形も使用する。以下、単独行動判定処理では、追尾保留状態の追尾矩形も使用する理由について、図４の例を用いて説明する。

図４（ａ）は、ある時点での画像内の人物に対して追尾ＩＤ及び追尾保留情報を付記したイメージ図である。人物６０１には追尾ＩＤ「１」が付与され、人物６０２には追尾ＩＤ「２」が付与され、人物６０３には追尾ＩＤ「３」が付与されている。また、人物６０１は、追尾保留情報が通常状態となっているが、人物６０２及び人物６０３は、重なって写っている影響で追尾保留状態となっている。人物６０１と人物６０２は近接しており、人物６０２と人物６０３は近接している。そのため、３名とも単独行動を行っていない。このような状態で、図４（ｂ）に示すように、追尾保留状態の追尾矩形を、単独行動判定処理に使用しないとする。この場合、人物６０１の追尾ＩＤ「１」の追尾矩形のみが残り、他の人物の追尾矩形が追尾ＩＤ「１」の単独行動判定処理に使用されない。そのため、単独行動判定部２０８は、追尾ＩＤ「１」に近接人物が存在しないと判定し、人物６０１を単独行動していると誤判定してしまう。本実施形態では、単独行動判定処理では、追尾保留状態の追尾矩形も使用するため、上記のような誤判定を回避することが可能となる。なお、追尾ＩＤ「１」から見た時に近接人物がいるか判定するには、近接人物が追尾ＩＤ「２」か「３」かは重要ではない。追尾ＩＤ「２」と「３」が入れ替わっていてもいなくても、近接位置に人物を検出しているという点が重要である。

次に、画像処理装置２００のハードウェア構成について、図５を参照しながら説明する。画像処理装置２００は、ＣＰＵ４１１と、ＲＯＭ４１２と、ＲＡＭ４１３と、ストレージ４１４と、表示部４１５と、入力Ｉ／Ｆ４１６と、通信部４１７とを有している。ＣＰＵ４１１は、ＲＯＭ４１２に記憶された制御プログラムを読み出して、各種処理を実行する。ＲＡＭ４１３は、ＣＰＵ４１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ストレージ４１４は、各種データや各種プログラム等を記憶する。表示部４１５は、ＣＰＵ４１１の制御下で、各種情報を表示する。なお、表示部４１５はタッチパネルと一体型の表示装置であってもよい。入力Ｉ／Ｆ４１６は、操作情報を入力するためのインターフェースである。通信部４１７は、ＣＰＵ４１１の制御下で、有線または無線の通信ネットワークを介して撮像装置１００等の外部装置との通信処理を行う。

なお、画像処理装置２００の機能やフローチャートに示す各処理は、ＣＰＵ４１１がＲＯＭ４１２又はストレージ４１４に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。また、他の例としては、ＣＰＵ４１１は、ＲＯＭ４１２等に替えて、ＳＤカード等の記録媒体に格納されているプログラムを読み出してもよい。また、ＲＯＭ４１２又はストレージ４１４が、図１に示す追尾結果記憶部２０５及びパラメーター記憶部２０７が保持するデータを格納する記憶領域を提供してもよい。

なお、本実施形態では、画像処理装置２００は、１つのプロセッサ（ＣＰＵ４１１）が１つのメモリ（ＲＯＭ４１２）を用いて後述するフローチャートに示す各処理を実行するものとするが、他の様態であっても構わない。例えば複数のプロセッサーや複数のＲＡＭ、ＲＯＭ及びストレージを協働させて後述するフローチャートに示す各処理を実行することもできる。また、ハードウェア回路を用いて一部の処理を実行するようにしてもよい。また、ＣＰＵ以外のプロセッサーを用いて後述する画像処理装置２００の機能や処理を実現することとしてもよい（例えば、ＣＰＵに替えてＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を用いることとしてもよい）。

次に、本実施形態の撮像装置１００の処理について、図６のフローチャートを用いて説明する。以下のフローチャートの説明では、各工程（ステップ）について先頭にＳを付けて表記することで、工程（ステップ）の表記を省略する。本フローチャートの処理は、撮像装置１００のＣＰＵが撮像装置１００の記憶装置に記憶されるプログラムを実行することにより実現される。以下、図６のフローチャートでは、各ステップの処理の実行主体を撮像装置１００として記載するが、具体的には撮像装置１００のＣＰＵが各ステップの処理の実行主体である。
Ｓ１０１において、撮像装置１００が、撮像部１０１を用いて画像を取得する。
Ｓ１０２において、撮像装置１００が、画像送信部１０２を用いてＳ１０１で取得した画像を画像処理装置２００へ送信する。
Ｓ１０３において、画像送信の停止要求がない限り、撮像装置１００が、画像の取得（Ｓ１０１）と、画像の送信（Ｓ１０２）を所定の時間間隔で繰り返し実行する。画像送信の停止要求があった場合、図６に示す一連のフローチャートが終了する。

図７は、本実施形態に係る画像処理装置２００が実行する処理を示すフローチャートである。本フローチャートは、撮像装置１００から画像の受信を開始した場合に開始される。

まず、Ｓ２０１において、画像受信部２０２は、撮像装置１００から画像を受信する。
Ｓ２０２において、人物追尾部２０３は、Ｓ２０１で受信した画像に対して、人物検出と追尾処理を行い、追尾処理の結果を表す追尾結果を生成する。本フローチャートは繰り返し実行されるため、本ステップにより追尾結果が連続的に生成される。
Ｓ２０３において、検知制御部２０４は、パラメーター算出モードが設定中であるどうかの判定を行う。検知制御部２０４がパラメーター算出モードが設定中であると判定した場合、処理はＳ２０４へ進み、パラメーター算出モードが設定中でないと判定した場合、処理はＳ２１０へ進む。
Ｓ２０４において、パラメーター算出部２０６は、Ｓ２０２で得られた追尾結果のうち、追尾保留状態が保留状態のものを除外する。
Ｓ２０５において、パラメーター算出部２０６は、Ｓ２０４で除外されずに残った追尾結果を、追尾結果記憶部２０５に保存する。本フローチャートは繰り返し実行されるため、本ステップにより追尾結果が時系列で蓄積される。
Ｓ２０６において、パラメーター算出部２０６は、前回のパラメーター算出時刻から所定時間経過したか否かを判定する。パラメーター算出部２０６が前回のパラメーター算出時刻からの経過時間が所定時間以上と判定した場合、処理はＳ２０７へ進み、所定時間未満と判定した場合、処理はＳ２１０へ進む。

Ｓ２０７において、パラメーター算出部２０６は、今回のＳ２０２で得られた追尾結果を含む過去の追尾結果を追尾結果記憶部２０５から読み出す。
Ｓ２０８において、パラメーター算出部２０６は、Ｓ２０７で読み出した追尾結果を用いて位置推定用パラメーターを算出する。位置推定用パラメーターを算出する際に、読み出した追尾結果のうち、所定時間に所定距離以上移動した追尾矩形を用いるが、本ステップでは、追尾保留状態の追尾結果が除外された追尾結果リストを用いる。そのため、別人の追尾矩形の混在が妨げられ、ノイズの発生を抑制できる。
Ｓ２０９において、パラメーター算出部２０６は、Ｓ２０８で算出した位置推定用パラメーターとパラメーター算出時刻（現在時刻）を、パラメーター記憶部２０７に保存する。

Ｓ２１０において、単独行動判定部２０８は、パラメーター記憶部２０７から位置推定用パラメーターを読み出す。
Ｓ２１１において、単独行動判定部２０８は、読み出した位置推定用パラメーターと、今回のＳ２０２で得られた追尾結果を用いて、当該追尾結果の各人物について単独行動判定処理を行う。具体的には、各人物について人物間距離を推定し、人物間距離が所定の閾値未満である他の人物が存在しない場合、単独行動をしていると判定する。本ステップでは、追尾保留情報が保留状態の追尾結果を除外していない追尾結果リストを用いるため、人物の近接位置に他の人物がいるかいないかの情報を使用できる。そのため、近接人物がいるのに単独判定であると誤判定されるリスクを軽減できる。
Ｓ２１２において、検知結果送信部２０９は、Ｓ２１１による単独行動判定結果を所定の送信先に送信する。
Ｓ２１３において、画像受信の停止要求がない限り、画像処理装置２００が、Ｓ２０１～Ｓ２１２の処理を繰り返し実行する。画像受信の停止要求があった場合、図７に示す一連のフローチャートが終了する。

以上のような図７に示すフローチャートによれば、単独行動判定処理では、追尾中の複数の人物位置から人物間距離を推定する際に、追尾保留状態の追尾結果を使用せずに算出された位置推定用パラメーターが用いられる。そのため、単独行動判定の判定精度が高まる。

以上のように、本実施形態によれば、人物同士の重なり等の影響で、追尾している人物が入れ替わっている可能性がある追尾結果を、行動検知に使用するかを切り替えることが可能になる。これにより、追尾情報の時系列変化を基にする場合は、追尾保留状態を除外した追尾結果を使用し、追尾情報の時系列変化を基にしない場合は、追尾保留状態も含めた追尾結果を使用することができる。従って、追尾結果を過不足なく行動検知に使用できるため、行動検知の誤検知・未検知の発生確率を抑制できる。

＜実施形態２＞
実施形態１では、画像処理装置２００が単独行動を検知する場合について説明した。本実施形態では、単独行動以外の不審行動を検知する場合について説明する。以下では、実施形態１とは異なる部分を中心に説明する。

図８は、本実施形態に係る画像処理システムの構成を示す図である。図８は、図１と比べると、主に２つの相違点がある。１点目は、人物追尾部２０３と検知制御部２０４との間に、人物姿勢推定部１２０５が追加された点である。２点目は、検知制御部２０４が制御対象とする処理が、実施形態１とは異なることに応じて、追尾結果記憶部２０５、パラメーター算出部２０６、パラメーター記憶部２０７、単独行動判定部２０８を有さない点である。これらに代えて、本実施形態に係る画像処理装置２００は、滞留時間検知部１２０６、顔向き推定部１２０７、顔振検知部１２０８、及び挙動検知部１２０９の機能を有する。これらの各構成部１２０６～１２０９は、それぞれ別々の行動を検知する行動検知部である。なお、本実施形態では、追尾結果記憶部２０５の機能を、顔振検知部１２０８及び挙動検知部１２０９が具備している。

まず、人物姿勢推定部１２０５について説明する。人物姿勢推定部１２０５は、人物追尾部２０３の追尾結果を基に、追尾中の人物の全身画像から、機械学習を用いて人物のキーポイントの画像上の位置を検出し、検出した座標と検出尤度を、姿勢推定結果して出力する。人物のキーポイントとは、人物の主要な器官点、関節等の構成要素であり、例えば両目・両耳・鼻・両肩・両腰・両肘・両手首・両膝・両足首を含む。人物姿勢推定部１２０５は、処理が完了すると、追尾結果及び姿勢推定結果を、検知制御部２０４へ提供する。図９は、姿勢推定結果の例を示す。図９に示すように、姿勢推定結果は、追尾ＩＤ、各器官点・関節の座標、及び検出尤度を含む情報である。

次に、滞留時間検知部１２０６、顔向き推定部１２０７、顔振検知部１２０８、及び挙動検知部１２０９について説明する。検知制御部２０４は、各行動検知部１２０６～１２０９に対して、追尾結果リスト及び姿勢推定結果リストを提供し、各行動検知部１２０６～１２０９で実行される行動検知処理を制御する。この場合、検知制御部２０４は、時系列変化を基にしない検知処理については、追尾保留情報が通常状態と保留状態の両方の追尾結果を含む追尾結果リストを使用するよう制御する。つまり、人物姿勢推定部１２０５から受け取った追尾結果リストを、そのまま使用するよう制御する。また、検知制御部２０４は、時系列変化を基にする検知処理については、追尾保留情報が通常状態の追尾結果のみを含む追尾結果リストを作成して使用するよう制御する。

滞留時間検知部１２０６は、滞留時間検知処理を行う。滞留時間検知処理は、撮像部１０１の撮像範囲内に追尾中の人物が滞留している時間を計測する処理である。滞留時間検知処理は、時系列変化を基にしない処理である。滞留時間検知部１２０６は、検知制御部２０４から受け取った追尾結果リスト及び内部に保存している前回までの滞留時間リストを使用して、今回の滞留時間を計算する。

図１０を用いて、滞留時間検知処理について具体的に説明する。
図１０（ａ）は、ある時点での画像内の人物に対して追尾ＩＤ、追尾保留情報及び滞留時間を付記したイメージ図である。図１０（ａ）の時点では、人物７０１に追尾ＩＤ「２」が付与され、滞留時間は５０秒とカウントされている。また、人物７０２に追尾ＩＤ「３」が付与され、滞留時間は８０秒とカウントされている。
図１０（ｂ）及び図１０（ｃ）に示す画像は、図１０（ａ）の時点から１０秒経過後の画像である。図１０（ｂ）では、図１０（ａ）と同様の追尾ＩＤが付与され、人物が重なって写っている影響で追尾保留状態となっており、滞留時間は１０秒プラスされている。一方、図１０（ｃ）では、人物７０１と人物７０２に付与される追尾ＩＤが入れ替わっている。しかし、追尾ＩＤ「２」が滞留時間６０秒、追尾ＩＤ「３」が滞留時間９０秒とカウントされている点については、図１０（ｂ）と同様である。従って、図１０（ｃ）のように追尾ＩＤが入れ替わったとしても、後に人物の重なりが解消して追尾ＩＤが入れ替わり前の状態へ戻れば、追尾ＩＤが入れ替わらなかった図１０（ｂ）の場合と同様に滞留時間がカウントアップできる。このような理由で、滞留時間検知処理においては、追尾保留状態である追尾結果も使用する。滞留時間検知部１２０６は、追尾中の各人物について検知された滞留時間を検知結果送信部２０９へ提供する。

顔向き推定部１２０７は、画像内の各人物の顔向きを推定する処理を行う。顔向き推定処理は、時系列変化を基にしない処理である。顔向き推定部１２０７は、検知制御部２０４から受け取った追尾結果リスト及び姿勢推定結果を使用して、人物の顔向きを推定する。具体的には、姿勢推定結果に含まれるキーポイント座標のうちの顔器官の位置関係から、人物の顔向きを、上下・左右・画面内回転の３軸についてそれぞれ何度の方向を向いているか推定する。顔向き推定部１２０７は、追尾中の各人物の顔向き推定結果を顔振検知部１２０８及び検知結果送信部２０９へ提供する。

顔振検知部１２０８は、画像内の各人物の周囲確認行動を検知する処理を行う。顔振検知処理は、時系列変化を基にする処理である。顔振検知部１２０８は、保留状態を除外した追尾結果リストを作成する。作成する方法は、実施形態１と同様である。次に顔振検知部１２０８は、作成した追尾結果リスト、顔向き推定部１２０７から受け取った顔向き推定結果、及び内部に保存している前回までの処理結果を基に、人物の周囲確認行動を検知する。具体的には、顔向き推定部１２０７から受け取った顔向き推定結果のうち、作成した追尾結果リストに対応しているデータのみを用いる。検知対象の周囲確認行動は、検知対象人物が周囲の人物の有無や、周囲の人物の位置を確認するために、顔を振る行動である。周囲確認行動有無の判定方法は、まず、人物の顔向きの変化から顔向きを予測し、この予測値と顔向き推定結果に含まれる顔向きとの差分を算出する。そして、所定時間での差分の和が所定量以上であった場合に、顔向きの変化が大きいとみなし、周囲確認行動有り、と判定する。一方、所定量未満であった場合に、周囲確認行動無し、と判定する。顔振検知部１２０８は、各人物について顔向き推定結果に含まれる顔向きと予測値との差分を算出し、周囲確認行動の有無を判定する。顔振検知部１２０８は、追尾中の各人物の周囲確認行動判定結果を検知結果送信部２０９へ提供する。

挙動検知部１２０９は、画像内の各人物の挙動を検知する処理を行う。挙動検知処理は、時系列変化を基にする処理である。挙動検知部１２０９は、保留状態を除外した追尾結果リストを作成する。作成する方法は、実施形態１と同様である。次に挙動検知部１２０９は、作成した追尾結果リスト及び姿勢推定結果、更に内部に保存している前回までの処理結果を基に、人物の挙動を検知する。具体的には、検知制御部２０４から受け取った姿勢推定結果のうち、作成した追尾結果リストに対応しているデータのみを用いる。検知対象の挙動は、人物が手を伸ばしたこと、しゃがんだこと、等である。挙動検知部１２０９は、前回までの姿勢推定結果及び今回の姿勢推定結果から各人物のキーポイント座標を取得し、機械学習を用いて取得したキーポイント座標の時系列変化から各人物の挙動を検知する。挙動検知部１２０９は、追尾中の各人物の挙動検知結果を検知結果送信部２０９へ提供する。

図１１は、本実施形態に係る画像処理装置２００が実行する処理を示すフローチャートである。

Ｓ３０１及びＳ３０２は、図７のＳ２０１及びＳ２０２と同様であるため説明を省略する。Ｓ３０２が実行されると、Ｓ３０３において、人物姿勢推定部１２０５は、Ｓ３０１で受信した画像、及びＳ３０２で得られた追尾結果を用いて、人物姿勢推定を行う。
Ｓ３０４において、検知制御部２０４は、すべての行動検知処理を実行済みであるか否かを判定する。検知制御部２０４が実行済みであると判定した場合には、処理はＳ３１０へ進み、未実行の行動検知処理があると判定した場合、処理はＳ３０５へ進む。
Ｓ３０５において、検知制御部２０４は、次の行動検知処理を実行対象に選択する。
Ｓ３０６において、検知制御部２０４は、Ｓ３０５で選択された行動検知処理が、時系列変化を基にする処理であるか否かを判定する。検知制御部２０４が時系列変化を基にする処理と判定した場合、処理はＳ３０７へ進み、検知制御部２０４が時系列変化を基にしない処理と判定した場合、処理はＳ３０８へ進む。本実施形態では、顔振検知部１２０８及び挙動検知部１２０９のうちの何れかが実行する処理が選択された場合には、Ｓ３０７へ進み、滞留時間検知部１２０６及び顔向き推定部１２０７のうちの何れかが実行する処理が選択された場合には、Ｓ３０８へ進む。

Ｓ３０７において、選択された行動検知処理に対応する行動検知部（顔振検知部１２０８及び挙動検知部１２０９のうちの何れか）は、追尾保留状態を除く追尾結果リストを作成する。
Ｓ３０８において、選択された行動検知処理に対応する行動検知部（滞留時間検知部１２０６、顔向き推定部１２０７、顔振検知部１２０８、及び挙動検知部１２０９のうちの何れか）は、行動検知処理を実行する。
Ｓ３０９において、検知結果送信部２０９は、行動検知結果を所定の送信先に送信する。その後、処理はＳ３０４へ進む。
Ｓ３１０において、画像受信の停止要求がない限り、画像処理装置２００が、Ｓ３０１～Ｓ３０９の処理を繰り返し実行する。画像受信の停止要求があった場合、図１１に示す一連のフローチャートを終了する。

以上のように、本実施形態によれば、人物同士の重なり等の影響で、追尾している人物が入れ替わっている可能性がある追尾結果を、行動検知に使用するかを切り替えることが可能になる。これにより、時系列変化を基にする行動検知では、追尾保留状態を除外した追尾矩形や姿勢推定の情報を使用し、時系列変化を基にしない行動検知では、追尾保留状態も含めた追尾矩形や姿勢推定の情報を使用することができる。従って、追尾結果を過不足なく行動検知に使用できるため、行動検知の誤検知・未検知の発生確率を抑制できる。

（その他の実施形態）
以上、実施形態例を詳述したが、本発明は例えば、システム、装置、方法、プログラム若しくは記録媒体（記憶媒体）等としての実施態様をとることが可能である。具体的には、複数の機器（例えば、ホストコンピュータ、インターフェース機器、撮像装置、ｗｅｂアプリケーション等）から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

また、本発明の目的は、以下のようにすることによって達成されることはいうまでもない。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコード（コンピュータプログラム）を記録した記録媒体（または記憶媒体）を、システムあるいは装置に供給する。係る記憶媒体は言うまでもなく、コンピュータ読み取り可能な記憶媒体である。そして、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコードを読み出し実行する。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。

１００：撮像装置、２００：画像処理装置

Claims

人物を撮像した画像を取得する取得手段と、
前記画像内の人物を検出して追尾する追尾手段と、
前記追尾手段の追尾結果に基づく人物の行動検知のための処理を制御する制御手段と、
を有し、
前記追尾結果は、検出された人物に対する追尾の状態を表す状態情報を含み、
前記制御手段は、前記処理の種別及び前記状態情報に基づいて、前記追尾結果を使用するかを制御する
ことを特徴とする画像処理装置。
前記追尾手段は、過去に検出された人物との対応付けを保留する場合に、前記状態情報を保留状態にすることを特徴とする請求項１に記載の画像処理装置。
前記追尾手段は、人物の重なり度合が所定値以上である場合に、前記状態情報を保留状態にすることを特徴とする請求項１又は２に記載の画像処理装置。
前記追尾手段は、過去に検出された人物との同一性を表す識別子を人物に対して付与し、前記識別子が別の人物に対して付与されている確率が所定値以上である場合に、前記状態情報を保留状態にすることを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
前記追尾手段は、前記対応付けの候補が複数ある場合に、前記状態情報を保留状態にすることを特徴とする請求項２に記載の画像処理装置。
前記制御手段は、
前記処理の種別が時系列変化を基にしない種別である場合、前記処理を実行する際に、前記保留状態の前記追尾結果を使用するよう制御し、
前記処理の種別が時系列変化を基にする種別である場合、前記処理を実行する際に、前記保留状態の前記追尾結果を使用しないよう制御する
ことを特徴とする請求項２乃至５の何れか１項に記載の画像処理装置。
前記取得手段は、前記画像を時系列で取得し、
前記追尾手段は、前記追尾結果を時系列で生成し、
前記制御手段は、前記処理の種別が前記時系列変化を基にする種別である場合、前記保留状態の前記追尾結果を除外した時系列データを作成するよう制御する
ことを特徴とする請求項６に記載の画像処理装置。
前記時系列変化を基にする種別の前記処理は、人物を囲む矩形の位置及びサイズに基づいて、人物の位置情報を推定するためのパラメーターを算出する処理であることを特徴とする請求項６に記載の画像処理装置。
前記時系列変化を基にしない種別の前記処理は、前記パラメーターと人物を囲む矩形の位置及びサイズとに基づいて推定される人物の位置情報に基づいて、複数の人物間の距離を算出する処理であることを特徴とする請求項８に記載の画像処理装置。
前記時系列変化を基にしない種別の前記処理は、人物が撮像範囲内に滞留している時間を計測する処理であることを特徴とする請求項６に記載の画像処理装置。
前記時系列変化を基にしない種別の前記処理は、人物の顔向きを推定する処理であることを特徴とする請求項６に記載の画像処理装置。
前記画像内の人物の構成要素の位置情報を推定する推定手段を更に有し、
前記時系列変化を基にする種別の前記処理は、前記構成要素の位置情報の時系列変化に基づいて、人物の挙動を検知する処理である
ことを特徴とする請求項６に記載の画像処理装置。
前記時系列変化を基にする種別の前記処理は、人物の顔向きと当該顔向きから予測される予測値との差分に基づいて、人物の周囲確認行動を検知する処理であることを特徴とする請求項６に記載の画像処理装置。
人物を撮像した画像を取得する取得工程と、
前記画像内の人物を検出して追尾する追尾工程と、
前記追尾工程による追尾結果に基づく人物の行動検知のための処理を制御する制御工程と、
を含み、
前記追尾結果は、検出された人物に対する追尾の状態を表す状態情報を含み、
前記制御工程では、前記処理の種別及び前記状態情報に基づいて、前記追尾結果を使用するかを制御する
ことを特徴とする画像処理方法。
請求項１乃至１３の何れか１項に記載の画像処理装置の各手段としてコンピュータを機能させるためのプログラム。