JP2021177300A

JP2021177300A - 画像処理装置、画像処理装置の制御方法及びプログラム

Info

Publication number: JP2021177300A
Application number: JP2020082210A
Authority: JP
Inventors: 康晴平戸; Yasuharu Hirato; 智之清水; Tomoyuki Shimizu
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2021-11-11

Abstract

【課題】人物の照合に必要な領域（例えば顔）が常に検出されるとは限らない状況において、ユーザに対する人物の照合結果の通知回数を低減する。【解決手段】映像を構成するフレーム画像を処理する画像処理装置であって、フレーム画像における人物から追尾に使用する第１部分領域を追尾領域として検出する追尾領域検出部と、フレーム画像における人物から人物の照合に使用する第２部分領域を照合領域として検出する照合領域検出部と、追尾領域と照合領域とを関連付ける関連付け部と、追尾領域に基づいてフレーム画像間で人物を追尾する追尾部と、照合領域と照合元画像とに基づいて各フレーム画像で人物の照合を行う照合部と、複数のフレーム画像に対する追尾部による追尾中に、少なくとも１つのフレーム画像において追尾領域と関連付けられた照合領域に対して人物の照合が行われた場合、当該照合の結果を追尾中の照合結果として出力する出力部とを備える。【選択図】図２

Description

本発明は、画像処理装置、画像処理装置の制御方法及びプログラムに関する。

近年、撮影された画像を処理して画像データ内に写るオブジェクトの有用な情報を抽出する技術が多く提案されている。特に、人間の顔画像を認識して、入力された顔画像と、予め登録されている複数人物の顔画像とをそれぞれ照合して、入力された顔画像が誰であるか判定する顔認証技術が知られている。

顔認証技術の応用として、監視カメラを使った要注意人物検知や、重要顧客検知、迷子検知等がある。これらは監視カメラで撮影された映像内の人物の顔を検出し、予め登録された要注意人物などの顔画像と照合し、同一人物として判定した場合、ユーザに通知する仕組みである。

しかし、監視カメラ映像の全てのフレーム画像で照合結果の情報を通知すると、ユーザに通知される回数が膨大になる。そこで、特許文献１は、監視カメラの映像において顔を追尾し、顔が追尾されている区間をひとまとまりとして照合結果をユーザに通知することにより、ユーザへの通知頻度を減らす技術を開示している。

特開２０１０−４４４４８号公報

しかしながら、特許文献１に記載の技術では、顔で人物を追尾する場合、頭の向きによって顔が検出されない状況が発生し、顔が隠れるごとに追尾が途切れてしまう。そのため顔が一度検出されなくなった後にまた新たに同じ人物の顔が検出された場合は、その都度検出された顔の照合結果がユーザに通知されることになる。

本発明は、上記の課題に鑑みてなされたものであり、人物の照合に必要な領域（例えば顔）が常に検出されるとは限らない状況において、ユーザに対する人物の照合結果の通知回数を低減するための技術を提供することを目的とする。

上記の目的を達成する本発明に係る画像処理装置は、
映像を構成するフレーム画像を処理する画像処理装置であって、
前記フレーム画像における人物から追尾に使用する第１部分領域を追尾領域として検出する追尾領域検出手段と、
前記フレーム画像における前記人物から人物の照合に使用する第２部分領域を照合領域として検出する照合領域検出手段と、
前記追尾領域と前記照合領域とを関連付ける関連付け手段と、
前記追尾領域に基づいてフレーム画像間で前記人物を追尾する追尾手段と、
前記照合領域と照合元画像とに基づいて各フレーム画像で前記人物の照合を行う照合手段と、
複数のフレーム画像に対する前記追尾手段による追尾中に、少なくとも１つのフレーム画像において前記追尾領域と関連付けられた前記照合領域に対して人物の照合が行われた場合、当該照合の結果を前記追尾中の照合結果として出力する出力手段と、
を備えることを特徴とする。

本発明によれば、人物の照合に必要な領域（例えば顔）が常に検出されるとは限らない状況において、ユーザに対する人物の照合結果の通知回数を低減することができる。

一実施形態に係る画像処理装置の回路構成を示すブロック図である。実施形態１における画像処理装置の基本構成を示すブロック図である。実施形態１における画像処理装置が実施する処理の全体の手順を示すフローチャートである。実施形態１における画像処理装置の関連付け部の処理内容を説明する図である。画像処理装置の実施形態１における統合部の処理の手順を示すフローチャートである。実施形態１における統合追尾情報である。実施形態１におけるユーザに照合結果を通知する画面である。画像処理装置の実施形態２における画像処理装置の関連付け部の処理内容を説明する図である。実施形態３における画像処理装置の関連付け部の処理内容を説明する図である。実施形態４における画像処理装置の基本構成を示すブロック図である。実施形態４におけるユースケース映像の例である。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

（実施形態１）
＜画像処理装置のハードウェア構成＞
まず図１を参照して、本実施形態に係る画像処理装置のハードウェア構成の一例を説明する。画像処理装置１００は単一のコンピュータ装置で実現してもよいし、必要に応じて複数のコンピュータ装置に各機能を分散して実現するようにしてもよい。複数の画像処理装置で構成される場合は、互いに通信可能なようにＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ（ＬＡＮ）などで接続される。

図１において、１０１は画像処理装置１００全体を制御するＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）である。１０２は変更を必要としないプログラムやパラメータを格納するＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）である。１０３は外部装置などから供給されるプログラムやデータを一時記憶するＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）である。１０４は画像処理装置１００に固定して設置されたハードディスクやメモリカードである。あるいは、画像処理装置１００から着脱可能なフレキシブルディスク（ＦＤ）やＣｏｍｐａｃｔＤｉｓｋ（ＣＤ）等の光ディスク、磁気や光カード、ＩＣカード、メモリカードなどを含む外部記憶装置である。

１０５は、ユーザの操作を受けてデータを入力するポインティングデバイスやキーボードなどの入力デバイス１０９とのインタフェースである入力デバイスインタフェースである。１０６は画像処理装置１００の保持するデータや供給されたデータやプログラムの実行結果を出力するためのモニタなどの出力デバイス１１０とのインタフェースである出力デバイスインタフェースである。１０７はインターネット１１１やカメラ１１２などに接続するための通信インタフェースである。カメラ１１２はインターネット１１１経由で画像処理装置１００と接続しても構わない。１０８は１０１〜１０７の各ユニットを通信可能に接続するシステムバスである。

＜画像処理装置の機能構成＞
次に、図２を参照して、本実施形態に係る画像処理装置の機能構成の一例を説明する。２０２は、通信インタフェース１０７を介して取得した映像データから追尾領域を検出する追尾領域検出部である。すなわち、フレーム画像における人物から追尾に使用する第１部分領域を追尾領域として検出する。本実施形態において、追尾領域は、身体の方向に関わらず検出可能な人体の領域であり、例えば人物の首関節とし、首関節の中心を点で検出する。首関節は人物の向きや方向によらず検出がし易く、首関節を追尾領域検出部とすることで頻繁な追尾途切れを防ぐことができる。

なお、本実施形態では追尾領域を首関節とするが、この例に限定するものではなく、例えば頭部や人体全身など他の部位でもよい。また、検出対象も点ではなく、矩形や多角形、円状であってもよい。本実施形態では、追尾領域検出部２０２は、画像内の各人物の首関節点を検出するように構成されたＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（以下、ＣＮＮ）を保持しており、ＣＮＮは首関節点の座標点を出力する。なお、検出の方法はＣＮＮに限定しなくてもよい。例えばＨＯＧ特徴量でＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（以下、ＳＶＭ）といった機械学習アルゴリズムを利用した検出方法などを利用してもよい。

２０３は、通信インタフェース１０７を介して取得した映像データから照合領域を検出する照合領域検出部である。本実施形態において、照合領域は人物の顔領域とし、顔の領域を矩形で検出する。なお、本特許は実施形態として検出領域を矩形としているが、円状や多角形などでもよい。また、本実施形態では照合領域検出部２０３は、画像内の各人物の顔領域を検出するように構成されたＣＮＮを保持しており、顔領域の矩形左上の頂点座標と各辺の長さを算出する。なお、検出の方法はＣＮＮに限定しなくてもよい。例えば前述のＳＶＭといった機械学習アルゴリズムを利用した検出方法などを利用してもよい。

２０４は、追尾領域検出部２０２で検出された首関節領域と、照合領域検出部２０３で検出された顔領域とが、同一人物である場合に両者の関連付けを行う関連付け部である。関連付け部２０４についての詳細な処理に関しては、図４を用いて後述する。

２０５は、追尾領域検出部２０２で検出された時系列で並んだ各フレーム画像内の首関節領域が各フレーム間で同一人物の首関節領域であるかどうかを判定する追尾部である。本実施形態における追尾部２０５は、追尾を行う両フレーム画像間において追尾領域検出部２０２でそれぞれ検出された首関節領域の同一性を検出するように構成されたＣＮＮを保持している。

そして、両フレーム画像間の首関節領域について同一人物として判定された両フレームの首関節領域には同一ＩＤを付与する。これを映像の最後まで実施することで、首関節領域の追尾を実施する。なお、追尾の方法はＣＮＮに限定しなくてもよい。例えば、ある領域内の色ヒストグラムなどの特徴量を抽出し、以降の映像に対して、当該領域近傍に存在する最も類似する特徴量を有する領域を特定することにより、物体を逐次的に追尾する手法を用いてもよい。

２０６は、照合領域検出部２０３で検出された顔領域と、事前に用意された照合用の人物顔画像とを照合する照合部である。照合部２０６は、照合領域検出部２０３で取得した矩形領域内の特徴量ベクトルを抽出し、さらに、照合元画像格納部２１０に格納された照合用の人物画像の特徴量ベクトルを抽出する。そして、抽出された両者の特徴ベクトルの類似性を確認することで、検出された顔領域と照合用人物画像との照合を行う。特徴量ベクトルの類似度は特徴量空間内での距離関数の逆数で算出することができ、特徴量空間内で距離が近いほど類似度が高くなるように算出する。算出した類似度が設定された閾値よりも高い特徴量ベクトル同士を同一人物として判定する。閾値よりも高い特徴量ベクトルが複数ある場合は、その中から最も類似度の高い特徴量ベクトル同士を同一人物として照合する。

また、照合元画像格納部２１０に格納された全ての照合用の人物画像との類似度が閾値を超えない場合は、該当者なしと判定する。本実施形態では、特徴量ベクトルはＣＮＮで取得する。なお、特徴量ベクトルの取得方法はＣＮＮに限定するものではなく、例えばＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）特徴量など公知の技術を用いてもよい。また、本実施形態における特徴量空間内での距離計算は、ユークリッド距離を用いるものとする。

２０７は、関連付け部２０４で得られた首関節領域と顔領域との関連付け情報と、追尾部２０５で得られた首関節領域の追尾情報と、照合部２０６で得られた顔領域の照合情報とを、統合して統合追尾情報を取得する統合部である。統合部２０７についての詳細な処理に関しては図５を用いて後述する。２０８は、統合部２０７で得られた統合追尾情報を格納する統合追尾情報記録部である。２０９は、統合追尾情報記録部２０８に格納された統合追尾情報をユーザに提示するための映像を生成し、出力デバイスインタフェース１０６に出力する統合追尾情報出力部である。

＜処理＞
次に、図３のフローチャートを参照して、本実施形態に係る画像処理装置１００が実施する処理の手順を説明する。まず、ステップＳ３０１では、通信インタフェース１０７は、カメラ１１２から映像データを取得する。ステップＳ３０２では、追尾領域検出部２０２は、ステップＳ３０１で取得した映像データから映像内の首関節領域を取得する。

ステップＳ３０３では、照合領域検出部２０３は、ステップＳ３０１で取得した映像データから映像内の顔領域を取得する。ステップＳ３０４では、関連付け部２０４は、ステップＳ３０２で取得した首関節領域とステップＳ３０３で取得した顔領域との関連付け情報を取得する。

ここで、図４を用いて、ステップＳ３０４における関連付け部２０４の処理を説明する。図４において４００と４１０は通信インタフェース１０７を介して取得した映像データ内で撮影された人物である。４０１と４１１は追尾領域検出部２０２で取得された首関節領域である。４０２ａと４１２ａは照合領域検出部２０３で取得された顔領域である。４０２ｂと４１２ｂはそれぞれの顔領域の左右中央かつ最下部の点である。

関連付け部２０４は、検出された首関節領域と顔領域とで同一人物のものを関連付ける。例えば、所定位置同士の距離が最も近い領域同士を関連付ける。人間の首は顔の最下点に存在するため、顔領域の最下点と最も近い位置にある首関節領域が最も同一人物としての相関が高い。図４においては、首関節領域４０１と最も近い顔領域の最下点は４０２ｂである。そして、首関節領域４１１と最も近い顔領域の最下点は４１２ｂである。よって、関連付け部２０４は、首関節領域４０１と顔領域４０２ａとを関連付け、首関節領域４１１と顔領域４１２ａとを関連付ける。人物が後ろを向くなどして顔領域が検出されず、首関節領域のみが検出される場合、首関節領域に関連付けられる顔領域は存在しない。反対に、顔領域だけ検出されて首関節が検出されない場合は、顔領域の左右中央、最下部の点を首関節領域として生成し、改めて顔領域との関連付けを行う。

ステップＳ３０５では、追尾部２０５は、ステップＳ３０２で取得した各フレーム画像内の首関節領域が各フレーム間で同一人物の首関節領域であるかどうかを判定して追尾情報を取得する。

ステップＳ３０６では、照合部２０６は、ステップＳ３０３で取得した顔領域と、事前に用意された照合用の人物顔画像との照合情報を取得する。ステップＳ３０７では、統合部２０７は、ステップＳ３０４で取得した関連付け情報と、ステップＳ３０５で取得した追尾情報と、ステップＳ３０６で取得した照合情報とを統合する。

ここで、図５を用いて、ステップＳ３０７における統合部２０７の処理を説明する。ステップＳ５０１では、統合部２０７は、追尾部２０５で取得した首関節領域のＩＤと、関連付け部２０４で取得した顔領域及び首関節領域の関連付け情報とを統合することで、顔領域に首関節領域と同じＩＤをフレーム画像毎に付与する。

ステップＳ５０２では、統合部２０７は、ＩＤを付与された顔領域の中で同一ＩＤをもつ顔領域画像のフレーム毎の照合情報をステップＳ３０６で取得した照合情報から抽出し、最も照合頻度の高い照合用の画像を算出する。例えば、同一ＩＤを持つ顔領域画像が１０フレーム存在し、そのうち８フレームでは人物Ａと判定され、残りの２フレームで人物Ｂと判定された場合、そのＩＤの顔領域画像の照合結果は人物Ａとする。なお、本実施形態では、照合結果の算出に照合頻度を用いるが、最大の類似度をもつ照合用の顔画像を照合結果としてもよいし、類似度がある閾値を超えた照合用の顔画像を全て照合結果としてもよい。

ステップＳ５０３では、統合部２０７は、算出された照合用の画像を、顔領域を含む追尾情報と関連付けて統合追尾情報として管理する。ここで、図６は、生成された統合追尾情報の一例である。図６において、フレーム番号１で顔領域が検出されたＩＤ番号１の人物はそれ以降顔領域が検出されていないが、首関節領域が検知されているため追尾が継続され、最終的に顔領域が再度検出されるフレーム番号１００２まで照合結果が保持されている。

ステップＳ３０８では、統合追尾情報記録部２０８は、ステップＳ３０７で取得した統合追尾情報を記録する。ステップＳ３０９では、統合追尾情報出力部２０９は、統合追尾情報記録部２０８に記録された統合追尾情報をユーザに提示するための映像を通知画面として生成し、出力デバイスインタフェース１０６へ出力する。

ここで、図７は、統合追尾情報出力部２０９が生成する通知画面の一例である。通知ウィンドウ７００には、照合元画像格納部２１０に格納されている照合用の要注意人物画像７０１と要注意人物画像７１１が表示されている。要注意人物画像７０１の横には、映像中で要注意人物画像７０１と照合した人物の画像７０２ｂと、撮影時刻７０２ａが表と示されている。また、要注意人物画像７１１の横には、映像中で要注意人物画像７１１と照合した人物の画像７１２ｂと、撮影時刻７１２ａとが表示されている。

それぞれが撮影された時刻７０２ａと時刻７１２ａ中には、撮影された人物が後ろを向いていて顔を検知されていない区間も存在しうるが、首関節領域で追尾をすることで１つの区間としてユーザに通知することができている。通知ウィンドウ７００は、要注意人物画像と映像内の人物の顔画像とが同一人物と判定されている場合のみ表示される。

本実施形態では、映像を一定区間に区切り、区間ごとに結果をユーザに表示する。この際、過去の区間で既に要注意人物画像と同一人物と判定されたＩＤの人物は、既にユーザに通知済みであるため通知ウィンドウ７００を新規で作成した通知は行わない。これにより、ユーザへの照合結果の通知頻度の増加を抑えることができる。

ただし、この通知方法に限るわけではなく、ユーザへの通知は全ての映像の解析が終わった後にまとめて行ってもよいし、逐一リアルタイムに行ってもよい。以上で図３の一連の処理が終了する。

以上説明したように、本実施形態では、映像を構成する複数のフレーム画像に対する人物の追尾中に、少なくとも１つのフレーム画像における追尾領域（首関節領域等）と関連付けられた照合領域（顔領域等）に対して人物の照合が行われた場合、当該照合の結果を追尾中の照合結果として出力して表示する。

これにより、顔領域が検出されない区間が存在した場合にも、ユーザに頻繁に照合結果を通知する必要がなくなり、ユーザの利便性を向上させることができる。すなわち、常に顔が検出されるとは限らない状況において、ユーザに対する人物の照合結果の通知回数を低減することができる。

（実施形態２）
実施形態１では、追尾領域検出部２０２が首関節領域を検出する例を説明したが、本実施形態では頭部領域を検出する例を説明する。なお、装置構成については実施形態１で説明した構成と同様であるため、同様の構成については説明を省略する。

本実施形態では、追尾領域検出部２０２は、追尾領域の検出として頭部の中心を点で検出する。頭部は人体の上部に存在し、群衆などで人体が隠れた場合も露出がされやすく、検出がしやすい。さらに、本実施形態の照合対象である顔領域は頭部の一部であるため、関連付け処理において両者の相関も取りやすいという利点がある。なお、本実施形態では頭部の中心点を検出する例を説明するが、検出形状は点ではなく矩形や多角形、円状であってもよい。また、点で検出する場合、検出位置も頭部の中心位置である必要はなく、例えば頭頂部でも構わない。

次に、図８を参照して、本実施形態における関連付け部２０４の処理を説明する。関連付け部２０４は、頭部領域と顔領域との関連付けを行う。８００と８１０は映像データ内で撮影された人物である。８０１と８１１は追尾領域検出部２０２で取得された頭部の中心点である。８０２と８１２は照合領域検出部２０３で取得された顔領域である。関連付け部２０４は検出された頭部の中心点と顔領域とで同一人物のものを関連付ける。頭部と顔は中心点同士の位置の相関が高い。頭部の中心点８０１と最も近い中心点をもつ顔領域は８０２である。そして、頭部の中心点８１１と最も近い中心点をもつ顔領域は８１２である。

よって、関連付け部２０４は、頭部の中心点８０１と顔領域８０２とを関連付け、頭部の中心点８１１と顔領域８１２とを関連付ける。なお、人物が後ろを向くなどして顔領域が検出されず、頭部の中心点のみ検出される場合、頭部の中心点に関連付けられる顔領域は存在しない。

以上説明したように、本実施形態によれば、顔領域が検出されない時間的区間が存在した場合も、人物の大半が隠れた状態でも追尾を行い、かつ頭部領域と顔領域との位置相関の高さによる精度の高い関連付けを行うことができる。よって、顔領域はより高い精度で同一人物の照合情報として処理されるので、ユーザに対する人物の照合結果の通知回数を低減することができる。

（実施形態３）
実施形態１では、追尾領域検出部２０２が首関節領域を検出する例を説明したが、本実施形態では追尾領域として人物の全身の領域を検出する例を説明する。なお、装置構成については実施形態１で説明した構成と同様であるため、同様の構成については説明を省略する。

本実施形態では、追尾領域検出部２０２は、追尾領域の検出として人物の全身の領域を矩形で検出する。全身は衣服や背丈など個々人で特徴が異なるため、個人が同定し易く追尾が容易な場合がある。

図９を参照して、追尾領域を人物の全身の領域にした場合の関連付け部２０４の処理を説明する。関連付け部２０４は、全身領域と顔領域との関連付けを行う。９００と９１０は映像データ内で撮影された人物である。９０１ａと９１１ａは追尾領域検出部２０２で取得された全身領域である。９０２と９１２は照合領域検出部２０３で取得された顔領域である。関連付け部２０４は、全身領域９０１ａと９１１ａそれぞれの横方向中央、縦方向上部１／８の位置である９０１ｂ及び９１１ｂと、顔領域９０２及び顔領域９１２の中心位置とで最も近いもの同士を同一人物として関連付ける。全身領域内の点９０１ｂと最も近い中心点をもつ顔領域は９０２である。そして、全身領域内の点９１１ｂと最も近い中心点をもつ顔領域は９１２である。

よって、関連付け部２０４は、全身領域９０１と顔領域９０２とを関連付け、全身領域９１１と顔領域９１２とを関連付ける。顔は全身の上部に存在するため、全身領域の上部と相関が高い。なお、本実施形態では全身上部１／８の位置と顔中心位置との距離で関連付けを行ったが、１／８の比率に限定するものではない。顔が存在していそうな任意の位置を全身領域の所定位置として設定することができる。

以上説明したように、本実施形態によれば、顔領域が検出されない時間的区間が存在した場合にも、全身領域を追尾対象領域とすることで、より精度の高い追尾を行いながら、全身領域と顔領域とを関連付けることができる。よって、顔領域はより高い精度で同一人物の照合情報として処理されるので、ユーザに対する人物の照合結果の通知回数を低減することができる。

また、実施形態１乃至３では、関連付け部２０４は、人体構造の観点から追尾領域と照合領域との相関が高い位置を決め、両者の距離が最も近い組み合わせで関連付け行った。しかし、この関連付け処理は、機械学習などの学習によって取得されたアルゴリズムを用いて行ってもよい。

（実施形態４）
本実施形態では、ある人物が特定領域に侵入したことを判定する場合を例に説明を行う。本実施形態に係る画像処理装置のハードウェア構成は実施形態１と同様であるため説明を省略する。

＜画像処理装置の機能構成＞
次に、図１０を参照して、本実施形態に係る画像処理装置の機能構成の一例を説明する。本実施形態に係る画像処理装置１００の機能構成は図２の構成とほぼ同様であるため、主に差異について説明する。本実施形態に係る画像処理装置１００は、図２に示した構成要素に加えて、特定領域侵入判定部１００１をさらに備えている。

特定領域侵入判定部１００１は、追尾領域検出部２０２から取得した首関節領域が特定領域に侵入したかどうかを判定する。判定結果は統合部２０７で、追尾情報、関連付け情報、照合情報と合わせて統合追尾情報として統合される。

ここで、図１１（ａ）−図１１（ｃ）は、本実施形態で想定される監視映像である。１１０１は映像内を歩行する人物であり、１１０２は人物の侵入を検知する特定侵入領域である。図１１（ａ）では人物１１０１の顔が検知されるが、図１１（ｂ）以降は顔後ろ向きになり検知されない。図１１（ｃ）で顔が検知されないまま人物１１０１が特定侵入領域１１０２に侵入する。この場合でも、統合追尾情報から顔の照合情報１１０３が呼び出されるため、特定領域への侵入した人物の特定が可能となる。すなわち、特定領域に侵入したと判定された追尾領域（首関節領域等）に対応する人物を照合に基づいて特定することができる。

以上説明したように、本実施形態によれば、顔領域が検出されていなくてもユーザに照合結果を通知することも可能であるため、特定領域への侵入時に顔が映っていない場合でも顔認証による侵入アラートをユーザに通知することが可能となる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００：画像処理装置、１０１：ＣＰＵ、１０２：ＲＯＭ、１０３：ＲＡＭ、１０４：外部記憶装置、１０６：出力デバイスインタフェース、１０７：通信インタフェース、１０８：システムバス、１１０：出力デバイス、１１２：カメラ、２０２：追尾領域検出部、２０３：照合領域検出部、２０４：関連付け部、２０５：追尾部、２０６：照合部、２０７：統合部、２０８：統合追尾情報記録部、２０９：統合追尾情報出力部、２１０：照合元画像格納部、１００１：特定領域侵入判定部

Claims

映像を構成するフレーム画像を処理する画像処理装置であって、
前記フレーム画像における人物から追尾に使用する第１部分領域を追尾領域として検出する追尾領域検出手段と、
前記フレーム画像における前記人物から人物の照合に使用する第２部分領域を照合領域として検出する照合領域検出手段と、
前記追尾領域と前記照合領域とを関連付ける関連付け手段と、
前記追尾領域に基づいてフレーム画像間で前記人物を追尾する追尾手段と、
前記照合領域と照合元画像とに基づいて各フレーム画像で前記人物の照合を行う照合手段と、
複数のフレーム画像に対する前記追尾手段による追尾中に、少なくとも１つのフレーム画像において前記追尾領域と関連付けられた前記照合領域に対して人物の照合が行われた場合、当該照合の結果を前記追尾中の照合結果として出力する出力手段と、
を備えることを特徴とする画像処理装置。
前記第１部分領域は、身体の方向に関わらず検出可能な人体の領域であることを特徴とする請求項１に記載の画像処理装置。
前記第１部分領域は首関節領域であることを特徴とする請求項２に記載の画像処理装置。
前記第１部分領域は頭部領域であることを特徴とする請求項２に記載の画像処理装置。
前記第１部分領域は全身領域であることを特徴とする請求項２に記載の画像処理装置。
前記第２部分領域は顔領域であることを特徴とする請求項１乃至５の何れか１項に記載の画像処理装置。
前記関連付け手段は、前記第１部分領域における所定位置と前記第２部分領域における所定位置との距離が最も近い領域同士を前記追尾領域及び前記照合領域として関連付けることを特徴とする請求項１乃至６の何れか１項に記載の画像処理装置。
前記第１部分領域における所定位置及び前記第２部分領域における所定位置の各々は、前記第１部分領域と前記第２部分領域とを関連づけ可能な位置であることを特徴とする請求項７に記載の画像処理装置。
前記関連付け手段は、前記追尾領域と前記照合領域との関連付けを機械学習によって行うことを特徴とする請求項１乃至６の何れか１項に記載の画像処理装置。
前記追尾領域が特定領域に侵入したことを判定する判定手段をさらに備え、
前記出力手段は、複数のフレーム画像に対する前記追尾手段による追尾中に、少なくとも１つのフレーム画像において前記追尾領域と関連付けられた前記照合領域に対して人物の照合が行われた場合、前記特定領域に侵入したと判定された前記追尾領域に対応する人物を前記照合に基づいて特定するとともに、前記侵入に対するアラートを出力することを特徴とする請求項１乃至９の何れか１項に記載の画像処理装置。
前記出力手段は、前記照合元画像と、前記照合領域の画像と、前記人物が検出されたフレーム画像に対応する撮影時刻の情報とを含む画面を表示することを特徴とする請求項１乃至１０の何れか１項に記載の画像処理装置。
映像を構成するフレーム画像を処理する画像処理装置であって、
前記フレーム画像における人物から追尾に使用する第１部分領域を追尾領域として検出する追尾領域検出手段と、
前記フレーム画像における人物から人物の照合に使用する第２部分領域を照合領域として検出する照合領域検出手段と、
前記追尾領域と前記照合領域とを関連付けて関連付け情報を取得する関連付け手段と、
前記追尾領域に基づいてフレーム画像間で前記人物を追尾して追尾情報を取得する追尾手段と、
前記照合領域と照合元画像とに基づいて前記人物の照合を行って照合情報を取得する照合手段と、
前記追尾情報と、前記照合情報と、前記関連付け情報とを統合して統合追尾情報を取得する統合手段と、
を備えることを特徴とする画像処理装置。
映像を構成するフレーム画像を処理する画像処理装置の制御方法であって、
前記フレーム画像における人物から追尾に使用する第１部分領域を追尾領域として検出する追尾領域検出工程と、
前記フレーム画像における前記人物から人物の照合に使用する第２部分領域を照合領域として検出する照合領域検出工程と、
前記追尾領域と前記照合領域とを関連付ける関連付け工程と、
前記追尾領域に基づいてフレーム画像間で前記人物を追尾する追尾工程と、
前記照合領域と照合元画像とに基づいて各フレーム画像で前記人物の照合を行う照合工程と、
複数のフレーム画像に対する前記追尾工程による追尾中に、少なくとも１つのフレーム画像において前記追尾領域と関連付けられた前記照合領域に対して人物の照合が行われた場合、当該照合の結果を前記追尾中の照合結果として出力する出力工程と、
を有することを特徴とする画像処理装置の制御方法。
映像を構成するフレーム画像を処理する画像処理装置の制御方法であって、
前記フレーム画像における人物から追尾に使用する第１部分領域を追尾領域として検出する追尾領域検出工程と、
前記フレーム画像における人物から人物の照合に使用する第２部分領域を照合領域として検出する照合領域検出工程と、
前記追尾領域と前記照合領域とを関連付けて関連付け情報を取得する関連付け工程と、
前記追尾領域に基づいてフレーム画像間で前記人物を追尾して追尾情報を取得する追尾工程と、
前記照合領域と照合元画像とに基づいて前記人物の照合を行って照合情報を取得する照合工程と、
前記追尾情報と、前記照合情報と、前記関連付け情報とを統合して統合追尾情報を取得する統合工程と、
を備えることを特徴とする画像処理装置の制御方法。
コンピュータを、請求項１乃至１２の何れか１項に記載の画像処理装置として機能させるためのプログラム。