JP2022076369A

JP2022076369A - 画像処理装置、画像処理方法

Info

Publication number: JP2022076369A
Application number: JP2020186749A
Authority: JP
Inventors: 朝貴田港; Tomoki Taminato
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2022-05-19
Also published as: US20230222672A1; WO2022097489A1

Abstract

【課題】フレーム画像を取得してから被写体の特定部位を検出するまでの時間を従来よりも減少させるための技術を提供すること。【解決手段】第１フレーム画像における探索領域から被写体を検出する前に該被写体の特定部位を検出し、該検出の後、第１フレーム画像における被写体の追尾処理を行う。【選択図】図１

Description

本発明は、被写体の追尾技術に関するものである。

従来から、動画像中のフレーム画像から特定の被写体を検出する技術が知られており、例えば、特定の人物や物体を検出する機能を搭載した監視カメラや、被写体に自動的に焦点を合わせるオートフォーカス（ＡＦ）機能を搭載した電子カメラが実現されている。

さらに、被写体の特定部位を検出する技術も知られている。このような技術は例えば、特定の挙動を示す自動車を被写体に定めた後にナンバープレートやフロントガラスなどを検出してズームすることで防犯に利用したり、被写体の人物や動物の瞳にピンポイントでフォーカスを合わせる、といった様々な用途が考えられる。

特許文献１では、被写体が人物であり、特定部位が顔の器官である場合、被写体の顔領域を検出した後に該顔領域を拡大することにより、瞳のような小さく映った特定部位を精度良く検出する技術が提案されている。

特開２００９－２４５１００号公報

しかしながら、特許文献１のように、動画像から被写体の特定部位を精度良く検出しようとすると、最初に被写体を検出してから特定部位を検出するため、フレーム画像を取得してから特定部位を検出するまでに複数回の検出処理を行うことになる。これにより、フレーム画像を取得してから特定部位を検出するまでの時間的な遅延（レイテンシー）が大きくなってしまう。このような状況では、例えば、電子カメラのＡＦ機能において、移動している被写体の特定部位の検出結果と、検出時の実際の位置とのズレが大きくなってしまうため、ＡＦが合わないといった問題が生じる。

本発明は、フレーム画像を取得してから被写体の特定部位を検出するまでの時間を従来よりも減少させるための技術を提供する。

本発明の一様態は、第１フレーム画像における探索領域から被写体を検出する前に該被写体の特定部位を検出する検出手段と、前記検出手段による前記特定部位の検出の後、前記第１フレーム画像における前記被写体の追尾処理を行う処理手段とを備えることを特徴とする。

本発明の構成によれば、フレーム画像を取得してから被写体の特定部位を検出するまでの時間を従来よりも減少させることができる。

画像処理装置１の機能構成例を示すブロック図。部位検出部１０３と追尾部１０４の実行順序の一例を示すタイムチャート。部位検出部１０３の動作を示すフローチャート。フレーム画像からの特定部位の検出を説明する図。フィルタリング処理を説明する図。領域算出部１０５の動作を示すフローチャート。部位検出部１０３の動作を示すフローチャート。フレーム画像から被写体および特定部位の検出を説明する図。領域算出部１０５の動作を示すフローチャート。画像処理装置１０の機能構成例を示すブロック図。判断部１００１の動作を示すフローチャート。コンピュータ装置のハードウェア構成例を示すブロック図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
本実施形態では、屋外に設置された監視カメラで撮像された「特定の挙動（例えば走行速度超過）を示す自動車」を被写体として追尾し、追尾中の被写体である自動車のナンバープレートを特定部位として検出する監視カメラシステムについて説明する。

また、以下では、監視カメラによって撮像されるフレーム画像の取得時刻をｔで表し、該監視カメラから最初（１番目）に取得されるフレーム画像の取得時刻ｔは１とする。また、監視カメラから取得した着目フレーム画像の取得時刻ｔがＴであるとすると、該着目フレーム画像の１つ前（先行する）に取得したフレーム画像の取得時刻ｔは（Ｔ－１）と表し、該着目フレーム画像の１つ後（後続する）に取得したフレーム画像の取得時刻ｔは（Ｔ＋１）と表す。

まず、本実施形態に係る監視カメラシステムにおいて、監視カメラにより撮像されたフレーム画像中の被写体を追尾する画像処理装置１の機能構成例について、図１のブロック図を用いて説明する。

初期位置検出部１０１は、取得時刻ｔ＝１、２に対応するフレーム画像における被写体および該被写体の特定部位を検出することで、該フレーム画像における被写体の位置および該被写体の特定部位の位置を検出する。また初期位置検出部１０１は、被写体が監視カメラの視界から消えた後に再び該視界に入ったときには、該被写体がフレーム画像中に再登場するので、該被写体が再登場したフレーム画像（取得時刻ｔ＝１のフレーム画像と称する）および該フレーム画像に隣接して後続するフレーム画像（取得時刻ｔ＝２のフレーム画像と称する）から被写体および該被写体の特定部位を検出することで、該フレーム画像における被写体の位置および該被写体の特定部位の位置を検出する。

なお、フレーム画像から被写体および該被写体の特定部位を検出する方法としては、例えば、フレーム画像における設定領域を通過する自動車を被写体として検出し、精度の良い公知の物体検知技術で該被写体の特定部位を検出するといった方法が考えられる。

領域抽出部１０２は、現フレーム画像について領域算出部１０５が算出した探索領域内の画像をクロップ画像として抽出する。

部位検出部１０３は、領域抽出部１０２によって抽出されたクロップ画像から被写体の特定部位を検出する。なお、部位検出部１０３は、現フレーム画像におけるクロップ画像からの特定部位の検出処理を、現フレーム画像に対する追尾部１０４の処理結果を待たずに実行する。部位検出部１０３によるクロップ画像からの特定部位の検出処理について、図３のフローチャートに従って説明する。

ステップＳ３０１では、部位検出部１０３は、領域抽出部１０２により抽出されたクロップ画像を取得する。図４（ａ）は現フレーム画像４０１を示しており、図４（ｂ）は、現フレーム画像４０１から領域抽出部１０２が抽出したクロップ画像４０２を示している。

ステップＳ３０２では、部位検出部１０３は、クロップ画像における特定部位の領域を推定する。クロップ画像における特定部位の領域を推定する技術としては、例えば、機械学習や深層学習、テンプレートマッチング、特徴点マッチングを用いた技術がある。

深層学習を用いた方法では、特定部位を含んだ画像と、画像における特定部位の領域を表すアノテーションデータのペアの集合で構成される学習データを用いて、多層からなるニューラルネットワークを学習させた学習モデルを事前に生成しておく。このような学習モデルを用いることにより、未知の画像に対して特定部位の領域（例えば位置とサイズ（縦サイズおよび横サイズ））を推定することができる。更に、計算負荷を抑えながら比較的高精度に推論を行うため、ニューラルネットワークモデルを軽量化する。

本実施形態では、このようにして事前に生成した学習モデルを用いて、クロップ画像における特定部位の位置とサイズ（縦サイズおよび横サイズ）を推定する。図４（ｃ）は、上記の学習モデルに上記のクロップ画像４０２を入力することで該学習モデルから得られる尤度マップ４０３を示している。尤度マップ４０３における位置（ｘ、ｙ）のブロックには、クロップ画像４０２における位置（ｘ、ｙ）の領域（該ブロックに対応する領域）における「特定部位が存在する確からしさ（尤度）」が格納されている。図４（ｃ）では、尤度の高低を濃淡で示している。以下では、尤度マップ４０３における位置（ｘ、ｙ）の尤度をＳ（ｘ，ｙ）と表す。尤度マップは尤度Ｓ（ｘ，ｙ）を適切な変換により画素値に対応付けることで、画像のように取り扱うことができる。以下では、ステップＳ３０２で部位検出部１０３は、クロップ画像から尤度マップを生成したものとして説明する。

次に、ステップＳ３０３では、部位検出部１０３は、尤度マップに対してフィルタリング処理を行う。図４（ｄ）は、尤度マップ４０３に対してフィルタリング処理を行ったことで得られるフィルタリング処理済み尤度マップ４０４の一例を示している。このフィルタリング処理について、図５を用いて説明する。

まず、取得時刻ｔ＝（Ｔ－１）のフレーム画像に対応する尤度マップ５０１から尤度の重心位置と分散を計算する。そして、該重心位置を中心として該分散に応じたサイズの範囲外をフィルタリングするためのガウシアンフィルタ５０２を生成する。そして、取得時刻ｔ＝Ｔのフレーム画像に対応する尤度マップ５０３とガウシアンフィルタ５０２との積を取ることにより、特定部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップ５０４を生成する。

ステップＳ３０４では、部位検出部１０３は、ステップＳ３０３で求めたフィルタリング処理済み尤度マップ（４０４，５０４）に対して、例えば、ＮＭＳ（Non-maximum Suppression）アルゴリズムを適用して、尤度が高い領域から適切に選び、該選んだ領域に対応するクロップ画像中の領域を「クロップ画像における特定部位の領域」とする。図４（ｅ）は、「クロップ画像における特定部位の領域」に対応する現フレーム画像４０１における領域４０５（つまり現フレーム画像４０１における特定部位の領域）を示している。

ステップＳ３０５では、部位検出部１０３は、ステップＳ３０４で特定した「クロップ画像における特定部位の領域」に対応する現フレーム画像中の領域を「特定部位の検出領域」（検出結果）として出力する。

図１に戻って、追尾部１０４は、現フレーム画像から被写体となる自動車を追尾する追尾処理を行う。なお、「現フレーム画像に対する追尾処理」は、部位検出部１０３が動作する場合には、現フレーム画像に対する部位検出部１０３の処理と並行して行われるか、若しくは現フレーム画像に対する部位検出部１０３の処理よりも後に行われる。

ここで、現フレーム画像から被写体となる自動車を追尾する追尾処理は、例えば、背景差分やオプティカルフローを用いた方法、カルマンフィルタやパーティクルフィルタ等のベイズフィルタを用いた方法、機械学習や深層学習を用いた方法、テンプレートマッチングや特徴点マッチングを用いた方法等、様々な方法を用いて行うことができる。本実施形態では、何れかの公知の方法を用いて自動車を追尾するものとし、詳細については説明を省略する。

そして追尾部１０４は、現フレームに対する追尾処理の結果として、現フレーム画像中の被写体を囲む矩形領域の位置およびサイズ（縦サイズおよび横サイズ）を出力する。なお、現フレーム画像中の被写体を囲む矩形領域を特定することができる情報であれば、追尾部１０４は如何なる情報を「追尾処理の結果」として出力しても良い。

なお、追尾部１０４による追尾処理の結果は、次の取得時刻のフレーム画像における探索領域の決定に用いられることから、次の取得時刻のフレーム画像を取得する前に完了している程度に、該追尾処理の処理負荷は小さいことが望ましい。追尾処理が次の取得時刻のフレーム画像の取得までに間に合わない場合は、例えば、処理を１フレームずつスキップする等で周期的に実行するようにしてもよい。このようにすることで、追尾処理は次の取得時刻でフレーム画像を取得してから検出処理を行うまでの処理時間に影響を与えないで済む。

ここで、部位検出部１０３と追尾部１０４の実行順序の一例について、図２のタイムチャートを用いて説明する。なお、図２には以下の説明に関連する部分について図示している。

取得時刻ｔ＝１および取得時刻ｔ＝２では、被写体および該被写体の特定部位を正確に定める必要があるため、初期位置検出部１０１は被写体を検出した後に、該被写体の特定部位を検出する。

取得時刻ｔ＝３以降のフレーム画像では、被写体の特定部位を検出した後に被写体の追尾処理を行う。これにより、監視カメラであれば、追尾処理の前に特定部位の検出結果を利用したＡＦ処理および／またはズーム処理を行うことができ、それらの処理のレイテンシーを抑制することができる。

よって、部位検出部１０３は、被写体の特定部位を検出すると、該検出した特定部位もしくは該特定部位の特徴量を監視カメラに送信し、該監視カメラに該特定部位に対するＡＦ処理および／またはズーム処理を行わせても良い。これにより、追尾部１０４は、特定部位に対するＡＦ処理やズーム処理を行った後のフレーム画像に対して該特定部位に対する追尾処理を行うことができる。

領域算出部１０５では、現フレーム画像における探索領域もしくは初期位置検出部１０１が検出した被写体の領域と、追尾部１０４による追尾処理の結果と、に基づいて「現フレーム画像の取得時刻の次の取得時刻のフレーム画像における探索領域」を算出する。領域算出部１０５による探索領域の算出について、図６のフローチャートに従って説明する。

ステップＳ６０１では、領域算出部１０５は、追尾部１０４による追尾処理の結果（現フレーム画像における追尾処理の結果、該現フレーム画像よりも１つ前の取得時刻における追尾処理の結果）を取得する。

ステップＳ６０２では、領域算出部１０５は、現フレーム画像が取得時刻ｔ＝２のフレーム画像である場合は、該現フレーム画像について初期位置検出部１０１が検出した被写体の領域の重心位置（Ｘｃ，Ｙｃ）を求める。一方、領域算出部１０５は、現フレーム画像が取得時刻ｔ＝３以降の取得時刻のフレーム画像である場合は、該現フレーム画像について領域算出部１０５が算出した探索領域の重心位置（Ｘｃ，Ｙｃ）を求める。

ステップＳ６０３では、領域算出部１０５は、フレーム画像間における被写体の動きＶ（Δｘ、Δｙ）を求める。例えば、領域算出部１０５は、現フレーム画像よりも１つ前の取得時刻における追尾処理の結果（現フレーム画像よりも１つ前の取得時刻におけるフレーム画像における被写体を囲む矩形領域の位置）から、現フレーム画像における追尾処理の結果（現フレーム画像における被写体を囲む矩形領域の位置）への動きベクトルＶ１をＶ（Δｘ、Δｙ）として求めても良い。また例えば、領域算出部１０５は、現フレーム画像よりも１つ前の取得時刻におけるフレーム画像における特定部位の重心位置から、現フレーム画像における特定部位の重心位置への動きベクトルＶ２（Δｘ、Δｙ）をＶ（Δｘ、Δｙ）として求めても良い。また例えば、領域算出部１０５は、動きベクトルＶ１と動きベクトルＶ２との平均ベクトルをＶ（Δｘ、Δｙ）として求めても良い。

ステップＳ６０４では、領域算出部１０５は、「現フレーム画像の取得時刻の次の取得時刻のフレーム画像における探索領域」の重心位置を（Ｘｃ＋Δｘ，Ｙｃ＋Δｙ）として求める。

ステップＳ６０５では、領域算出部１０５は、「現フレーム画像の取得時刻の次の取得時刻のフレーム画像における探索領域」のサイズ（縦サイズおよび横サイズ）を決定する。例えば、領域算出部１０５は、事前に特定部位を囲む領域の１辺の長さに対して検出率が最大となる探索領域の１辺の長さＬを求めておき、「現フレーム画像の取得時刻の次の取得時刻のフレーム画像における探索領域」のサイズを長さＬに決定する。なお、「現フレーム画像の取得時刻の次の取得時刻のフレーム画像における探索領域」のサイズ（縦サイズおよび横サイズ）の決定方法は特定の決定方法に限らない。例えば、被写体の特定部位の動きを考慮し、該動きがより大きいほど、探索領域のサイズをより大きくするようにしてもよく、その場合、フレーム画像からの被写体や特定部位のロストを抑制することができる。

このように、本実施形態では、フレーム画像から１度の検出処理で被写体の特定部位を検出し、該検出の後に該被写体の追尾を行う。これにより、従来技術のように、被写体の特定部位を検出するまでに複数回の検出処理または追尾処理の実行を行う場合と比べて、フレーム画像の取得から特定部位の検出結果を用いた別の処理を行うまでのレイテンシーを抑制することができる。このようにすることで、例えば、自動車が監視カメラの視界を通過する前に、特定部位であるナンバープレートへのＡＦやズームアップを高速に実行でき、特定部位の詳細をより正確に捉えることができるようになる。

［第２の実施形態］
本実施形態を含む以下の各実施形態では、第１の実施形態との差分について説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。本実施形態では、電子カメラで撮影される特定の人物を被写体とし、該人物の瞳を特定部位（第１の部位）として検出し、更に、該人物の瞳を内包する顔を第２の部位として検出するようなカメラシステムについて説明する。

このようなカメラシステムにも、図１に示した構成を有する画像処理装置１が適用可能であるが、本実施形態では、部位検出部１０３および領域算出部１０５の動作が第１の実施形態と異なる。

本実施形態に係る部位検出部１０３の動作について、図７のフローチャートに従って説明する。

ステップＳ７０１では、部位検出部１０３は、領域抽出部１０２により抽出されたクロップ画像を取得する。図８（ａ）は現フレーム画像８０１を示しており、図８（ｂ）は、現フレーム画像８０１から領域抽出部１０２により抽出されたクロップ画像８０２を示している。

ステップＳ７０２では、部位検出部１０３は、クロップ画像における第１の部位および第２の部位の領域を推定する。本実施形態でも、第１の実施形態と同様に深層学習を用いて学習した学習モデルを用いる。

深層学習を用いた方法では、第１の部位と第２の部位を含んだ画像と各部位の存在領域を表すアノテーションデータのペアの集合を学習データとして用意する。この学習データを用いて、畳み込み層などの多層からなるニューラルネットワークを事前に学習させた学習モデルを生成しておくことにより、未知の画像に対して第１の部位および第２の部位の存在領域（例えば位置とサイズ）を推定することができる。

更に、ここではマルチタスク学習により、第１の部位と第２の部位を１つのニューラルネットワークモデルで学習する。この学習方法では、１つの部位を推定するときと同等の処理速度で複数の部位を推定することができる。

本実施形態では、部位検出部１０３はステップＳ７０２において、このようにして事前に生成した学習モデルを用いて、第１の部位および第２の部位のそれぞれに対応する尤度マップを出力する。図８（ｃ）において尤度マップ８０３は、上記の学習モデルに上記のクロップ画像８０２を入力することで該学習モデルから得られる第１の部位の尤度マップである。また、尤度マップ８０４は、上記の学習モデルに上記のクロップ画像８０２を入力することで該学習モデルから得られる第２の部位の尤度マップである。

尤度マップ８０３における位置（ｘ、ｙ）のブロックには、クロップ画像８０２における位置（ｘ、ｙ）の領域における「第１の部位が存在する確からしさ（尤度）」が格納されている。また尤度マップ８０４における位置（ｘ、ｙ）のブロックには、クロップ画像８０２における位置（ｘ、ｙ）の領域における「第２の部位が存在する確からしさ（尤度）」が格納されている。図８（ｃ）では、尤度の高低を濃淡で示している。

ステップＳ７０３では、部位検出部１０３は、第１の部位に対応する尤度マップに対して第１の実施形態と同様のフィルタリング処理を行う。図８（ｄ）は、尤度マップ８０３に対してフィルタリング処理を行ったことで得られるフィルタリング処理済み尤度マップ８０５を示している。つまり、取得時刻ｔ＝（Ｔ－１）のフレーム画像に対応する第２の部位の尤度マップから尤度の重心位置と分散を計算し、該重心位置を中心として該分散に応じたサイズの範囲外をフィルタリングするためのガウシアンフィルタを生成する。そして、取得時刻ｔ＝Ｔのフレーム画像に対応する第１の部位の尤度マップとガウシアンフィルタとの積を取ることにより、第１の部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップを生成する。

このとき、顔の中心と瞳がほぼ同じ位置にあるため、第２の部位に対応する尤度マップからガウシアンフィルタを生成することが有効である。図８（ｄ）は、そのようにしてフィルタリング処理を適用した後の尤度マップ８０５を示している。

ステップＳ７０４では、部位検出部１０３は、ステップＳ７０３で求めたフィルタリング処理済み尤度マップに対して、例えば、ＮＭＳ（Non-maximum Suppression）アルゴリズムを適用して、最大の尤度の領域から順に最大で２つ選び、該選んだ領域に対応するクロップ画像中の領域を「クロップ画像における第１の部位の領域」として決定する。図８（ｅ）は、クロップ画像８０２における第１の部位の領域８０６を示している。

ステップＳ７０５では、部位検出部１０３は、ステップＳ７０４で特定した「クロップ画像における第１の部位の領域」を「第１の部位の検出領域」（第１の部位の検出結果）として出力する。したがって、本実施形態においても、第１の実施形態と同等の処理量で、被写体の特定部位を検出することができる。

ステップＳ７０６では、部位検出部１０３は、第２の部位に対応する尤度マップに対して第１の実施形態と同様のフィルタリング処理を行う。図８（ｆ）は、尤度マップ８０４に対してフィルタリング処理を行ったことで得られるフィルタリング処理済み尤度マップ８０７を示している。このとき用いるガウシアンフィルタは、ステップＳ７０３において用いたガウシアンフィルタと同じである。そして、取得時刻ｔ＝Ｔのフレーム画像に対応する第２の尤度マップとガウシアンフィルタとの積を取ることにより、第２の部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップを生成する。

ステップＳ７０７では、部位検出部１０３は、ステップＳ７０６で求めたフィルタリング処理済み尤度マップに対して、例えば、ＮＭＳ（Non-maximum Suppression）アルゴリズムを適用して、最大の尤度の領域を選び、該選んだ領域に対応するクロップ画像中の領域を「クロップ画像における第２の部位の領域」として決定する。図８（ｇ）は、クロップ画像８０２における第２の部位の領域８０８を示している。

ステップＳ７０８では、部位検出部１０３は、ステップＳ７０７で特定した「クロップ画像における第２の部位の領域」を「第２の部位の検出領域」（第２の部位の検出結果）として出力する。

なお、ステップＳ７０３～Ｓ７０５の一連の処理と、ステップＳ７０６～Ｓ７０８の一連の処理と、は並列して行っても良い。これにより、顔の検出も瞳と同様にレイテンシーを抑制して行うことができる。更に、瞳の検出結果よりも先に顔の検出結果が存在する場合は、顔を囲む領域の外側に存在する瞳の検出結果を除去することにより、誤検知を抑制することもできる。

次に、領域算出部１０５の動作について、図９のフローチャートに従って説明する。図９において、図６に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。

ステップＳ９０２では、領域算出部１０５は、ステップＳ７０８で出力された「第２の部位の検出領域」を取得する。そしてステップＳ９０３では、領域算出部１０５は、「第２の部位の検出領域」の重心位置（Ｘｃ，Ｙｃ）を求める。以降は、図６のフローチャートと同様である。

第２の部位は第１の部位を内包するため、第１の部位よりも精度良く検出しやすく、被写体の追尾結果よりも特定部位の動きが捉えやすいため、その重心や動きの精度が安定する。したがって、次の取得時刻におけるフレーム画像における探索領域は第１の実施形態よりも安定して設定することができ、特定部位の検出精度が上がる。

このように、本実施形態によれば、フレーム画像を取得してすぐに１度の検出処理で被写体の第１の部位および該第１の部位を内包する第２の部位を検出し、その整合性を利用することにより、特定部位の検出率が向上する。これにより、第１の実施形態と同様にフレーム画像を取得してから被写体の特定部位を検出するまでのレイテンシーが抑制されながらも、より精度良く被写体の瞳を検出することができる。

［第３の実施形態］
本実施形態では、第２の実施形態で検出した部位の検出状況に基づき、追尾処理を実行するか否かを判断するシステムについて説明する。本実施形態に係るシステムによれば、全体の検出処理が速くなり、追尾処理に係る計算負荷を軽減することができる。

本実施形態に係るシステムにおける画像処理装置１０の機能構成例について、図１０のブロック図を用いて説明する。画像処理装置１０は、上記の画像処理装置１に判断部１００１を加えたものである。判断部１００１の動作について、図１１のフローチャートに従って説明する。

ステップＳ１１０１では、判断部１００１は、部位検出部１０３により検出された「第１の部位の検出領域」と「第２の部位の検出領域」とを取得する。ステップＳ１１０２では、判断部１００１は、第２の部位の尤度マップから尤度スコアＳ２を取得する。尤度スコアＳ２は、例えば、第２の部位の尤度マップにおける最大の尤度であっても良いし、第２の部位の尤度マップにおける「第２の部位の検出領域」の重心位置近傍における尤度の平均値であっても良い。

そして判断部１００１は、尤度スコアＳ２が閾値以上であるか否かを判断する。この判断の結果、尤度スコアＳ２が閾値以上（第２の部位の尤度マップにおける該第２の部位の確度が高い）であれば、処理はステップＳ１１０３に進む。一方、尤度スコアＳ２が閾値未満（第２の部位の尤度マップにおける該第２の部位の確度が低い）であれば、処理はステップＳ１１０５に進む。

ステップＳ１１０３では、判断部１００１は、第１の部位の尤度マップから尤度スコアＳ１を取得する。尤度スコアＳ１は、例えば、第１の部位の尤度マップにおける最大の尤度であっても良いし、第１の部位の尤度マップにおける「第１の部位の検出領域」の重心位置近傍における尤度の平均値であっても良い。

そして判断部１００１は、尤度スコアＳ１が閾値以上であるか否かを判断する。この判断の結果、尤度スコアＳ１が閾値以上（第１の部位の尤度マップにおける該第１の部位の確度が高い）であれば、処理はステップＳ１１０４に進む。一方、尤度スコアＳ１が閾値未満（第１の部位の尤度マップにおける該第１の部位の確度が低い）であれば、処理はステップＳ１１０５に進む。

ステップＳ１１０４では、判断部１００１は、第２の部位の尤度マップにおいて、第２の部位の重心位置から「一定値以上の尤度を示す位置」までの距離の分散σを求める。この分散σが閾値以下であれば、処理はステップＳ１１０６に進み、分散σが閾値よりも大きい場合には、処理はステップＳ１１０５に進む。

この判断処理は、尤度マップに複数の被写体が含まれる場合は分散σが大きくなる傾向が見られるため、正しく検出できたとしても次のフレーム画像では他の被写体に誤検知されやすい可能性があることを考慮に入れている。逆に、分散σが小さい場合は周辺に被写体以外が映っていないため、特定部位の検出が容易な状態であると解釈することができる。

ステップＳ１１０５では、判断部１００１は、追尾処理は必要であると判断し、その旨を追尾部１０４に通知する。一方、ステップＳ１１０６では、判断部１００１は、追尾処理は不要と判断し、その旨を追尾部１０４に通知する。

追尾部１０４は、判断部１００１から追尾処理が必要である旨を受けた場合には追尾処理を行い、追尾処理は不要である旨を受けた場合には追尾処理は行わない。なお、追尾部１０４が追尾処理を行っていない間は、領域算出部１０５は、最近に領域抽出部１０２に出力した探索領域を該領域抽出部１０２に出力し続ける。

このように、本実施形態によれば、検出結果が不安定になると判断される場合に追尾処理を実行するため、処理速度が向上するとともに、画像処理装置１０における計算負荷を軽減することができる。

［第４の実施形態］
図１，１０に示した各機能部はハードウェアで実装しても良いし、ソフトウェア（コンピュータプログラム）で実装しても良い。後者の場合、該コンピュータプログラムを実行可能なコンピュータ装置は、上記の画像処理装置１や画像処理装置１０に適用可能である。

このようなコンピュータ装置のハードウェア構成例について、図１２のブロック図を用いて説明する。なお、図１２に示したハードウェア構成は、画像処理装置１や画像処理装置１０に適用可能なコンピュータ装置のハードウェア構成の一例であり、適宜変形／変更が可能である。

ＣＰＵ１２０１は、ＲＡＭ１２０２やＲＯＭ１２０３に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ１２０１は、コンピュータ装置全体の動作制御を行うと共に、画像処理装置１や画像処理装置１０が行うものとして説明した上記の各処理を実行もしくは制御する。

ＲＡＭ１２０２は、ＲＯＭ１２０３や記憶装置１２０６からロードされたコンピュータプログラムやデータを格納するためのエリア、Ｉ／Ｆ１２０７を介して外部から受信したデータを格納するためのエリア、を有する。さらにＲＡＭ１２０２は、ＣＰＵ１２０１が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ１２０２は各種のエリアを適宜提供することができる。

ＲＯＭ１２０３には、コンピュータ装置の設定データ、コンピュータ装置の起動に係るコンピュータプログラムやデータ、コンピュータ装置の基本動作に係るコンピュータプログラムやデータ、などが格納されている。

操作部１２０４は、キーボード、マウス、タッチパネルなどのユーザインターフェースであり、ユーザが操作することで各種の指示をＣＰＵ１２０１に対して入力することができる。

表示部１２０５は、液晶画面やタッチパネル画面を有する装置であり、ＣＰＵ１２０１による処理結果を画像や文字などでもって表示することができる。例えば、表示部１２０５には、フレーム画像や、該フレーム画像における被写体や特定部位（第１の部位や第２の部位）を明示的にユーザに通知するための表示アイテムを表示することができる。また、表示部１２０５は、画像や文字を投影するプロジェクタなどの投影装置であっても良い。

記憶装置１２０６は、ハードディスクドライブ装置などの不揮発性メモリである。記憶装置１２０６には、ＯＳ、画像処理装置１／１０が行うものとして上述した各処理をＣＰＵ１２０１に実行もしくは制御させるためのコンピュータプログラムやデータが保存されている。記憶装置１２０６に保存されているコンピュータプログラムやデータは、ＣＰＵ１２０１による制御に従って適宜ＲＡＭ１２０２にロードされ、ＣＰＵ１２０１による処理対象となる。

Ｉ／Ｆ１２０７は、外部とのデータ通信を行うための通信インターフェースであり、例えば、上記の監視カメラや電子カメラなどの撮像装置によって撮像されたフレーム画像はＩ／Ｆ１２０７を介してＲＡＭ１２０２や記憶装置１２０６に格納される。

上記のＣＰＵ１２０１、ＲＡＭ１２０２、ＲＯＭ１２０３、操作部１２０４、表示部１２０５、記憶装置１２０６、Ｉ／Ｆ１２０７は何れもシステムバス１２０８に接続されている。

なお、上記の各実施形態では、フレーム画像を撮像する撮像装置（監視カメラ、電子カメラなど）と画像処理装置１／１０とは別個の装置としていた。しかし、該撮像装置と該画像処理装置１／１０とを一体化させて１台の装置（撮像機能付きの画像処理装置）を構成しても良い。

また、領域算出部１０５は、取得時刻ｔ＝１のフレーム画像における追尾処理の結果（被写体を囲む矩形領域）を拡大率Ｒに従って拡大した拡大領域を「取得時刻ｔ＝２のフレーム画像における探索領域」として生成するようにしても良い。拡大率Ｒは、例えば、被写体の移動速度が高いほど大きくする。そして上記のステップＳ６０２では、領域算出部１０５は、現フレーム画像が取得時刻ｔ＝２以降の取得時刻のフレーム画像である場合は、該現フレーム画像について領域算出部１０５が算出した探索領域の重心位置（Ｘｃ，Ｙｃ）を求める。

また、上記の各実施形態で使用した数値、処理タイミング、処理順、データ（情報）の送信先／送信元などは、具体的な説明を行うために一例として挙げたものであり、このような一例に限定することを意図したものではない。

また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１：画像処理装置１０１：初期位置検出部１０２：領域抽出部１０３：部位検出部１０４：追尾部１０５：領域算出部

Claims

第１フレーム画像における探索領域から被写体を検出する前に該被写体の特定部位を検出する検出手段と、
前記検出手段による前記特定部位の検出の後、前記第１フレーム画像における前記被写体の追尾処理を行う処理手段と
を備えることを特徴とする画像処理装置。
前記検出手段は、前記第１フレーム画像における探索領域内の画像をクロップ画像として取得し、該クロップ画像における前記特定部位の尤度マップを生成し、該生成した尤度マップに基づいて前記特定部位を検出することを特徴とする請求項１に記載の画像処理装置。
前記検出手段は、前記尤度マップにおいて前記特定部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップに基づいて前記特定部位を検出することを特徴とする請求項２に記載の画像処理装置。
更に、
前記第１フレーム画像における探索領域と、前記第１フレーム画像に先行するフレーム画像における追尾処理の結果と、前記第１フレーム画像における追尾処理の結果と、に基づいて、前記第１フレーム画像に後続する第２フレーム画像における探索領域を求める手段を備えることを特徴とする請求項１ないし３の何れか１項に記載の画像処理装置。
前記特定部位は、第１の部位と、該第１の部位を内包する第２の部位と、を含み、
前記検出手段は、前記第１フレーム画像における探索領域内の画像をクロップ画像として取得し、該クロップ画像における前記第１の部位の尤度マップに基づいて前記第１の部位を検出し、該クロップ画像における前記第２の部位の尤度マップに基づいて前記第２の部位を検出することを特徴とする請求項１に記載の画像処理装置。
前記検出手段は、前記第１の部位の尤度マップにおいて該第１の部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップに基づいて前記第１の部位を検出し、前記第２の部位の尤度マップにおいて該第２の部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップに基づいて前記第２の部位を検出することを特徴とする請求項５に記載の画像処理装置。
更に、
前記第１フレーム画像における前記第２の部位の領域と、前記第１フレーム画像に先行するフレーム画像における追尾処理の結果と、前記第１フレーム画像における追尾処理の結果と、に基づいて、前記第１フレーム画像に後続する第２フレーム画像における探索領域を求める手段を備えることを特徴とする請求項５または６に記載の画像処理装置。
更に、
前記第１の部位の尤度マップと前記第２の部位の尤度マップとに基づいて前記追尾処理を行うか否かを判断する手段を備えることを特徴とする請求項５ないし７の何れか１項に記載の画像処理装置。
更に、
撮像装置により撮像されたフレーム画像を取得する手段を備えることを特徴とする請求項１ないし８の何れか１項に記載の画像処理装置。
前記検出手段は、前記第１フレーム画像における探索領域から検出した被写体の特定部位もしくは該特定部位の特徴量を前記撮像装置に送信して該撮像装置に該特定部位に対するＡＦ処理および／またはズーム処理を行わせることを特徴とする請求項９に記載の画像処理装置。
画像処理装置が行う画像処理方法であって、
前記画像処理装置の検出手段が、第１フレーム画像における探索領域から被写体を検出する前に該被写体の特定部位を検出する検出工程と、
前記画像処理装置の処理手段が、前記検出工程による前記特定部位の検出の後、前記第１フレーム画像における前記被写体の追尾処理を行う処理工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１ないし１０の何れか１項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。