JP6539720B1

JP6539720B1 - 画像処理装置

Info

Publication number: JP6539720B1
Application number: JP2017253754A
Authority: JP
Inventors: 文彦高橋; 匠宗片; 黒川　高晴; 高晴黒川
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2019-07-03
Anticipated expiration: 2037-12-28
Also published as: JP2019121031A

Abstract

【課題】逐次更新される識別器を用いて物体識別を行う画像処理装置において、複数の追跡対象物体が写っており、風采が似通っている場合であっても、追跡対象物体を精度よく追跡することができるようにする。
【解決手段】判定手段３３が、追跡対象物体の各々について、入力画像の部分領域が、該追跡対象物体を含むか否かを、該追跡対象物体に対する識別器４１を用いて判定する。負例追加手段３７が、追跡対象物体の各々について、一の追跡対象物体を含む部分領域の画像から求められた第１の特徴量と、他の追跡対象物体を含む部分領域の画像から求められた第２の特徴量との特徴量空間における距離に基づいて他の追跡対象物体を含む物体領域の画像を、該追跡対象物体の識別器の負例として訓練データ４２に追加する。識別器更新手段３８が、追跡対象物体の各々について、訓練データ４２を用いて、該追跡対象物体に対する識別器４１を更新する。
【選択図】図２

Description

本発明は、入力画像に写る追跡対象物体を追跡する画像処理装置に関する。

画像中に写った物体の位置を推定し、追跡する手法としてTracking-by-Detectionと呼ばれる技術が知られている。Tracking-by-Detectionでは、初期値として新規に画像に出現した物体を識別器等により検出、または矩形領域で指定し、矩形領域の極近傍からその物体を大よそ含むよう正例サンプル（正例データ）、その周辺において背景領域から物体を大よそ含まないよう負例サンプル（負例データ）を収集し、２クラスの識別器の学習を行う。図１（ａ）には、正例と負例のサンプル収集の例として、追跡対象物体として人物１０００、人物１０００を大よそ含み実線で示された正例データ１００１、人物１０００を大よそ含まず点線で示された負例データ１００２が示されている。

そして各時刻において、物体位置（人物の位置）を中心に、撮影条件や仮定している移動速度などを考慮して設定した探索領域内の各所においていわゆる検出窓を設定して、その内部の画像に識別器を作用させて物体らしさを示す指標（スコア）を求める。そしてその指標が最大となる箇所を新たな物体位置とすることを繰り返し、物体の追跡を行う。

その際、正例データと負例データを追加収集し識別器の再学習を行うことで、物体の見え方の変化に対応した追跡が可能となる。

非特許文献１には、このようなTracking-by-Detectionによる追跡手法が開示されている。

Hare, S., Saffari, A., Torr, P.H.: Struck: Structured output tracking with kernels, Computer Vision (ICCV), 2011 IEEE International Conference on. pp. 263-270.IEEE (2011)

しかしながら、非特許文献１の方法では、その時点までの識別器では識別できない（すなわち学習したことがない）類似した物体が存在するときに、それを正例データとして収集し、その結果誤った追跡が行われてしまう可能性がある。これを図１（ｂ）および（ｃ）を用いて説明する。

同図には追跡対象として人物Ａ１０１０、人物Ｂ１０１１が同時に写っている様子が示されている。

人物Ａ１０１０を追跡するために識別器Ａ（不図示）、人物Ｂ１０１１を追跡するために識別器Ｂ（不図示）が用いられるとする。識別器Ａは正例データとして人物Ａ１０１０が写っている画像、負例データとして人物Ａ１０１０が写っていない画像を使って学習を進め、識別器Ｂは正例データとして人物Ｂ１０１１が写っている画像、負例データとして人物Ｂ１０１１が写っていない画像を使って学習を進める。

図１（ｂ）のように人物Ａ１０１０と人物Ｂ１０１１が画像中で離れた位置にて移動し続けると、識別器Ａの正例データは人物Ａ１０１０の画像ばかりとなり、負例データは背景の画像ばかりとなる。これは人物Ｂ１０１１の識別器Ｂでも同様であるが、人物Ａ１０１０と人物Ｂ１０１１が画像中で離れている間は、人物Ａ１０１０と人物Ｂ１０１１の近傍には特にそれぞれの人物と類似する物体は存在せず、精度よくそれぞれの人物を追跡できる。

しかし図１（ｃ）のように、人物Ａ１０１０と人物Ｂ１０１１が画像中で近くに位置すると（すれ違い、交差など）、識別器Ａが人物Ｂ１０１１を人物Ａ１０１０であると誤ってその後の追跡を行うことがある。これは、識別器Ａが人物の特徴について人物Ａ１０１０のみしか学習していないため、人物Ｂ１０１１であっても背景では無く、かつ人物Ａ１０１０の近くに位置しているため人物Ａ１０１０であるとの結果を示し、人物Ｂ１０１１を正例データに加えて学習を進めてしまうからである。

このような誤った追跡は、人物Ａ１０１０と人物Ｂ１０１１の風采が似通っている場合には特に懸念される。

本発明は、上記課題を鑑みてなされたものであり、逐次更新される識別器を用いて物体識別を行う画像処理装置において、複数の追跡対象物体が写っており、風采が似通っている場合であっても、追跡対象物体を精度よく追跡することができる画像処理装置を提供することを目的とする。

上記の目的を達成するために本発明に係る画像処理装置は、入力画像の時系列に写る追跡対象物体を追跡する画像処理装置であって、処理対象の入力画像より過去の入力画像に写る追跡対象物体の各々について、前記処理対象の入力画像の部分領域が該追跡対象物体を含むか否かを、前記過去の入力画像に写る該追跡対象物体を含む物体領域の画像を正例とし、該物体領域ではない領域の画像を負例とする訓練データを用いた学習過程により該追跡対象物体に対して生成された識別器を用いて判定する判定部と、前記追跡対象物体の各々について、一の追跡対象物体を含む前記部分領域の画像から求められた第１の特徴量と、他の追跡対象物体を含む前記部分領域の画像から求められた第２の特徴量との特徴量空間における距離が予め定められた閾値以下の場合に前記他の追跡対象物体を含む前記部分領域の画像を該一の追跡対象物体の識別器の負例として前記訓練データに追加する負例追加部と、前記追跡対象物体の各々について、少なくとも前記負例追加部により前記負例が追加された前記訓練データを用いて、該追跡対象物体に対する前記識別器を更新する識別器更新部とを備えて構成されている。

本発明に係る負例追加部は、前記距離が減少傾向である前記他の追跡対象物体を含む前記部分領域の画像を、前記一の追跡対象物体に対する前記識別器の負例として前記訓練データに追加する。

本発明に係る負例追加部は、更に、前記一の追跡対象物体に対する前記識別器の負例として前記訓練データに追加済みであり、且つ前記距離が増加傾向である前記他の追跡対象物体を含む前記部分領域の画像を前記訓練データから削除する。

本発明に係る画像処理装置は、更に、前記一の追跡対象物体について少なくとも前記負例追加部が削除した前記他の追跡対象物体を含む前記部分領域の画像を一時記憶する記憶部を有し、
前記負例追加部は、前記一の追跡対象物体について前記記憶部に前記他の追跡対象物体を含む前記部分領域の画像が一時記憶されており、かつ前記距離が前記予め定められた閾値以下であると、当該一時記憶された前記部分領域の画像を前記一の追跡対象物体の識別器の負例として前記訓練データに再追加する。

本発明に係る特徴量は、少なくとも前記入力画像における前記物体領域の画素値から決まる特徴量と座標情報とを含む。

本発明に係る負例追加部は、更に前記他の追跡対象物体を含む前記部分領域の画像について前記一の追跡対象物体に対する前記識別器が算出した前記一の追跡対象物体らしさから、前記他の追跡対象物体を含む前記部分領域の画像について前記他の追跡対象物体に対する前記識別器が算出した前記他の追跡対象物体らしさを引いて得られる差が予め定められた閾値以上である場合に、前記他の追跡対象物体を含む前記部分領域の画像を、前記一の追跡対象物体に対する前記識別器の負例として前記訓練データに追加する。

以上説明したように、本発明の画像処理装置によれば、逐次更新される識別器を用いて物体識別を行う画像処理装置において、複数の追跡対象物体が写っており、風采が似通っている場合であっても、追跡対象物体を精度よく追跡することができる、という効果が得られる。

（ａ）正例データ及び負例データを説明するための図、（ｂ）、（ｃ）入力画像の一例を示した図である。本発明を適用した追跡装置１の概略構成を示した図である。人物Ａの正例データ及び負例データの一例を示した図である。人物Ａの正例データ及び負例データの一例を示した図である。本発明の実施の形態に係る追跡装置１による全体処理の動作を示すフローチャートである。本発明の実施の形態に係る追跡装置１による負例データ追加処理の動作を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本発明にかかる画像処理装置を画像監視に好適な追跡装置に適用した例を、図を参照しつつ説明する。

＜追跡装置１の構成＞
以下、本発明を適用した追跡装置１の概略構成を示した図２を参照し、本発明の実施の形態の構成を説明する。

図２に、追跡装置１のブロック図を示す。追跡装置１は、撮像部１０、指定入力部２０、画像処理部３０、記憶部４０、及び出力部５０から構成されている。

以下、追跡対象物体は人物であるとし、人物Ａと人物Ｂが入力画像中に写っており、それぞれの人物を追跡するのに用いられる識別器を識別器Ａ、識別器Ｂとして説明する。

撮像部１０は、設置場所を撮影した入力画像の時系列を取得するためのカメラであり、カラー、モノクロ、可視光、近赤外、高解像度タイプ、など各種規格のものを用いることができ、特に限定はしない。

撮像部１０の設置位置はアプリによって好適なものを選択すればよい。画像監視に適用する場合には、物体を検出したい設置場所の床面の上方、例えば天井に設置され、斜め下向きに向けられる。支柱に取り付けられているとしてもよい。

また入力画像の時間間隔（フレームレート）が短い場合には、各入力画像間で人物の見え方の変化が少ないので、魚眼を含む広角のカメラを用いることもできる。

本実施の形態で用いるカメラは、広角レンズで問題になりがちな歪が問題にならないよう標準の画角を持つものとし、解像度は６４０×４８０画素、フレームレートは１０ｆｐｓとする。設置場所の条件や求められる性能に応じて他の画素数やフレームレートでも良い。

撮像部１０により取得された入力画像の時系列は、画像処理部３０に出力される。

指定入力部２０は、入力画像に人物が初めて写ったとき（新規出現時）に人物を指定し、以後の追跡対象物体とすべく画像処理部３０にその旨入力する手段である。

追跡装置１の操作者は、撮像部１０から入力され、モニター装置などで実現される出力部５０に表示された入力画像を目視確認し、当該新規出現した人物を囲うような矩形を出力部５０上にて指定し、入力画像中の座標情報（矩形の左上、または重心点）を入力する。

指定入力部２０は、例えばマウスやタッチペンなどで実現できる。あるいは出力部５０が液晶タッチパネルで実現されている場合には、出力部５０により指定入力部２０を実現しても良い。

あるいは、追跡対象物体となる人物について、その容姿等の画像情報が既知であり、大量の正例データと負例データが用意できる場合には、事前に別途学習過程により構成した識別器を用いることで、自動的に当該追跡対象物体となる人物の新規出現時に入力画像中の座標情報を取得できる。

記憶部４０は、ハードディスクや半導体メモリ等の各種記憶媒体で実現され、識別器４１、訓練データ４２、及び追跡履歴情報４３を記憶している。

このほか、図示しないが、記憶部４０は、画像処理部３０の機能を実現するためのプログラムや判定処理などに用いる閾値などのパラメータ類も記憶している。

識別器４１は、追跡対象物体である人物を入力画像から検出するため、その人数分だけ用意される。本実施の形態では人物Ａを追跡するための識別器Ａ４１０と人物Ｂを追跡するための識別器Ｂ４１１を記憶する。より多くの人物が存在する場合には、人物の各々について識別器４１を記憶する。

識別器４１は、Tracking-by-Detectionの手法に沿って構成され、収集された追跡対象物体である人物の画像データと当該人物以外の画像データを識別できるようにSVM（Support Vector Machine）法で識別境界を機械学習によって決定しておく。

特徴量としてはHaar-like特徴量、Histograms of Oriented Gradients（HOG）特徴量、Local Binary Pattern（LBP）特徴などの既存の特徴量のどれか一つでも良いし複数を組み合わせてもよい。

あるいはCNN（Convolutional Neural Network）の出力を用いてもよい。識別方法は、既存の学習方法であるSTRUCK（Structured Output Tracking with Kernels）やBoostingなどを用いて求める。その他の学習アルゴリズムを用いてもよい。

識別器４１は、画像の特徴量に対して、追跡対象物体である人物らしさを示すスコアを算出する。

訓練データ４２は、識別器４１のそれぞれを学習するために用いられる画像である。本実施の形態では、識別器Ａ４１０が正解とする人物Ａが写っている画像である正例データＡ４２０、人物Ａが写っておらず不正解とする画像である負例データＡ４２１、識別器Ｂ４１１が正解とする人物Ｂが写っている画像である正例データＢ４２２、人物Ｂが写っておらず不正解とする画像である負例データＢ４２３を記憶する。より多くの人物について識別器４１が用意される場合にはそれに応じて正例データと負例データを用意する。

正例データは、画像処理部３０の正例取得手段３５が、各処理時刻における追跡対象物体となる人物を含む部分領域の位置の極近傍において当該人物が大よそ写っている領域を特定し、その内部を抽出した物体領域の画像である。前述のように図１（ａ）を参照すると、人物１０００に対し、実線で示された符号１００１に示す矩形の内部の画像が正例データとなる。

負例データは、画像処理部３０の負例取得手段３６が、各処理時刻における追跡対象物体となる人物を含む部分領域の位置から離れた位置において当該人物が大よそ写っていない領域を特定し、その内部を抽出した画像である。前述のように図１（ａ）を参照すると、人物１０００に対し、点線で示された符号１００２に示す矩形の内部の画像が負例データとなる。

図３に、人物Ａに関する正例データＡ４２０と負例データＡ４２１の例を示す。

正例データＡ４２０は、人物Ａの全身を大よそ含む画像の集合である。人物Ａの全身についてちょうど外接するような画像を基準に、上下左右に幅と高さの１０％のずれまでを許容して複数枚、例えば最大５０枚を、各処理時刻において新たな正例データとすることができる。

一方、負例データＡ４２１は、人物Ａを含まない画像の集合であり、正例データの場合と同様に、各処理時刻において最大５０枚を新たな負例データとすることができる。識別器Ａ４１０が人物Ａを含まないと判断できる程度であれば、人物Ａの一部分が写りこんでいても負例データＡ４２１に含めても良い。

人物Ｂに関する正例データＢ４２２と負例データＢ４２３も同様である。

なお、記憶される訓練データ４２の枚数は、撮像部１０におけるフレームレートと、画像処理部３０の処理能力を考慮して決定する。例えば、各人物ごとに１０００枚とし、古いものから、あるいは識別器４１が算出したスコアの低いものから順次削除することで、最大の枚数を超えないようにする。

追跡履歴情報４３は、各処理時刻において位置推定手段３４が推定した、追跡対象物体である人物を含む部分領域の位置についての追跡情報である。記憶されるべき情報は、特に限定されないが、図２に示すように、追跡対象物体である人物についてのＩＤ、処理時刻、入力画像における追跡対象物体である人物を含む部分領域の位置（外接矩形の左上、またはその重心点の座標）、入力画像における追跡対象物体である人物を含む部分領域の特徴量が必要である。

位置を参照することで、前述の正例データ、負例データを取得すべき位置を決定することが可能となる。また過去時刻の位置と現在時刻の位置を比較することで移動速度や、人物同士が接近しているのか離れていくのかが把握可能となる。

さらに追跡履歴情報４３には、各処理時刻における各人物同士の類似度程度である特徴量距離を記憶しておく。特徴量距離については後述する。

画像処理部３０は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）等の演算装置で構成される。画像処理部３０は、記憶部４０からプログラムを読み出して実行することにより各種処理手段・制御手段として動作し、必要に応じて、各種データを記憶部４０から読み出し、生成したデータを記憶部４０に記憶させる。

画像処理部３０は、部分領域抽出手段３１、特徴量算出手段３２、判定手段３３、位置推定手段３４、正例取得手段３５、負例取得手段３６、負例追加手段３７、及び識別器更新手段３８を有する。なお、負例取得手段３６及び負例追加手段３７が、負例追加部の一例である。

部分領域抽出手段３１は、撮像部１０からの現時刻の入力画像を処理対象として、処理対象の入力画像に対して、指定入力部２０にて指定入力された矩形の大きさの部分領域（検出窓）について、その内部の画像を部分画像として切り出す手段である。入力画像における各人物の大きさが大よそ仮定できる場合（例えば横６０画素、縦１４０画素）には、その大きさに合わせて切り出してもよい。または撮像部１０が天井から見下ろすように設置されている場合には、入力画像の上方と下方で部分領域の大きさを変化させても良い。この場合、上方であるほど小さくする。

さらには、追跡中の各人物について、前時刻での当該人物を含む部分領域の位置を中心に、移動方向や移動速度などを考慮して探索領域を設定し、その内部において部分領域を設定して部分画像を切り出すこととする。探索領域の大きさは、検出窓の大きさの縦横それぞれ２倍程度に設定すればよい。

切り出された部分画像は、特徴量算出手段３２に出力される。

特徴量算出手段３２は、処理対象の入力画像から切り出された部分画像から、識別器４１で用いる特徴量を算出する。具体的には、部分画像を予め定めたブロックサイズに区切り、それぞれのブロックで、識別器４１で用いる特徴量を算出する。次に、ブロック毎に算出した特徴量を一列に並べて特徴ベクトルを生成する。

判定手段３３は、処理対象の入力画像の部分画像が追跡対象物体である人物を含むか否かを判定する手段である。すなわち、部分画像に対して、特徴量に基づいて、記憶部４０から読み出した識別器４１の識別処理を行い、当該人物らしさを示すスコアを求めてそれが所定以上の場合には、当該部分画像が、追跡対象物体である人物を含むと判定する。

部分画像について、識別器Ａ４１０を作用させた結果のスコアが所定以上の場合には人物Ａを含むと判定し、識別器Ｂ４１１を作用させた結果のスコアが所定以上の場合には人物Ｂを含むと判定する。

前述のように探索領域を設定した場合は、その探索領域の人物に対応した識別器４１のみを作用させることで処理量削減を図ることができる。

位置推定手段３４は、追跡中の各人物について判定手段３３が当該人物を含むと判定した部分画像を含む検出窓群から、追跡中の各人物について、処理対象の入力画像中の当該人物を含む部分領域の位置を推定する手段である。

その推定に際しては、スコアが最大となった部分画像の検出窓の重心位置とすればよい。

あるいは、所定以上のスコアの部分画像の検出窓を複数特定してまとめ処理を行っても良い。そのためにMean-Shift法と呼ばれる、データ点が分布している空間内における密度の極大点を探索する手法を使用できる。この場合、一定以上の重なりがある検出窓について、その重心位置情報（ｘ座標、ｙ座標）と、標準の検出窓に対する縮尺率、及び、検出スコアからなる4次元空間内に、一定以上の重なりがある検出窓についてプロットし、密度の極大となる点を探す。その点が表す重心位置情報と縮尺率から、当該人物を含む部分領域の位置を推定してもよい。

位置推定手段３４は、追跡対象物体である人物のＩＤ、処理した時刻、入力画像中の位置情報、当該人物を含む部分領域の特徴量を記憶部４０の追跡履歴情報４３に記憶する。

正例取得手段３５は、人物が新規出現であり指定入力部２０からの入力があった場合には、指定入力された領域の内部の画像を、当該人物の識別器４１に対する正例データとして記憶部４０の訓練データ４２に記憶させる。即ち、その人物が人物Ａならば正例データＡ４２０、人物Ｂならば正例データＢ４２２に記憶させる。枚数は前述のように、ずれ量を１０％まで、人物ごとに最大５０枚とすればよい。

人物について追跡が行われており、学習も進んでいる場合には位置推定手段３４において人物の位置推定に用いた部分画像をそのまま正例データとして記憶部４０に記憶させれば良い。あるいは、新規出現後間もなくは正例データが少ないため、判定手段３３にて所定のスコア以上を示した部分画像を正例データとして記憶部４０に記憶させればよい。

負例取得手段３６は、追跡中の人物の各々について、判定手段３３においてスコアを求めるのに用いられた部分画像のうち、正例データとされた以外の画像を負例データとして記憶部４０の負例データＡ４２１や負例データＢ４２３に記憶させる。

ここで、追加記憶させる負例データは、正例データ（人物を含む物体領域の位置）からある程度遠いという条件を課すこととする。これは正例データから遠いと、正例となる人物は写っていないとの推定を働かせるのは妥当であり、逆に正例データに近いと当該人物の一部を含んでしまうあまり、不正解と判定しやすくなるからである。

さらには正例データから遠いほど小さな重みを負例データに付与し、正例データから近いほど大きな重みを負例データに付与して記憶するのが好適である。ここで、負例データに付与される重みが大きいほど、負例データの画像に対して識別器４１により算出されるスコアが小さくなるように識別器４１が学習される。

負例追加手段３７は、注目している人物の識別器４１の負例データに他の人物の正例データを一定条件下で追加する手段である。具体的には、負例追加手段３７は、注目している人物を含む部分領域と他の人物を含む部分領域との類似度が所定の類似閾値以上である場合に当該他の人物の正例データを、注目している人物の識別器４１の負例データとして訓練データ４２に追加する。これは２者が類似していると乗り移りが発生する可能性があるため、それぞれの人物の正例データを他方の人物の負例データに追加するのが好適だからである。

本実施の形態において、類似度は、人物Ａを含む部分領域の特徴量と人物Ｂを含む部分領域の特徴量との特徴量空間での距離である特徴量距離を用いて定義する。

また、特徴量距離が短いほど追加処理の効果を奏するべく、大きな重みを付けて負例データとして追加するのが好適である。

負例追加手段３７において、特徴量距離を算出する場合には、注目する人物Ａを含む部分領域と他の人物Ｂを含む部分領域それぞれの画像に対し、特徴量算出手段３２と同様に、特徴量の算出を行う（図示せず）。特徴抽出は、部分画像を予め定めたブロックサイズに区切り、それぞれのブロックで特徴量を計算する。特徴量としては、識別器４１で用いる特徴量と同じでもよいし、Lab色空間における色情報やRGBカラーヒストグラムなど、識別器４１で用いる特徴量と異なる特徴量でもよい。次に、ブロック毎に算出した特徴量を一列に並べて特徴ベクトルを生成する。特徴量にLabを使用した場合は、チャンネルごとに特徴ベクトルを求め、それをさらに一列に結合して特徴ベクトルを生成する。

次に、人物Ａと人物Ｂのそれぞれの部分領域から生成した特徴ベクトルの類似度を、特徴量距離として計算する。本実施形態では、類似度の計算方法として正規化相関を用いるが、ユークリッド距離やSSDなどの他の類似度計算方法を用いてもよい。

また、更に特徴量距離が減少傾向であることを条件として追加して、それぞれの人物の正例データを他方の人物の負例データに追加するようにしてもよい。これにより、人物Ａの画像特徴と人物Ｂの画像特徴とが時間を追って似つつあること（例えば、照明の変化などにより画像特徴が似てくる場合など）を考慮して、それぞれの人物の正例データを他方の人物の負例データに追加することができる。

また、更に特徴量距離が増加傾向であると、既に追加済みの負例データがある場合にはそれを削除することとしてもよい。これにより、人物Ａの画像特徴と人物Ｂの画像特徴とが時間を追って似なくなりつつあること（例えば、照明の変化などにより画像特徴が似なくなっていく場合など）を考慮して、処理上不要なデータを削除することで処理量削減を図るとともに、他の人物のデータが負例に含まれることによる副作用（人だからというだけで正解と識別してしまうことなど）を防止することができる。

なお、特徴量距離が減少傾向又は増加傾向であることとは、各処理時刻における特徴量距離が減少傾向又は増加傾向であることでもよいし、各処理時刻について、当該処理時刻にける一方の人物の画像特徴量と、全時刻における他方の人物の画像特徴量との距離の平均値が、減少傾向又は増加傾向であることでもよい。

以下、そのように追加する理由を、注目している人物を人物Ａとして説明する。

人物Ａについての追跡と学習が進むと、正例データＡ４２０と負例データＡ４２１は前述したように図３に示すようになっている。

この状態で後述する識別器更新手段３８により再度の学習処理により更新される識別器Ａ４１０は部分画像について正解として「人物が写っており、それは人物Ａである」、不正解として「人物が写っておらず、背景が写っている」との識別をする性質を有することになる。

この状態で、図１（ｃ）を用いて上述したように、人物Ｂが接近すると、人物Ｂについての情報を学習していないため、人物Ｂが写っているにも関わらず「背景ではなく人物である。人物であるならばそれは人物Ａである」との識別結果を出しかねない。
これは人物Ｂの正例データが人物Ａの負例データＡ４２１に含まれていても、学習が進んだ結果その数が極わずかであり、割合が低ければ同様である。

すると、図４（ａ）に示すように、人物Ｂが写っている部分画像４０１が識別器Ａ４１０の正例データ４００に混入することになり、以後、識別器Ａ４１０は人物Ｂを正解として識別して追跡を継続するという「追跡対象物体の乗り移り」が発生する可能性があるからである。

これは人物Ａと人物Ｂの風采が似通っている場合には特に懸念される。即ち人物Ａと人物Ｂについて、服装や背格好が似ており入力画像中の写り具合（見え方）が近い場合、人物Ａを含む部分領域の特徴量と人物Ｂを含む部分領域の特徴量との特徴量空間での距離である特徴量距離は小さいことになる。

つまり、当該特徴量距離が類似閾値に相当する所定の閾値未満の場合には、「追跡対象物体の乗り移り」が発生する可能性が一層高まるからである。なお、類似閾値は、「追跡物体の乗り移り」の可能性があると考えられるほどに風采が似ている場合の特徴量距離を実験的に求めた値に基づいて予め設定される。

そこで、負例追加手段３７は、人物Ａから人物Ｂへの「追跡対象物体の乗り移り」が発生することを防止するために、人物Ｂの正例データを、記憶部４０の識別器Ａ４１０の負例データＡ４２１に追加する処理を行う。その結果を図４（ｂ）に示す。

図４（ｂ）には、識別器Ａ４１０の負例データ４０４に、符号４０５に示すように人物Ｂが写った部分画像が追加された様子が示されている。

この状態で、識別器更新手段３８が識別器Ａ４１０の学習を行うと、正解として「人物が写っており、それは人物Ａである」、不正解として「人物が写っておらず、背景が写っている。人物が写っていても（人物Ａではなく）人物Ｂである」との識別をする性質を有することになり、風采が似通っている人物Ａと人物Ｂが同時に写っており、しかも入力画像中で接近しても「追跡対象物体の乗り移り」が発生せず、正しく追跡できることになる。

なお、特徴量距離を求める際、「追跡物体の乗り移り」の可能性が無いと考えられるほどに風采が異なっていると言い得るほどの上限を設定しても良い。

識別器更新手段３８は、追跡中の人物の各々について、正例取得手段３５、負例取得手段３６、負例追加手段３７により新たに記憶部４０の訓練データ４２に記憶された各データを反映させた学習過程により、識別器４１を更新する。

そのために識別器更新手段３８は、新たに訓練データ４２に記憶された各データの局所領域から前述のようにHaar-Like特徴量やHOG特徴量などの画像特徴を抽出し、正例と負例を識別する識別関数をSVM法によって算出する。

なお、処理が進むと過去の訓練データが多くなり学習処理時間が増大するため正例データ及び負例データが一定量になるように削除処理を含む制御をするのが好適である。削除の方法は、過去に追加された訓練データのうち、古いものから順に削除する。また、負例データを削除する際には識別境界から最も離れた負例データを削除してもよい。

さらには付与されている重みの絶対値が小さな正例データ及び負例データから削除してもよい。そのような正例データ及び負例データは識別処理に大きな影響を与えないからである。

また画像処理部３０は、撮像部１０から取得した入力画像とともに、位置推定手段３４が推定した、各人物の位置を目視確認容易な形式にて出力部５０に出力する。

各人物の位置は、単純な丸印のほか、×印、人物を囲う矩形にて表示できる。

出力部５０は、撮像部１０から取得した入力画像のほか、各人物を含む部分領域の位置、その移動履歴などを表示するモニター装置であり、液晶やＣＲＴモニターにて実現できる。前述のようにタッチパネルの機能を有する場合には、指定入力部２０の機能を兼ね備えることができる。

＜追跡装置１の動作＞
以下、図５に示したフローチャートを参照しつつ、本発明を適用した追跡装置１による全体処理の動作を説明する。図５に示すフローチャートは動作開始後、撮像部１０のフレーム間隔にあわせて、入力画像が１枚取得されるたびに実行される。

ステップＳ１００において、撮像部１０は、追跡対象物体となる人物が写り得る場所を写した現時刻における入力画像を処理対象として取得して、画像処理部３０に出力する。

ステップＳ１１０において、画像処理部３０は、前時刻までに追跡対象物体となっており、対応する識別器４１と訓練データ４２が既に記憶部４０に記憶済みの各人物について、処理対象の入力画像における当該人物を含む部分領域の位置の推定処理を行う。

まず、部分領域抽出手段３１は、追跡対象物体となる人物を１人特定する。例えば人物Ａとする。そして記憶部４０を参照し、前時刻における当該人物を含む部分領域の位置を読み出して、仮定している移動速度や移動方向を参照して、人物Ａが存在する可能性が高い領域として探索領域を設定する。撮像部１０を天井から斜め下方向を見下ろすように設置している場合、入力画像中の上方は実際には撮像部１０から遠いので小さく設定してもよい。

そして、その内部にて検出窓を設定して、その内部から部分画像を抽出し、特徴量算出手段３２に出力する。

特徴量算出手段３２では、抽出した部分領域から特徴量を抽出し、判定手段３３に出力する。

判定手段３３では、人物Ａに対応した識別器Ａ４１０を記憶部４０から読み出して、特徴量に作用させ、求めたスコアが所定以上の場合に、その部分画像が、人物Ａを含むと判定する。

部分領域抽出手段３１と特徴量算出手段３２と判定手段３３は、探索領域内部の各所にて上記の処理を繰り返す。

そして位置推定手段３４は、最大のスコアを示した部分画像の検出窓の位置が、処理対象の入力画像において人物Ａを含む部分領域の位置であるとの推定結果を求め、時刻情報などとともに記憶部４０の追跡履歴情報４３に記憶する。

画像処理部３０は、追跡中の他の人物についても上記のステップＳ１１０の処理を行う。

追跡装置１の操作者が目視確認して、追跡中の人物には含まれない人物が入力画像に含まれていると判断すると、それは処理対象の入力画像において新規に出現した人物であるとして、操作者が指定入力部２０を操作した結果をステップＳ１２０にて受け付ける。

新規に出現した人物がいない場合、あるいは、別途自動的に新規出現の人物についての処理がなされる場合にはステップＳ１２０の処理は行わない。

なお、図５では省略したが、入力画像中に人物が一人も写っていない場合には、以下の処理は行わずステップＳ１００に戻り、次の時刻の入力画像の取得を待つ。

以下のステップＳ１３０〜Ｓ１６０は、処理対象の入力画像に写っている人物のそれぞれについて現時刻における当該人物を含む部分領域の位置が推定された状態で実行される、識別器４１の更新処理である。

まず画像処理部３０は、更新処理の対象となる人物を１人特定する。例えば人物Ａとする。

ステップＳ１３０にて、正例取得手段３５は、処理対象の入力画像での人物Ａを含む部分画像と、その部分領域の位置を含む近傍位置における検出窓から人物Ａを含む部分画像を抽出して正例データＡ４２０として記憶部４０に記憶させる。

ステップＳ１４０にて、負例取得手段３６は、判定手段３３においてスコアを求めるのに用いられた部分画像のうち、人物Ａに重複しない領域内部の画像を負例データとして記憶部４０の負例データＡ４２１に記憶させる。

ステップＳ１５０にて、負例追加手段３７は、人物Ａの識別器Ａ４１０の負例データに他の人物の正例データを一定条件下で追加する。具体的な処理は図６を参照して後述する。

ステップＳ１６０にて、識別器更新手段３８は、ステップＳ１３０〜Ｓ１５０の処理結果を踏まえて、学習過程により識別器Ａ４１０の更新をする。

以上のステップＳ１３０〜Ｓ１６０の処理を入力画像に写っている人物のそれぞれについて実行する。

ステップＳ１７０にて、画像処理部３０は、処理対象の入力画像における追跡結果として出力部５０に出力（画面表示）したり、記憶部４０に記憶させる。

次に図６を参照して、ステップＳ１５０において、負例追加手段３７によってなされる処理を説明する。

図６に示すフロー図は、追跡処理の過程で注目する人物ごとに、他の人物との位置関係などを参照しつつ実行される。以下、注目する人物を人物Ａとし、他の人物を人物Ｂとする。

ステップＳ２００において、負例追加手段３７は、記憶部４０の追跡履歴情報４３を参照し、処理対象の入力画像における特徴量距離が類似閾値に相当する所定の閾値未満であるか否かを調べる。特徴量距離が当該所定の閾値以上の場合には（Ｎｏの分岐）、特に何も処理はせず、図５のメインフローに戻りステップＳ１６０に進む。

特徴量距離が前述の範囲内であり（ステップＳ２００でＹｅｓの分岐）、記憶部４０の追跡履歴情報４３を時系列に参照すると人物Ｂが人物Ａに特徴量空間において接近している、すなわち光の加減や体の向きなどの変化により人物Ｂが人物Ａに類似していき、特徴量距離が減少傾向である場合には、これまで述べてきたように「追跡対象物体の乗り移り」が懸念される状況にある（ステップＳ２１０のＹｅｓの分岐）。

そこで、ステップＳ２２０において、負例追加手段３７は、識別器Ｂ４１１が人物Ｂを含む部分領域であると判定した物体領域の画像である正例データを人物Ａの負例データに追加する処理を行う（図４（ｂ）参照）。

特徴量距離が減少傾向ではなく、人物Ａと人物Ｂの風采に変化が無い場合にも、同じくステップＳ２２０に進んで追加する処理を行うものとする。

特徴量距離が増加傾向である場合には、光の下限や体の向きなどにより人物Ａと人物Ｂの風采が似なくなっていくことを意味している（ステップＳ２１０のＮｏの分岐）。

この場合、「追跡対象物体の乗り移り」の懸念は解消されることになり、人物Ｂの正例データが人物Ａの負例データに存在しない方が良いことになる。理由は「追跡対象物体の乗り移り」の懸念が解消されるならば人物Ｂの正例データを人物Ａの負例データとして用いた学習処理は不要であり、処理の高速化が図れるためである。また人物Ａの正例データを人物Ｂの正例データと誤った判断をする結果、検出と追跡の失敗という副作用の防止も図れるためである。

そこで負例追加手段３７は、人物Ａの負例データに人物Ｂの正例データが追加された実績がある場合には（ステップＳ２３０のＹｅｓの分岐）、人物Ａの負例データから人物Ｂの正例データを削除する処理を行う（ステップＳ２４０）。実績が無い場合には特に処理はしない（ステップＳ２３０のＮｏの分岐）。

これらの一連の処理が終了すると、図５に示すメインフロー図のステップＳ１６０（識別器更新処理）に進む。

以上説明してきたように、本発明の実施の形態に係る追跡装置１によれば、注目している人物を含む部分領域の特徴量と、他の人物を含む部分領域の特徴量との特徴量距離が、閾値未満であり、かつ、当該特徴量距離が減少傾向である場合に、当該他の人物の正例データを、注目している人物の識別器４１の負例データとして訓練データ４２に追加することにより、逐次更新される識別器４１を用いて物体識別を行う際に、複数の人物が写っており、風采が似通っている場合であっても、各人物を精度よく追跡することができる。また、画像特徴が類似した複数の人物が接近しても正確な識別が可能となり、複数の人物を精度よく追跡することができる。

以上、本発明の好適な実施形態について説明してきたが、本発明はこれらの実施形態に限定されるものではない。当業者は本発明の範囲内で、実施される形態に合わせて様々な変更を行うことができる。

（変形例１）
上記の実施形態においては、図６のサブフローにおけるＳ２２０の、負例追加手段３７が人物Ｂの正例データを人物Ａの負例データに追加する処理を行うための条件として、特徴量距離を参照していたが、人物ごとに生成される特徴量ベクトルに、画素値を決定する輝度や色などから求められる特徴量の他に、当該人物の入力画像における座標情報をその成分に加えて、負例データの追加の可否判断をしてもよい。
この場合、画素値から決まる風采の特徴に加え、注目している人物を含む部分領域の位置と他の人物を含む部分領域の位置との物体間距離をも考慮して負例データの追加の可否判断が可能となる。

（変形例２）
上記の実施形態においては、図６のサブフローにおけるＳ２４０において削除した人物Ｂの正例データを、記憶部４０の一時記憶用バッファに、人物Ｂが入力画像に写り続ける間は一時記憶させ、人物Ｂが人物Ａから離れたり、光の加減や体の向きなどにより風采が似なくなった後に、再び風采が似始めたら、削除した人物Ｂの正例データを負例データとして再度追加することとしてもよい。

これは一旦は負例データ追加の条件に外れることがあっても、過去にその条件を満たした履歴があって、負例データ追加の条件を再度満たす場合にはその情報の有効活用が図れるものであるため「乗り移り」を一層防止できる。

例えば、図６のサブフローにおけるステップＳ２２０において、負例追加手段３７が類似度を算出して人物Ｂの正例データを人物Ａの負例データに追加する際、記憶部４０の一時記憶用バッファに、Ｓ２４０において削除した人物Ｂの正例データが記憶されている場合には、当該人物Ｂの正例データを、人物Ａの負例データに追加するようにすればよい。

（変形例３）
上記の実施形態においては、図６のサブフローにおけるステップＳ２２０において、負例追加手段３７が類似度を算出して人物Ｂの正例データを人物Ａの負例データに追加する際、その人物Ｂの正例データにあえて識別器Ａ４１０を作用させ、識別器Ａ４１０と識別器Ｂ４１１が算出したスコアを比較してもよい。すなわち、識別器Ａ４１０が算出したその人物Ｂの正例データについてのスコアと、識別器Ｂ４１１が算出したその人物Ｂの正例データについてのスコアとの差を類似度とみなして、類似度が所定の類似閾値以上である場合に、その人物Ｂの正例データを人物Ａの負例データに追加するようにしても良い。
あるいは当該スコアの差を用いて、その差の値が大きいほど大きくなるよう類似度を定義しても良い。

このように、当該人物Ｂの正例データについて識別器Ａ４１０が算出したスコアの方が高い場合には、一旦は識別器Ｂ４１１により人物Ｂを含む部分領域であると判定されたものの、画像特徴は人物Ａに良く似ているため、両者が近づくと「乗り移り」の可能性が一層高いため、当該人物Ｂの正例データを人物Ａの負例データに追加する処理を行うことで、「乗り移り」を一層防止できる。

ただし、当該スコアの差が大きすぎる場合には、人物Ｂの正例データとしての信頼性に欠ける、つまり人物Ａが写っている可能性もあるので、当該スコアの差については上限を設けるのが望ましい。

（変形例４）
上記の実施形態では、人物を追跡対象物体とする場合を例に説明したが、これに限定されるものではなく、他の物体を追跡対象物体としてもよい。

１追跡装置
１０撮像部
２０指定入力部
３０画像処理部
３１部分領域抽出手段
３２特徴量算出手段
３３判定手段
３４位置推定手段
３５正例取得手段
３６負例取得手段
３７負例追加手段
３８識別器更新手段
４０記憶部
４１識別器
４２訓練データ
４３追跡履歴情報
５０出力部

Claims

入力画像の時系列に写る追跡対象物体を追跡する画像処理装置であって、
処理対象の入力画像より過去の入力画像に写る追跡対象物体の各々について、前記処理対象の入力画像の部分領域が該追跡対象物体を含むか否かを、前記過去の入力画像に写る該追跡対象物体を含む物体領域の画像を正例とし、該物体領域ではない領域の画像を負例とする訓練データを用いた学習過程により該追跡対象物体に対して生成された識別器を用いて判定する判定部と、
前記追跡対象物体の各々について、一の追跡対象物体を含む前記部分領域の画像から求められた第１の特徴量と、他の追跡対象物体を含む前記部分領域の画像から求められた第２の特徴量との特徴量空間における距離が予め定められた閾値以下の場合に前記他の追跡対象物体を含む前記部分領域の画像を該一の追跡対象物体の識別器の負例として前記訓練データに追加する負例追加部と、
前記追跡対象物体の各々について、少なくとも前記負例追加部により前記負例が追加された前記訓練データを用いて、該追跡対象物体に対する前記識別器を更新する識別器更新部と
を備えることを特徴とする画像処理装置。
前記負例追加部は、前記距離が減少傾向である前記他の追跡対象物体を含む前記部分領域の画像を、前記一の追跡対象物体に対する前記識別器の負例として前記訓練データに追加することを特徴とする請求項１に記載の画像処理装置。
前記負例追加部は、更に、前記一の追跡対象物体に対する前記識別器の負例として前記訓練データに追加済みであり、且つ前記距離が増加傾向である前記他の追跡対象物体を含む前記部分領域の画像を前記訓練データから削除することを特徴とした請求項１または２に記載の画像処理装置。
前記画像処理装置は、更に、前記一の追跡対象物体について少なくとも前記負例追加部が削除した前記他の追跡対象物体を含む前記部分領域の画像を一時記憶する記憶部を有し、
前記負例追加部は、前記一の追跡対象物体について前記記憶部に前記他の追跡対象物体を含む前記部分領域の画像が一時記憶されており、かつ前記距離が前記予め定められた閾値以下であると、当該一時記憶された前記部分領域の画像を前記一の追跡対象物体の識別器の負例として前記訓練データに再追加することを特徴とする請求項３に記載の画像処理装置。
前記特徴量は、少なくとも前記入力画像における前記物体領域の画素値から決まる特徴量と座標情報とを含むことを特徴とした請求項１〜請求項４の何れか１項に記載の画像処理装置。
前記負例追加部は、更に前記他の追跡対象物体を含む前記部分領域の画像について前記一の追跡対象物体に対する前記識別器が算出した前記一の追跡対象物体らしさから、前記他の追跡対象物体を含む前記部分領域の画像について前記他の追跡対象物体に対する前記識別器が算出した前記他の追跡対象物体らしさを引いて得られる差が予め定められた閾値以上である場合に、前記他の追跡対象物体を含む前記部分領域の画像を、前記一の追跡対象物体に対する前記識別器の負例として前記訓練データに追加することを特徴とした請求項１〜請求項５の何れか１項に記載の画像処理装置。