JP6028972B2

JP6028972B2 - 画像処理装置、画像処理方法および画像処理プログラム

Info

Publication number: JP6028972B2
Application number: JP2012221034A
Authority: JP
Inventors: ジェイ．エイチ．マノジヴィンセントペレラ
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2012-10-03
Filing date: 2012-10-03
Publication date: 2016-11-24
Anticipated expiration: 2032-10-03
Also published as: JP2014074977A

Description

この発明は、人物や物体等のオブジェクトの検出と追跡を行なう画像処理装置及びそのプログラムに関し、高速に検出を行い、少ない特徴量でオブジェクトの追跡を確実に行えるようにすることで、オブジェクトの検出と追跡がリアルタイムで行うことを可能にしたものである。

定点カメラで来場者映像を撮影し、人物を検出して追跡するシステムは、来場者の人数を計測し、年齢や性別を調査するために検討されてきている。

撮影したオブジェクト、特に人物検出の手法としては、ＨＯＧ（Histograms of oriented Gradients）と呼ばれる輝度勾配ヒストグラムを特徴量とした識別手法が広く用いられている。

N.Dalal and B.Triggs: "Histgrams of Oriented Gradients for Human Detection", IEEE Computer Society Conference on ComputerVision and Pattern Recognition, vol.1, pp.886-893(2005) X. Wang, T.X. Han and S. Yan: "An HOG-LBP Human Detector with Partial Occlusion Handling", IEEE 12th International Conference on ComputerVision, pp.32-39(2009)

上記のＨＯＧ特徴量を用いた人物検出においては、精度高く人物検出が行える一方、計算に時間がかかるという問題があった。また、人物の追跡（トラッキング）においては、プライバシーへの配慮から各クレーム画像を高速にリアルタイムに処理を行って画像を捨てる必要があるため、人物のトラッキングを行う場合に適用することは困難であった。また、人物の追跡についても高速に行う必要がある。

本発明は、人物や物体等のオブジェクト検出及び追跡を高速に行え、検出精度を向上させた画像処理装置に関する。

本発明の画像処理装置は、入力フレーム画像からオブジェクトが存在するオブジェクトウィンドウを検出するオブジェクト検出部と、オブジェクト検出部で検出された複数の近傍のオブジェクトウィンドウをクラスタリングで統合することで、オブジェクト領域を設定するクラスタリング統合部と、オブジェクト領域をオブジェクト候補領域とし、過去のフレーム画像のオブジェクト領域に基づいて予測される領域をオブジェクト予測領域とし、ウィンドウ幅の差異が所定範囲内であるオブジェクト候補領域であって、かつ前記オブジェクト予測領域から最短距離にあるオブジェクト候補領域について、前記過去のフレーム画像のオブジェクト領域と関連付けて登録するオブジェクトトラッキング部と、を有する画像処理装置を提供する。

上記画像処理装置において、オブジェクトトラッキング部は、複数のオブジェクト候補領域のうち、ウィンドウ幅の差異が所定範囲内であって、オブジェクト予測領域から所定の距離内にあるオブジェクト候補領域を関連オブジェクト候補領域として抽出し、関連オブジェクト候補領域のうち、オブジェクト予測領域から最短距離にある関連オブジェクト候補領域について、前記過去のフレーム画像のオブジェクト領域と関連付けて登録するようにしてもよい。

上記画像処理装置において、オブジェクトトラッキング部は、オブジェクト候補領域が、二以上のオブジェクト予測領域に関連付けられた場合、オブジェクト候補領域から最短距離にあるオブジェクト予測領域に対応する過去のフレーム画像のオブジェクト領域にのみ関連付けて登録するようにしてもよい。

また、上記画像処理装置において、オブジェクトトラッキング部は、過去のフレーム画像のオブジェクト領域に付与されている識別子と同一の識別子をオブジェクト候補領域に付与することで関連付けて登録するようにしてもよい。

上記画像処理装置において、オブジェクトトラッキング部は、二フレーム前のフレーム画像の第一のオブジェクト領域と、第一のオブジェクト領域と関連付けられた一フレーム前のフレーム画像における第二のオブジェクト領域における座標の変化量に基づいて入力フレーム画像におけるオブジェクト予測領域を決定してもよい。

上記画像処理装置において、オブジェクトトラッキング部は、二フレーム前のフレーム画像に関連付けられたオブジェクト領域がない場合には、一フレーム前のフレーム画像におけるオブジェクト領域の座標から所定量変化させることで、入力フレーム画像におけるオブジェクト予測領域を決定してもよい。

上記画像処理装置において、オブジェクト検出部は、入力フレーム画像にウィンドウを設け、ウィンドウ内を所定領域を有するブロックでオーバーラップスキャンすることで、ウィンドウの特徴量を算出し、算出した特徴量に基づいてオブジェクトウィンドウを検出してもよい。

上記画像処理装置において、オブジェクト検出部は、オーバーラップスキャンする場合に、スキャンレイヤごとに、オーバーラップ領域の特徴量は一度算出した特徴量を再利用することで、ウィンドウの特徴量を算出してもよい。

本発明は、入力フレーム画像からオブジェクトが存在するオブジェクトウィンドウを検出するステップ、検出された複数の近傍のオブジェクトウィンドウをクラスタリングで統合することで、オブジェクト領域を設定するステップ、オブジェクト領域をオブジェクト候補領域とし、過去のフレーム画像のオブジェクト領域に基づいて予測される領域をオブジェクト予測領域とし、ウィンドウ幅の差異が所定範囲内であるオブジェクト候補領域であって、かつ前記オブジェクト予測領域から最短距離にあるオブジェクト候補領域について、過去のフレーム画像のオブジェクト領域と関連付けて登録すると共に、オブジェクト候補領域が、二以上のオブジェクト予測領域に関連付けられた場合には、オブジェクト候補領域から最短距離にあるオブジェクト予測領域に対応する上記過去のフレーム画像のオブジェクト領域にのみ関連付けて登録するステップを有する画像処理方法を提供する。

また、本発明は、コンピュータに、入力フレーム画像からオブジェクトが存在するオブジェクトウィンドウを検出するステップ、検出された複数の近傍のオブジェクトウィンドウをクラスタリングで統合することで、オブジェクト領域を設定するステップ、前記オブジェクト領域をオブジェクト候補領域とし、過去のフレーム画像のオブジェクト領域に基づいて予測される領域をオブジェクト予測領域とし、ウィンドウ幅の差異が所定範囲内であるオブジェクト候補領域であって、かつオブジェクト予測領域から最短距離にあるオブジェクト候補領域について、過去のフレーム画像のオブジェクト領域と関連付けて登録すると共に、オブジェクト候補領域が、二以上のオブジェクト予測領域に関連付けられた場合には、オブジェクト候補領域から最短距離にあるオブジェクト予測領域に対応する上記過去のフレーム画像のオブジェクト領域にのみ関連付けて登録するステップと、を実行させるプログラムを提供する。

本発明によれば、入力フレーム画像において、過去フレーム画像に基づいてオブジェクト予測領域を設定し、オブジェクト検出部においてオブジェクトが存在するとして検出されたオブジェクト候補領域であって、所定条件を満たしかつ最短距離にあるオブジェクト候補領域を過去フレーム画像のオブジェクト領域と関連付けて登録することができるため、同一人物をフレーム画像間でトラッキングすることが可能となる。

また、トラッキング処理において、ヒストグラムや色情報などの比較を行うことなく、トラッキングを行うため、リアルタイムでトラッキング処理を行うことができる。さらに、オブジェクト候補領域は、輝度等の特徴量に基づいて検出されているため、少ないパラメータであっても精度高くトラッキングを行うことができる。

さらに、オブジェクト検出部において、入力フレーム画像にウィンドウを設け、ウィンドウ内の所定領域を有するブロックでオーバーラップスキャンし、オーバーラップスキャンするときに、スキャンレイヤごとに、一度算出した特徴量を再利用することで高速にオブジェクト検出を行うことができる。

本発明にかかる一つの実施形態における画像処理装置のブロック図の一例である。本発明の画像処理装置のハードウェア構成図の一例である。本発明の画像処理装置において、オブジェクト検出部１２が入力フレーム画像からオブジェクトを検出する場合のフローチャートの一例である。スキャンテーブル記憶部１１に記憶されているスキャンテーブルの一例である。セルとブロックの関係を示す概念図である。ウィンドウとブロックの関係を示す概念図である。本発明の画像処理装置においてオブジェクトトラッキング部１４がフレーム画像間で同一のオブジェクト領域を対応づける場合の処理の一例である。フレーム画像間におけるオブジェクト領域の関連付けのイメージ図である。図７のステップ７０３におけるオブジェクト予測領域とオブジェクト候補領域の関係を示す図である。本発明の画像処理装置においてオブジェクト検出を行った場合の実験結果を示すテーブルである。

この発明を画像内に撮影されている人物の上半身領域を検出し、人物のトラッキングに適用した実施の形態を以下に説明する。この実施の形態では、カメラが所定の位置に設置され、撮影場所を通過する人物を撮影している。撮影された画像から人物を検出し、フレーム画像間でトラッキングを行うことで、一人の人物を動画像において追跡を行う。但し、ここでは人物の上半身領域であるが、検出するオブジェクトは人物の上半身に限らず、他の人物の一部分、目や鼻などであってもよく、また、車や車のナンバープレートなど、物体や物体の一部であってもよい。

図１は、本発明にかかる一つの実施形態における画像処理装置のブロック図の一例である。画像処理装置１００は、画像記憶部１０、スキャンテーブル記憶部１１、オブジェクト検出部１２、クラスタリング都合部１３、オブジェクトトラッキング部１４と、を有する。画像記憶部１０は、ネットワークや有線ケーブル等を介して接続されるカメラから入力される画像を記憶する。カメラは、動画像を撮像しており、画像処理装置１００には、動画像の時系列データである画像データが、例えば、通信インターフェースを介して、順次入力される。入力される各々の画像データはフレーム画像である。入力されたフレーム画像は、画像記憶部１０に順次、一時的又は長期間記憶される。

スキャンテーブル記憶部１１は、フレーム画像をスキャンする際のウィンドウサイズやスキャンストライドの値、ウィンドウの数などを記憶しているテーブルである。フレーム画像からオブジェクト検出処理を行う際に、画像にウィンドウを設定し、ウィンドウ内をオーバーラップさせながらスキャンすることで当該ウィンドウ内の特徴量を算出している。ウィンドウサイズは様々なものが設定可能であり、ウィンドウサイズによってスキャンストライド値や画像データ全体をスキャンするために必要なウィンドウ数が変化するため、ウィンドウサイズに対応づけてテーブルとして記憶しており、オブジェクト検出部１２は、スキャンテーブル記憶部１１からスキャンテーブルを読み出して、所定のウィンドウサイズでスキャンを行う。

オブジェクト検出部１２は、画像記憶部１０に記憶されたフレーム画像を順次読み出して、入力フレーム画像からオブジェクトが存在するオブジェクトウィンドウの検出処理を行う。例えば、オブジェクト検出部１２は、スキャンテーブル記憶部１１からスキャンテーブルを読み出して、予め決められたスキャンレイヤのウィンドウサイズで、入力フレーム画像全体において探索する。一例として、定められたウィンドウサイズを有するウィンドウ内で所定のスキャンストライド値でオーバーラップスキャンを行うことで、ウィンドウ内の輝度勾配方向ヒストグラムを生成し、ＨＯＧ特徴量を算出する。

例えば、人物の上半身をオブジェクトとして検出する場合、オブジェクト検出部１２は、サポート・ベクター・マシン（ＳＶＭ）などを用いて、輝度勾配方向ヒストグラムの特徴量（ＨＯＧ特徴量）を予め学習しておき、ＳＶＭ識別器を得ておく。そして、入力フレーム画像から抽出されたＨＯＧ特徴量が人物の上半身かどうかを、ＳＶＭ識別器によって評価することで、人物の上半身の領域であるオブジェクトウィンドウを検出する。つまりＳＶＭ識別器によって、人物の上半身である特徴量を有するウィンドウを、オブジェクトウィンドウとして検出する。

また、オブジェクト検出部１２は、様々なウィンドウサイズを有するウィンドウで入力フレーム画像内を逐次スキャンを行って、上半身が撮影されている領域であるオブジェクト領域を検出する。

クラスタリング統合部１３は、オブジェクト検出部１２で検出されたウィンドウであるオブジェクトウィンドウをクラスタリングによって統合する。つまり、様々なウィンドウで入力フレーム画像をスキャンすると、一つの上半身に対して複数の近傍のオブジェクトウィンドウが存在することになる。言い換えれば、複数の位置が異なったウィンドウやサイズが異なったウィンドウが重なりあってオブジェクトウィンドウとして検出される。そこで、これら複数のオブジェクトウィンドウを、例えばMeanshiftクラスタリングを用いて一つのオブジェクト領域として統合して、設定する。

クラスタリング統合部１３は、例えばMeanshiftクラスタリングを用いる場合、識別されたオブジェクトウィンドウの位置（ｘ_i、ｙ_i）とスケールscale_iの三次元でのクラスタリング統合を下記式のガウシアン・カーネル関数を用いて、その累積値から位置とスケールのシフト値を算出し、それぞれのシフト値から位置とスケールを修正更新することで収束させ、一つのオブジェクト領域としている。

ここにいうbandwidth_positionとbandwidth_scaleは、位置とスケールにおけるそれぞれのクラスタリング探索領域として設定するパラメータである。

オブジェクトトラッキング部１４は、入力フレーム画像におけるオブジェクト領域をオブジェクト候補領域とし、過去フレーム画像でのオブジェクト領域に基づいて入力フレーム画像においてオブジェクトが存在すると予測される領域をオブジェクト予測領域として、所定条件を満たすオブジェクト候補領域をオブジェクト予測領域に対応する過去フレーム画像のオブジェクト領域に関連付けて登録することで、オブジェクトのトラッキングを行い、その結果を出力する。過去フレーム画像とは、例えば、入力フレーム画像の一フレーム前の画像である。

例えば、オブジェクトトラッキング部１４は、ウィンドウ幅の差異が所定の範囲内であるオブジェクト候補領域であって、他のオブジェクト候補領域とも比較してオブジェクト予測領域から最短距離であるオブジェクト候補領域を、過去フレーム画像のオブジェクト領域に関連付けて登録する。また、例えば、オブジェクトトラッキング部１４は、関連付けて登録する場合に、過去フレーム画像のオブジェクト領域に付与されていた識別子（人物ＩＤ）と同じ識別子をオブジェクト候補領域へ付与する。トラッキング方法の詳細については後述する。

図２は、本発明の実施の形態に係る画像処理装置１００のハードウェア構成の一例を示すブロック図である。図２において、画像処理装置１００を構成するコンピュータは、従前から存在する汎用的なハードウェア構成で実現できる。すなわち、画像処理装置１００を形成するコンピュータは、図２に示したようにＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、外部記憶装置１０４、通信インターフェース１０５、入出力インターフェース１０６と接続されたマウス１０７とキーボード１０８、及び表示装置として設けられたディスプレイ１０９を、バスに接続して構成される。

画像処理装置１００は、一つの態様では、ハードウェア資源とソフトウェアの協働で実現される。具体的には、画像処理装置１００の各種機能は、ＲＯＭ１０２や外部記憶装置１０４等の記録媒体に記録されたプログラムがＣＰＵ１０１によって実行されることで実現される。また、画像処理装置１００は、物理的に一つの装置により実現されてもよく、複数の装置により実現されていてもよい。

図３は、本発明の画像処理装置において、オブジェクト検出部１２が入力フレーム画像からオブジェクトを検出する場合のフローチャートの一例である。オブジェクト検出部１２は、画像記憶部１０から入力されるフレーム画像を受け付ける（ステップ３０１）。オブジェクト検出部１２は、入力を受け付けたフレーム画像におけるオブジェクトが存在するオブジェクトウィンドウの検出処理を開始する。

オブジェクト検出部１２は、スキャンテーブル記憶部１１からスキャンテーブルを読み出し、入力フレーム画像をスキャンする際のウィンドウサイズを決定する（ステップ３０２）。ウィンドウサイズは、例えば、予め決定されたスキャンレイヤに基づいて決められている。スキャンテーブルに記憶されたスキャンレイヤのうち一又は二のスキャンレイヤのウィンドウサイズで入力フレーム画像のスキャンを行ってもよい。また、スキャンテーブル記憶部１１に記憶されているスキャンレイヤ全てのスキャン処理を行ってもよい。

次に、オブジェクト検出部１２は、決定したウィンドウサイズに基づいて、入力フレーム画像における算出ウィンドウを設定する（ステップ３０３）。入力フレーム画像全体をスキャンするために必要なウィンドウ数は、ウィンドウサイズによって異なるが、所定のウィンドウサイズに基づいて入力フレーム画像において特徴量を算出するウィンドウの位置を設定する。算出ウィンドウの位置は、ウィンドウサイズと該ウィンドウサイズにおける何番目のスキャンウィンドウかによって決定される。

オブジェクト検出部１２は、算出対象として設定されたウィンドウ内のブロックでの輝度勾配ヒストグラムを生成する（ステップ３０４）。ここでは、例えば、上半身であるオブジェクトを検出するためにＨＯＧ特徴量を用いる。そのためには、入力フレーム画像内の各画素における近傍４画素から水平垂直方向の輝度勾配をもとめ、輝度勾配強度と方向を算出する。そして各画素に対する輝度勾配強度を輝度勾配方向によって、０度から１８０度までの２０度ごとのビンイメージ数９に割り振る。各ビンイメージをカーネルを利用しながらフィルタする。こちらでは大きさが７×７のカーネルを使っても良い。そして各ビンイメージに関するインテグラルイメージを生成する。一例として、ブロックに対する各セル内の輝度勾配強度累積をヒストグラムとし、ブロック内のセル４個分の輝度勾配方向ヒストグラムを連結し、ブロックごとにノーマライズすることで３６次元のブロック内輝度勾配方向ヒストグラムを生成する。なお、スキャンとは、画像の各画素の特徴量を解析することを意味する。

さらに、オブジェクト検出部１２は、ウィンドウ内をブロックでオーバーラップスキャンする（ステップ３０５）。スキャンテーブルに記憶されているスキャンレイヤ、セル幅に基づいてオーバーラップスキャンを行う。つまり、ウィンドウ内を定められたセル幅ずつ位置をずらしながらブロック内の輝度勾配ヒストグラムを順次作成していく。つまり、ウィンドウ内を水平方向に７回、垂直方向に７回の計４９回のスキャンを行う。この際、オブジェクト検出部１２は、オーバーラップ領域の特徴量については、前のブロックをスキャンした際に算出した特徴量を用いる。算出結果を再利用することでオブジェクト検出処理を高速化するためである。

そして、オブジェクト検出部１２は、算出ウィンドウ内の特徴量を算出する（ステップ３０６）。一例として、オブジェクト検出部１２は、算出ウィンドウ内を４９回のスキャンを行うことで、ウィンドウ内において１７６４次元のＨＯＧ特徴量を得る。

オブジェクト検出部１２は、算出ウィンドウにおける特徴量をＳＶＭで識別する（ステップ３０７）。ここでは識別器としてサポート・ベクター・マシン（ＳＶＭ）を用いているが、識別器としてはこれに限らない。予め上半身が含まれている画像と上半身が含まれていない画像とでＨＯＧ特徴量を学習しておき、ＳＶＭ識別器を得ておく。オブジェクト検出部１２は、ＳＶＭ識別器を用いて、人物の上半身である特徴量を有するウィンドウをオブジェクトウィンドウとして検出する。算出ウィンドウがオブジェクトウィンドウであると判定された場合、クラスタリング統合部１３への処理へうつる。

オブジェクト検出部１２は、所定のスキャンレイヤにおける全てのウィンドウで特徴量の算出を行ったか、判定を行う（ステップ３０８）。全てのウィンドウでの特徴量算出が終わっていない場合、次の算出ウィンドウを設定する（ステップ３０３）。そして、同様に特徴量の算出を行う。全てのウィンドウでの特徴量算出が終わった場合、オブジェクト検出部１２は、そのスキャンレイヤにおけるオブジェクト検出処理を終了する。

なお、上記では、一つのスキャンレイヤにおけるオブジェクト検出処理を説明したが、スキャンテーブルに記憶されている全てのスキャンレイヤを行う場合、また２以上のスキャンレイヤの処理を行う場合、図３において説明したフローを所定回数分同様に行う。スキャンレイヤを変えるとウィンドウサイズが変化する。従って、画像に映っている人物の大きさが様々である場合、複数のスキャンレイヤでオブジェクト検出処理を行うことが望ましい。

図４は、スキャンテーブル記憶部１１に記憶されているスキャンテーブルの一例である。本スキャンテーブルは、入力画像の解像度が６４０×４８０画素である場合の一例である。ウィンドウサイズごとにスキャンレイヤの番号が付与されており、スキャンレイヤに対応づけて、ウィンドウサイズ、セルサイズ、スキャンストライド値、ウィンドウ数が記憶されている。ウィンドウサイズは、入力画像のなかでオブジェクトを検出する際に設定するウィンドウである。ここではウィンドウサイズは、ピクセル数で表されている。セルサイズは、上述したようにウィンドウ内において設定されるセルのサイズである。スキャンストライド値は、画像全体をスキャンするためにウィンドウをずらす、画素距離の値である。ウィンドウ数は、画像全体をスキャンするために必要なウィンドウの数をしめしている。オブジェクト検出部１２は、スキャンテーブル記憶部１１に記憶されているスキャンテーブルを参照しながら、入力フレーム画像のスキャンを行う。

図５は、セルとブロックの関係を示す概念図である。図３のステップ３０４において、オブジェクト検出部１２はウィンドウ内にブロックを設け、輝度勾配ヒストグラムを生成している。この際に、ブロックの中にセルを設けている。それぞれのセルにおいて水平・垂直方向の輝度勾配をもとめ、セル１、セル２、セル３、セル４の順に連結することで３６次元のブロック内輝度勾配方向ヒストグラムを生成している。

図６は、ウィンドウとブロックの関係を示す概念図である。一例では、ウィンドウを水平・垂直方向に４等分した各々の領域をブロックとし、さらに水平・垂直方向にそれぞれ２等分した４個の領域をセルとしている。セル幅ずつずらしてオーバーラップスキャンさせるため、点線のブロック領域が次に輝度勾配を求めるブロックとなる。このように、ブロックをオーバーラップスキャンさせた場合、次のブロックのスキャンにおいて、前のブロックと、２つのセルがオーバーラップ（重複）することとなる。このため、オブジェクト検出部１２は、２つのセルの特徴量の算出においては、前のブロックの輝度勾配を算出した際のセルの特徴量をそのまま再利用する。ここでは、最初に垂直方向にスキャンをし、次に水平方向にスキャンすることとしている。しかし、これに限らず、水平方向に最初にスキャンをして次に垂直方向にスキャンしてもよい。

図７は、本発明の画像処理装置においてオブジェクトトラッキング部１４がフレーム画像間で同一のオブジェクト領域を対応づける場合の処理の一例である。オブジェクトトラッキング部１４は、入力フレーム画像においてクラスタリング統合部１３でオブジェクト領域として設定された領域をオブジェクト候補領域として設定する（ステップ７０１）。

次に、オブジェクトトラッキング部１４は、過去フレーム画像におけるオブジェクト領域に基づいて入力フレーム画像におけるオブジェクト予測領域を設定する（ステップ７０２）。例えば、オブジェクトトラッキング部１４は、画像記憶部１０に記憶されている入力フレーム画像から二フレーム前のフレーム画像や一フレーム前のフレーム画像など、過去のフレーム画像を読み出す。そして、二フレーム前のフレーム画像におけるオブジェクト領域と、一フレーム前のフレーム画像におけるオブジェクト領域であって、二フレーム前のフレーム画像におけるオブジェクト領域と関連付けられたオブジェクト領域との間での座標の変化量を計算する。そして、オブジェクトトラッキング部１４は、一フレーム前のフレーム画像におけるオブジェクト領域の座標と、算出した座標の変化量に基づいて入力フレーム画像におけるオブジェクト予測領域を算出し、設定する。他の一例として、所定の変化量を設定しておき、一フレーム前にフレーム画像におけるオブジェクト領域に基づいて、入力フレーム画像におけるオブジェクト予測領域を算出してもよい。この場合、人間の歩く速度など、オブジェクト対象の動く速度に基づいて、座標変化量を予め設定しておくことで、二フレーム前にオブジェクトが映っていない場合であっても、オブジェクト予測領域を設定することが可能となる。また、他の一例として、過去のフレーム画像として一フレーム前のフレーム画像ではなく、数フレーム前のフレーム画像を用いて数フレーム前のフレーム画像のオブジェクト領域と所定の座標変化量に基づいてオブジェクト予測領域を設定してもよい。つまり、過去のフレーム画像は、一フレーム前のフレーム画像に限らない。

オブジェクトトラッキング部１４は、オブジェクト予測領域からの距離、ウィンドウ幅の差異が所定範囲内のオブジェクト候補領域を抽出する（ステップ７０３）。具体的には、オブジェクト予測領域であるウィンドウの四角形の左上端の座標をＰ(ａ(ｘ₁)，ａ(ｙ₁)）としオブジェクト予測領域のウィンドウ幅をＷ_aとし、オブジェクト候補領域のウィンドウの四角形の左上端の座標をＰ(ｂ(ｘ₁)，ｂ(ｙ₁)）としオブジェクト候補領域のウィンドウ幅をＷ_bとした場合、オブジェクトトラッキング部１４は、下記の４つの条件を満たすウィンドウ候補領域を抽出する。

ここで、Ｔは、所定の閾値である。

上記式の（２）及び（４）は、オブジェクト候補領域のうち、座標値の差異が所定の閾値の範囲内であるオブジェクト領域、つまりオブジェクト予測領域からオブジェクト候補領域まで所定の距離の範囲内にあるオブジェクト候補領域を抽出しようとするものである。また、（３）及び（５）は、オブジェクト候補領域のうち、オブジェクト予測領域のウィンドウ幅との差異が所定の範囲内であるオブジェクト候補領域を抽出しようとするものである。ここで、オブジェクトトラッキング部１４は、これら４つの条件を満たすウィンドウ候補領域を抽出し、抽出したオブジェクト領域を関連オブジェクト候補領域とする。

なお、閾値であるＴは任意の値に設定可能であるが、一例として下記式に基づいてＴを定めてもよい。βは、任意の変数である。

次に、オブジェクトトラッキング部１４は、抽出したオブジェクト候補領域、つまり関連オブジェクト候補領域のなかから最短距離であるオブジェクト候補領域を抽出する（ステップ７０４）。所定条件を満たす関連オブジェクト候補領域のなかでオブジェクト予測領域と最も近い座標値、つまり最短距離を有するオブジェクト候補領域を抽出する。

さらに、オブジェクトトラッキング部１４は、抽出したオブジェクト候補領域が他のオブジェクト予測領域に関連付けられているか、チェックを行う（ステップ７０５）。抽出したオブジェクト候補領域が既に他のオブジェクト予測領域に関連づけられている場合があるからである。なお、このチェックは、「オブジェクト予測領域」と関連づけられているかとしているか、「オブジェクト予測領域に対応する過去フレーム画像（例えば一フレーム前のフレーム画像）のオブジェクト領域」と置き換えてもよい。抽出したオブジェクト候補領域が他にも関連付けられている場合（ステップ７０５でＹｅｓ）、複数のオブジェクト予測領域のうち、抽出したオブジェクト候補領域から最短距離であるオブジェクト予測領域にのみ関連付け、最短ではないオブジェクト予測領域との関連付けを破棄する（ステップ７０６）。

次に破棄されたオブジェクト予測領域について、そのオブジェクト予測領域について抽出されている関連オブジェクト候補領域のうち、残りのオブジェクト候補領域のなかで最短距離のオブジェクト候補領域を抽出する（ステップ７０７）。破棄されたオブジェクト予測領域については、対応するオブジェクト候補領域がなくなってしまうため、再度算出をし直すのである。再度の抽出にあたっては、予め抽出していた関連オブジェクト候補領域のなかで、最短距離の関連オブジェクト候補領域を抽出することで行う。

抽出したオブジェクト領域が他のオブジェクト予測領域に関連付けられていない場合（ステップ７０５でＮｏ）、オブジェクト予測領域に対応付けられた人物ＩＤを付与する（ステップ７０８）。つまり、オブジェクト予測領域に対応する過去のフレーム画像（例えば一フレーム前のフレーム画像）におけるオブジェクト領域に付与されている識別子である人物ＩＤを付与する。同じ識別子を付与することで、フレーム間でのオブジェクトトラッキングが可能となる。付与された人物ＩＤは、オブジェクト領域の近傍に表示部で表示されるようにしてもよい。

図８は、フレーム画像間におけるオブジェクト領域の関連付けのイメージ図である。フレーム画像Ｉ₁、Ｉ₂、Ｉ₃は時系列的に取得されたフレーム画像であり、例えば、Ｉ₃を入力フレーム画像とすると、Ｉ₁は二フレーム前のフレーム画像、Ｉ₂は一フレーム前のフレーム画像である。それぞれに検出されたオブジェクト領域が存在しており、オブジェクトが人間などの動体である場合は、図８のように同じオブジェクトであったとしても、それぞれのフレーム画像での検出位置が異なる。そこで、これらのオブジェクトを関連付けるために、オブジェクトトラッキング部１４は、図７で示したようなフローに従って、フレーム画像間のオブジェクトの関連付けを行って、オブジェクトトラッキングを実現している。

図９は、図７のステップ７０３におけるオブジェクト予測領域とオブジェクト候補領域の関係を示す図である。Ａがオブジェクト予測領域であるオブジェクトウィンドウであり、Ｂがオブジェクト候補領域のウィンドウの一例である。前述したようにオブジェクト予測領域の左上端の座標Ｐの位置及びウィンドウ幅Ｗの差異が閾値内であるかどうか４つの式に基づいて判定を行い、条件を満たすオブジェクト候補領域を抽出する。

図１０は、本発明の画像処理装置においてオブジェクト検出を行った場合の実験結果を示すテーブルである。それぞれのスキャンレイヤ及びウィンドウサイズにおける特徴量の計算にかかった時間を示している。本発明においては、オブジェクト検出において、オーバーラップスキャンを行ってウィンドウの特徴量を算出している。その際に、スキャンレイヤごとに、オーバーラップ領域の特徴量について過去の算出結果を再利用することで、オブジェクト検出処理の高速化を図っている。その結果、ＨＯＧ特徴量のような計算数が多く、精度高く検出が行える特徴量を採用した場合であっても、図に示すようにきわめて短時間でオブジェクト検出を行うことが可能となる。そのため、フレーム画像が次々と入力される場合であっても、リアルタイムでオブジェクト検出を行うことができる。

Claims

入力フレーム画像からオブジェクトが存在するオブジェクトウィンドウを検出するオブジェクト検出部と、
前記オブジェクト検出部で検出された複数の近傍のオブジェクトウィンドウをクラスタリングで統合することで、オブジェクト領域を設定するクラスタリング統合部と、
前記オブジェクト領域をオブジェクト候補領域とし、過去のフレーム画像のオブジェクト領域に基づいて予測される領域をオブジェクト予測領域とし、ウィンドウ幅の差異が所定範囲内であるオブジェクト候補領域であって、かつ前記オブジェクト予測領域から最短距離にあるオブジェクト候補領域について、前記過去のフレーム画像のオブジェクト領域と関連付けて登録すると共に、前記オブジェクト候補領域が、二以上のオブジェクト予測領域に関連付けられた場合には、オブジェクト候補領域から最短距離にあるオブジェクト予測領域に対応する前記過去のフレーム画像のオブジェクト領域にのみ関連付けて登録するオブジェクトトラッキング部と、を有する画像処理装置。
前記オブジェクトトラッキング部は、複数のオブジェクト候補領域のうち、ウィンドウ幅の差異が所定範囲内であって、オブジェクト予測領域から所定の距離内にあるオブジェクト候補領域を関連オブジェクト候補領域として抽出し、関連オブジェクト候補領域のうち、オブジェクト予測領域から最短距離にある関連オブジェクト候補領域について、前記過去のフレーム画像のオブジェクト領域と関連付けて登録することを特徴とする請求項１記載の画像処理装置。
前記オブジェクトトラッキング部は、前記過去のフレーム画像のオブジェクト領域に付与されている識別子と同一の識別子をオブジェクト候補領域に付与することで関連付けて登録することを特徴とする請求項１又は２記載の画像処理装置。
前記オブジェクトトラッキング部は、二フレーム前のフレーム画像の第一のオブジェクト領域と、前記第一のオブジェクト領域と関連付けられた一フレーム前のフレーム画像における第二のオブジェクト領域における座標の変化量に基づいて前記入力フレーム画像におけるオブジェクト予測領域を決定することを特徴とする請求項１〜３のいずれか１つに記載の画像処理装置。
前記オブジェクトトラッキング部は、二フレーム前のフレーム画像に関連付けられたオブジェクト領域がない場合には、一フレーム前のフレーム画像におけるオブジェクト領域の座標から所定量変化させることで、入力フレーム画像におけるオブジェクト予測領域を決定することを特徴とする請求項４記載の画像処理装置。
前記オブジェクト検出部は、前記入力フレーム画像にウィンドウを設け、ウィンドウ内を所定領域を有するブロックでオーバーラップスキャンすることで、ウィンドウの特徴量を算出し、算出した特徴量に基づいてオブジェクトウィンドウを検出することを特徴とする請求項１〜５のいずれか１つに記載の画像処理装置。
前記オブジェクト検出部は、オーバーラップスキャンする場合に、スキャンレイヤごとに、オーバーラップ領域の特徴量は一度算出した特徴量を再利用することで、ウィンドウの特徴量を算出することを特徴とする請求項６記載の画像処理装置。
入力フレーム画像からオブジェクトが存在するオブジェクトウィンドウを検出するステップ、
検出された複数の近傍のオブジェクトウィンドウをクラスタリングで統合することで、オブジェクト領域を設定するステップ、
前記オブジェクト領域をオブジェクト候補領域とし、過去のフレーム画像のオブジェクト領域に基づいて予測される領域をオブジェクト予測領域とし、ウィンドウ幅の差異が所定範囲内であるオブジェクト候補領域であって、かつ前記オブジェクト予測領域から最短距離にあるオブジェクト候補領域について、前記過去のフレーム画像のオブジェクト領域と関連付けて登録すると共に、前記オブジェクト候補領域が、二以上のオブジェクト予測領域に関連付けられた場合には、オブジェクト候補領域から最短距離にあるオブジェクト予測領域に対応する前記過去のフレーム画像のオブジェクト領域にのみ関連付けて登録するステップを有する画像処理方法。
コンピュータに、
入力フレーム画像からオブジェクトが存在するオブジェクトウィンドウを検出するステップ、
検出された複数の近傍のオブジェクトウィンドウをクラスタリングで統合することで、オブジェクト領域を設定するステップ、
前記オブジェクト領域をオブジェクト候補領域とし、過去のフレーム画像のオブジェクト領域に基づいて予測される領域をオブジェクト予測領域とし、ウィンドウ幅の差異が所定範囲内であるオブジェクト候補領域であって、かつ前記オブジェクト予測領域から最短距離にあるオブジェクト候補領域について、前記過去のフレーム画像のオブジェクト領域と関連付けて登録すると共に、前記オブジェクト候補領域が、二以上のオブジェクト予測領域に関連付けられた場合には、オブジェクト候補領域から最短距離にあるオブジェクト予測領域に対応する前記過去のフレーム画像のオブジェクト領域にのみ関連付けて登録するステップと、
を実行させるプログラム。