JP5345109B2

JP5345109B2 - 画像における物体の変位可能な特徴を正規化するための方法

Info

Publication number: JP5345109B2
Application number: JP2010144048A
Authority: JP
Inventors: ファティー・エム・ポリクリ; モハメド・イー・フセイン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2009-07-16
Filing date: 2010-06-24
Publication date: 2013-11-20
Anticipated expiration: 2030-06-24
Also published as: US8224072B2; US20110013804A1; JP2011022996A

Description

本発明は、包括的には、コンピュータビジョンに関し、より詳細には、特徴ベースの画像の処理に関する。

物体の検出、認識、分類、及び追跡等の多くのコンピュータビジョンアプリケーションは、物体の有意な特徴に依拠している。例えば、顔認識では、目、鼻、及び口に関連付けられた特徴が最も関連している。人等の関節物体の追跡では、重要な特徴は、胴体部、四肢、及び頭部に関連付けられている。通常、特徴は、そのサイズ、ロケーション、及び記述子によって定義される。特徴の外観は、照明、動き、テクスチャ、姿勢変動、及びオクルージョンに応じて大幅に変化する可能性があるので、特徴ベースのモデルは、多くの場合、処理を改良するように構築される。画像は、異なる視点から取得される可能性もある。視点が異なることにより、物体は、画像における物体の位置及び視点の特性に応じて、サイズ及び速度等、異なる特性を有するように見える、

物体の任意の画像の処理を容易にするために、２つの正規化前処理ステップが、通例、実行される。

画像正規化
第１に、画像が正規化される。画像正規化は、ピクセル数及びアスペクト比をすべての画像で同じにするものであり、例えば、顔については４０×４０とされ、身体については１２８×６４にされる。ピクセル輝度値の範囲も、コントラストストレッチング及びダイナミックレンジ拡大によって、例えば０〜２５５に調整することができる。色も調整することができる。

物体正規化
第２に、物体が、正規化された画像に適合するように正規化される。これは、物体のサイズ、ロケーション、及び配向をすべての画像で一致させることによって行うことができる。これは、スケーリング、平行移動、及び回転によって行うことができる。

しかしながら、たとえ、特徴が、従来技術の画像正規化及び物体正規化中に再配置するように見える場合であっても、画像又は物体内の特徴の、互いに対する相対ロケーション及び記述は固定されたままである。

変形可能物体及び関節物体
代替的な解決法は、変形可能物体又は関節物体を複数の物体にセグメント化するものである。例えば、人間の身体の場合、物体は、胴体部の物体、頭部の物体、及び四肢の物体にセグメント化される。同様に、顔は、目の物体、鼻の物体、及び口の物体にセグメント化することができる。それらの方法は、次に、各物体における固定された特徴に操作を行い、物体内での特徴の変位は問題ではない。すなわち、物体の特徴は、所定の位置に固定されたままである。要するに、物体セグメント全体が、通例、特徴として扱われる。これについては、非特許文献１及び非特許文献２を参照されたい。実際上、各セグメント化された物体における特徴は、物体における特徴と同じである。これについては、非特許文献３及び非特許文献４を参照されたい。

すべての場合において、従来技術の特徴は、物体内で固定されているだけでなく、セグメント化された物体内でも固定されている。いくつかの場合には、物体が特徴である。特徴は、本明細書で定義されるように、物体内でもセグメント化された物体内でも変位可能ではない。

固定された特徴は、物体の物理的な特徴、例えば顔の場合の目が、同じ相対的な物理ロケーション及びサイズを占有するときはうまく機能する。しかしながら、物体が変形可能であるか、又は特徴が関節物体のように別の方法で変位される場合、問題ははるかに困難になる。実際に、物体検出は、特徴が固定されているときにしか扱いやすくなく、そうでない場合には、探索空間は問題を含むことになる。

Mikolajczyk他の「Human detection based on a probabilistic assembly of robust part detectors」, Proc. European Conf. on Computer Vision, volume 1, pages 69-81, 2004 Mohan他の「Example-based object detection in images by components」, IEEE Trans. Pattern Anal. Machine Intell., 23(4);349-360, 2001 Felzenszwalb他の「Pictorial structures for object recognition」, Intl. J. of Computer Vision, volume 61, 2005 Felzenszwalb他の「A discriminatively trained, multiscale, deformable part model」, Proc. IEEE Conf. on Computer Vision, 2008

したがって、物体内の変位可能な特徴及び記述子を正規化することが望まれている。

多くの従来技術の画像処理方法では、物体の特徴からモデルが構築される。そのコンテキストでは、物体の特徴は、物体の画像ウィンドウに対して固定された相対ロケーション及び固定されたサイズを有する領域として定義される。例えば、顔の検出及び認識では、目、鼻、及び口等の特徴は、固定された相対ロケーション及びサイズを有するものと仮定される。同じことは、人間の頭部の検出についても言える。頭部は胴体部の上にあると一般に仮定される。しかしながら、これは、常に正しいとは限らない。

したがって、本発明は、変位可能な特徴を正規化する。変位可能とは「物理的に所定の位置をはずれて移動すること」を表す「明白な意味」が使用される。すなわち、特徴は、それら特徴がそこにあると予想される場所に常にあるとは限らない。変位可能な特徴は、さまざまな画像において、その相対ロケーション及びサイズを動的に変化させることができる。

変位可能な特徴は、本発明の実施形態に従って正規化されるとき、特に物体の検出及び認識等のタスクでは、従来技術におけるような従来の固定された特徴よりも良好に機能する。

物体の有意な特徴に依拠する物体の検出、認識、分類、及び追跡等のコンピュータビジョンアプリケーションを改良するのに使用できる変位可能な特徴を説明した。従来の固定された特徴を上回る、変位可能な特徴の利点は、小さな近傍において、特徴のモデルに最も適合する特徴の最良のロケーションを選択できるということである。加えて、部品モデルのように固定された個数を選択するのではなく、動的な個数の特徴を選択することができる。また、特徴モデルは、グラフィック処理ユニットにおける並列実施にもよく適している。

本発明の特性によって、本発明の変位可能な特徴が、固定されたロケーションの特徴よりも、複雑な物体構造及び変形に効果的なものになると考える。

画像における物体の変位可能な特徴を正規化するための方法のブロック図である。本発明の実施形態による特徴の最良のロケーションを探索するためのプロセッサのブロック図である。本発明の実施形態による特徴を直接変位させるためのブロック図である。

変位可能な特徴
本発明の実施形態は、変位可能な特徴を正規化するための方法を提供する。再び、変位可能とは「物理的に所定の位置をはずれて移動すること」を表す明白な意味が使用されることを強調しておく。すなわち、特徴は、固定された相対ロケーションを有するのではなく、それどころか、特徴は、互いに対して物理的に所定の位置をはずれて移動することができる。その結果、画像において観察されるように、特徴を物体において変位させることができる。より具体的には、特徴を変位させることができる変位ゾーンＺが物体内に定義される。この変位ゾーンは、相似変換、アフィン変換、及び遠近運動変換（perspective motion transformation）を含む変換パラメータによって定義することができる。

正規化された変位可能な特徴によって、物体の検出、認識、分類、及び追跡等の一般的なビジョンアプリケーションが改良される。本発明の方法は、複数の部分を有するあらゆる一般的な変形可能物体又は関節物体の特徴に適用できることが理解されるべきである。

変位した特徴を正規化する２つの実施形態を提供することにする。第１の実施形態は、反復的な探索プロセス及びコスト関数を使用して最良のロケーションを求めるものである。第２の実施形態は、直接マッピングを使用して、最良のロケーションに特徴を変位させるものである。

本発明の変位可能な特徴ベースのモデルの主な利点は、代表的な特徴の自動選択である。基礎となる物理的特徴が何であるのかを知る必要はない。したがって、本発明の特徴のグラウンドトゥルース注釈（ground truth annotation）が利用可能であると仮定されない。それゆえに、変位可能な特徴のモデルは、トレーニングデータで利用可能な情報にのみ基づいてトレーニングされる。

図１は、本発明の実施形態による画像ｘにおける物体（車両）１０１の特徴（車輪）１１１を正規化するための方法を示す。この方法のステップは、プロセッサ１００において実行される。プロセッサは、この技術分野で知られているようにメモリ及び入出力インターフェースを含む。本明細書で説明するこれらの画像の例は２次元であるが、ボリュームデータ及び医療用スキャン等の３次元画像も使用できることが理解される。

変位可能な特徴（車輪）１１１が、画像ｘから抽出される（１１０）。本発明の目的においては、車輪が移動（回転）できるということは無関係である。関心があるのは、車輪が、車両の下部に沿った変位ゾーンＺの或る場所に配置されているが、任意の画像における、車両の前部、後部、及び下部に対する車輪の相対変位１０５が変化する可能性があるこということだけである。

特徴１１１Ｆ＝（ｓ，ｚ_０，Ｚ）は、サイズｓ、ロケーションｚ_０、及びこの特徴を変位させることが可能とされる変位ゾーンＺを有する。変位ゾーンＺのサイズは、双方の次元において特徴のサイズの約２倍であり、境界は、特徴から最大１６ピクセル離れている。

変位ゾーンＺのロケーションｚにおける、画像ｘにおける特徴の関連付けられた記述子が、Δ_Ｆ（ｘ，ｚ_０）として求められる（１２１）。

この好ましい実施形態では、特徴の勾配配向ヒストグラム（ＨＯＧ（histogram of oriented gradient））が記述子に使用される。各ヒストグラムは、配向方向の９つの範囲を表すビンを含む。各ピクセルは、ヒストグラムの２つのビン間の勾配の大きさを双一次補間によって分割することによってそれら２つのビンに寄与する。各ピクセルは、双一次補間で４つの四分円にも寄与する。記述子は、積分ヒストグラム及びカーネル積分画像を使用することによって求めることができる。これについては、例えば、米国特許出願第２００７０２３７３８７号を参照されたい。この米国特許出願は、参照により本明細書に援用される。他の外観ベースの記述子には、エッジ、ライン、ピクセルワイズフィルタ応答、領域テンプレート、並びに領域共分散、輝度ヒストグラム、及び共起を含む統計的記述子が含まれる。一実施形態では、記述子は正規化される。

本発明の記述子では、スケール不変特徴変換（ＳＩＦＴ）が使用される。ＳＩＦＴ特徴は、ローカルであり、特定のロケーションにおける物体の外観に基づいており、画像のスケール及び回転に不変である。ＳＩＦＴ特徴は、照明の変化、雑音、及び視点における軽微な変化の影響を受けない。これらの特性に加えて、ＳＩＦＴ特徴は、極めて特有であり、抽出が比較的容易であり、低い不一致確率で正しい物体識別を可能にする。以下では、簡単にするために、変数ｘを省略することにする。

反復的探索によるデータ駆動型変位
図２に示すように、特徴を変位させる（１３０）ことができる１つの方法は、コスト関数θ２０１の値を求めることによって、変位ゾーンＺにおける最良のロケーションｚ^＊を探索することによるものである。この実施形態では、トレーニングされた画像のセット２０２がさまざまなロケーションにおける特徴と共に使用される。各ロケーションは、対応する記述子を有する。コスト関数は、トレーニング画像の対応する記述子及び変位ゾーンのロケーションｚ_０における特徴Ｆに関連付けられた記述子Δ_Ｆを使用して値が求められる。

コスト関数θ（Δ_Ｆ，ｚ）は、所与のトレーニング画像の或るロケーションにおける記述子がロケーションｚ_０における特徴Ｆの記述子と一致する尤度を測定する。換言すれば、コスト関数は、画像における物体がトレーニング画像に対応する物体のクラスに存在する尤度を測定する。最良のロケーションは、尤度スコアを最大にする。尤度スコアによって、変位ベクトルδ２０３分だけロケーションｚ_０から離れることが必要とされる場合がある。コスト関数θは、記述子Δ_Ｆ（ｚ）及びロケーションｚに基づいているので、たとえΔ_Ｆがｚの関数であっても、ロケーションｚの事前確率が一様でないケースをモデル化することができる。確率的な設定において、これは、特徴のロケーションの最大事前推定値（maximum a priori estimate）を見つけることと等価である。反復は、連続した推定値の差分が所定のしきい値未満であるとき又は所定の反復回数の後に終了することができる。

コスト関数の初期近似値θ_０は、特徴がすべてのトレーニング画像においてロケーションｚ_０に位置していると仮定するものである。したがって、初期スコアリング関数θは、特徴の近似した外観をモデル化すると予想される。探索は、期待値最大化（ＥＭ）手順を使用する。この期待値最大化（ＥＭ）手順は、推定ステップ及び最大化ステップ

を交互に行う。

このプロセスは、コスト関数を最大することによって最良のロケーションｚ^＊を突き止める。

各方向で４つのステップが使用されて、最良のロケーションが探索される。実際には、これは、非常に多くの時間を要する可能性がある。

マッピング関数によるパラメトリック直接変位
この実施形態では、図３に示すように、変位ベクトルδ＝ｚ^＊−ｚ_０を使用して最良のロケーションへ直接移動が行われる。変位可能な特徴を最良のロケーションへ直接移動させるために、トレーニング画像２０２上の最良の特徴ロケーションの推定が利用され、
ｚ’＝ｚ_０＋Φ（Δ_Ｆ（ｚ_０））
θ’＝θ（Δ_Ｆ（ｚ’））
を使用して、ロケーションにおける記述子Δ_Ｆ（ｚ）から変位ベクトルδへのマッピング関数Φ３０１が求められる（３０５）。ここで、ｚ’は、マッピング関数を使用して得られた最良のロケーションであり、θ’は、その新しいロケーションにおける新しいスコアリング関数の結果である。マッピング関数は、特徴のロケーションを最良のロケーションに直接マッピングする回帰関数として特徴付けることができる。

変位可能な特徴の正規化分類器のトレーニング
ブースト分類器において、弱分類器及び強分類器は、専門用語であり、それらの一般的な意味にあるように、不明確となるように意図されたものではない。弱分類器は、真の分類とわずかにしか相関していない一方、強分類器は、真の分類と適宜十分に相関している。ほとんどのブーストは、分類される特徴の分布に関して弱相関器を反復的に学習すること、及び弱相関器を追加して強相関器を形成することを処理する。弱分類器は、その分類精度に応じて重み付けされる。或る既知のブースト分類器は、ＡｄａＢｏｏｓｔ（エイダブースト）である。ＡｄａＢｏｏｓｔは、後続の弱分類器が、前に追加された分類器により誤って分類された特徴が優先されるように重み付けされるという意味で適応的である。

本発明の分類器は、上述したような変位可能な特徴と共に使用されるように設計することができる。

ブーストのいくつかの変形が使用される。この変形には、２値しきい値処理された弱分類器応答を集めること、及び同一の重み及び確率をトレーニング画像のセットの各画像に割り当てることによってスカラー値関数をトレーニング画像に適合させることが含まれる。

トレーニング中、各トレーニング画像における変位ゾーンにおいて変位可能な特徴のセットが選択される。これらの特徴は、任意の形状及びサイズを有することができる。各変位可能な特徴は、上述したように、そのロケーション及び記述子に従って正規化される。

最良の正規化された変位可能な特徴を選択するために、残差最小化スコアの点から特徴が評価される。各特徴について、重み付き最小二乗回帰を使用して応答及び重みが求められる。重みは、現在の特徴の確率を使用して求められ、応答は、重みによってスケーリングされたラベル近似項（label approximation term）である。次に、スコアリング関数値が求められ、特徴ロケーションの重み付き最小二乗回帰によって関数が適合される。

セットの各正規化された変位可能な特徴について、分類器の性能の改良を示す残差が求められる。最も低い残差、すなわち最も高い集約された検出スコア、を有する特徴が選択される。次に、前に選択された、正規化された変位可能な特徴の個々の応答を累算する分類器応答関数が更新され、各トレーニング特徴の確率が修正される。変位可能な特徴の選択は、所望の性能に達するまで続く。

その後のオペレーション中、各正規化された変位可能な特徴について、分類器の応答が求められる。分類器の応答の符号が、検出結果として割り当てられる。

本発明を、好ましい実施形態の例として説明してきたが、本発明の精神及び範囲内で他のさまざまな適合及び変更を行えることが理解されるべきである。したがって、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することが、添付の特許請求の範囲の目的である。

Claims

画像における物体の特徴を正規化するための方法であって、該方法は、プロセッサによって実行され、
前記画像から前記物体の前記特徴を抽出することであって、前記特徴は、前記物体における変位ゾーン内で変位可能であり、前記特徴は、前記変位ゾーン内のロケーションを有する、抽出すること、
前記特徴の関連付けられた記述を求めること、及び
前記変位ゾーンにおける最良のロケーションに前記特徴を変位させることであって、それによって、正規化された特徴を作成する、変位させること、
を含み、
前記最良のロケーションを求めて反復的にトレーニング画像のセットを探索することをさらに含み、前記探索することはコスト関数を使用し、
前記特徴はＦ＝（ｓ，ｚ_０，Ｚ）であり、前記特徴のサイズはｓであり、前記ロケーションはｚ_０であり、前記変位ゾーンはＺであり、前記記述についての記述子はΔ_Ｆ（ｘ，ｚ_０）であり、前記コスト関数θ（Δ_Ｆ，ｚ）は、所与のトレーニング画像の一ロケーションにおける記述子が前記ロケーションｚ_０における前記特徴Ｆの前記記述子と一致する尤度を測定し、ここで、ｘは、前記記述子が抽出された画像である
方法。
前記変位可能な特徴は、前記物体の検出、認識、分類、又は追跡に使用される、請求項１に記載の方法。
前記物体は、硬質なもの、変形可能なもの、又は関節のあるものである、請求項１に記載の方法。
マッピング関数を適用することであって、それによって、前記特徴を前記最良のロケーションに直接変位させる、適用すること、をさらに含む、請求項１に記載の方法。
前記特徴は、サイズｓ、ロケーションｚ_０、及び変位ゾーンＺを有するＦ＝（ｓ，ｚ_０，Ｚ）である、請求項１に記載の方法。
前記変位ゾーンは、相似変換、アフィン変換、遠近運動変換を含む変換パラメータによって定義される、請求項１に記載の方法。
前記記述についての記述子は、Δ_Ｆ（ｘ，ｚ_０）であり、ここで、ｘは、該記述子が抽出される前記画像である、請求項５に記載の方法。
前記記述についての記述子は、前記特徴の勾配方向ヒストグラムを使用する、請求項１に記載の方法。
前記コスト関数は、尤度スコアを最大にする、請求項１に記載の方法。
前記マッピング関数は、変位ベクトルδ＝ｚ^＊−ｚ_０を求め、ここで、ｚ^＊は、前記最良のロケーションであり、ｚ_０は、前記特徴の前記ロケーションである、請求項４に記載の方法。
前記コスト関数θは、前記画像における前記物体が、前記トレーニング画像に対応する物体のクラスに存在する尤度を測定する、請求項１に記載の方法。
各トレーニング画像について前記記述子Δ_Ｆ（ｘ，ｚ_０）を求めること、
をさらに含む、請求項１に記載の方法。
前記反復は、前記コスト関数の連続した推定値の差分が所定のしきい値未満であるときに終了する、請求項１に記載の方法。
前記反復は、所定の反復回数の後に終了する、請求項１に記載の方法。
前記画像は３次元である、請求項１に記載の方法。
トレーニング画像のセットから前記マッピング関数を求めること、
をさらに含む、請求項４に記載の方法。
前記記述についての記述子を正規化すること、
をさらに含む、請求項１に記載の方法。
前記記述についての記述子は、エッジ、ライン、ピクセルワイズフィルタ応答、領域テンプレート、並びに領域共分散、輝度ヒストグラム、及び共起を含む統計的記述子を含む外観ベースの記述子を使用する、請求項１に記載の方法。