JP5591178B2

JP5591178B2 - テスト画像内のオブジェクトを分類するための方法

Info

Publication number: JP5591178B2
Application number: JP2011108543A
Authority: JP
Inventors: ファティー・エム・ポリクリ; ヴィジェイ・ヴェンカタラマン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2010-05-25
Filing date: 2011-05-13
Publication date: 2014-09-17
Anticipated expiration: 2031-05-13
Also published as: JP2011248879A; US20110293173A1

Description

本発明は、包括的にはコンピュータービジョンに関し、より詳細には画像内のオブジェクトを検出することに関する。

オブジェクト検出は、依然としてコンピュータービジョンにおける最も基本的でかつやりがいのある困難なタスクの１つである。オブジェクト検出は、全ての可能な無制限のオブジェクトでない背景から、大量のオブジェクトの外観を正確にモデル化及び区別することができる顕著領域記述子及び適格な二値識別器を必要とする。可変の外観及び統合された構造が、外部照明及び姿勢変動と組み合わされると、検出問題の複雑度が増す。

通常のオブジェクト検出方法は、最初に特徴を抽出する。これらの方法では、検出プロセスに関する最も情報を与えるオブジェクト記述子が視覚コンテンツから取得され、次にこれらの特徴を分類フレームワークにおいて評価し、関心オブジェクトを検出する。

コンピュータービジョンにおける進歩の結果、特徴記述子が過多になった。簡単に言えば、特徴抽出は、スパース表現として、関心点の周りに、オブジェクト部分に関する価値のある情報をカプセル化すると共に変化の下で安定したままであるローカル領域のセットを生成することができる。

代替的に、検出ウィンドウの内側で全体論的な密表現を特徴として求めることができる。次に、入力画像全体を、場合によっては各ピクセルにおいて走査し、オブジェクトモデルの習得された識別器が評価される。

いくつかの方法は、記述子自体として、輝度テンプレート、及び主成分分析（ＰＣＡ（principal component analysis））係数を用いる。ＰＣＡは、画像を圧縮部分空間上に投影する。ＰＣＡは、視覚的にコヒーレントな表現を提供する一方、撮像条件における変動によって容易に影響を受ける傾向にある。モデルをより変化に適応させるため、局所受容野（ＬＲＦ（local receptive field））特徴が、多層パーセプトロン（multi-layer perceptrons）を用いて抽出される。同様に、２つの領域間の輝度差を符号化する既定関数のセットであるハールウェーブレットベース（Haar wavelet-based）の記述子は、効率的な計算、及び視覚パターンの符号化に優れていることに起因して一般的である。

スケール不変特徴変換（ＳＩＦＴ（scale-invariant feature transform））記述子等の、空間コンテキストにおける勾配ヒストグラム（ＨＯＧ（Histogram of gradient））表現及びエッジ、又は形状コンテキストにおける勾配ヒストグラム（ＨＯＧ）表現及びエッジは、ロバスト（robust）で区別可能な記述子をもたらす。

関心領域（ＲＯＩ（region of interest））は、空間ロケーション、輝度、及び高次導関数等の画像属性の共分散行列によって、検出ウィンドウ内のオブジェクト記述子として表すことができる。

いくつかの検出方法は、生成的モデル及び差別的モデルによって、又は形状の照合を介して、確率フレームワークにおける空間関係に従って検出部分を組み立てる。部分に基づく手法は、一般に、部分遮蔽の場合に、よりロバストである。最も全体論的な手法は、ｋ−最近傍、ニューラルネットワーク（ＮＭ（neural networks））、サポートベクトルマシン（ＳＶＭ（support vector machines））、及びブースティングを含む識別器方法である。

ＳＶＭ法及びブースティング法は、高次元状態空間を扱うことができ、大きなセットの中から関連記述子を選択することが可能であるので、頻繁に用いられる。

ＡｄａＢｏｏｓｔを用いてトレーニングされる複数の弱識別器を連結して、何らかの識別器が仮説を拒絶した場合に該仮説が否定的な例と見なされるような、拒絶カスケードを形成することができる。

ブースティングされた識別器において、用語「弱」及び「強」は、当該技術分野において明確に定義された用語である。Ａｄａｂｏｏｓｔは弱識別器のカスケードから強識別器を構築する。米国特許第５，８１９，２４７号（特許文献１）及び同７，６１０，２５０号（特許文献２）を参照されたい。Ａｄａｂｏｏｓｔは特徴選択により、効率的な方法を提供する。さらに、カスケード構造により、領域のほとんどにおいてわずかな数の識別器のみが評価される。ＳＶＭ識別器は、密にサンプリングされたＨＯＧを用いてトレーニングされた従来の識別器よりも、同じ検出率で少なくとも１桁〜２桁低い誤検出率を有し得る。

米国特許第５，８１９，２４７号明細書米国特許第７，６１０，２５０号明細書

領域ブースティング方法は、部分領域、すなわち弱識別器の選択プロセスを通じて構造情報を組み込むことができる。これらの方法は各弱識別器を検出ウィンドウの単一の領域に相関させることを可能にするが、より強い空間構造を確立するであろうウィンドウ内の２つ以上の領域間の対毎の関係及びグループ毎の関係をカプセル化することができない。

関係検出器において、ｎ連結という用語は、ｎ個の別個の値のセットを指す。これらの値は、画像内のピクセルインデックス、画像のヒストグラムに基づく表現のビンインデックス、又は画像のベクトルベースの表現のベクトルインデックスに対応することができる。たとえば、特徴付けられる特徴は、ピクセルインデックスを用いる場合、対応するピクセルの輝度値である。次に、或る特定のピクセル連結においてサンプリングされた輝度値の特徴ベクトルを形成することによって入力マッピングが得られる。

一般に、関係検出器は、多層ニューラルネットワークにおいて単純なパーセプトロンとして特徴付けることができ、二値入力画像を介して光特徴認識に主に用いることができる。本方法は濃淡値にも拡張され、マンハッタン距離を用いて、顔検出の照合プロセス中に、最も近いｎ連結パターンを見つける。しかしながら、これらの全ての手法は厳密に輝度（又は二値）値を利用し、ピクセル間の比較関係は符号化しない。

同様の方法がスパース特徴を用いる。スパース特徴は、顆粒と呼ばれる有限数の四角形の特徴セットを含む。そのような顆粒空間において、スパース特徴はいくつかの重み付けされた顆粒の線形結合として表される。これらの特徴は、ハールウェーブレットに勝る或る特定の利点を有する。これらは高度にスケーリング可能であり、複数のメモリアクセスを必要としない。ハールウェーブレットの場合のように特徴空間を２つの部分に分割する代わりに、本方法は、特徴をより細かな粒度に区分し、ビン毎に複数の値を出力する。

本発明の実施の形態は、画像内のオブジェクトを検出するための方法を提供する。本方法は、画像から、低レベル特徴、たとえばピクセルの係数の連結を抽出する。これらは、最大で所定のサイズ、たとえば二つ組、三つ組等のｎ連結とすることができる。これらの連結は次のステップのためのオペランドである。

関係演算子がオペランドに適用され、命題空間が生成される。演算子は、オペランドの各可能な対にわたるマージンベースの相似則とすることができる。関係の空間は命題空間を構成する。

命題空間の場合、ブール演算子の連結関数が、命題空間内の全ての可能な論理命題をモデル化する複合仮説を構築するように定義される。

係数がピクセル座標に関連付けられる場合、より高次の空間構造をオブジェクトウィンドウ内にカプセル化することができる。ピクセルの代わりに特徴ベクトルを用いることによって、効率的な特徴選択メカニズムを課すことができる。

本方法は、離散ＡｄａＢｏｏｓｔ手順を用いて、これらの関係から弱識別器のセットを反復的に選択する。次に、弱識別器を用いて、画像内のオブジェクトの、非常に高速なウィンドウベースの二項分類を実行することができる。

顔の画像を分類するタスクの場合、本方法は、放射基底関数（ＲＢＦ（Radial Basis Functions））を用いるサポートベクトルマシン（ＳＶＭ（Support Vector Machine））に基づく識別器と比較して検出を約７０倍高速にする一方、誤検出を約１桁低減する。

従来の領域特徴の欠点に対処するために、本発明は、最大で規定のサイズｎ（対、三つ組、四つ組等）の関係連結特徴を用いる。関係連結特徴は、複数の低レベルの属性係数の連結から生成される。低レベルの属性係数は、オブジェクトウィンドウのピクセル座標又はウィンドウ自体を表す特徴ベクトル係数と直接対応することができる。

本発明においては、これらの連結を、次の段階のオペランドとして考える。これらのオペランドの各可能な対にわたってマージンベースの相似則等の関係演算子を適用する。関係の空間は命題空間を構成する。この空間から、ブール演算子、たとえば論理積及び論理和の連結関数を定義して複合仮説を形成する。したがって、オペランドに対して任意の関係規則、換言すれば低レベル記述子係数に対する全ての可能な論理命題を作成することができる。

本発明においては、これらの係数がピクセル座標に関連付けられる場合、より高次の空間構造情報をオブジェクトウィンドウ内にカプセル化する。ピクセル値の代わりに記述子ベクトルを用いて、ＰＣＡ等の、計算量が多い基底変換を一切用いることなく、効率的に特徴選択を課す。

画像（又はｎ個のベクトル係数）にｎ個のピクセル間の関係を符号化する方法を提供することに加えて、ブースティングを用いてこれらの関係から弱識別器のセットを反復的に選択し、非常に高速なウィンドウ分類を実行する。

本発明の方法は、生の輝度（又は勾配）値ではなく、習得した類似度閾値と共に論理演算子を明示的に用いるので、従来技術と大幅に異なる。

スパース特徴又は関連付けられるペアリングとは異なり、低レベル属性の連結を複数のオペランドに拡張し、トレーニングする識別器に対し、より良好なオブジェクト構造を課すことができる。

本発明は、オブジェクトウィンドウの直接ピクセル輝度又は特徴ベクトルから非常に単純な関係特徴の連結を用いる検出方法である。本方法は、ブースティングフレームワークにおいて、ＳＶＭ−ＲＢＦと同じだけ優位性があるが、計算負荷の一部しか必要としない識別器を構築するのに用いることができる。

本発明の実施形態による、画像内のオブジェクトを検出するための方法及びシステムのブロック図である。本発明の実施形態による仮説のテーブルである。本発明の実施形態による仮説のテーブルである。本発明の実施形態による、識別器をブースティングするための擬似コードの図である。

図１は、本発明の実施形態による、画像内のオブジェクトを検出するための方法及びシステム１００を示している。本方法のステップは、当該技術分野において既知のメモリ及び入力／出力インターフェースを備えるプロセッサにおいて実行することができる。

（１つ又は複数の）トレーニング画像のセット１０１におけるウィンドウ内のｄ個の特徴を抽出する（１０２）。ウィンドウは、オブジェクトを含む画像の部分である。オブジェクトウィンドウは画像の一部分又は画像全体とすることができる。当該特徴は、ｄ次元ベクトルｘ１０３に格納することができる。特徴は、オブジェクトウィンドウにおいてピクセル輝度をラスター走査することによって得ることができる。したがって、ｄはウィンドウ内のピクセル数である。代替的に、特徴は勾配ヒストグラム（ＨＯＧ（histogram of gradients））とすることができる。いずれの場合でも、特徴は比較的低レベルである。

特徴のｎ個の正規化された係数１０４、たとえばＣ_１、Ｃ_２、Ｃ_３、．．．、Ｃ_ｎをランダムにサンプリングする（１０５）。ランダムなサンプルの数は、所望の性能に依拠して変動し得る。サンプルの数は約１０個〜２０００個の範囲内とすることができる。

これらのサンプリングされた係数の可能な連結毎にｎ連結１１１を決定する（１１０）。ｎ連結は、最大で所定のサイズ、たとえば二つ組、三つ組等とすることができる。換言すれば、連結は、２、３、又はより多くの低いレベルの特徴、たとえばピクセル輝度又はヒストグラムビンに関するものとすることができる。本発明においては、ピクセル又はヒストグラムの輝度／値を取り、或る相似則、たとえば以下の式（１）を適用する。最終結果は連結された特徴に関して１又は０のいずれかである。連結は次のステップのためのオペランドである。

サンプリングされた係数１０４の可能な連結毎に、関係演算子ｇ１１９を用いて、ブール値命題ｐ_ｉｊをｐ_ｉｊ＝ｇ（ｃ_ｉ，ｃ_ｊ）として規定する。たとえば、マージンベースの相似則によって、

が得られる。これは、勾配演算子のタイプと見なすことができる。本発明の好ましい実施形態では、ブール代数を用いる。しかしながら、本発明は、ファジー論理を含む非二値論理に拡張することができる。マージン値τは、受容可能な変動レベルを示し、対応する仮説の分類性能を最大にするように選択される。

換言すれば、関係演算子をオペランドに適用するとき、命題空間１２１を生成する（１２０）。上述したように、演算子はオペランド（ｎ連結１１１）の各可能な対に対するマージンベースの相似則とすることができる。関係の空間は、命題空間１２１を構成する。

命題空間１２１に関して、ブール演算子１２９の連結関数、たとえば論理積、論理和等を規定して、全ての可能な論理命題をモデル化する複合仮説（ｈ_１，ｈ_２，ｈ_３，．．．）１２２を構築する（１３０）。

係数がピクセル座標に関連付けられている場合、より高次の空間構造をオブジェクトウィンドウ内にカプセル化することができる。ピクセルの代わりに特徴ベクトルを用いることによって、効率的な特徴選択メカニズムを課すことができる。

ｎを所与として、対から構成された計

個の基本命題を符号化することができる。この段階において、係数の連結を長さｋ_２のブール列にマッピングしている。より高いレベルの命題は結果として

列となる。さらに、連続値のスカラー空間から二値空間への変換を得る。

ブール演算子との第２の連結マッピングによって、全ての可能な４^ｋ _１個のブール演算子をカバーする仮説ｈ_ｉが構築される（１３０）。たとえば、２つの係数をサンプリングする場合、４つの仮説が図３Ａに示される。３つの係数のサンプリングによって、図２Ｂに示す２５６個の仮説が得られる。

第１列及び最終列等、上記の仮説のうちのいくつかは縮退しており、論理的に有効とすることができない。残りの列の半分は補数である。このため、仮説空間内を探索するとき、全ての４^ｋ _１個の可能性を調べる必要はない。命題の値は、サンプルが正（１）として分類されるか又は負（０）として分類されるかを示す。図１を参照されたい。

ブースティング
大量の候補特徴から最も弁別的な特徴を選択するために、本発明では、離散ＡｄａＢｏｏｓｔ手順を用いる。なぜなら出力が二値であり、離散ＡｄａＢｏｏｓｔフレームワーク内で良好に適合するためである。ＡｄａＢｏｏｓｔは一連のラウンドにおいて弱識別器を反復して呼び出す。呼び出し毎に、分類のためのデータセット内の事例の重要度を示す重みＤ_ｔの分布が更新される。各ラウンドにおいて、各不正確に分類された事例の重みが増加され、各正確に分類された事例の重みが減少され、それによって新たな識別器は正確に分類された事例により集中する。

図３は、本発明のＡｄａＢｏｏｓｔプロセスの擬似コードを示している。この手順は、弱識別器のレベルにおいて従来のＡｄａＢｏｏｓｔと異なっている。本発明の場合、弱識別器のドメインが仮説空間内にある。本発明では、上記の論考に従って、複数の入力係数から、Ｍ回ランダムにサンプリングし、Ｍ個の関係連結（ＲｅｌＣｏｍ（relational combinatorial））特徴を取得し、それぞれについて重み付けされた分類誤差を評価する。こうして、本発明では、誤差を最小にするものを選択し、トレーニングサンプル重みを更新する。

代理損失関数を特定することによって、異なるブースティングアルゴリズムを定義することができる。たとえば、ＬｏｇｉｔＢｏｏｓｔは、二次誤差項を解くことによって分類条件確率対数比（class conditional probability log ratio）を加法的項に適合させる重み付け回帰によって、識別器境界を求める。ＢｒｏｗｎＢｏｏｓｔは、境界から遠い事例ほど重みが減少するような非単調重み付け関数、及び、ターゲット誤差率を達成することを試みるアルゴリズムを用いる。ＧｅｎｔｌｅＢｏｏｓｔは、対数比の代わりに仮説のユークリッド確率差を用いて重みを更新し、このため重みは［０１］の範囲にあることが保証される。

識別器１４０が構築された後、該識別器を用いてオブジェクトを検出することができる。図１に示すように、テスト画像１３９のための弱識別器１４０の出力は、選択された特徴の重み付けされた応答の和の符号（０／１）である。テスト画像の場合、特徴が抽出され、ランダムに選択され、トレーニング画像に関して上述したのと同じだけ正確に連結される。このため、本発明の主な焦点は、識別器にはあまりなく、本発明の新規な関係連結特徴にある。該関係連結特徴によって、後述するように、正確さを損なうことなく計算負荷を大幅に低減することができる。

計算負荷
関係演算子ｇは、非常に単純なマージンに基づく距離の形態を有する。したがって、式（１）において与えられる距離ノルムの場合、命題毎に応答を符号化する２Ｄルックアップテーブルを構築し、次に応答を連結して別個の仮説２Ｄルックアップテーブルにすることが可能である。複合仮説内のｎ連結の場合、これらのルックアップテーブルはｎ次元になる。テーブルへのインデックスは、特徴表現に依拠して、ピクセル輝度値、又はベクトル値の量子化された範囲とすることができる。２５６レベルの輝度値等の固定数の離散特徴低レベル表現の場合、情報損失、及び離散していない他の特徴低レベル表現に関する有意でない適応量子化損失がないので、ルックアップテーブルを用いることによって、関係演算子ｇの正確な結果がもたらされる。

例として、２５６レベルの輝度画像及び選択された複合仮説が２Ｄ関係演算子ｐ_ｉｊ＝ｇ（ｃ_ｉ，ｃ_ｊ）を利用するものとすると、水平インデックス（ｃ_ｉ）及び垂直インデックス（ｃ_ｊ）が０〜２５５までである２Ｄルックアップテーブルを構築する。本発明は、オフラインで、全ての対応するｃ_ｉ、ｃ_ｊインデックスについて関係演算子応答を計算し、それをテーブル内に保持する。複合仮説を適用するためのテスト画像が与えられると、特徴ピクセルの輝度値を得て、実際に関係演算子出力を計算することなく、対応するテーブル要素に直接アクセスする。

特に、計算負荷をメモリに基づくテーブルと交換することができる。それらのテーブルは比較的小さく、たとえば特徴数と同じ１００×００又は２５６×２５６の二値テーブルである。５００個の三つ組の場合、２Ｄルックアップテーブル用のメモリは約１００ＭＢである。ルックアップテーブルから命題値を得た後、二値を弱識別器の対応する重みと乗算し、重み付けされた和を合計して応答を求める。

したがって、高速なアレイアクセスのみを、はるかに低速な算術演算の代わりに用い、この結果、おそらく当該技術分野で既知の最速の検出器となる。ベクトル乗算に起因して、ＳＶＭＲＢＦも線形カーネルもそのように実施することはできない。

本発明のブースティングされた識別器の拒絶カスケードも用いることができる。拒絶カスケードは、走査に基づく検出における計算負荷をさらに大幅に減少させる。検出は、７５０倍高速にすることができ、テストされる特徴の有効数を、６０００個から、平均でわずか８個に減少させる。

発明の効果
本発明は、オブジェクトウィンドウの直接ピクセル輝度又は特徴ベクトルから非常に単純な関係特徴の連結を用いる検出方法である。本方法は、ブースティングフレームワークにおいて、ＳＶＭ−ＲＢＦと同じだけ優位性があるが、計算負荷の一部しか必要としない識別器を構築するのに用いることができる。

本発明の特徴によって、検出の速度を効率的に数桁上げることができる。なぜなら、本発明の方法は、２Ｄルックアップテーブルを用いるので、複雑な計算を一切必要としないためである。

この特徴は、ピクセル輝度に限定されず、たとえばウィンドウレベル特徴を用いることができる。

本発明は、より高次の関係演算子を用いて、オブジェクトウィンドウ内の空間構造をより効率的に取得することができる。

本発明を好ましい実施形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び変更を行うことができることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入る全ての変形及び変更を包含することである。

Claims

テスト画像内のオブジェクトを分類するための方法であって、トレーニング画像のセット内のトレーニング画像毎に、
前記トレーニング画像内のウィンドウから特徴を抽出するステップであって、該ウィンドウは前記オブジェクトを含む、抽出するステップと、
前記特徴の係数ｃをランダムにサンプリングするステップと、
前記係数の可能なセット毎にｎ連結を求めるステップと、
前記係数の可能な連結毎に、関係演算子を用いてブール値命題を定義して、命題空間を生成するステップと、
前記命題空間にブール演算子の連結関数を適用することによって識別器の複合仮説を構築し、前記命題空間内の全ての可能な論理命題を構築するステップと、
前記テスト画像から抽出された特徴に前記識別器の前記複合仮説を適用して、前記テスト画像が前記オブジェクトを含むか否かを検出するステップと
を含み、
前記各ステップは、プロセッサが実行する、方法。
前記係数は、トレーニングデータセット画像に関して、前記テスト画像内で正規化される、請求項１に記載の方法。
前記特徴はピクセル輝度である、請求項１に記載の方法。
前記特徴は勾配ヒストグラムである、請求項１に記載の方法。
前記特徴は、前記トレーニング画像に関連付けられる記述子ベクトルの前記係数である、請求項１に記載の方法。
前記ブール値命題はｐ_ｉｊであり、前記関係演算子はｇであり、ｐ_ｉｊ＝ｇ（ｃ_ｉ，ｃ_ｊ）であり、ここで、ｃ_ｉ及びｃ_ｊは前記特徴の係数である、請求項１に記載の方法。
前記ブール値命題はマージンに基づく相似則

であり、ここでτはマージン値である、請求項６に記載の方法。
前記ブール演算子は、論理積及び論理和を含む、請求項１に記載の方法。
前記ブール演算子は、ファジー論理システム、三値論理システム、多値論理システムにおいて適用される演算子を含む非二値論理演算子を含む、請求項１に記載の方法。
前記特徴は、ｄ次元ベクトルｘ内に格納される、請求項１に記載の方法。
前記識別器は、ＡｄａＢｏｏｓｔ手順、離散ＡｄａＢｏｏｓｔ手順、ＬｏｇｉｔＢｏｏｓｔ手順、ＢｒｏｗｎＢｏｏｓｔ手順、及びＧｅｎｔｌｅＢｏｏｓｔ手順の変形を含むブースティングされた学習器の形態である、請求項１に記載の方法。
前記論理命題は、前記識別器の前記複合仮説を適用するとき、前記命題毎の応答のルックアップテーブルにおいて符号化される、請求項１に記載の方法。
前記構築された複合仮説のそれぞれは、ｎルックアップテーブルにおいて符号化され、該ルックアップテーブルはｎ次元である、請求項１に記載の方法。
前記複合仮説の前記適用は、前記ルックアップテーブルにアクセスすると共に前記応答の重み付けされた和を合算することによって行われる、請求項１２に記載の方法。
前記ルックアップテーブルのインデックスは、前記画像内のピクセルの輝度値の範囲内にある、請求項１２に記載の方法。
前記ルックアップテーブルのインデックスは、ベクトル値の量子化された範囲内にある、請求項１２に記載の方法。
前記識別器はブースティングされた識別器であり、拒絶カスケードを構成する、請求項１に記載の方法。
前記マージン値は、前記トレーニング画像のセットに対する対応する複合仮説の検出性能を最適化する、請求項７に記載の方法。