JP5063776B2

JP5063776B2 - 幾何学変換に基づく一般化統計的テンプレートマッチング

Info

Publication number: JP5063776B2
Application number: JP2010502558A
Authority: JP
Inventors: シビリヤコブ、アレクサンダー
Original assignee: Mitsubishi Electric R&D Centre Europe BV Netherlands
Current assignee: Mitsubishi Electric R&D Centre Europe BV Netherlands
Priority date: 2007-04-13
Filing date: 2008-03-20
Publication date: 2012-10-31
Anticipated expiration: 2028-03-20
Also published as: GB0707192D0; EP2153379A2; WO2008125799A2; US20100119160A1; US8478051B2; JP2010524111A; WO2008125799A3

Description

［発明の背景］
［発明の分野］
本発明は、画像中の物体を検出または位置特定するための方法および装置に関する。具体的には、本発明は、物体に幾何学変換が行われた場合に、テンプレートを画像にマッチングさせることでテンプレートに対応する物体を位置特定するための方法および装置に関する。本発明は、さらに、画像中の物体の幾何学変換を決定するための方法に関する。

［背景技術の説明］
テンプレートマッチング（ＴＭ）とは、画像中の物体または物体の部分を見付けるための標準的なコンピュータビジョンツールである。テンプレートマッチングは、リモートセンシング、医用画像、および産業における自動検査を含む多くの用途で用いられている。現実世界の物体を検出することは、照明および色の変化、部分遮蔽、背景におけるノイズおよびクラッタ、ならびに物体そのものにおける動的変化の存在により困難な課題となっている。

各種のテンプレートマッチングアルゴリズムが提案されている。例えば、P. Viola, M. Jones, "Rapid object detection using a boosted cascade of simple features" (IEEE CVPR、511〜518ページ、2001年；下記文献１)、および欧州特許出願公開第１６９３７８３Ａ１号明細書(下記文献２)には、単純な矩形特徴に基づく極めて高速な計算が記載されている。他の例(Jain, Y. Zhong, S. Lakshmanan, "Object Matching Using Deformable Templates" (IEEE TPAMI、第１８巻（３）、267〜278ページ、1996年；下記文献３)、およびS. Yoshimura, T. Kanade, "Fast template matching based on the normalized correlation by using multiresolution eigenimages" (IEEE/RSJ/GI Int. Conf. on Intelligent Robots and Systems (IROS '94)、第３巻、2086〜2093ページ、１９９４年；下記文献４)等)には、剛体変形または非剛体変形させたテンプレートを画像データに適合させることが記載されている。

テンプレートマッチングの一般的なストラテジは、以下の通りである。すなわち、可能性のあるすべての位置、回転、スケーリング、または他の幾何学変換について、各画像領域をテンプレートと比較し、最良のマッチングスコアを選択する。この計算コストが高いアプローチは、Ｏ（Ｎ_lＮ_gＮ_t）回の演算を要し、Ｎ_lは画像中の位置の数、Ｎ_gは変換サンプルの数、およびＮ_tはマッチングスコアの計算に用いられる画素の数である。多くの方法により計算の複雑さを低減することが試みられている。Ｎ_lおよびＮ_gは、通例、多重解像度アプローチ（例えば下記文献４等）により低減される。テンプレートと画像パッチとの差異が平行移動のみによるものと仮定し、幾何学変換をまったく考慮しないマッチングストラテジも多い（下記文献１１等）。

テンプレートマッチングを行う他の方法には、勾配降下または勾配上昇最適化法を用いてテンプレートを直接適合させることで、最良のマッチが見付かるまで幾何学変換を反復的に調整するというものがある。かかる手法は、Lucas, T. Kanade, "An iterative image registration technique with an application to stereo vision" (Proc. of Imaging understanding workshop, １２１〜１３０ページ、１９８１年；下記文献１０）に記載されている。これらの手法には、正しい解に近い初期近似が必要である。

高速テンプレートマッチング法（下記文献１、２、５、６、７に記載のもの等）において、上で定義した計算の複雑さにおけるＮ_t項は、テンプレートの単純化、例えばテンプレートを矩形の組み合わせとして表すことにより低減される。特別な画像前処理手法（いわゆるインテグラルイメージ（integral images））を用い、かつ単純化された類似度スコア（すなわちテンプレートにより定義された「正」および「負」の画像領域間の正規化されたコントラスト）を計算することで、高速テンプレートマッチングの計算速度は、テンプレートのサイズと無関係になり、テンプレートの複雑さ（テンプレートを構成する矩形の数）のみに依存するようになる。しかし、ハールライク特徴（Haar-like特徴）は回転に対して不変ではなく、画像回転を扱うようにこの枠組みを拡張したものがいくつか提案されている。例えば、M. Jones, P. Viola, "Fast Multi-view Face Detection" (IEEE CVPR、２００３年６月；下記文献５)には、対角矩形テンプレートの追加セットが提案されている。R. Lienhart, J. Maydt, "An extended set of Haar-like features for rapid object detection" (ICIP '02、900〜903ページ、第１巻、２００２年；下記文献６)には、４５°回転させたインテグラルイメージを介して計算された４５°ねじれたハールライク特徴が提案されている。Messom, C. H. および Barczak, A. L. "Fast and Efficient Rotated Haar-like Features using Rotated Integral Images" (Australasian Conf. on Robotics and Automation、２００６年；下記文献７）では、この考えをさらに拡張し、全体の整数画素に基づく回転を行ったハールライク特徴およびインテグラルイメージの多数のセットを用いている。

上記の高速テンプレートマッチングの枠組みには、計算コストが高い相関ベースのＴＭ法においては現れない、いくつかの潜在的な欠点がある。

第１の欠点は、２領域のハールライク特徴を３つ以上の画素グループの場合に一般化することが容易でないことである。加えて、矩形ベースの表現は、曲線的な物体の形状、例えば円などについては冗長である。かかる場合は、矩形テンプレートの代わりに曲線テンプレートを使用した方が、より高いマッチングスコア、ひいてはより良好な検出性能が得られるはずである。

その上、ブースティングに基づく強力な分類子を用いることによりハールライク特徴で印象的な結果が得られる（下記文献１におけるように）が、かかる手法は、大規模なデータベース上でのトレーニングを要する。そのため、単一の物体テンプレートを用いるマッチング（グレースケールのテンプレートを用いる相関ベースのテンプレートマッチングにおいて追加コストなしで実現可能）は、この枠組みにおいて容易に行うことができず、また、単純な形状およびバイモーダルな輝度分布を有する物体についてしか行うことができない。

本願は、計算の複雑さおよびこのマッチング速度の点において、高速テンプレートマッチング法と標準的な相関ベースのテンプレートマッチング法との間に位置付けられる新しいアプローチを提案する。提案するアプローチは、上記の既存手法の制限のいくつかに対処し、また、オプションで、物体の位置および変換を精密に推定するための反復的に精緻化を行う枠組みにも拡張可能である。

［発明の要約］
テンプレートが注目物体を任意形状の画素グループのセットにより簡潔に表現したものであり、テンプレートと画像領域との類似度がいわゆるＦ検定統計量から導出される、新しいテンプレートマッチングの枠組みを提案する。

幾何学変換された物体をマッチングさせるため、一実施形態では、テンプレートの幾何学変換されたバージョンのセット（例えば、パラメータの所定の離散的なセットを用いる回転およびスケーリングから得られるもの）を、画像中の各位置において適用し、最良のマッチングスコアを与える幾何学変換されたテンプレートの幾何学パラメータを、対応する位置に関連付ける。

本発明の実施形態によれば、インテグラルイメージの１Ｄ相似(1D analogue)（本明細書では「インテグラルライン（integral line)」と言う）を用いて、効率的なマッチングが達成される。これにより、マッチングスコアの計算に要される演算の数が、テンプレートのサイズに対して線形になる。これに比して、従来のテンプレートマッチングでは、二次関数的に依存している。この１Ｄのインテグラルラインの手法は、２Ｄのインテグラルイメージの特定の場合として見ることもできるが、本発明者らは、テンプレートマッチングの適用可能エリアが、インテグラルイメージを用いる場合よりもインテグラルラインを用いる場合の方がはるかに広いことを期せずして認識した。特に、インテグラルイメージの手法は、物体形状が矩形の組み合わせから形成されていることを要求する一方、本発明のインテグラルラインの方法は、線分の組み合わせのみを要求する。いずれのラスター化された２Ｄ形状も線分の組み合わせとして表すことが可能であるため、線分の組み合わせの方がより一般的である。

実施形態では、テンプレートとテンプレートの幾何学変換された各バージョンとをラスター化して線分のセットを得る（線分の各セットは、テンプレートの１つの領域のラスター化されたバージョンである）。類似度スコア（下記数式（９）により定義される類似度スコア等）を用いて、最大数の線分を有する１つ以上の複雑な領域を計算から除外する。回転対称なテンプレート（その外側領域が円形である場合）については、外側領域について計算された中間項を格納することにより、類似度スコアをさらに単純化することができる。

一実施形態では、テンプレートが幾何学変換された複数のバージョンの離散的なセット（所定のスケーリングおよび回転パラメータのみに対応する）を用いて、類似度スコアを計算する。幾何学変形が十分に小さくスケーリングおよび回転により近似が得られるという仮定は制約的であるが、適応的サブピクセル精緻化法を用いて、任意なパラメトリック２Ｄ変換に基づく物体のマッチングの正確性を高めることができる。マッチングスコアを最大化するパラメータは、いわゆる「勾配上昇／降下法」により求めることができる。一実施形態では、これを、等価な固有値問題の解を求めることにまで簡素化可能である。

後続の説明および付帯の請求項から、本発明のさらなる好適な特徴およびオプションの特徴が明らかになろう。

以下、添付の図面を参照して、本発明の実施形態を例示により説明する。

本発明の実施形態による方法の各ステップを説明するフロー図である。（ａ）は円形の３領域で構成されるテンプレートを示す図である。（ｂ）は画像中の注目している第１の領域（Ｒ₁）を示す図である。（ｃ）は画像中の第２の領域（Ｒ₂）を示す図である。（ｄ）は画素グループが類似しているテンプレートによりＲ₁を３領域に分解した状態を示す図である。（ｅ）は異なる画素グループでＲ₂を分解した状態を示す図である。射影モデルにおける物体変換の説明図である。本発明に従い、２領域のテンプレートを４５°回転させた状態、およびそれを線のセットにより表現したものを示す説明図である。（ａ）はテスト画像を示す図である。（ｂ）は２領域のテンプレートを示す図である。（ｃ）は、本発明の実施形態の方法に従い図５（ｂ）の２領域テンプレートを図５（ａ）の画像に適用した際のマッチングスコアマップを示す図である。（ａ）は射影変換が行われたテスト画像を示す図である。（ｂ）は２領域のテンプレートを示す図である。（ｃ）は本発明の実施形態の方法に従い図６（ａ）の画像に規制解除を行った状態の説明図である。（ｄ）は本発明の実施形態の方法に従い画像パッチ変換を反復した状態の説明図である。

以下の説明において、画像に対応する信号および画像中の検出対象物体のテンプレートの処理に関わるテンプレートマッチングについて説明する。この処理は、いかなる好適なシステムまたは装置によっても行うことが可能であり、また、ソフトウェアの形態で実装することが可能である。テンプレートマッチング処理では、画像中のテンプレートの各位置に対して「マッチングスコア」（「類似度スコア」とも言う）が生成される。

本発明による方法は、欧州特許出願公開第１６９３７８３号明細書（下記文献２；その内容は参照により本明細書に組み込まれる）において最初に紹介された、いわゆる統計的テンプレートマッチング（ＳＴＭ）に基づくものである。統計的テンプレートマッチングの枠組みは、上述の高速テンプレートマッチングの枠組みに非常に類似している。主たる差異は、統計的テンプレートマッチングがＦ検定統計量から導出される異なるマッチングスコアを用いることにより、複数の画素グループに対応している点である。統計的テンプレートマッチング法を以下で概説する。

以下の説明において、本発明の実施形態による一般化統計的テンプレートマッチングを用いる方法を説明する。その後、本方法を実装する際に用いる特定の実施形態を詳細に説明する。本発明の第１の実施形態は、回転およびスケーリングされた物体をマッチングさせるための統計的テンプレートマッチングの新しい拡張に関するものである。この拡張は、以下でより詳細に説明するように、「インテグラルライン」の使用に基づく。また、第２の実施形態は、物体のパラメトリック２Ｄ変換を正確に推定するために好適な、「適応的サブピクセル（ＡＳ）ＳＴＭ」と称される他の新しい拡張に関するものである。第３の実施形態は、ハールライクテンプレートの特定の場合についての効率的な解決法に関するものである。

従来技術の統計的テンプレートマッチングアプローチの概説
「統計的テンプレートマッチング」の名称は、画素グループの統計的特性（平均および分散等）のみが解析に用いられるという事実に由来している。これらの画素グループは、トポロジテンプレート（２グループの場合におけるハールライク特徴に類似したものである）により決定される。トポロジテンプレートは、物体の各部分の空間的関係を表すＮ個の領域のセット（Ｔ₀＝Ｔ₁∪．．．∪Ｔ_N）である。各領域Ｔ_iは、任意の形状からなる互いに隔たった複数のサブ領域で構成されてもよい。複数のテンプレート領域により定義される、画像の複数の画素グループが、互いに統計的に異なるならば、これら複数の画素グループは注目物体に属する可能性が高い。この原理は、図２に示す単純化された例により実証可能である。図２（ａ）は、円形の３領域Ｔ₁、Ｔ₂、およびＴ₃で構成されるテンプレートを示す。図２（ｂ）および図２（ｃ）は、それぞれ、注目している第１および第２の領域Ｒ₁およびＲ₂を示す。テンプレートＴ₀＝Ｔ₁∪Ｔ₂∪Ｔ₃を、画像領域Ｒ₁およびＲ₂とマッチングさせる。第１の場合、すなわちテンプレートＴ₀を画像領域Ｒ₁とマッチングさせるとき、図２（ｄ）に示すように３つの画素グループは類似しているので、３つの画素グループは概ね同じ平均値を有する。第２の場合、すなわちテンプレートＴ₀を画像領域Ｒ₂とマッチングさせるときは、図２（ｅ）に示すように、画素グループが異なる（それぞれ黒、ダークグレー、およびライトグレーという平均色になる）。このことから、画像領域Ｒ₂はテンプレートに類似していると結論付けることが可能である。

形式的には、テンプレートＴ₀と画像領域

（画素

を中心とする）との間のかかる類似度（マッチングスコア）は、いわゆるＦ検定統計量から導出される。領域Ｔ_i（ｉ＝０，．．．，Ｎ）における画素数、画素値の平均、および画素値の分散を、それぞれｎ_i、ｍ_i、およびσ_i ²と表す。画素値は正規分布かつ等分散であると仮定し、標準的な分散分析（ＡＮＯＶＡ）手法を用いると、グループ間分散Ｖ_BGおよびグループ内分散Ｖ_WGは、次式で定義される：

Ｖ_BGおよびＶ_WGの自由度ならびに関係Ｖ_BG＋Ｖ_WG＝ｎ₀σ₀ ²を考慮に入れ、等価変換を適用すると、Ｆ変数は次式になる：

数式（２）における定数項を除去すると、マッチングスコア（または類似度スコア）についての式は、次式として得られる：

すべての画素

について計算すると、数式（３）を用いて導出されるマッチングスコアは信頼度マップを形成し、そのマップ内の極大値は、尤度が高い物体位置に対応する。統計量ｍ_iおよびσ_iを用途毎に分析することで、誤検出の数を低減する一助となる。物体の部分の測光的性質（例えば、一部の領域が他の領域よりも暗い、またはテクスチャ感が少ない）が予め与えられているときは、追加の制約（関係式（４）等）により誤った極大値が排除される。
ｍ_i＜ｍ_j、σ_i＜σ_j（４）

ハールライク特徴（Ｎ＝２）については、数式（３）におけるマッチングスコアは、Ｔ検定統計量の２乗からも導出可能である。この値は、信号対雑音比（ＳＮＲ）の２乗であり、１（雑音；すべてのグループが類似している場合に対応する）から無限大（純粋な信号；テンプレートが画素グループのレイアウトを厳密に決定し、グループ内のすべての画素が等しい場合に対応する）までの範囲である。画像パッチにおける画素値の分布は、任意である可能性があり、通例、上記仮定（正規分布、等分散）を満たさない。そのため、実際には、数式（３）におけるマッチングスコアをＳＮＲとして解釈するのが便利である。Ｆ変数についての統計表を用いる代わりに、１よりも大きい妥当なＳＮＲ閾値により、テンプレートと画像領域との間の数式（３）における類似度が十分に大きいかどうかを判定可能である。

欧州特許出願公開第１６９３７８３号明細書（下記文献２）によるＳＴＭのリアルタイム実装では、矩形の集合で構成される領域Ｔ_iを有するテンプレートが用いられる。以下の説明から、本発明に従い、インテグラルイメージを用いることで、８ｋ_i回のメモリ参照（ｋ_iはＴ_iにおける矩形の数である）のみにより数式（３）から得られる画素の分散が算出される、ということが理解されよう。

一般化ＳＴＭを用いる方法
図１は、本発明の実施形態による、上記の原理を一般化する統計的テンプレートマッチングの方法を示す。ステップ１００で、注目物体についてのテンプレートを受け取り、幾何学変換の所定のセットを適用して幾何学変換されたテンプレートのセットを導出する。ステップ１１０で、幾何学変換されたテンプレートの各々をラスター化して、幾何学変換されたテンプレートの各々について線分のセットを生成する（テンプレートの各領域は、線分のサブセットを含む）。ステップ１２０で、オプションとして、ラスター化されたテンプレートの最も複雑な領域（例えば、線分の数が最大または閾値数の領域に対応する）の１つ以上を破棄して、幾何学変換されたテンプレートの各々について低減された線分のセットを得る。次いで、これらを用いて統計的テンプレートマッチングを行う。

ステップ２００において、テスト画像を画素単位で走査し、画像の現在位置において以下のようにテンプレートマッチングを行う。ステップ１３０では、テンプレートが円形テンプレートであるかを判定する。テンプレートが円形であれば、テンプレート全体の回転を考慮に入れない単純化されたマッチングスコア計算を用いてテンプレートマッチングを行う。あるいは、テンプレートが円形でなければ、以下で説明する標準的なマッチングスコア計算を用いてテンプレートマッチングを行う。

テンプレートが円形であれば、ステップ１４０において、テスト画像の現在位置で単純化されたマッチングスコア計算を行い、画像の現在位置におけるそのテンプレートについてのマッチングスコアのセット（つまり、そのテンプレートが幾何学変換された各バージョンについてのマッチングスコア）を生成する。テンプレートが円形でなければ、ステップ１５０で、テスト画像の現在位置で標準的なマッチングスコア計算を行い、画像の現在位置におけるマッチングスコアのセットを生成する。

ステップ１６０では、ステップ１４０またはステップ１５０のいずれかから得たマッチングスコアのセットを受け取り、最良のマッチングスコア（例えば、最大のスコア）を選択し、画像の現在位置についての、マッチングスコアが最良となるテンプレートの幾何学変換に対応する、最良の幾何学パラメータを出力する。

次いで、すべての画像位置について、上記のようにステップ１４０〜１６０に従って統計的テンプレートマッチングを行い、画像のすべての位置についてのマッチングスコアマップおよび幾何学パラメータマップをステップ１７０に出力する。

ステップ１７０で、マッチングスコアの極大値を選択し、極大値に対応する物体の位置および変換を出力する。オプションとして、ステップ１８０で、本発明の代替的な実施形態に従い、適応的サブピクセル統計的テンプレートマッチングにより位置および変換の精緻化を行う。下記の説明から理解されるであろうように、ステップ１８０により、より複雑な幾何学変換の場合に、正確な物体の位置および変換が得ることが可能になる。

当業者が理解するであろうように、図１に説明する本発明の実施形態の方法は、画像に対応する信号を処理するためのプロセッサと、画像およびテンプレートについてのデータを格納するためのメモリとを含むいかなる好適な装置により行ってもよい。本方法は、プロセッサにより実行可能な命令を有するコンピュータ可読媒体上に格納されたコンピュータプログラムの形態で実装してもよい。

ステップ１５０におけるマッチングスコア計算およびステップ１４０における単純化されたマッチングスコア計算を行うための手法を、以下で説明する。加えて、代替的な実施形態の適応的サブピクセル統計的テンプレートマッチング手法を、その後で説明する。

幾何学変換に基づく一般化ＳＴＭ
本発明による一般化ＳＴＭ（ＧＳＴＭ）では、未知のパラメータ

を有する変換

により変換された注目物体について考える。これを図３に概略的に示す。物体を正確にマッチングさせるために、テンプレートは同じモデル

を用いて変換すべきである。パラメータが未知であるため、それらの離散値ｐ_i ^(j)＝ｐ_i _min＋ｊΔｐ_iのすべての組み合わせ

を用いてテンプレートを変換し、最良のマッチングスコアを次式で計算する：

次式の最良のパラメータの組み合わせのインデックスを格納することにより、

近似した物体のポーズを復元可能である。パラメータの組み合わせの数および計算時間は、パラメータの数に対して指数関数的に増大する。そのため、最小数のパラメータを使用することが不可欠である。下記文献４〜７などのような多くのアプローチでは、回転およびスケーリングのために２つの追加パラメータのみを要する相似変換(similarity transform)により、中程度のアフィン歪みおよび射影歪みの良好な近似が得られるという事実が用いられている。本発明の実施形態による方法では、図１に示すように、ステップ１００で、相似変換の所定のセットをテンプレートに適用し、各位置について、最良のマッチングスコアを与えるテンプレートならびに対応する回転およびスケーリングパラメータを、上記数式（５）〜（６）を用いて選択する。

この手法は、幾何学変形が十分に小さく相似変換により近似が得られるという仮定に基づくものである、ということが理解されよう。しかし、場合により、この仮定は制約的である。このため、下記で説明する代替的な実施形態では、フルパラメトリック２Ｄ変換を復元するために反復的手法を用い、その初期近似として第１の実施形態の相似変換が用いられる。

本実施形態によれば、および図１を再び参照して、ステップ１１０で、変換された各テンプレートをラスター化し、各テンプレート領域を、図４に示すように線分のセット｛ｓ_i,j｜ｓ_i,j＝（ｘ₁，ｘ₂，ｙ）_i,j｝により表す：
Ｔ_i＝ｓ_i,1∪ｓ_i,2∪ｓ_i,3∪．．．

図４に示すように、各線分は、高さ１画素の矩形であり、従って、インテグラルイメージ手法を用いることで、統計的テンプレートマッチングを用いて数式（３）におけるように分散を計算可能である。しかし、本発明によれば、線分を効率的に扱うより最適な計算方法は、次式のように定義されるインテグラルイメージの一次元相似、すなわちインテグラルラインを用いる：

ｙ軸に沿って積分を行う垂直インテグラルライン(integral vertical line)についても、同様に定義することが可能である。数式（３）における分散の計算に要求される合計を、インテグラルラインを介して次式のように計算可能である：

式中、Ｉ₁（−１，ｙ）＝Ｉ₂（−１，ｙ）＝０である。従って、メモリ参照の回数は、「画素の数」から「ラスター化されたテンプレートにおける線の数」まで低減される。

効率的に実装するため、数式（３）をより便利な形式で、数式（８）の定義を用いて次式（９）により表現可能である：

このように、アルゴリズムは、マッチングスコアを計算するために画素値ｖ_iの２乗を複数回合計することを要さない。テンプレートＴ₀全体における画素値の２乗の合計、およびＴ₀，Ｔ₁，．．．，Ｔ_N-1における画素のＮ個の合計のみを計算すれば十分である。その上、回転対称なテンプレート（円形のＴ₀等）については、ｖ₀およびｕ₀が各回転角度について一定であり、ｕ₁，．．．，ｕ_M-1のみに再計算が必要である。Ｔ_Nは最大数の線で構成される最も複雑な領域を表し得るため、計算から１つの領域Ｔ_Nを排除することで、計算速度における追加の利点が与えられる。テンプレートの回転中に線の構成が変化することで、各回転角度における最も複雑な領域が替わる。

当業者が理解するであろうように、欧州特許出願公開第１６９３７８３号明細書（下記文献２）に記載の高速統計的テンプレートマッチングは、テンプレートのサイズとは無関係にΣ８ｋ_i回のメモリ参照（ｋ_iは領域Ｔ_iにおける矩形の数である）を要する。相関ベースのテンプレートマッチングは、Ｎ_t（画素数）回のメモリ参照を要し、テンプレートのサイズに二次関数的に依存する。本発明の一般化ＳＴＭにおいて、メモリ参照の回数は、４ｋ₀＋２ｋ₁＋．．．＋２ｋ_N-1回である（ｋ_iはテンプレート領域Ｔ_iにおける線の数である）。線の総数は、テンプレートの高さに領域数Ｎを乗算したものに概ね比例する。そのため、テンプレートのサイズに線形的に依存する。従って、本発明による方法の計算効率は、高速テンプレートマッチング法と相関ベースのテンプレートマッチング法との間である。

図５は、上記の本発明の一般化統計的テンプレートマッチング（ＧＳＴＭ）手法を用いる画像マッチング例の説明図である。図５（ａ）は、注目画像を示し、この画像は、図５（ｂ）に示すテンプレートにより表現される物体（象）の幾何学変換された多数の異なるバージョンを含んでいる。ＧＳＴＭ手法により、画像中のすべての位置について最良の類似度スコアを与える類似度マップが出力される。図５（ｃ）は、図５（ｂ）のテンプレートを用いた図５（ａ）の画像についてのかかる類似度マップの説明図であり、類似度スコアの大きい値は白色、小さい値は黒色で表されている。図５（ｃ）に見られるように、類似度マップにおけるピーク値が識別され、それらは、元画像中の物体の位置に対応している。

適応的サブピクセル統計的テンプレートマッチング
一般的な場合
上で述べたように、本発明の代替的な実施形態は、回転およびスケーリングのみに制限されず、全変換(full transformation)

（図３）を用いて高い正確性で、物体の位置および変換を反復的に推定する。本実施形態では、すべてのシミュレーションについて、８つの変換パラメータ

を有する射影モデルが用いられるが、他の任意のパラメトリック変換も適用可能である。この反復的ＳＴＭ法の目標は、画像データから適応的に変換パラメータ

を計算することで、特定の物体位置

でのマッチングスコア

を最大化することである。上記の第１の実施形態の離散的方法を用いることで、物体位置の初期近似

および初期変換パラメータ

を求めることが可能である。標準的な反復的画像位置合わせ手法（下記文献１０に記載）に従って、初期位置（ｘ₀，ｙ₀）の近くに、変換後の画素（ｘ’₀，ｙ’₀）の線形近似を得ることが可能である。かかる近似は、次式により与えられる：

式中、

はパラメータ補正のベクトルであり、さらに

である。
数式（１２）は、座標についての画像関数の偏導関数を含む。本実施形態では、それらを、付録１に示す離散的近似を用いて計算する。数式（１２）は、また、変換のパラメータについての変換された座標の偏導関数も含む。変換モデルが与えられれば、それらは解析的表現を有する。本実施形態では、射影モデルが用いられ、かかる導関数を付録１に提示する。

数式（８）から、ｕ_i ²およびｖ_iについての線形化された表現は、次式の行列形式を有する：

数式（１３）および（１４）を数式（９）に代入すると、線形化されたマッチングスコアがレイリー商(Rayleigh quotient)の形式で得られる：

式中、

である。行列

および

は、同じ共分散行列

を１階数変更したもの(one-rank modification)である。それらは、定義により対称的であり、および正定値(positive-definit)である。これは、商（１５）における分子および分母がともに画像分散であるという事実による。

レイリー商（１５）を最大化することは、次式の一般化された固有値問題の解を求めることと等価である：

線形代数に基づくいずれかの従来技術による方法を用いて、最大の固有値Ｓ（最大化されたマッチングスコアでもある）および対応する固有ベクトル

（画像変換パラメータに対する補正）を求めることが可能である。かかる方法の例には、べき乗反復および逆反復がある（詳細な検討については下記文献８を参照）。固有ベクトル

が求められたら、

の形式の任意のベクトルが数式（１６）の解となる。収束性を改善し、最大値周辺における解の振動を防止する最適なαを選択することが可能である。この直線探索(Linesearch)ストラテジは、ロバストな解を提供することが見出されている。このストラテジおよび他のストラテジは、下記文献９において詳細に検討されている。

元の非線形問題は、線形化された解法を反復的に適用することにより解を求めることが可能である。マッチングスコア、画像パッチの中心、および／またはパラメータ補正が大きく変化しなくなったら、反復を終了する。以下はＡＳＳＴＭアルゴリズムの概説である。

ＡＳＳＴＭ
１．ＧＳＴＭ法により得られる初期値Ｓ₀、

から反復ｎ＝０にて開始する。
２．現在のパラメータ

を用いて座標

を中心とする画像パッチを再サンプリングする。
３．再サンプリングされた画像パッチｆ（ｘ_n’，ｙ_n’）から画像の導関数を計算；｛ｐ_i｝の現在の値を用いて（１２）における変換モデル

の偏導関数を計算する。
４．行列

を計算し、（１６）の最大の固有値Ｓ_maxおよび固有ベクトル

を求めることにより最適化問題（１５）の解を求める。
５．直線探索ストラテジを用いて

を最大化するα_nを求める。
６．パラメータを更新：

新しい物体位置は

とする。
７．

および／または｜Ｓ_n+1−Ｓ_n｜＜ε₂であれば、終了する。そうでなければ、ステップ２に進み、次の反復ｎ＝ｎ＋１を行う。

このアルゴリズムのステップ２、３では、画像処理が行われ、その詳細を付録１に提示する。他のステップでは、従来技術の線形代数法に基づく算術演算のみが行われる。

当業者が認識するであろうように、上記アルゴリズムは、勾配上昇法における幾何学変換の初期近似としてＧＳＴＭの結果を用いる、ＡＳＳＴＭ法を実装する一例を提供しているにすぎない。他の例も可能である。加えて、最良のマッチが最小となるように類似度スコアが定義される場合は、勾配降下法が用いられよう。

２領域の場合における効率的な解決法
テンプレートが２つの領域で構成される（Ｔ₀＝Ｔ₁∪Ｔ₂）場合は、反復を要さない固有値問題（１６）の解析解が存在する。この場合、行列

は、

である。それらの行列には、

（１４）の定義から導出される

の関係があり、式中、α＝ｎ₁ｎ₂／ｎ₃、および

である。
ベクトル

は、領域Ｔ₁と領域Ｔ₂との間のコントラストを線形化したものである。（１６）の解は、次の数式（１８）、（１９）により与えられる：

説明を完全なものにするため、数式（１８）、（１９）の証明を付録２に提示する。これらの結果を用いて、ＡＳＳＴＭアルゴリズムのステップ４を以下のように実施する。

４．１）行列

およびベクトル

を計算する。
４．２）効率的なＣｈｏｌｅｃｋｙ分解法により系

の解を次のように求める：
４．２．１）Ｃｈｏｌｅｃｋｙ分解

（

は下三角行列である）を適用し、
４．２．２）単純化された線形系

の解を求め、中間ベクトル

を求め、
４．２．３）単純化された線形系

の解を求め、要求されるベクトル

を求める。

図６は、合成画像データに対して、上記の本発明の適応的サブピクセル統計的テンプレートマッチング（ＡＳＳＴＭ）手法を用いる例の説明図である。図６（ａ）は、注目画像を示し、この画像は、図６（ｂ）に示すテンプレートにより表される物体（象）の幾何学変換された単一のバージョンを含んでいる。ＧＳＴＭ手法により、画像についての最良の類似度スコアを発生させる幾何学変換されたテンプレートに対応する、幾何学変換の初期近似が出力される。次いで、適応的サブピクセル統計的テンプレートマッチング（ＡＳＳＴＭ）手法を図６（ｃ）の初期近似に適用し、物体の幾何学変換の反復を導出する。図６（ｄ）は、幾何学変換のこのような反復を用いて導出された画像パッチ（図６（ｃ）の画像が変換されている）を示す。１８回目の反復が図６（ｂ）のテンプレートに対応していることが分かる。

代替的な用途
提案した方法を用いて、下記文献１の高速な物体検出の枠組みを、以下のものに一般化することも可能である：
・非ハールライク特徴
・複雑な形状の特徴
・任意に配向された特徴

本方法は、標準的なテンプレートマッチング法が通例適用される状況であれば、いかなる場合においても、用途別のトポロジテンプレートに適切な設計を用いて適用可能である。

他の用途には、映像符号化がある。映像符号化では、局所動きベクトルがブロックマッチング法により抽出される。これらの方法は、テンプレートのサイズに対して二次関数的な複雑さを有する相関ベースのテンプレートマッチングの枠組みの変形である。テンプレートを等価なトポロジテンプレートで置換し、数式９のマッチングスコアを計算すると、アルゴリズムの複雑さがテンプレートのサイズに対して線形的となるため、映像の符号化をより高速かつより正確なものにすることが可能である。

他の用途には、マルチモーダル画像の位置合わせがある。かかるデータの例には、例えば光学カメラおよび合成開口レーダ（ＳＡＲ）などの異なるセンサにより撮影された同じシーンの複数の画像がある。このような場合、対応画素の大半は無相関であることが多く、標準的なテンプレートマッチング手法では失敗する。同時に、解析者は、両方の種類のデータ中に現れる複数の領域で構成されるいくつかの高レベル構造を検出することが可能である。リモートセンシングデータにおいて、これらは、川、湖、野原、道路などであり得る。１つの画像中に現れる領域の集合としてトポロジテンプレートを定義することにより、未知のパラメータを有する幾何学変換により変換された他の画像を、提案した方法により位置合わせすることが可能である。

従来技術の参照
1. P. Viola, M. Jones, "Rapid object detection using a boosted cascade of simple features" (IEEE CVPR、511〜518ページ、２００１年)
2. Sibiryakov, M. Bober, "Fast method of object detection by statistical template matching" （欧州特許出願第０５２５０９７３．４号）
3. Jain, Y. Zhong, S. Lakshmanan, "Object Matching Using Deformable Templates" (IEEE TPAMI, 第１８巻（３）、267〜278ページ、１９９６年)
4. S. Yoshimura, T. Kanade, "Fast template matching based on the normalized correlation by using multiresolution eigenimages" (IEEE/RSJ/GI Int. Conf. on Intelligent Robots and Systems (IROS '94), 第３巻、2086〜2093ページ、１９９４年)
5. M. Jones, P. Viola, "Fast Multi-view Face Detection"(IEEE CVPR、２００３年６月)
6. R. Lienhart, J. Maydt, "An extended set of Haar-like features for rapid object detection" (ICIP '02、900〜903ページ、第１巻、２００２年)
7. Messom, C. H. および Barczak, A. L., "Fast and Efficient Rotated Haar-like Features using Rotated Integral Images" Australasian Conf. on Robotics and Automation、２００６年)
8. Golub, C. Van Loan, "Matrix computations" (Johns Hopkins University Press、メリーランド州ボルティモア市、１９９６年、ISBN:0-8018-5414-8)
9. N. Gould, S. Leyffer, "An introduction to algorithms for nonlinear optimization" (J. F. Blowey, A. W. Craig, および T. Shardlow, "Frontiers in Numerical Analysis" (109〜197ページ、Springer Verlag, ベルリン市、２００３年)において)
10. Lucas, T. Kanade, "An iterative image registration technique with an application to stereo vision" (Proc. of Imaging understanding workshop、121〜130ページ、１９８１年)
11. Zitova, J. Flusser, "Image Registration Methods: a Survey, Image and Vision Computing" (第２４巻、977〜1000ページ、２００３年)

当業者が理解するであろうように、記載の実施形態には、多くの変形および修正を行うことが可能である。例えば、本発明は、他の既存の関連手法、例えば上で挙げた文献において教示されている実装を組み合わせた実施形態で実装することが可能である。かかる既存の関連技術の組み合わせは、当業者により直ちに理解されるものであり、すべてのかかる組み合わせ、ならびに本発明の範囲に該当する記載の実施形態のすべてのかかる修正および均等物を含むことが意図される。

付録１：ＡＳＳＴＭアルゴリズムにおける画像処理ステップ
ＡＳＳＴＭアルゴリズムにおける画像処理ステップ２および３を、数式（２０）により与えられる射影変換モデルを用いて実証する。図３の概略表現も参照のこと。

いくつかの他の変換モデルも、数式（２０）により表され、例えば、アフィンモデルにおいてはｐ₇＝ｐ₈＝０、類似度モデル（回転およびスケーリングのみ）においてはｐ₁＝ｐ₅、ｐ₂＝−ｐ₄、ｐ₇＝ｐ₈＝０となる。そのため、かかるモデルも、暗黙的に記載の実施形態により扱われる。

ステップ２において、現在位置を中心とする画像パッチを、（２０）を用いて変換する。これは正変換(forward transformation)であり、整数座標が浮動小数点座標にマッピングされるため、変換画像の計算にはそれほど好適でない。整数座標（ｘ’，ｙ’）における画素値ｆ（ｘ’，ｙ’）は、変換式（２０）を反転させたものを用いることにより、および整数座標（ｘ，ｙ）における既知の画素ｆ（ｘ，ｙ）を補間することにより求められる。これは、周知の反転マッピング法である。整数座標（ｘ’，ｙ’）の規則格子における画像ｆ（ｘ’，ｙ’）を得た後、数式（１２）に含まれる画像の導関数を、それらの離散的近似により数式（２１）として得る：

式中、簡潔さのため座標（ｘ’，ｙ’）は（ｘ，ｙ）に置換されている。

数式（１２）における偏導関数の他のセットは、方程式（２０）を微分して計算され、例えば：

式中、ａ＝ｐ₇ｘ＋ｐ₈ｙ＋１である。

付録２：２領域テンプレートについての固有値問題すなわち数式（１６）の解
命題：固有値問題（１６）の最大の固有値および対応する固有ベクトルは、

となる。

証明：数式（１６）と同じ固有ベクトルを持ち、かつλ＝Ｓ−１として変換される固有値λを有する等価な固有値問題

について考える。Ｃｈｏｌｅｃｋｙ分解

（

は下三角行列である）を用いて、およびベクトル変換

を導入して、別の等価な固有値問題

（

）を得る。サイズが（ｋ＋１）×（ｋ＋１）である階数１の行列

は、λ₁＝０に対応するｋ次元の固有空間を有する。この固有空間からのベクトル

は、

を満たす。直交性条件

から、λ₂≠０に対応する残りの固有ベクトル

を求めることが可能である。そのため、

となり、ここから、要求される固有ベクトル

は、

となる。

を固有値方程式に代入すると、

が得られ、ここから、

となる。

は正定値であるため、λ₂＞０であり、問題（１６）の最大の固有値は、

である。

Claims

画像中の物体を前記画像に対応する信号を処理することにより検出するための方法であって、
前記物体についての複数の線分を含むテンプレートを画像の領域と比較するステップと、
類似度測定値

を決定するステップであって、前記類似度測定値は、前記テンプレートの前記線分の各々に対応する前記画像の線分の画素値の合計と画素値の２乗の合計とに基づく統計的測定値を用いて決定される、そのような類似度測定値を決定するステップと
を含む方法。
前記物体についてのテンプレートを処理することで前記テンプレートを導出するステップをさらに含み、このステップにおいて、前記テンプレートは、前記物体についての前記テンプレートがより簡潔に表されたものである、請求項１に記載の方法。
前記処理ステップは、水平または垂直のいずれかの方向において最大数の線分を有する前記物体についての前記テンプレートの複雑な表現を除去するステップを含む、請求項２に記載の方法。
前記物体についてのテンプレートを領域（Ｔ_ｉ）でラスター化することにより、複数の線分ｓ_ｉｊを含む前記テンプレートを導出するステップを含み、
Ｔ_ｉ＝ｓ_ｉ，１∪ｓ_ｉ，２∪ｓ_ｉ，３∪．．．
は、領域（Ｔ_ｉ）を線分（ｓ_ｉｊ）により表現したものである、請求項１、２、または３に記載の方法。
前記画像を一次元インテグラルラインで表現したものを用いて、すなわち、
水平な線分を有するテンプレートについては

を用いて、
垂直な線分を有するテンプレートについては

（式中、ａは前記画像画素の変数座標である）を用いて、
前記テンプレートの線分に対応する前記画像ｆ（ｘ，ｙ）の前記線分における画素値の合計と画素値の２乗の合計とを計算する、請求項１〜４のいずれか一項に記載の方法。
数式

（式中、
ｕ_ｉ＝領域における画素値の合計であり、
ｖ_ｉ＝領域における画素値の２乗の合計であり、
Ｔ_ｉは前記テンプレートのｉ番目の領域であり、
（ｘ_１，ｘ_２，ｙ）は画素（ｘ，ｙ）（ｘ_１≦ｘ≦ｘ_２）で構成される水平な線分である）を用いて、または
垂直な線分についてのこの数式と等価な数式を用いて、
画素値の合計と画素値の２乗の合計とを計算するステップをさらに含む、請求項５に記載の方法。
前記方法は、類似度測定値を決定する前記ステップの前に、前記テンプレートが実質的に円形であるかを判定するステップを含み、
前記方法は、
前記テンプレートが実質的に円形である場合は、前記類似度測定値を、前記テンプレートの前記線分の各々に対応する前記画像の線分の画素値の合計に基づいて決定するステップか、または、
そうでない場合に、前記類似度測定値を、前記テンプレートの前記線分の各々に対応する前記画像の線分の画素値の合計と前記テンプレートに対応する前記画像の画素値の２乗の合計とに基づいて決定するステップ
を含む、請求項１〜６のいずれか一項に記載の方法。
前記類似度測定値は、前記テンプレート（ｖ_０）に対応する前記画像の画素値の２乗の合計と複数のテンプレート領域（ｕ_ｉ）に対応する前記画像の画素値の合計とを用いて決定され、数式

（式中、ｎ_ｉはｉ番目の領域における画素の数）により与えられる、請求項１〜７のいずれか一項に記載の方法。
複数の線分を含む幾何学変換されたテンプレートを導出するために、前記テンプレートの幾何学変換されたバージョンを導出し、前記幾何学変換されたテンプレートをラスター化するステップをさらに含む、請求項１〜８のいずれか一項に記載の方法。
複数の線分を含む前記幾何学変換されたテンプレートを前記画像の領域と比較するステップと、
類似度測定値

を決定するステップであって、前記類似度測定値は、前記幾何学変換されたテンプレートの前記線分の各々に対応する前記画像の線分の画素値の合計と画素値の２乗の合計とに基づく統計的測定値を用いて決定されるステップと
をさらに含む、請求項９に記載の方法。
複数の所定の幾何学変換を用いて、前記テンプレートの複数の幾何学変換されたバージョンを導出するステップを含む、請求項９または１０に記載の方法。
前記複数の幾何学変換されたテンプレートは、２つのパラメータの関数である変換を用い、好ましくは回転およびスケーリングの関数である変換を用いる、請求項１１に記載の方法。
前記複数の幾何学変換されたテンプレートは、所定の相似変換のセットを前記テンプレートに適用することにより導出される、請求項１２に記載の方法。
複数の線分を含む前記幾何学変換されたテンプレートの各々を前記画像の領域と比較するステップと、
前記テンプレートの前記複数の幾何学変換されたバージョンの各々について前記類似度測定値を決定するステップと、
前記画像の少なくとも１つの領域について、前記類似度測定値についてのピーク値を有する前記テンプレートの幾何学変換されたバージョンを１つ以上導出するステップと
をさらに含む、請求項１１、１２、または１３に記載の方法。
前記類似度測定値についてのピーク値を有する前記テンプレートの前記導出された幾何学変換されたバージョンまたはそのようなバージョンの各々は、前記画像中の前記物体の変換の近似として用いられる、請求項１４に記載の方法。
前記ピーク値が最大の場合は勾配上昇法を用いて、または前記ピーク値が最小の場合は勾配降下法を用いて、前記画像中の前記物体の前記変換の最適な近似を導出するステップを含む、請求項１５に記載の方法。
前記画像中の前記物体の前記変換は、２つ以上のパラメータの関数であり、好ましくは８パラメータの射影変換である、請求項１６に記載の方法。
最適化されたピーク類似度測定値を有する変換を導出するために、ピーク値を有する前記導出された幾何学変換されたテンプレートの変換またはそのようなテンプレートの各々の変換を前記画像に基づいて反復するステップをさらに含む、請求項１５、１６、または１７に記載の方法。
前記反復するステップは、多次元パラメータ空間におけるベクトルの反復を含む、請求項１８に記載の方法。
前記テンプレートは、領域の和集合を含むトポロジテンプレートである、請求項１〜１９のいずれか一項に記載の方法。
画像中の物体を前記画像に対応する信号を処理することにより検出するための方法であって、
前記物体についての複数の線分を含むテンプレートを画像の領域と比較するステップと、
類似度測定値

を決定するステップであって、前記類似度測定値は、数式

（式中、
Ｉ_１は画素値の合計を介してインテグラルラインを表現したものであり、
Ｉ_２は画素値の２乗の合計を介してインテグラルラインを表現したものであり、
ｆ（ｘ，ｙ）は前記画像であり、
ａは線分についての前記画像画素の変数座標である）により定義されるインテグラルラインの関数である統計的測定値を用いて決定される、そのような類似度測定値を決定するステップと
を含む方法。
画像中の幾何学変換された物体を前記画像に対応する信号を処理することにより検出するための方法であって、
前記物体のテンプレートの幾何学変換されたバージョンを前記画像の領域と比較するステップであって、前記幾何学変換されたテンプレートは複数の線分を含む、そのようなステップと、
類似度測定値

を決定するステップであって、前記類似度測定値は、前記幾何学変換されたテンプレートの前記線分の各々に対応する前記画像の線分の画素値の合計と画素値の２乗の合計とに基づく統計的測定値を用いて決定される、そのような類似度測定値を決定するステップと
を含む方法。
画像中の幾何学変換された物体を前記画像に対応する信号を処理することにより検出するための方法であって、
前記物体のテンプレートの幾何学変換されたバージョンを前記画像の領域と比較するステップであって、前記幾何学変換されたテンプレートは複数の線分を含む、そのようなステップと、
類似度測定値

を決定するステップであって、前記類似度測定値は、

（式中、
Ｉ_１は画素値の合計を介してインテグラルラインを表現したものであり、
Ｉ_２は画素値の２乗の合計を介してインテグラルラインを表現したものであり、
ｆ（ｘ，ｙ）は前記画像であり、
ａは線分についての前記画像画素値の変数座標である）により定義されるインテグラルラインの関数である統計的測定値を用いて決定される、そのような類似度測定値を決定するステップと
を含む方法。
画像中の物体の幾何学変換を前記画像に対応する信号を処理することにより決定するための方法であって、
前記物体のテンプレートの複数の幾何学変換されたバージョンを前記画像の領域と比較するステップと、
各テンプレートについて類似度測定値を決定し、前記類似度測定値の少なくとも１つのピーク値を導出するステップと、
前記画像中の前記物体についての最適な幾何学変換を導出するために、前記幾何学変換されたテンプレートの前記幾何学変換を、勾配上昇法における前記幾何学変換の初期近似として用いるステップと
を含み、
各幾何学変換されたテンプレートは、複数の線分を含み、
前記類似度測定値は、前記幾何学変換されたテンプレートの前記線分の各々に対応する前記画像の線分の画素値の合計と画素値の２乗の合計とに基づく統計的測定値を用いて決定される、方法。
請求項１〜２４のいずれか一項に記載の方法を行うためのプロセッサおよびメモリを備える装置。
実行されると請求項１〜２４のいずれか一項に記載の方法を行う命令を含む、コンピュータ可読媒体。