JP4334301B2

JP4334301B2 - 階層型構成要素ベースの物体認識

Info

Publication number: JP4334301B2
Application number: JP2003306847A
Authority: JP
Inventors: マルクス・ウルリヒ; カルステン・シュテガー
Original assignee: エムヴイテック・ソフトウェア・ゲーエムベーハー
Priority date: 2002-08-30
Filing date: 2003-08-29
Publication date: 2009-09-30
Anticipated expiration: 2023-08-29
Also published as: ATE528724T1; JP2004094954A; US7239929B2; JP2012212476A; US20040042661A1; EP1394727A1; JP5330579B2; JP2009104666A; EP1394727B1; JP5329254B2

Description

本発明は、一般にマシンビジョンシステムに関し、より具体的には、相互に相手を基準に移動可能ないくつかの物体の部分からなる物体の視覚的認識に関する。

物体認識とは、多くのコンピュータ・ビジョン・アプリケーションの一部である。物体のイメージを物体のモデルと位置合わせしなければならないことの多い、産業用検査タスクに特に有用である。物体認識プロセスによって得られる変形（ポーズ）は、たとえばピック・アンド・プレース・オペレーション、品質管理、または検査など、様々なタスクに使用することができる。たいていの場合、物体のモデルは物体のイメージから生成される。たとえば３ＤのＣＡＤモデルなどのより複雑なモデルを作成するのには、費用または所要時間がかかりすぎる場合が多いことから、こうした純粋な２Ｄ方式が頻繁に使用される。したがって産業用検査タスクでは、通常、物体の２Ｄモデルをイメージにマッチングさせることに関心が寄せられる。マッチング方法の概説はＲ７に示されている（添付の参考文献リストを参照のこと）。最も簡単なクラスの物体認識方法は、モデルおよびイメージのグレイ値に基づくものである（Ｒ７、Ｒ１６）。より複雑なクラスの物体認識では、たとえば平均エッジ距離（Ｒ６）、ハウスドルフ距離（Ｒ２０）、または一般化ハフ変換（ＧＨＴ）（Ｒ４）など、マッチングの際に物体のエッジを使用する。

上記の方法は、閉塞、クラッタ、任意の照度変化、およびセンサノイズに対する強さ、ならびに高い認識精度およびリアルタイムでの計算など、すべてが高度な産業向けの需要を同時に満たすものではない。フィーチャとしてエッジの方向を使用するＲ２１に示された類似性尺度、ならびに遅い計算、大量のメモリ、およびＧＨＴの限られた精度などの欠点を解消したＧＨＴの修正（Ｒ２４）は、産業向けの需要を満たすものである。標準的な認識方法との比較も含む広範囲な性能評価（Ｒ２５）では、これら２つの方法が非常に有利であることが示されている。

上記のすべての認識方法は、共通して、見つけられた物体を表す何らかの形の剛体モデルを必要とする。ただし、いくつかのアプリケーションでは、剛体モデルの仮定が満たされない。順応性のある柔軟なマッチング方法（Ｒ３、Ｒ１３、Ｒ５）では、医学でたとえば磁気共鳴映像法またはコンピュータ断層撮影法などに対処する際に表れる、変形可能な物体をマッチングさせることが可能である。特にロボット工学の分野では、関節を有する物体を認識するための方法（Ｒ１１）も使用可能である。

実際のところ、品質管理または検査タスクなどの産業用アプリケーションの場合、任意の相互の動き、すなわち距離、向き、および縮尺の変化を示すいくつかの部分からなる物体を見つけることを除いて、弾力性があるかまたは関節を有する物体を見つけることはそれほど重要ではない。これらの変化は潜在的に、いくつかのスタンプを使用するタンポン印刷を適用する場合、または回路基板にトランジスタまたははんだ付けポイントを備え付ける場合など、プロセスが作為的または無作為に、互いに不十分に「位置合わせされた」いくつかの単一の手順に分けられる場合に必ず発生する。図１に物体の一例が示されている。図３には、物体の各部の相互の動き（変化）が示されている。この種の物体を剛体とみなす場合、従来の認識方法では見つけることができないのは明らかである。しかし、個々の部分を別々に見つけようとする場合には、全体のイメージ中の各部分を検索しなければならず、各部分の間の関係は考慮に入れられないため、検索には計算上かなりのコストがかかってしまう。関節を有する物体を考慮に入れると、関節の正確な位置調整はないが、相互の変化はより全般的になる可能性があるため、この問題はほとんど解決することができない。たとえば物体はいくつかの剛体部分からなる場合があるため、弾力性のある物体もこれらの動きをモデル化することができないのは明らかである。１つの可能な解決策は、各モデルがモデルの部分の１つの形状を表すようないくつかのモデルを生成すること、およびこれらのモデルをすべてイメージにマッチングさせることである。ただし、変化が大きい場合は、これは非常に効率が悪く、リアルタイムの計算には適していない。米国特許第６３２４２９９号（Ｒ１）では、複数の部分を有する物体を位置付けする方法が示されている。第１のステップでは物体の大まかなポーズが決定され、続くステップで、物体の部分の詳細なポーズが計算される。したがって、各部の変化は物体の大まかなポーズを見つけられる程度の小さなものでなくてはならないが、これに対して本発明では、変化は明示的にモデル化されるものであり、任意の形および任意の大きさであってよい。さらに米国特許第６３２４２９９号では、本発明で実行されるように変化がトレーニング段階で自動的に学習されることはない。米国特許第６４１１７３４号（Ｒ２）は、見つけられた物体の各部が、物体の各部のポーズに関する制限などのユーザが指定した要件を満たすものかどうかをチェックすることによって、米国特許第６３２４２９９号で提示された方法を拡張するものである。本発明の利点は、物体の各部は有効なポーズの範囲にわたって検索されるだけであり、したがって有効なインスタンスだけが返されるために、このチェックが省略できることである。
米国特許第６３２４２９９号米国特許第６４１１７３４号欧州特許出願第００１２０２６９．６号 Bajcsy,R., Kovacis,S.,1989. Multi-resolution elastic matching. Computer Version, Graphics, and Image Processing, 46(1): pp.1-21. Ballard, D.H., 1981. Generalizing the Hough transform to detect arbitrary shapes. Pattern Recognition, 13(2), pp.111-122. Belongie, S., Malik, J., Puzicha,J., 2002. Shape Matching and Object Recognition Using Shape Contexts, Transactions on Pattern Analysis and Machine Intelligence, 24(4), pp.509-522. Borgefors, G. 1988. Hierarchical chamfer matching: A parametric edge matching algorithm. IEEE Transactions on Pattern Analysis and Machine Intelligence, 10(6), pp.849-865. Brown,L.G., 1992. A survey of image registration techniques. ACM Computing Surveys,24(4), pp.325-376. Chu,Y.J. and Tseng-Hong, L., 1965. On the shortest arborescence of a directed graph. Scientia Sinica,14(10), pp.1396-1400. Chva'tal,V., 1983. Linear Programming, W.H.Freeman and Company, New York. Elder,J., 1999. "Are Edges Incomplete?". International Journal of Computer Vision, 34(2/3), pp.97-122. Hauck, A., Lanser, S., and Zierl, C., 1997. Hierarchical Recognition of Articulated Objects from Single Perspective Views. In: Proc. Computer Vision and Pattern Recognition (CVPR'97), IEEE Computer Society Press, pp.870-883. Huttenlocher, D.P.,Klanderman, and G.A., Rucklidge,W.J.,1993. Comparing Images using the Hausdorff Distance. IEEE Transactions on Pattern Analysis and Machine Intelligence, 15(9), pp.850-863. Jain,A.K., Zhong,Y., and Lakshmanan,S., 1996. Object matching using deformable templates. IEEE transactions on pattern analysis and machine intelligence, 18(3), pp.267-277. Koch,K.R., 1987. Prameterschatzung und Hypothesentests in linearen Modellen. Dummler, Bonn. Koffka, K., 1935. Principles of Gestalt Psychology. Harcourt Brace, New York. Lai,S. and Fang,M., 1999. Accurate and fast pattern localization algorithm for automated visual inspection. Real-Time Imaging, 5, pp.3-14. Lowe, D.G., 1985. Perceptual Organization and Visual Recognition, Kluwer Academics, Boston. Marr,D., 1982. Vision, W.H.Freeman and Company, San Francisco, CA. Murtagh,B.A., 1981. Advanced Linear Programming: Computation and Practice, McGraw-Hill, New York. Rucklidge, W.J., 1997. Efficiently locating objects using the Hausdorff distance. International Journal of Computer Vision, 24(3), pp.251-270. Steger,C., 2001. Similarity measures for occlusion, clutter, and illumination invariant object recognition. In: Mustererkennung 2001, B.Radig and S.Florczyk (eds), Springer, Berlin, pp.148-154. Ullman,S., 1979. The interpretation of visual motion. MIT Press, Cambridge, MA. Ulrich,M., Steger, C., Baumgartner,A., and Ebner,H., 2001. Real-time object recognition in digital images for industrial applications. In: 5th Conference on Optical 3-D Measurement Techniques, Vienna, Austria, pp.308-318. Ulrich,M., Steger, C., 2001. Empirical performance evalution of object recognition methods. In: Empirical Evaluation Methods in Computer Vision, H.I. Christensen and P.J.Phillips (eds), IEEE Computer Society Press, Los Alamitos, CA, pp.62-76. Wertheimer,M., 1938. Laws of Organization in Perceptual Forms. In: A Source Book of Gestalt Psychology, W.D.Ellis (ed), Harcourt Brace. Witkin,A.P. and Tenenbaum,J.M., 1983. On the Role of Structure in Vision. In: Human and Machine Vision, Jacob Beck and Barbara Hope and Azriel Rosenfeld (eds), Academic Press, New York. Rock, I. and Palmer,S., 1990. The legacy of Gestalt psychology. Scientific American, 263, pp.84-90.

本発明の目的は、物体が任意の方法で相互に相手を基準に移動できるいくつかの部分からなる、イメージ中の物体を認識するのに使用可能な階層型物体認識モデルを自動的に学習するための方法を提供することである。

したがって本発明は、物体各部の相互の動き（変化）が示されたいくつかの例示イメージを使用して物体を自動的に各部に分解し、その変化を解析するものである。好ましい実施形態では、単一の物体の各部が剛体であると想定されるため、変形は見られない。他の好ましい実施形態では、剛体の変換（並進および回転）のみが考慮に入れられる。したがって物体は、イメージ中で任意の位置および向きにある場合に見つけることができる。追加のポーズパラメータ、たとえば縮尺も、簡単な方法で考慮に入れることができる。

物体の各部の相互の変化が解析され、剛性物体の各部すべての表現、ならびに各部の関係を考慮しながら各部が互いに相対的に検索される階層型検索方法を含む、階層型モデルを構築する際に使用される。

この階層型モデルの生成がオフライン段階と呼ばれ、１回実行しなければならないだけであるため時間は重要でない。しかし時間が重要なオンライン段階では、物体はイメージ中で検索され、階層型モデルが非常に効率的な検索を容易にする。

図４の流れ図には、階層型モデル計算の単一ステップが示されている。提案されたアルゴリズムの入力データのみが、物体がたとえば関心領域（ＲＯＩ）を使用してユーザによって定義される物体のサンプルイメージ（モデルイメージ）、ならびに少なくとも質的に単一物体の各部の相互の動きを記述する何らかの追加の例示イメージである。

第１のステップは、モデルイメージ中でＲＯＩによって定義された物体を、小さな初期構成要素に分解することである。これらの構成要素は、実際の物体各部と一致する必要がないことに留意されたい。たとえば、イメージエッジの接続された構成要素が分解の基準として使用される場合、結果として図１の例からは、１つの帽子、１つの顔、２本の腕、２つの手、２本の脚、２つの足、上半身の外側の四角形、上半身の内側の四角形、および上半身上に印刷された各文字につき少なくとも１つの構成要素という、構成要素が生じることになる。各初期構成要素について、例示イメージ中でその初期構成要素の検索に使用できる表現が算出される。この表現は初期構成要素モデルと呼ばれ、少なくとも剛体の変換（並進および回転）の下で物体を見つけることができる任意の認識方法を使用して構築することができる。本発明の好ましい実施形態では、イメージエッジに基づいた認識方法が使用される。さらに、産業向けの需要が満たされれば、Ｒ２１または欧州特許出願第００１２０２６９．６号の「物体認識のためのシステムおよび方法（Ｓｙｓｔｅｍａｎｄｍｅｔｈｏｄｆｏｒｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ）」（Ｒ２２）に記載された類似性尺度、あるいは修正ハフ変換（Ｒ２４）が好ましいものとする。

各初期構成要素は、すべての例示イメージ中で初期構成要素モデルを使用して検索される。このようにして、各例示イメージ中の各初期構成要素のポーズパラメータが取得される。これらのパラメータが解析され、剛性の物体各部を形成するそれらの初期構成要素がクラスタ化されて、さらに物体各部に対応して最終的に分解される。図１および図３の例では、帽子および顔が各イメージ中で同じ動きを示すことから、１つの剛体部分にクラスタ化される。同じことが、上半身部分を形成するすべての初期構成要素にもあてはまる。これらも１つの剛体部分にクラスタ化される。新しく生成された（クラスタ化された）各部分について、初期構成要素の場合と同じ認識方法を適用することによって表現が算出される。この表現は物体部分モデルと呼ばれる。例示イメージ中で新しく生成された物体の各部を検索する際に使用される。クラスタ化されていない初期構成要素モデルが、変更されずに物体部分モデルとして使用される。したがって、各物体部分は１つの物体部分モデルによって記述される。剛性物体部分の各対間の関係（相対的動き）は、例示イメージのシーケンスを介してポーズパラメータを解析することによって算出され、完全連結有向グラフに格納されるが、ここで頂点は物体の各部を表し、頂点ｉとｊの間のリンクは部分ｉを基準とした部分ｊの動き全体を示す。グラフの最も短い樹枝を計算することによって、検索の手間を最小限にするという意味で最適な検索戦略を組み込んだ階層型検索ツリーを確かめることができる。最終的に階層型モデルは、物体部分モデル、物体各部間の関係、および最適な検索戦略で構成される。

オンライン段階では、次に階層型モデルを使用して、任意の検索イメージ中の移動可能オブジェクト部分を含む物体全体を検索することができる。これは、選択された類似性尺度の物体部分モデルを使用して、イメージ中の物体各部を検索することによって実行される。全検索範囲内で１つの物体部分だけを検索しなければならないが、残りの物体部分は、検索ツリーとの組合の関係によって確定される非常に限られた検索スペースの中で検索することができる。これにより、物体各部の相対的な動きにもかかわらず、効率的な検索が容易になる。

本発明は、添付の図面と共に以下の詳細な説明を読めばよりよく理解されよう。

初期分解
本発明の第１のステップでは、物体は初めに小さな構成要素に解体される。これは、自動的またはユーザによって対話的に実行することができる。初期分解が満たさなければならない条件は、剛性物体の各部を少なくとも１つの初期構成要素によって表さなければならないということであり、そうでなければアルゴリズムが後でこの構成要素を分割し、剛性の物体各部を自動的に見つけることができない。したがって、全体のセグメント化が好ましい。ただし、非常に小さな初期構成要素は性質が固有でなくなってしまうが、これは後で示すように、本発明によって考量することができる。

ユーザが初期分解を自動的に行うように選択する場合は、物体全体を関心領域（ＲＯＩ）で定義しなければならない。ＲＯＩとは、その後の処理のためにイメージの領域を制限する、任意に形作られたイメージの部分のことである。図１の例では、ＲＯＩは物体全体を囲む長方形である。ＲＯＩで定義されたイメージ領域は、その後初期分解を実行する際に使用される。このタスクに好適ないくつかのグループ化方法が文献に見られる。本発明の好ましい実施形態では、モデルイメージ中のエッジは、たとえばソーベルフィルタなどのエッジフィルタの振幅に関する閾値を適用することによって抽出される。エッジの連結された構成要素は、個々の初期構成要素として処理される。好ましい実施形態では、ユーザ定義の閾値よりも小さな初期構成要素は、ノイズによるかまたは例示イメージ中で識別するのが困難なことによる無意味な初期構成要素を避けるために、消去されるか隣接する構成要素にマージされる。第１のステップでは、初期構成要素のサイズ、たとえばエッジピクセルの数が計算される。ユーザ定義の閾値よりもサイズが小さい場合、現在の初期構成要素を隣接する構成要素にマージ（組合せ）できるかどうかをチェックしなければならない。マージングが不可能な場合、初期構成要素は消去される。チェックは、現在の初期構成要素中のすべてのエッジピクセルから、ユーザ定義の閾値よりもサイズの大きい他のすべての初期構成要素までの距離を計算することによって実行される。すべてのエッジピクセルから比較される構成要素までの最大距離が閾値よりも小さい場合、これら２つの構成要素が共に属する確率は高い。したがって、現在の初期構成要素は比較される構成要素にマージされる。図５の左上のピクチャに、モデルイメージが示されている。図５の右上のピクチャは、イメージ内にイメージノイズが存在しないという仮定の下でのエッジ抽出ステップの結果である。図５の左下のピクチャは、ある程度のノイズを含む実際のイメージを処理する場合の、エッジ抽出ステップの結果を示す図である。初期分解の第１のステップの結果、７つの独立した構成要素になる。構成要素２、３、４、５、６、および７のサイズはユーザ定義の閾値よりも小さい。図５の右下のピクチャには、消去およびマージングの結果が示されている。構成要素２、３、４、および５は、最大距離ｄ₁が事前に定義された閾値よりも小さいため、構成要素１に付属している。構成要素６および７は、最大距離ｄ₂が事前に定義された閾値を超えるため、消去される。図６では、図１で紹介された物体の初期構成要素が視覚化される。

前述のように、初期分解を実行するために、他のグループ化方法またはそれらの組合せを本発明に含めることもできる。ゲシュタルト心理学は、視覚領域内でグループ化プロセスを導く一組の原理を発見した（Ｒ２６、Ｒ１５、Ｒ２８）。コンピュータビジョンは、たとえば知覚の編成およびグループ化（Ｒ２３、Ｒ１８、Ｒ２７、Ｒ１７）の分野で、これらの原理を利用したものである。

ユーザが初期分解を手動で実行するように選択した場合、ユーザは１つのＲＯＩを指定するだけでなく、各初期構成要素について別々のＲＯＩを指定しなければならない。指定されたＲＯＩ内で抽出されたすべてのエッジは、その後１つの初期構成要素として処理される。したがって、ユーザの以前の知識を利用することができる。図２の例では、ユーザによって合計１１のＲＯＩが定義されている。選択されたＲＯＩは、上半身が１つの剛性物体部分を形成しているとユーザが確信したこと、および頭と顔が１つの剛性物体部分を形成しているかどうかは確信していないことを暗示している。
初期構成要素モデルの生成
次のステップでは、初期構成要素モデルが算出される。本発明の好ましい実施形態では、初期構成要素モデルを算出し、例示イメージ中で初期構成要素を検索するための認識方法として、Ｒ２１に示された類似性尺度の実施が使用される。この方法では、従来のほとんどの物体認識方法の実施と同様に、認識速度を上げるために帰納的な粗から精への戦略を使用する。これには、モデルイメージと検索イメージの両方のサブサンプリングと共に、両方のイメージの目盛り空間表現につながる適切なイメージ平滑化が含まれる。ただし、好ましくない目盛り空間効果には注意しなければならない。目盛り空間では、初期構成要素のエッジは隣接するエッジの影響を受ける。大きな物体を取り扱うときには、隣接するエッジの影響を受けない物体のエッジが十分に残されていることから依然として適切なマッチングが可能であるため、ほとんどの場合にこれは重要でない。ただし、初期構成要素などの小さな物体を取り扱うときには、初期構成要素中のエッジピクセルの数と隣接するエッジピクセルの数の比が小さくなる、すなわち隣接するエッジの影響が増加するため、何らかの問題が発生する。図７ａおよび７ｂに、目盛り空間効果の原理が示されている。図７ａには、２本のエッジを含む１Ｄのグレイ値プロファイルが示されている。左側のエッジのみが初期構成要素に属しているため、初期構成要素モデル内に示されるのに対して、右側のエッジは隣接エッジを表している。目盛り空間では、隣接エッジによって生じるモデルエッジの妨害が平滑化の度合いに応じて増加する（シグマ）。この問題は、認識方法で目盛り空間表現が使用されなければ避けることができる。ただし、その場合には計算時間の増加につながるので好ましくない。したがって、隣接する妨害エッジをなくすために、初期構成要素エッジの両側のグレイ値が人工的に周囲の領域に連続される。すべての妨害エッジをなくすために、適切な周囲の領域サイズを選択しなければならない。たとえば、２つの連続する打切りステップ内で４つの隣接ピクセルが１つにマージングされる、ステップの合計数がｌの方法で、目盛り空間打切りが使用される場合、すべての隣接エッジからの影響を完全になくすために、初期構成要素エッジの両側のグレイ値は、少なくとも２^lピクセルずつ連続させなければならない。その結果が図７ｂに示されている。これでモデルエッジは隣接エッジに妨害されなくなる。他のより高度な方法では、エッジを明示的にモデリングし、その後エッジの周囲でグレイ値を再構築する（Ｒ１０）。これらは本発明に容易に組み込むことができる。

各書記構成要素の妨害エッジが消去された後、初期構成要素モデルが構築される。隣接する初期構成要素が現在の初期構成要素以外に同じ剛性物体部分に属することができるため、（隣接する初期構成要素に属する）隣接エッジは、現在の初期構成要素を基準として同じ位置にある例示イメージにも存在することになる。したがって、各初期構成要素について、あらかじめ隣接エッジを消去することなく、第２の初期構成要素モデルが構築される。これにより、すべてのマッチが例示イメージ中で見つけられる可能性が高くなる。初期構成要素の検索がマッチを重複させるという結果は、以下の項で説明するアルゴリズムを使用して補償されるので、重大なことではない。基本的に、オフライン段階中の誤った肯定または二重のマッチは、マッチがないことに比べて好ましい。
初期構成要素モデルの検索
初期構成要素モデルは、選択された認識方法を使用して各例示イメージで初期構成要素を検索するのに使用される。こうして、各例示イメージ中の各構成要素ｉのすべてのポーズＰ_iが取得される。好ましい実施形態では、位置とは、たとえば初期構成要素内のエッジピクセルの重心などの初期構成要素モデルの任意の基準点のことである。向きとは、モデルイメージ中の初期構成要素の向きのことであり、すなわちモデルイメージ中の各初期構成要素の向きは０°である。ポーズＰ_iには、隣接エッジを消去した後に構築された初期構成要素モデルを検索する際に取得されたポーズ、ならびにあらかじめ隣接エッジを消去することなく構築された初期構成要素モデルを検索する際に取得されたポーズが含まれる。

小さな初期構成要素を検索する際には、エッジの妨害の問題以外の別の問題も生じる。初期構成要素の自己対称性、初期構成要素間の相互類似性、または初期構成要素の例示イメージ中の他の構造体に対する類似性により、検索結果が固有でない可能性がある。さらに多くの場合、各初期構成要素の検索に２つの初期構成要素モデルが使用されるため、マッチの数が２倍になる。これら２つの問題は、以下の段落に示された同じアルゴリズムを使用して解決することができる。アルゴリズムをできるだけ単純に記述しておくために、２つの初期構成要素モデルを使用する第２の問題については無視する。図１の例では、たとえば左脚は第１の例示イメージ（図３の左上イメージ）で、左脚の正しい位置、右脚の位置、ならびにそれぞれ向き０°および１８０°の４回見られる（図８参照）。したがって、これらのあいまいさを解決するためには、各構成要素について最も可能性の高いポーズをとることが不可欠である。ｎを初期構成要素の数とし、Ｍ_iをモデルイメージ中の構成要素ｉのポーズとする（ｉ＝１、．．．ｎ）。例示イメージ中の初期構成要素ｉのマッチｋで表されるポーズはＥ_i ^kと記述され、ここでｋ＝１、．．．ｎ_iであり、ｎ_iは現在の例示イメージ中の構成要素ｉのマッチ（見つけられたインスタンス）数である。あいまいさは、各初期構成要素が多くても１つの物理マッチに帰するものであり、各物理マッチが多くても１つの初期構成要素に記するものであるという、２つの制約を考慮しながら、以下の数式を最小にすることで解決される。

物理マッチとは、初期構成要素の例示イメージへの実際のまたは物理的なマッチのことであり、すなわち前述のあいまいさにより、１つの物理マッチが認識方法によって返されたいくつかのマッチによって占有される場合がある。δ_i ^kは、構成要素ｉのマッチｋの変化尺度であり、Ψは、例示イメージ中の構成要素ｉのマッチｋに対する構成要素ｊのマッチｌの相対ポーズを、モデルイメージ中の２つの構成要素の相対ポーズと比較することによって評価する、コスト関数である。例示イメージ中の現在の相対ポーズがモデルイメージ中の相対ポーズと異なれば異なるほど、コスト値は大きくなる。本発明の好ましい実施形態では、Ψは相対位置Δｐｏｓおよび相対向きΔｏｒｉｅｎｔ中の差異を考慮に入れるが、位置の差異はピクセルで測定され、向きの差異は度で測定される。２つの測定値をコスト関数Ψに結合できるようにするために、以下の数式を導く２つの測定値の相対的影響の平衡を保たせる平衡係数ｗが導入される。

任意選択で、Ψを厳密に単調に増加する任意の他の関数にマッピングすることが可能である。好ましい実施形態では、変化を小さくするために有利に働く対数が算出される。各追加パラメータに対して別々の平衡係数を導入することにより、追加のポーズパラメータ（たとえば縮尺）を簡単に含めることができる。

数式１の最小化は、見かけの動きに関する対応問題が全体の変化を最小にすることによって解決される、人の知覚の原理に従うものである（Ｒ２３）。２つの制約を考慮しながら数式１を解くために、問題は、たとえば線形計画法技法を適用することで解決できる２部グラフマッチング問題として公式化される。図８に示されるように、２部グラフの１つのセットＮ^comp中のノードが初期の構成要素を表し、他のセットＮ^phys中のノードが物理マッチを表す。各マッチは、グラフ中の１つのリンクで表される。マッチが例示イメージ中の同じ物理マッチを指すものかどうかをチェックするために、初期構成要素の自己対称性ならびに初期構成要素間の相互類似性についての情報を考慮しなければならない。この情報は、選択された認識方法の類似性尺度を予備段階で使用して、各初期構成要素をそれ自体および他のすべての構成要素とマッチングさせることによって得られる。これらマッチのポーズを使用して、例示イメージ中の２つのマッチが同じ物理マッチを指しているかどうかを判別することができる。２部グラフ内の各エッジは１つの別々のマッチに対応し、対応するδ_i ^kの値が割り当てられる。これで、最大化（最適化）しなければならない目的関数ｚが次のように設定できる。

ｘ_i ^kは最適化における未知数であり、初期構成要素ｉのマッチｋが解に含まれる場合はｘ_i ^kは１であり、それ以外の場合は０である。マッチ数を最大にしなければならないため、変化δ_i ^k（最小でなければならない）は重みδ^max−δ_i ^k（最大でなければならない）に変換しなければならず、この式でδ^maxは、δ^max＞δ_i ^k∀｛ｉ，ｋ｜１≦ｉ≦ｎ，１≦ｋ≦ｎ_i｝となるような定数値である。さらに、いくつかの制約を示し、最適化に導入しなければならない。

∀は物理的マッチ、ここでは少なくとも２つのｘ_i ^kが現物理的マッチに割り当てられる。
最初の２つの制約（数式５および６）は、すべてのｘ_i ^kが解において値１または値０のいずれかを有すること、すなわち、初期構成要素ｉのマッチｋが解の一部であるかまたは一部でないか、のいずれかであることを保証するものである。第３の制約（数式７）は、各初期構成要素が多くても１つのマッチに割り当てられることを保証するものである。第４の制約（数式８）は、各物理マッチが多くても１つの初期構成要素に割り当てられることを保証するものである。この線形計画法問題は異なるアルゴリズム、たとえばシンプレックス法によって解決することが可能であり、文献から入手可能である（Ｒ９、Ｒ１９）。各例示イメージのあいまいさが個別に解決される。
初期構成要素のクラスタ化
初期分解は全体のセグメント化につながるため、同じ剛性物体部分に属する初期構成要素は、以前のステップで取得されたポーズパラメータを解析することによって、より大きなクラスタにマージしなければならない。すべての例示イメージにわたって同様の見かけの動きを示す初期構成要素は、一緒にクラスタ化される。

第１に、同じ剛性物体部分に属する２つの初期構成要素の２つ１組の確率が計算される。Ｍ₁＝（ｘ₁ ^M、ｙ₁ ^M、ψ₁ ^M）、Ｍ₂＝（ｘ₂ ^M、ｙ₂ ^M、ψ₂ ^M）、Ｅ₁＝（ｘ₁ ^E、ｙ₁ ^E、ψ₁ ^E）、およびＥ₂＝（ｘ₂ ^E、ｙ₂ ^E、ψ₂ ^E）を、モデルイメージ中および例示イメージ中の２つの初期構成要素のポーズとする。モデルイメージ中の向きが基準とされるため、一般性を失うことなくψ₁ ^Mおよびψ₂ ^Mは０に設定される。モデルイメージ中の２つの初期構成要素の相対位置は、Δｘ^M＝ｘ₂ ^M−ｘ₁ ^MおよびΔｙ^M＝ｙ₂ ^M−ｙ₁ ^Mで表される。例示イメージ中の相対位置Δｘ^EおよびΔｙ^Eについても同様である。モデルイメージ中および例示イメージ中の相対位置を比較できるようにするために、例示イメージ中の相対位置を以下のように回転させて基準の向きに戻さなければならない。

使用された認識方法がポーズパラメータの精度情報をさらに戻す場合、誤り伝播の法則を使用して相対位置の精度が算出される。それ以外の場合、精度は経験的に指定されるものとする。次に、以下の仮説を示すことができる。

この仮説が正しい確率は、両方の初期構成要素が同じ剛性物体部分に属する確率に対応する。これは、たとえばＲ１４に示されたような仮説試験に関する数式を使用して算出することができる。これはすべての物体対およびすべての例示イメージに対して実行され、対称類似性行列を生み出すものであって、ここに、行ｉおよび列ｊで初期構成要素ｉおよびｊが同じ剛性物体部分に属する確率が格納される。好ましい実施形態では、行列中のエントリがすべての例示イメージにおける確率の最小値に対応する。ミスマッチに対してより高い強さを得るために、最小値の代わりに平均値または他の統計値を使用することができる。図９には、図１および図３で与えられた例に関する類似性行列が示されている。帽子と顔が一緒に属している確率、および上半身部分の初期構成要素が剛性物体部分を形成している確率が高いことがわかる。

この類似性行列に基づき、たとえば、類似性が最も高い２つのエンティティを残りの類似性の最大値が事前定義された閾値よりも小さくなるまで連続してマージする、２つ１組でのクラスタ化戦略を使用して、初期構成要素がクラスタ化される。他のクラスタ化技法も本発明に簡単に組み込むことができる。
物体部分モデルの生成および検索
前述のように、新しくクラスタ化された構成要素に関する認識方法のモデルが作成され、すべての例示イメージ中で検索される。これにより、新しくクラスタ化された構成要素のポーズとして、クラスタ内の各初期構成要素の単一の初期ポーズの平均を取る際に、誤りが生じるのを防ぐことができる。ただし、この情報を活用して、例示イメージ中で新しくクラスタ化された構成要素の基準点および配向角度について概数値を算出することによって、検索スペースを減らすことができる。このステップの後、各剛性物体部分について物体部分モデルが使用可能であり、各イメージ中の各物体部分に関するポーズパラメータが算出される。
物体部分間の関係の算出
クラスタ化された構成要素のポーズパラメータ、すなわち剛性物体部分が解析され、部分ｉとｊの間の２つ１組の関係が導出される（ここではｉ＝１、．．．、ｎ_pおよびｊ＝１、．．．、ｎ_pであり、ｎ_pは物体部分の数である）。そのために、各イメージでは物体部分ｉのポーズがローカル座標系を定義し、この座標系では物体部分ｊのポーズが算出される。好ましい実施形態では、すべての例示イメージのローカル座標系において物体部分ｊのすべての向きを囲む角度範囲は、物体部分ｉを基準にした物体部分ｊの角度変化を表す。好ましい実施形態では、対応する位置変化は、すべての例示イメージのローカル座標系において物体部分ｊの基準点の任意の向きの最小の囲み長方形で記述される。任意の向きの最小の囲み長方形と並んで、たとえば、軸に位置合わせされた最小の囲み長方形、凸閉包、最小の囲み円、または２Ｄ平面内の点セットの他の任意の記述など、他の記述を代わりに使用することができる。この原理は、図１０に例示されている。

角度変化および位置変化に加え、さらに関係情報は、相対角度および相対位置の平均および標準偏差などの統計値を含むことができる。この情報は、整列した各物体対について算出される。全体を検索する労力を最小限にする最適な検索戦略を見つけるためには、物体部分ｉのポーズがわかっている場合に物体部分ｊを検索するために費やさなければならない検索労力Ω_ijを量子化する尺度を定義しなければならない。好ましい実施形態では、検索努力は以下のように定義され、この式で、ｌ_ijおよびｈ_ijはそれぞれ最小の囲み長方形の長さおよび高さであって、部分ｉを基準にした部分ｊの位置変化を記述しており、Δψ_ijは対応する角度変化を指定するものである。

検索労力の計算は、選択された物体認識方法に大幅に依存するものであり、個々に適合させなければならない。Ωは左右対称でないこと、すなわちΩ_ijは必ずしもΩ_jiに等しくないことに留意されたい。例示イメージが変化を完全に、ただし質的にのみカバーしていることは期待できないため、ユーザが選択した許容範囲を適用することによって、ｌ_ij、ｈ_ij、およびΔψ_ijに関する値を適合させることができる。
階層型検索ツリーの算出
オンライン段階での本発明の戦略は、選択されたルート物体部分を検索範囲全体にわたって検索し、その後連続して、すでに見つけられた物体部分だけを基準にして残りの部分を検索することである。そのためには、現在の部分が相対的に検索されるすでに見つけられた物体部分のポーズに関して、現在の物体部分の基準点の検索範囲が変換される。検索労力Ωを計算するための数式は、選択された認識方法の計算時間がΩに対応して線形に増加するような方法で構築しなければならない。したがって、オンライン段階での検索時に累積されるΩの合計を最小にして、最適な検索戦略を見つけなければならない。

本発明の好ましい実施形態では、グラフ理論アルゴリズムを適用することによって、全体の認識時間を最小にする最適な検索戦略を計算することができる。物体部分は、頂点ｉとｊの間の有向円弧が対応する検索労力Ω_ijで重み付けされる、グラフ中の頂点と解釈される。したがって、完全連結有向グラフＤ＝（Ｖ，Ａ）が取得され、ここでＶはサイズ｜Ｖ｜＝ｎ_pの頂点セットを表し、Ａは｜Ａ｜＝ｎ_p（ｎ_p−１）の円弧セットを表す。各円弧ａ_ij∈Ａに重みΩ_ijが関連付けられる。Ｄの樹枝とは、どんな円弧の末端頂点でもないルートと呼ばれる特定の頂点があり、任意の他の頂点ｖ_iの場合は、末端頂点がｖ_iである厳密に１つの円弧があるような、Ｄのサブツリーのことである。Ｄの全域樹枝とは、Ｄのすべての頂点を含む樹枝のことである。したがって、最適な検索戦略を見つける際の問題は、以下のように、Ｄの全域樹枝Ｈ＝（Ｖ，Ｂ）を見つけることと等価である。

グラフ中で最小重みの全域樹枝を見つけるためのアルゴリズムが、Ｒ８に記載されている。ルート頂点は、異なる基準を使用して選択することができる。ルート頂点は、オンライン段階でなく検索イメージの全検索範囲内で、他の物体部分を基準とせずに検索される物体部分のみに対応しているため、オンライン段階の認識時間はルート部分の認識時間に大きく依存する。したがって、Ｒ２１に示された認識方法を使用する場合、大きな部品部分がルート部分であれば、検索のスピードを上げるためにさらに打切りステップが使用できるので好ましい。さらにルート部分は、オンライン段階での検索速度を低下させるオンライン段階でのあいまいさを避けるために、自己対称性または他の物体部分に類似していることがない。これら２つの基準は、本発明によって自動的に評価することができる。好ましい実施形態では、ルート部分は他の決定的役割を果たすものであり、ルート部分がないかまたは高度に閉塞していると物体全体が見つけられないため、オンライン段階での検索中にはルート部分が常に見つけられなければならない。したがって実際には、ユーザが第３の基準を評価しなければならない。代替実施形態では、後で検索するいくつかのルート部分を選択することができる。選択するルート部分の数は、オンライン段階中に物体を見つけるときの基になるユーザ定義の最大レベルの閉塞、ならびに見つけなければならない物体インスタンスのユーザ定義の最大数に依存する。ただし、選択するルート部分の数に応じて計算時間が増加する。

図１１は、最適な検索戦略の結果を示す図である。ここでは、ルート部分として上半身が選択された。したがって、全検索イメージ中で上半身が検索され、関係を考慮して上半身を基準に左腕が検索され、左腕を基準に左手が検索されるということになる。

最終的に階層型モデルは、物体部分モデル、部分間の関係、および最適な検索ストラテジからなる。
階層型モデルの検索
本発明に記載されたステップに従ってオフライン段階で階層型モデルが構築されると、これをオンライン段階で任意の検索イメージ中の物体を検索するのに使用することができる。本発明の好ましい実施形態では、閉塞、クラッタ、任意の照度変化、およびセンサノイズに対する強さ、ならびに高い認識精度およびリアルタイムでの計算などの、この類似尺度の特性を利用するために、（Ｓｔｅｇｅｒ、２００１）に示された類似尺度を使用して、検索イメージ中の階層型モデルの物体部分モデルが検索される。階層型モデルの同じ見つけられたインスタンスに属するすべての見つけられたモデル部分のポーズは、階層マッチに格納される。

第１のステップでは、検索イメージ中のルート物体部分が検索される。好ましい実施形態では、ルート物体部分の見つけられたそれぞれのインスタンスが、階層マッチの１つの潜在的候補を表す。代替実施形態では、見つからないかまたは閉塞されたルート物体部分のより高度な強さを保証するために、いくつかのルート物体部分が検索される。したがって、各ルート物体部分の見つけられたそれぞれのインスタンスは、階層マッチの１つの潜在的候補を表す。

第２のステップでは、各候補について検索ツリーの順に残りの物体部分が検索され、前述のように、物体部分間の関係に従って各物体部分の検索スペースが限られる。
１つの物体部分が見つからない場合、いくつかのストラテジを適用することができる。好ましい実施形態では、検索階層中の見つからない物体部分のすぐ下にある物体部分は、検索階層中で見つからない物体部分のすぐ上にあり、すでに見つかっている物体部分を基準にして検索される。最悪の場合、相対的検索を開始するためにルート物体部分が選択される。本発明の代替実施形態では、検索階層中で見つからない物体部分のすぐ下にある物体部分は、検索労力が最小のすでに見つかっている物体部分を基準にして検索される。本発明の他の代替実施形態では、検索階層中で見つからない物体部分の下にあるすべての物体部分は検索されず、見つからないものとしても扱われない。

１つの物体部分が複数回見つかる場合、好ましい実施形態では、現在の階層マッチ候補は見つかった物体部分のマッチ数に従って複製され、物体部分の各マッチは１つの階層マッチ候補に割り当てられる。検索は各階層マッチに対して続けられる。異なる階層マッチ候補中で同じ物体部分インスタンスに関して部分が何回も検索されるのを防ぐために、物体部分マッチは階層マッチ候補とは無関係に別々のリストに格納される。さらに、リスト中の各物体部分が検索されたときに基準となった物体部分が、リストに格納される。各階層マッチ候補は、ポインタを使用してリスト中のそれぞれの物体部分マッチを参照するだけである。検索された物体部分のマッチがすでにリストに格納されており、現在のマッチが検索されたときと同じ物体部分インスタンスを基準にして検索された場合、現在の物体部分は検索されず、リスト中のそれぞれの既存のマッチを指すポインタのみが階層マッチ候補に追加される。認識の速度を上げるために、各潜在的候補マッチの物体部分は一部だけ検索される。好ましい認識方法（Ｒ２１）と同様に、ほとんどの認識方法は、返されたマッチの品質を評価するスコア値ｓ∈「０；１」を返す。さらにユーザは、マッチが少なくとも返さなければならない最小のスコア値ｓ_minを指定することができる。本発明の好ましい実施形態では、各階層マッチについてスコア値ｓ^Hが以下のように計算される。

上式では以下のようになる。

ｓⁱは、認識方法によって介された物体部分ｉのスコアを示し（物体部分が見つからなかった、すなわちｓⁱ＜ｓ_minの場合、ｓⁱは０に設定される）、ｆⁱは、単一の物体部分のスコア値の寄与の平衡を保つ重み付け係数である。好ましい実施形態では、ｆⁱは物体部分ｉのサイズに比例する。代替実施形態では、ユーザは各物体部分について値ｆⁱを指定する。好ましい実施形態では、ユーザは階層マッチについて最小スコア値ｓ_min ^Hを指定する。したがって、以下の条件に合致すればいつでも、ｊのｎ_p物体部分が検索された後に、現在の潜在的階層候補マッチの検索を打切ることができる。

さらに、階層マッチ候補の見つけられたインスタンスは、他の階層マッチ候補と重複しすぎていないかどうかをチェックされる。本発明の好ましい実施形態では、２つの階層マッチ候補間の重複は、両方の階層マッチ候補について、物体部分インスタンスのすべての軸に位置合わせされた最小の囲み長方形のうち、軸に位置合わせされた最小の囲み長方形を決定することによってチェックされる。これら２つの長方形が重複している場合、より精密な重複部分が算出される。第１に、両方の階層マッチ候補について、各物体部分インスタンスの任意の向きの最小の囲み長方形が決定される。長方形が結合されて、各階層マッチ候補について１つずつ２つの領域を取得する。重複部分は、２つの結合された領域の交差部分と２つの結合された領域のうち小さい方との比として計算される。重複がユーザの供給する部分を超える場合、低い方のスコア値を有する階層マッチ候補が削除される。各物体部分に関する任意の向きの最小の囲み長方形の情報は、オフライン段階で算出することができる。オンライン段階で重複をチェックする場合、物体部分マッチのポーズパラメータに従って変換するだけでよく、これによって重複部分の係数計算が容易になる。

ｓ_min ^Hを超えるスコアを有する階層マッチ候補は階層マッチと解釈され、検索の結果としてユーザに返される。好ましい実施形態では、戻されたマッチは階層型モデルの見つけられた各インスタンスについてスコア値ｓ^Hを含み、各階層型モデル内で見つけられた各物体部分について、サブピクセルの精密な行および列の座標、配向角度、およびスコア値ｓⁱを含む。

以上、本発明のいくつかの特定の実施形態について詳細に述べてきたが、本発明の精神および範囲を逸脱することなく、好ましい実施形態に対する様々な修正が可能である。したがって、上記の説明は、添付の特許請求の範囲に示された内容を除き、本発明を制限することを意図するものではない。

物体例のモデルイメージおよび自動初期分解のためのユーザ定義の関心領域を示す図である。物体例のモデルイメージおよび手動初期分解のためのいくつかのユーザ定義の関心領域を示す図である。図１で紹介された物体の各部の相互の動きを示した一連の６つの例示イメージを示す図である。階層型モデル計算の単一のステップを示した本発明の好ましい実施形態を示す流れ図である。小さな初期構成要素の消去およびマージングを示す図である。モデルイメージの連結構成要素を基準として使用し、小さな初期構成要素の消去およびマージングを行った場合の、図１で紹介された物体の自動初期分解の結果を示すイメージである。初期構成要素はそのイメージエッジによって視覚化される。初期構成要素を識別するために、各構成要素に番号が割り当てられている。図７ａは、隣接するエッジの存在の下に、縮尺スペースにおけるイメージエッジの展開を示すプロットである。

図７ｂは、隣接するエッジを消去した後の図７ａのイメージエッジの展開を示すプロットである。
初期構成要素の自己対称性、初期構成要素間の相互類似性、または初期構成要素の例示イメージ中の他の構造体に対する類似性による、あいまいさを解決するために使用されるネットワークを示す図である。図６の初期構成要素に関する類似性行列を表すグラフである。各行列要素には、対応する２つの初期構成要素が同じ剛性物体部分に属する確率が含まれる。この行列は左右対称であるため、上部の三角行列のみが示されている。モデルイメージ（太字の境界線）中および３つの例示イメージ（上列のピクチャ）中の相対ポーズからの物体対（長方形および楕円形）間の関係の計算を示す図である。この例では長方形が基準とみなされ、楕円形の相対的動きは、楕円形を長方形によって定義された基準系（中列のピクチャ）に変換することによって計算される。全体の相対的向きは、角度の変化（左下ピクチャ中の円の黒い扇形）を示し、楕円のすべての基準点の任意の向きの最小の囲み長方形は、位置の変化（右下ピクチャ中の太字の長方形）とみなされる。階層型モデル生成の結果を示す図である。検索ツリーは、各物体部分に関する相対的検索範囲と共に視覚化される。位置検索範囲は四角形によって視覚化され、角度検索範囲は扇形によって視覚化される。

Claims

ａ）モデルイメージに基づいて構成要素にする初期物体分解を構築するステップと、
ｂ）前記モデルイメージに関して複数の例示イメージ中の前記構成要素の相対ポーズを決定するステップと、
ｃ）複数の構成要素が同一または同様の方法で例示イメージのシーケンスにわたって移動するかどうかを決定し、移動する場合はこうした構成要素をグループ化して、物体部分中のグループ化されていない構成要素と一緒にするステップと、
ｄ）各例示イメージ中の前記グループ化された構成要素の相対ポーズを決定するステップと、
ｅ）（e１）物体部分の各有向対に関する変化尺度を計算するステップと、
（e２）前記変化尺度に基づいて、階層型検索に含まれるすべての変化尺度の全体の合計を最小にする最適化基準を計算するステップと、
（e３）前記最適化基準に基づいて最適な階層型検索を計算するステップと、前記最適階層型検索は、相互の変化尺度を記載したグラフの最低全域樹皮を計算することによって、前記最適化基準に基づいて計算され、
前記（e１）、（e２）、（e３）の各ステップにより、階層の一番上にあるルート物体部分および階層の下位レベルにある複数の物体部分からなる階層型モデルを、物体部分の相対ポーズを考慮に入れる前記最適化基準を使用して、物体部分から形成するステップと、
ｆ）物体部分の各有向対について、第１の物体部分のポーズを基準として第２の物体部分の検索スペースを計算することにより、物体認識段階で使用される物体部分の関連する検索スペースを決定するステップと、前記検索スペースはｎ次元ポーズスペースにおける全例示イメージにわたるポーズに及び、ｎはポーズパラメータの数である、
を含む階層型モデルを構築するための方法。
前記初期物体分解はユーザによって実行される、請求項１に記載の方法。
前記初期物体分解はグループ化方法を使用して自動的に実行される、請求項１に記載の方法。
前記イメージエッジの連結構成要素は初期構成要素として使用される、請求項１、２、または３に記載の方法。
前記イメージエッジは、少なくともエッジの大きさを提供するエッジオペレータによって計算される、請求項１、２、３、または４に記載の方法。
前記エッジオペレータはソーベルオペレータである、請求項５に記載の方法。
前記構成要素の相対ポーズを決定するステップは、
ポーズ決定時に隣接する構成要素の影響をなくすステップをさらに含む、請求項１から６のいずれか一項に記載の方法。
前記相対ポーズを決定するステップは、
グレイ値相関に基づいた物体認識方法を類似性尺度として使用するステップを含む、請求項１から７のいずれか一項に記載の方法。
前記相対ポーズを決定するステップは、
幾何学的特徴に基づいた物体認識方法を類似性尺度として使用するステップを含む、請求項１から８のいずれか一項に記載の方法。
前記物体認識方法は一般化ハフ変換に基づくものである、請求項９に記載の方法。
前記物体認識方法はエッジ傾斜方向のドット積である、請求項９に記載の方法。
前記物体認識方法はハウスドルフ距離に基づくものである、請求項９に記載の方法。
最高の確率を有するマッチを選択することによってあいまいなマッチをなくすステップをさらに含む、請求項１から１２のいずれか一項に記載の方法。
前記モデルイメージに関して例示イメージ中で相対ポーズの最小の変化を発生させるマッチとなる最高の確率を有するマッチが選択される、請求項１３に記載の方法。
複数の構成要素が同一または同様の方法で例示イメージのシーケンスにわたって移動するかどうかを決定するステップは、
各例示イメージ中の各構成要素対について相対的な動きを計算するステップと、
例示イメージにわたる相対的な動きの統計値（平均、中間、または最大）を計算するステップと、
統計値を含む非類似性行列を計算するステップと、
残りの統計値がユーザ定義の閾値を超えるまで連続して前記非類似性行列をクラスタ化するステップとを含む、請求項１から１４のいずれか一項に記載の方法。
複数の構成要素が同一または同様の方法で例示イメージのシーケンスにわたって移動するかどうかを決定するステップは、
各例示イメージ中の各構成要素対について相対的な動きを計算するステップと、
統計方法を使用して２つの構成要素が同じ物体部分に属する確率を計算するステップと、
確率を含む類似性行列を計算するステップと、
残りの確率がユーザ定義の閾値よりも下になるまで連続して前記類似性行列をクラスタ化するステップとを含む、請求項１から１５のいずれか一項に記載の方法。
前記構成要素をグループ化するステップは、
請求項１５で計算された同じクラスタに含まれるすべての構成要素をマージングするステップを含む、請求項１から１４のいずれか一項に記載の方法。
前記構成要素をグループ化するステップは、
請求項１６で計算された同じクラスタに含まれるすべての構成要素をマージングするステップを含む、請求項１から１４のいずれか一項に記載の方法。
前記物体認識段階で使用される物体部分の相対検索スペースを決定するステップは、
物体部分の各有向対について、第１の物体部分のポーズを基準として第２の物体部分の検索スペースを計算するステップを含む、請求項１から１８のいずれか一項に記載の方法。
前記検索スペースは、ｎ次元のポーズスペース中のすべての例示イメージにわたってポーズの凸閉包であり、ｎはポーズパラメータの数を表す、請求項１から１９いずれか一項に記載の方法。
凸閉包を囲む幾何学形状を計算することによって前記検索スペースを拡大するステップをさらに含む、請求項２０に記載の方法。
ユーザ指定の許容範囲によって検索スペースを拡大するステップをさらに含む、請求項２０または２１に記載の方法。