JP4334301B2 - 階層型構成要素ベースの物体認識 - Google Patents

階層型構成要素ベースの物体認識 Download PDF

Info

Publication number
JP4334301B2
JP4334301B2 JP2003306847A JP2003306847A JP4334301B2 JP 4334301 B2 JP4334301 B2 JP 4334301B2 JP 2003306847 A JP2003306847 A JP 2003306847A JP 2003306847 A JP2003306847 A JP 2003306847A JP 4334301 B2 JP4334301 B2 JP 4334301B2
Authority
JP
Japan
Prior art keywords
image
components
calculating
search
pose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003306847A
Other languages
English (en)
Other versions
JP2004094954A (ja
Inventor
マルクス・ウルリヒ
カルステン・シュテガー
Original Assignee
エムヴイテック・ソフトウェア・ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エムヴイテック・ソフトウェア・ゲーエムベーハー filed Critical エムヴイテック・ソフトウェア・ゲーエムベーハー
Publication of JP2004094954A publication Critical patent/JP2004094954A/ja
Application granted granted Critical
Publication of JP4334301B2 publication Critical patent/JP4334301B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/754Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries involving a deformation of the sample pattern or of the reference pattern; Elastic matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、一般にマシンビジョンシステムに関し、より具体的には、相互に相手を基準に移動可能ないくつかの物体の部分からなる物体の視覚的認識に関する。
物体認識とは、多くのコンピュータ・ビジョン・アプリケーションの一部である。物体のイメージを物体のモデルと位置合わせしなければならないことの多い、産業用検査タスクに特に有用である。物体認識プロセスによって得られる変形(ポーズ)は、たとえばピック・アンド・プレース・オペレーション、品質管理、または検査など、様々なタスクに使用することができる。たいていの場合、物体のモデルは物体のイメージから生成される。たとえば3DのCADモデルなどのより複雑なモデルを作成するのには、費用または所要時間がかかりすぎる場合が多いことから、こうした純粋な2D方式が頻繁に使用される。したがって産業用検査タスクでは、通常、物体の2Dモデルをイメージにマッチングさせることに関心が寄せられる。マッチング方法の概説はR7に示されている(添付の参考文献リストを参照のこと)。最も簡単なクラスの物体認識方法は、モデルおよびイメージのグレイ値に基づくものである(R7、R16)。より複雑なクラスの物体認識では、たとえば平均エッジ距離(R6)、ハウスドルフ距離(R20)、または一般化ハフ変換(GHT)(R4)など、マッチングの際に物体のエッジを使用する。
上記の方法は、閉塞、クラッタ、任意の照度変化、およびセンサノイズに対する強さ、ならびに高い認識精度およびリアルタイムでの計算など、すべてが高度な産業向けの需要を同時に満たすものではない。フィーチャとしてエッジの方向を使用するR21に示された類似性尺度、ならびに遅い計算、大量のメモリ、およびGHTの限られた精度などの欠点を解消したGHTの修正(R24)は、産業向けの需要を満たすものである。標準的な認識方法との比較も含む広範囲な性能評価(R25)では、これら2つの方法が非常に有利であることが示されている。
上記のすべての認識方法は、共通して、見つけられた物体を表す何らかの形の剛体モデルを必要とする。ただし、いくつかのアプリケーションでは、剛体モデルの仮定が満たされない。順応性のある柔軟なマッチング方法(R3、R13、R5)では、医学でたとえば磁気共鳴映像法またはコンピュータ断層撮影法などに対処する際に表れる、変形可能な物体をマッチングさせることが可能である。特にロボット工学の分野では、関節を有する物体を認識するための方法(R11)も使用可能である。
実際のところ、品質管理または検査タスクなどの産業用アプリケーションの場合、任意の相互の動き、すなわち距離、向き、および縮尺の変化を示すいくつかの部分からなる物体を見つけることを除いて、弾力性があるかまたは関節を有する物体を見つけることはそれほど重要ではない。これらの変化は潜在的に、いくつかのスタンプを使用するタンポン印刷を適用する場合、または回路基板にトランジスタまたははんだ付けポイントを備え付ける場合など、プロセスが作為的または無作為に、互いに不十分に「位置合わせされた」いくつかの単一の手順に分けられる場合に必ず発生する。図1に物体の一例が示されている。図3には、物体の各部の相互の動き(変化)が示されている。この種の物体を剛体とみなす場合、従来の認識方法では見つけることができないのは明らかである。しかし、個々の部分を別々に見つけようとする場合には、全体のイメージ中の各部分を検索しなければならず、各部分の間の関係は考慮に入れられないため、検索には計算上かなりのコストがかかってしまう。関節を有する物体を考慮に入れると、関節の正確な位置調整はないが、相互の変化はより全般的になる可能性があるため、この問題はほとんど解決することができない。たとえば物体はいくつかの剛体部分からなる場合があるため、弾力性のある物体もこれらの動きをモデル化することができないのは明らかである。1つの可能な解決策は、各モデルがモデルの部分の1つの形状を表すようないくつかのモデルを生成すること、およびこれらのモデルをすべてイメージにマッチングさせることである。ただし、変化が大きい場合は、これは非常に効率が悪く、リアルタイムの計算には適していない。米国特許第6324299号(R1)では、複数の部分を有する物体を位置付けする方法が示されている。第1のステップでは物体の大まかなポーズが決定され、続くステップで、物体の部分の詳細なポーズが計算される。したがって、各部の変化は物体の大まかなポーズを見つけられる程度の小さなものでなくてはならないが、これに対して本発明では、変化は明示的にモデル化されるものであり、任意の形および任意の大きさであってよい。さらに米国特許第6324299号では、本発明で実行されるように変化がトレーニング段階で自動的に学習されることはない。米国特許第6411734号(R2)は、見つけられた物体の各部が、物体の各部のポーズに関する制限などのユーザが指定した要件を満たすものかどうかをチェックすることによって、米国特許第6324299号で提示された方法を拡張するものである。本発明の利点は、物体の各部は有効なポーズの範囲にわたって検索されるだけであり、したがって有効なインスタンスだけが返されるために、このチェックが省略できることである。
米国特許第6324299号 米国特許第6411734号 欧州特許出願第00120269.6号 Bajcsy,R., Kovacis,S.,1989. Multi-resolution elastic matching. Computer Version, Graphics, and Image Processing, 46(1): pp.1-21. Ballard, D.H., 1981. Generalizing the Hough transform to detect arbitrary shapes. Pattern Recognition, 13(2), pp.111-122. Belongie, S., Malik, J., Puzicha,J., 2002. Shape Matching and Object Recognition Using Shape Contexts, Transactions on Pattern Analysis and Machine Intelligence, 24(4), pp.509-522. Borgefors, G. 1988. Hierarchical chamfer matching: A parametric edge matching algorithm. IEEE Transactions on Pattern Analysis and Machine Intelligence, 10(6), pp.849-865. Brown,L.G., 1992. A survey of image registration techniques. ACM Computing Surveys,24(4), pp.325-376. Chu,Y.J. and Tseng-Hong, L., 1965. On the shortest arborescence of a directed graph. Scientia Sinica,14(10), pp.1396-1400. Chva'tal,V., 1983. Linear Programming, W.H.Freeman and Company, New York. Elder,J., 1999. "Are Edges Incomplete?". International Journal of Computer Vision, 34(2/3), pp.97-122. Hauck, A., Lanser, S., and Zierl, C., 1997. Hierarchical Recognition of Articulated Objects from Single Perspective Views. In: Proc. Computer Vision and Pattern Recognition (CVPR'97), IEEE Computer Society Press, pp.870-883. Huttenlocher, D.P.,Klanderman, and G.A., Rucklidge,W.J.,1993. Comparing Images using the Hausdorff Distance. IEEE Transactions on Pattern Analysis and Machine Intelligence, 15(9), pp.850-863. Jain,A.K., Zhong,Y., and Lakshmanan,S., 1996. Object matching using deformable templates. IEEE transactions on pattern analysis and machine intelligence, 18(3), pp.267-277. Koch,K.R., 1987. Prameterschatzung und Hypothesentests in linearen Modellen. Dummler, Bonn. Koffka, K., 1935. Principles of Gestalt Psychology. Harcourt Brace, New York. Lai,S. and Fang,M., 1999. Accurate and fast pattern localization algorithm for automated visual inspection. Real-Time Imaging, 5, pp.3-14. Lowe, D.G., 1985. Perceptual Organization and Visual Recognition, Kluwer Academics, Boston. Marr,D., 1982. Vision, W.H.Freeman and Company, San Francisco, CA. Murtagh,B.A., 1981. Advanced Linear Programming: Computation and Practice, McGraw-Hill, New York. Rucklidge, W.J., 1997. Efficiently locating objects using the Hausdorff distance. International Journal of Computer Vision, 24(3), pp.251-270. Steger,C., 2001. Similarity measures for occlusion, clutter, and illumination invariant object recognition. In: Mustererkennung 2001, B.Radig and S.Florczyk (eds), Springer, Berlin, pp.148-154. Ullman,S., 1979. The interpretation of visual motion. MIT Press, Cambridge, MA. Ulrich,M., Steger, C., Baumgartner,A., and Ebner,H., 2001. Real-time object recognition in digital images for industrial applications. In: 5th Conference on Optical 3-D Measurement Techniques, Vienna, Austria, pp.308-318. Ulrich,M., Steger, C., 2001. Empirical performance evalution of object recognition methods. In: Empirical Evaluation Methods in Computer Vision, H.I. Christensen and P.J.Phillips (eds), IEEE Computer Society Press, Los Alamitos, CA, pp.62-76. Wertheimer,M., 1938. Laws of Organization in Perceptual Forms. In: A Source Book of Gestalt Psychology, W.D.Ellis (ed), Harcourt Brace. Witkin,A.P. and Tenenbaum,J.M., 1983. On the Role of Structure in Vision. In: Human and Machine Vision, Jacob Beck and Barbara Hope and Azriel Rosenfeld (eds), Academic Press, New York. Rock, I. and Palmer,S., 1990. The legacy of Gestalt psychology. Scientific American, 263, pp.84-90.
本発明の目的は、物体が任意の方法で相互に相手を基準に移動できるいくつかの部分からなる、イメージ中の物体を認識するのに使用可能な階層型物体認識モデルを自動的に学習するための方法を提供することである。
したがって本発明は、物体各部の相互の動き(変化)が示されたいくつかの例示イメージを使用して物体を自動的に各部に分解し、その変化を解析するものである。好ましい実施形態では、単一の物体の各部が剛体であると想定されるため、変形は見られない。他の好ましい実施形態では、剛体の変換(並進および回転)のみが考慮に入れられる。したがって物体は、イメージ中で任意の位置および向きにある場合に見つけることができる。追加のポーズパラメータ、たとえば縮尺も、簡単な方法で考慮に入れることができる。
物体の各部の相互の変化が解析され、剛性物体の各部すべての表現、ならびに各部の関係を考慮しながら各部が互いに相対的に検索される階層型検索方法を含む、階層型モデルを構築する際に使用される。
この階層型モデルの生成がオフライン段階と呼ばれ、1回実行しなければならないだけであるため時間は重要でない。しかし時間が重要なオンライン段階では、物体はイメージ中で検索され、階層型モデルが非常に効率的な検索を容易にする。
図4の流れ図には、階層型モデル計算の単一ステップが示されている。提案されたアルゴリズムの入力データのみが、物体がたとえば関心領域(ROI)を使用してユーザによって定義される物体のサンプルイメージ(モデルイメージ)、ならびに少なくとも質的に単一物体の各部の相互の動きを記述する何らかの追加の例示イメージである。
第1のステップは、モデルイメージ中でROIによって定義された物体を、小さな初期構成要素に分解することである。これらの構成要素は、実際の物体各部と一致する必要がないことに留意されたい。たとえば、イメージエッジの接続された構成要素が分解の基準として使用される場合、結果として図1の例からは、1つの帽子、1つの顔、2本の腕、2つの手、2本の脚、2つの足、上半身の外側の四角形、上半身の内側の四角形、および上半身上に印刷された各文字につき少なくとも1つの構成要素という、構成要素が生じることになる。各初期構成要素について、例示イメージ中でその初期構成要素の検索に使用できる表現が算出される。この表現は初期構成要素モデルと呼ばれ、少なくとも剛体の変換(並進および回転)の下で物体を見つけることができる任意の認識方法を使用して構築することができる。本発明の好ましい実施形態では、イメージエッジに基づいた認識方法が使用される。さらに、産業向けの需要が満たされれば、R21または欧州特許出願第00120269.6号の「物体認識のためのシステムおよび方法(System and method for object recognition)」(R22)に記載された類似性尺度、あるいは修正ハフ変換(R24)が好ましいものとする。
各初期構成要素は、すべての例示イメージ中で初期構成要素モデルを使用して検索される。このようにして、各例示イメージ中の各初期構成要素のポーズパラメータが取得される。これらのパラメータが解析され、剛性の物体各部を形成するそれらの初期構成要素がクラスタ化されて、さらに物体各部に対応して最終的に分解される。図1および図3の例では、帽子および顔が各イメージ中で同じ動きを示すことから、1つの剛体部分にクラスタ化される。同じことが、上半身部分を形成するすべての初期構成要素にもあてはまる。これらも1つの剛体部分にクラスタ化される。新しく生成された(クラスタ化された)各部分について、初期構成要素の場合と同じ認識方法を適用することによって表現が算出される。この表現は物体部分モデルと呼ばれる。例示イメージ中で新しく生成された物体の各部を検索する際に使用される。クラスタ化されていない初期構成要素モデルが、変更されずに物体部分モデルとして使用される。したがって、各物体部分は1つの物体部分モデルによって記述される。剛性物体部分の各対間の関係(相対的動き)は、例示イメージのシーケンスを介してポーズパラメータを解析することによって算出され、完全連結有向グラフに格納されるが、ここで頂点は物体の各部を表し、頂点iとjの間のリンクは部分iを基準とした部分jの動き全体を示す。グラフの最も短い樹枝を計算することによって、検索の手間を最小限にするという意味で最適な検索戦略を組み込んだ階層型検索ツリーを確かめることができる。最終的に階層型モデルは、物体部分モデル、物体各部間の関係、および最適な検索戦略で構成される。
オンライン段階では、次に階層型モデルを使用して、任意の検索イメージ中の移動可能オブジェクト部分を含む物体全体を検索することができる。これは、選択された類似性尺度の物体部分モデルを使用して、イメージ中の物体各部を検索することによって実行される。全検索範囲内で1つの物体部分だけを検索しなければならないが、残りの物体部分は、検索ツリーとの組合の関係によって確定される非常に限られた検索スペースの中で検索することができる。これにより、物体各部の相対的な動きにもかかわらず、効率的な検索が容易になる。
本発明は、添付の図面と共に以下の詳細な説明を読めばよりよく理解されよう。
初期分解
本発明の第1のステップでは、物体は初めに小さな構成要素に解体される。これは、自動的またはユーザによって対話的に実行することができる。初期分解が満たさなければならない条件は、剛性物体の各部を少なくとも1つの初期構成要素によって表さなければならないということであり、そうでなければアルゴリズムが後でこの構成要素を分割し、剛性の物体各部を自動的に見つけることができない。したがって、全体のセグメント化が好ましい。ただし、非常に小さな初期構成要素は性質が固有でなくなってしまうが、これは後で示すように、本発明によって考量することができる。
ユーザが初期分解を自動的に行うように選択する場合は、物体全体を関心領域(ROI)で定義しなければならない。ROIとは、その後の処理のためにイメージの領域を制限する、任意に形作られたイメージの部分のことである。図1の例では、ROIは物体全体を囲む長方形である。ROIで定義されたイメージ領域は、その後初期分解を実行する際に使用される。このタスクに好適ないくつかのグループ化方法が文献に見られる。本発明の好ましい実施形態では、モデルイメージ中のエッジは、たとえばソーベルフィルタなどのエッジフィルタの振幅に関する閾値を適用することによって抽出される。エッジの連結された構成要素は、個々の初期構成要素として処理される。好ましい実施形態では、ユーザ定義の閾値よりも小さな初期構成要素は、ノイズによるかまたは例示イメージ中で識別するのが困難なことによる無意味な初期構成要素を避けるために、消去されるか隣接する構成要素にマージされる。第1のステップでは、初期構成要素のサイズ、たとえばエッジピクセルの数が計算される。ユーザ定義の閾値よりもサイズが小さい場合、現在の初期構成要素を隣接する構成要素にマージ(組合せ)できるかどうかをチェックしなければならない。マージングが不可能な場合、初期構成要素は消去される。チェックは、現在の初期構成要素中のすべてのエッジピクセルから、ユーザ定義の閾値よりもサイズの大きい他のすべての初期構成要素までの距離を計算することによって実行される。すべてのエッジピクセルから比較される構成要素までの最大距離が閾値よりも小さい場合、これら2つの構成要素が共に属する確率は高い。したがって、現在の初期構成要素は比較される構成要素にマージされる。図5の左上のピクチャに、モデルイメージが示されている。図5の右上のピクチャは、イメージ内にイメージノイズが存在しないという仮定の下でのエッジ抽出ステップの結果である。図5の左下のピクチャは、ある程度のノイズを含む実際のイメージを処理する場合の、エッジ抽出ステップの結果を示す図である。初期分解の第1のステップの結果、7つの独立した構成要素になる。構成要素2、3、4、5、6、および7のサイズはユーザ定義の閾値よりも小さい。図5の右下のピクチャには、消去およびマージングの結果が示されている。構成要素2、3、4、および5は、最大距離d1が事前に定義された閾値よりも小さいため、構成要素1に付属している。構成要素6および7は、最大距離d2が事前に定義された閾値を超えるため、消去される。図6では、図1で紹介された物体の初期構成要素が視覚化される。
前述のように、初期分解を実行するために、他のグループ化方法またはそれらの組合せを本発明に含めることもできる。ゲシュタルト心理学は、視覚領域内でグループ化プロセスを導く一組の原理を発見した(R26、R15、R28)。コンピュータビジョンは、たとえば知覚の編成およびグループ化(R23、R18、R27、R17)の分野で、これらの原理を利用したものである。
ユーザが初期分解を手動で実行するように選択した場合、ユーザは1つのROIを指定するだけでなく、各初期構成要素について別々のROIを指定しなければならない。指定されたROI内で抽出されたすべてのエッジは、その後1つの初期構成要素として処理される。したがって、ユーザの以前の知識を利用することができる。図2の例では、ユーザによって合計11のROIが定義されている。選択されたROIは、上半身が1つの剛性物体部分を形成しているとユーザが確信したこと、および頭と顔が1つの剛性物体部分を形成しているかどうかは確信していないことを暗示している。
初期構成要素モデルの生成
次のステップでは、初期構成要素モデルが算出される。本発明の好ましい実施形態では、初期構成要素モデルを算出し、例示イメージ中で初期構成要素を検索するための認識方法として、R21に示された類似性尺度の実施が使用される。この方法では、従来のほとんどの物体認識方法の実施と同様に、認識速度を上げるために帰納的な粗から精への戦略を使用する。これには、モデルイメージと検索イメージの両方のサブサンプリングと共に、両方のイメージの目盛り空間表現につながる適切なイメージ平滑化が含まれる。ただし、好ましくない目盛り空間効果には注意しなければならない。目盛り空間では、初期構成要素のエッジは隣接するエッジの影響を受ける。大きな物体を取り扱うときには、隣接するエッジの影響を受けない物体のエッジが十分に残されていることから依然として適切なマッチングが可能であるため、ほとんどの場合にこれは重要でない。ただし、初期構成要素などの小さな物体を取り扱うときには、初期構成要素中のエッジピクセルの数と隣接するエッジピクセルの数の比が小さくなる、すなわち隣接するエッジの影響が増加するため、何らかの問題が発生する。図7aおよび7bに、目盛り空間効果の原理が示されている。図7aには、2本のエッジを含む1Dのグレイ値プロファイルが示されている。左側のエッジのみが初期構成要素に属しているため、初期構成要素モデル内に示されるのに対して、右側のエッジは隣接エッジを表している。目盛り空間では、隣接エッジによって生じるモデルエッジの妨害が平滑化の度合いに応じて増加する(シグマ)。この問題は、認識方法で目盛り空間表現が使用されなければ避けることができる。ただし、その場合には計算時間の増加につながるので好ましくない。したがって、隣接する妨害エッジをなくすために、初期構成要素エッジの両側のグレイ値が人工的に周囲の領域に連続される。すべての妨害エッジをなくすために、適切な周囲の領域サイズを選択しなければならない。たとえば、2つの連続する打切りステップ内で4つの隣接ピクセルが1つにマージングされる、ステップの合計数がlの方法で、目盛り空間打切りが使用される場合、すべての隣接エッジからの影響を完全になくすために、初期構成要素エッジの両側のグレイ値は、少なくとも2lピクセルずつ連続させなければならない。その結果が図7bに示されている。これでモデルエッジは隣接エッジに妨害されなくなる。他のより高度な方法では、エッジを明示的にモデリングし、その後エッジの周囲でグレイ値を再構築する(R10)。これらは本発明に容易に組み込むことができる。
各書記構成要素の妨害エッジが消去された後、初期構成要素モデルが構築される。隣接する初期構成要素が現在の初期構成要素以外に同じ剛性物体部分に属することができるため、(隣接する初期構成要素に属する)隣接エッジは、現在の初期構成要素を基準として同じ位置にある例示イメージにも存在することになる。したがって、各初期構成要素について、あらかじめ隣接エッジを消去することなく、第2の初期構成要素モデルが構築される。これにより、すべてのマッチが例示イメージ中で見つけられる可能性が高くなる。初期構成要素の検索がマッチを重複させるという結果は、以下の項で説明するアルゴリズムを使用して補償されるので、重大なことではない。基本的に、オフライン段階中の誤った肯定または二重のマッチは、マッチがないことに比べて好ましい。
初期構成要素モデルの検索
初期構成要素モデルは、選択された認識方法を使用して各例示イメージで初期構成要素を検索するのに使用される。こうして、各例示イメージ中の各構成要素iのすべてのポーズPiが取得される。好ましい実施形態では、位置とは、たとえば初期構成要素内のエッジピクセルの重心などの初期構成要素モデルの任意の基準点のことである。向きとは、モデルイメージ中の初期構成要素の向きのことであり、すなわちモデルイメージ中の各初期構成要素の向きは0°である。ポーズPiには、隣接エッジを消去した後に構築された初期構成要素モデルを検索する際に取得されたポーズ、ならびにあらかじめ隣接エッジを消去することなく構築された初期構成要素モデルを検索する際に取得されたポーズが含まれる。
小さな初期構成要素を検索する際には、エッジの妨害の問題以外の別の問題も生じる。初期構成要素の自己対称性、初期構成要素間の相互類似性、または初期構成要素の例示イメージ中の他の構造体に対する類似性により、検索結果が固有でない可能性がある。さらに多くの場合、各初期構成要素の検索に2つの初期構成要素モデルが使用されるため、マッチの数が2倍になる。これら2つの問題は、以下の段落に示された同じアルゴリズムを使用して解決することができる。アルゴリズムをできるだけ単純に記述しておくために、2つの初期構成要素モデルを使用する第2の問題については無視する。図1の例では、たとえば左脚は第1の例示イメージ(図3の左上イメージ)で、左脚の正しい位置、右脚の位置、ならびにそれぞれ向き0°および180°の4回見られる(図8参照)。したがって、これらのあいまいさを解決するためには、各構成要素について最も可能性の高いポーズをとることが不可欠である。nを初期構成要素の数とし、Miをモデルイメージ中の構成要素iのポーズとする(i=1、...n)。例示イメージ中の初期構成要素iのマッチkで表されるポーズはEi kと記述され、ここでk=1、...niであり、niは現在の例示イメージ中の構成要素iのマッチ(見つけられたインスタンス)数である。あいまいさは、各初期構成要素が多くても1つの物理マッチに帰するものであり、各物理マッチが多くても1つの初期構成要素に記するものであるという、2つの制約を考慮しながら、以下の数式を最小にすることで解決される。
Figure 0004334301
物理マッチとは、初期構成要素の例示イメージへの実際のまたは物理的なマッチのことであり、すなわち前述のあいまいさにより、1つの物理マッチが認識方法によって返されたいくつかのマッチによって占有される場合がある。δi kは、構成要素iのマッチkの変化尺度であり、Ψは、例示イメージ中の構成要素iのマッチkに対する構成要素jのマッチlの相対ポーズを、モデルイメージ中の2つの構成要素の相対ポーズと比較することによって評価する、コスト関数である。例示イメージ中の現在の相対ポーズがモデルイメージ中の相対ポーズと異なれば異なるほど、コスト値は大きくなる。本発明の好ましい実施形態では、Ψは相対位置Δposおよび相対向きΔorient中の差異を考慮に入れるが、位置の差異はピクセルで測定され、向きの差異は度で測定される。2つの測定値をコスト関数Ψに結合できるようにするために、以下の数式を導く2つの測定値の相対的影響の平衡を保たせる平衡係数wが導入される。
Figure 0004334301
任意選択で、Ψを厳密に単調に増加する任意の他の関数にマッピングすることが可能である。好ましい実施形態では、変化を小さくするために有利に働く対数が算出される。各追加パラメータに対して別々の平衡係数を導入することにより、追加のポーズパラメータ(たとえば縮尺)を簡単に含めることができる。
数式1の最小化は、見かけの動きに関する対応問題が全体の変化を最小にすることによって解決される、人の知覚の原理に従うものである(R23)。2つの制約を考慮しながら数式1を解くために、問題は、たとえば線形計画法技法を適用することで解決できる2部グラフマッチング問題として公式化される。図8に示されるように、2部グラフの1つのセットNcomp中のノードが初期の構成要素を表し、他のセットNphys中のノードが物理マッチを表す。各マッチは、グラフ中の1つのリンクで表される。マッチが例示イメージ中の同じ物理マッチを指すものかどうかをチェックするために、初期構成要素の自己対称性ならびに初期構成要素間の相互類似性についての情報を考慮しなければならない。この情報は、選択された認識方法の類似性尺度を予備段階で使用して、各初期構成要素をそれ自体および他のすべての構成要素とマッチングさせることによって得られる。これらマッチのポーズを使用して、例示イメージ中の2つのマッチが同じ物理マッチを指しているかどうかを判別することができる。2部グラフ内の各エッジは1つの別々のマッチに対応し、対応するδi kの値が割り当てられる。これで、最大化(最適化)しなければならない目的関数zが次のように設定できる。
Figure 0004334301
i kは最適化における未知数であり、初期構成要素iのマッチkが解に含まれる場合はxi kは1であり、それ以外の場合は0である。マッチ数を最大にしなければならないため、変化δi k(最小でなければならない)は重みδmax−δi k(最大でなければならない)に変換しなければならず、この式でδmaxは、δmax>δi k ∀{i,k|1≦i≦n,1≦k≦ni}となるような定数値である。さらに、いくつかの制約を示し、最適化に導入しなければならない。
Figure 0004334301
∀は物理的マッチ、ここでは少なくとも2つのxi kが現物理的マッチに割り当てられる。
最初の2つの制約(数式5および6)は、すべてのxi kが解において値1または値0のいずれかを有すること、すなわち、初期構成要素iのマッチkが解の一部であるかまたは一部でないか、のいずれかであることを保証するものである。第3の制約(数式7)は、各初期構成要素が多くても1つのマッチに割り当てられることを保証するものである。第4の制約(数式8)は、各物理マッチが多くても1つの初期構成要素に割り当てられることを保証するものである。この線形計画法問題は異なるアルゴリズム、たとえばシンプレックス法によって解決することが可能であり、文献から入手可能である(R9、R19)。各例示イメージのあいまいさが個別に解決される。
初期構成要素のクラスタ化
初期分解は全体のセグメント化につながるため、同じ剛性物体部分に属する初期構成要素は、以前のステップで取得されたポーズパラメータを解析することによって、より大きなクラスタにマージしなければならない。すべての例示イメージにわたって同様の見かけの動きを示す初期構成要素は、一緒にクラスタ化される。
第1に、同じ剛性物体部分に属する2つの初期構成要素の2つ1組の確率が計算される。M1=(x1 M、y1 M、ψ1 M)、M2=(x2 M、y2 M、ψ2 M)、E1=(x1 E、y1 E、ψ1 E)、およびE2=(x2 E、y2 E、ψ2 E)を、モデルイメージ中および例示イメージ中の2つの初期構成要素のポーズとする。モデルイメージ中の向きが基準とされるため、一般性を失うことなくψ1 Mおよびψ2 Mは0に設定される。モデルイメージ中の2つの初期構成要素の相対位置は、ΔxM=x2 M−x1 MおよびΔyM=y2 M−y1 Mで表される。例示イメージ中の相対位置ΔxEおよびΔyEについても同様である。モデルイメージ中および例示イメージ中の相対位置を比較できるようにするために、例示イメージ中の相対位置を以下のように回転させて基準の向きに戻さなければならない。
Figure 0004334301
使用された認識方法がポーズパラメータの精度情報をさらに戻す場合、誤り伝播の法則を使用して相対位置の精度が算出される。それ以外の場合、精度は経験的に指定されるものとする。次に、以下の仮説を示すことができる。
Figure 0004334301
この仮説が正しい確率は、両方の初期構成要素が同じ剛性物体部分に属する確率に対応する。これは、たとえばR14に示されたような仮説試験に関する数式を使用して算出することができる。これはすべての物体対およびすべての例示イメージに対して実行され、対称類似性行列を生み出すものであって、ここに、行iおよび列jで初期構成要素iおよびjが同じ剛性物体部分に属する確率が格納される。好ましい実施形態では、行列中のエントリがすべての例示イメージにおける確率の最小値に対応する。ミスマッチに対してより高い強さを得るために、最小値の代わりに平均値または他の統計値を使用することができる。図9には、図1および図3で与えられた例に関する類似性行列が示されている。帽子と顔が一緒に属している確率、および上半身部分の初期構成要素が剛性物体部分を形成している確率が高いことがわかる。
この類似性行列に基づき、たとえば、類似性が最も高い2つのエンティティを残りの類似性の最大値が事前定義された閾値よりも小さくなるまで連続してマージする、2つ1組でのクラスタ化戦略を使用して、初期構成要素がクラスタ化される。他のクラスタ化技法も本発明に簡単に組み込むことができる。
物体部分モデルの生成および検索
前述のように、新しくクラスタ化された構成要素に関する認識方法のモデルが作成され、すべての例示イメージ中で検索される。これにより、新しくクラスタ化された構成要素のポーズとして、クラスタ内の各初期構成要素の単一の初期ポーズの平均を取る際に、誤りが生じるのを防ぐことができる。ただし、この情報を活用して、例示イメージ中で新しくクラスタ化された構成要素の基準点および配向角度について概数値を算出することによって、検索スペースを減らすことができる。このステップの後、各剛性物体部分について物体部分モデルが使用可能であり、各イメージ中の各物体部分に関するポーズパラメータが算出される。
物体部分間の関係の算出
クラスタ化された構成要素のポーズパラメータ、すなわち剛性物体部分が解析され、部分iとjの間の2つ1組の関係が導出される(ここではi=1、...、npおよびj=1、...、npであり、npは物体部分の数である)。そのために、各イメージでは物体部分iのポーズがローカル座標系を定義し、この座標系では物体部分jのポーズが算出される。好ましい実施形態では、すべての例示イメージのローカル座標系において物体部分jのすべての向きを囲む角度範囲は、物体部分iを基準にした物体部分jの角度変化を表す。好ましい実施形態では、対応する位置変化は、すべての例示イメージのローカル座標系において物体部分jの基準点の任意の向きの最小の囲み長方形で記述される。任意の向きの最小の囲み長方形と並んで、たとえば、軸に位置合わせされた最小の囲み長方形、凸閉包、最小の囲み円、または2D平面内の点セットの他の任意の記述など、他の記述を代わりに使用することができる。この原理は、図10に例示されている。
角度変化および位置変化に加え、さらに関係情報は、相対角度および相対位置の平均および標準偏差などの統計値を含むことができる。この情報は、整列した各物体対について算出される。全体を検索する労力を最小限にする最適な検索戦略を見つけるためには、物体部分iのポーズがわかっている場合に物体部分jを検索するために費やさなければならない検索労力Ωijを量子化する尺度を定義しなければならない。好ましい実施形態では、検索努力は以下のように定義され、この式で、lijおよびhijはそれぞれ最小の囲み長方形の長さおよび高さであって、部分iを基準にした部分jの位置変化を記述しており、Δψijは対応する角度変化を指定するものである。
Figure 0004334301
検索労力の計算は、選択された物体認識方法に大幅に依存するものであり、個々に適合させなければならない。Ωは左右対称でないこと、すなわちΩijは必ずしもΩjiに等しくないことに留意されたい。例示イメージが変化を完全に、ただし質的にのみカバーしていることは期待できないため、ユーザが選択した許容範囲を適用することによって、lij、hij、およびΔψijに関する値を適合させることができる。
階層型検索ツリーの算出
オンライン段階での本発明の戦略は、選択されたルート物体部分を検索範囲全体にわたって検索し、その後連続して、すでに見つけられた物体部分だけを基準にして残りの部分を検索することである。そのためには、現在の部分が相対的に検索されるすでに見つけられた物体部分のポーズに関して、現在の物体部分の基準点の検索範囲が変換される。検索労力Ωを計算するための数式は、選択された認識方法の計算時間がΩに対応して線形に増加するような方法で構築しなければならない。したがって、オンライン段階での検索時に累積されるΩの合計を最小にして、最適な検索戦略を見つけなければならない。
本発明の好ましい実施形態では、グラフ理論アルゴリズムを適用することによって、全体の認識時間を最小にする最適な検索戦略を計算することができる。物体部分は、頂点iとjの間の有向円弧が対応する検索労力Ωijで重み付けされる、グラフ中の頂点と解釈される。したがって、完全連結有向グラフD=(V,A)が取得され、ここでVはサイズ|V|=npの頂点セットを表し、Aは|A|=np(np−1)の円弧セットを表す。各円弧aij∈Aに重みΩijが関連付けられる。Dの樹枝とは、どんな円弧の末端頂点でもないルートと呼ばれる特定の頂点があり、任意の他の頂点viの場合は、末端頂点がviである厳密に1つの円弧があるような、Dのサブツリーのことである。Dの全域樹枝とは、Dのすべての頂点を含む樹枝のことである。したがって、最適な検索戦略を見つける際の問題は、以下のように、Dの全域樹枝H=(V,B)を見つけることと等価である。
Figure 0004334301
グラフ中で最小重みの全域樹枝を見つけるためのアルゴリズムが、R8に記載されている。ルート頂点は、異なる基準を使用して選択することができる。ルート頂点は、オンライン段階でなく検索イメージの全検索範囲内で、他の物体部分を基準とせずに検索される物体部分のみに対応しているため、オンライン段階の認識時間はルート部分の認識時間に大きく依存する。したがって、R21に示された認識方法を使用する場合、大きな部品部分がルート部分であれば、検索のスピードを上げるためにさらに打切りステップが使用できるので好ましい。さらにルート部分は、オンライン段階での検索速度を低下させるオンライン段階でのあいまいさを避けるために、自己対称性または他の物体部分に類似していることがない。これら2つの基準は、本発明によって自動的に評価することができる。好ましい実施形態では、ルート部分は他の決定的役割を果たすものであり、ルート部分がないかまたは高度に閉塞していると物体全体が見つけられないため、オンライン段階での検索中にはルート部分が常に見つけられなければならない。したがって実際には、ユーザが第3の基準を評価しなければならない。代替実施形態では、後で検索するいくつかのルート部分を選択することができる。選択するルート部分の数は、オンライン段階中に物体を見つけるときの基になるユーザ定義の最大レベルの閉塞、ならびに見つけなければならない物体インスタンスのユーザ定義の最大数に依存する。ただし、選択するルート部分の数に応じて計算時間が増加する。
図11は、最適な検索戦略の結果を示す図である。ここでは、ルート部分として上半身が選択された。したがって、全検索イメージ中で上半身が検索され、関係を考慮して上半身を基準に左腕が検索され、左腕を基準に左手が検索されるということになる。
最終的に階層型モデルは、物体部分モデル、部分間の関係、および最適な検索ストラテジからなる。
階層型モデルの検索
本発明に記載されたステップに従ってオフライン段階で階層型モデルが構築されると、これをオンライン段階で任意の検索イメージ中の物体を検索するのに使用することができる。本発明の好ましい実施形態では、閉塞、クラッタ、任意の照度変化、およびセンサノイズに対する強さ、ならびに高い認識精度およびリアルタイムでの計算などの、この類似尺度の特性を利用するために、(Steger、2001)に示された類似尺度を使用して、検索イメージ中の階層型モデルの物体部分モデルが検索される。階層型モデルの同じ見つけられたインスタンスに属するすべての見つけられたモデル部分のポーズは、階層マッチに格納される。
第1のステップでは、検索イメージ中のルート物体部分が検索される。好ましい実施形態では、ルート物体部分の見つけられたそれぞれのインスタンスが、階層マッチの1つの潜在的候補を表す。代替実施形態では、見つからないかまたは閉塞されたルート物体部分のより高度な強さを保証するために、いくつかのルート物体部分が検索される。したがって、各ルート物体部分の見つけられたそれぞれのインスタンスは、階層マッチの1つの潜在的候補を表す。
第2のステップでは、各候補について検索ツリーの順に残りの物体部分が検索され、前述のように、物体部分間の関係に従って各物体部分の検索スペースが限られる。
1つの物体部分が見つからない場合、いくつかのストラテジを適用することができる。好ましい実施形態では、検索階層中の見つからない物体部分のすぐ下にある物体部分は、検索階層中で見つからない物体部分のすぐ上にあり、すでに見つかっている物体部分を基準にして検索される。最悪の場合、相対的検索を開始するためにルート物体部分が選択される。本発明の代替実施形態では、検索階層中で見つからない物体部分のすぐ下にある物体部分は、検索労力が最小のすでに見つかっている物体部分を基準にして検索される。本発明の他の代替実施形態では、検索階層中で見つからない物体部分の下にあるすべての物体部分は検索されず、見つからないものとしても扱われない。
1つの物体部分が複数回見つかる場合、好ましい実施形態では、現在の階層マッチ候補は見つかった物体部分のマッチ数に従って複製され、物体部分の各マッチは1つの階層マッチ候補に割り当てられる。検索は各階層マッチに対して続けられる。異なる階層マッチ候補中で同じ物体部分インスタンスに関して部分が何回も検索されるのを防ぐために、物体部分マッチは階層マッチ候補とは無関係に別々のリストに格納される。さらに、リスト中の各物体部分が検索されたときに基準となった物体部分が、リストに格納される。各階層マッチ候補は、ポインタを使用してリスト中のそれぞれの物体部分マッチを参照するだけである。検索された物体部分のマッチがすでにリストに格納されており、現在のマッチが検索されたときと同じ物体部分インスタンスを基準にして検索された場合、現在の物体部分は検索されず、リスト中のそれぞれの既存のマッチを指すポインタのみが階層マッチ候補に追加される。認識の速度を上げるために、各潜在的候補マッチの物体部分は一部だけ検索される。好ましい認識方法(R21)と同様に、ほとんどの認識方法は、返されたマッチの品質を評価するスコア値s∈「0;1」を返す。さらにユーザは、マッチが少なくとも返さなければならない最小のスコア値sminを指定することができる。本発明の好ましい実施形態では、各階層マッチについてスコア値sHが以下のように計算される。
Figure 0004334301
上式では以下のようになる。
Figure 0004334301
iは、認識方法によって介された物体部分iのスコアを示し(物体部分が見つからなかった、すなわちsi<sminの場合、siは0に設定される)、fiは、単一の物体部分のスコア値の寄与の平衡を保つ重み付け係数である。好ましい実施形態では、fiは物体部分iのサイズに比例する。代替実施形態では、ユーザは各物体部分について値fiを指定する。好ましい実施形態では、ユーザは階層マッチについて最小スコア値smin Hを指定する。したがって、以下の条件に合致すればいつでも、jのnp物体部分が検索された後に、現在の潜在的階層候補マッチの検索を打切ることができる。
Figure 0004334301
さらに、階層マッチ候補の見つけられたインスタンスは、他の階層マッチ候補と重複しすぎていないかどうかをチェックされる。本発明の好ましい実施形態では、2つの階層マッチ候補間の重複は、両方の階層マッチ候補について、物体部分インスタンスのすべての軸に位置合わせされた最小の囲み長方形のうち、軸に位置合わせされた最小の囲み長方形を決定することによってチェックされる。これら2つの長方形が重複している場合、より精密な重複部分が算出される。第1に、両方の階層マッチ候補について、各物体部分インスタンスの任意の向きの最小の囲み長方形が決定される。長方形が結合されて、各階層マッチ候補について1つずつ2つの領域を取得する。重複部分は、2つの結合された領域の交差部分と2つの結合された領域のうち小さい方との比として計算される。重複がユーザの供給する部分を超える場合、低い方のスコア値を有する階層マッチ候補が削除される。各物体部分に関する任意の向きの最小の囲み長方形の情報は、オフライン段階で算出することができる。オンライン段階で重複をチェックする場合、物体部分マッチのポーズパラメータに従って変換するだけでよく、これによって重複部分の係数計算が容易になる。
min Hを超えるスコアを有する階層マッチ候補は階層マッチと解釈され、検索の結果としてユーザに返される。好ましい実施形態では、戻されたマッチは階層型モデルの見つけられた各インスタンスについてスコア値sHを含み、各階層型モデル内で見つけられた各物体部分について、サブピクセルの精密な行および列の座標、配向角度、およびスコア値siを含む。
以上、本発明のいくつかの特定の実施形態について詳細に述べてきたが、本発明の精神および範囲を逸脱することなく、好ましい実施形態に対する様々な修正が可能である。したがって、上記の説明は、添付の特許請求の範囲に示された内容を除き、本発明を制限することを意図するものではない。
物体例のモデルイメージおよび自動初期分解のためのユーザ定義の関心領域を示す図である。 物体例のモデルイメージおよび手動初期分解のためのいくつかのユーザ定義の関心領域を示す図である。 図1で紹介された物体の各部の相互の動きを示した一連の6つの例示イメージを示す図である。 階層型モデル計算の単一のステップを示した本発明の好ましい実施形態を示す流れ図である。 小さな初期構成要素の消去およびマージングを示す図である。 モデルイメージの連結構成要素を基準として使用し、小さな初期構成要素の消去およびマージングを行った場合の、図1で紹介された物体の自動初期分解の結果を示すイメージである。初期構成要素はそのイメージエッジによって視覚化される。初期構成要素を識別するために、各構成要素に番号が割り当てられている。 図7aは、隣接するエッジの存在の下に、縮尺スペースにおけるイメージエッジの展開を示すプロットである。
図7bは、隣接するエッジを消去した後の図7aのイメージエッジの展開を示すプロットである。
初期構成要素の自己対称性、初期構成要素間の相互類似性、または初期構成要素の例示イメージ中の他の構造体に対する類似性による、あいまいさを解決するために使用されるネットワークを示す図である。 図6の初期構成要素に関する類似性行列を表すグラフである。各行列要素には、対応する2つの初期構成要素が同じ剛性物体部分に属する確率が含まれる。この行列は左右対称であるため、上部の三角行列のみが示されている。 モデルイメージ(太字の境界線)中および3つの例示イメージ(上列のピクチャ)中の相対ポーズからの物体対(長方形および楕円形)間の関係の計算を示す図である。この例では長方形が基準とみなされ、楕円形の相対的動きは、楕円形を長方形によって定義された基準系(中列のピクチャ)に変換することによって計算される。全体の相対的向きは、角度の変化(左下ピクチャ中の円の黒い扇形)を示し、楕円のすべての基準点の任意の向きの最小の囲み長方形は、位置の変化(右下ピクチャ中の太字の長方形)とみなされる。 階層型モデル生成の結果を示す図である。検索ツリーは、各物体部分に関する相対的検索範囲と共に視覚化される。位置検索範囲は四角形によって視覚化され、角度検索範囲は扇形によって視覚化される。

Claims (22)

  1. a)モデルイメージに基づいて構成要素にする初期物体分解を構築するステップと、
    b)前記モデルイメージに関して複数の例示イメージ中の前記構成要素の相対ポーズを決定するステップと、
    c)複数の構成要素が同一または同様の方法で例示イメージのシーケンスにわたって移動するかどうかを決定し、移動する場合はこうした構成要素をグループ化して、物体部分中のグループ化されていない構成要素と一緒にするステップと、
    d)各例示イメージ中の前記グループ化された構成要素の相対ポーズを決定するステップと、
    e)(e1)物体部分の各有向対に関する変化尺度を計算するステップと、
    (e2)前記変化尺度に基づいて、階層型検索に含まれるすべての変化尺度の全体の合計を最小にする最適化基準を計算するステップと、
    (e3)前記最適化基準に基づいて最適な階層型検索を計算するステップと、前記最適階層型検索は、相互の変化尺度を記載したグラフの最低全域樹皮を計算することによって、前記最適化基準に基づいて計算され、
    前記(e1)、(e2)、(e3)の各ステップにより、階層の一番上にあるルート物体部分および階層の下位レベルにある複数の物体部分からなる階層型モデルを、物体部分の相対ポーズを考慮に入れる前記最適化基準を使用して、物体部分から形成するステップと、
    f)物体部分の各有向対について、第1の物体部分のポーズを基準として第2の物体部分の検索スペースを計算することにより、物体認識段階で使用される物体部分の関連する検索スペースを決定するステップと、前記検索スペースはn次元ポーズスペースにおける全例示イメージにわたるポーズに及び、nはポーズパラメータの数である、
    を含む階層型モデルを構築するための方法。
  2. 前記初期物体分解はユーザによって実行される、請求項1に記載の方法。
  3. 前記初期物体分解はグループ化方法を使用して自動的に実行される、請求項1に記載の方法。
  4. 前記イメージエッジの連結構成要素は初期構成要素として使用される、請求項1、2、または3に記載の方法。
  5. 前記イメージエッジは、少なくともエッジの大きさを提供するエッジオペレータによって計算される、請求項1、2、3、または4に記載の方法。
  6. 前記エッジオペレータはソーベルオペレータである、請求項5に記載の方法。
  7. 前記構成要素の相対ポーズを決定するステップは、
    ポーズ決定時に隣接する構成要素の影響をなくすステップをさらに含む、請求項1から6のいずれか一項に記載の方法。
  8. 前記相対ポーズを決定するステップは、
    グレイ値相関に基づいた物体認識方法を類似性尺度として使用するステップを含む、請求項1から7のいずれか一項に記載の方法。
  9. 前記相対ポーズを決定するステップは、
    幾何学的特徴に基づいた物体認識方法を類似性尺度として使用するステップを含む、請求項1から8のいずれか一項に記載の方法。
  10. 前記物体認識方法は一般化ハフ変換に基づくものである、請求項9に記載の方法。
  11. 前記物体認識方法はエッジ傾斜方向のドット積である、請求項9に記載の方法。
  12. 前記物体認識方法はハウスドルフ距離に基づくものである、請求項9に記載の方法。
  13. 最高の確率を有するマッチを選択することによってあいまいなマッチをなくすステップをさらに含む、請求項1から12のいずれか一項に記載の方法。
  14. 前記モデルイメージに関して例示イメージ中で相対ポーズの最小の変化を発生させるマッチとなる最高の確率を有するマッチが選択される、請求項13に記載の方法。
  15. 複数の構成要素が同一または同様の方法で例示イメージのシーケンスにわたって移動するかどうかを決定するステップは、
    各例示イメージ中の各構成要素対について相対的な動きを計算するステップと、
    例示イメージにわたる相対的な動きの統計値(平均、中間、または最大)を計算するステップと、
    統計値を含む非類似性行列を計算するステップと、
    残りの統計値がユーザ定義の閾値を超えるまで連続して前記非類似性行列をクラスタ化するステップとを含む、請求項1から14のいずれか一項に記載の方法。
  16. 複数の構成要素が同一または同様の方法で例示イメージのシーケンスにわたって移動するかどうかを決定するステップは、
    各例示イメージ中の各構成要素対について相対的な動きを計算するステップと、
    統計方法を使用して2つの構成要素が同じ物体部分に属する確率を計算するステップと、
    確率を含む類似性行列を計算するステップと、
    残りの確率がユーザ定義の閾値よりも下になるまで連続して前記類似性行列をクラスタ化するステップとを含む、請求項1から15のいずれか一項に記載の方法。
  17. 前記構成要素をグループ化するステップは、
    請求項15で計算された同じクラスタに含まれるすべての構成要素をマージングするステップを含む、請求項1から14のいずれか一項に記載の方法。
  18. 前記構成要素をグループ化するステップは、
    請求項16で計算された同じクラスタに含まれるすべての構成要素をマージングするステップを含む、請求項1から14のいずれか一項に記載の方法。
  19. 前記物体認識段階で使用される物体部分の相対検索スペースを決定するステップは、
    物体部分の各有向対について、第1の物体部分のポーズを基準として第2の物体部分の検索スペースを計算するステップを含む、請求項1から18のいずれか一項に記載の方法。
  20. 前記検索スペースは、n次元のポーズスペース中のすべての例示イメージにわたってポーズの凸閉包であり、nはポーズパラメータの数を表す、請求項1から19いずれか一項に記載の方法。
  21. 凸閉包を囲む幾何学形状を計算することによって前記検索スペースを拡大するステップをさらに含む、請求項20に記載の方法。
  22. ユーザ指定の許容範囲によって検索スペースを拡大するステップをさらに含む、請求項20または21に記載の方法。
JP2003306847A 2002-08-30 2003-08-29 階層型構成要素ベースの物体認識 Expired - Lifetime JP4334301B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP02019162A EP1394727B1 (en) 2002-08-30 2002-08-30 Hierarchical component based object recognition

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009027572A Division JP5329254B2 (ja) 2002-08-30 2009-02-09 階層型構成要素ベースの物体認識

Publications (2)

Publication Number Publication Date
JP2004094954A JP2004094954A (ja) 2004-03-25
JP4334301B2 true JP4334301B2 (ja) 2009-09-30

Family

ID=31197829

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2003306847A Expired - Lifetime JP4334301B2 (ja) 2002-08-30 2003-08-29 階層型構成要素ベースの物体認識
JP2009027572A Expired - Lifetime JP5329254B2 (ja) 2002-08-30 2009-02-09 階層型構成要素ベースの物体認識
JP2012178273A Expired - Lifetime JP5330579B2 (ja) 2002-08-30 2012-08-10 階層型構成要素ベースの物体認識

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2009027572A Expired - Lifetime JP5329254B2 (ja) 2002-08-30 2009-02-09 階層型構成要素ベースの物体認識
JP2012178273A Expired - Lifetime JP5330579B2 (ja) 2002-08-30 2012-08-10 階層型構成要素ベースの物体認識

Country Status (4)

Country Link
US (1) US7239929B2 (ja)
EP (1) EP1394727B1 (ja)
JP (3) JP4334301B2 (ja)
AT (1) ATE528724T1 (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016539B1 (en) 1998-07-13 2006-03-21 Cognex Corporation Method for fast, robust, multi-dimensional pattern recognition
ATE528724T1 (de) * 2002-08-30 2011-10-15 Mvtec Software Gmbh Auf hierarchischen gliedern basierte erkennung von gegenständen
US8081820B2 (en) 2003-07-22 2011-12-20 Cognex Technology And Investment Corporation Method for partitioning a pattern into optimized sub-patterns
US7190834B2 (en) 2003-07-22 2007-03-13 Cognex Technology And Investment Corporation Methods for finding and characterizing a deformed pattern in an image
US20060030985A1 (en) * 2003-10-24 2006-02-09 Active Recognition Technologies Inc., Vehicle recognition using multiple metrics
US20050140696A1 (en) * 2003-12-31 2005-06-30 Buxton William A.S. Split user interface
JP4483334B2 (ja) * 2004-02-18 2010-06-16 富士ゼロックス株式会社 画像処理装置
US20050190659A1 (en) * 2004-03-01 2005-09-01 Matsushita Electric Industrial Co., Ltd. Audio reproducing apparatus
US7643665B2 (en) * 2004-08-31 2010-01-05 Semiconductor Insights Inc. Method of design analysis of existing integrated circuits
WO2006036842A2 (en) * 2004-09-24 2006-04-06 The University Of North Carolina At Chapel Hill Methods, systems, and computer program products for hierarchical registration between a blood vessel and tissue surface model for a subject and blood vessel and tissue surface image for the subject
US8437502B1 (en) 2004-09-25 2013-05-07 Cognex Technology And Investment Corporation General pose refinement and tracking tool
KR20060066340A (ko) * 2004-12-13 2006-06-16 삼성전자주식회사 3차원 구조 스케치 제작장치와 방법 및 컴퓨터 프로그램을저장하는 컴퓨터로 읽을 수 있는 기록매체
US7450736B2 (en) * 2005-10-28 2008-11-11 Honda Motor Co., Ltd. Monocular tracking of 3D human motion with a coordinated mixture of factor analyzers
US7680748B2 (en) * 2006-02-02 2010-03-16 Honda Motor Co., Ltd. Creating a model tree using group tokens for identifying objects in an image
GB0616293D0 (en) 2006-08-16 2006-09-27 Imp Innovations Ltd Method of image processing
JP4267648B2 (ja) * 2006-08-25 2009-05-27 株式会社東芝 インターフェース装置及びその方法
US20080082301A1 (en) * 2006-10-03 2008-04-03 Sabrina Haskell Method for designing and fabricating a robot
US8160364B2 (en) * 2007-02-16 2012-04-17 Raytheon Company System and method for image registration based on variable region of interest
US7853081B2 (en) * 2007-04-02 2010-12-14 British Telecommunications Public Limited Company Identifying data patterns
US8331674B2 (en) * 2007-04-06 2012-12-11 International Business Machines Corporation Rule-based combination of a hierarchy of classifiers for occlusion detection
JP4929109B2 (ja) * 2007-09-25 2012-05-09 株式会社東芝 ジェスチャ認識装置及びその方法
US8103085B1 (en) 2007-09-25 2012-01-24 Cognex Corporation System and method for detecting flaws in objects using machine vision
EP2048599B1 (en) * 2007-10-11 2009-12-16 MVTec Software GmbH System and method for 3D object recognition
EP2081133B1 (en) * 2008-01-18 2010-05-19 MVTec Software GmbH System and method for deformable object recognition
JP5247337B2 (ja) * 2008-10-02 2013-07-24 キヤノン株式会社 画像認識装置および画像認識方法
JP5310234B2 (ja) * 2009-04-24 2013-10-09 株式会社日本自動車部品総合研究所 画像認識装置
EP2530605A4 (en) 2010-01-29 2013-12-25 Panasonic Corp DATA PROCESSING UNIT
EP2385483B1 (en) 2010-05-07 2012-11-21 MVTec Software GmbH Recognition and pose determination of 3D objects in 3D scenes using geometric point pair descriptors and the generalized Hough Transform
US8625887B2 (en) 2011-07-13 2014-01-07 Google Inc. Systems and methods for matching visual object components
DE102011079187A1 (de) * 2011-07-14 2013-01-17 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Vorrichtung zur Schritterkennung eines Fußgängers für ein tragbares Endgerät
JP5906071B2 (ja) * 2011-12-01 2016-04-20 キヤノン株式会社 情報処理方法、情報処理装置、および記憶媒体
WO2013090819A1 (en) 2011-12-16 2013-06-20 Boston Scientific Neuromodulation Corporation System for programming a neurostimulation device with seamless integration programming modes
US9111173B2 (en) 2012-04-23 2015-08-18 Honda Motor Co., Ltd. Learning part-based models of objects
US20130328760A1 (en) * 2012-06-08 2013-12-12 Qualcomm Incorporated Fast feature detection by reducing an area of a camera image
US9111348B2 (en) * 2013-03-15 2015-08-18 Toyota Motor Engineering & Manufacturing North America, Inc. Computer-based method and system of dynamic category object recognition
JP6273686B2 (ja) * 2013-03-29 2018-02-07 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
US9679224B2 (en) 2013-06-28 2017-06-13 Cognex Corporation Semi-supervised method for training multiple pattern recognition and registration tool models
US9842274B2 (en) * 2014-03-28 2017-12-12 Xerox Corporation Extending data-driven detection to the prediction of object part locations
DE102014010982A1 (de) 2014-07-29 2016-02-04 Sew-Eurodrive Gmbh & Co Kg Verfahren zur Erkennung eines Objekts in einem Bild und Vorrichtung zur Durchführung des Verfahrens
JP2018505505A (ja) * 2015-01-31 2018-02-22 モファット,ブライアン,リー 顔の幾何学的形状の歪みによるコンピュータの制御
CN104699244B (zh) * 2015-02-26 2018-07-06 小米科技有限责任公司 智能设备的操控方法及装置
US9868212B1 (en) * 2016-02-18 2018-01-16 X Development Llc Methods and apparatus for determining the pose of an object based on point cloud data
JP2019517079A (ja) 2016-05-24 2019-06-20 モルフォトラスト・ユーエスエー・リミテッド ライアビリティ カンパニーMorphotrust Usa,Llc 形状検知
CN109923501A (zh) * 2016-11-01 2019-06-21 香港科技大学 用于设备交互的空中手指指向检测
CN111309955B (zh) * 2017-02-13 2022-06-24 哈尔滨理工大学 一种面向图像检索的融合方法
EP3404583A1 (en) 2017-05-19 2018-11-21 MVTec Software GmbH System and method for model adaptation
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
US10319151B2 (en) 2017-07-07 2019-06-11 Motorola Solutions, Inc. Device and method for hierarchical object recognition
TWI625680B (zh) 2017-12-15 2018-06-01 財團法人工業技術研究院 臉部表情辨識的方法及裝置
US10796157B2 (en) * 2018-03-13 2020-10-06 Mediatek Inc. Hierarchical object detection and selection
JP7098365B2 (ja) * 2018-03-15 2022-07-11 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
WO2019203924A1 (en) * 2018-04-16 2019-10-24 Exxonmobil Research And Engineering Company Automation of visual machine part ratings
CN111811642B (zh) * 2020-07-22 2022-05-03 三一重机有限公司 一种挖掘机发动机的故障检测方法及故障检测装置
US20220261406A1 (en) * 2021-02-18 2022-08-18 Walmart Apollo, Llc Methods and apparatus for improving search retrieval
CN113485240B (zh) * 2021-07-27 2022-07-01 华南理工大学 基于带标志位分层搜索树的机器人在线焊接路径规划方法
US11941863B2 (en) 2021-08-04 2024-03-26 Datalogic Ip Tech S.R.L. Imaging system and method using a multi-layer model approach to provide robust object detection
CN113537388B (zh) * 2021-08-04 2023-08-11 广州四三九九信息科技有限公司 一种基于图层特性的缩放图像模板匹配方法
WO2023168366A2 (en) * 2022-03-03 2023-09-07 Siemens Healthcare Diagnostics Inc. Diagnostic laboratory systems and methods of imaging tube assemblies

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278946A (en) * 1989-12-04 1994-01-11 Hitachi, Ltd. Method of presenting multimedia data in a desired form by comparing and replacing a user template model with analogous portions of a system
US6075905A (en) * 1996-07-17 2000-06-13 Sarnoff Corporation Method and apparatus for mosaic image construction
JP3640488B2 (ja) * 1997-01-17 2005-04-20 株式会社リコー 画像処理方法
US6160907A (en) * 1997-04-07 2000-12-12 Synapix, Inc. Iterative three-dimensional process for creating finished media content
US6396961B1 (en) * 1997-11-12 2002-05-28 Sarnoff Corporation Method and apparatus for fixating a camera on a target point using image alignment
JPH11185055A (ja) * 1997-12-24 1999-07-09 Fujitsu Ltd 動きデータ作成装置およびそのプログラムを格納した記憶媒体
US7003134B1 (en) * 1999-03-08 2006-02-21 Vulcan Patents Llc Three dimensional object pose estimation which employs dense depth information
ATE528724T1 (de) * 2002-08-30 2011-10-15 Mvtec Software Gmbh Auf hierarchischen gliedern basierte erkennung von gegenständen

Also Published As

Publication number Publication date
ATE528724T1 (de) 2011-10-15
JP2004094954A (ja) 2004-03-25
US7239929B2 (en) 2007-07-03
JP2012212476A (ja) 2012-11-01
US20040042661A1 (en) 2004-03-04
EP1394727A1 (en) 2004-03-03
JP5330579B2 (ja) 2013-10-30
JP2009104666A (ja) 2009-05-14
EP1394727B1 (en) 2011-10-12
JP5329254B2 (ja) 2013-10-30

Similar Documents

Publication Publication Date Title
JP4334301B2 (ja) 階層型構成要素ベースの物体認識
Yamany et al. Surface signatures: an orientation independent free-form surface representation scheme for the purpose of objects registration and matching
Zhu et al. Forms: a flexible object recognition and modelling system
Felzenszwalb et al. Pictorial structures for object recognition
Sharp et al. ICP registration using invariant features
Brejl et al. Object localization and border detection criteria design in edge-based image segmentation: automated learning from examples
Cootes et al. An introduction to active shape models
Fan Describing and recognizing 3-D objects using surface properties
US7421098B2 (en) Facial recognition and the open mouth problem
JP6612822B2 (ja) モデルを修正するためのシステムおよび方法
Mamic et al. Representation and recognition of 3D free-form objects
Zong et al. A fast and accurate planar-feature-based global scan registration method
Cootes Model-based methods in analysis of biomedical images
EP0460960A2 (en) Data processing
Barequet Using geometric hashing to repair CAD objects
Gu et al. Coarse-to-fine planar object identification using invariant curve features and B-spline modeling
Jain et al. 3D object recognition: Representation and matching
Ulrich et al. Automatic hierarchical object decomposition for object recognition
Bhuiyan et al. Identification of actors drawn in Ukiyoe pictures
Pitiot et al. Learning shape correspondence for nD curves
Wimmer et al. Learning robust objective functions with application to face model fitting
Gavrila et al. Learning shape models from examples
Adeshina et al. Automatic Annotation of Radiographs using Random Forest Regression Voting for Building Statistical Models for Skeletal Maturity
Zhang et al. General Image Matching
CN115311406A (zh) 一种笔划交互式的人体骨架重建技术

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090527

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090623

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4334301

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130703

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term