JP2007511838A

JP2007511838A - 距離、局所線形構造およびアフィン対称を用いた画像クラスタリング

Info

Publication number: JP2007511838A
Application number: JP2006539997A
Authority: JP
Inventors: ジェフリーホー; ジョンウリン; ミンシュエンヤン
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2003-11-13
Filing date: 2004-11-15
Publication date: 2007-05-10
Anticipated expiration: 2024-11-15
Also published as: WO2005050533A2; US7248738B2; EP1756752A2; WO2005050533A3; JP4616841B2; EP1756752A4; US20050141769A1

Abstract

異なる視点位置から見られるオブジェクトのクラスタリング画像に関するシステムおよび方法を開示する。すなわち、未分類のｎ個のオブジェクトの画像セットが与えられた場合に、教師なしアルゴリズムが、各サブセットが単一のオブジェクトの画像のみを含むように、画像をＮ個のバラバラのサブセットにグループ化する。クラスタリング方法は、外観多様体の幾何学と二次元アフィン群の対称性との間の相互作用を利用した広範な幾何学的枠組みを利用する。

Description

本出願は、合衆国法律集（ＵＳＣ）３５条§１１９（ｅ）の下、米国仮特許出願番号６０／５２０，００４号、「距離、局所線形構造およびアフィン対称を用いた画像クラスタリング」に基づいて優先権を主張するものであり、この内容をすべて参照することによって本明細書中に組み込むものとする。

本出願は、２００３年１１月６日に出願された米国特許出願番号１０／７０３，２９４号、「多様な照明条件におけるオブジェクトの外観のクラスタリング」に関し、この内容をすべて参照することによって本明細書中に組み込むものとする。

本発明は、一般的には、コンピュータビジョンの分野に関し、より詳細には、観測されたオブジェクトをオブジェクトの型によりクラスタリングすることに関する。

写真愛好家型のデジタルカメラから高性能コンピュータビジョンシステムまで、デジタル画像は、日々の生活になくてはならない部分となっている高成長の技術である。その最も基本的な定義において、デジタル画像は、デジタル撮像装置、例えばカメラ、ビデオカメラなどにより撮影されたサブジェクトまたはオブジェクトの画像のコンピュータ読み取り可能な表現である。コンピュータ読み取り可能な表現、すなわちデジタル画像は、典型的には、多くの入手可能なグラフィックフォーマットの一つにより画像ファイルまたはドキュメントに配列された多数の画素を含む。例えば、グラフィックファイルフォーマットのいくつかは、制限なく、ビットマップ、ＧＩＦ（Graphics Interchange Format）、ＪＰＥＧ（Joint Photographic Experts Group）フォーマットなどを備えている。オブジェクトは、画像化された、例えば、撮影、ビデオ録画などをされたものである。一般的に、オブジェクトは、無生物の物質のオブジェクトまたはその一部分、ヒトまたはその一部分、景色、動物などであってもよい。オブジェクトの画像は、典型的に、画像をある程度一意的にする観測条件を備えている。撮像において、観測条件は、典型的には、カメラとオブジェクトとの間の相対配向（例えば、ポーズ）と、画像が得られる場所における外部の照明と、をいう。

画像間の観測者の視点位置が異なる３次元オブジェクトの画像の集まりが与えられたとすると、ヒトは、画像をクラスタリング、例えば、オブジェクトのアイデンティティに応じて画像をグループ化しようとする。この問題は、クラスタリング方法またはアルゴリズムの目標が画像間におけるいくつかの一定のパターンを検出することであるので、オブジェクトの画像が異なる観測条件下でどのように変わるかを理解することを要求する。この問題を解決するための、ある従来のコンピュータビジョンのアプローチは、画像特徴抽出のいくつかの種類、例えば、テクスチャ、形状、フィルターバンクの出力などを利用する。このことの説明は、B.L.SauxおよびN.Boujimaa，「Unsupervised robust clustering for image database categorization」，International Conference on Pattern Recognition，Volume 1 (2002)と、H.Friguiら，「Unsupervised clustering and feature discrimination with application to image database categorization」，Joint 9th IFSA World Congress and 20th NAFIPS Conference (2001)に記載されており、これらをすべて参照することによって本明細書中に組み込むものとする。このアプローチの根本的な仮定は、３次元オブジェクトの全体的または局所的な画像性質のいくつかが観測条件の広い範囲にわたって存在するということである。このアプローチの欠点は、これらの特徴を確実かつ安定的に抽出することは大抵の場合困難であるということである。

外観によるアプローチは、クラスタリングの問題に取り組むために異なる方法を利用しており、画像特徴抽出は、もはや重要な役割を果たしていない。代わりに、画像空間における画像間の幾何学的関係の概念が中心となり、基礎的な分析パラダイムは、外観多様体である。これらの概念の説明は、R.Basriら，「Clustering appearance of 3D objects」，Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. (1998)と、A.W.FitzgibbonおよびA.Zisserman，「On affine invariant clustering and automatic cast listing in movies」と、A.Heyden，G.Sparr，M.Nielsen，P.Johansen編集，Proceedings of the Seventh European Conference on Computer Vision.LNCS 2353，Springer-Verlag (2002)と、H.MuraseおよびS.K.Nayar，「Visual learning and recognition of 3-D objects from appearance」，International Journal of Computer Vision，Volume 14. (1995)と、に記載されており、これらをすべて参照することによって本明細書中に組み込むものとする。既存の外観による方法は、特徴抽出法における改善を示す一方、それでもなお信頼性の欠如および不整合性といった問題を有する。

従来の外観によるアプローチの欠点の基本は、図１を参照することにより理解可能である。図１（ａ）は、３つのオブジェクトの画像空間への仮想的／理想的射影を示しており、前記したMuraseおよびNayarの著書に説明されており、３つの軸が固有空間の３つの最も意義のある固有ベクトルを表している。３つの固有ベクトル／軸への制限によって直感的に理解可能な例が提供されるので、分析がより大きな数の固有ベクトル／軸に数学的に拡張されうる。各楕円１１０は、１つのオブジェクトに対応している。各楕円のサンプルポイント１２０は、一定の照明とともに、ポーズ、例えば、１つの軸まわりの回転をとった各オブジェクトの画像に対応している。クラスタリングの問題のエッセンスは、画像を正しい楕円と関連付けること、例えば、適切な楕円１１０との関連付けを介して特定の観測された画像およびその射影点を正確に識別することである。

一般的に、クラスタリングの問題は、データ１２０の固有の標本化された性質により、かつ、画像取り込み過程におけるエラーの存在により複雑化されている。このようなエラーは、例えば、画像取り込み装置における誤差またはノイズが原因で生じる。また、サンプルポイントは、互いに近接近して位置することがある。したがって、クラスタリング方法は、制限され不正確なデータからも信頼性のある結果を提供することができるように十分ロバストでなければならない。楕円１１０ａ上のデータに対して楕円１１０ｂ上の他の観測されたデータが近接しているので、例えば、実際に楕円１１０ａに属するデータ１３０は、間違って楕円１１０ｂに関連付けられることがある。したがって、クラスタリングアルゴリズムは、有効な距離測度を提供する仮想点１４０を構築することにより、多様体構造の情報を利用する必要がある。

不正確なクラスタリングに関する他の理由が図１ｂに示されており、仮想楕円１５０ａおよび１５０ｃが図１ａの対応物に対して傾いている。特に、領域１６０において、楕円が互いに十分に近接しているので、従来のクラスタリング方法では不安定さの原因となる。例えば、領域１７０に概念的に示されるように、図示されるサンプルポイントに基づいて複数の軌道が想定されることがある。

従来のシステム、例えば、SauxおよびBoujemaaの著書に記載されたシステムでは、外観によるクラスタリング方法は、しばしば射影、例えば、画像／多様体空間から最終的なクラスタリング動作が実行される低次元空間への幾何学的変換を用いる。領域１６０のような不安定な領域に関して言えば、正しい軌道を射影空間に合成することは困難である。このことは図２に説明されており、図２は３つの射影方法に基づく中間のクラスタリング結果を示す。図示された射影空間は、一定の照明の下で回転する三台のモデルカーの標本画像から求められている。

図２（ａ）は、前記したMuraseおよびNayarの著書に説明された主成分分析アルゴリズムの結果を示す。理解されるとおり、軌道が認識できないほどデータが高分散している、すなわち、クラスタリング決定のための根拠が存在しない。これは、局所線形構造が多様体構造の複雑な領域に関して不安定になる変換の利用を評価する結果である。図２（ｂ）は、ｉｓｏｍａｐアルゴリズムの結果を示す。この例は、Joshua B.Tenenbaum，Vin de SilvaおよびJohn C.Langford，「A Global Geometric Framework for Nonlinear Dimensionality Reduction」，Science，Vol.290，No.5500 (2000) に記載されており、これをすべて参照することによって本明細書中に組み込むものとする。軌道のセットが存在することは明らかであるが、個別の軌道の分離はほとんどできない。したがって、この場合も効果的なクラスタリングの根拠が存在しない。図２（ｃ）は、局所線形埋め込みの結果を示す。この例は、Sam T.RoweisおよびLawrence K.Saul，Nonlinear Dimensionality Reduction by Locally Linear Embedding，Science，Vol.290，No.5500 (2000)に記載されており、これをすべて参照することによって本明細書中に組み込むものとする。重ね合わさった境界２１０により示されるように、クラスタリング決定を行うための根拠が存在する。しかし、重なり合った境界が、不安定または不正確なクラスタリングの可能性を示唆している。

前記したことに基づいて、ノイズおよび誤差の存在下で多種多様なオブジェクトに関する信頼性のある結果を産み出すことが可能な、画像クラスタリングに関する改良されたシステムおよび方法が必要である。

本発明は、改良された外観による画像クラスタリングに関するシステムおよび方法を含む。本方法は、まず、入力画像のすべての対間の距離測度を導出し、より精度の高い分析のための多数の最近傍画像（例えば、最も類似した画像）を選択する。続いての手順は、微分幾何学の原理に基づいている。それは、外観多様体の局所線形構造を求め、画像空間から低次元の分析空間への射影を利用する。改良された結果である最近傍画像間の距離測度は、距離行列に凝集される。この行列は、最終的なクラスタリング結果を産み出すためにスペクトルクラスタリングアルゴリズムに適用される。スペクトルクラスタリングは、組み合わせグラフ理論において集中的に研究されており、公知である。これらの概念の説明は、Y.Weiss，「Segmentation using eigenvectors: A unifying view」，Proceeding of IEEE International Conference on Computer Vision，Volume 2. (1999)と、F.R.K. Chung，「Spectral Graph Theory」，American mathematical Society (1997)と、J.Hoら，「Clustering appearances of objects under varying illumination conditions」，IEEE Conf. on Computer Vision and Pattern Recognition，Volume 1 (2003)と、に記載されており、これらをすべて参照することによって本明細書中に組み込むものとする。

本発明は、他の利点および特徴を有しており、本発明の後記する詳細な説明および添付の請求の範囲から明らかになるであろう。

画像空間内の入手可能な情報を用いることにより、本発明は、従来のシステムと比較してクラスタリング性能の向上を実現している。本発明の利点は、クラスタリング信頼性の向上、安定性の向上（例えば、任意の近接した画像の区別）および計算効率の向上を含む。

本発明のいくつかの実施形態について詳細に説明し、その実施例について添付図面に図解する。できる限り、同一または類似した参照符号が図面内で用いられており、同一または類似した機能を示すことができる。図面は、図解の目的のみのために本発明の実施形態を表している。当業者は、以下に説明される構造および方法の両実施形態が以下に示される本発明の原理から逸脱しない範囲で使用可能であることを以下の説明から容易に理解するであろう。

本発明の一実施形態に係る方法は、図３のフローチャートを参照して理解可能である。ステップ３１０では、ｎ個の分類されていない画像の集まり｛Ｉ_１，…，Ｉ_ｎ｝が受け取られる。すべての画像が同一のピクセル数ｓを有しており、画像をラスタライズすることにより、対応する標本点の集まり｛ｘ_１，…，ｘ_ｎ｝が画像空間ＩＲ^Ｓにおいて取得されるものと仮定する。クラスタリング方法の目的は、ρ（Ｉ_ｉ）＝ρ（Ｉ_ｊ）のときかつそのときに限り二つの画像Ｉ_ｉおよびＩ_ｊが同一のクラスタに属するように、これらの画像に関するクラスタ割当ρ：｛Ｉ_１，…，Ｉ_ｎ｝→｛１，…，Ｎ｝を出力することである。理想としては、各クラスタは、一つのオブジェクトの画像のみから構成されている。さらに、一つのクラスタの画像は異なる視点だが同一の環境照明条件下で取得されるものと仮定する。

ステップ３２０では、ｎ個の画像のセットのうちの第一画像が選択される。ステップ３３０では、第一画像に対応する画像空間内のＫ個の最近傍画像のセットが決定される。このことは、公知技術、例えば、Ｌ^２距離またはその導関数（例えば、アフィン不変Ｌ^２距離または重みつきＬ^２距離）にしたがい実行可能である。状況に応じて、以下に説明される片側距離測度が使用可能である。このように定義された最近傍画像内において、距離以外の情報は、以下に示すように次に用いられる。その結果、全体的なクラスタリングの問題は、局所的なクラスタリング動作の集まりになる。パラメータＫの選択は、デザイントレードオフであり、経験的な結果の議論において以下のように考慮される。

Ｋ個の最近傍画像のセットに関して、局所線形構造（ＬＬＳ）アルゴリズムがステップ３４０ごとに適用される。このアルゴリズムは、前記したMuraseおよびNayarの著書において説明された位相外観多様体に関する複数の特性を順に含む。外観多様体は、二次元の具体的な画像を高次元の抽象的な空間ＩＲ^Ｓにおける点として表現する結果生じるものであり、公知である。ＬＬＳの第一の特性は、１≦ｋ≦Ｎであり、各Ｍ_ｉがオブジェクトの外観多様体を表す場合において、ｎ個の入力画像の集まりには、ｘ_ｉ，ｘ_ｊ∈Ｍ_ｋのときかつそのときに限り、二つの入力画像標本ｘ_ｉ，ｘ_ｊが同一のクラスタに属するように、ＩＲ^ＳにおけるＮ個の部分多様体の存在｛Ｍ_１，…，Ｍ_Ｎ｝が存在する。

ＬＬＳの第二の特性は、多様体および部分多様体の局所線形性である。すなわち、ｘ_１，…ｘ_ｊが同一のクラスタに属するデータ点でありかつ最近傍点である場合には、各点ｘ_ｉはその最近傍点により線形的に近似可能であり、ある実数ａ_ｊに関して

が成立する。

ＬＬＳの第三の特性は、二次元（２Ｄ）アフィン群Ｇの作用である。このことは、微分幾何学の特性であり、一般的なデータクラスタリングの問題から画像クラスタリングの問題を区別する。例えば、｛ｘ_１，…ｘ_ｎ｝が気象または高エネルギー物理実験のデータである場合には、Ｇの明確な作用はない。ＩＲ^Ｓにおける点形成のための入力画像の二次元的性質および画像のラスタライズによると、Ｇの作用は、標本点ｘが与えられた場合に、陽的に計算される。特に、各外観部分多様体Ｍ_ｉは、Ｇの下で不変である。すなわち、各γ∈Ｇに関して、ｘ∈Ｍ_ｉである場合に、γ（ｘ）∈Ｍ_ｉである。この意味では、クラスタリングの問題は、２Ｄアフィン群によって対称性を取得する。

これらＬＬＳステップ３４０の原理は、図４の幾何学的解釈により視覚化可能である。多様体４１０は、入力データｘ_ｉに対応している。その正確な構造は知られていないが、その特徴のいくつかは知られておりＬＬＳアルゴリズムにより使用可能である。特に、一以上の最近傍点ｘ_ｉに対して、多様体４１０は、連続的であり、局所的に線形であり、複数の「軌道」、例えば巡回線形軌道を含む。最後の性質は、当該技術分野において「アフィン対称」と呼ばれている。

対照的に、局所線形性を用いる従来の方法は、前記したFitzgibbonおよびZissermanの著書に説明されているように、主成分分析（ＰＣＡ）を用いた「接空間」の計算を含む。

ＰＣＡは、比較的単純な多様体領域に適用される場合に効果的である一方、複雑な領域に適用される場合には不安定になることがある。例えば、ＰＣＡは、図１（ａ）の多様体構造に適用される場合には効果的であるが、図１（ｂ）に適用される場合には効果的ではないことがある。

画像多様体の局所線形性を用いた、よりロバストな方法は、図５に示されるように、その最近傍点による標本点の割線近似（secant approximation）を利用する。図示される滑らかな２Ｄ曲線に関して、各点ｘは、十分に近接した二つの最近傍点

（ただし、ａ_１，ａ_２はゼロ以上の数であり、ａ_１＋ａ_２＝１）により形成された割線弦（secant chord）上の点により近似可能である。このことは、高次元に対してすぐに一般化可能であり、点ｘおよびその最近傍点｛ｙ_１，…ｙ_ｋ｝に関して、ゼロ以上の係数ω_ｉのセットは、以下の最適化問題を解くことにより計算可能である。

ただし、

の制限がある。Ｋ≪ｓであるので、｛ｙ_１，…ｙ_Ｋ｝は、一般的に線形独立である。したがって、係数ω_ｉは、おおむね一意である。図６は、線形構造の存在を検出するために、係数ω_ｉの大きさが局所的にアフィニティ測定（affinity measure）として利用可能なことを説明するための図である。すなわち、ω_ｉの大きさが大きいことは、ｙ_ｉおよびｘが共通の局所線形構造を共有している可能性を示す。クラスタリングの問題に対して、換言すると、このことは画像ｙ_ｉおよびｘが同一のオブジェクトに対応していることを示す。

前記したように、アフィン対称は、アフィン不変関係における距離測度と外観多様体の局所線形構造とを組み合わせたＬＬＳアルゴリズムにより利用可能である。このことは、商空間の数学的概念に応じて、アフィン不変様式において式１を再公式化することにより自動的に処理される。このことの説明は、D.Mumfordら，「Geometric Invariant Theory」，Springer-Verlag (1994) に記載されており、これをすべて参照することによって本明細書中に組み込むものとする。一般的に、多様体Ｍに作用する群Ｇは、商空間である抽象的な位相空間Ｍ／Ｇに関連する。さらに調べると、図４を再び参照すると、空間Ｍ／Ｇは、群作用の軌道４４０をパラメータ化する。Ｇ作用の下で不変であるＭにおいて定義された量は、自然射影によって空間Ｍ／Ｇにおいて派生した量として定義可能である。例えば、換言すると、ＭにおけるＧ不変距離測度は、Ｍ／Ｇにおける距離測度を定義する。

このことをクラスタリングの問題に適用すると、多様体Ｍは、外観部分多様体の和｛Ｍ_１，…Ｍ_ｎ｝であり、群Ｇは、二次元のアフィン群である。自然射影写像π：Ｍ→Ｍ／Ｇは、Ｍの各点ｘを点［ｘ］∈Ｍ／Ｇに写像し、したがって、ｘを含む軌道をパラメータ化する。多様体｛Ｍ_１，…，Ｍ_Ｎ｝は、Ｍ／Ｇに次元を下げて、

を形成する。多様体｛Ｍ_１，…，Ｍ_Ｎ｝のアフィン不変の局所線形構造は、

の局所線形構造を含む。

の局所線形構造は、商空間に関する標準的なスライス構造に対する類推により計算可能である。このことの説明は、D.Mumfordら、「Geometric Invariant Theory」，Springer-Verlag (1994)に見られ、これに全体的に組み込まれている。特に、Ｍ／Ｇの各点［ｘ］に関して、局所線形構造は、π（ｘ）＝［ｘ］となる標本点ｘ∈Ｍに計算の次元を上げることにより計算可能である。図４に示されるように、各点ｘにおいて、群作用の「スライス」４５０、例えば、ｘを介するＧ作用に直交するｘを中心とする線形部分空間をとることにより、スライスの局所線形構造が分析可能である。各標本点ｘに関して、スライスＳが求められる。他の標本点すべてが、Ｇを用いてＳに射影され、例えば標本点４６０に関して、γ（ｙ）∈Ｓとなるγ∈Ｇが求められる。このことは、点４３０ｃとして図解的に示される。このようなγは、すべてのｙに存在するのではなく、このような点のいくつかのみがｘの最近傍点を特徴づけるのに必要とされる。｛ｙ_１’，…，ｙ_ｓ’｝をスライスＳに射影された点とする。ＳにおけるＬ^２距離測度は、ｘのＫ個の最近傍点、すなわち｛ｙ_１’，…，ｙ_Ｋ’｝を選択するのに用いられ、これらの最近傍点は、式１を介して［ｘ］での局所線形構造を定義するのに用いられる。

一つの実施態様において、前記したスライス構造が修正される。実際に部分空間Ｓを計算する代わりに、Ｋ個の最近傍点｛ｙ_１’，…，ｙ_Ｋ’｝が「片側距離」を用いることにより決定される。このことの説明は、J.ShiおよびJ.Malik，「Normalized cuts and image segmentation」，IEEE Transactions on Pattern Analysis and Machine Intelligence 22 (2000) に記載されており、これをすべて参照することによって本明細書中に組み込むものとする。各入力標本ｙに関して、片側距離は、

として定義される。

ｄ_Ｇ（ｘ，ｙ）は距離ではないが、ｘのＫ個の最近傍点、例えば、｛ｙ_１’，…，ｙ_Ｋ’｝の定義を可能にする。これらの最近傍点は、｛γ_１（ｙ_１），…，γ_Ｋ（ｙ_Ｋ）｝であり、ここで、各γ_ｉはｘとｙ_ｉとの間の片側距離を最小にする。

三次元多様体および二次元射影は、視覚的利便性のために前記したように図解され、開示された原理は、必要に応じて高次元幾何に拡張可能である。

要約すれば、ＬＬＳステップ３４０は、アフィン群Ｇ下において共に不変である距離および局所線形構造の両方を用いる。これら三つの非常に一般的な構造を組み合わせることによって、全体的なクラスタリングアルゴリズムへの貢献が効果的かつ効率的であるＬＬＳアルゴリズムを公式化する。

図３に戻り、ステップ３５０では、距離測度の行列ｄ_Ωは、標本点ｘ_ｉおよびｘ_ｊの対の間から導出され、ｄ_Ω（ｘ_ｉ，ｘ_ｊ）＝ｍｉｎ（１／Ω_ｉｊ，１／Ω_ｊｉ）である（ここで、ω_ｉｊは各ｘ_ｉに関してステップ３４０で計算される係数である）。ｘ_ｊがｘ_ｉのＫ個の最近傍点の中にない場合には、ω_ｉｊは０に設定される。

ステップ３６０は、すべての画像の最近傍画像が求められたか否かを判断し、求められていない場合には、次の画像が選択されステップ３３０から３６０が繰り返される。すべての画像が求められた場合には、距離行列が完成する。続いて、ステップ３７０が呼び出され、標準的なスペクトルクラスタリングアルゴリズムが最終的なクラスタリング結果を産み出す。このことの説明は、Andrew Ng，Michael JordanおよびYair Weiss，「On Spectral Clustering: Analysis and An Algorithm」，Advances in Neural Information Processing Systems，pp. 849-856 (2002) に記載されており、これをすべて参照することによって本明細書中に組み込むものとする。

ここで図７を参照すると、本発明の他の実施形態に係るシステムが示されている。コンピュータシステム７００は、入力部７１０と、記憶装置７１４と、処理部７１６と、出力部７１８と、を備えている。代わりの実施形態では、画像処理部７１２が主処理部７１６の一部またはデジタル画像を所望の画像フォーマットにフォーマットする専用装置になっている。同様に、記憶装置７１４は、スタンドアロンの記憶装置（例えば、ＲＡＭチップ、フラッシュメモリなど）または処理部７１６に用いられるオンチップメモリ（例えば、キャッシュメモリ）であってもよい。同様に、コンピュータシステム７００は、サーバ、パソコンなどのスタンドアロンシステムであってもよい。また、コンピュータシステム７００は、例えば、視覚システムを有するロボット（例えば、日本の東京に所在する本田技研工業株式会社の最新人間型ロボットＡＳＩＭＯ（登録商標））、セキュリティシステム（例えば、空港セキュリティシステム）などのように、大型システムの一部であってもよい。

この実施形態によると、コンピュータシステム７００は、デジタル画像Ｉを受け取るための入力部７１０を備えている。デジタル画像Ｉは、撮像装置、例えば、デジタルカメラ７０１ａ（例えば、ロボットの眼）、ビデオシステム７０１ｂ（例えば、有線ＴＶ）、画像スキャナなどから直接受け取られてもよい。また、入力部７１０は、他のネットワークシステム、例えば、画像データベース、他の視覚システム、インターネットサーバなどからデジタル画像を受け取るためのネットワークインターフェースであってもよい。ネットワークインターフェースは、ＵＳＢ、ＲＳ−２３２シリアルポート、イーサネット（登録商標）カードなどのような有線インターフェースであってもよく、また、無線プロトコル、例えば、ブルートゥース、ＷｉＦｉ、ＩＥＥＥ８０２．１１などを用いて通信するように構成された無線装置のような無線インターフェースモジュールであってもよい。

付随的な画像処理部７１２は、処理部７１６の一部またはシステム７００の専用装置であってもよい。画像処理部７１２は、入力部７１０を介して受け取られたデジタル画像Ｉを前処理して、デジタル画像Ｉを処理部７１６が作動するための所望のフォーマットに変換する。例えば、入力部７１０を介して受け取られたデジタル画像ＩがＪＰＥＧフォーマットでデジタルカメラ７１０ａから来ており、処理部がラスタ画像データに基づいて作動するように構成されている場合には、画像処理部７１２は、ＪＰＥＧからラスタ画像データに変換するために使用可能である。

画像処理部７１２が用いられる場合には、デジタル画像Ｉは、処理部７１６により処理可能なように、一旦所望の画像フォーマットで記憶装置７１４に記憶される。処理部７１６は、命令セットを適用し、命令セットが実行された場合に、本発明に係る一以上の方法、例えば、最近傍選択、局所線形構造演算などを実行する。命令セットの実行中、処理部７１６は、記憶装置７１４にアクセスし、記憶装置７１４に記憶された画像データに基づいて、本発明の方法に係る動作を実行する。

処理部７１６は、入力画像Ｉをクラスタリングし、結果を出力部７１８を介して外部装置７２５（例えば、データベース７２５ａ、ネットワーク構成要素またはサーバ７２５ｂ、表示装置７２５ｃなど）に出力する。入力部７１０と同様に、出力部７１８は、有線または無線であってもよい。出力部７１８は、記憶装置のインターフェース（例えば、ハード・ドライブまたは光学式ハード・ドライブのドライバ）、ネットワークインターフェース装置（例えば、イーサネット（登録商標）インターフェースカード、無線ネットワークカードなど）またはディスプレイ・ドライバ（例えば、グラフィックス・カードなど）、またはクラスタリング結果を出力するためのあらゆる装置であってもよい。

本発明の実施形態は、サンプル画像のライブラリに適用することにより検証される。３Ｄオブジェクトに関しては、有効なオブジェクト認識アルゴリズムに関する一般的なデータセットであるコロンビア大学のＣＯＩＬデータセットが用いられる。このことの説明は、前記したMuraseおよびnayarの著書に見られる。これらは、２０個および１００個のオブジェクトの画像をそれぞれ含むＣＯＩＬ２０およびＣＯＩＬ１００を備えている。両データセットに関して、オブジェクトがターンテーブル上で回転されることにより、各オブジェクトの画像が５度ごとに撮影され、各オブジェクトは７２個の画像を含むようになっている。この標本は、クラスタリングアルゴリズムを強調するために間引かれる。したがって、以下の説明において、ＣＯＩＬ２０．２は、２個ごとに間引くことによりＣＯＩＬ２０から得られた画像の集まりを示し、たとえは、ＣＯＩＬ２０．２は、ＣＯＩＬ２０と同数のオブジェクトを含むが、オブジェクトごとの画像は半分である。同様に、ＣＯＩＬ２０．４は、４個ごとに間引くことによりＣＯＩＬ２０から得られた画像の集まりを示し、以下同様である。

新たなデータセットＶＥＨ１０．２は、車両の画像を抽出することによりＣＯＩＬ１００．２から形成される。これらの車両は類似した外観を有しており、クラスタリングアルゴリズムを困難にする。さらに、ヒトの顔の画像シーケンスは、１０の画像シーケンス、例えば、各シーケンスごとに５０個の画像を含むＦＡＣＥ１０を形成するために１０人のビデオ画像から集められる。この集まりのポーズのバリエーションは、実に大きく、非一様である。

図８には、実験結果が報告されている。本発明の成績は、ＣＯＩＬ１００．４を除くすべてのデータセットに関して良から優に及んでいる。ＣＯＩＬ１００．４に関するアルゴリズムの成績は、まばらに標本化された（例えば、２０度ごと）１００個のオブジェクトを考慮すると意外ではない。エラー率は、データセットの画像数に対するクラスタリングが失敗した画像の数の比として計算される。エラー率は、局所的な最近傍画像の個数であるパラメータＫとともに示される。

図９は、本発明の成績といくつかの従来のアルゴリズムとを比較している。データセットは、前記したとおりであり、百分率の成績は、前記したように計算される。最低から最高の成績の順に、結果を以下に要約する。

≪ユークリッド距離＋Ｋ平均クラスタリング≫
データは、アフィン不変ではない直接Ｌ^２比較は効果的ではないことを示している。
≪ユークリッド距離＋スペクトルクラスタリング≫
同様に、データは、アフィン不変ではない直接Ｌ^２比較は効果的ではないことを示している。
≪アフィン不変＋スペクトルクラスタリング≫
ここで、アフィン不変は、局所的な比較なしに用いられる。
これは、前記した「片側」距離測度であり、低い成績に終わっている。
≪アフィン不変＋Ｋ最近傍＋スペクトルクラスタリング≫
このケースは、局所線形構造を組み入れていることにより成績が向上することを示している。
≪アフィン不変＋Ｋ最近傍＋局所線形構造＋スペクトルクラスタリング≫
このケースは、本発明の一実施形態を示しており、ＬＬＳを含み、非距離情報の利用のメリットとして、最高の結果を一貫して示している。このケースでは、一旦最近傍構造が決定されると、局所線形構造は、最近傍における点をクラスタリングするために用いられることに留意すべきである。

当業者であれば、本発明の開示された原理を介して、外観による画像クラスタリングに関するシステムおよび方法に対する追加的で代替的な構造および機能的設計を理解可能である。以上、本発明の特定の実施形態および適用について図解して説明したが、本発明は前記実施形態および適用に開示された厳格な構造および構成要素に限定されず、添付された請求の範囲に定義された本発明の要旨および範囲を逸脱しない限り、本実施形態および適用に開示された本発明の装置および方法の配置、動作および詳細に対して当業者による多様な修正、変更および変形が可能であることが理解可能である。

外観多様体およびクラスタリング方法の一般的な概念を説明するための図である。外観多様体および従来のクラスタリング方法の概念を説明するための図である。本発明の一実施形態に係る本発明の方法を説明するためのフローチャートである。本発明の一実施形態に係る画像空間における外観多様体および商空間上への射影の幾何学的解釈を説明するための図である。本発明の一実施形態に係る二次元における割線弧近似の概念を説明するための図である。本発明の一実施形態に係る二次元における局所線形性の概念を説明するための図である。本発明の一実施形態を実装するためのシステムを説明するための図である。本発明の一実施形態を用いた実験結果を説明するための図である。様々なクラスタリング方法の成績評価の結果を説明するための図である。

Claims

デジタル画像セット内におけるオブジェクトをグループ化するためのコンピュータによる方法であって、
前記デジタル画像セットの中の各デジタル画像は、アイデンティティを有する第一のオブジェクトを含んでおり、
前記デジタル画像セットにより定義された画像空間内において、前記デジタル画像セットの各デジタル画像に対する複数の最近傍デジタル画像を識別するステップと、
前記デジタル画像セットの各デジタル画像の前記最近傍デジタル画像を用いて、前記デジタル画像セットの中の一以上のデジタル画像に関する局所線形構造を決定するステップと、
前記局所線形構造に基づいて、前記最近傍デジタル画像と各デジタル画像との間の距離を決定するステップと、
を含むことを特徴とする方法。
前記最近傍デジタル画像と各デジタル画像との間の前記距離にスペクトルクラスタリングを適用するステップをさらに含むことを特徴とする請求項１に記載の方法。
デジタル画像セット内におけるオブジェクトをグループ化するためのコンピュータシステムであって、
前記デジタル画像セットの中の各デジタル画像は、アイデンティティを有する第一のオブジェクトを含んでおり、
前記デジタル画像セットにより定義された画像空間内において、前記デジタル画像セットの各デジタル画像に対する複数の最近傍デジタル画像を識別するための手段と、
前記デジタル画像セットの各デジタル画像の前記最近傍デジタル画像を用いて、前記デジタル画像セットの中の一以上のデジタル画像に関する局所線形構造を決定するための手段と、
前記局所線形構造に基づいて、前記最近傍デジタル画像と各デジタル画像との間の距離を決定するための手段と、
を備えていることを特徴とするシステム。
前記最近傍デジタル画像と各デジタル画像との間の前記距離にスペクトルクラスタリングを適用するための手段をさらに備えていることを特徴とする請求項３に記載のシステム。
デジタル画像セット内におけるオブジェクトをグループ化するための画像処理コンピュータシステムであって、
各デジタル画像がオブジェクトを表現する前記デジタル画像セットを表現するデータを受け取る入力部と、
前記デジタル画像セットを表現する前記データを記憶するために前記入力部に連結された記憶装置と、
前記デジタル画像セットを表現する前記データを読み出すために前記記憶装置に連結された処理部と、を備え、
前記処理部は、
前記デジタル画像セットにより定義された画像空間内において、前記デジタル画像セットの各デジタル画像に対する複数の最近傍デジタル画像を識別し、
前記デジタル画像セットの各デジタル画像の前記最近傍デジタル画像を用いて、前記デジタル画像セットの中の一以上のデジタル画像に関する局所線形構造を決定し、
前記局所線形構造に基づいて、前記最近傍デジタル画像と各デジタル画像との間の距離を決定する
ように構成されていることを特徴とする画像処理コンピュータシステム。
さらに、前記最近傍デジタル画像と各デジタル画像との間の前記距離にスペクトルクラスタリングを適用するように構成されていることを特徴とする請求項５に記載の画像処理コンピュータシステム。