JP2007511838A - 距離、局所線形構造およびアフィン対称を用いた画像クラスタリング - Google Patents

距離、局所線形構造およびアフィン対称を用いた画像クラスタリング Download PDF

Info

Publication number
JP2007511838A
JP2007511838A JP2006539997A JP2006539997A JP2007511838A JP 2007511838 A JP2007511838 A JP 2007511838A JP 2006539997 A JP2006539997 A JP 2006539997A JP 2006539997 A JP2006539997 A JP 2006539997A JP 2007511838 A JP2007511838 A JP 2007511838A
Authority
JP
Japan
Prior art keywords
digital image
image
images
clustering
nearest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006539997A
Other languages
English (en)
Other versions
JP4616841B2 (ja
Inventor
ジェフリー ホー
ジョンウ リン
ミンシュエン ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2007511838A publication Critical patent/JP2007511838A/ja
Application granted granted Critical
Publication of JP4616841B2 publication Critical patent/JP4616841B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • G06F18/21375Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps involving differential geometry, e.g. embedding of pattern manifold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Discrete Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

異なる視点位置から見られるオブジェクトのクラスタリング画像に関するシステムおよび方法を開示する。すなわち、未分類のn個のオブジェクトの画像セットが与えられた場合に、教師なしアルゴリズムが、各サブセットが単一のオブジェクトの画像のみを含むように、画像をN個のバラバラのサブセットにグループ化する。クラスタリング方法は、外観多様体の幾何学と二次元アフィン群の対称性との間の相互作用を利用した広範な幾何学的枠組みを利用する。

Description

本出願は、合衆国法律集(USC)35条§119(e)の下、米国仮特許出願番号60/520,004号、「距離、局所線形構造およびアフィン対称を用いた画像クラスタリング」に基づいて優先権を主張するものであり、この内容をすべて参照することによって本明細書中に組み込むものとする。
本出願は、2003年11月6日に出願された米国特許出願番号10/703,294号、「多様な照明条件におけるオブジェクトの外観のクラスタリング」に関し、この内容をすべて参照することによって本明細書中に組み込むものとする。
本発明は、一般的には、コンピュータビジョンの分野に関し、より詳細には、観測されたオブジェクトをオブジェクトの型によりクラスタリングすることに関する。
写真愛好家型のデジタルカメラから高性能コンピュータビジョンシステムまで、デジタル画像は、日々の生活になくてはならない部分となっている高成長の技術である。その最も基本的な定義において、デジタル画像は、デジタル撮像装置、例えばカメラ、ビデオカメラなどにより撮影されたサブジェクトまたはオブジェクトの画像のコンピュータ読み取り可能な表現である。コンピュータ読み取り可能な表現、すなわちデジタル画像は、典型的には、多くの入手可能なグラフィックフォーマットの一つにより画像ファイルまたはドキュメントに配列された多数の画素を含む。例えば、グラフィックファイルフォーマットのいくつかは、制限なく、ビットマップ、GIF(Graphics Interchange Format)、JPEG(Joint Photographic Experts Group)フォーマットなどを備えている。オブジェクトは、画像化された、例えば、撮影、ビデオ録画などをされたものである。一般的に、オブジェクトは、無生物の物質のオブジェクトまたはその一部分、ヒトまたはその一部分、景色、動物などであってもよい。オブジェクトの画像は、典型的に、画像をある程度一意的にする観測条件を備えている。撮像において、観測条件は、典型的には、カメラとオブジェクトとの間の相対配向(例えば、ポーズ)と、画像が得られる場所における外部の照明と、をいう。
画像間の観測者の視点位置が異なる3次元オブジェクトの画像の集まりが与えられたとすると、ヒトは、画像をクラスタリング、例えば、オブジェクトのアイデンティティに応じて画像をグループ化しようとする。この問題は、クラスタリング方法またはアルゴリズムの目標が画像間におけるいくつかの一定のパターンを検出することであるので、オブジェクトの画像が異なる観測条件下でどのように変わるかを理解することを要求する。この問題を解決するための、ある従来のコンピュータビジョンのアプローチは、画像特徴抽出のいくつかの種類、例えば、テクスチャ、形状、フィルターバンクの出力などを利用する。このことの説明は、B.L.SauxおよびN.Boujimaa,「Unsupervised robust clustering for image database categorization」,International Conference on Pattern Recognition,Volume 1 (2002)と、H.Friguiら,「Unsupervised clustering and feature discrimination with application to image database categorization」,Joint 9th IFSA World Congress and 20th NAFIPS Conference (2001)に記載されており、これらをすべて参照することによって本明細書中に組み込むものとする。このアプローチの根本的な仮定は、3次元オブジェクトの全体的または局所的な画像性質のいくつかが観測条件の広い範囲にわたって存在するということである。このアプローチの欠点は、これらの特徴を確実かつ安定的に抽出することは大抵の場合困難であるということである。
外観によるアプローチは、クラスタリングの問題に取り組むために異なる方法を利用しており、画像特徴抽出は、もはや重要な役割を果たしていない。代わりに、画像空間における画像間の幾何学的関係の概念が中心となり、基礎的な分析パラダイムは、外観多様体である。これらの概念の説明は、R.Basriら,「Clustering appearance of 3D objects」,Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. (1998)と、A.W.FitzgibbonおよびA.Zisserman,「On affine invariant clustering and automatic cast listing in movies」と、A.Heyden,G.Sparr,M.Nielsen,P.Johansen編集,Proceedings of the Seventh European Conference on Computer Vision.LNCS 2353,Springer-Verlag (2002)と、H.MuraseおよびS.K.Nayar,「Visual learning and recognition of 3-D objects from appearance」,International Journal of Computer Vision,Volume 14. (1995)と、に記載されており、これらをすべて参照することによって本明細書中に組み込むものとする。既存の外観による方法は、特徴抽出法における改善を示す一方、それでもなお信頼性の欠如および不整合性といった問題を有する。
従来の外観によるアプローチの欠点の基本は、図1を参照することにより理解可能である。図1(a)は、3つのオブジェクトの画像空間への仮想的/理想的射影を示しており、前記したMuraseおよびNayarの著書に説明されており、3つの軸が固有空間の3つの最も意義のある固有ベクトルを表している。3つの固有ベクトル/軸への制限によって直感的に理解可能な例が提供されるので、分析がより大きな数の固有ベクトル/軸に数学的に拡張されうる。各楕円110は、1つのオブジェクトに対応している。各楕円のサンプルポイント120は、一定の照明とともに、ポーズ、例えば、1つの軸まわりの回転をとった各オブジェクトの画像に対応している。クラスタリングの問題のエッセンスは、画像を正しい楕円と関連付けること、例えば、適切な楕円110との関連付けを介して特定の観測された画像およびその射影点を正確に識別することである。
一般的に、クラスタリングの問題は、データ120の固有の標本化された性質により、かつ、画像取り込み過程におけるエラーの存在により複雑化されている。このようなエラーは、例えば、画像取り込み装置における誤差またはノイズが原因で生じる。また、サンプルポイントは、互いに近接近して位置することがある。したがって、クラスタリング方法は、制限され不正確なデータからも信頼性のある結果を提供することができるように十分ロバストでなければならない。楕円110a上のデータに対して楕円110b上の他の観測されたデータが近接しているので、例えば、実際に楕円110aに属するデータ130は、間違って楕円110bに関連付けられることがある。したがって、クラスタリングアルゴリズムは、有効な距離測度を提供する仮想点140を構築することにより、多様体構造の情報を利用する必要がある。
不正確なクラスタリングに関する他の理由が図1bに示されており、仮想楕円150aおよび150cが図1aの対応物に対して傾いている。特に、領域160において、楕円が互いに十分に近接しているので、従来のクラスタリング方法では不安定さの原因となる。例えば、領域170に概念的に示されるように、図示されるサンプルポイントに基づいて複数の軌道が想定されることがある。
従来のシステム、例えば、SauxおよびBoujemaaの著書に記載されたシステムでは、外観によるクラスタリング方法は、しばしば射影、例えば、画像/多様体空間から最終的なクラスタリング動作が実行される低次元空間への幾何学的変換を用いる。領域160のような不安定な領域に関して言えば、正しい軌道を射影空間に合成することは困難である。このことは図2に説明されており、図2は3つの射影方法に基づく中間のクラスタリング結果を示す。図示された射影空間は、一定の照明の下で回転する三台のモデルカーの標本画像から求められている。
図2(a)は、前記したMuraseおよびNayarの著書に説明された主成分分析アルゴリズムの結果を示す。理解されるとおり、軌道が認識できないほどデータが高分散している、すなわち、クラスタリング決定のための根拠が存在しない。これは、局所線形構造が多様体構造の複雑な領域に関して不安定になる変換の利用を評価する結果である。図2(b)は、isomapアルゴリズムの結果を示す。この例は、Joshua B.Tenenbaum,Vin de SilvaおよびJohn C.Langford,「A Global Geometric Framework for Nonlinear Dimensionality Reduction」,Science,Vol.290,No.5500 (2000) に記載されており、これをすべて参照することによって本明細書中に組み込むものとする。軌道のセットが存在することは明らかであるが、個別の軌道の分離はほとんどできない。したがって、この場合も効果的なクラスタリングの根拠が存在しない。図2(c)は、局所線形埋め込みの結果を示す。この例は、Sam T.RoweisおよびLawrence K.Saul,Nonlinear Dimensionality Reduction by Locally Linear Embedding,Science,Vol.290,No.5500 (2000)に記載されており、これをすべて参照することによって本明細書中に組み込むものとする。重ね合わさった境界210により示されるように、クラスタリング決定を行うための根拠が存在する。しかし、重なり合った境界が、不安定または不正確なクラスタリングの可能性を示唆している。
前記したことに基づいて、ノイズおよび誤差の存在下で多種多様なオブジェクトに関する信頼性のある結果を産み出すことが可能な、画像クラスタリングに関する改良されたシステムおよび方法が必要である。
本発明は、改良された外観による画像クラスタリングに関するシステムおよび方法を含む。本方法は、まず、入力画像のすべての対間の距離測度を導出し、より精度の高い分析のための多数の最近傍画像(例えば、最も類似した画像)を選択する。続いての手順は、微分幾何学の原理に基づいている。それは、外観多様体の局所線形構造を求め、画像空間から低次元の分析空間への射影を利用する。改良された結果である最近傍画像間の距離測度は、距離行列に凝集される。この行列は、最終的なクラスタリング結果を産み出すためにスペクトルクラスタリングアルゴリズムに適用される。スペクトルクラスタリングは、組み合わせグラフ理論において集中的に研究されており、公知である。これらの概念の説明は、Y.Weiss,「Segmentation using eigenvectors: A unifying view」,Proceeding of IEEE International Conference on Computer Vision,Volume 2. (1999)と、F.R.K. Chung,「Spectral Graph Theory」,American mathematical Society (1997)と、J.Hoら,「Clustering appearances of objects under varying illumination conditions」,IEEE Conf. on Computer Vision and Pattern Recognition,Volume 1 (2003)と、に記載されており、これらをすべて参照することによって本明細書中に組み込むものとする。
本発明は、他の利点および特徴を有しており、本発明の後記する詳細な説明および添付の請求の範囲から明らかになるであろう。
画像空間内の入手可能な情報を用いることにより、本発明は、従来のシステムと比較してクラスタリング性能の向上を実現している。本発明の利点は、クラスタリング信頼性の向上、安定性の向上(例えば、任意の近接した画像の区別)および計算効率の向上を含む。
本発明のいくつかの実施形態について詳細に説明し、その実施例について添付図面に図解する。できる限り、同一または類似した参照符号が図面内で用いられており、同一または類似した機能を示すことができる。図面は、図解の目的のみのために本発明の実施形態を表している。当業者は、以下に説明される構造および方法の両実施形態が以下に示される本発明の原理から逸脱しない範囲で使用可能であることを以下の説明から容易に理解するであろう。
本発明の一実施形態に係る方法は、図3のフローチャートを参照して理解可能である。ステップ310では、n個の分類されていない画像の集まり{I,…,I}が受け取られる。すべての画像が同一のピクセル数sを有しており、画像をラスタライズすることにより、対応する標本点の集まり{x,…,x}が画像空間IRにおいて取得されるものと仮定する。クラスタリング方法の目的は、ρ(I)=ρ(I)のときかつそのときに限り二つの画像IおよびIが同一のクラスタに属するように、これらの画像に関するクラスタ割当ρ:{I,…,I}→{1,…,N}を出力することである。理想としては、各クラスタは、一つのオブジェクトの画像のみから構成されている。さらに、一つのクラスタの画像は異なる視点だが同一の環境照明条件下で取得されるものと仮定する。
ステップ320では、n個の画像のセットのうちの第一画像が選択される。ステップ330では、第一画像に対応する画像空間内のK個の最近傍画像のセットが決定される。このことは、公知技術、例えば、L距離またはその導関数(例えば、アフィン不変L距離または重みつきL距離)にしたがい実行可能である。状況に応じて、以下に説明される片側距離測度が使用可能である。このように定義された最近傍画像内において、距離以外の情報は、以下に示すように次に用いられる。その結果、全体的なクラスタリングの問題は、局所的なクラスタリング動作の集まりになる。パラメータKの選択は、デザイントレードオフであり、経験的な結果の議論において以下のように考慮される。
K個の最近傍画像のセットに関して、局所線形構造(LLS)アルゴリズムがステップ340ごとに適用される。このアルゴリズムは、前記したMuraseおよびNayarの著書において説明された位相外観多様体に関する複数の特性を順に含む。外観多様体は、二次元の具体的な画像を高次元の抽象的な空間IRにおける点として表現する結果生じるものであり、公知である。LLSの第一の特性は、1≦k≦Nであり、各Mがオブジェクトの外観多様体を表す場合において、n個の入力画像の集まりには、x,x∈Mのときかつそのときに限り、二つの入力画像標本x,xが同一のクラスタに属するように、IRにおけるN個の部分多様体の存在{M,…,M}が存在する。
LLSの第二の特性は、多様体および部分多様体の局所線形性である。すなわち、x,…xが同一のクラスタに属するデータ点でありかつ最近傍点である場合には、各点xはその最近傍点により線形的に近似可能であり、ある実数aに関して
Figure 2007511838
が成立する。
LLSの第三の特性は、二次元(2D)アフィン群Gの作用である。このことは、微分幾何学の特性であり、一般的なデータクラスタリングの問題から画像クラスタリングの問題を区別する。例えば、{x,…x}が気象または高エネルギー物理実験のデータである場合には、Gの明確な作用はない。IRにおける点形成のための入力画像の二次元的性質および画像のラスタライズによると、Gの作用は、標本点xが与えられた場合に、陽的に計算される。特に、各外観部分多様体Mは、Gの下で不変である。すなわち、各γ∈Gに関して、x∈Mである場合に、γ(x)∈Mである。この意味では、クラスタリングの問題は、2Dアフィン群によって対称性を取得する。
これらLLSステップ340の原理は、図4の幾何学的解釈により視覚化可能である。多様体410は、入力データxに対応している。その正確な構造は知られていないが、その特徴のいくつかは知られておりLLSアルゴリズムにより使用可能である。特に、一以上の最近傍点xに対して、多様体410は、連続的であり、局所的に線形であり、複数の「軌道」、例えば巡回線形軌道を含む。最後の性質は、当該技術分野において「アフィン対称」と呼ばれている。
対照的に、局所線形性を用いる従来の方法は、前記したFitzgibbonおよびZissermanの著書に説明されているように、主成分分析(PCA)を用いた「接空間」の計算を含む。
PCAは、比較的単純な多様体領域に適用される場合に効果的である一方、複雑な領域に適用される場合には不安定になることがある。例えば、PCAは、図1(a)の多様体構造に適用される場合には効果的であるが、図1(b)に適用される場合には効果的ではないことがある。
画像多様体の局所線形性を用いた、よりロバストな方法は、図5に示されるように、その最近傍点による標本点の割線近似(secant approximation)を利用する。図示される滑らかな2D曲線に関して、各点xは、十分に近接した二つの最近傍点
Figure 2007511838
(ただし、a,aはゼロ以上の数であり、a+a=1)により形成された割線弦(secant chord)上の点により近似可能である。このことは、高次元に対してすぐに一般化可能であり、点xおよびその最近傍点{y,…y}に関して、ゼロ以上の係数ωのセットは、以下の最適化問題を解くことにより計算可能である。
Figure 2007511838
ただし、
Figure 2007511838
の制限がある。K≪sであるので、{y,…y}は、一般的に線形独立である。したがって、係数ωは、おおむね一意である。図6は、線形構造の存在を検出するために、係数ωの大きさが局所的にアフィニティ測定(affinity measure)として利用可能なことを説明するための図である。すなわち、ωの大きさが大きいことは、yおよびxが共通の局所線形構造を共有している可能性を示す。クラスタリングの問題に対して、換言すると、このことは画像yおよびxが同一のオブジェクトに対応していることを示す。
前記したように、アフィン対称は、アフィン不変関係における距離測度と外観多様体の局所線形構造とを組み合わせたLLSアルゴリズムにより利用可能である。このことは、商空間の数学的概念に応じて、アフィン不変様式において式1を再公式化することにより自動的に処理される。このことの説明は、D.Mumfordら,「Geometric Invariant Theory」,Springer-Verlag (1994) に記載されており、これをすべて参照することによって本明細書中に組み込むものとする。一般的に、多様体Mに作用する群Gは、商空間である抽象的な位相空間M/Gに関連する。さらに調べると、図4を再び参照すると、空間M/Gは、群作用の軌道440をパラメータ化する。G作用の下で不変であるMにおいて定義された量は、自然射影によって空間M/Gにおいて派生した量として定義可能である。例えば、換言すると、MにおけるG不変距離測度は、M/Gにおける距離測度を定義する。
このことをクラスタリングの問題に適用すると、多様体Mは、外観部分多様体の和{M,…M}であり、群Gは、二次元のアフィン群である。自然射影写像π:M→M/Gは、Mの各点xを点[x]∈M/Gに写像し、したがって、xを含む軌道をパラメータ化する。多様体{M,…,M}は、M/Gに次元を下げて、
Figure 2007511838
を形成する。多様体{M,…,M}のアフィン不変の局所線形構造は、
Figure 2007511838
の局所線形構造を含む。
Figure 2007511838
の局所線形構造は、商空間に関する標準的なスライス構造に対する類推により計算可能である。このことの説明は、D.Mumfordら、「Geometric Invariant Theory」,Springer-Verlag (1994)に見られ、これに全体的に組み込まれている。特に、M/Gの各点[x]に関して、局所線形構造は、π(x)=[x]となる標本点x∈Mに計算の次元を上げることにより計算可能である。図4に示されるように、各点xにおいて、群作用の「スライス」450、例えば、xを介するG作用に直交するxを中心とする線形部分空間をとることにより、スライスの局所線形構造が分析可能である。各標本点xに関して、スライスSが求められる。他の標本点すべてが、Gを用いてSに射影され、例えば標本点460に関して、γ(y)∈Sとなるγ∈Gが求められる。このことは、点430cとして図解的に示される。このようなγは、すべてのyに存在するのではなく、このような点のいくつかのみがxの最近傍点を特徴づけるのに必要とされる。{y’,…,y’}をスライスSに射影された点とする。SにおけるL距離測度は、xのK個の最近傍点、すなわち{y’,…,y’}を選択するのに用いられ、これらの最近傍点は、式1を介して[x]での局所線形構造を定義するのに用いられる。
一つの実施態様において、前記したスライス構造が修正される。実際に部分空間Sを計算する代わりに、K個の最近傍点{y’,…,y’}が「片側距離」を用いることにより決定される。このことの説明は、J.ShiおよびJ.Malik,「Normalized cuts and image segmentation」,IEEE Transactions on Pattern Analysis and Machine Intelligence 22 (2000) に記載されており、これをすべて参照することによって本明細書中に組み込むものとする。各入力標本yに関して、片側距離は、
Figure 2007511838
として定義される。
(x,y)は距離ではないが、xのK個の最近傍点、例えば、{y’,…,y’}の定義を可能にする。これらの最近傍点は、{γ(y),…,γ(y)}であり、ここで、各γはxとyとの間の片側距離を最小にする。
三次元多様体および二次元射影は、視覚的利便性のために前記したように図解され、開示された原理は、必要に応じて高次元幾何に拡張可能である。
要約すれば、LLSステップ340は、アフィン群G下において共に不変である距離および局所線形構造の両方を用いる。これら三つの非常に一般的な構造を組み合わせることによって、全体的なクラスタリングアルゴリズムへの貢献が効果的かつ効率的であるLLSアルゴリズムを公式化する。
図3に戻り、ステップ350では、距離測度の行列dΩは、標本点xおよびxの対の間から導出され、dΩ(x,x)=min(1/Ωij,1/Ωji)である(ここで、ωijは各xに関してステップ340で計算される係数である)。xがxのK個の最近傍点の中にない場合には、ωijは0に設定される。
ステップ360は、すべての画像の最近傍画像が求められたか否かを判断し、求められていない場合には、次の画像が選択されステップ330から360が繰り返される。すべての画像が求められた場合には、距離行列が完成する。続いて、ステップ370が呼び出され、標準的なスペクトルクラスタリングアルゴリズムが最終的なクラスタリング結果を産み出す。このことの説明は、Andrew Ng,Michael JordanおよびYair Weiss,「On Spectral Clustering: Analysis and An Algorithm」,Advances in Neural Information Processing Systems,pp. 849-856 (2002) に記載されており、これをすべて参照することによって本明細書中に組み込むものとする。
ここで図7を参照すると、本発明の他の実施形態に係るシステムが示されている。コンピュータシステム700は、入力部710と、記憶装置714と、処理部716と、出力部718と、を備えている。代わりの実施形態では、画像処理部712が主処理部716の一部またはデジタル画像を所望の画像フォーマットにフォーマットする専用装置になっている。同様に、記憶装置714は、スタンドアロンの記憶装置(例えば、RAMチップ、フラッシュメモリなど)または処理部716に用いられるオンチップメモリ(例えば、キャッシュメモリ)であってもよい。同様に、コンピュータシステム700は、サーバ、パソコンなどのスタンドアロンシステムであってもよい。また、コンピュータシステム700は、例えば、視覚システムを有するロボット(例えば、日本の東京に所在する本田技研工業株式会社の最新人間型ロボットASIMO(登録商標))、セキュリティシステム(例えば、空港セキュリティシステム)などのように、大型システムの一部であってもよい。
この実施形態によると、コンピュータシステム700は、デジタル画像Iを受け取るための入力部710を備えている。デジタル画像Iは、撮像装置、例えば、デジタルカメラ701a(例えば、ロボットの眼)、ビデオシステム701b(例えば、有線TV)、画像スキャナなどから直接受け取られてもよい。また、入力部710は、他のネットワークシステム、例えば、画像データベース、他の視覚システム、インターネットサーバなどからデジタル画像を受け取るためのネットワークインターフェースであってもよい。ネットワークインターフェースは、USB、RS−232シリアルポート、イーサネット(登録商標)カードなどのような有線インターフェースであってもよく、また、無線プロトコル、例えば、ブルートゥース、WiFi、IEEE802.11などを用いて通信するように構成された無線装置のような無線インターフェースモジュールであってもよい。
付随的な画像処理部712は、処理部716の一部またはシステム700の専用装置であってもよい。画像処理部712は、入力部710を介して受け取られたデジタル画像Iを前処理して、デジタル画像Iを処理部716が作動するための所望のフォーマットに変換する。例えば、入力部710を介して受け取られたデジタル画像IがJPEGフォーマットでデジタルカメラ710aから来ており、処理部がラスタ画像データに基づいて作動するように構成されている場合には、画像処理部712は、JPEGからラスタ画像データに変換するために使用可能である。
画像処理部712が用いられる場合には、デジタル画像Iは、処理部716により処理可能なように、一旦所望の画像フォーマットで記憶装置714に記憶される。処理部716は、命令セットを適用し、命令セットが実行された場合に、本発明に係る一以上の方法、例えば、最近傍選択、局所線形構造演算などを実行する。命令セットの実行中、処理部716は、記憶装置714にアクセスし、記憶装置714に記憶された画像データに基づいて、本発明の方法に係る動作を実行する。
処理部716は、入力画像Iをクラスタリングし、結果を出力部718を介して外部装置725(例えば、データベース725a、ネットワーク構成要素またはサーバ725b、表示装置725cなど)に出力する。入力部710と同様に、出力部718は、有線または無線であってもよい。出力部718は、記憶装置のインターフェース(例えば、ハード・ドライブまたは光学式ハード・ドライブのドライバ)、ネットワークインターフェース装置(例えば、イーサネット(登録商標)インターフェースカード、無線ネットワークカードなど)またはディスプレイ・ドライバ(例えば、グラフィックス・カードなど)、またはクラスタリング結果を出力するためのあらゆる装置であってもよい。
本発明の実施形態は、サンプル画像のライブラリに適用することにより検証される。3Dオブジェクトに関しては、有効なオブジェクト認識アルゴリズムに関する一般的なデータセットであるコロンビア大学のCOILデータセットが用いられる。このことの説明は、前記したMuraseおよびnayarの著書に見られる。これらは、20個および100個のオブジェクトの画像をそれぞれ含むCOIL20およびCOIL100を備えている。両データセットに関して、オブジェクトがターンテーブル上で回転されることにより、各オブジェクトの画像が5度ごとに撮影され、各オブジェクトは72個の画像を含むようになっている。この標本は、クラスタリングアルゴリズムを強調するために間引かれる。したがって、以下の説明において、COIL20.2は、2個ごとに間引くことによりCOIL20から得られた画像の集まりを示し、たとえは、COIL20.2は、COIL20と同数のオブジェクトを含むが、オブジェクトごとの画像は半分である。同様に、COIL20.4は、4個ごとに間引くことによりCOIL20から得られた画像の集まりを示し、以下同様である。
新たなデータセットVEH10.2は、車両の画像を抽出することによりCOIL100.2から形成される。これらの車両は類似した外観を有しており、クラスタリングアルゴリズムを困難にする。さらに、ヒトの顔の画像シーケンスは、10の画像シーケンス、例えば、各シーケンスごとに50個の画像を含むFACE10を形成するために10人のビデオ画像から集められる。この集まりのポーズのバリエーションは、実に大きく、非一様である。
図8には、実験結果が報告されている。本発明の成績は、COIL100.4を除くすべてのデータセットに関して良から優に及んでいる。COIL100.4に関するアルゴリズムの成績は、まばらに標本化された(例えば、20度ごと)100個のオブジェクトを考慮すると意外ではない。エラー率は、データセットの画像数に対するクラスタリングが失敗した画像の数の比として計算される。エラー率は、局所的な最近傍画像の個数であるパラメータKとともに示される。
図9は、本発明の成績といくつかの従来のアルゴリズムとを比較している。データセットは、前記したとおりであり、百分率の成績は、前記したように計算される。最低から最高の成績の順に、結果を以下に要約する。
≪ユークリッド距離+K平均クラスタリング≫
データは、アフィン不変ではない直接L比較は効果的ではないことを示している。
≪ユークリッド距離+スペクトルクラスタリング≫
同様に、データは、アフィン不変ではない直接L比較は効果的ではないことを示している。
≪アフィン不変+スペクトルクラスタリング≫
ここで、アフィン不変は、局所的な比較なしに用いられる。
これは、前記した「片側」距離測度であり、低い成績に終わっている。
≪アフィン不変+K最近傍+スペクトルクラスタリング≫
このケースは、局所線形構造を組み入れていることにより成績が向上することを示している。
≪アフィン不変+K最近傍+局所線形構造+スペクトルクラスタリング≫
このケースは、本発明の一実施形態を示しており、LLSを含み、非距離情報の利用のメリットとして、最高の結果を一貫して示している。このケースでは、一旦最近傍構造が決定されると、局所線形構造は、最近傍における点をクラスタリングするために用いられることに留意すべきである。
当業者であれば、本発明の開示された原理を介して、外観による画像クラスタリングに関するシステムおよび方法に対する追加的で代替的な構造および機能的設計を理解可能である。以上、本発明の特定の実施形態および適用について図解して説明したが、本発明は前記実施形態および適用に開示された厳格な構造および構成要素に限定されず、添付された請求の範囲に定義された本発明の要旨および範囲を逸脱しない限り、本実施形態および適用に開示された本発明の装置および方法の配置、動作および詳細に対して当業者による多様な修正、変更および変形が可能であることが理解可能である。
外観多様体およびクラスタリング方法の一般的な概念を説明するための図である。 外観多様体および従来のクラスタリング方法の概念を説明するための図である。 本発明の一実施形態に係る本発明の方法を説明するためのフローチャートである。 本発明の一実施形態に係る画像空間における外観多様体および商空間上への射影の幾何学的解釈を説明するための図である。 本発明の一実施形態に係る二次元における割線弧近似の概念を説明するための図である。 本発明の一実施形態に係る二次元における局所線形性の概念を説明するための図である。 本発明の一実施形態を実装するためのシステムを説明するための図である。 本発明の一実施形態を用いた実験結果を説明するための図である。 様々なクラスタリング方法の成績評価の結果を説明するための図である。

Claims (6)

  1. デジタル画像セット内におけるオブジェクトをグループ化するためのコンピュータによる方法であって、
    前記デジタル画像セットの中の各デジタル画像は、アイデンティティを有する第一のオブジェクトを含んでおり、
    前記デジタル画像セットにより定義された画像空間内において、前記デジタル画像セットの各デジタル画像に対する複数の最近傍デジタル画像を識別するステップと、
    前記デジタル画像セットの各デジタル画像の前記最近傍デジタル画像を用いて、前記デジタル画像セットの中の一以上のデジタル画像に関する局所線形構造を決定するステップと、
    前記局所線形構造に基づいて、前記最近傍デジタル画像と各デジタル画像との間の距離を決定するステップと、
    を含むことを特徴とする方法。
  2. 前記最近傍デジタル画像と各デジタル画像との間の前記距離にスペクトルクラスタリングを適用するステップをさらに含むことを特徴とする請求項1に記載の方法。
  3. デジタル画像セット内におけるオブジェクトをグループ化するためのコンピュータシステムであって、
    前記デジタル画像セットの中の各デジタル画像は、アイデンティティを有する第一のオブジェクトを含んでおり、
    前記デジタル画像セットにより定義された画像空間内において、前記デジタル画像セットの各デジタル画像に対する複数の最近傍デジタル画像を識別するための手段と、
    前記デジタル画像セットの各デジタル画像の前記最近傍デジタル画像を用いて、前記デジタル画像セットの中の一以上のデジタル画像に関する局所線形構造を決定するための手段と、
    前記局所線形構造に基づいて、前記最近傍デジタル画像と各デジタル画像との間の距離を決定するための手段と、
    を備えていることを特徴とするシステム。
  4. 前記最近傍デジタル画像と各デジタル画像との間の前記距離にスペクトルクラスタリングを適用するための手段をさらに備えていることを特徴とする請求項3に記載のシステム。
  5. デジタル画像セット内におけるオブジェクトをグループ化するための画像処理コンピュータシステムであって、
    各デジタル画像がオブジェクトを表現する前記デジタル画像セットを表現するデータを受け取る入力部と、
    前記デジタル画像セットを表現する前記データを記憶するために前記入力部に連結された記憶装置と、
    前記デジタル画像セットを表現する前記データを読み出すために前記記憶装置に連結された処理部と、を備え、
    前記処理部は、
    前記デジタル画像セットにより定義された画像空間内において、前記デジタル画像セットの各デジタル画像に対する複数の最近傍デジタル画像を識別し、
    前記デジタル画像セットの各デジタル画像の前記最近傍デジタル画像を用いて、前記デジタル画像セットの中の一以上のデジタル画像に関する局所線形構造を決定し、
    前記局所線形構造に基づいて、前記最近傍デジタル画像と各デジタル画像との間の距離を決定する
    ように構成されていることを特徴とする画像処理コンピュータシステム。
  6. さらに、前記最近傍デジタル画像と各デジタル画像との間の前記距離にスペクトルクラスタリングを適用するように構成されていることを特徴とする請求項5に記載の画像処理コンピュータシステム。
JP2006539997A 2003-11-13 2004-11-15 距離、局所線形構造およびアフィン対称を用いた画像クラスタリング Active JP4616841B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US52000403P 2003-11-13 2003-11-13
PCT/US2004/038347 WO2005050533A2 (en) 2003-11-13 2004-11-15 Image clustering with metric, local linear structure, and affine symmetry

Publications (2)

Publication Number Publication Date
JP2007511838A true JP2007511838A (ja) 2007-05-10
JP4616841B2 JP4616841B2 (ja) 2011-01-19

Family

ID=34619416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006539997A Active JP4616841B2 (ja) 2003-11-13 2004-11-15 距離、局所線形構造およびアフィン対称を用いた画像クラスタリング

Country Status (4)

Country Link
US (1) US7248738B2 (ja)
EP (1) EP1756752A4 (ja)
JP (1) JP4616841B2 (ja)
WO (1) WO2005050533A2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19902836A1 (de) 1999-01-20 2000-07-27 Siemens Ag Verfahren zur Verbindung eines Kontaktkörpers und eines flexiblen Leiters sowie Preßform zur Durchführung des Verfahrens
US7814040B1 (en) 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US20080243829A1 (en) * 2007-03-29 2008-10-02 Microsoft Corporation Spectral clustering using sequential shrinkage optimization
WO2009038822A2 (en) * 2007-05-25 2009-03-26 The Research Foundation Of State University Of New York Spectral clustering for multi-type relational data
US9202140B2 (en) * 2008-09-05 2015-12-01 Siemens Medical Solutions Usa, Inc. Quotient appearance manifold mapping for image classification
US9183261B2 (en) 2012-12-28 2015-11-10 Shutterstock, Inc. Lexicon based systems and methods for intelligent media search
US9183215B2 (en) 2012-12-29 2015-11-10 Shutterstock, Inc. Mosaic display systems and methods for intelligent media search
US9712746B2 (en) 2013-03-14 2017-07-18 Microsoft Technology Licensing, Llc Image capture and ordering
US9305371B2 (en) 2013-03-14 2016-04-05 Uber Technologies, Inc. Translated view navigation for visualizations
WO2016154136A1 (en) * 2015-03-20 2016-09-29 Rensselaer Polytechnic Institute Automatic system calibration method of x-ray ct
WO2016198929A1 (en) * 2015-06-12 2016-12-15 Mathur Ashok Chand Method and apparatus of very much faster 3d printer
WO2017059250A1 (en) * 2015-09-30 2017-04-06 Hampton Creek, Inc. Systems and methods for identifying entities that have a target property
WO2019090509A1 (zh) * 2017-11-08 2019-05-16 深圳大学 一种高光谱图像的分类方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203461A (ja) * 1997-10-28 1999-07-30 Ricoh Co Ltd 図形分類方法、図形検索方法、図形分類システム、図形検索システム、図形分類用特徴抽出方法、図形分類用表作成方法、情報記録媒体、図形間の類似度又は相異度の評価方法、図形正規化方法、及び、図形間対応付け方法
JP2002318818A (ja) * 2001-04-20 2002-10-31 Canon Inc データ処理装置及びその方法、及びそのプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5239596A (en) * 1990-06-08 1993-08-24 Xerox Corporation Labeling pixels of an image based on near neighbor attributes
US6052485A (en) * 1997-02-03 2000-04-18 The United States Of America As Represented By The Secretary Of The Navy Fractal features used with nearest neighbor clustering for identifying clutter in sonar images
US6512850B2 (en) * 1998-12-09 2003-01-28 International Business Machines Corporation Method of and apparatus for identifying subsets of interrelated image objects from a set of image objects
JP4486596B2 (ja) * 2002-11-07 2010-06-23 本田技研工業株式会社 変化する照明条件下での物体の外観のクラスタリング

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203461A (ja) * 1997-10-28 1999-07-30 Ricoh Co Ltd 図形分類方法、図形検索方法、図形分類システム、図形検索システム、図形分類用特徴抽出方法、図形分類用表作成方法、情報記録媒体、図形間の類似度又は相異度の評価方法、図形正規化方法、及び、図形間対応付け方法
JP2002318818A (ja) * 2001-04-20 2002-10-31 Canon Inc データ処理装置及びその方法、及びそのプログラム

Also Published As

Publication number Publication date
WO2005050533A2 (en) 2005-06-02
US7248738B2 (en) 2007-07-24
EP1756752A2 (en) 2007-02-28
WO2005050533A3 (en) 2006-11-23
JP4616841B2 (ja) 2011-01-19
EP1756752A4 (en) 2011-03-16
US20050141769A1 (en) 2005-06-30

Similar Documents

Publication Publication Date Title
Soltanpour et al. A survey of local feature methods for 3D face recognition
Lu et al. Remote sensing scene classification by unsupervised representation learning
JP5121506B2 (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP4161659B2 (ja) 画像認識システム及びその認識方法並びにプログラム
Patil et al. 3-D face recognition: features, databases, algorithms and challenges
Mokhayeri et al. Domain-specific face synthesis for video face recognition from a single sample per person
US8116566B2 (en) Unknown pattern set recognition
Sarangi et al. Fusion of PHOG and LDP local descriptors for kernel-based ear biometric recognition
JP4616841B2 (ja) 距離、局所線形構造およびアフィン対称を用いた画像クラスタリング
JP5574033B2 (ja) 画像認識システム及びその認識方法並びにプログラム
Taha et al. Learned 3D shape representations using fused geometrically augmented images: Application to facial expression and action unit detection
Immidisetti et al. Simultaneous face hallucination and translation for thermal to visible face verification using axial-gan
Luevano et al. A study on the performance of unconstrained very low resolution face recognition: Analyzing current trends and new research directions
Banerjee et al. Weber local descriptor for image analysis and recognition: a survey
Fadaifard et al. Multiscale 3D feature extraction and matching with an application to 3D face recognition
Bahroun et al. Deep 3D-LBP: CNN-based fusion of shape modeling and texture descriptors for accurate face recognition
Jin et al. Learning facial expressions with 3D mesh convolutional neural network
Chen et al. 3d face mask anti-spoofing via deep fusion of dynamic texture and shape clues
Chong et al. Feature fusions for 2.5 D face recognition in random maxout extreme learning machine
Padole et al. Compensating for pose and illumination in unconstrained periocular biometrics
Barra et al. Unconstrained ear processing: What is possible and what must be done
Quan et al. Statistical shape modelling for expression-invariant face analysis and recognition
Huang Robust face recognition based on three dimensional data
Al-Obaydy et al. Patch-based pose invariant features for single sample face recognition
Kapse et al. Eye-referenced dynamic bounding box for face recognition using light convolutional neural network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101019

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101022

R150 Certificate of patent or registration of utility model

Ref document number: 4616841

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250