JP2004054957A - データ分布を表現する方法、データ要素を表現する方法、データ要素の記述子、照会データ要素を照合または分類する方法、その方法を実行するように設定した装置、コンピュータプログラム並びにコンピュータ読み取り可能な記憶媒体 - Google Patents

データ分布を表現する方法、データ要素を表現する方法、データ要素の記述子、照会データ要素を照合または分類する方法、その方法を実行するように設定した装置、コンピュータプログラム並びにコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2004054957A
JP2004054957A JP2003276754A JP2003276754A JP2004054957A JP 2004054957 A JP2004054957 A JP 2004054957A JP 2003276754 A JP2003276754 A JP 2003276754A JP 2003276754 A JP2003276754 A JP 2003276754A JP 2004054957 A JP2004054957 A JP 2004054957A
Authority
JP
Japan
Prior art keywords
data
descriptor
node
data element
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003276754A
Other languages
English (en)
Other versions
JP4511135B2 (ja
Inventor
Wladyslaw Skarbek
ウラディスロー・スカルベク
Miroslaw Bober
ミロスロー・ボバー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Elecric Information Technology Centre Europe BV
Mitsubishi Electric Information Technology Corp
Mitsubishi Electric R&D Centre Europe BV Netherlands
Original Assignee
Mitsubishi Elecric Information Technology Centre Europe BV
Mitsubishi Electric Information Technology Corp
Mitsubishi Electric Information Technology Center Europe BV Nederlands
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Elecric Information Technology Centre Europe BV, Mitsubishi Electric Information Technology Corp, Mitsubishi Electric Information Technology Center Europe BV Nederlands filed Critical Mitsubishi Elecric Information Technology Centre Europe BV
Publication of JP2004054957A publication Critical patent/JP2004054957A/ja
Application granted granted Critical
Publication of JP4511135B2 publication Critical patent/JP4511135B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】画像データを処理する方法および装置を提供する。
【解決手段】オブジェクトまたは画像に対応する信号を処理することによって当該オブジェクトまたは画像から導き出したデータ分布を表現する方法であって、データ分布から導き出した第1のデータ分布の近似表現を再帰的に(recursively)導き出すことと、データ要素の誤差を、前記近似表現に関して示した第2のデータ分布として分析することとを含む。前記データ要素は多次元であり、前記近似表現は、データ空間の部分空間である。また、前記部分空間は、主成分分析を用いて導き出され、前記誤差の分析は、クラスタリングを含む。
【選択図】図5

Description

 本発明は、多次元データの分布を分析および表現し、データ項目を分類する方法および装置に関する。本発明は、特に、オブジェクトおよび顔の局所化(localisation)すなわち認識といった技術における画像データ、および画像またはビデオコンテンツの分析に係る。
 多次元データの簡潔な(compact)表現および分析は、デジタル信号におけるオブジェクト認識および索引付け用のシステムの設計および性能に重大な影響を与える。かかる信号の例は、画像またはビデオ信号である。従来の手法に伴う主な問題は、計算の複雑性が高いことであり、この複雑性は、通常、データの次元数に伴い指数関数的に増す。現存の方法に伴う別の問題は、あまり一般化ができないことであり、例えば当該方法の性能は、利用可能なデータが増加するにつれて急速に低下する。これは、そのシステムの設計または訓練段階では利用可能でなかった「部類」の信号を表す新たなデータが追加された場合に特に顕著である。
 複雑性の問題を軽減するための一般的な解決策の1つは、主成分分析(Principal Component Analysis:PCA)によってデータ次元数を下げることである。PCAは、全ての訓練ベクトルについて最もよく近似する線形部分空間を探す。局所的PCA(Local PCA:LPCA)と呼ばれる別の技法は、よりよいデータ近似を与える局所的線形部分空間のセットを計算する。局所的線形近似の探索は、クラスタリングプロセスの特別な場合とみなすことができ、当業者に広く用いられている。例えば、LPCA法は、手書き文字認識に関して開発および適用に成功している(非特許文献1参照)。LPCAに対するさらなる改良は、ファジィ手法との組み合わせ(ファジィLPCAすなわちFLPCA)により達成することができる(非特許文献2及び2参照)。
 本発明の理解の助けとするため、PCA、LPCAおよびFLPCAという従来技術の概要を以下に述べる。
 主成分分析は、データ表現の次元を下げるために用いられる最も一般的な方法の1つである。これは、n次元のデータベクトルXの、k次元の線形部分空間Sへの正射影Psに基づくものである(k<n)。部分空間Sは、データベクトルXiと、その部分空間S上の射影Ps(Xi)との間の二乗誤差の期待値Eを最小化するものとして定義される、すなわちE‖X−Ps(X)‖2。図1は、2次元のデータ分布および1次元の部分空間Sの一例を示す。
 図2は、1つの線形部分空間Sでは近似が粗くなるデータの一例を示す。このような状況では、局所的PCAがよりよい表現を与えることが多い。LPCAは、データのクラスタリングを行い、各データクラスタ毎に異なる線形モデルを用いる。図2において、データは、2つのクラスタに分割され、2つの部分空間S1およびS2においてよく近似されている。各データベクトルは1つのクラスタのみに属することに留意されたい。これは、クリスプクラスタリングと呼ばれることがある。クラスタ近接度を用いて、データベクトルXiがどのクラスタに属するかを判定する。データベクトルは、対応するクラスタ近接度を最小化するクラスタに属する。局所的主成分分析(LPCA)では、近接度は通常、ベクトルXiからクラスタによって定義される部分空間までの平方ユークリッド距離として選択される。クラスタおよび関連する局所的部分空間の探索は、定義した表現の誤差の期待値を最小化することを目的とした最適化の問題である。
 LPCAとFLPCAとの間の主な違いは、後者では、データベクトルXiが2つ以上のクラスタに属する場合があり、各クラスタとの関連の強さが異なり得ることである。FLPCAにおいて、モデルは、オブジェクトデータ空間(object data space)に定義されるK個のファジィクラスタからなる。各ファジィクラスタは、上記データ空間にわたって定義され、[0,1]の間隔から値をとるメンバシップ関数μ(X)によって表される。1に近いメンバシップ値は強い関連レベルに相当し、ゼロに近いメンバシップ値は弱い関連に相当する。標準的なクリスプクラスタリングの場合、メンバシップ値は、2つのレベルすなわち0または1しか持たない。図3は、モデルが2つのファジィクラスタと、対応する部分空間とからなる一例を示す。データベクトルXAが同じ関連の強さμ(XA)=(0.5,0.5)で両方のクラスタに属するのに対し、ベクトルXBはクラスタ2により強く関連する、すなわちμ(XB)=(0.2,0.8)。
 PCA、LPCAおよびファジィLPCA手法は、訓練データセットを基に構築される「データモデル」を用いる。このモデルは、アプリケーションデータの簡潔なベクトル記述子を抽出するために用いられる。そのモデルでは近似が粗くなる新たなデータベクトルが後に発見されることは頻繁にある。かかるベクトルは、大きな復元誤差(reconstruction error)を生じる。考え得る一対応策は、新しいモデルを作成することであるが、その場合、以前に計算した記述をすべて廃棄して計算し直さなければならない。これは、特に分散環境で協働するアプリケーション群にとって深刻な問題となり得る。
「局所的主成分分析による手書き数字認識(Handwritten digit recognition by local principal component analysis)」と題する論文(SkarbekおよびIgnasiak著、"Foundations of Intelligent Systems", eds.: Z. W. Ras, A. Skowron, pp. 217-226, Lecture Notes in Computer Science, vol. 1325, Springer, 1997による) Bezdek、Coray、Gunderson、およびWatson著「クラスタの部分構造の検出および特性化 I.線形構造:ファジィCライン(Detection and Characterization of Cluster Substructure. I. Linear structure: Fuzzy c-Lines)」(SIAM J. Appl. Math., vol.40, 1981) Bezdek著「ファジィ目的関数アルゴリズムを用いたパターン認識(Pattern Recognition with Fuzzy Objective Function Algorithms)」(Plenum Press, 1981)
 本発明は、容易に拡張可能な、下位および上位互換性のある高次元データの簡潔な階層表現方法を開示する。
 本方法は、特にオブジェクト指向の画像の圧縮および認識に適用した場合に、非常に良好な性能を発揮する。
 例として、自動的または補助的(assisted)顔認識の問題に適用した本発明を考察する。顔認識問題は難しい問題である。なぜなら、顔の画像は、様々な顔の姿勢、髪型、眼鏡や口髭の存在、または加齢といった変化により大きな可変性を示すからである。これらすべての影響が各個人に大きな自由度を生むため、現存の顔の記述方式は多くの場合に、十分な精度で顔をモデル化することができない。この問題を解決するために、より柔軟性および適応性がある「顔モデル」が必要である。しかしこれは、現存の手法で用いられるモデルを変更すると全ての記述子を計算し直す必要があるため、問題を生じる。
 提案する本発明は、現存および既存のモデルの具体例を用いて導き出された記述子間の下位および上位互換性をサポートする適応モデルを構築および維持する方法を示す。現在のモデルがデータまたはデータの一部を十分に反映しないことを示すいくつかの証拠がある場合、例えばデータの一部または全部の検索性能が低下している場合には、データモデルに対して変更を行うことができる。下位互換性は完全にサポートされる。つまり、記述子の抽出に既存モデルを用いるアプリケーションが、新たな記述子を既存の記述子と容易に比較することができる。新たな記述子と既存の記述子の両方を、共通フォーマットに変換することなく、探索または他の処理に同時に用いることができる。例えば、既存のモデルに基づく記述子に関する照会を、新しい(更新した)モデルを用いて記述子を抽出したデータベースに対して行った場合、システム応答は、全ての記述子が既存のモデルに基づいたものである状況と等価である。
 本発明はまた、高次元データの簡潔な階層表現方法を開示する。データベクトルは、より低次元の部分記述子のセットとして記述される。各部分記述子は、ファジィな局所的線形部分空間においてモデル化されるデータクラスタに関係する。データベクトルの各部分記述子は、各自のクラスタ所属度と、局所的部分空間(複数可)におけるデータベクトル座標とを含む。訓練データについて得た階層モデルを用いて、同一アプリケーションドメイン中の他のデータを表現することができる。提案するモデルは拡張可能である。すなわち、現存のモデルがデータを十分な精度で表現できなかった場合は、これを改善することができる。改善モデルは下位互換性がある。すなわち、元のモデルで示された記述子は、改善モデルを用いたアプリケーションによって正確に解釈(解読)される。さらに、元のモデルを用いたアプリケーションが、改善モデルを用いて計算された記述子を解読できるため、上位互換性が達成される。本方法は、特にオブジェクト指向の画像の圧縮および認識に適用した場合に、非常に良好な性能を発揮する。
 本発明は概して、データ分布を分析および/または表現する方法を提供し、本方法は、データ分布の近似表現を導き出すことと、当該近似表現に関して示したデータ要素の誤差を分析することとを含む。本方法は再帰的である。換言すれば、誤差の分析は、誤差の分布の近似表現を導き出すこと、次に、結果として生じた誤差を分析することを、終了基準を満たすまで必要に応じて続けることを含む。より具体的に言えば、データ要素は多次元であり、近似表現はデータ空間の部分空間である。好ましくは、部分空間は、主成分分析を用いて導き出される。通常、誤差の分析はクラスタリングを含み、このクラスタリングは好ましくは、あるクラスタに対する所属度を表すメンバシップ関数を用いたファジィクラスタリングである。好ましくは、誤差はまた、主成分分析を用いて、すなわちクラスタのファジィな局所的主成分分析を用いて分析されて、各クラスタを表す部分空間を生じる。クラスタを部分空間に関して示すステップと、結果として生じた誤差を分析するステップ(ファジィな局所的PCA)とを繰り返して、各段階で導き出された部分空間に対応する複数のノードを有する階層ツリー構造を生成する。
 ツリーモデルは、新たなデータを用いて当該ツリーに新たなノードを追加することによって拡張することができる。
 本発明はまた、データ要素を表現する方法を提供する。本方法は、データ要素をツリー構造の部分空間と、結果として得られる記述子とに関して示すことを含み、当該記述子は、トップノードに対応するトップ記述子と、下位レベルのノードに対応する部分記述子とを含む。好ましくは、各部分記述子は、ノード識別子と、ノードの部分空間における係数と、任意にメンバシップ値とを含む。
 本発明はまた、上述のように示した記述子を、例えば照合、閲覧、探索および分類の目的で照合する方法を提供する。
 本発明はまた、上述のような方法を実行するように設定されたコンピュータ等の装置と、上記方法を実行するコンピュータプログラムと、当該プログラムを格納するコンピュータ読み取り可能な記憶媒体とを提供する。
 好ましい実施形態において、本発明は、オブジェクトまたは画像に対応する信号を処理することによって当該オブジェクトまたは画像から導き出したデータを分析するためのものである。本発明の特定の用途は、人物(例えば顔)の表現および顔認識に関係する。
 以下の記述では、本発明の実施形態の技法を、階層型ファジィ線形主成分分析(hierarchical fuzzy linear principal component analysis:HFLPCA)として説明する。
 添付図面を参照して本発明の実施形態を説明する。
 本発明の根底をなす一般原則をまず最初に説明し、続いて本発明の一実施形態を説明する。
 HFLPCA技法の背景にある重要な思想は、ツリー構造上にマッピングされるデータの多層階層表現を構築することである。この思想は、顔の画像に適用して図4に絵で示す。
 より具体的に言えば、本発明が示す新たなデータモデルは、ファジィ線形モデルのツリー(図5)からなる。この表現は、階層構造を有する。ルートノードN0は、従来のPCAによるデータ記述に相当する。すなわちルートノードN0は、元のn次元のデータ空間のk0次元の部分空間を表す。通常、このPCAによる最初のデータ近似は精度が低く、このことは、データベクトルの残差の大きな値に反映される。次に、これらの残差をクラスタリングし、FLPCA法を用いて表現する。各残差クラスタは、対応する子ノードを有する。図5において、ルートノードN0は、3つの子N01、N02、N03を有する。これは、残差データに3つのクラスタが存在することを意味する。各ノード(クラスタ)のモデルは、単一の基準点C(k)と、C(k)につながった(anchored)、正規直交ベクトルの基底(orthogonal normalized vector base)W(k)(kはノード/クラスタインデックス、例えば01、02、011)だけ広がる線形部分空間とからなる。次に、第2レベルの表現の残差を計算する。階層は、全てのデータが十分な精度で表現されるまで、階層にさらなる層(子ノード)を再帰的に追加することによってさらに拡張される。代替的または付加的な終了条件が存在してもよく、例えばツリーの深さを制約することができる。
 ツリー中のノードはいずれも、インデックスがkである親ノードモデルの全ての表現誤差からなる残差(residual)データセットE(k)におけるクラスタを表す。簡潔な表現を達成するために、表現係数に量子化を適用することができる。これを量子化モード(quantised mode)と呼ぶ。モデルの作成に量子化モードを用いる場合、残差データは、ノードの基底(node base)の係数を量子化した後に計算される。例えば、ノードN011の残差は、ノードN01およびN0の量子化した係数を用いて計算される。
 ノードの子は、このノードに属するデータ表現の残差に適用されるファジィな局所的PCA(FLPCA)手順によって計算される。ノードは、このノードに属する全データが十分な精度で表される場合、例えば残差の分散がある所定の閾値未満である場合に葉ノードとなる。あるノードにおける残差の分散が分散閾値を超える場合、FLPCA技法を適用して、このノードにさらなる階層レベルを追加する。
 モデルは、新たなデータが利用可能になったとき容易に拡張することができる。表現精度が十分でない新たなデータベクトル(例えば外れ値)が、ルートノードを含む各ノードでのモデルの使用中に記録される。外れ値のセットにおける表現誤差の分散がある所定の閾値を超えると、この外れ値のセットのみにHFLPCA技法を適用して、ツリー中の適切な場所に新たなノード(クラスタ)を追加する。
 図6は、3次元のデータベクトルを1次元の部分空間Sにおいて表現する一例を示す。図示の各ベクトルについて、表現の誤差が誤差部分空間(平面)E1E2に見られる。
 図7および図8は、同様の例をより多くのデータ点とともに示す。クラスタを、E1E2誤差部分空間(図8)にはっきりと見ることができる。
 データベクトルは、当該データベクトルが属するファジィクラスタによって定義されるサブツリー中のノードに対応する全ての部分記述子を連結すなわちリンクすることによって構築される複合記述子(combined descriptor)(または記述子集合と呼ばれる部分記述子の集合)と、いくつかの付加的な制御ビットとによって表される。
 記述子集合は、ルートベクトルの基底の係数のベクトルであるルートの部分記述子を常に含む。
 ルート以外の任意の他のノードのデータベクトルの部分記述子は、ノード識別子と、ノードクラスタに関するメンバシップ値(すなわちファジィクラスタリングのメンバシップ関数から得た値)と、ノードの部分空間上の、当該部分空間のベクトルの基底において計算されるベクトル射影の係数とからなる。
 ルート以外の任意の他のノードの部分記述子は、このノードでの表現誤差が閾値を超え、かつ、このノードクラスタに対するデータベクトルのメンバシップが別の閾値を超えた場合に限り、特定のデータベクトルの記述子集合に含まれる。
 量子化モードでは、係数およびメンバシップ関数の値が量子化される。
 照会記述子(query descriptor)Qからデータ記述子Dまでの距離は、QおよびDの記述子のツリー表現における全ての共通鎖を見つけ、その鎖に関連する距離(例えば総合誤差測度)が最小となる距離を選択することによって計算することができる。この距離は、検討中の鎖中の各ノードに関連する部分記述子間の部分誤差測度と、表現のうち共通鎖に存在しない部分に対応する付加ペナルティとを合計することによって計算される。かかるペナルティは例えば、共通鎖中の最後の共通ノードに対する記述子QおよびDの表現誤差に依存し得る。効率を上げるために、データベース記述子のペナルティ値を事前に計算し、各記述子の一部として格納しておくことができる。図9は、図5に示すモデルツリーを基に構築した2つの記述子Q(図9A)およびD(図9B)間の照合の一例を示す。2本の共通鎖、すなわちA鎖(図9C)およびB鎖(図9D)がある。A鎖の距離は、共通ノードQ−D0、Q−D01、およびQ−D011に関連するコンポーネント記述子(component descriptors)間の距離と、共通鎖Aには存在しないノードQ0110およびD0111に関連するペナルティP(Q0110)およびP(D0111)との合計である。B鎖の距離は単に、共通ノードQ−D0およびQ−D02に関連するコンポーネント記述子間の距離の合計である。B鎖の場合、欠けているノードがないため、ペナルティコンポーネントはない。
 古いモデル表現と新しいモデル表現との間の互換性は、モデル階層の拡張の概念に基づく。相互運用性は、次のように達成される。
 ・モデルを拡張する際、既存のツリーノードの部分的な記述を保存し、新たに追加されたツリーノードの部分的な記述を追加することによって、既存のモデルに基づく全ての記述子も同様に拡張することができる。
 ・「新しい」モデルにおいて表される記述子は単に、モデルツリーに新たに導入されたノードに対応する全ての部分記述子を除去する(すなわち照会段階では考慮しない)ことによって、既存のモデルにマッピングすることができる。
 ・既存の記述子と新たな記述子の間の照合は、容易に達成することができる。なぜなら既存の記述は、常により新しい記述のサブセットであり、よって有効な記述として認識され得るためである。照合は、たとえ記述子が異なるモデルを用いて抽出されたものであっても、類似度関数を記述子に直接適用することによって達成することができる。
 好ましい実施形態は3つの主要な要素、すなわちモデルビルダ(Model Builder)と、記述子データベースビルダ(Descriptor Database Builder)と、照会ハンドラ(Query Handler)とを含む。
(モデルビルダ)
 モデルビルダは、モデルツリー構造と、当該モデルツリーの各ノードkに関連する基準点C(k)および正規ベクトルの基底W(k)のセットとを含むデータモデルの構築を担当する。ルートノードはPCAを用いてモデル化され、階層中の以降の各下位レベルはFLPCAモデルによって定義される。
 モデルは、N次元の訓練ベクトルデータサンプルのセットXT=[X1,...,XL]を用いて作成される。
 ルートノードに関連するPCAモデルは、訓練ベクトルセットXTに直接適用されるSVD(特異値分解)を用いることによって作成される。
 所与のツリーノードのFLPCAモデルは、ツリーモデルのこのノードにおいて得られる表現誤差データについて作成される。FLPCAは、上記のBezdekの論文に記載されるファジィな多様性(varieties)クラスタリングアルゴリズムを用いて実施される。
 モデルビルダは2つのモード、すなわち展開(expansion)モードおよび拡張モードで動作する。展開モードがモデルの第1バージョンの作成に用いられるのに対し、拡張モードは上記モデルの第1バージョンを更新するために用いられる。展開モードおよび拡張モードは両方とも同一のFLPCA手順を用いるが、対象とする入力データが異なる。つまり、展開モードが元のデータセットを用いるのに対し、拡張モードは所与のツリーノードの外れ値データセット、すなわちそのノードにおいて既に見出されているサブモデルに適合しないデータを利用する。
(記述子データベースビルダ)
 記述子データベースビルダは、入力画像からの記述子の抽出およびデータベースの構築を担当する。入力データベクトルXiは、モデルツリーのサブツリーと、関連するコンポーネント記述子のセットと、サブツリー中に存在する各クラスタに対するベクトルXiのメンバシップ値とを含む記述子によって表現される。サブツリーは、モデルツリーのどのノードが記述に用いられるか(すなわちアクティブであるか)を指定する。これは、複数ビットのベクトルとして示され、ビット値1がアクティブノードを示し(すなわちこのツリーノードはサブツリーに属し記述に用いられる)、値ゼロはパッシブノードを示す。
 ルートレベルのコンポーネント記述子は、データベクトル(Xi−C0)と、ルートノードに関連する正規ベクトルの基底W(0)からのベクトルとの内積として計算される。
 ルートでないノードk(k>0)に関連するコンポーネント記述子は、ノードkにおける重心(C(k))が移動した(centroid (C(k)) shifted)残差ベクトル(Rk(Xi)−C(k))と、k番目のノードに関連する正規ベクトルの基底W(k)との内積を用いて計算される。ノードkにおける残差Rk(Xi)は、ベクトルXiと、当該ノードにおけるその復元物との間の差として計算される。
 データベクトルXiの完全な記述子は、ツリーノードに関連する、関連するメンバシップ関数の値が所定の閾値を上回るコンポーネント記述子のみを含む。
(照会ハンドラ)
 照会ハンドラは、データベースの探索プロセスを担当する。ここでは例示照会(query by example)を説明する。画像例を照会ハンドラに与え、データベースビルダの抽出コンポーネントを用いて画像から記述子Qを抽出する。
 前節で述べたように照会記述子Qとデータベース中の各記述子Dとの間の距離測度を計算する。ノードiのペナルティは、このノードでの表現誤差の平方ユークリッドノルムとして定義される。距離測度を最小化するデータベース要素を最適一致(best match)として選択する。
 本発明の一実施形態による方法および装置を、図10を参照して説明する。
 図10は、例えば、関係者以外は立ち入りできないことが重要であるオフィスで用いられる監視システムを示す。
 図10に示すように、システム1は、プロセッサ、メモリ等を含む中央処理装置(CPU)2と、ディスプレイ4とを備えるコンピュータを含む。本システムはまた、第1および第2のデジタルカメラ6および8と、警報器10とを含み、これらは全てCPU2に接続されている。第1のデジタルカメラ6はシステム1の設定用であり、第2のデジタルカメラは、訪問客の写真撮影用にオフィスビルの受付に設置される。
 システムの開発段階の間に、モデルビルダの項で説明したように汎用的な人間の顔モデル(HFM)を作成して、汎用的なツリー構造を生成する。この段階では、様々な条件、例えば照明、姿勢等の下での多数の顔画像を用いる。
 システムは、オフィスビルに立ち入ることを許可された人物、例えば従業員および既知の訪問客の写真を撮影することによって、特定の場所(オフィス)に合わせて調整される。上記の各人物について、第1のデジタルカメラを用いていく枚かの写真を撮影する。好ましくは、多数の写真を撮影する。各人物について、異なる条件下で写真を撮影する。例えば、写真は必要に応じて、異なる照明条件下で、異なる姿勢で、その人物が異なる服装、衣類、帽子、眼鏡を着用しているときに、また異なる髪型および色で撮影する。これらの写真はコンピュータにダウンロードされる。各写真について、頭部の位置を見つけ、背景をクロッピングし、かつ頭部のサイズを変更して、所定の画素サイズを有する画像を形成する。例えば、本件出願人の同時係属中出願第GB2 357 650A号に記載したような技法を用いることができる。サイズを変更した頭部の画像中の画素の各々のRGB値を組み合わせて、当該画像の特徴ベクトルを形成する。したがって、特徴ベクトルの寸法は、サイズを変更した頭部の画像中の画素数に依存する。例えば、サイズを変更した画像のサイズが25×30画素である場合、特徴ベクトルの寸法は25×30となる。
 1人の人物の全ての特徴ベクトルが、その人物用の訓練セットを形成し、その人物の外見のHFLPCA表現を生成するために用いられる。より具体的に言えば、各人物の特徴ベクトルは、上記の汎用的なツリー構造に関して示される。換言すれば、特徴ベクトルの各々は、記述子データベースビルダの項で上述した記述子すなわちサブツリー(汎用的なツリー構造の関連ノード)と、対応するコンポーネント記述子と、メンバシップ値との形態で示される。1人の人物の全ての特徴ベクトルの全てのサブツリーの組み合わせは、その人物の普遍的な個人用サブツリー(universal individual subtree)とみなすことができる。概して、普遍的な個人用サブツリー表現のノードは、異なる条件下での人物の画像にほぼ一致するものと考えることができる。例えば図4を参照すると、トップレベルは、人物の概略的な記述であり、第2レベルの3つのノードは、真正面、左側および右側を見る人物に対応する。第2レベルの第1のノードから派生する第3レベルの2つのノードは、真正面を見る人物を暗条件および明条件で撮影したものであり、第4レベルの2つのノードは、明条件で正面を見る人物が化粧をしている場合と化粧をしていない場合とをそれぞれ表す。
 人物のHFLPCA表現はコンピュータに格納される。より具体的に言えば、記述子(サブツリーと、コンポーネント記述子と、サブツリーの各ノードに関連するメンバシップ関数値と)が格納される。
 HFLPCA表現は、各関係者について同様に導き出されて格納される。
 オフィスに到着した人物は、受付にある第2のデジタルカメラの前に立ち、この第2のデジタルカメラが動作して写真を撮影する。この写真はコンピュータに送られ、そこで顔部を設定のためにクロッピングし、サイズを変更して、上述したような照会特徴ベクトルに変換する。次にこの照会特徴ベクトルを汎用的なツリー構造に関して示して照会記述子を生成し、この照会記述子を格納された関係者の表現と比較する。より具体的に言えば、格納された個人の表現毎に、上述した照合技法を用いて照会記述子を格納された記述子と比較する。結果として得られた最短距離が(格納された人物の全記述子を通じて)所定の閾値未満である場合、この照会は一致として扱われる。一致が見出されて人物が認識された場合、当該人物の画像がディスプレイ4に表示され、その人物は進入を許可される。結果として得られた格納された人物の最短距離が所定の閾値よりも大きかった場合、照会は拒絶される。照会記述子が1人の人物について拒絶された場合、照合手続は次の人物について次の格納されたHFLPCA表現を用いて繰り返される、等となる。代替的に、上述のような連続的な照合を行う代わりに、格納された全人物の表現をすべて照会記述子と比較し、結果として得られた距離(例えば結果として得られた全ての距離または人物毎の最短距離、あるいは人物毎の、所定の閾値を下回る最短距離)を検査する。例えば、結果として得られた最短距離(所定の閾値未満であると仮定する)は、一致する(matching)人物として扱われる。閾値未満の距離が存在しない場合、照会は拒絶される。格納された全ての表現を検討しても一致が見つからない場合、警報器10が鳴る。
 カメラは異なる場所、例えばオフィスビルの屋外(例えば門)にあってもよい。スチルカメラの代わりにビデオカメラを用いることもできる。カメラは、人物の画像を自動的に撮影してもよいが、その場合、顔部の抽出はより困難になるだろう。特徴ベクトルの導出は上述したものに限定されない。特徴ベクトルは例えば、異なる画像サイズ、異なる量子化、カラーではなくグレースケール値を用いて導き出すことができ、他の処理ステップ、例えば画素値の平均化を含めることもできる。第2のデジタルカメラで撮影した人物の写真は、格納された表現を更新するために用いることもできる。また、除外したい既知の人物、例えば元従業員の表現を格納し、これらの人物に一致した場合に警報を鳴らすこともできる。
 新たな人物がデータベースに追加された結果、システムの性能は低下する可能性がある。この原因の1つは、システム開発段階の間に抽出した人間の顔モデル(HFM)がいくつかの顔を十分な精度で記述できない可能性があることである。このような顔を外れ値と呼ぶ。HFMモデルは時々、使用中に収集した外れ値の顔のセットを基に更新することができる。上で説明したように、かかる更新は、システムに格納された現存の記述子すべてに対する更新を必要としない。
 本発明は、監視および顔認識に限定されず、様々な用途で用いることができる。例えば、本発明は概して、オブジェクトの認識および照合、ならびに画像データベースの探索におけるような画像照合に用いることができる。
 本発明を静止画像および動画のコンテキストで説明してきたが、本発明は多くのコンテキスト、例えば手書き文字認識、レーダー信号、ソナー信号または音響信号の信号認識および他の用途、特に、本質的に何らかの形態のパターン認識に頼る、高次元データを伴う用途に適用することができる。
PCAを示すグラフである。 LPCAを示すグラフである。 FLPCAを示すグラフである。 顔の画像を用いたツリー構造の絵図である。 HFLPCA表現のツリー構造を示す図である。 HFLPCA表現を導き出す方法の1ステップを示すグラフである。 データ分布と、対応するHFLPCAツリー構造のトップレベルとを示すグラフである。 図7のデータに対応する残差データの分布を示すグラフである。 記述子の照合を示すグラフである。 本発明の一実施形態による装置を示す図である。

Claims (23)

  1.  オブジェクトまたは画像に対応する信号を処理することによって該オブジェクトまたは画像から導き出したデータ分布を表現する方法であって、
     前記データ分布から導き出した第1のデータ分布の近似表現を再帰的に(recursively)導き出すことと、
     データ要素の誤差を、前記近似表現に関して示した第2のデータ分布として分析すること
     とを含む方法。
  2.  前記データ要素は多次元であり、前記近似表現は、データ空間の部分空間である
     請求項1に記載の方法。
  3.  前記部分空間は、主成分分析を用いて導き出される
     請求項2に記載の方法。
  4.  前記誤差の分析は、クラスタリングを含む
     請求項1ないし3のいずれかに記載の方法。
  5.  あるクラスタに対する所属度を表すメンバシップ関数を用いたファジィクラスタリングを含む
     請求項4に記載の方法。
  6.  前記誤差の分析は、各クラスタの主成分分析(局所的またはファジィ主成分分析)を含み、それによって各クラスタを表す部分空間を生成する
     請求項4または5に記載の方法。
  7.  所与のクラスタ中のデータ要素について、前記クラスタの部分空間に関して示した前記要素の誤差を分析することを含む
     請求項6に記載の方法。
  8.  誤差クラスタを表す部分空間を導き出すステップと、結果として生じた誤差を分析するステップとを繰り返し、トップノードと、前記誤差クラスタに対応するノードとを有するツリー構造を生成する
     請求項7に記載の方法。
  9.  所与のクラスタについて誤差の値に応じて前記繰り返しの停止を決めることを含む
     請求項8に記載の方法。
  10.  新たなデータを用いてモデルを拡張し、前記ツリーに新たなノードを追加する
     請求項8または9に記載の方法。
  11.  オブジェクトまたは画像に対応する信号を処理することによって該オブジェクトまたは画像から導き出したデータ要素を表現する方法であって、前記データ要素を、請求項1ないし10のいずれかにより導き出した表現に関して示すことを含む方法。
  12.  前記要素を、複数のノードを有するツリー構造に関して示すことと、該ツリー構造の複数のノードについて前記要素の係数を求めることとを含む
     請求項11に記載の方法。
  13.  前記データ要素があるノードに対応する度合を表すメンバシップ値を用いることを含む請求項12に記載の方法。
  14.  前記係数および/または前記メンバシップ値を量子化することを含む
     請求項12または13に記載の方法。
  15.  画像シーケンス中の1枚または複数枚の画像から導き出したデータを含む
     請求項1ないし14のいずれかに記載の方法。
  16.  前記オブジェクトまたは画像は、人物または顔に対応する
     請求項1ないし15のいずれかに記載の方法。
  17.  請求項11ないし14のいずれか一項、あるいは請求項11ないし14に従属する請求項15または16に記載の方法により導き出したデータ要素の記述子。
  18.  ツリー構造中のノードに対応する部分記述子(partial descriptor)を含み、該部分記述子の各々は、ノード識別子と、ノードの係数と、任意にメンバシップ値とを含む
     請求項17に記載の記述子。
  19.  オブジェクトまたは画像に対応する信号を処理することによって該オブジェクトまたは画像から導き出した照会データ要素を照合または分類する方法であって、照合関数(matching function)を用いて請求項17または18に従う照会データ要素の記述子を請求項17または18に従うデータベース記述子要素と比較することを含む方法。
  20.  請求項1ないし19のいずれかに記載の方法を実行するように設定した装置。
  21.  プロセッサと、メモリと、画像またはオブジェクト入力手段とを備える請求項20に記載の装置。
  22.  請求項1ないし16または19のいずれか一項に記載の方法を実行するコンピュータプログラム。
  23.  請求項22に記載のコンピュータプログラムを含むコンピュータ読み取り可能な記憶媒体。
JP2003276754A 2002-07-19 2003-07-18 データ分布を表現する方法、データ要素を表現する方法、データ要素の記述子、照会データ要素を照合または分類する方法、その方法を実行するように設定した装置、コンピュータプログラム並びにコンピュータ読み取り可能な記憶媒体 Expired - Fee Related JP4511135B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP02255068A EP1383072B1 (en) 2002-07-19 2002-07-19 Method and apparatus for processing image data

Publications (2)

Publication Number Publication Date
JP2004054957A true JP2004054957A (ja) 2004-02-19
JP4511135B2 JP4511135B2 (ja) 2010-07-28

Family

ID=29762713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003276754A Expired - Fee Related JP4511135B2 (ja) 2002-07-19 2003-07-18 データ分布を表現する方法、データ要素を表現する方法、データ要素の記述子、照会データ要素を照合または分類する方法、その方法を実行するように設定した装置、コンピュータプログラム並びにコンピュータ読み取り可能な記憶媒体

Country Status (5)

Country Link
US (1) US7471833B2 (ja)
EP (1) EP1383072B1 (ja)
JP (1) JP4511135B2 (ja)
CN (1) CN100592334C (ja)
DE (1) DE60233935D1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007109229A (ja) * 2005-10-09 2007-04-26 Omron Corp 特定被写体検出装置及び方法
JP2007226655A (ja) * 2006-02-24 2007-09-06 Fujifilm Corp 画像処理方法および装置ならびにプログラム
JP2007304771A (ja) * 2006-05-10 2007-11-22 Nikon Corp 被写体認識装置、被写体認識プログラム、および画像検索サービス提供方法
US8379990B2 (en) 2006-05-10 2013-02-19 Nikon Corporation Object recognition apparatus, computer readable medium storing object recognition program, and image retrieval service providing method
US8595233B2 (en) 2009-04-27 2013-11-26 Panasonic Corporation Data processing apparatus, data processing method, program, and integrated circuit

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7643684B2 (en) * 2003-07-15 2010-01-05 Samsung Electronics Co., Ltd. Apparatus for and method of constructing multi-view face database, and apparatus for and method of generating multi-view face descriptor
KR100543707B1 (ko) * 2003-12-04 2006-01-20 삼성전자주식회사 서브그룹별 pca 학습을 이용한 얼굴인식방법 및 장치
US7502495B2 (en) * 2005-03-01 2009-03-10 Microsoft Corporation Method and system for incrementally learning an adaptive subspace by optimizing the maximum margin criterion
CN101661492B (zh) * 2008-10-11 2011-09-14 大连大学 用于人体运动捕捉数据检索的高维空间超球覆盖方法
US8498454B2 (en) * 2009-07-14 2013-07-30 General Electric Company Optimal subspaces for face recognition
WO2011143633A2 (en) * 2010-05-14 2011-11-17 Evolution Robotics Retail, Inc. Systems and methods for object recognition using a large database
JP4775515B1 (ja) * 2011-03-14 2011-09-21 オムロン株式会社 画像照合装置、画像処理システム、画像照合プログラム、コンピュータ読み取り可能な記録媒体、および画像照合方法
US9036925B2 (en) 2011-04-14 2015-05-19 Qualcomm Incorporated Robust feature matching for visual search
US8706711B2 (en) * 2011-06-22 2014-04-22 Qualcomm Incorporated Descriptor storage and searches of k-dimensional trees
KR101581112B1 (ko) * 2014-03-26 2015-12-30 포항공과대학교 산학협력단 계층적 패턴 구조에 기반한 기술자 생성 방법 및 이를 이용한 객체 인식 방법과 장치
US20170132457A1 (en) * 2014-06-27 2017-05-11 Beijing Qihoo Technology Company Limited Human face similarity recognition method and system
US10311288B1 (en) * 2017-03-24 2019-06-04 Stripe, Inc. Determining identity of a person in a digital image
CN109886284B (zh) * 2018-12-12 2021-02-12 同济大学 基于层次化聚类的欺诈检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0461558A (ja) * 1990-06-29 1992-02-27 Dainippon Printing Co Ltd 画像処理方法
JP2000311246A (ja) * 1999-04-28 2000-11-07 Ricoh Co Ltd 類似画像表示方法及び類似画像表示処理プログラムを格納した記録媒体
JP2002531901A (ja) * 1998-12-02 2002-09-24 ザ・ビクトリア・ユニバーシテイ・オブ・マンチエスター 顔の部分空間の決定

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9201006D0 (en) * 1992-01-17 1992-03-11 Philip Electronic And Associat Classifying faces
US5386239A (en) * 1993-05-03 1995-01-31 Thomson Consumer Electronics, Inc. Multiple QAM digital television signal decoder
US5398073A (en) * 1994-04-12 1995-03-14 At&T Corp. Concatenated coded vestigial sideband modulation for high definition television
CN1371504A (zh) * 1999-01-13 2002-09-25 电脑相关想象公司 签名识别系统和方法
US6563952B1 (en) * 1999-10-18 2003-05-13 Hitachi America, Ltd. Method and apparatus for classification of high dimensional data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0461558A (ja) * 1990-06-29 1992-02-27 Dainippon Printing Co Ltd 画像処理方法
JP2002531901A (ja) * 1998-12-02 2002-09-24 ザ・ビクトリア・ユニバーシテイ・オブ・マンチエスター 顔の部分空間の決定
JP2000311246A (ja) * 1999-04-28 2000-11-07 Ricoh Co Ltd 類似画像表示方法及び類似画像表示処理プログラムを格納した記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007109229A (ja) * 2005-10-09 2007-04-26 Omron Corp 特定被写体検出装置及び方法
JP2007226655A (ja) * 2006-02-24 2007-09-06 Fujifilm Corp 画像処理方法および装置ならびにプログラム
US7885477B2 (en) 2006-02-24 2011-02-08 Fujifilm Corporation Image processing method, apparatus, and computer readable recording medium including program therefor
JP2007304771A (ja) * 2006-05-10 2007-11-22 Nikon Corp 被写体認識装置、被写体認識プログラム、および画像検索サービス提供方法
JP4725408B2 (ja) * 2006-05-10 2011-07-13 株式会社ニコン 被写体認識装置および被写体認識プログラム
US8379990B2 (en) 2006-05-10 2013-02-19 Nikon Corporation Object recognition apparatus, computer readable medium storing object recognition program, and image retrieval service providing method
US8595233B2 (en) 2009-04-27 2013-11-26 Panasonic Corporation Data processing apparatus, data processing method, program, and integrated circuit

Also Published As

Publication number Publication date
US7471833B2 (en) 2008-12-30
EP1383072B1 (en) 2009-10-07
CN1487471A (zh) 2004-04-07
DE60233935D1 (de) 2009-11-19
EP1383072A1 (en) 2004-01-21
CN100592334C (zh) 2010-02-24
US20040076329A1 (en) 2004-04-22
JP4511135B2 (ja) 2010-07-28

Similar Documents

Publication Publication Date Title
JP4511135B2 (ja) データ分布を表現する方法、データ要素を表現する方法、データ要素の記述子、照会データ要素を照合または分類する方法、その方法を実行するように設定した装置、コンピュータプログラム並びにコンピュータ読み取り可能な記憶媒体
Charfi et al. Optimized spatio-temporal descriptors for real-time fall detection: comparison of support vector machine and Adaboost-based classification
Matthews et al. Extraction of visual features for lipreading
JP3873793B2 (ja) 顔メタデータ生成方法および顔メタデータ生成装置
JP2004005457A (ja) 2次icaを利用した顔認識法及びその装置
JP2007272897A (ja) 文脈支援型人間識別のためのデジタル画像処理方法および装置
CN112464730B (zh) 一种基于域无关前景特征学习的行人再识别方法
Biswas et al. An efficient and robust algorithm for shape indexing and retrieval
Wang et al. Image retrieval based on exponent moments descriptor and localized angular phase histogram
Sasithradevi et al. Video classification and retrieval through spatio-temporal Radon features
Cosovic et al. Classification methods in cultural heritage
CN114586075A (zh) 用于位置识别的视觉对象实例描述符
Mohamed Automatic system for Arabic sign language recognition and translation to spoken one
Sahbi et al. Robust face recognition using dynamic space warping
US20080232682A1 (en) System and method for identifying patterns
KR100486714B1 (ko) 2차 ica를 이용한 얼굴 인식 방법 및 그 장치
Chandrakala et al. Application of artificial bee colony optimization algorithm for image classification using color and texture feature similarity fusion
JP2005141437A (ja) パターン認識装置及びその方法
AU2011265494A1 (en) Kernalized contextual feature
US20080019595A1 (en) System And Method For Identifying Patterns
Zhu et al. Correspondence-free dictionary learning for cross-view action recognition
Mousavi et al. Seven staged identity recognition system using Kinect V. 2 sensor
Ksibi et al. Deep salient-Gaussian Fisher vector encoding of the spatio-temporal trajectory structures for person re-identification
Asif et al. Composite description based on color vector quantization and visual primary features for CBIR tasks
Barde et al. Person Identification Using Face, Ear and Foot Modalities.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060519

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090924

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100406

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100506

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4511135

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S631 Written request for registration of reclamation of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313631

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees