JP2008538041A - 局所的近傍点ラプラス固有マップに基づくデータ分類の一部学習済学習機械 - Google Patents
局所的近傍点ラプラス固有マップに基づくデータ分類の一部学習済学習機械 Download PDFInfo
- Publication number
- JP2008538041A JP2008538041A JP2008506612A JP2008506612A JP2008538041A JP 2008538041 A JP2008538041 A JP 2008538041A JP 2008506612 A JP2008506612 A JP 2008506612A JP 2008506612 A JP2008506612 A JP 2008506612A JP 2008538041 A JP2008538041 A JP 2008538041A
- Authority
- JP
- Japan
- Prior art keywords
- data points
- unclassified
- determining
- neighboring
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2137—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
- G06F18/21375—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps involving differential geometry, e.g. embedding of pattern manifold
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
高次元空間におけるデータ点の多様体に関する、一部学習済の学習の方法及びシステムのための局所的近傍点ラプラス固有マップ(LNLE)アルゴリズムが提供される。一実施形態において、LNLEに基づく方法は、分類済点及び未分類点のデータセットにわたって近接グラフを生成するステップを含む。近接グラフは、分類すべき未分類点に関する局所的近傍点のセットを求めるために用いられる。局所的部分グラフの固有分解は、部分グラフにわたって滑らかな関数を提供する。滑らかな関数は評価され、未分類データは、関数評価に基づいて分類される。一実施形態において、転動的推論(TI)アルゴリズムアプローチが提供される。他の実施形態において、一部学習済の帰納的推論(SSII)アルゴリズムアプローチが、次のデータ点の分類のために提供される。信頼性決定が、局所的近傍点内における分類済データ点の数に基づいて提供される。LNLEアプローチ及びLEアプローチを比較する実験結果が表される。
【選択図】図2
【選択図】図2
Description
本発明は、一般的には学習機械に関し、より詳細には、機械に基づく、一部学習済の、未分類データの分類に関する。
一部学習済学習機械は、分類済サンプルデータ点と未分類サンプルデータ点との両方のセットの分類又は回帰機能を学習する機械の能力を備える。例えば、画像、音声、テキスト文書等といった多くの領域において、未分類データは、分類済データよりも容易かつ安価に収集することが可能であるので、このことは重要な問題である。しかし、データが何であるか、何に関連しているかを我々が決定しない場合には、大量のデータはあまり有用ではない。このように、未分類データを分類する機械の能力は、有用な目的で大量のデータを処理することに関して大きな利点を提供する。例えば、機械に基づく画像の分類は、例えば、顔認識、動作検出等といった無数の用途において用いられている。
一部学習済学習機械の基本概念は、分類済データ点と未分類データ点との間に存在する密度関数を(しばしば暗黙のうちに)学習又は推定することによって、未分類データ点を分類することである。一般的に、実用的な用途のほとんどにおいて、データ点は、多くの変数すなわち次元を含んでおり、すなわち、データ点は、高次元空間に属する。例えば、デジタル画像は、画像におけるピクセルと同じ次元(例えば、五百万次元)を有する。このような高次元空間における密度関数の推定は、空間の次元(「d」)よりも指数関数的に多い例を必要とする。それゆえ、一般的には、データセットにおけるデータ点間の関係性に関する仮定が行われる。一般的な仮定としては、データセットにおけるデータ点が、データ点間の関係性により、低次元構造すなわち高次元空間における多様体を形成することが挙げられる。
一般的には、転導的推論(TI:Transductive Inference)アプローチ及び一部学習済の帰納的推論(SSII:Semi-Supervised Inductive Inference)アプローチといった、機械に基づく未分類データの分類に関する二つの異なるアプローチが存在する。TIアプローチに基づいて、機械は、分類済データ点及び未分類データ点からなる所与のデータセットから未分類データ点を分類する。全てのデータ点が、学習開始前にシステムに提供される。逆に、SSIIアプローチは、分類済例及び未分類例の両方からなるトレーニングセットに依存し、分類のためだけに未分類データ点を含むセットを分離する。SSIIアプローチによると、トレーニングセットは、最初に関数を構成又は学習するために用いられ、続いて次のセットにおける未分類データ点を分類するために用いられる。
TIアプローチとSSIIアプローチとの間の重要な違いとして、これらの具現化に必要な計算資源の量が挙げられる。無制限の資源によると、SSIIの問題は、データ点がシステムに提供されてリアルタイムで分類されるTIアルゴリズムをリアルタイムで実行することによって解決可能である。しかし、計算資源には限りがあるので、最初にトレーニングセットを処理することによって、新たな例を分類することは、次第にリアルタイムでTIアルゴリズムを実行するよりも計算コストが低くなる。一般的には、全てのSSIIアルゴリズムがTIアルゴリズムとしてみなされることは自明であるので、SSIIアルゴリズムは、TIアルゴリズムよりも正確ではない。すなわち、学習開始前に未分類データ点を知ることによって、分類がより困難なものとなることを防ぐことができる。それゆえ、一般的には、SSIIアルゴリズムは、「対応する」TIアルゴリズムと同程度に振舞う。
正確性がより望まれる場合には、TIアルゴリズムが好ましく、TIアルゴリズムが十分に早い場合には、TIアルゴリズムは、対応するSSIIアルゴリズムに取って代わる。しかし、TIアルゴリズムはデータ点の閉集合にわたって演算される。このように、サンプル外の新たな未分類データ点を導入する柔軟性が望まれる場合には、SSIIアルゴリズムは、新たなデータ点のそれぞれの密度関数の再学習の計算コストを避けることができるので望ましい。
正確性がより望まれる場合には、TIアルゴリズムが好ましく、TIアルゴリズムが十分に早い場合には、TIアルゴリズムは、対応するSSIIアルゴリズムに取って代わる。しかし、TIアルゴリズムはデータ点の閉集合にわたって演算される。このように、サンプル外の新たな未分類データ点を導入する柔軟性が望まれる場合には、SSIIアルゴリズムは、新たなデータ点のそれぞれの密度関数の再学習の計算コストを避けることができるので望ましい。
多様体に関する一部学習済の学習のためのアルゴリズムが多数存在する。多様体学習アルゴリズムのいくつかは、実に似ている:work of Bengio et al. (2003) places multi-dimensional scaling (Cox & Cox, 1994), spectral clustering (Ng et al., 2002), Laplacian Eigenmaps (Belkin & Niyogi, 2004), isomap (Tenenbaum et al., 2000), and locally linear embedding (Roweis & Saul, 2000) in a single framework (これらの文献は、全てが参照によって本明細書に一体的に組み込まれるものとする。)
一部学習済学習機械に関する効率的なアプローチの一つとして、ラプラス固有マップ(LE:Laplacian Eigenmap)アルゴリズムが挙げられる。LEアルゴリズムを具現化するMATLABコードは、http://people.cs.uchicago.edu/~misha/ManifoldLearning/MATLAB/laplacian.tar で入手可能であり、参照によって本明細書に組み込まれるものとする。LEアルゴリズムは、(http://yann.lecun.com/exdb/mnist/index.htmlで入手可能な)MNISTの手書き数字のデータセットに基づいて実行される。図1には、MNISTデータベースからのサンプルデータセット100が記載されている。未分類点102の第一のセットが提供され、未分類点104の第二のセットが分類される。LEアルゴリズムは、(後記する)数少ない分類済例を用いて、(他の複数のタスクに加えて)数字分類タスクを実行するために用いられ、適度に良い正確性を示した。
しかし、LEアルゴリズムにはいくつかの欠点が存在する。LEアルゴリズムは、計算コストが非常に高い。例えば、LEが必要とする資源集約的な計算の一つが、近接グラフの計算である。直接的なアプローチを用いて、データ点の全てのペア間の距離が計算され、各点に関して、最近傍点が追われる。大きいデータセットに関して、全ての距離を計算するためのO(n2d)時間が、最近傍点の軌道を追うのに必要な時間を小さくする。このステップは、線形メモリを用いるためのみに具現化されるが、O(n2d)時間は、非常に大きい問題のせいで禁止されている。
計算的により要求の厳しいステップが、固有値問題の解決法である。LEアルゴリズムは、データセットにわたって形成された近接グラフの固有分解の計算を必要とする。このグラフは、非常に疎であり、内部固有ベクトルが必要とされ、固有分解を非常にコストが高いものとする。大きい疎行列に関して、固有問題は、暗黙のうちに再開されるアーノルド法、すなわち、ARPACKによって提供される反復法を用いたMATLABコードに基づいて解決される(Lehoucq & Sorensen, 1996; Lehoucq et al., 1998)。当該文献は、参照によって本明細書に組み込まれるものとする。疎行列の最大の固有値(及びそれに対応する固有ベクトル)は、疎行列−ベクトル乗算のみを用いて素早く求められる(Golub & Loan, 1996, 参照によって本明細書に組み込まれるものとする。)。しかし、ラプラスグラフ行列(L:Laplacian graph matrix)の最小の固有値に対応する固有ベクトルが必要とされており、ARPACKは、実行するためのアルゴリズムの内部ループにおいてLを因数分解する必要がある。この因数分解は、L自身よりも十分に疎となるであろう。因数分解は、O(n3)の時間とO(n2)のメモリを必要とする。実際には、2ギガバイトのRAMを備えた機械は、メモリ不足のせいで、LEアルゴリズムを有する60,000点のMNISTデータセットを処理することができなかった。このことは、非常に大きいデータセットに関して全体的な固有分解を実行することは、従来システムの多くにおいて当然実行不可能であることを示す。
他の欠点としては、LEアルゴリズムが、SSIIアルゴリズムに変換する明白で計算効率が良い手法が無い転動的推論TIアルゴリズムであることが挙げられる。資源集約的な全体的固有値問題を解くこと無しにLEアプローチを新たなサンプル外のデータ点に適用する明白な手法は存在しない。このように、LEアルゴリズムは、初期のデータセットの一部ではない新たなデータ点を分類するのに非効率である。
したがって、(1)既存の手法よりも計算コストが低く、(2)データセット全体にわたる再計算の必要無しに新たな点の分類を提供することが可能な、一部学習済学習機械システム及び方法が必要とされている。
本発明は、局所的近傍点ラプラス固有マップ(LNLE:local-Neighborhood Laplacian Eigenmap)アプローチに基づく一部学習済学習機械のための方法、コンピュータ読み取り可能な記録媒体及びシステムを含む。LNLEは、SSIIアルゴリズムに容易に拡張される高速のTIアルゴリズムを提供する。LNLEは、分類すべきデータ点の局所的近傍点におけるデータ点のみからなる全体的なデータセットを考慮することによって、未分類データ点の機械分類を可能とする。局所的多様体構造の概念が、全体的なデータセットのグローバルな多様体よりも、未分類データ点の分類のためにより関連する情報を提供するために用いられる。
本発明の一態様によると、分類がデータセットの局所的なバージョンに集中するので、LNLEは、全体的なデータセットにわたる固有分解の計算を回避し、それによって、システムがより大きいデータセットを処理することができるようになる。したがって、新たな点が、近接グラフに追加して局所的近傍点に関して処理することによって容易に分類される。
本発明の他の態様によると、LNLEは、システムが未分類データの分類を「高信頼性」分類と「低信頼性」分類とに区分することが可能とする。
本発明の一実施例に従って、未分類データ点の分類を学習するコンピュータに基づく方法、コンピュータ読み取り可能な記録媒体、及びシステムが提供される。一実施形態において、本方法は、データセットにおける全てのデータ点間の相対距離を決定するステップを含む。また、本方法は、未分類データ点に関する近傍データ点のセットを決定するステップを含む。近傍データ点のセット間の距離の行列の固有分解が実行されることによって、関数を決定する。最後に、未分類データ点は、未分類データ点に関する関数の評価から取得された結果に基づいて分類される。
他の実施形態において、本方法は、初期データセットの一部ではない追加的な未分類データ点を分類するステップも含む。追加的な未分類データ点は受信され、元のデータセットにおけるデータ点に関するその相対距離が決定される。続いて、追加的なデータ点に関する近傍データ点の第二のセットが決定される。本方法は、近傍データ点の第二のセット間の距離の行列の固有分解を決定することによって、他の関数を決定するステップも含む。続いて、関数の評価に基づいて、追加的な未分類データ点が分類される。
他の実施形態において、近傍データ点のセット内であると決定される分類済データ点の数に基づいて、信頼値が提供される。
本明細書に記載される特徴及び利点は、全てを包括するものではなく、詳細には、図面、明細書及び特許請求の範囲を見た当業者にとって、多くの追加的な特徴及び利点が自明である。さらに、本明細書で用いられる言語は、原則として読みやすさ及び説明を目的として選択されており、本発明の構成要件を線引き又は制限するために選択されたものではないことに留意すべきである。
図面及び以下の記述は、説明のみを目的として本発明の好ましい実施形態に関連するものである。以下の議論から、本明細書に開示された構造及び方法の他の実施形態が、本発明の特許請求の範囲の原理から逸脱しない範囲で利用される実行可能な例として容易に認識されることに留意すべきである。
以下の記述を通じて、分類済データ点はnLと呼ばれ、未分類データ点はnUと呼ばれる。データセットnは、nL+nUとして定義される。文字yは、分類済データ点nLの分類を示すために用いられる。固有ペア項は、固有値λ及びそれに対応する固有ベクトルvに言及するために用いられ、固有ペアの大きさは、|(λ,v)|=|λ|として定義される。
ここで図2を参照すると、学習機械システムの見本の実施形態を説明するシステムブロック図が示されている。学習機械システム200は、データ記憶ユニット202からデータユニット(例えば、データ点nL及びデータ点nU)を受信する。データユニットは、既存のデータセットn、例えばMNISTデータセットに属していてもよく、データ供給源204から受信されてデータ記憶ユニット202に記憶されていてもよい。例えば、データ供給源204としては、デジタル撮像装置(例えば、カメラ、画像センサ等)、デジタル音声記録装置、他のデジタルデータ取得装置等が挙げられる。あるいは、データ供給源204は、有線又は無線ネットワーク、例えば音声又は映像放送システムを介してデータを伝送する遠隔データ伝送システムであってもよい。一実施形態において、データ供給源204及びデータ記憶ユニット202は、データに関する学習機械の機能を実行するために、機械206に外付けされる。他の実施形態において、データ供給源204は、機械206内に設けられる。例えば、機械206としては、データユニットを取得する装置、例えば、カメラを備えた自走車両が挙げられる。さらに他の実施形態において、データ供給源204は、データ記憶ユニット202と連結されていて機械206に内付け又は外付けされており、例えば、CDがデータ供給源204であってもよく、データ記憶ユニット202はCDプレーヤを備えたコンピュータ内に設けられてもよい。
一実施形態において、機械206は、例えば、インテル(登録商標)プロセッサに基づくパソコン等といった従来の汎用コンピュータである。しかし、機械206は、本明細書に記述されたアルゴリズムを具現化することが可能な計算資源を備えた任意の機械であり、例えば、機械206は、知的車両、ヒト型ロボット又は他の計算可能なシステムとして具現化される。
一実施形態において、機械206は、外付けのデータ記憶ユニット202等といった外部装置とインターフェースで接続する入力/出力(「I/O」)モジュール208を備える。I/Oモジュール208は、機械206に内付けされたメモリ214にデータを取り込む。例えば、一実施形態において、2GBのRAMを備えた汎用コンピュータが、後記するように用いられる。他の実施形態は、オンチップのキャッシュメモリ、フラッシュメモリ等といった他のメモリ214構成を備える。
また、機械206は、処理部210を備える。一実施形態において、処理部210は、カリフォルニア州サンタクララのインテル社から市販されているペンティアム(登録商標)プロセッサ、カリフォルニア州サニーベイルのアドバンスドマイクロデバイス社から市販されているアスロン(登録商標)プロセッサ、カリフォルニア州クパチーノのアップルコンピュータ社のG5プロセッサ等といった従来のコンピュータマイクロプロセッサである。他の実施形態において、処理部210は、組み込みプロセッサ、カスタムプロセッサ、マイクロコントローラ、プログラム化されたASIC等といった一以上の他の論理処理装置であってもよい。
また、機械206は、局所的近傍点ラプラス固有マップ(LNLE:local-Neighborhood Laplacian Eigenmap)分類モジュール212を備える。一実施形態において、LNLE分類モジュール212は、処理部210によって実行された際に後記する一以上の手法を具現化する命令を備えるソフトウェアに具現化される。LNLE分類モジュール212は、データ記憶ユニット202に記憶され、処理部210によって実行されるためにRAM214に読み込まれる。他の実施形態において、LNLE分類モジュール212は、一部学習済学習機械(semi-supervised machine learning)のためのASICとしてハードウェアに具現化される。さらに他の実施形態において、LNLE分類モジュール212は、カスタムされたコントローラプロセッサとともに動作するように構成された内付けのフラッシュメモリ装置内のファームウェアとして具現化される。LNLE分類モジュール210のためのソフトウェア及びハードウェアの様々な結合を備えた他の実施形態が可能であり、本発明の請求の範囲の範囲に含まれる。
一実施形態において、学習機械システム200は、一以上のユーザインターフェース装置216も備える。例えば、ユーザインターフェース装置216としては、画像表示装置(例えば、モニタ、平面パネル表示装置等)、キーボード、ポインティングデバイス、及び他の同様なユーザ入力/出力装置が挙げられる。ユーザインターフェース装置216は、一以上のI/Oモジュール208を介して機械206に連結される。一実施形態において、ユーザインターフェース装置216は通常動作中には表れないが、機械206は、例えば、データ点nLのトレーニングセットの分類、プログラム化、故障修理、モニタリング等のために、一以上のユーザインターフェース装置216に対する(有線又は無線)接続を提供するように構成されたI/Oモジュール208を備える。このような実施形態の機械206としては、知的車両、ロボット等が挙げられる。
ここで図3を参照すると、一部学習済学習機械のLNLE分類モジュールの一実施形態を説明する機能ブロック図が示されている。一実施形態において、LNLE分類モジュール212は、マップモジュール302を備える。マップモジュール302は、近接マップとも呼ばれる近接グラフ又は近接行列を構築するために、データセットnにアクセスすることができる。一般的に、近接マップは、他のモジュールにとってアクセス可能なメモリ214内に記憶されている。また、LNLE分類モジュール212は、近傍点モジュール304を備える。近傍点モジュール304は、例えばメモリ214の近接マップにアクセスすることによって、所与のデータ点nUに対する近傍データ点のセット又はクラスタを決定する。さらに、LNLE分類モジュール212は、近傍データ点のセット又はクラスタに対する密度関数を推定するために近傍点モジュール304に連結された固有分解(「ED」)モジュール306を備える。評価モジュール308は、未分類データ点nUに関してEDモジュール306によって推定された密度関数を評価し、関連した信頼値を有する結果を提供する。分類部310は、評価モジュール308に連結されており、評価結果を受信して評価結果に係るデータ点nUを分類する。
ここで図4を参照すると、TIアルゴリズムを具現化するLNLE手法の一実施形態を説明するフローチャートが示される。この実施形態において、初期のデータセットnが入力される(ステップS402)。データセットnは、少量の分類済サンプルデータ点nL及び分類のための未分類サンプルデータ点nUを含む。データセットnに基づいて、全体的な近接グラフ又は近接行列が、例えば、疎な対称近接行列Wとして生成される(ステップS404)。近接行列Wを生成する(ステップS404)ために、各データ点に対して、データ点iがデータ点jの最近傍点kの一つであるか、jがデータ点iの最近傍点である場合には、行列要素wij=1であり、それ以外の場合には、wij=0である。全体的な近接行列Wの構成に関して、kは、各点の最近傍点の数を例えば八個と定義するためのプログラム可能なパラメータである。単純な1,0に加えて、他の値、例えば、データ点間の相対距離等が、近接行列(例えば、重み付けされた近接行列)を構成するために利用可能である。
例えば、一実施形態において、「熱核(heat kernel)」距離(「d」)によって重み付けされた点距離、すなわち、d(x1,x2)=exp(‖x1−x2‖2/c)が用いられる。この実施形態において、cは、距離値を正規化するプログラム可能なパラメータに相当し、例えば、一実施形態において、cは、データ点間の所望の距離の平方根に設定される。他の実施形態において、「熱核」距離を用いる代わりに、高次元空間におけるデータ点間の実際の距離、例えばピクセル数で測定された距離が用いられる。
例えば、一実施形態において、「熱核(heat kernel)」距離(「d」)によって重み付けされた点距離、すなわち、d(x1,x2)=exp(‖x1−x2‖2/c)が用いられる。この実施形態において、cは、距離値を正規化するプログラム可能なパラメータに相当し、例えば、一実施形態において、cは、データ点間の所望の距離の平方根に設定される。他の実施形態において、「熱核」距離を用いる代わりに、高次元空間におけるデータ点間の実際の距離、例えばピクセル数で測定された距離が用いられる。
続いて、一実施形態において、未分類点xが分類のために選択される(ステップS406)。選択(ステップS406)は、ユーザ、ランダムな選択によって、又は他の要因に基づいて提供される。選択された点x(nU=x)に関して、局所的な近傍点又はクラスタが決定される(ステップS408)。一実施形態において、横型探索が、xまわりの決定された局所的近傍点からなる全体近接グラフWの部分グラフ又は局所的近接行列Wxを構成するために用いられる。局所的近接行列Wxを生成する(ステップS408)ために、データ点xの最近傍点の数kxが求められる。例えば、一実施形態において、2000個の最近傍点が用いられる。近接グラフWにおけるxに対するkx個の最近傍データ点が選択され、ここで、kxは、プログラム可能な他のパラメータであり、計算資源及び必要な正確性、例えば、実験においては2000から4000の間で変化するkxの値が用いられた、によって調整される。kx個の局所的近傍点を用いて、グラフ局所的ラプラス演算子Lx(Lx=Wx−Bx)が構成される。Bxは、要素がWxの行の合計(すなわち、bii=Σjwij)である対角行列である。
この実施形態において、続いて、局所的固有分解(local eigen decomposition)が実行される(ステップS410)。局所的ラプラス演算子(local Laplacian)Lxは、対称かつ半正値である。スペクトルグラフ理論によると、近接グラフのベクトルで定義された関数は、そのラプラス演算子の固有関数の和に分解可能であることがわかる。さらに、ラプラス演算子の最小の固有値に対応する固有関数は、滑らかであることが知られている。それゆえ、局所的ラプラス演算子Lxの局所的固有分解を実行する(ステップS410)ために、Lxのp個の最小固有ペア(λ,v)が導出される(ここで、pはアルゴリズムのプログラム可能な他のパラメータである)。一実施形態において、固有値(λ)自身は無視される。p個の固有ベクトル行列Eごとのnは、分類済点及び未分類点に対応して、p個の行列ELごとのnLとp個の行列EUごとのnUとに区分される。pがデータ点dの次元よりも十分に小さい場合には、この固有関数空間への変換は、次元の減少とみなされる。しかし、一般的には、より良く選択されたpは、dよりも大きい。固有分解の完了後、局所的グラフWxにおける滑らかな関数axが決定される。一実施形態において、線形最小二乗適合が実行されることによって、局所的部分グラフWxにおける滑らかな関数axを求めることができる。
続いて、関数axが、選択されたデータ点xに関して評価される(ステップS412)。一実施形態において、単純線形最小二乗回帰が、局所的部分グラフWxに関して解かれる。問題はバイナリである(すなわち、分類のための分類済セットにおいて二つの分類のみが提供される)と仮定すると、p次元の超平面が、
を解くことによって構成される。
一実施形態において、分類作業がマルチクラスである(すなわち、サンプル分類済セットが二つよりも多いクラスを含む)場合には、一対全(one-vs-all)の超平面acは、右辺をycとした前記式を解くことによって、各クラスcに関して構成され、ここで、i番目の分類済データ点nLiがクラスcに属する場合には、yi c=1であり、それ以外の場合には、yi c=0である。
関数yが一旦評価されると、選択されたデータ点xが、分類を未分類データ点に適用することによって分類される(ステップS414)。一実施形態において、二つの分類のうちの一つが、関数の結果に基づいて選択される。例えば、第一の分類が正の結果(yU>0)に対応し、第二の分類が負の結果(yU<0)に対応する。マルチクラスの実施形態において、最後の分類は、acのそれぞれを未分類点nUに提供し、最大のクラスcを選択することによって実行される。固有ベクトル行列ELはクラスcに依存しないことに留意すべきである。したがって、前記二番目の式は、各クラスcに関して解かれるが、固有分解は一回のみ実行される。
データセットnにおける追加的な未分類データ点nUは、ステップS406〜S414を繰り返すことによって簡単に処理される。どの時点においても、一以上のデータ点の分類が出力される(ステップS418)。一実施形態において、出力は、データセット構造へのアクセスと各データ点に関する所定のフィールドにおけるクラス分類の書き込みとを含む。他の実施形態において、出力(ステップS418)は、データ点、例えば、認識作業の結果としての画像、顔認識アプリケーションに基づく画像の表示を含む。他の多くの出力手法が可能であり、本発明の範囲内であるとみなされる。
LNLEアルゴリズムは、いくつかの利点を有する。例えば、利点の一つとしては、全体的近接グラフWの全体的固有分解が不要であることが挙げられる。従来のアプローチにおいて、全体的固有分解は、最も時間を消費し計算的に集約されたステップである。さらに、処理のために大きいメモリを必要とするため、非常に大きいデータセットの全体的固有分解は、従来のコンピュータシステムでは不可能であった。LNLEアルゴリズムは、アルゴリズムをより大きいデータセットに拡張することができる局所的固有分解を実行することによって、この問題を緩和する。他の利点としては、LNLEの局所特性が与えられると、図5に説明されるアルゴリズムのSSII改良型を構成することが容易であることが挙げられる。
図5を参照すると、SSIIアルゴリズムを具現化するLNLE方法の一実施形態を説明するフローチャートが示される。この実施形態において、図4に関して記述されたステップが、(コネクタAによって説明されるように、)初期のデータセットnに関して実行されているものと仮定する。新たなサンプル外の未分類データ点x’が受信される(ステップS502)。サンプル外のデータ点x’は、ステップS402で入力された元のデータセットnの一部ではない。例えば、サンプル外のデータ点x’は、データ供給源204によって取得された新たな画像であってもよい。新たなデータ点x’は、k個、例えば8個の局所的近傍点を決定し、対応する値、例えば距離0/1等を近接行列に追加することによって、拡大した近接グラフW’を形成する近接グラフWに追加される。続いて、新たなデータ点x’まわりのkx個(例えば、4000個)の局所的近傍点の大きいグループが求められ、拡大した近接グラフW’における局所的近傍点部分グラフWx’が形成される(ステップS508)。続いて、ステップS510〜S518は、本質的には、新たなデータ点x’に関するステップS410〜S418の繰り返しである。このように、サンプル外の点とサンプル内の点との扱いは同様である。したがって、本アルゴリズムは、サンプル外の点とサンプル内の点に関してほぼ同様に機能する。
本発明の一実施形態に係る他の態様は、分類結果に関する信頼性決定を含む。一実施形態によると、LNLEアルゴリズムは、局所的近傍点部分グラフWxを構成し、局所的固有分解を実行し、分類すべき各未分類データ点nUに関して最小二乗問題を解く。ある状況の下で、初期のデータセットnは、非常に少ないサンプル分類済データ点nLを含むことがある。これらの状況の下では、未分類データ点nUまわりの局所的近傍点は、その内部に分類済データ点nLを含まない可能性が十分にある。
この潜在的な問題を解決するために、一実施形態において、LNLE分類手法に関する二つのアプローチが提供される。第一のアプローチであるLNLE(G)は、分類のランダムな推定に基づいて動作する。LNLE(G)アプローチを用いて、所与のデータ点x(nU=x)に関する局所的近傍点Wxが分類済データ点nLを含まない場合には、データ点xに与えるためのクラス分類に関するランダムな推定が実行される。結果としてのデータ点の分類cは、「低い信頼性」の兆候を含む。逆に、一実施形態において、分類済データ点nLが局所的近傍点Wx内に存在する場合には、「高い信頼性」の兆候が提供される。さらに他の実施形態において、信頼性決定は、分類すべきデータ点xからなる局所的近傍点Wx内における分類済データ点nLの数に応じた尺度(例えば、二つよりも大きい値を有する)に基づいている。
低分類済サンプル問題を解決するための他のアプローチとしては、LNLE(R)拒否アプローチが挙げられる。LNLE(R)アプローチを用いて、未分類点xが分類のために選択されて局所的近傍点Wx内に分類済データ点nLが存在しない場合には、分類拒否が実行されて分類結果は得られない。あるいは、一実施形態において、拒否条件が決定される場合には、拒否条件が発生しなくなるまで、すなわち分類済データ点nLの一つが局所的近傍点Wxの一部となるまで、又は、近傍点Wxの個数が極度に大きくなるまで(例えば、kxが最大値に達するまで)、近傍点の個数kxが、因子Δによって増加される(kx=kx+Δ)。
<実験例による実験結果>
このセクションにおいて、LEアルゴリズム及びLNLEアルゴリズムを比較することを意図した実験結果に関する報告が提供される。二つの基本的な問題が解決される。第一の問題は、LNLEはLEと同じくらい正確であるかということである。第二は、LNLEはLEよりも計算的に要求が厳しくないかということである。
このセクションにおいて、LEアルゴリズム及びLNLEアルゴリズムを比較することを意図した実験結果に関する報告が提供される。二つの基本的な問題が解決される。第一の問題は、LNLEはLEと同じくらい正確であるかということである。第二は、LNLEはLEよりも計算的に要求が厳しくないかということである。
一実験例に関して、MINSTデータベースのデータセットが、主成分分析(PCA)を用いて28×28画像のそれぞれを100次元ベクトルとして表現することによって予め処理された。2GBのRAMを備えた従来の汎用コンピュータが、本発明の様々な実施形態に係るLNLEアルゴリズムを具現化するために用いられた。
既に刊行された実験において、LEアルゴリズムは、未分類データ点nUを無視するベースラインk最近傍点アルゴリズム(baseline k-nearest neighbor algorithm)を超える著しい改善が示された。実験の準備段階において、k−NNの結果が複製され、非常に似た結果が、よく調整されたサポートベクトルマシン(SVM)をベースライン分類部として用いて取得された。
LEアルゴリズムアプローチの著者であるBelkin and Niyogi は、「近接行列は非常に疎であり、60000×60000行列の固有ベクトル問題を解くことを可能にする」と述べているが、2GBのRAMを備えた機械上で、著者によって提供されたコードを用いて60,000点のデータセットに関してLEアルゴリズムを実行することは不可能であった。問題の原因の研究後、機械は、60,000点のデータセットに関して固有問題を解こうとしている間、メモリ外で実行していることが見出された。少なくとも4GBのRAMが60,000個の問題を解くのに必要であり、RAMの容量は、市販の計算システムにおいて従来入手不可能であるものと判断された。
2GBの機械を用いて、データセットの大きさは、LEアルゴリズム技術の適用のために30,000点までに減らされた。MNISTの30,000点のサブセットが、LEに関連する実験において用いられた。LNLEアルゴリズムに関しては、全体の60,000点のデータセットが用いられた。分類済データ点nLの定数に関して、20回の反復が実行され、各回は、分類すべきデータ点の異なるランダムなサブセットを選択するものであった。各アルゴリズムに関して用いられる分類済データ点nLのセットは同一であった。各実験に関して、誤差率の平均及び標準偏差が記録された。結果の分布が正規分布であると仮定すると、90%の「信頼区間」が平均を中心とした標準偏差区間四個分として報告される。
Belkin and Niyogi による従来の実験は、20から5,000といった分類済データ点nLの様々な数を用いて実行された。本発明の実施形態に関して実行された実験は、20から500個の分類済データ点を備えたデータセットに焦点を当てて実行されたが、これは、未分類データを用いることによって提供される利点がこの範囲で最も著しいためである。
これらの研究において、Belkin and Niyogi は、固有ベクトルの個数pの様々な選択をテストし、分類済データ点nLの個数と固有ベクトルvの個数pとを変化させるために二次元テーブルを与えた。同様の実験が本明細書に記述され、各実験の最適な結果のみを報告する。分類済データ点nLの定数に関して、pよりも少ない又は多い数を用いて劣化する性能によって、固有ベクトルvの最適個数pが決定された。さらに、固有ベクトルvの最適個数pは、分類済データ点nLの個数に伴って増加した。LNLEアルゴリズムに関して、固有ベクトルの最適個数は、一般的には、全体的なLEアルゴリズムに関してよりも十分に小さくなり、LNLE(R)及びLNLE(G)は同一の最適選択を有していた。表1は、各アルゴリズムに関する固有ベクトルの最適個数pを、分類済データ点nLの個数の関数として報告する。
前記表に関して、表記は、用いられたデータセットnのサイズ及び局所的近傍点の個数を示すために用いられていることに留意すべきである。LEアルゴリズムに関して、(A)は、Aの点のデータセットに言及するものである(例えば、(30)は、データセットにおける30,000個のデータ点を示す)。同様に、LNLEアルゴリズムに関して、(A,k)は、前記したkxとも呼ばれるk個の点の局所的近傍点(例えば、2,000又は4,000点)を有するAの点のデータセットに言及するものである(例えば、Aは30,000、60,000又は同様の量)。
表1は、LEアルゴリズム及びLNLEアルゴリズムに関する固有ベクトルの最適個数pを分類済データ点nLの関数として示す。最適個数は、(20回よりも多い反復で平均された)平均誤差率が最小となる固有ベクトルの個数として選択された。
<正確性結果>
表2及び表3は、LEアルゴリズムとLNLEアルゴリズムとを比較した基本的な結果を含み、表4は、表3における実験に関する拒否の可能性を与える。
表2及び表3は、LEアルゴリズムとLNLEアルゴリズムとを比較した基本的な結果を含み、表4は、表3における実験に関する拒否の可能性を与える。
正確性の標準偏差については、アルゴリズム間の観測された正確性の差に対応して大きくなることが観測された。研究された全てのケースにおいて、全てのアルゴリズムの信頼区間が実質的に重複してテストされた。厳密な観測点を採用して実験は独立していると仮定すると、テストされた全てのアルゴリズムの性能は一致するという仮説は拒絶されない。しかし、実験は、異なるアルゴリズムに関して同じ分類済データ点nLを用いて繰り返される。このように、分散の量が、アルゴリズムよりもむしろ分類済データ点nLのランダムな選択に依存することが予想される。したがって、重複するが実質的には異なる信頼区間が、異なる性能の指標として解釈される。
表4は、LNLE(R)に関する拒否率を、全ての実験にわたって平均された近傍点の個数kとデータ点の個数との関数として示す。一般的には、LNLE(R)アルゴリズムの性能を記述する場合には、拒否されないデータ点の性能に関して言及されている。
これらの実験は若干予備的であるが、いくつかの観測がなされた。30,000個のデータ点に関するLEアルゴリズム及びLNLEアルゴリズムを比較すると、少ない数の分類済データ点nL(例えば、20から50)に関して、LEはLNLE(G)よりも優れているが、LNLE(R)はLEよりも優れていることがわかる。大きい数の分類済データ点nL(例えば、100から500)に関して、LNLE(R)及びLNLE(G)はほぼ同一に機能し(ほとんどの点が拒否されず)、性能はLEの性能に非常に近い。
一般的に、30,000個よりもむしろ60,000個の点を用いてLNLEを実行することは、近傍点の個数kが2,000個のデータ点に固定される場合には、誤差を増大させる。しかし、近傍点の個数kが、例えば4,000個のデータ点まで比例して増加させることが可能な場合には、誤差は減少する。増えた性能は、60,000個の点全てで全体的なLEアルゴリズムを用いて報告された性能に十分に匹敵するものと思われる。20個の分類済点と60,000個の点全てを用いたLNLE(R)アルゴリズムに関する少ない近傍点を用いて得られた誤差率の明らかな減少は、2,000個の近傍点の利用が、4000個の近傍点と比較してデータの0.25足された誤差率を提供するので、若干誤解を招くおそれがある(図4参照)。概略すると、最小のデータセットに関して、元のLEアルゴリズムはLNLE(G)よりも優れており、ここで、全ての未分類データ点nUが分類される。しかし、LNLE(R)は、分類がLEアルゴリズムよりも正確であるデータの大きいサブセットを識別することが可能である。大きいデータセットに関して、全てのアルゴリズムの性能は非常に類似しているが、LNLEアルゴリズムの計算上の要求は非常に小さい。
続いて、(図5に関して前記した)サンプル外の点を分類するSSIIアルゴリズムにおけるLNLEアルゴリズムアプローチの利用が検討される。この実験において、MNISTデータのサブセットの30,000個の点が、トレーニングセットとして用いられ、残りの30,000個の点が、テストセットとして用いられる。各テスト点xは、近接グラフWxを増やし、2,000個の局所的近傍点を求め、結果として得られた固有問題を解き、最小二乗分類を実行することによって分類される。LNLE(G)及びLNLE(R)の両方の結果が、表5に示される。
表5は、LNLE(G)アルゴリズム及びLNLE(R)アルゴリズムに関するサンプル外の誤差率を示す。30,000個のサンプル外のデータ点x’のそれぞれに関して、近接グラフWは、データ点x’を追加し、局所的近傍点Wx’を求め、前記したようにデータ点x’を分類することによって、(W’に)増える。追加的なサンプル外のデータ点x’は、グラフWから除去され、続いて、サンプル外のデータ点x’’が同様に処理される。
結果は、表2及び表3において与えられたLNLE(G)及びLNLE(R)に関するサンプル内の結果と非常に似ており、それによって、LNLEのサンプル外の点への自然な拡張がサンプル内の点に関するLNLEと同様に正確である所望の結果を確認することができる。
<時間結果>
アルゴリズムの様々な態様に関する時間要求が本明細書に記載される。測定の全ては、2GBのRAMを備えた2.4GHzインテル(登録商標)プロセッサを有する単一マシン上で実行される。
アルゴリズムの様々な態様に関する時間要求が本明細書に記載される。測定の全ては、2GBのRAMを備えた2.4GHzインテル(登録商標)プロセッサを有する単一マシン上で実行される。
表6は、LNLEアルゴリズムの実験例に基づいて、30,000個から60,000個にわたる8個の近傍点(すなわち、k=8)の近接グラフWを計算するのに必要な時間(秒単位)を示す。60,000点に必要な時間は、30,000点に必要な時間のほぼ正確に4倍であり、このことは、アルゴリズムのこの部分の時間がデータ点のn2個の距離を計算するのに費やされていることから十分に予想される。
表7は、LEアルゴリズム及びLNLEアルゴリズムにおいて生じるデータセットのサイズと所望の固有ベクトルの個数とを変化させることによって内部固有問題を解くのに必要な時間(秒単位)を報告する。サイズ2,000及び4,000の固有問題に関して、報告された時間は、100回にわたる試行の平均である。サイズ3,000では1回のみの試行が実行された。データセットの固定されたサイズに関して、固有値の個数の関数として必要な時間が、ほぼ線形的に増えることがわかった。他方、データセットのサイズへの依存は、より大きなものとなる。測定値は、時間要求は、O(n3)よりもO(n2)に近づくが、O(n2)よりも早く増えることを示す。
LNLEアルゴリズムにおいて、各未分類点xに関して、我々は、横型探索を用いて近接グラフの部分グラフを求める。表8は、100回の試行にわたって平均された、近傍点の個数kx=2,000,kx=4,000に関する近接グラフの必要な部分グラフを求めるのに必要な時間を示す。
固有ベクトル行列Eを求めるのに加えて、我々は、ET LELax=ET Lyの形態の半正値な線形系を解き、超平面aを用いることによって未分類データを分類しなければならない。固有ベクトルの個数pはデータ点nの個数よりも非常に小さいので、この演算を実行するための時間は、近接グラフ又は固有分解処理の構成と比べて重要ではない。例えば、100×100の正定値な行列のCholesky 因数分解は、約2ミリ秒を必要とするが、20×20系のCholesky 因数分解は、1ミリ秒未満で済む。それゆえ、これらの時間は、本明細書に記載される解析の残り部分において無視される。
様々な表の時間を足し合わせて、表9は、30,000個のサイズのトレーニングセット(LE及びLNLEの両方)及び60,000個のサイズ(LNLEのみ)に関して、未分類データ点nUを分類するために、点ごとに必要な時間を示す。分類時間は秒単位で示され、全体データセットにわたってならされる。ならすために、データセットn全体が分類されていないものと仮定する。この表において、LEに関して、(n,p)は、未分類データ点nUの個数nと、用いられた固有ベクトルvの個数pとに言及するものである。LNLE(n,k,p)は、n千個のデータ点、k千個のデータ点(kx)の局所的近傍点及びp個の固有ベクトルvを用いたLNLEアルゴリズムに言及するものである。
未分類データセットの全体を分類するために用いられる場合には、LNLEアルゴリズムは、LEよりも約二桁遅い。しかし、追加的な考察がいくつか存在する。例えば、大きいサイズのデータセットに関して、LEアルゴリズムは、極度に大きいRAMの容量を必要とするので、実験システムにおいて全く利用不可能である。このように、LNLEは、全ての環境下で速いわけではないが、より少ないメモリ要求でLEよりも大きい問題を解くことができる能力を提供する。さらに、LNLEは、実質的にそれ以上に、容易に拡大可能である。その上、その局所的性質のために、LNLEは、セット全体よりもむしろ所望のサブセットの点の分類を可能とし、サブセットの計算効率の悪さのみを受ける。例えば、単一のデータ点のみが30,000個のデータ点から分類される必要がある場合には、LE(30,50)は1,550秒を要するが、LNLE(30,2,20)はたったの869秒で済む。
おそらく最も重要なのは、LEはTIアルゴリズムのみであるのに対して、LNLEはSSIIアルゴリズム及びTIアルゴリズムの両方によって具現化可能であることである。LEによると、例えばn=30,000及びnL=100と仮定すると、後の時刻で与えられた単一の追加的なサンプル外データ点x’を分類するためのコストは、約429秒である。LEによると、近接グラフWは再利用されるが、サンプル外データ点x’の次の追加のそれぞれに関する全体的固有分解の計算を必要とする。他方、LNLEによると、例えば2,000個の近傍点(kx)を用いて、近傍点を計算し、追加的なサンプル外データ点x’に関する局所的固有分解計算を実行するためには、たったの約2.45秒が必要である。このことは、単一のテストデータ点が即時分類のために提供される際、すなわち、バッチ処理が不可能な場合に、LNLEを特に便利にする。
さらに、計算効率がさらに必要な場合には、LNLEアルゴリズムに対する簡単な拡張が利用可能である。例えば、一実施形態において、kc個の非常に近いデータ点からなる小さい「中心」が形成され、近傍点がその中心まわりに生成される。単一の固有問題は、(kx個の近傍点全てではない)中心におけるデータ点全てを同時に分類するために用いられる。この実施形態において、LNLEアプローチは、他のLNLEアプローチと実質的に同じ正確性を提供し、より少ない計算資源で済むLEに基づくアプローチと同様に早い性能を提供する。
他の実施形態において、データセット全体にわたって近接グラフを生成する代わりに、kdツリー(kd-trees)、ボールツリー(ball trees)等といったデータ構造がアルゴリズムを速くするために用いられる。さらに、「中心」アプローチを用いると、近接グラフを計算するための時間は、分類を処理するための時間全体の一部よりも大きいので、これらの技術は、「中心」アプローチとともに用いられる。
本発明の特定の実施形態及び用途が本明細書で説明及び記述されたが、本発明は本明細書に開示された正確な構成及び成分に限定されず、添付の特許請求の範囲において定義された本発明の精神及び範囲を逸脱しない範囲で、本発明の方法及び装置の配列、動作及び詳細において、様々な修正、変形及び改変が可能であると理解されるべきである。
Claims (19)
- 複数のデータ点から未分類データ点の分類を学習する、コンピュータに基づく方法であって、
複数のデータ点における全てのデータ点間の相対距離を決定するステップと、
未分類データ点に関する近傍データ点のセットを決定するステップと、
前記近傍データ点のセット間の距離の行列の固有分解を実行することによって、関数を決定するステップと、
前記未分類データ点に関する前記関数を評価した結果に基づいて、前記未分類データ点を分類するステップと、
を含むことを特徴とする方法。 - 追加的な未分類データ点を受信するステップと、
前記追加的な未分類データ点と前記複数のデータ点との間の相対距離を決定するステップと、
前記追加的な未分類データ点に関する近傍データ点の第二のセットを決定するステップと、
前記近傍データ点の第二のセット間の距離の行列の固有分解を実行することによって、第二の関数を決定するステップと、
前記追加的な未分類データ点に関する前記第二の関数を評価した結果に基づいて、前記追加的な未分類データ点を分類するステップと、
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記近傍データ点のセット内において決定された分類済データ点の数に基づいて、信頼値を提供するステップ
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記固有分解は、分類済データ点が前記近傍データ点のセット内に存在しない場合と、未分類データ点の分類が誤差条件となる場合と、には実行されない
ことを特徴とする請求項1に記載の方法。 - 分類済データ点が前記未分類データ点に関する前記近傍データ点のセット内に存在しないと決定するステップと、
前記近傍データ点のセットを決定するために近傍データ点の数を増やすステップと、
増やされた前記近傍データ点の数に基づいて、未分類データ点に関する近傍データ点の第二のセットを決定するステップと、
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記全てのデータ点間の相対距離を決定するステップは、
近接行列を計算するステップ
を含むことを特徴とする請求項1に記載の方法。 - 複数のデータ点から未分類データ点の分類を学習する、コンピュータに基づくシステムであって、
複数のデータ点における全てのデータ点間の相対距離を決定する手段と、
未分類データ点に関する近傍データ点のセットを決定する手段と、
前記近傍データ点のセット間の距離の行列の固有分解を実行することによって、関数を決定する手段と、
前記未分類データ点に関する前記関数を評価した結果に基づいて、前記未分類データ点を分類する手段と、
を備えることを特徴とするシステム。 - 追加的な未分類データ点を受信する手段と、
前記追加的な未分類データ点と前記複数のデータ点との間の相対距離を決定する手段と、
前記追加的な未分類データ点に関する近傍データ点の第二のセットを決定する手段と、
前記近傍データ点の第二のセット間の距離の行列の固有分解を実行することによって、第二の関数を決定する手段と、
前記追加的な未分類データ点に関する前記第二の関数を評価した結果に基づいて、前記追加的な未分類データ点を分類する手段と、
をさらに備えることを特徴とする請求項7に記載のシステム。 - 前記近傍データ点のセット内において決定された分類済データ点の数に基づいて、信頼値を提供するステップ
をさらに備えることを特徴とする請求項7に記載のシステム。 - 前記固有分解を実行する手段は、前記近接データ点のセットを決定する手段からの受信結果に応じて、分類済データ点が前記近傍データ点のセット内に存在しない場合と、未分類データ点の分類が誤差条件となる場合と、には前記固有分解を実行しない
ことを特徴とする請求項7に記載のシステム。 - 分類済データ点が前記未分類データ点に関する前記近傍データ点のセット内に存在しないと決定する手段と、
前記近傍データ点のセットを決定するために近傍データ点の数を増やす手段と、
増やされた前記近傍データ点の数に基づいて、未分類データ点に関する近傍データ点の第二のセットを決定する手段と、
をさらに備えることを特徴とする請求項7に記載のシステム。 - 前記全てのデータ点間の相対距離を決定する手段は、
近接行列を計算する手段
を備えることを特徴とする請求項7に記載のシステム。 - 複数のデータ点から未分類データ点の分類を学習する、コンピュータに基づくシステムであって、
未分類データ点に関する近傍データ点のセットを決定し、前記近傍データ点のセット間の距離の行列の固有分解を実行することによって、関数を決定する局所的近傍点ラプラス固有マップ(LNLE)分類モジュール
を備えることを特徴とするシステム。 - 複数のデータ点から未分類データ点の分類を学習するコンピュータ読み取り可能な記録媒体であって、
複数のデータ点における全てのデータ点間の相対距離を決定するステップと、
未分類データ点に関する近傍データ点のセットを決定するステップと、
前記近傍データ点のセット間の距離の行列の固有分解を実行することによって、関数を決定するステップと、
前記未分類データ点に関する前記関数を評価した結果に基づいて、前記未分類データ点を分類するステップと、
を含む方法をコンピュータシステムに実行させるコンピュータプロセッサにおいて実行されるソフトウェア命令を備えることを特徴とするコンピュータ読み取り可能な記録媒体。 - 前記方法は、
追加的な未分類データ点を受信するステップと、
前記追加的な未分類データ点と前記複数のデータ点との間の相対距離を決定するステップと、
前記追加的な未分類データ点に関する近傍データ点の第二のセットを決定するステップと、
前記近傍データ点の第二のセット間の距離の行列の固有分解を実行することによって、第二の関数を決定するステップと、
前記追加的な未分類データ点に関する前記第二の関数を評価した結果に基づいて、前記追加的な未分類データ点を分類するステップと、
をさらに含むことを特徴とする請求項14に記載のコンピュータ読み取り可能な記録媒体。 - 前記方法は、
前記近傍データ点のセット内において決定された分類済データ点の数に基づいて、信頼値を提供するステップ
をさらに含むことを特徴とする請求項14に記載のコンピュータ読み取り可能な記録媒体。 - 前記固有分解は、分類済データ点が前記近傍データ点のセット内に存在しない場合と、未分類データ点の分類が誤差条件となる場合と、には実行されない
ことを特徴とする請求項14に記載のコンピュータ読み取り可能な記録媒体。 - 前記方法は、
分類済データ点が前記未分類データ点に関する前記近傍データ点のセット内に存在しないと決定するステップと、
前記近傍データ点のセットを決定するために近傍データ点の数を増やすステップと、
増やされた前記近傍データ点の数に基づいて、未分類データ点に関する近傍データ点の第二のセットを決定するステップと、
をさらに含むことを特徴とする請求項14に記載のコンピュータ読み取り可能な記録媒体。 - 前記全てのデータ点間の相対距離を決定するステップは、
近接行列を計算するステップ
を含むことを特徴とする請求項14に記載のコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/108,031 US7412425B2 (en) | 2005-04-14 | 2005-04-14 | Partially supervised machine learning of data classification based on local-neighborhood Laplacian Eigenmaps |
PCT/US2006/013566 WO2006113248A2 (en) | 2005-04-14 | 2006-04-11 | Partially supervised machine learning of data classification based on local-neighborhood laplacian eigenmaps |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008538041A true JP2008538041A (ja) | 2008-10-02 |
JP2008538041A5 JP2008538041A5 (ja) | 2009-06-04 |
Family
ID=37109741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008506612A Pending JP2008538041A (ja) | 2005-04-14 | 2006-04-11 | 局所的近傍点ラプラス固有マップに基づくデータ分類の一部学習済学習機械 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7412425B2 (ja) |
JP (1) | JP2008538041A (ja) |
WO (1) | WO2006113248A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853239A (zh) * | 2010-05-06 | 2010-10-06 | 复旦大学 | 一种用于聚类的基于非负矩阵分解的降维方法 |
CN103488297A (zh) * | 2013-09-30 | 2014-01-01 | 华南理工大学 | 一种基于脑机接口的在线半监督文字输入系统及方法 |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9769354B2 (en) | 2005-03-24 | 2017-09-19 | Kofax, Inc. | Systems and methods of processing scanned data |
US9137417B2 (en) | 2005-03-24 | 2015-09-15 | Kofax, Inc. | Systems and methods for processing video data |
US7937264B2 (en) * | 2005-06-30 | 2011-05-03 | Microsoft Corporation | Leveraging unlabeled data with a probabilistic graphical model |
US7814040B1 (en) | 2006-01-31 | 2010-10-12 | The Research Foundation Of State University Of New York | System and method for image annotation and multi-modal image retrieval using probabilistic semantic models |
US7761391B2 (en) * | 2006-07-12 | 2010-07-20 | Kofax, Inc. | Methods and systems for improved transductive maximum entropy discrimination classification |
US7937345B2 (en) * | 2006-07-12 | 2011-05-03 | Kofax, Inc. | Data classification methods using machine learning techniques |
US7958067B2 (en) * | 2006-07-12 | 2011-06-07 | Kofax, Inc. | Data classification methods using machine learning techniques |
US20080243829A1 (en) * | 2007-03-29 | 2008-10-02 | Microsoft Corporation | Spectral clustering using sequential shrinkage optimization |
WO2009038822A2 (en) * | 2007-05-25 | 2009-03-26 | The Research Foundation Of State University Of New York | Spectral clustering for multi-type relational data |
US8064697B2 (en) * | 2007-10-12 | 2011-11-22 | Microsoft Corporation | Laplacian principal components analysis (LPCA) |
WO2009058915A1 (en) * | 2007-10-29 | 2009-05-07 | The Trustees Of The University Of Pennsylvania | Computer assisted diagnosis (cad) of cancer using multi-functional, multi-modal in-vivo magnetic resonance spectroscopy (mrs) and imaging (mri) |
US20100169024A1 (en) * | 2007-10-29 | 2010-07-01 | The Trustees Of The University Of Pennsylvania | Defining quantitative signatures for different gleason grades of prostate cancer using magnetic resonance spectroscopy |
US9082080B2 (en) * | 2008-03-05 | 2015-07-14 | Kofax, Inc. | Systems and methods for organizing data sets |
US9727532B2 (en) * | 2008-04-25 | 2017-08-08 | Xerox Corporation | Clustering using non-negative matrix factorization on sparse graphs |
US8774516B2 (en) | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US8958605B2 (en) | 2009-02-10 | 2015-02-17 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9576272B2 (en) | 2009-02-10 | 2017-02-21 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9349046B2 (en) | 2009-02-10 | 2016-05-24 | Kofax, Inc. | Smart optical input/output (I/O) extension for context-dependent workflows |
US9767354B2 (en) | 2009-02-10 | 2017-09-19 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US8442330B2 (en) | 2009-03-31 | 2013-05-14 | Nbcuniversal Media, Llc | System and method for automatic landmark labeling with minimal supervision |
US8612364B2 (en) * | 2009-10-29 | 2013-12-17 | Xerox Corporation | Method for categorizing linked documents by co-trained label expansion |
US8787454B1 (en) * | 2011-07-13 | 2014-07-22 | Google Inc. | Method and apparatus for data compression using content-based features |
US10146795B2 (en) | 2012-01-12 | 2018-12-04 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9483794B2 (en) | 2012-01-12 | 2016-11-01 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
TWI492166B (zh) | 2012-01-12 | 2015-07-11 | Kofax Inc | 行動影像擷取和處理的系統和方法 |
US9058515B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9058580B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9208536B2 (en) | 2013-09-27 | 2015-12-08 | Kofax, Inc. | Systems and methods for three dimensional geometric reconstruction of captured image data |
EP2973226A4 (en) | 2013-03-13 | 2016-06-29 | Kofax Inc | CLASSIFICATION OF OBJECTS ON DIGITAL IMAGES RECORDED BY MOBILE DEVICES |
US9355312B2 (en) | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
US20140316841A1 (en) | 2013-04-23 | 2014-10-23 | Kofax, Inc. | Location-based workflows and services |
JP2016518790A (ja) | 2013-05-03 | 2016-06-23 | コファックス, インコーポレイテッド | モバイル装置を用いて取込まれたビデオにおけるオブジェクトを検出および分類するためのシステムおよび方法 |
US9386235B2 (en) | 2013-11-15 | 2016-07-05 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
CN104008754B (zh) * | 2014-05-21 | 2017-01-18 | 华南理工大学 | 一种基于半监督特征选择的语音情感识别方法 |
US10997129B1 (en) | 2014-09-16 | 2021-05-04 | EMC IP Holding Company LLC | Data set virtual neighborhood characterization, provisioning and access |
US9760788B2 (en) | 2014-10-30 | 2017-09-12 | Kofax, Inc. | Mobile document detection and orientation based on reference object characteristics |
US10242285B2 (en) | 2015-07-20 | 2019-03-26 | Kofax, Inc. | Iterative recognition-guided thresholding and data extraction |
US10102482B2 (en) | 2015-08-07 | 2018-10-16 | Google Llc | Factorized models |
CN105608471B (zh) * | 2015-12-28 | 2020-01-14 | 苏州大学 | 一种鲁棒直推式标签估计及数据分类方法和系统 |
US9779296B1 (en) | 2016-04-01 | 2017-10-03 | Kofax, Inc. | Content-based detection and three dimensional geometric reconstruction of objects in image and video data |
US11610148B2 (en) * | 2016-10-26 | 2023-03-21 | Sony Corporation | Information processing device and information processing method |
US10546021B2 (en) * | 2017-01-30 | 2020-01-28 | Sap Se | Adjacency structures for executing graph algorithms in a relational database |
JP6707483B2 (ja) * | 2017-03-09 | 2020-06-10 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
US10540398B2 (en) * | 2017-04-24 | 2020-01-21 | Oracle International Corporation | Multi-source breadth-first search (MS-BFS) technique and graph processing system that applies it |
US10796145B2 (en) | 2017-06-29 | 2020-10-06 | Samsung Electronics Co., Ltd. | Method and apparatus for separating text and figures in document images |
US11062176B2 (en) | 2017-11-30 | 2021-07-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
CN109409407A (zh) * | 2018-09-19 | 2019-03-01 | 西安理工大学 | 一种基于le算法的工业监测数据聚类方法 |
CN109711469B (zh) * | 2018-12-27 | 2023-06-20 | 苏州大学 | 一种基于半监督邻域判别指数的乳腺癌诊断系统 |
CN111401426B (zh) * | 2020-03-11 | 2022-04-08 | 西北工业大学 | 基于伪标签学习的小样本高光谱图像分类方法 |
KR102501793B1 (ko) * | 2021-01-14 | 2023-02-21 | 주식회사 뷰노 | 데이터셋 구성 방법 |
-
2005
- 2005-04-14 US US11/108,031 patent/US7412425B2/en not_active Expired - Fee Related
-
2006
- 2006-04-11 JP JP2008506612A patent/JP2008538041A/ja active Pending
- 2006-04-11 WO PCT/US2006/013566 patent/WO2006113248A2/en active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853239A (zh) * | 2010-05-06 | 2010-10-06 | 复旦大学 | 一种用于聚类的基于非负矩阵分解的降维方法 |
CN103488297A (zh) * | 2013-09-30 | 2014-01-01 | 华南理工大学 | 一种基于脑机接口的在线半监督文字输入系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
US20060235812A1 (en) | 2006-10-19 |
US7412425B2 (en) | 2008-08-12 |
WO2006113248A2 (en) | 2006-10-26 |
WO2006113248A3 (en) | 2009-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008538041A (ja) | 局所的近傍点ラプラス固有マップに基づくデータ分類の一部学習済学習機械 | |
Yamada et al. | High-dimensional feature selection by feature-wise kernelized lasso | |
Zhang et al. | Unsupervised feature selection via adaptive graph learning and constraint | |
Liu et al. | Credal c-means clustering method based on belief functions | |
Musa | A comparison of ℓ1-regularizion, PCA, KPCA and ICA for dimensionality reduction in logistic regression | |
Zhang et al. | Label propagation based supervised locality projection analysis for plant leaf classification | |
Oliva et al. | Fast distribution to real regression | |
R. Tavakoli et al. | Bottom-up fixation prediction using unsupervised hierarchical models | |
de Souza et al. | Evolutionary optimization of a multiscale descriptor for leaf shape analysis | |
Beiranvand et al. | Unsupervised feature selection for image classification: A bipartite matching-based principal component analysis approach | |
Yang et al. | A novel patch-based nonlinear matrix completion algorithm for image analysis through convolutional neural network | |
Quispe et al. | Extreme learning machine for out-of-sample extension in Laplacian eigenmaps | |
Akbar et al. | Face recognition using hybrid feature space in conjunction with support vector machine | |
Song et al. | Extended semi-supervised fuzzy learning method for nonlinear outliers via pattern discovery | |
Faivishevsky et al. | Unsupervised feature selection based on non-parametric mutual information | |
Zhang et al. | Nonnegative representation based discriminant projection for face recognition | |
Zhao et al. | A tensor-variate Gaussian process for classification of multidimensional structured data | |
Chatterjee et al. | Similarity graph neighborhoods for enhanced supervised classification | |
Wang et al. | Randomized feature engineering as a fast and accurate alternative to kernel methods | |
CN108229552B (zh) | 一种模型处理方法、装置及存储介质 | |
Ezhilmaran et al. | A survey on clustering techniques in pattern recognition | |
Cai et al. | Motion recognition for 3D human motion capture data using support vector machines with rejection determination | |
Wang et al. | Re-weighting regression and sparsity regularization for multi-view classification | |
Saranya et al. | Semantic annotation of land cover remote sensing images using fuzzy CNN | |
Jun et al. | Two-view correspondence learning via complex information extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120626 |