JP2010176368A

JP2010176368A - コンデンスドｓｖｍ

Info

Publication number: JP2010176368A
Application number: JP2009018011A
Authority: JP
Inventors: Duc Dung Nguyen; ズンデュックグエン; Kazunori Matsumoto; 一則松本; Yasuhiro Takishima; 康弘滝嶋
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-01-29
Filing date: 2009-01-29
Publication date: 2010-08-12
Anticipated expiration: 2029-01-29
Also published as: JP5291478B2; US20100191683A1; US8521660B2

Abstract

【課題】大量の訓練データを用い、かつ高速で学習できるコンデンスドＳＶＭを提供する。
【解決手段】第１ステージＷＳ選択部３は、訓練データＤＢ１から複数個の訓練データをサンプリングし、その中の最適訓練ベクトルｘ_ｔを選択し、ＷＳ管理部５に出力する。第２ステージＷＳ選択部４は、第１ステージの終了後、前記訓練ＤＢ１から訓練データを１個ずつ取り出し、最適性を満足する訓練データｘ_ｔを選択してＷＳ管理部５に出力する。ＳＶＭ最適化処理部６は、ＷＳ管理部５で管理されているＷＳ中から前記第１、第２ステージＷＳ選択部３，４で選択された訓練データｘ_ｔに最も近い距離の訓練データを抽出し、該距離が予め定められた値より小さい場合に該第１、第２の２個の訓練データを１個の訓練データに凝縮（コンデンス）する。
【選択図】図１

Description

本発明は多くの対象物をそれらの多数の特徴に基づいて分類するＳＶＭ（サポートベクトルマシン）に関し、特に収集された大量のデータを用いて高速で訓練するコンデンスドＳＶＭ（Condensed SVM）に関する。

ＳＶＭを学習する主要なタスクは、−１と＋１のラベルｙ_ｉをもつ訓練用データｘ_ｉ（ここに、ｉ＝１，２，・・・，Ｉ）が与えられた場合に、次の（１）式の制約二次計画問題（ＱＰ問題）を解くことである。

ここに、Ｋ（ｘ_ｉ，ｘ_ｊ）は、ある特徴空間上の二つのベクトルｘ_ｉとｘ_ｊ間の内積を計算するカーネル関数であり、Ｃ_ｉ（ｉ＝１，２，・・・，Ｉ）は前記与えられた訓練用データ中のノイズの入った訓練用データにペナルティを課すパラメータである。

さて、上記の問題を解くことは、前記訓練用データの数Ｉが大きくなると、次のような問題が起きてくる。

１）カーネルマトリックスＫ_ｉｊ＝Ｋ（ｘ_ｉ，ｘ_ｊ）、（ここに、ｉ，ｊ＝１，２，・・・，Ｉ）を蓄積するメモリの容量の問題。カーネルマトリックスのデータ量は、通常のコンピュータのメモリ容量を直ぐに超えてしまうという問題がある。

２）カーネル値Ｋ_ｉｊ（ｉ，ｊ＝１，２，・・・，Ｉ）をコンピュータで計算するのが複雑であるという問題。

３）ＱＰ問題をコンピュータで解くのが複雑であるという問題。

テストフェーズでは、ＳＶＭの決定関数ｆ（ｘ）は（２）式で表され、サポートベクトル（ＳＶ）と呼ばれるＮｓ個の訓練用データｘ_ｉ（ｉ＝１，２，・・・，Ｎｓ）から構成される。

前記ＳＶＭの決定関数ｆ（ｘ）の複雑度は、サポートベクトルの個数Ｎｓが増えると共に線形的に増大する。この個数が大きくなると、テストフェーズでのＳＶＭの速度は、カーネル値Ｋ（ｘ_ｉ，ｘ）（ｉ＝１，２，・・・，Ｎｓ）の計算量が増大するために遅くなる。

そこで、従来から、訓練及びテスト両フェーズにおけるサポートベクトル学習の拡張性を改善するために、次の種々の方式が提案されている。
１．分解アルゴリズム（Decomposition Algorithms)（下記の非特許文献２，３，４および５）

分解方法は、当初のＱＰを一連のはるかに小さいＱＰに分解し、その後、これらのサブ問題を最適化する。訓練用データは能動ベクトル群と非能動ベクトル群の２つに分けられる。能動ベクトル群又はワーキングセットでは、係数α_ｉが更新されることができる。一方、非能動ベクトル群では、係数α_ｉは一時的に固定される。最適化アルゴリズムは、全データでなく少数の仕事用データで作動する。このため、メモリ容量が２乗で増加し、コンピュータの複雑さが３乗で増すという問題は回避される。各最適化ループにおいて、仕事用データは新しいＳＶＭ解を見つけるために更新される。処理の訓練（学習）は、最適の条件が満たされると終了する。
２．並行方式（Parallelization)（下記の非特許文献６および７）

ＳＶＭの訓練速度は並列コンピュータで動作する並列アルゴリズムを用いて効果的に改善することができる。
３．データサンプリング（下記の非特許文献８，９および１０）

重要な訓練データを選択するための色々な方式が最適化問題（１）のサイズを低減するために提案されている。少量のデータから学習されたＳＶＭは多くのケースにおいて良好な成果を果たすことができる。
４．ＳＶＭ簡単化のための低減セット方法（下記の非特許文献１１および１２）

テストフェーズでのＳＶＭを高速化するために、低減セット方法は、Ｎｓ個のＳＶを有するＳＶＭ決定関数（２式参照）を、低減ベクトルと呼ばれるＮｚ個のベクトル（Ｎｚ＜＜Ｎｓ）からなる簡単化されたＳＶＭ決定関数で置換する。この低減セット方法は、従来のＳＶＭと同様の成果を果たす簡単化されたＳＶＭを生成できることが実際に示されている。
C. Cortes and V. Vapnik, "Supportvector networks," Machine Learning, vol. 20, pp. 273-297, 1995. E. Osuna, R. Freund, and F.Girosi, "An improved training algorithm for support vector machines,"in Neural Networks for Signal Processing VII - Proceedings of the 1997 IEEEWorkshop, N. M. J. Principe, L. Gile and E. Wilson, Eds., New York, pp.276-285, 1997. T. Joachims, "Makinglarge-scale support vector machine learning practical," in Advances inKernel Methods: Support Vector Machines, A. S. B. Scholkopf, C. Burges, Ed.,MIT Press, Cambridge, MA, 1998 J. Platt, "Fast training ofsupport vector machines using sequential minimal optimization," inAdvances in Kernel Methods - Support Vector Learning, B. Scholkopf, C. J. C.Burges, and A. J. Smola, Eds., Cambridge, MA: MIT Press, 1999. Duc Dung Nguyen; Matsumoto, K.;Takishima, Y.; Hashimoto, K.; Terabe, M., "Two-stage incremental workingset selection for fast support vector training on large datasets," Research,Innovation and Vision for the Future, 2008. RIVF 2008. IEEE InternationalConference on , vol., no., pp.221-226, 13-17 July 2008. R. Collobert, S. Bengio, and Y.Bengio, "A parallel mixture of svms for very large scale problems,"Neural Computation, vol. 14, no. 5, pp. 1105 1114, 2002. G. H. Peter, C. Eric, B. L eon,D. Igor, and V. Vladimir, "Parallel support vector machines: The CascadeSVM," in Advances in Neural Information Processing Systems, L. Saul, Y.Weiss, and L. Bottou, Eds., vol. 17. MIT Press, 2005. Y.-J. Lee and O. L. Mangasarian,"Rsvm: Reduced support vector machines," in Proceedings of the FirstSIAM International Conference on Data Mining. Morgan Kaufmann, San Francisco,CA, 2001. A. Bordes, S. Ertekin, J. Weston,and L. Bottou, "Fast kernel classifiers with online and activelearning," Journal of Machine Learning Research, vol. 6, pp. 1579 1619,2005. I. W. Tsang, J. T. Kwok, andP.-M. Cheung, "Core vector machines: Fast svm training on very large datasets," J. Mach. Learn. Res., vol. 6, pp. 363 392, 2005. C. J. C. Burges,"Simplified support vector decision rules," in Proc. 13thInternational Conference on Machine Learning, San Mateo, CA, 1996, pp. 71 77. Nguyen, D.D., Ho, T.B.. ABottom-up Method for Simplifying Support Vector Solutions, IEEE Transactions onNeural Networks, Vol.17, No. 3, 792-796, 2006.

前記の各方式には、次のような課題がある。

１．分解アルゴリズム

大量のデータ（例えば、１００，０００個より多い訓練データ）で動作すると、収束速度が遅くなる。コンピュータの複雑さはサポートベクトル数の３乗で増加し、また、メモリ容量はサポートベクトル数の２乗で増大する。

２．並列処理

通信コストが適当になるようにアルゴリズムを設計すると、コンピュータの計算力とカーネル処理にまだ問題がある。さらに、並行化による最適化の速度を改良することは、計算ステップ間の依存性のために困難である。

３．データサンプリング

この処理の最大の問題は、限定された情報（訓練データ）のみが最適化に使われるために、訓練されたＳＶＭに劣化が生じることである。さらに、実使用時に適当なサンプリング方式を選択するのが困難である。

４．ＳＶＭ簡単化のための低減セット方法

低減セット方法はＳＶＭが訓練アルゴリズムによって既に訓練されており、そのタスクはそのマシンを再訓練するという仮定の下で動作する。さらに、簡単化されたＳＶＭを再訓練することおよび（ｄ＋１）Ｎｚ変数（ｄは訓練ベクトルの次数）の関数を最小化することが要求される。これは、特に低減ベクトルＮｚの個数が大きいときには、簡単なタスクではない。

本発明の目的は、大量の訓練データを用い、かつ高速で学習できるコンデンスドＳＶＭを提供することにある。

前記した目的を達成するために、本発明は、多数の訓練データを有する訓練データベースと、該訓練データベースから複数個の訓練データを選択し、その中から１個の最適訓練ベクトルを求める手順を繰り返し行う第１ステージワーキングセット（ＷＳ）選択部と、第１ステージの終了後、前記訓練データベース中の訓練データを１個ずつ取り出し、最適性を満足する訓練データを選択する第２ステージワーキングセット（ＷＳ）選択部と、前記第１、第２ステージＷＳ選択部で選択された訓練データを管理するワーキングセット（ＷＳ）管理部と、前記第１、第２ステージＷＳ選択部で選択された第１の訓練データに最も近い距離の第２の訓練データを、前記ＷＳ管理部で管理されているＷＳ中から抽出し、前記第１、第２の訓練データの距離が予め定められた値より小さい場合に該第１、第２の２個の訓練データを１個の訓練データに凝縮する手段を有するＳＶＭ最適化処理部とを具備した点に第１の特徴がある。

また、本発明は、前記ＳＶＭ最適化処理部は、さらに、前記第１、第２の訓練データの距離が前記予め定められた値より大きい場合に、前記ＷＳ中に非サポートデータが存在するかどうかを検査し、存在する場合には該非サポートデータを削除する点に第２の特徴がある。

さらに、本発明は、前記ＳＶＭ最適化処理部は、さらに、前記ＷＳ中に非サポートデータが存在しない場合に、該ＷＳに前記第１の訓練データを加える点に第３の特徴がある。

本発明によれば、距離の最も近い２個の訓練データは１個の訓練データに凝縮（統合）されるので、訓練データの個数が増加しても、サポートベクトルの個数は大して増加しない。よって、少量のサポートベクトルでＳＶＭを学習させることができるので、大量の訓練データを用いても高速で学習できるコンデンスドＳＶＭを提供することができる。

また、前記距離の最も近い２個の訓練データが予め定められた値より大きい場合には、ＷＳ中に非サポートベクトルがあるかどうかを検査し、非サポートベクトルがある場合には該非サポートベクトルをＷＳから削除するので、ＷＳが大して増大しない。よって、大量の訓練データを用いても、高速でＳＶＭを学習させることができる。

また、サポートベクトルの個数やＷＳが大して増大しないので、ＳＶＭのメモリ容量を大きくすることなく大量の訓練データを用いてＳＶＭを学習させることができる。

以下に、図面を参照して、本発明を詳細に説明する。図１は、本発明のコンデンスド（凝縮）ＳＶＭの概略の構成を示すブロック図である。

図示されているように、コンデンスドＳＶＭは、訓練データ（又は、事例）ＤＢ（データベース）１と、ＳＶＭ解の初期化部２と、第１ステージＷＳ（ワーキングセット）選択部３と、第２ステージＷＳ（ワーキングセット）選択部４と、ＷＳ管理部５と、ＳＶＭ最適化処理部（SVM Optimizer）６とから構成される。

前記訓練データＤＢ１は、好ましくは正解事例の訓練データからなる。初期化部２では、ＳＶＭ解が初期化される。
第１ステージＷＳ選択部３では、図２のフローチャートに示す機能が行われる。ステップＳ１では、訓練データＤＢ１からｍ個の訓練データｘ_ｋ（ｋ＝１，２，・・・，ｍ）をサンプリングし、該サンプリングしたｍ個の訓練データｘ_ｋから訓練データ集合Ｓを形成する。ステップＳ２では、該訓練データ集合Ｓの中から一時ＳＶＭ解（temporal SVMsolution)に関しての最適訓練データ（ベクトル）ｘ_ｔを求める。最適訓練データ（ベクトル）ｘ_ｔは次の式から求めることができる。

上記式中のｙ_ｋは＋１または−１のラベル値を示し、ｆ（ｘ_ｋ）は訓練データｘ_ｋのＳＶＭ解を示す。

次いで、ステップＳ３に進み、前記最適訓練データｘ_ｔの最適性を、最適訓練データｘ_ｔが条件｛ｙ_ｔ−ｆ_ｔ（ｘ_ｔ）｝＞０を満たすかどうかによりチェックする。この条件が満たされればステップＳ４に進んで該最適訓練データｘ_ｔをＷＳ管理部５に出力する。一方、該条件が満たされなければ、ステップＳ１に戻って、訓練データＤＢ１から新たなｍ個の訓練データｘ_ｋ（ｋ＝１，２，・・・，ｍ）をサンプリングし、前記したのと同じ動作を繰り返す。以上のように、第１ステージＷＳ選択部３からは、最適訓練データ（ベクトル）ｘ_ｔが１個ずつ出力される。

次に、ＷＳ管理部５は第１、第２ステージＷＳ選択部３，４から、最適性をチェックされた最適訓練データ（ベクトル）ｘ_ｔを受け取り、一時ＷＳ（temporal working set)を更新する。なお、第２ステージＷＳ選択部４の動作は後述する。

次に、更新された一時ＷＳは、ＳＶＭ最適化処理部６に送られる。該ＳＶＭ最適化処理部６の機能を、図３のフローチャートを参照して説明する。

ステップＳ１１では、ＷＳ管理部５から、新訓練ベクトルｘ_ｔと一時ワーキングセットＢ_ｔ（以下、単にＢ_ｔと記す）とを受け取る。ここにＢ_ｔは、図１の装置が継続されて動作したことにより得られた訓練ベクトルｘ_ｔの集積である。ステップＳ１２では、Ｂ_ｔの中から新訓練ベクトルｘ_ｔと最も距離の近いベクトルｘ_ｉを見つける。ステップＳ１３では、ベクトルｘ_ｉがコンデンス（凝縮）基準を満たしているかどうかの判定をする。具体的には、ベクトルｘ_ｉとベクトルｘ_ｔとの距離が予め定めた値θより小さいかどうかの判定がなされる。この判定が肯定の場合にはステップＳ１４に進んで、ベクトルｘ_ｔがベクトルｘ_ｉに凝縮（統合）される。この結果、Ｂ_ｔのサイズは増加することはないので、変化しない。

前記凝縮（統合）の仕方の一具体例を図５を参照して説明する。いま、ベクトルｘ_１をｘ_２に凝縮して凝縮ベクトルｚ_２を生成する場合を考えると、この凝縮によりベクトルｘ_１とｘ_２に対するＳＶＭの決定関数ｆ（ｘ_１）、ｆ（ｘ_２）の係数α_１、α_２はβ_２に、前記パラメータＣ_１，Ｃ_２はＤ_２に変えられる。前記凝縮ベクトルｚ_２、係数β_２、およびパラメータＤ_２は、次の式により得ることができる。なお、凝縮されないベクトルｚ_３〜ｚ_ｎはｘ_３〜ｘ_ｎに等しく、β_３〜β_ｎはα_３〜α_ｎに等しく、Ｄ_３〜Ｄ_ｎはＣ_３〜Ｃ_ｎに等しい。

数４の凝縮の式を一般化すると、次の式のように書くことができる。

前記ステップＳ１３が否定の時には、ステップＳ１５に進んで、Ｂ_ｔの中に非サポートベクトル（ＳＶ）ｘ_ｊが存在するか否かの判断がなされる。この判断が肯定の場合にはステップＳ１６に進んで、Ｂ_ｔから非サポートベクトルｘ_ｊが除去され、新訓練ベクトルｘ_ｔが加えられる。この結果、Ｂ_ｔのサイズは増加することはないので、変化しない。一方、前記判断が否定の時にはステップＳ１７に進んで、Ｂ_ｔに新訓練ベクトルｘ_ｔが加えられる。この結果、Ｂ_ｔは１個の新訓練ベクトルｘ_ｔだけ増加する。ステップＳ１８では、最適化処理後のワーキングセットＢ_ｔ＋１が出力される。また、該ワーキングセットＢ_ｔ＋１は、第１、第２ステージＷＳ選択部３，４へフィードバックされる。

上記の一連の動作、つまり第１ステージの動作の概要は、図６のように表すことができる。図６中のＴは訓練ベクトルの総数、つまりＴ＝｛（ｘ_ｉ，ｙ_ｉ）｝、ｙ_ｉ＝±１，（ｉ＝１，２，・・・・，ｌ）である。

図６から明らかなように、該第１ステージでは、ワーキングセットＢ_ｔは最小の値から始めて漸増的に作成される。各最適化ループにおいて、一つの訓練ベクトルがＢ_ｔを更新するために選ばれ、新しいＳＶＭ解ｆ_ｔ＋１が見つけられる。この新しいＳＶＭ解は、一つの新しい訓練ベクトルを選択するために、次のサイクルで使用される。

Ｂ_ｔの漸増の構成は、最適化アルゴリズムが重要な訓練ベクトル上でのみ働くことを可能にする。このため、カーネルマトリックスを蓄積するためのメモリ要求を最小にし、カーネルマトリックスと最適化を計算するための計算量を最小にする。

次に、第１ステージＷＳ選択部３は、次の（１）〜（３）の条件の内の１つでも当てはまると、第１ステージＷＳ選択部３の動作は終了し、第２ステージＷＳ選択部４の動作に移行する。

（１）非能動のベクトル（inactive vectors）が空になった場合、つまり図６の「Ｎ_ｔ＋１」が０になった場合、

（２）現在のワーキングセットＢ_ｔのサイズが予め定められた値より大きくなった場合、

（３）訓練データＤＢ１中の全ての訓練ベクトルが、１回以上第１ステージ選択部３によって選択された場合、

次に、第２ステージＷＳ選択部４の動作を図４のフローチャートを参照して説明する。

ステップＳ２１では、訓練データＤＢ１から１個の訓練ベクトルｘ_ｔを選択する。ステップＳ２２では、前記訓練ベクトルｘ_ｔの最適性を、最適訓練データｘ_ｔが条件｛ｙ_ｔ−ｆ_ｔ（ｘ_ｔ）｝＞０を満たすかどうかによりチェックする。そして、この条件が満たされれば訓練ベクトルｘ_ｔをＷＳ管理部５に出力する。一方、満たされなければステップＳ２１に戻って、次の１個の訓練ベクトルｘ_ｔを選択する。

この第２ステージＷＳ選択部４の動作は、第１ステージで選択されなかったベクトルの全てが１回以上選択され、ステップＳ２２で１回以上チェックされた場合は終了する。

以上のように、本実施形態は２段階方式を採用しており、第１段階では、前記ステップＳ１でサンプリングされたｍ個の訓練ベクトルの内の最良のものが選択される。この選択方法は、合理的なコストで良好な準最適ＳＶＭ解を得ることを目的としている。

第２段階では、全ての訓練データが一つずつ試される。一時的なＳＶＭ解に関して最適条件を満たす訓練ベクトルはワーキングセットＢを更新するために選択され、最適条件を満たさない訓練ベクトルは廃棄される。この段階は、ＳＶＭ解を精査し重要でない訓練データを廃棄することを目的とする。

すなわち、第１段階は準最適解を高速に求め、第２段階は該準最適解が存在することを前提にした、高速に解を改善する手法を示すものである。なお、前記第１段階を行わずに最初から第２段階のように、準最適解がない状態から始めると、適切な解に終息する保証が無くなって、通常、学習で得られるＳＶＭのモデルの性能が悪くなる。以上のように、この発明によれば、ＳＶＭの訓練時間を短縮することができる。

本発明者が、本発明の効果を確認するために行った実験結果の一例を図７に示す。図７のグラフの横軸は、いずれも訓練データの個数を示す。上段の３つのグラフは、最適化のパラメータ（ｇ、Ｃ、θ）を図示のように変えた場合のサポートベクトルＳＶの個数（number of SV)の変化、中段の３つのグラフは分類性能(test accuracy(%))の変化、および下段の３つのグラフは訓練時間(trainingtime (s))の変化を示す。なお、前記パラメータ（ｇ、Ｃ、θ）のｇは前記数１の(1)式のカーネル関数Ｋ（ｘ_ｉ，ｘ_ｊ）として、ガンマカーネル［Ｋ（ｘ_ｉ，ｘ_ｊ）＝ｅｘｐ｛−ｇ・（ｘ_ｉ−ｘ_ｊ）^２｝］を利用する時のパラメータｇである。また、Ｃは前記数１のＣであり、θは図３のステップＳ１３のθである。

上段のグラフから、訓練データの個数が増えると、従来方式ではＳＶの個数が増加するのに対して、本発明方式では殆ど増加しないことが分かる。中段のグラフからは、本発明方式では前記のようにＳＶの個数が殆ど増加しないにも拘わらず分類性能が従来方式と殆ど同じであることが分かる。また、下段のグラフからは、訓練データの個数が増えると、従来方式では訓練時間が増大するのに対して、本発明方式では殆ど増加しないことが分かる。

本発明のコンデンスドＳＶＭの概略の構成を示すフローチャートである。図１の第１ステージＷＳ選択部の機能を示すフローチャートである。図１のＳＶＭ最適化処理部の機能を示すフローチャートである。図１の第２ステージＷＳ選択部の機能を示すフローチャートである。ＳＶＭ最適化処理部における訓練ベクトルの凝縮動作の説明図である。第１ステージの動作の概要を示す説明図である。本発明方式と従来方式との効果の違いを説明するためのグラフである。

１・・・訓練データＤＢ、２・・・初期化部、３・・・第１ステージＷＳ選択部、４・・・第２ステージＷＳ選択部、５・・・ＷＳ管理部、６・・・ＳＶＭ最適化処理部。

Claims

多数の訓練データを有する訓練データベースと、
該訓練データベースから複数個の訓練データを選択し、その中から１個の最適訓練ベクトルを求める手順を繰り返し行う第１ステージワーキングセット（ＷＳ）選択部と、
第１ステージの終了後、前記訓練データベース中の訓練データを１個ずつ取り出し、最適性を満足する訓練データを選択する第２ステージワーキングセット（ＷＳ）選択部と、
前記第１、第２ステージＷＳ選択部で選択された訓練データを管理するワーキングセット（ＷＳ）管理部と、
前記第１、第２ステージＷＳ選択部で選択された第１の訓練データに最も近い距離の第２の訓練データを、前記ＷＳ管理部で管理されているＷＳ中から抽出し、前記第１、第２の訓練データの距離が予め定められた値より小さい場合に該第１、第２の２個の訓練データを１個の訓練データに凝縮する手段を有するＳＶＭ最適化処理部とを具備してなるコンデンスドＳＶＭ。
請求項１に記載のコンデンスドＳＶＭにおいて、
前記ＳＶＭ最適化処理部は、さらに、前記第１、第２の訓練データの距離が前記予め定められた値より大きい場合に、前記ＷＳ中に非サポートデータが存在するかどうかを検査し、存在する場合には該非サポートデータを削除することを特徴とするコンデンスドＳＶＭ。
請求項２に記載のコンデンスドＳＶＭにおいて、
前記ＳＶＭ最適化処理部は、さらに、前記ＷＳ中に非サポートデータが存在しない場合に、該ＷＳに前記第１の訓練データを加えることを特徴とするコンデンスドＳＶＭ。
請求項１ないし３のいずれかに記載のコンデンスドＳＶＭにおいて、
（１）非能動のベクトル（inactive vectors）が空になった場合、
（２）現在のワーキングセットＢ_ｔのサイズが予め定められた値より大きくなった場合、
（３）訓練データＤＢ１中の全ての訓練ベクトルが１回以上第１ステージ選択部３によって選択された場合、
の内のいずれかの場合に、前記第１ステージＷＳ選択部から第２ステージＷＳ選択部へ移行することを特徴とするコンデンスドＳＶＭ。
請求項１ないし４のいずれかに記載のコンデンスドＳＶＭにおいて、
前記第１、第２の２個の訓練データを１個の訓練データに凝縮する手段は、該第１、第２の訓練データをｘ_ｉ，ｘ_ｊ、係数をα_ｉ，α_ｊおよびパラメータをＣ_ｉ，Ｃ_ｊとするとき、凝縮ベクトルｚ、係数β、およびパラメータＤは、次の式で求められることを特徴とするコンデンスドＳＶＭ。ここに、Ｋは、カーネル関数である。