JPH1173406A

JPH1173406A - サポートベクトル機械を使用する方法

Info

Publication number: JPH1173406A
Application number: JP10169787A
Authority: JP
Inventors: Christopher John Burges; ジョンバージェスクリストファー
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1997-06-26
Filing date: 1998-06-17
Publication date: 1999-03-16
Also published as: US6134344A; EP0887761A2; CA2238164A1; EP0887761A3

Abstract

(57)【要約】【課題】与えられたベクトルのセットを試験段階で用
いるために高次元空間に写像するアルゴリズムを用いた
機械の効率を改善する。【解決手段】サポートベクトル機械（ＳＶＭ）は、そ
の判定面がサポートベクトルのセットによって、およ
び、対応する重みのセットによって、パラメトライズさ
れる万能学習機械である。本発明によるＳＶＭは、縮小
セットベクトルを用いる。縮小セットベクトルの数は、
セット内のベクトルの数より少ない。これらの縮小セッ
トベクトルはセット内のベクトルとは異なり、同次２次
核で用いられる固有値計算とは異なる最適化法に従って
決定される。実施例では、パターン認識で用いるため
に、ＳＶＭは縮小セットベクトルを利用し、これによ
り、ユーザが選択するファクタだけこのＳＶＭの効率を
改善する。これらの縮小セットベクトルは、無制約最適
化法に従って決定される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、万能学習機械に関
し、特に、サポートベクトル機械に関する。

【０００２】

【従来の技術】サポートベクトル機械（ＳＶＭ(Support
Vector Machine)）は、その判定面がサポートベクトル
のセットによって、および、対応する重みのセットによ
って、パラメトライズされる万能学習機械である。ＳＶ
Ｍはまた、核関数によっても特徴づけられる。核の選択
は、その結果として得られるＳＶＭが多項式クラシファ
イアであるか、２層ニューラルネットワークであるか、
動径（放射状）基底関数（ＲＢＦ）機械であるか、ある
いはその他の学習機械であるかを決定する。ＳＶＭの判
定規則は、対応する各関数およびサポートベクトルの関
数である。

【０００３】

【発明が解決しようとする課題】一般に、ＳＶＭは、訓
練段階および試験段階という２つの段階で動作する。訓
練段階中、判定規則で用いるためのサポートベクトルの
セットが生成される。試験段階中、特定の判定規則を用
いて判定が行われる。残念ながら、この試験段階におい
て、ＳＶＭ判定規則の計算量は、サポートベクトルセッ
ト内のサポートベクトルの数Ｎ_Sに比例する。

【０００４】

【課題を解決するための手段】本発明によれば、与えら
れたベクトルのセットを試験段階で用いるために高次元
空間に写像するアルゴリズムを用いた機械の効率を改善
する方法および装置が実現される。具体的には、本発明
の原理によれば、縮小セットベクトルを用いる。縮小セ
ットベクトルの数は、セット内のベクトルの数より少な
い。これらの縮小セットベクトルはセット内のベクトル
とは異なり、同次２次核で用いられる固有値計算とは異
なる最適化法に従って決定される。

【０００５】本発明の実施例では、パターン認識で用い
るために、ＳＶＭは縮小セットベクトルを利用し、これ
により、ユーザが選択するファクタだけこのＳＶＭの効
率を改善する。これらの縮小セットベクトルは、無制約
最適化法に従って決定される。

【０００６】本発明の特徴によれば、縮小セットベクト
ルの選択により、性能対計算量のトレードオフを直接制
御することが可能となる。

【０００７】さらに、本発明の考え方はパターン認識に
固有ではなく、サポートベクトルアルゴリズムが用いら
れるような任意の問題（例えば、回帰推定）に適用可能
である。

【０００８】

【発明の実施の形態】本発明の実施例について説明する
前に、サポートベクトル機械について簡単な背景的知識
を説明した後、本発明の考え方自体の説明を行う。本発
明の考え方以外に、読者は、当業者に知られている核ベ
ースの方法を一般的に表現するために用いられる数学的
記法を知っていると仮定する。また、本発明の考え方
は、パターン認識の場合の例に関して説明される。しか
し、本発明の考え方は、サポートベクトルアルゴリズム
が用いられるような任意の問題（例えば、回帰推定）に
適用可能である。

【０００９】以下の説明で、注意すべき点であるが、１
０個の数字のグレイレベル画像を含む２つの光学的文字
認識（ＯＣＲ）データセットからの試験データを用い
る。一方のデータセットは、７，２９１個の訓練パター
ンおよび２，００７個の試験パターンからなり、ここで
は「郵便セット」という（例えば、L. Bottou, C. Cort
es, H. Drucker, L. D. Jackel, Y. LeCun, U. A. Muel
ler, E. Saeckinger, P.Simard, and V. Vapnik, "Comp
arison of Classifier Methods: A Case Studyin Handw
ritten Digit Recognition", Proceedings of the 12th
IAPR International Conference on Pattern Recognit
ion, Vol.2, IEEE Computer Society Press（米国カリ
フォルニア州ロスアラモス）, pp.77-83, 1994、およ
び、Y. LeCun, B. Boser, J. S. Denker, D. Henderso
n, R. E. Howard, W. Hubbard, L. D.Jackel, "Backpro
pagation Applied to Handwritten ZIP Code Recogniti
on",Neural Computation, 1, 1989, pp.541-551、参
照）。他方のデータセットは、NIST Special Database
3およびNIST Test Data 1からの６０，０００個の訓練
パターンおよび１０，０００個の試験パターンからな
り、ここでは「ＮＩＳＴセット」という（例えば、R.
A. Wilkinson, J. Geist, S. Janet, P. J. Grother,C.
J. C. Burges, R. Creecy, R. Hammond, J. J. Hull,
N. J. Larsen, T. P.Vogl and C. L. Wilson, "The Fir
st Census Optical Character Recognition System Con
ference, 米国商務省, NIST, August 1992、参照）。
「郵便セット」の画像は１６×１６ピクセルであり、
「ＮＩＳＴセット」の画像は２８×２８ピクセルであ
る。

【００１０】［従来技術：サポートベクトル機械］判定
規則が次の形をとるような２クラスクラシファイアを考
える。

【数１】ただし、ベクトルｘおよびベクトルｓ_iはＲ^dの元であ
り、α_iおよびｂは実数であり、Θは階段関数である。
Ｒ^dはｄ次元ユークリッド空間であり、Ｒは実数であ
る。α_i、ベクトルｓ_i、Ｎ_Sおよびｂはパラメータであ
り、ベクトルｘは分類されるべきベクトルである。さま
ざまなクラシファイアに対する判定規則がこの形で書け
る。例えば、Ｋ（ｘ・ｓ_i）^pは多項式クラシファイアを
実現し、

【数２】は動径基底関数機械を実現し、Ｋ＝ｔａｎｈ（γ（ｘ・
ｓ_i）＋δ）は２層ニューラルネットワークを実現する
（例えば、V. Vapnik, "Estimation of Dependencies B
ased on Empirical Data", Springer Verlag, 1982、V.
Vapnik, "The Nature of Statistical Learning Theor
y", Springer Verlag, 1995、Boser, B. E., Guyon, I.
M., and Vapnik, V., "A training algorithm foropti
mal margin classifiers", Fifth Annual Workshop on
Computational Learning Theory, Pittsburgh ACM 144-
152, 1992、およびB. Schoelkopf, C. J. C. Burges, a
nd V. Vapnik, "Extracting Support Data for a Given
Task", Proceedings of the First International Con
ference on Knowledge Discovery and Data Mining, AA
AI Press（米国カリフォルニア州Menlo Park, 1995、参
照）。

【００１１】サポートベクトルアルゴリズムは、その判
定規則が式（１）の形をとるような任意の学習機械を訓
練する原理的な方法である。要求される唯一の条件は、
核Ｋが一般的な正値性制約を満たすことである（例え
ば、前掲の"The Nature of Statistical Learning Theo
ry"、および"A training algorithm for optimal margi
n classifiers"、参照）。他の方法とは異なり、ＳＶＭ
訓練プロセスは、パラメータセット全体｛α_i，ベクト
ルｓ_i，Ｎ_Sおよびｂ｝を決定する。その結果得られるベ
クトルｓ_i（ｉ＝１，...，Ｎ_S）は、訓練セットのサブ
セットであり、サポートベクトルと呼ばれる。

【００１２】サポートベクトル機械はいくつかの優れた
性質を有する。訓練手続きは、制約２次最適化問題を解
くこととなり、従って、求められる解は、目的関数の一
意的な大域的最小値であることが保証される。ＳＶＭ
は、構造的リスク最小化を直接に実現するために使用可
能である。この場合、学習機械の容量は、汎化誤りの限
界を最小にするように制御することができる（例えば、
前掲の"The Nature of Statistical Learning Theor
y"、および"Extracting Support Data for a GivenTas
k"、参照）。サポートベクトル判定面は、実際には、高
次元空間内の線形分離超平面である。同様に、ＳＶＭ
は、回帰を構成するためにも使用可能であり、これはあ
る高次元空間において線形である（例えば、前掲の"The
Nature of Statistical Learning Theory"、参照）。

【００１３】サポートベクトル学習機械は、光学的文字
認識（ＯＣＲ）（例えば、前掲の"The Nature of Stati
stical Learning Theory"、および"Extracting Support
Data for a Given Task"、ならびにC. Cortes and V.
Vapnik, "Support Vector Networks", Machine Learnin
g, Vol.20, pp.1-25, 1995、参照）、および対象認識の
ようなパターン認識問題に適用されて成功している。

【００１４】図１は、従来技術のＳＶＭの動作の流れ図
である。この動作は、訓練段階および試験段階という２
つの段階からなる。訓練段階では、ステップ５２で、Ｓ
ＶＭは、クラスがあらかじめ割り当てられた訓練セット
の要素を受け取る。ステップ５４で、訓練セットからの
入力データベクトルを多次元空間内へ変換する。ステッ
プ５６で、最適な多次元超平面に対するパラメータ（す
なわち、サポートベクトルおよび対応する重み）が決定
される。

【００１５】図２に、訓練データ要素が２つのクラスに
分離される例を示す。一方のクラスは円で表され、他方
のクラスは四角で表されている。これは典型的な２クラ
スパターン認識問題のものである。例えば、「車」のパ
ターンを「車でない」パターンから分離するように訓練
されたＳＶＭである。最適超平面は、２つのクラスのベ
クトルの間に極大マージンを有する線形判定関数であ
る。すなわち、最適超平面は、訓練データを極大マージ
ンで分離する一意的な判定面である。図２に示すよう
に、最適超平面は、２つのクラスの間の分離が最大であ
る領域によって定義される。図２で観察されるように、
最適超平面を構成するには、訓練されたデータ要素のう
ち、この極大マージンを決定するサブセットを考慮すれ
ばよい。訓練要素のうち、最適超平面のパラメータを決
定するこのサブセットは、サポートベクトルとして知ら
れている。図２では、サポートベクトルは網掛けで示さ
れている。

【００１６】最適超平面は、高次元空間における写像さ
れたサポートベクトルの線形結合で表される。ＳＶＭア
ルゴリズムは、ベクトルのセットに関する誤差が、すべ
てのサポートベクトルに重みを割り当てることによって
最小化されることを保証する。これらの重みは、サポー
トベクトルよって判定面を計算する際に用いられる。ま
た、このアルゴリズムによれば、特定の問題に属する訓
練データに関する誤り率を最小にするために、これらの
重みを適応させることが可能となる。これらの重みは、
ＳＶＭの訓練段階中に計算される。

【００１７】このようにして、最適超平面を構成するこ
とは、訓練セットの要素および写像された空間内の内積
を決定する関数によって決定される制約２次最適化計画
問題になる。この最適化問題に対する解は、従来の中間
最適化法を用いて求められる。

【００１８】一般に、最適超平面は、誤りなしで訓練デ
ータを分離することを必要とする。しかし、場合によっ
ては、訓練データは誤りなしで分離することができない
ことがある。このような場合、ＳＶＭは、最小数の誤り
で訓練データを分離しようと試み、残りの要素を極大マ
ージンで分離する。このような超平面は一般に、ソフト
マージン超平面として知られている。

【００１９】試験段階では、ステップ６２で、ＳＶＭ
は、分類すべき試験セットの要素を受け取る。次に、Ｓ
ＶＭは、サポートベクトルを核のパラメータとして用い
て、試験セットの入力データベクトルを多次元空間に写
像することによって変換する（ステップ６４）。写像関
数は、ＳＶＭにあらかじめロードされている核の選択に
よって決定される。この写像は、１つのベクトルをと
り、それを高次元特徴空間へ変換して、線形判定関数が
この高次元特徴空間に生成されるようにする。図１の流
れ図は陰(implicit)の写像を示しているが、この写像は
陽(explicit)に実行されることも可能である。ステップ
６６で、ＳＶＭは、各入力データベクトルの所属状態を
示すように、判定面から分類信号を生成する。最終結果
は、図２に示されるように、円の（＋１）および四角の
（−１）という出力分類信号の生成である。

【００２０】残念ながら、式（１）の計算量は、サポー
トベクトルの数Ｎ_Sに比例する。サポートベクトルの数
の期待値は（ｌ−１）Ｅ［Ｐ］でおさえられる。ただ
し、Ｐは、与えられたＳＶＭをｌ個の訓練サンプルで訓
練した場合の、１つの試験ベクトルに対する誤りの確率
であり、Ｅ［Ｐ］は、ｌ個のサンプルのすべての選び方
にわたるＰの期待値である（例えば、前掲の"The Natur
e of Statistical Learning Theory"、参照）。従っ
て、Ｎ_Sはおよそｌに比例することが予想される。実際
のパターン認識問題では、この結果、同様の汎化性能を
有する他のシステムよりも試験段階において大幅に遅い
機械が得られる（例えば、前掲の"Comparisonof Classi
fier Methods: A Case Study in Handwritten Digit Re
cognition"、および、Y. LeCun, L. Jackel, L. Botto
u, A. Brunot, C. Cortes, J. Denker,H. Drucker, I.
Guyon, U. Mueller, E. Saeckinger, P. Simard, and
V. Vapnik, "Comparison of Learning Algorithms for
Handwritten Digit Recognition", International Conf
erence on Artificial Neural Networks, Ed. F. Fogel
man, P. Gallinari, pp.53-60, 1995、参照）。

【００２１】［縮小セットベクトル］これに対して、本
発明の原理によれば、ずっと少数の縮小セットベクトル
によりＳＶＭ判定規則を近似する方法および装置が実現
される。縮小セットベクトルは以下の性質を有する。

【００２２】・縮小セットベクトルは、サポートベクト
ルが完全なＳＶＭ判定規則に現れるのと同様にして、近
似的なＳＶＭ判定規則に現れる。・縮小セットベクトルは、サポートベクトルではない。
縮小セットベクトルは、サポートベクトルとは異なり、
必ずしも分離マージン上にはなく、訓練サンプルでもな
い。・縮小セットベクトルは、与えられた、訓練済みのＳＶ
Ｍに対して計算される。・縮小セットベクトルの数（従って、結果として得られ
るＳＶＭの試験段階における速度）は事前に選択され
る。・縮小セット法は、サポートベクトル法が用いられる場
合であればどのような場合にも適用可能である（例え
ば、回帰推定）。

【００２３】［縮小セット］訓練データは、Ｌの要素、
ベクトルｘであるとする。ただし、Ｌ（Ｌは低次元(low
dimensional)の意味）は、ｄ_L次元ユークリッド空間Ｒ
^dLとして定義される。ＳＶＭは、陰写像

【数３】を実行する。ただし、Ｈ（Ｈは高次元(high dimensiona
l)の意味）＝Ｒ_dH、ｄ_H≦∞である。以下では、Ｈのベ
クトルにはバーを付けて示す。写像Φは、核Ｋの選択に
よって決定される。実際、Mercerの正値性制約（例え
ば、前掲の"The Nature of Statistical Learning Theo
ry"、および"A training algorithm for optimal margi
n classifiers"、参照）を満たす任意のＫに対して、

【数４】であるようなペア｛Φ，Ｈ｝が存在する。従って、Ｈに
おいて、ＳＶＭ判定規則は単に（上記のように）、線形
分離超平面となる。写像Φは通常、陽に計算されず、Ｈ
の次元ｄ_Hは通常大きい（例えば、同次写像Ｋ（ｘ_i，ｘ
_j）＝（ｘ_i・ｘ_j）^pに対して、

【数５】である（ｐ＋ｄ_L−１個のものからｐ個のものを選ぶ場
合の数。従って、４次多項式で、ｄ_L＝２５６の場合、
ｄ_Hは約１．８億となる）。

【００２４】基本的なＳＶＭパターン認識アルゴリズム
は、２クラス問題を解く（例えば、前掲のEstimation o
f Dependencies Based on Empirical Data"、"The Natu
re of Statistical Learning Theory"、および"A train
ing algorithm for optimalmargin classifiers"、参
照）。訓練データｘ∈Ｌおよび対応するクラスラベルｙ
_i∈｛−１，１｝が与えられた場合、ＳＶＭアルゴリズ
ムは、ベクトルｘ_i（ｉ＝１，...，ｌ）を２つのクラス
に分ける判定面バーΨ∈Ｈを次のように構成する。

【数６】ただし、ξ_iは正のスラック変数であり、分離不能の場
合（例えば、前掲の"Support Vector Networks"、参
照）を扱うために導入したものである。分離可能の場
合、ＳＶＭアルゴリズムは、Ｈにおける正と負の例の間
のマージンが最大になるような分離超平面を構成する。
その後、

【数７】が（ｋ₀＋ｋ₁）／２より大きいか小さいかに応じて、試
験ベクトルｘ∈Ｌにクラスラベル｛＋１，−１｝を割り
当てる。サポートベクトルｓ∈Ｌは、式（２）または
（３）のいずれかが等式になるような訓練サンプルとし
て定義される。（サポートベクトルは、他の訓練データ
と区別するためにベクトルｓと表す。）すると、バーΨ
は次のように与えられる。

【数８】ただし、α_a≧０は、訓練中に決定される重みであり、
ｙ_a∈｛−１，１｝は、ベクトルｓ_aのクラスラベルであ
り、Ｎ_Sはサポートベクトルの数である。こうして、試
験点ベクトルｘを分類するためには、次式を計算する。

【数９】

【００２５】しかし、本発明の考え方により、ここで、

【数１０】が距離尺度

【数１１】を最小にする（固定したＮ_Zに対して）ようなセット、
ベクトルｚ_a∈Ｌ（ａ＝１，...，Ｎ_Z）および対応する
重みγ_a∈Ｒを考える。

【００２６】ここで、｛γ_a，ｚ_a｝（ａ＝１，...，
Ｎ_Z）を縮小セットという。試験点ベクトルｘを分類す
るには、式（５）の展開を次の近似で置き換える。

【数１２】

【００２７】すると、目標は、結果として得られる汎化
性能の損失が許容可能な範囲にとどまるような、最小の
Ｎ_Z＜＜Ｎ_S、および対応する縮小セットを選択すること
である。明らかに、Ｎ_Z＝Ｎ_Sとすることにより、ρを０
にすることができる。しかし、Ｎ_Z＜Ｎ_Sで、しかもρ＝
０であるような自明でない場合が存在する（後述）。そ
のような場合、縮小セットにより、汎化性能の損失なし
で、判定規則の計算量が低減される。各Ｎ_Zに対して、
対応する縮小セットを計算する場合、ρは、Ｎ_Zの単調
減少関数と見ることが可能であり、汎化性能もまたＮ_Z
の関数となる。本明細書では、汎化性能のＮ_Z依存性に
関する経験的結果のみについて説明する。

【００２８】写像Φについて、以下のことに注意すべき
である。Φの像は一般に線形空間にはならない。また、
Φは一般に全射にはならず、一対一でない可能性がある
（例えば、Ｋが偶数次の同次多項式の場合）。さらに、
Φは、Ｌ内の線形従属ベクトルをＨ内の線形独立ベクト
ルに写像することがあり得る（例えば、Ｋが非同次多項
式の場合）。Ｋが同次多項式の場合であっても、一般
に、ベクトルｚ_aをスケールすることによって係数γ_aを
１にスケールすることはできない（例えば、Ｋが偶数次
の同次式である場合、γ_aは｛＋１，−１｝にスケール
することは可能であるが、必ずしも１にスケールするこ
とはできない）。

【００２９】［厳密解］このセクションでは、ρの最小
値を解析的に計算する問題を考える。まず、簡単ではあ
るが自明ではない場合について説明する。

【００３０】［同次２次多項式］同次２次多項式の場
合、規格化を１に選ぶ。Ｋ（ｘ_i，ｘ_j）＝（ｘ_i・ｘ_j）² （９）

【００３１】説明を簡単にするため、１次近似Ｎ_Z＝１
を計算する。対称テンソル

【数１３】を導入する。

【数１４】は、次式を満たす｛γ，ベクトルｚ｝に対して最小にな
ることが分かる。

【数１５】（繰り返す添字については和をとる）。｛γ，ベクトル
ｚ｝をこのように選ぶと、ρ²は次のようになる。

【数１６】

【００３２】従って、｛γ，ベクトルｚ｝を、ベクトル
ｚが、Ｓの固有値λ＝γｚ²が最大絶対値を有するよう
な固有ベクトルとなるように選択するときに、ρの最大
降下が達成される。なお、γは、γ＝ｓｉｇｎ｛λ｝と
なるように選択することが可能であり、ベクトルｚはｚ
²＝｜λ｜となるようにスケールすることが可能であ
る。

【００３３】オーダーＮ_Zに拡張すると、同様にして、
式

【数１７】を最小にするセット｛γ_i，ベクトルｚ_i｝におけるベク
トルｚ_iは、それぞれ固有値が

【数１８】であるＳの固有ベクトルであることが示される。これに
より次式が成り立ち、ρの降下は、ベクトルｚ_aをＳの
はじめのＮ_Z個の固有ベクトルに選択した場合に最大と
なる。

【数１９】ただし、固有ベクトルは、固有値の絶対値の大きさの順
に並べるものとする。なお、ｔｒａｃｅ（Ｓ²）は、Ｓ
の固有値の平方の和であるので、Ｎ_Z＝ｄ_L（データの次
元）と選択することにより、近似は厳密（すなわちρ＝
０）になる。サポートベクトルの数Ｎ_Sはｄ_Lより大きい
ことが多いため、このことは、汎化性能の損失なしに、
縮小セットのサイズはサポートベクトルの数より小さく
なりうることを示している。

【００３４】一般の場合、縮小セットを計算するために
は、ρは、すべての｛γ_a，ベクトルｚ_a｝（ａ＝
１，...，Ｎ_Z）にわたって同時に最小にならなければな
らない。次のような反復法を考えると便利である。すな
わち、第ｉステップでは、｛γ_j，ベクトルｚ_j｝（ｊ＜
ｉ）を固定して、｛γ_i，ベクトルｚ_i｝を計算する。２
次多項式の場合、この反復法によって生成される最小値
の列が、問題全体に対する最小値も生成する。この結果
は、２次多項式に特有であり、ベクトルｚ_iが直交する
（あるいはそのように選択することができる）という事
実の結果である。

【００３５】以下の表１に、試験セットに関して誤りの
数Ｅ_Zを達成するために必要な縮小セットサイズＮ_Zを示
す。ここで、郵便セットに関して訓練された２次多項式
ＳＶＭの場合、Ｅ_Zは、サポートベクトルの完全セット
を用いて求められる誤りの数Ｅ_Sとは、高々１個の誤り
しか異ならない。明らかに、２次の場合、縮小セット
は、精度をほとんど失うことなく、計算量を大幅に減ら
すことができる。また、多くの数字では、サポートベク
トルの数はｄ_L＝２５６より大きいが、これは、精度を
全く失わずに高速化が可能であることを示す。

【表１】

【００３６】［一般の核］縮小セット法を任意のサポー
トベクトル機械に適用するには、上記の解析を一般の核
に拡張しなければならない。例えば、同次多項式Ｋ（ｘ
₁，ｘ₂）＝Ｎ（ｘ ₁・ｘ₂）ⁿの場合、反復法の最初のペ
ア｛γ₁，ベクトルｚ₁｝を求めるために

【数２０】とおくと、式（１１）に類似の次式が得られる。

【数２１】ただし、

【数２２】である。

【００３７】この場合、γに関してρを変化させても新
しい条件は得られない。１次の解｛γ₁，ベクトルｚ₁｝
に対して式（１５）を解いたとすると、ρ²は次のよう
になる。

【数２３】

【００３８】そこで、次のような定義をすることができ
る。

【数２４】これにより、２次の解ベクトルｚ₂に対する反復方程式
が、式（１５）でＳ、ベクトルｚ₁およびγ₁をそれぞれ
〜Ｓ、ベクトルｚ₂およびγ₂で置き換えた形をとる。
（なお、２より高い次数の多項式では、ベクトルｚ_aは
一般に直交しない。）しかし、これらは反復解のみであ
り、さらに、すべての｛γ_a，ベクトルｚ_a｝が同時に変
化することを許容した場合の連立方程式を解く必要があ
る。さらに、これらの方程式は複数の解を有し、そのほ
とんどはρに関する極小値に対応する。さらに、別のＫ
を選択することにより、他の固定点方程式が得られる。
式（１５）の解は反復（すなわち、任意のベクトルｚか
ら始めて、式（１５）を用いて新たなベクトルｚを計算
し、これを繰り返す）によって求められるが、次のセク
ションで説明する方法はさらに柔軟で強力である。

【００３９】［無制約最適化法］核Ｋの１次導関数が定
義されていると仮定すると、未知数｛γ_i，ベクトル
ｚ_i｝に関する目的関数Ｆ≡ρ²／２の勾配を計算するこ
とができる。例えば、Ｋ（ｓ_m，ｓ_n）がスカラーｓ_m・
ｓ_nの関数であると仮定すると、次式のようになる。

【数２５】

【００４０】従って、本発明の原理によれば、（おそら
くは局所的な）最小は、無制約最適化法を用いて求める
ことができる。

【００４１】［アルゴリズム］まず、所望の近似次数Ｎ
_Zを選択する。Ｘ_i≡｛γ_i，ｚ_i｝とする。２段階法を用
いる。第１段階（後述）で、すべてのベクトルｚ_j（ｊ
＜ｉ）を固定したまま、Ｘ_iを反復的に計算する。

【００４２】第２段階（後述）で、すべてのＸ_iが変動
することを許容する。

【００４３】注意すべき点であるが、式（２０）におけ
る勾配は、γ_kが０である場合、０である。この事実
は、重大な数値的不安定性につながる可能性がある。こ
の問題を回避するために、第１段階は、単純な「レベル
交差」定理に基づく。そのアルゴリズムは以下のとおり
である。まず、γ_iを＋１または−１に初期化し、ベク
トルｚ_iをランダム値で初期化する。次に、γ_iを固定し
たままで、ベクトルｚ_iを変化させる。次に、ベクトル
ｚ_i、Ｘ_j（ｊ＜ｉ）を固定した場合の、γ_iの最適値を
解析的に計算する。次に、ベクトルｚ_iおよびγ_iの両方
に関して同時にＦを最小化する。最後に、すべてのｊ≦
ｉに対して最適なγ_jを解析的に計算する。これは、Γ
＝Ｚ^-1Δによって与えられる。ただし、δ、ΓおよびＺ
は次のように与えられる（式（１９）参照）。

【数２６】

【００４４】Ｚは正定値かつ対称であるため、周知のコ
レスキー分解を用いて効率的に逆行列を求めることがで
きる。

【００４５】こうして、アルゴリズムの第１段階は以下
のように進行する。［１］γ₁＝＋１または−１をランダムに選び、ベクト
ルｚ₁をランダム値に設定する。［２］ベクトルｚ₁を変化させてＦを最小化する。［３］ベクトルｚ₁を固定したまま、Ｆをさらに最大に
低下させるγ₁を計算する。［４］ベクトルｚ₁、γ₁をともに変化させてさらにＦを
低下させる。［５］最良の解を保持してステップ［１］〜［４］をＴ
回反復する。［６］ベクトルｚ₁、γ₁を固定し、γ₂＝＋１または−
１をランダムに選び、ベクトルｚ₂をランダム値に設定
する。［７］ベクトルｚ₂を変化させてＦを最小化する。［８］ベクトルｚ₂（およびベクトルｚ₁、γ₁）を固定
し、Ｆをさらに最大に低下させる最適なγ₂を計算す
る。［９］｛ベクトルｚ₂、γ₂｝をともに変化させてさらに
Ｆを低下させる。［１０］最良の解を保持してステップ［６］〜［９］を
Ｔ回反復する。［１１］最後に、ベクトルｚ₁、ベクトルｚ₂を固定し、
（上記の式（２１）〜（２３）に示されるように）さら
にＦを低下させる最適なγ₁、γ₂を計算する。

【００４６】次に、この手続きを｛ベクトルｚ₃、
γ₃｝、｛ベクトルｚ₄、γ₄｝など、

【数２７】まで反復する。

【００４７】γ_iが０に近づかないようにすることによ
って数値的不安定性は回避される。上記のアルゴリズム
により、これは自動的に保証される。第１ステップで、
γ_iを固定したままベクトルｚ_iを変化させた結果、目的
関数Ｆが減少した場合、次にγ_iを変化させるときに、
γ_iは０を通ることはできない。その理由は、０を通る
とすると（その場合｛ベクトルｚ_i、γ_i｝のＦへの寄与
は０となるので）Ｆが増大してしまうからである。

【００４８】なお、与えられた｛ベクトルｚ_i、γ_i｝の
ペアの各計算は、第１段階で、ベクトルＸ_iに対する相
異なる初期値で数回（Ｔ回）反復される。Ｔは、求めら
れたＦにおける相異なる最小値の個数Ｍから経験的に決
定される。上記のデータセットでは、Ｍは通常２または
３であり、ＴはＴ＝１０と選ばれた。

【００４９】第２段階では、第１段階で求められたすべ
てのベクトルＸ_iが単一のベクトルへと連接され、すべ
てのパラメータの変動を許容して、再び無制約最小化プ
ロセスが適用される。注意すべき点であるが、第２段階
の結果、目的関数Ｆがさらに約２分の１に減少すること
が多い。

【００５０】本発明の原理に従って、以下の１次無制約
最適化法を両方の段階で用いた。探索方向は、共役勾配
法を用いて求められる。探索方向に沿って、ブラケット
点ｘ ₁，ｘ₂およびｘ₃を、Ｆ（ｘ₁）＞Ｆ（ｘ₂）＜Ｆ
（ｘ₃）となるように求める。次に、このブラケットを
平衡化する（平衡化法については、例えば、W. H. Pres
s,S. A. Teukolsky, W. T. Vetterling and B. P. Flan
nery, "Numerical Recipes in C", Second Edition, Ca
mbridge University Press, 1992、参照）。これらの３
点を通る２次当てはめ曲線の最小値を、次の反復で選択
される開始点として用いる。共役勾配プロセスは、所定
の反復数の後に再開され、全体のプロセスは、Ｆの減少
率があるしきい値を下回ったときに終了する。注意すべ
き点であるが、この一般的アプローチは、上記の２次多
項式核の場合に適用した場合、解析的アプローチと同じ
結果を与えた。

【００５１】［実験］上記のアプローチを、郵便セット
に対して最良の性能を有するＳＶＭに適用した。このＳ
ＶＭは次数３の非同次多項式機械（これについては、例
えば、前掲の"The Nature of Statistical Learning Th
eory"、参照）であった。近似の次数Ｎ_Zは、各２クラス
クラシファイアに対して試験段階で１０倍の高速化がな
されるように選択した。結果を表２（下記）に示す。縮
小セット法は、精度の損失はほとんどなしで、この高速
化を達成した。１０個のクラシファイアをまとめて１つ
の１０クラスクラシファイア（これについては、例え
ば、前掲の"The Natureof Statistical Learning Theor
y"、および"Support Vector Networks"、参照）として
用いると、完全サポートセット（サポートセット全体）
を用いた場合には４．２％のエラーであるのに対して、
縮小セットを用いた場合には４．３％のエラーであっ
た。なお、組み合わせた場合、縮小セットでは６倍の高
速化しか得られない。その理由は、相異なる２クラスク
ラシファイアがいくつかの共通のサポートベクトルを有
し、キャッシングの可能性があるためである。これらの
方法をさらに大きい問題に拡張することができるかどう
かという問題を解決するため、ＮＩＳＴセットの場合
に、数字０を他のすべての数字から分離する２クラスク
ラシファイアに対して研究を繰り返した（６０，０００
回の訓練、１０，０００個の試験パターン）。このクラ
シファイアも、完全サポートセットを用いて、最良の精
度を与えるもの（次数４の多項式）を選んだ。１，２７
３個のサポートベクトルの完全セットでは１９個の試験
エラーを生じたが、サイズ１２７の縮小セットでは２０
個の試験エラーであった。

【００５２】

【表２】

【００５３】（なお、試験は、完全な１０桁のＮＩＳＴ
に対しても行われ、１０％の精度損失で５０倍の高速化
がなされた。C. J. C. Burges, B. Schoelkopf, "Impro
vingthe Accuracy and Speed of Support Vector Machi
nes", in press, NIPS '96、参照。）

【００５４】

【実施例】図３に、ＳＶＭの訓練段階で用いられる、本
発明の原理を実現する例示的な流れ図を示す。ステップ
１００で、入力訓練データがＳＶＭ（図示せず）に入力
される。ステップ１０５で、ＳＶＭがこの入力データに
対して訓練され、ステップ１１０で、ＳＶＭはサポート
ベクトルのセットを生成する。ステップ１３５で、縮小
セットベクトルの数が選択される。ステップ１１５で、
無制約最適化法（前述）を用い、ステップ１２０で縮小
セットベクトルを生成する。ステップ１２５で、この縮
小セットベクトルを用いて、サンプルデータのセット
（図示せず）を試験する。ステップ１３０で、この試験
の結果を評価する。試験結果が（例えば速度および精度
に関して）受容可能な場合、この縮小セットベクトルが
以後利用される。試験結果が受容可能でない場合、縮小
セットベクトルを決定するプロセスを再び実行する。
（後者の場合、注意すべき点であるが、（例えば速度あ
るいは精度に関する）試験結果は、縮小セットベクトル
の数をさらに少なくすることを示唆する可能性もあ
る。）

【００５５】縮小セットベクトルが決定されると、ＳＶ
Ｍで利用可能となる。この縮小セットベクトルを試験段
階で使用する方法を図４に示す。ステップ２１５で、試
験セットからの入力データベクトルがＳＶＭに送られ
る。ステップ２２０で、ＳＶＭは、縮小セットベクトル
を核のパラメータとして用いて、試験セットの入力デー
タベクトルを多次元空間に写像することにより変換す
る。ステップ２２５で、ＳＶＭは、判定面から、各入力
データベクトルの帰属状態を示す分類信号を生成する。

【００５６】上記のように、ｍ個の縮小セットベクトル
が縮小セット内にある。これらの縮小セットベクトル
は、図３に示した上記の訓練段階で決定される。速度お
よび精度のデータが、ｍ個より少ない縮小セットベクト
ルを使用することも可能であることを示唆する場合、別
のアプローチを用いて、新たなさらに小さい縮小セット
ベクトルのセットを再計算する必要を回避することが可
能である。特に、ｘ＜ｍとして、ｘ個の縮小セットベク
トルは、ｍ個の縮小セットベクトルのセットから選択さ
れる。この場合、いくつ（ｘ）の縮小セットベクトルを
使用するかの決定は、例えば、訓練段階で生成された速
度および精度のデータを用いて経験的に行われる。しか
し、これらの縮小セットベクトルの値を再計算する必要
はない。

【００５７】パターン認識の場合の、本発明の考え方の
実施例を図５に示す。パターン認識システム１００は、
プロセッサ１０５および認識器１１０からなり、認識器
１１０は、データ入力要素１１５、およびＳＶＭ１２０
からなる。本発明の考え方以外には、図５の要素は周知
であるため、詳細には説明しない。例えば、データ入力
要素１１５は、分類するための入力データをＳＶＭ１２
０へ送る。データ入力要素１１５の一例はスキャナであ
る。この場合、入力データは画像のピクセル表現（図示
せず）である。ＳＶＭ１２０は、本発明の原理に従って
縮小セットベクトルを用いて入力データに作用する。動
作（試験）中、ＳＶＭ１２０は、入力データの分類を表
す数値結果を、後続の処理のためにプロセッサ１０５に
送る。プロセッサ１０５は、例えば、メモリを伴うマイ
クロプロセッサのような蓄積プログラム制御プロセッサ
である。プロセッサ１０５は、さらに、例えば自動預払
機（ＡＴＭ）などにおける認識器１１０の出力信号を処
理する。

【００５８】図５のシステムは２つのモード、すなわ
ち、訓練モードおよび動作（試験）モードで動作する。
訓練モードの例は、図３に示される上記の方法である。
試験モードの例は、図４に示される上記の方法である。

【００５９】以上、本発明について説明したが、当業者
には認識されるように、本発明の技術的範囲内でさまざ
まな変形例を考えることができる。例えば、本発明の考
え方は、サポートベクトル機械以外の、核に基づく方法
にも適用可能であり、例えば、回帰推定、密度評価など
にも使用可能であるが、これらに限定されるものではな
い。

【００６０】

【発明の効果】以上述べたごとく、本発明によれば、与
えられたベクトルのセットを試験段階で用いるために高
次元空間に写像するアルゴリズムを用いた機械の効率を
改善する方法および装置が実現される。本発明の特徴に
よれば、縮小セットベクトルの選択により、性能対計算
量のトレードオフを直接制御することが可能となる。さ
らに、本発明の考え方はパターン認識に固有ではなく、
サポートベクトルアルゴリズムが用いられるような任意
の問題（例えば、回帰推定）に適用可能である。

【図面の簡単な説明】

【図１】従来技術のＳＶＭの動作の流れ図である。

【図２】代表サポートベクトルにより訓練データを２つ
のクラスに分離する一般的な図である。

【図３】本発明の原理に従ってＳＶＭシステムを訓練す
る例示的な方法の図である。

【図４】本発明の原理に従ってＳＶＭシステムを動作さ
せる例示的な方法の図である。

【図５】本発明の原理を実現する認識システムの一部の
ブロック図である。

【符号の説明】

１００パターン認識システム１０５プロセッサ１１０認識器１１５データ入力要素１２０ＳＶＭ

───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ.

Claims

【特許請求の範囲】

【請求項１】入力データ信号を受け取るステップと、前記入力データ信号に作用可能なサポートベクトル機械
を用いて出力信号を生成するステップとからなる、サポ
ートベクトル機械を使用する方法において、前記サポートベクトル機械は縮小セットベクトルを利用
し、前記縮小セットベクトルは、同次２次核に用いられる固
有値計算以外の最適化法を用いて訓練段階中にあらかじ
め決定されたものであることを特徴とする、サポートベ
クトル機械を使用する方法。
【請求項２】前記訓練段階は、訓練セットの要素を受け取るステップと、Ｎ_S個のサポートベクトルからなるサポートベクトルセ
ットを生成するステップと、ｍ≦Ｎ_Sとして、縮小セットベクトルの数ｍを選択する
ステップと、無制約最適化法を用いてｍ個の縮小セットベクトルを生
成するステップとからなることを特徴とする請求項１に
記載の方法。
【請求項３】前記最適化法は無制約最適化法であるこ
とを特徴とする請求項１に記載の方法。
【請求項４】前記入力データ信号は相異なるパターン
を表し、前記出力信号は、該相異なるパターンの分類を
表すことを特徴とする請求項１に記載の方法。
【請求項５】前記訓練段階は、前記サポートベクトル機械を訓練してサポートベクトル
の数Ｎ_Sを決定するステップと、ｍ≦Ｎ_Sとして、無制約最適化法を用いて、ｍ個の縮小
セットベクトルを決定するステップとからなることを特
徴とする請求項１に記載の方法。
【請求項６】入力データ信号を提供するデータ入力要
素と、前記入力データ信号に作用して少なくとも１つの出力信
号を生成するサポートベクトル機械とからなる装置にお
いて、前記サポートベクトル機械は、同次２次核に用いられる
固有値計算以外の最適化法を用いてあらかじめ決定され
た縮小セットベクトルを用いて前記入力データ信号に作
用することを特徴とする、サポートベクトル機械を用い
た装置。
【請求項７】前記データ入力要素は、該データ入力要
素に入力された複数の画像を表す入力データ信号を提供
することを特徴とする請求項６に記載の装置。
【請求項８】前記少なくとも１つの出力信号は、各画
像の分類を表すことを特徴とする請求項７に記載の装
置。
【請求項９】前記縮小セットベクトルの数はサポート
ベクトルの数より少ないことを特徴とする請求項６に記
載の装置。
【請求項１０】前記最適化法は無制約最適化法である
ことを特徴とする請求項６に記載の装置。
【請求項１１】前記縮小セットベクトルは、前記無制
約最適化法を用いて前記サポートベクトル機械を訓練し
ている間にあらかじめ決定されることを特徴とする請求
項１０に記載の装置。