JP2010287135A

JP2010287135A - データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム

Info

Publication number: JP2010287135A
Application number: JP2009141716A
Authority: JP
Inventors: Usho Mo; 羽翔毛
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-06-12
Filing date: 2009-06-12
Publication date: 2010-12-24

Abstract

【課題】データパターンを数直線の独立区間に写像して多値分類を高速に訓練し、高速に分類を行うこと。
【解決手段】教師パターンを所属分類によって数直線の独立区間に写像する分類指標関数を訓練する。場合によって分類境界情報をも一緒に訓練する。この分類指標関数は分類境界情報と共に分類推定関数を構成する。分類境界は前記独立区間の境界である。前記の独立区間を分類区間として定義する。分類ミスの最小化及びマージンの最大化を訓練の目標に含む。入力パターンの所属分類の推定を行う時、分類推定関数の機能として、分類指標関数の出力の所属分類区間を分類境界情報から高速に特定する。特定された分類区間に代表される分類を入力パターンの所属分類として推定する。
【選択図】図２

Description

本発明は、データ分類方法、データ分類装置、およびプログラムに関する。

サポートベクターマシン（ＳＶＭ：Ｓｕｐｐｏｒｔ
Ｖｅｃｔｏｒ
Ｍａｃｈｉｎｅ）（非特許文献１を参照）は汎化能力の高い２値分類器であるが、多値分類に拡張される場合処理速度の遅さがネックとなっている。ＳＶＭの基本思想は図１に描かれている。入力データは２類のパターンを含む。ＳＶＭは訓練を通して、２類のパターンの間に超平面を作る。この超平面から入力パターンまでの距離は最大化されている。図１に「ｘ」と「ｏ」は２分類の入力パターンを代表し、実線は超平面を代表し、点線は入力パターンから超平面までの最短距離（マージンと呼ぶ）を表すマージン超平面という仮想超平面を代表する。エラーを表すスラック変数で調整された前記最短距離のこともマージンと呼ぶ。

空間分割を手法とし、ＳＶＭを利用した多値分類アルゴリズム（非特許文献２と特許文献１と特許文献２を参照
）として、代表的なものにｏｎｅｖｓｏｎｅ法、ｏｎｅｖｓｒｅｓｔ法、ｐａｉｒｗｉｓｅ法、ＤＤＡＧ（Ｄｅｃｉｓｉｏｎ
ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃ
Ｇｒａｐｈ）法、ＭＯＦ（ＭｕｌｔｉｃｌａｓｓＯｂｊｅｃｔｉｖｅＦｕｎｃｔｉｏｎ）法などがある。
空間分割以外もＳＶＭに類似した多値分類の回帰法（非特許文献３を参照）があります。

本発明中において、分類推定関数は
入力パターンの所属分類を推測する又は判定する計算仕組みのこと
を指す。
本発明中において、分類指標関数は
入力パターンの所属分類を推測するための値を
入力パターンから変換する計算仕組みのことを指す。
前記の各種方法は全て複数の分類指標関数を構築して、分類指標関数の組み合わせで分類推定関数を構築して入力パターンの所属分類を推定する。

ＭＯＦ法は全ての入力データの間の関係を以下のように作る。一つの教師パターンに対し、所属分類の分類指標関数の出力は全ての非所属分類の分類指標関数の出力より大きいことを制約する。ｎ個の分類に対して、ｎ個の関数を同時に制約する。ｎ個の関数の関係はｎ（ｎ−１）個存在するため、制約条件の数もｎ（ｎ−１）倍になる。入力パターンの所属分類を推定するときは出力のもっとも大きい関数に代表される分類を所属分類として選択する。ＭＯＦ法はもっとも理想的な方法であるが、その巨大な問題規模が実用され難い要因になる。
ＭＯＦ法はｏｎｅｖｓｏｎｅ法の統合方法として考えられる。

ＭＯＦ法及び多値回帰以外の前記方法（以下「諸合成訓練法」と呼ぶ）は、ＭＯＦ法に対する分解として考えられる。訓練時に２値分類推定関数を（ｎ−１）個以上構築する。ただし、関数間の制約関係は訓練時に求められない。訓練後の組み合わせ方法を通して、ＭＯＦ法に近似した結果を希望する。訓練時の制約条件の減少により、訓練に掛かる総時間の短縮となる。尚、一つの大規模問題を一列の小規模問題に変換することで、計算機器の能力に対する要求も軽減となる。分解の方法は一つの入力データ集合に対し、独立した二値分類の訓練を複数回行い、問題の総規模は分類の総数に比例する。訓練時に２値分類推定関数の間の関係が制約され難いため、後続組み合わせの最適性は訓練時に保証され難い問題をも有する。

多値回帰は空間に分類目標点を定義することによって、分類目標点からのずれの合計が最小になることを望む。問題規模が前記の各種方法より小さい。

特開２００４−２８０７１２号公報特開２００８−２１７３７５号公報

Bernhard Scholkopf and Alexander J. Smola著 Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. The MIT Press. 2002. Mahesh Pal著 Multiclass Approaches for Support Vector Machine Based Land Cover Classification. MapIndia 2005 Conference Pei-Chun Chen, Tsung-Ju Lee, Yuh-Jye Lee, Su-Yun Huang 著 Multiclass Support Vector Classification via Regression. http://www.stat.sinica.edu.tw/syhuang/papersdownload/MC-reg-121006.pdf

ＭＯＦ法の正確性は高く期待されるが、ｎ分類に所属する併せてｍ個パターンを持つ入力データ集合に対し、規模がΘ（（ｍｎ）^２）になる訓練問題が形成する。現実中のデータ分類課題において、一つの分類に常に複数のパターンが所属する故、ｍは常にｎより遥かに大きい。計算機器の能力にもよるが、ｎが特に小さくない場合はＭＯＦ法による訓練は困難となる。

諸合成訓練法は少なくとも規模が
Θ（ｍ^２ｎ）になる訓練問題が形成する。ＭＯＦ法より規模が小さくなることはあるが、ｎが大きければ演算時間がかなり長くなる。複数の計算機器による並行処理でスピードアップはできるが、計算機器に掛かるコストも高くなる。

諸合成訓練法は後続組合せの解釈の相違によって、最適の意味も曖昧になる。したがって、全体的にマージンを最大化するという目標の達成は困難となる。訓練時において、分類推定関数のサイズは別々に最適化になるため、全体上のサイズ最適化は抑えられない問題もある。

ＭＯＦ法も諸合成訓練法も多値回帰も、所属分類を推測するため、一つの入力パターンに対して複数の分類推定関数の出力を計算する。分類推定関数の数はΘ（ｎ）である。Ｎが大きい場合は多くの分類推定関数を用いた計算は非効率になる。

多値回帰は他の幾つかの問題点をも持つ。一、マージンは定義されないので、分類間の距離最大化を直接に訓練目標に含むことはし難い。二、前記の各種方法と同様に複数の関数を訓練で作成することになり、一つのパターンに対して複数の関数値を求めて比較する必要がある。三、訓練で得た各関数の出力分布は不明なので、単一の距離計算方法から確率を求める方法は不十分である恐れがある。

上記従来技術による問題点を解決するため、単一の多値分類指標関数をより小規模演算で構築し、入力パターンの分類を分類指標関数の出力によって高速に特定するデータ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラムを提供することを目的とする。

本発明は前記各問題点を解決するため、図２に示されたような写像を使用する。該写像は陰写像(implicit
mapping)又は陽写像(explicit
mapping)である。

本発明にかかるデータ分類方法やデータ分類装置やプログラムは
単一の数直線を複数の独立区間に分割する工程と、
教師データを所属分類によってそれぞれ前記独立区間に所属することを設定する工程と、
教師データを所属の前記区間に写像する分類指標関数又はその近似を未定係数法で構築するための工程と、
前記区間の境界に付着するマージンを最大化することを目標に含む訓練工程と、
数理計画問題を解くことで前記分類指標関数を求める工程と、
を含んだことを特徴とする。

目標関数及び制約を構成し、数理計画問題を作成する。

前記数理計画問題を解く。

数理計画問題の解から分類指標関数と分類境界を確定して、分類推定関数を作成する。

分類推定関数を用いて、未知データを分類する。

本発明によれば、エラー最小化及びマージン最大化を訓練目標に含む多値分類法の訓練問題規模がＯ（ｍ^２＋ｍｎ）まで減少できる。

本発明によれば、一回のみの訓練で、一つの分類指標関数のみを作成し、訓練の計算量及び結果に必要なスペースが減少になる。

本発明によれば、一つの入力パターンの分類推定に対して、分類指標関数の出力を一回のみ求め、分類指標関数の出力による分類推定の演算量がＯ（ｌｏｇ（ｎ））になり、分類推定の実行計算量が軽減となる。同時に、分類指標関数の複合（組合せ）が必要ないので、それによる多義もなくなる。

本発明によれば、回帰法と比べて、各分類間のマージンが定義でき、然もそれぞれ自動に適応できるようになる。

図１は従来のＳＶＭ訓練結果を示した説明図である。図２は本発明の解決手段を示した説明図である。図３は本発明の多値分類装置の訓練の実施方法を示した説明図である。図４は本発明の多値分類装置を用いた分類推定の実施方法を示した説明図である。図５は本発明の多値分類装置を用いた分類境界の一例を示した説明図である。

＜訓練の実施形態＞
訓練の実施形態は本発明によって多値分類を行うための分類推定関数を作成するための実施形態である。図３は、訓練の実施形態の一般過程を示した説明図である。以下はデータをパターン単位で説明する。
Ｇ１０１とＧ１０２とＧ１０３とＧ１０４とはそれぞれの出力をＧ１０５に提供し、Ｇ１０５で数理計画問題が形成し、Ｇ１０８に解かれて、Ｇ１０９とＧ１１０とで分類推定関数の必要情報は用意され、Ｇ１１１で分類推定関数が形成する。以下は各部を詳しく説明する。

Ｇ１０１は写像選択部である。写像選択の目標は分類指標関数を未定係数の形で決めることである。分類指標関数の一例は

又は近似した機能を有する計算仕組みである。数１に、ｗをある空間直線の方向ベクトルとして、Φを入力パターンｘを高次元空間に写像する関数として、ｂをオフセットとして考えられる。数１にｗとｂは訓練の結果として得られるものである。Φは訓練の前に決定される関数である。ｆの出力は実数なので、結果としてｘは数直線に写像されることになる。

Φが陽関数として定義される場合は、Φがｘを受けてＮ（Ｎ≧１）次元のベクトルを出力する。Φ_ｔ(ｘ)をΦ(ｘ)の第ｔ項（ｔ＝１…Ｎ）とすればｆは

のように展開されることができる。

Φが陰関数として定義される場合はカーナル（kernel）関数によって定義されることができる。カーナル関数の幾つかの例は

である。カーナル関数を用いて、ｆは

のように展開されることができる。ｓ＝１…ｍ
。α_ｓは実数である。ｘ_ｓは第ｓ個教師パターンである。数４に、係数の１／２をα_ｓに合併しても、ｆは同等能力を有するため、ｆは

のように展開されても良い。

Ｇ１０２は全ての教師パターンをベクトルの形で表現する。

Ｇ１０３は分類境界情報指定部である。
分類境界情報指定の目的は
各分類に所属する教師パターンを分類指標関数で変換して
得た出力を分類ごとの区間に制約するための
区間境界を獲得するための手段を選択することである。
分類境界情報の指定方法は複数存在する。全ての分類境界を以って形成される区間の集合と同型（isomorphic）である実数セットが存在することは必要条件である。
以下は幾つかの例を挙げる。

分類境界情報を数理計画の解から得る場合は、分類境界を変数にし、Ｇ１０５で構成される数理計画問題に含み、Ｇ１０８の出力の一部として確定する。

分類境界情報を数理計画の解及び他の情報から得る場合は、分類境界情報を制約しながら分類境界を変数にし、Ｇ１０５で構成される数理計画問題に含み、当の数理計画の解の一部を調整して得たものを確定された分類境界情報とする。
無制約も制約手段の一つとする。
無調整も調整手段の一つとする。

分類境界情報を常数として指定する場合は、常数となった分類境界情報をＧ１０５で構成される数理計画問題に含む。当の数理計画問題が解かれた後に、前記常数を調整して得たものを分類境界情報とする。
無調整も調整手段の一つとする。

分類境界情報を逆算可能な関数で算出する場合は分類の識別記号又は相当するものを逆算可能な関数で分類境界値に変換する。

前記各分類境界情報の指定方法を組合せて分類境界情報を得る方法もある。

Ｇ１０４はパラメータ指定部である。Ｇ１０５で構成される数理計画問題の各部の関係を調整することはＧ１０４の目的である。パラメータ指定の一例は目標関数の各部の重みを指定することである。

Ｇ１０５はＧ１０１とＧ１０２とＧ１０３とＧ１０４との出力を以って数理計画問題を構成する。
Ｇ１０５はＧ１０６とＧ１０７との二部によって構成される。

Ｇ１０６は前記数理計画問題の目標関数を構成する。該目標関数はマージン（一つの分類区間において、分類境界から当の分類に所属する最も近い入力パターンの写像までの距離をマージンと呼ぶ。スラック変数を使用する場合、前記距離はスラック変数によっての調整後の距離である。）の最大化又はマージン最大化の近似を部分目標とする。該目標関数はエラーの最小化又はエラー最小化の近似を部分目標とする。該目標関数は必要に応じて他の部分目標を含む。
前記「他の部分目標」の一例は最小分類境界と最大分類境界との差を最小化することである。

Ｇ１０７は前記数理計画問題の制約条件を作成する。該制約条件は分類指標関数の入力パターンに対しての出力が該パターンの所属分類の下方マージン点（分類区間の内部に分類境界からマージンで示される値をマージン点と呼ぶ）より小さくないこと及び該パターンの所属分類の上方マージン点より大きくないことを制約する。スラック変数を使用の場合は分類指標関数の入力パターンに対しての出力をスラック変数で調整した後の値を制約する。該制約条件は必要に応じて他の制約項目を含む。
前記「他の制約項目」の一例は最小分類区間をあるサイズ以上に制約することである。

Ｇ１０８はＧ１０５で構成される数理計画問題を解く。

Ｇ１０９はＧ１０８の出力から分類指標関数に必要とされる情報を分離し、分類指標関数を確定する。

Ｇ１１０は必要に応じてＧ１０８の出力から分類境界を確定するための情報を分離し、分類境界を確定する。

Ｇ１１１はＧ１０９とＧ１１０との出力を用いて分類推定関数を作成する。分類推定関数は分類境界の指定方法によって異なる場合がある。
前記分類境界の指定方法によらず、分類推定関数は分類指標関数の入力パターンに対しての出力を分類境界によって構成される分類区間の集合に検索し、前記出力を含む分類区間に代表される分類を当の入力パターンの推定所属分類とするという手段がある。
但し、分類境界は逆算可能な関数で指定された場合は
分類指標関数の入力パターンに対しての出力を前記逆算可能な関数の出力として逆算することで
当の入力パターンの所属分類を推定することが可能である。

＜分類推定の実施形態＞
分類推定の実施形態はＧ１１１で作成された分類推定関数を用いて未知入力パターンの所属分類を推定するための実施形態である。図４は分類推定の実施形態の一般過程を示した説明図である。

Ｇ２０１は分類推定関数提供部である。分類推定関数提供部は前記分類推定関数を分類演算部に提供する。

Ｇ２０２は未知入力パターン提供部である。未知入力パターン提供部は所属分類未明の入力パターンをベクトルとして分類演算部に提供する。

Ｇ２０３は分類演算部である。分類演算部は前記未知入力パターンを前記分類推定関数に代入し、分類推定関数の出力を当の入力パターンの推定所属分類とする。

以降で説明される実施例は例示の目的だけに提供され、決して本発明の範囲を規定するものではないことを理解されたい。

実施例１は介護分野で二次計画法を使用した歩行分類の例である。図３の各部に提供される情報は以下の通りとなる。
Ｇ１０１は陽写像の恒等写像（identity
mapping）を提供する。ｆは

となる。内、ｗ_ｔとｂは未定係数である。
Ｇ１０２は歩行のサンプルを特徴ベクトルに変換し、事前に得た歩行時患者の転倒可能性情報によって各サンプルに１から１０の分類番号を付ける。特徴ベクトルを、付けられた分類番号と共に、入力パターンとして提供する。前記ｘは当の特徴ベクトルのみである。
Ｇ１０３は−∞と０と１０と２０と３０と４０と５０と６０と７０と８０と＋∞を分類境界として提供する。以降の説明のため、前記の分類境界をｖ_０からｖ_１０で代表する。
Ｇ１０４はマージン最大化の部分目標に５０を重みとして、エラー最小化の部分目標に１００を重みとして提供する。
Ｇ１０６は

を目標関数として提供する。内、ξはエラーを記録するスラック変数のベクトルである。
Ｇ１０７は

を制約条件として提供する。
Ｇ１０５はＧ１０６とＧ１０７とを併せて

を訓練用の数理計画問題として提供する。内、ｖ_ｉは常数であり、ｘ_ｓ，ｔは第ｓ個教師パターンのベクトルの第ｔ項を意味し、ｘ_ｓはｖ_ｉ−１とｖ_ｉで確定された区間に代表された分類に所属し、１はｗの大きさに反比例するマージンである。
Ｇ１０８は専門ソフトで前記数理計画問題の解を提供する。
Ｇ１０９はＧ１０８で得た解からｗを獲得し、分類指標関数ｆを確定する。
Ｇ１１０はＧ１０３と同様の情報を提供する。
Ｇ１１１はＧ１０８で確定された分類指標関数ｆとＧ１１０で得た分類境界で作成された分類推定関数を提供する。当の分類推定関数は
ｆが負数を出力すれば分類番号１を出力し、
ｆが８０以上の値を出力すれば分類番号１０を出力し、
ｆが上記以外の値を出力した場合は該出力を１０で割った後の整数部分に１を足した後の値を分類番号として出力する。

仮に、前記分類推定関数を携帯型の観測装置に保存している。観測は行われていることとする。

図４の各部に提供される情報は以下の通りとなる。
Ｇ２０１は前記観測装置に保存された前記分類推定関数を読み取り、Ｇ２０３に提供する。
Ｇ２０２は観測される患者の歩行情報から、前記Ｇ１０２に提供された教師パターンと同類の特徴を保有する同型ベクトルをＧ２０３に提供する。
Ｇ２０３はＧ２０２に提供されたベクトルをＧ２０１に提供された分類推定関数に代入し、前記歩行情報の所属分類を算出する。

実施例２は金融分野で線形計画法を使用した翌日の平均株価を予測の例である。図３の各部に提供される情報は以下の通りとなる。
Ｇ１０１は陰写像をガウスカーナル（Gaussian
kernel）として提供する。ｆは

となる。内、α_ｓは未定係数であり、ｋは

である。
Ｇ１０２は予測される各の価格情報を分断し、事前調査によって確定された各時点の株価を記録して特徴ベクトルとする。分断の最後の日の平均株価と当の日の前日の平均株価との比例を１０段階に分けて１０分類とする。前記特徴ベクトル毎に一つの前記分類を所属分類として指定する。
前記特徴ベクトルと指定された前記分類とを一緒に教師パターンとして提供する。前記ｘは当の特徴ベクトルのみである。
Ｇ１０３は分類境界をｖ_０からｖ_１０の実数変数としての分類境界として提供する。但しｖ_０を０に指定する。
Ｇ１０４はマージン最大化の部分目標にＢを重みとして、エラー最小化の部分目標にＣを重みとして、分類境界制約の部分目標にＶを重みとして、Ｇ１０２に提供された全ての特徴ベクトルの各項の標準偏差の平均値をδとして提供する。同時に各教師パターンに起されるエラーの総エラーに対しての影響因子をベクトルｗとして提供する。
Ｇ１０６は

を訓練用の数理計画問題として提供する。内、ｖ_０は常数であり、ｖ_１からｖ_１０は変数であり、ｘ_ｓは第ｓ個教師パターンのベクトルを意味し、ｘ_ｓはｖ_ｉ−１とｖ_ｉで確定された区間に代表された分類に所属し、１はαの大きさに反比例するマージンである。
Ｇ１０８は専門ソフトで前記数理計画問題の解を提供する。
Ｇ１０９はＧ１０８で得た解からαを獲得し、分類指標関数ｆを確定する。
Ｇ１１０はＧ１０８で得た解からｖを獲得し、分類境界を確定する。
Ｇ１１１はＧ１０８で確定された分類指標関数ｆとＧ１１０で得た分類境界ｖで作成された分類推定関数を提供する。当の分類推定関数は、ｆの出力を含む、ｖ_ｉ−１とｖ_ｉで形成された実数区間を特定する。特定された区間に示された分類を出力する。

仮に、前記分類推定関数を分析用のコンピュータに保存している。分析は行われていることとする。

図４の各部に提供される情報は以下の通りとなる。
Ｇ２０１は前記コンピュータに保存された前記分類推定関数を読み取り、Ｇ２０３に提供する。
Ｇ２０２は前記Ｇ１０２と同様な分断方法で当日までの株価データからＧ１０２に提供された教師パターンと同様な特徴を保有する同型ベクトルをＧ２０３に提供する。
Ｇ２０３はＧ２０２に提供されたベクトルをＧ２０１に提供された分類推定関数に代入し、当のベクトルに示される株価パターンの所属分類を算出する。該分類は翌日の株価の予測を示す。

多値分類を手段として使用する分野全般に広く応用できる。多くの今まで計算規模の大きい所為で実用化できなかった多値分類に基づいた技術はこれから実用化できるようになると予想される。

Ｇ１０１写像選択部
Ｇ１０２教師パターン提供部
Ｇ１０３分類境界情報指定部
Ｇ１０４パラメータ選定部
Ｇ１０５数理計画問題に変換の部
Ｇ１０６目標関数作成の部
Ｇ１０７制約条件作成の部
Ｇ１０８数理計画問題を解く部
Ｇ１０９分類指標関数を作成の部
Ｇ１１０分類境界情報を記録の部
Ｇ１１１分類推定関数を作成の部
Ｇ２０１分類推定関数提供部
Ｇ２０２未知入力パターン提供部
Ｇ２０３分類演算部
Ｏ（ｆ）複雑性（complexity）大Ｏ記号。ｆが十分大きければｆより増大が速くない関数の範囲を示すものである。
Θ（ｆ）複雑性大Θ記号。ｆが十分大きければｆとの増大速度差が正常数倍以内の関数の範囲を示すものである。

Claims

所与の教師データに基づき入力データを複数分類のいずれかに分類する多値分類方法であって、
単一の数直線を複数の独立区間に分割する工程と、
教師データを所属分類によってそれぞれ前記独立区間に所属することを設定する工程と、
教師データを所属の前記区間に写像する分類指標関数又はその近似を未定係数法で構築するための工程と、
前記区間の境界に付着するマージンを最大化することを目標に含む訓練工程と、
数理計画問題を解くことで前記分類指標関数を求める工程と、
を含んだことを特徴とするデータ分類方法。
所与の教師データに基づき入力データを複数分類のいずれかに分類する多値分類装置であって、
単一の数直線を複数の独立区間に分割する工程と、
教師データを所属分類によってそれぞれ前記独立区間に所属することを設定する工程と、
教師データを所属の前記区間に写像する分類指標関数又はその近似を未定係数法で構築するための工程と、
前記区間の境界に付着するマージンを最大化することを目標に含む訓練工程と、
数理計画問題を解くことで前記分類指標関数を求める工程と、
を備えたことを特徴とするデータ分類装置。
前記請求項１に記載された方法をコンピュータに実行させるプログラム。