JP2010287135A - データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム - Google Patents
データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム Download PDFInfo
- Publication number
- JP2010287135A JP2010287135A JP2009141716A JP2009141716A JP2010287135A JP 2010287135 A JP2010287135 A JP 2010287135A JP 2009141716 A JP2009141716 A JP 2009141716A JP 2009141716 A JP2009141716 A JP 2009141716A JP 2010287135 A JP2010287135 A JP 2010287135A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- function
- section
- boundary
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】データパターンを数直線の独立区間に写像して多値分類を高速に訓練し、高速に分類を行うこと。
【解決手段】教師パターンを所属分類によって数直線の独立区間に写像する分類指標関数を訓練する。場合によって分類境界情報をも一緒に訓練する。この分類指標関数は分類境界情報と共に分類推定関数を構成する。分類境界は前記独立区間の境界である。前記の独立区間を分類区間として定義する。分類ミスの最小化及びマージンの最大化を訓練の目標に含む。入力パターンの所属分類の推定を行う時、分類推定関数の機能として、分類指標関数の出力の所属分類区間を分類境界情報から高速に特定する。特定された分類区間に代表される分類を入力パターンの所属分類として推定する。
【選択図】図2
【解決手段】教師パターンを所属分類によって数直線の独立区間に写像する分類指標関数を訓練する。場合によって分類境界情報をも一緒に訓練する。この分類指標関数は分類境界情報と共に分類推定関数を構成する。分類境界は前記独立区間の境界である。前記の独立区間を分類区間として定義する。分類ミスの最小化及びマージンの最大化を訓練の目標に含む。入力パターンの所属分類の推定を行う時、分類推定関数の機能として、分類指標関数の出力の所属分類区間を分類境界情報から高速に特定する。特定された分類区間に代表される分類を入力パターンの所属分類として推定する。
【選択図】図2
Description
本発明は、データ分類方法、データ分類装置、およびプログラムに関する。
サポートベクターマシン(SVM:Support
Vector
Machine)(非特許文献1を参照)は汎化能力の高い2値分類器であるが、多値分類に拡張される場合処理速度の遅さがネックとなっている。SVMの基本思想は図1に描かれている。入力データは2類のパターンを含む。SVMは訓練を通して、2類のパターンの間に超平面を作る。この超平面から入力パターンまでの距離は最大化されている。図1に「x」と「o」は2分類の入力パターンを代表し、実線は超平面を代表し、点線は入力パターンから超平面までの最短距離(マージンと呼ぶ)を表すマージン超平面という仮想超平面を代表する。エラーを表すスラック変数で調整された前記最短距離のこともマージンと呼ぶ。
Vector
Machine)(非特許文献1を参照)は汎化能力の高い2値分類器であるが、多値分類に拡張される場合処理速度の遅さがネックとなっている。SVMの基本思想は図1に描かれている。入力データは2類のパターンを含む。SVMは訓練を通して、2類のパターンの間に超平面を作る。この超平面から入力パターンまでの距離は最大化されている。図1に「x」と「o」は2分類の入力パターンを代表し、実線は超平面を代表し、点線は入力パターンから超平面までの最短距離(マージンと呼ぶ)を表すマージン超平面という仮想超平面を代表する。エラーを表すスラック変数で調整された前記最短距離のこともマージンと呼ぶ。
空間分割を手法とし、SVMを利用した多値分類アルゴリズム(非特許文献2と特許文献1と特許文献2を参照
)として、代表的なものにonevsone法、onevsrest法、pairwise法、DDAG(Decision
Directed Acyclic
Graph)法、MOF(Multiclass Objective Function)法などがある。
空間分割以外もSVMに類似した多値分類の回帰法(非特許文献3を参照)があります。
)として、代表的なものにonevsone法、onevsrest法、pairwise法、DDAG(Decision
Directed Acyclic
Graph)法、MOF(Multiclass Objective Function)法などがある。
空間分割以外もSVMに類似した多値分類の回帰法(非特許文献3を参照)があります。
本発明中において、分類推定関数は
入力パターンの所属分類を推測する又は判定する計算仕組みのこと
を指す。
本発明中において、分類指標関数は
入力パターンの所属分類を推測するための値を
入力パターンから変換する計算仕組みのことを指す。
前記の各種方法は全て複数の分類指標関数を構築して、分類指標関数の組み合わせで分類推定関数を構築して入力パターンの所属分類を推定する。
入力パターンの所属分類を推測する又は判定する計算仕組みのこと
を指す。
本発明中において、分類指標関数は
入力パターンの所属分類を推測するための値を
入力パターンから変換する計算仕組みのことを指す。
前記の各種方法は全て複数の分類指標関数を構築して、分類指標関数の組み合わせで分類推定関数を構築して入力パターンの所属分類を推定する。
MOF法は全ての入力データの間の関係を以下のように作る。一つの教師パターンに対し、所属分類の分類指標関数の出力は全ての非所属分類の分類指標関数の出力より大きいことを制約する。n個の分類に対して、n個の関数を同時に制約する。n個の関数の関係はn(n−1)個存在するため、制約条件の数もn(n−1)倍になる。入力パターンの所属分類を推定するときは出力のもっとも大きい関数に代表される分類を所属分類として選択する。MOF法はもっとも理想的な方法であるが、その巨大な問題規模が実用され難い要因になる。
MOF法はonevsone法の統合方法として考えられる。
MOF法はonevsone法の統合方法として考えられる。
MOF法及び多値回帰以外の前記方法(以下「諸合成訓練法」と呼ぶ)は、MOF法に対する分解として考えられる。訓練時に2値分類推定関数を(n−1)個以上構築する。ただし、関数間の制約関係は訓練時に求められない。訓練後の組み合わせ方法を通して、MOF法に近似した結果を希望する。訓練時の制約条件の減少により、訓練に掛かる総時間の短縮となる。尚、一つの大規模問題を一列の小規模問題に変換することで、計算機器の能力に対する要求も軽減となる。分解の方法は一つの入力データ集合に対し、独立した二値分類の訓練を複数回行い、問題の総規模は分類の総数に比例する。訓練時に2値分類推定関数の間の関係が制約され難いため、後続組み合わせの最適性は訓練時に保証され難い問題をも有する。
多値回帰は空間に分類目標点を定義することによって、分類目標点からのずれの合計が最小になることを望む。問題規模が前記の各種方法より小さい。
Bernhard Scholkopf and Alexander J. Smola著 Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. The MIT Press. 2002.
Mahesh Pal著 Multiclass Approaches for Support Vector Machine Based Land Cover Classification. MapIndia 2005 Conference
Pei-Chun Chen, Tsung-Ju Lee, Yuh-Jye Lee, Su-Yun Huang 著 Multiclass Support Vector Classification via Regression. http://www.stat.sinica.edu.tw/syhuang/papersdownload/MC-reg-121006.pdf
MOF法の正確性は高く期待されるが、n分類に所属する併せてm個パターンを持つ入力データ集合に対し、規模がΘ((mn)2)になる訓練問題が形成する。現実中のデータ分類課題において、一つの分類に常に複数のパターンが所属する故、mは常にnより遥かに大きい。計算機器の能力にもよるが、nが特に小さくない場合はMOF法による訓練は困難となる。
諸合成訓練法は少なくとも規模が
Θ(m2n)になる訓練問題が形成する。MOF法より規模が小さくなることはあるが、nが大きければ演算時間がかなり長くなる。複数の計算機器による並行処理でスピードアップはできるが、計算機器に掛かるコストも高くなる。
Θ(m2n)になる訓練問題が形成する。MOF法より規模が小さくなることはあるが、nが大きければ演算時間がかなり長くなる。複数の計算機器による並行処理でスピードアップはできるが、計算機器に掛かるコストも高くなる。
諸合成訓練法は後続組合せの解釈の相違によって、最適の意味も曖昧になる。したがって、全体的にマージンを最大化するという目標の達成は困難となる。訓練時において、分類推定関数のサイズは別々に最適化になるため、全体上のサイズ最適化は抑えられない問題もある。
MOF法も諸合成訓練法も多値回帰も、所属分類を推測するため、一つの入力パターンに対して複数の分類推定関数の出力を計算する。分類推定関数の数はΘ(n)である。Nが大きい場合は多くの分類推定関数を用いた計算は非効率になる。
多値回帰は他の幾つかの問題点をも持つ。一、マージンは定義されないので、分類間の距離最大化を直接に訓練目標に含むことはし難い。二、前記の各種方法と同様に複数の関数を訓練で作成することになり、一つのパターンに対して複数の関数値を求めて比較する必要がある。三、訓練で得た各関数の出力分布は不明なので、単一の距離計算方法から確率を求める方法は不十分である恐れがある。
上記従来技術による問題点を解決するため、単一の多値分類指標関数をより小規模演算で構築し、入力パターンの分類を分類指標関数の出力によって高速に特定するデータ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラムを提供することを目的とする。
本発明は前記各問題点を解決するため、図2に示されたような写像を使用する。該写像は陰写像(implicit
mapping)又は陽写像(explicit
mapping)である。
mapping)又は陽写像(explicit
mapping)である。
本発明にかかるデータ分類方法やデータ分類装置やプログラムは
単一の数直線を複数の独立区間に分割する工程と、
教師データを所属分類によってそれぞれ前記独立区間に所属することを設定する工程と、
教師データを所属の前記区間に写像する分類指標関数又はその近似を未定係数法で構築するための工程と、
前記区間の境界に付着するマージンを最大化することを目標に含む訓練工程と、
数理計画問題を解くことで前記分類指標関数を求める工程と、
を含んだことを特徴とする。
単一の数直線を複数の独立区間に分割する工程と、
教師データを所属分類によってそれぞれ前記独立区間に所属することを設定する工程と、
教師データを所属の前記区間に写像する分類指標関数又はその近似を未定係数法で構築するための工程と、
前記区間の境界に付着するマージンを最大化することを目標に含む訓練工程と、
数理計画問題を解くことで前記分類指標関数を求める工程と、
を含んだことを特徴とする。
目標関数及び制約を構成し、数理計画問題を作成する。
前記数理計画問題を解く。
数理計画問題の解から分類指標関数と分類境界を確定して、分類推定関数を作成する。
分類推定関数を用いて、未知データを分類する。
本発明によれば、エラー最小化及びマージン最大化を訓練目標に含む多値分類法の訓練問題規模がO(m2+mn)まで減少できる。
本発明によれば、一回のみの訓練で、一つの分類指標関数のみを作成し、訓練の計算量及び結果に必要なスペースが減少になる。
本発明によれば、一つの入力パターンの分類推定に対して、分類指標関数の出力を一回のみ求め、分類指標関数の出力による分類推定の演算量がO(log(n))になり、分類推定の実行計算量が軽減となる。同時に、分類指標関数の複合(組合せ)が必要ないので、それによる多義もなくなる。
本発明によれば、回帰法と比べて、各分類間のマージンが定義でき、然もそれぞれ自動に適応できるようになる。
<訓練の実施形態>
訓練の実施形態は本発明によって多値分類を行うための分類推定関数を作成するための実施形態である。図3は、訓練の実施形態の一般過程を示した説明図である。以下はデータをパターン単位で説明する。
G101とG102とG103とG104とはそれぞれの出力をG105に提供し、G105で数理計画問題が形成し、G108に解かれて、G109とG110とで分類推定関数の必要情報は用意され、G111で分類推定関数が形成する。以下は各部を詳しく説明する。
訓練の実施形態は本発明によって多値分類を行うための分類推定関数を作成するための実施形態である。図3は、訓練の実施形態の一般過程を示した説明図である。以下はデータをパターン単位で説明する。
G101とG102とG103とG104とはそれぞれの出力をG105に提供し、G105で数理計画問題が形成し、G108に解かれて、G109とG110とで分類推定関数の必要情報は用意され、G111で分類推定関数が形成する。以下は各部を詳しく説明する。
G101は写像選択部である。写像選択の目標は分類指標関数を未定係数の形で決めることである。分類指標関数の一例は
又は近似した機能を有する計算仕組みである。数1に、wをある空間直線の方向ベクトルとして、Φを入力パターンxを高次元空間に写像する関数として、bをオフセットとして考えられる。数1にwとbは訓練の結果として得られるものである。Φは訓練の前に決定される関数である。fの出力は実数なので、結果としてxは数直線に写像されることになる。
Φが陰関数として定義される場合はカーナル(kernel)関数によって定義されることができる。カーナル関数の幾つかの例は
である。カーナル関数を用いて、fは
のように展開されることができる。s=1…m
。αsは実数である。xsは第s個教師パターンである。数4に、係数の1/2をαsに合併しても、fは同等能力を有するため、fは
のように展開されても良い。
。αsは実数である。xsは第s個教師パターンである。数4に、係数の1/2をαsに合併しても、fは同等能力を有するため、fは
G102は全ての教師パターンをベクトルの形で表現する。
G103は分類境界情報指定部である。
分類境界情報指定の目的は
各分類に所属する教師パターンを分類指標関数で変換して
得た出力を分類ごとの区間に制約するための
区間境界を獲得するための手段を選択することである。
分類境界情報の指定方法は複数存在する。全ての分類境界を以って形成される区間の集合と同型(isomorphic)である実数セットが存在することは必要条件である。
以下は幾つかの例を挙げる。
分類境界情報指定の目的は
各分類に所属する教師パターンを分類指標関数で変換して
得た出力を分類ごとの区間に制約するための
区間境界を獲得するための手段を選択することである。
分類境界情報の指定方法は複数存在する。全ての分類境界を以って形成される区間の集合と同型(isomorphic)である実数セットが存在することは必要条件である。
以下は幾つかの例を挙げる。
分類境界情報を数理計画の解から得る場合は、分類境界を変数にし、G105で構成される数理計画問題に含み、G108の出力の一部として確定する。
分類境界情報を数理計画の解及び他の情報から得る場合は、分類境界情報を制約しながら分類境界を変数にし、G105で構成される数理計画問題に含み、当の数理計画の解の一部を調整して得たものを確定された分類境界情報とする。
無制約も制約手段の一つとする。
無調整も調整手段の一つとする。
無制約も制約手段の一つとする。
無調整も調整手段の一つとする。
分類境界情報を常数として指定する場合は、常数となった分類境界情報をG105で構成される数理計画問題に含む。当の数理計画問題が解かれた後に、前記常数を調整して得たものを分類境界情報とする。
無調整も調整手段の一つとする。
無調整も調整手段の一つとする。
分類境界情報を逆算可能な関数で算出する場合は分類の識別記号又は相当するものを逆算可能な関数で分類境界値に変換する。
前記各分類境界情報の指定方法を組合せて分類境界情報を得る方法もある。
G104はパラメータ指定部である。G105で構成される数理計画問題の各部の関係を調整することはG104の目的である。パラメータ指定の一例は目標関数の各部の重みを指定することである。
G105はG101とG102とG103とG104との出力を以って数理計画問題を構成する。
G105はG106とG107との二部によって構成される。
G105はG106とG107との二部によって構成される。
G106は前記数理計画問題の目標関数を構成する。該目標関数はマージン(一つの分類区間において、分類境界から当の分類に所属する最も近い入力パターンの写像までの距離をマージンと呼ぶ。スラック変数を使用する場合、前記距離はスラック変数によっての調整後の距離である。)の最大化又はマージン最大化の近似を部分目標とする。該目標関数はエラーの最小化又はエラー最小化の近似を部分目標とする。該目標関数は必要に応じて他の部分目標を含む。
前記「他の部分目標」の一例は最小分類境界と最大分類境界との差を最小化することである。
前記「他の部分目標」の一例は最小分類境界と最大分類境界との差を最小化することである。
G107は前記数理計画問題の制約条件を作成する。該制約条件は分類指標関数の入力パターンに対しての出力が該パターンの所属分類の下方マージン点(分類区間の内部に分類境界からマージンで示される値をマージン点と呼ぶ)より小さくないこと及び該パターンの所属分類の上方マージン点より大きくないことを制約する。スラック変数を使用の場合は分類指標関数の入力パターンに対しての出力をスラック変数で調整した後の値を制約する。該制約条件は必要に応じて他の制約項目を含む。
前記「他の制約項目」の一例は最小分類区間をあるサイズ以上に制約することである。
前記「他の制約項目」の一例は最小分類区間をあるサイズ以上に制約することである。
G108はG105で構成される数理計画問題を解く。
G109はG108の出力から分類指標関数に必要とされる情報を分離し、分類指標関数を確定する。
G110は必要に応じてG108の出力から分類境界を確定するための情報を分離し、分類境界を確定する。
G111はG109とG110との出力を用いて分類推定関数を作成する。分類推定関数は分類境界の指定方法によって異なる場合がある。
前記分類境界の指定方法によらず、分類推定関数は分類指標関数の入力パターンに対しての出力を分類境界によって構成される分類区間の集合に検索し、前記出力を含む分類区間に代表される分類を当の入力パターンの推定所属分類とするという手段がある。
但し、分類境界は逆算可能な関数で指定された場合は
分類指標関数の入力パターンに対しての出力を前記逆算可能な関数の出力として逆算することで
当の入力パターンの所属分類を推定することが可能である。
前記分類境界の指定方法によらず、分類推定関数は分類指標関数の入力パターンに対しての出力を分類境界によって構成される分類区間の集合に検索し、前記出力を含む分類区間に代表される分類を当の入力パターンの推定所属分類とするという手段がある。
但し、分類境界は逆算可能な関数で指定された場合は
分類指標関数の入力パターンに対しての出力を前記逆算可能な関数の出力として逆算することで
当の入力パターンの所属分類を推定することが可能である。
<分類推定の実施形態>
分類推定の実施形態はG111で作成された分類推定関数を用いて未知入力パターンの所属分類を推定するための実施形態である。図4は分類推定の実施形態の一般過程を示した説明図である。
分類推定の実施形態はG111で作成された分類推定関数を用いて未知入力パターンの所属分類を推定するための実施形態である。図4は分類推定の実施形態の一般過程を示した説明図である。
G201は分類推定関数提供部である。分類推定関数提供部は前記分類推定関数を分類演算部に提供する。
G202は未知入力パターン提供部である。未知入力パターン提供部は所属分類未明の入力パターンをベクトルとして分類演算部に提供する。
G203は分類演算部である。分類演算部は前記未知入力パターンを前記分類推定関数に代入し、分類推定関数の出力を当の入力パターンの推定所属分類とする。
以降で説明される実施例は例示の目的だけに提供され、決して本発明の範囲を規定するものではないことを理解されたい。
実施例1は介護分野で二次計画法を使用した歩行分類の例である。図3の各部に提供される情報は以下の通りとなる。
G101は陽写像の恒等写像(identity
mapping)を提供する。fは
となる。内、wtとbは未定係数である。
G102は歩行のサンプルを特徴ベクトルに変換し、事前に得た歩行時患者の転倒可能性情報によって各サンプルに1から10の分類番号を付ける。特徴ベクトルを、付けられた分類番号と共に、入力パターンとして提供する。前記xは当の特徴ベクトルのみである。
G103は−∞と0と10と20と30と40と50と60と70と80と+∞を分類境界として提供する。以降の説明のため、前記の分類境界をv0からv10で代表する。
G104はマージン最大化の部分目標に50を重みとして、エラー最小化の部分目標に100を重みとして提供する。
G106は
を目標関数として提供する。内、ξはエラーを記録するスラック変数のベクトルである。
G107は
を制約条件として提供する。
G105はG106とG107とを併せて
を訓練用の数理計画問題として提供する。内、viは常数であり、xs,tは第s個教師パターンのベクトルの第t項を意味し、xsはvi−1とviで確定された区間に代表された分類に所属し、1はwの大きさに反比例するマージンである。
G108は専門ソフトで前記数理計画問題の解を提供する。
G109はG108で得た解からwを獲得し、分類指標関数fを確定する。
G110はG103と同様の情報を提供する。
G111はG108で確定された分類指標関数fとG110で得た分類境界で作成された分類推定関数を提供する。当の分類推定関数は
fが負数を出力すれば分類番号1を出力し、
fが80以上の値を出力すれば分類番号10を出力し、
fが上記以外の値を出力した場合は該出力を10で割った後の整数部分に1を足した後の値を分類番号として出力する。
G101は陽写像の恒等写像(identity
mapping)を提供する。fは
G102は歩行のサンプルを特徴ベクトルに変換し、事前に得た歩行時患者の転倒可能性情報によって各サンプルに1から10の分類番号を付ける。特徴ベクトルを、付けられた分類番号と共に、入力パターンとして提供する。前記xは当の特徴ベクトルのみである。
G103は−∞と0と10と20と30と40と50と60と70と80と+∞を分類境界として提供する。以降の説明のため、前記の分類境界をv0からv10で代表する。
G104はマージン最大化の部分目標に50を重みとして、エラー最小化の部分目標に100を重みとして提供する。
G106は
G107は
G105はG106とG107とを併せて
G108は専門ソフトで前記数理計画問題の解を提供する。
G109はG108で得た解からwを獲得し、分類指標関数fを確定する。
G110はG103と同様の情報を提供する。
G111はG108で確定された分類指標関数fとG110で得た分類境界で作成された分類推定関数を提供する。当の分類推定関数は
fが負数を出力すれば分類番号1を出力し、
fが80以上の値を出力すれば分類番号10を出力し、
fが上記以外の値を出力した場合は該出力を10で割った後の整数部分に1を足した後の値を分類番号として出力する。
仮に、前記分類推定関数を携帯型の観測装置に保存している。観測は行われていることとする。
図4の各部に提供される情報は以下の通りとなる。
G201は前記観測装置に保存された前記分類推定関数を読み取り、G203に提供する。
G202は観測される患者の歩行情報から、前記G102に提供された教師パターンと同類の特徴を保有する同型ベクトルをG203に提供する。
G203はG202に提供されたベクトルをG201に提供された分類推定関数に代入し、前記歩行情報の所属分類を算出する。
G201は前記観測装置に保存された前記分類推定関数を読み取り、G203に提供する。
G202は観測される患者の歩行情報から、前記G102に提供された教師パターンと同類の特徴を保有する同型ベクトルをG203に提供する。
G203はG202に提供されたベクトルをG201に提供された分類推定関数に代入し、前記歩行情報の所属分類を算出する。
実施例2は金融分野で線形計画法を使用した翌日の平均株価を予測の例である。図3の各部に提供される情報は以下の通りとなる。
G101は陰写像をガウスカーナル(Gaussian
kernel)として提供する。fは
となる。内、αsは未定係数であり、kは
である。
G102は予測される各の価格情報を分断し、事前調査によって確定された各時点の株価を記録して特徴ベクトルとする。分断の最後の日の平均株価と当の日の前日の平均株価との比例を10段階に分けて10分類とする。前記特徴ベクトル毎に一つの前記分類を所属分類として指定する。
前記特徴ベクトルと指定された前記分類とを一緒に教師パターンとして提供する。前記xは当の特徴ベクトルのみである。
G103は分類境界をv0からv10の実数変数としての分類境界として提供する。但しv0を0に指定する。
G104はマージン最大化の部分目標にBを重みとして、エラー最小化の部分目標にCを重みとして、分類境界制約の部分目標にVを重みとして、G102に提供された全ての特徴ベクトルの各項の標準偏差の平均値をδとして提供する。同時に各教師パターンに起されるエラーの総エラーに対しての影響因子をベクトルwとして提供する。
G106は
を目標関数として提供する。内、ξはエラーを記録するスラック変数のベクトルである。
G107は
を制約条件として提供する。
G105はG106とG107とを併せて
を訓練用の数理計画問題として提供する。内、v0は常数であり、v1からv10は変数であり、xsは第s個教師パターンのベクトルを意味し、xsはvi−1とviで確定された区間に代表された分類に所属し、1はαの大きさに反比例するマージンである。
G108は専門ソフトで前記数理計画問題の解を提供する。
G109はG108で得た解からαを獲得し、分類指標関数fを確定する。
G110はG108で得た解からvを獲得し、分類境界を確定する。
G111はG108で確定された分類指標関数fとG110で得た分類境界vで作成された分類推定関数を提供する。当の分類推定関数は、fの出力を含む、vi−1とviで形成された実数区間を特定する。特定された区間に示された分類を出力する。
G101は陰写像をガウスカーナル(Gaussian
kernel)として提供する。fは
である。
G102は予測される各の価格情報を分断し、事前調査によって確定された各時点の株価を記録して特徴ベクトルとする。分断の最後の日の平均株価と当の日の前日の平均株価との比例を10段階に分けて10分類とする。前記特徴ベクトル毎に一つの前記分類を所属分類として指定する。
前記特徴ベクトルと指定された前記分類とを一緒に教師パターンとして提供する。前記xは当の特徴ベクトルのみである。
G103は分類境界をv0からv10の実数変数としての分類境界として提供する。但しv0を0に指定する。
G104はマージン最大化の部分目標にBを重みとして、エラー最小化の部分目標にCを重みとして、分類境界制約の部分目標にVを重みとして、G102に提供された全ての特徴ベクトルの各項の標準偏差の平均値をδとして提供する。同時に各教師パターンに起されるエラーの総エラーに対しての影響因子をベクトルwとして提供する。
G106は
G107は
G105はG106とG107とを併せて
G108は専門ソフトで前記数理計画問題の解を提供する。
G109はG108で得た解からαを獲得し、分類指標関数fを確定する。
G110はG108で得た解からvを獲得し、分類境界を確定する。
G111はG108で確定された分類指標関数fとG110で得た分類境界vで作成された分類推定関数を提供する。当の分類推定関数は、fの出力を含む、vi−1とviで形成された実数区間を特定する。特定された区間に示された分類を出力する。
仮に、前記分類推定関数を分析用のコンピュータに保存している。分析は行われていることとする。
図4の各部に提供される情報は以下の通りとなる。
G201は前記コンピュータに保存された前記分類推定関数を読み取り、G203に提供する。
G202は前記G102と同様な分断方法で当日までの株価データからG102に提供された教師パターンと同様な特徴を保有する同型ベクトルをG203に提供する。
G203はG202に提供されたベクトルをG201に提供された分類推定関数に代入し、当のベクトルに示される株価パターンの所属分類を算出する。該分類は翌日の株価の予測を示す。
G201は前記コンピュータに保存された前記分類推定関数を読み取り、G203に提供する。
G202は前記G102と同様な分断方法で当日までの株価データからG102に提供された教師パターンと同様な特徴を保有する同型ベクトルをG203に提供する。
G203はG202に提供されたベクトルをG201に提供された分類推定関数に代入し、当のベクトルに示される株価パターンの所属分類を算出する。該分類は翌日の株価の予測を示す。
多値分類を手段として使用する分野全般に広く応用できる。多くの今まで計算規模の大きい所為で実用化できなかった多値分類に基づいた技術はこれから実用化できるようになると予想される。
G101 写像選択部
G102 教師パターン提供部
G103 分類境界情報指定部
G104 パラメータ選定部
G105 数理計画問題に変換の部
G106 目標関数作成の部
G107 制約条件作成の部
G108 数理計画問題を解く部
G109 分類指標関数を作成の部
G110 分類境界情報を記録の部
G111 分類推定関数を作成の部
G201 分類推定関数提供部
G202 未知入力パターン提供部
G203 分類演算部
O(f) 複雑性(complexity)大O記号。fが十分大きければfより増大が速くない関数の範囲を示すものである。
Θ(f) 複雑性大Θ記号。fが十分大きければfとの増大速度差が正常数倍以内の関数の範囲を示すものである。
G102 教師パターン提供部
G103 分類境界情報指定部
G104 パラメータ選定部
G105 数理計画問題に変換の部
G106 目標関数作成の部
G107 制約条件作成の部
G108 数理計画問題を解く部
G109 分類指標関数を作成の部
G110 分類境界情報を記録の部
G111 分類推定関数を作成の部
G201 分類推定関数提供部
G202 未知入力パターン提供部
G203 分類演算部
O(f) 複雑性(complexity)大O記号。fが十分大きければfより増大が速くない関数の範囲を示すものである。
Θ(f) 複雑性大Θ記号。fが十分大きければfとの増大速度差が正常数倍以内の関数の範囲を示すものである。
Claims (3)
- 所与の教師データに基づき入力データを複数分類のいずれかに分類する多値分類方法であって、
単一の数直線を複数の独立区間に分割する工程と、
教師データを所属分類によってそれぞれ前記独立区間に所属することを設定する工程と、
教師データを所属の前記区間に写像する分類指標関数又はその近似を未定係数法で構築するための工程と、
前記区間の境界に付着するマージンを最大化することを目標に含む訓練工程と、
数理計画問題を解くことで前記分類指標関数を求める工程と、
を含んだことを特徴とするデータ分類方法。 - 所与の教師データに基づき入力データを複数分類のいずれかに分類する多値分類装置であって、
単一の数直線を複数の独立区間に分割する工程と、
教師データを所属分類によってそれぞれ前記独立区間に所属することを設定する工程と、
教師データを所属の前記区間に写像する分類指標関数又はその近似を未定係数法で構築するための工程と、
前記区間の境界に付着するマージンを最大化することを目標に含む訓練工程と、
数理計画問題を解くことで前記分類指標関数を求める工程と、
を備えたことを特徴とするデータ分類装置。 - 前記請求項1に記載された方法をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009141716A JP2010287135A (ja) | 2009-06-12 | 2009-06-12 | データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009141716A JP2010287135A (ja) | 2009-06-12 | 2009-06-12 | データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010287135A true JP2010287135A (ja) | 2010-12-24 |
Family
ID=43542768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009141716A Pending JP2010287135A (ja) | 2009-06-12 | 2009-06-12 | データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010287135A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018506808A (ja) * | 2014-11-21 | 2018-03-08 | ブルヴェクター, インコーポレーテッドBluvector, Inc. | ネットワークデータ特性評価のシステムと方法 |
US10783152B2 (en) | 2016-02-05 | 2020-09-22 | Fujitsu Limited | Information processing apparatus and data comparison method |
US11679654B2 (en) | 2018-10-26 | 2023-06-20 | Lund Motion Products, Inc. | Fold-back soft top for a vehicle |
-
2009
- 2009-06-12 JP JP2009141716A patent/JP2010287135A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018506808A (ja) * | 2014-11-21 | 2018-03-08 | ブルヴェクター, インコーポレーテッドBluvector, Inc. | ネットワークデータ特性評価のシステムと方法 |
JP2021182412A (ja) * | 2014-11-21 | 2021-11-25 | ブルヴェクター, インコーポレーテッドBluvector, Inc. | ネットワークデータ特性評価のシステムと方法 |
JP7274535B2 (ja) | 2014-11-21 | 2023-05-16 | ブルヴェクター,インコーポレーテッド | ネットワークデータ特性評価のシステムと方法 |
US10783152B2 (en) | 2016-02-05 | 2020-09-22 | Fujitsu Limited | Information processing apparatus and data comparison method |
US11679654B2 (en) | 2018-10-26 | 2023-06-20 | Lund Motion Products, Inc. | Fold-back soft top for a vehicle |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Demidova et al. | The SVM classifier based on the modified particle swarm optimization | |
Andonie et al. | Weighted random search for CNN hyperparameter optimization | |
US9002101B2 (en) | Recognition device, recognition method, and computer program product | |
CN111785329B (zh) | 基于对抗自动编码器的单细胞rna测序聚类方法 | |
Jia et al. | Improving the quality of explanations with local embedding perturbations | |
da Costa et al. | An all-at-once unimodal svm approach for ordinal classification | |
US20220129758A1 (en) | Clustering autoencoder | |
US20220129712A1 (en) | Deep neural network hardener | |
Luo et al. | An novel random forests and its application to the classification of mangroves remote sensing image | |
Boney et al. | Semi-supervised and active few-shot learning with prototypical networks | |
Abro | Identifying the machine learning techniques for classification of target datasets | |
JP2010287135A (ja) | データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム | |
Abhadiomhen et al. | Supervised shallow multi-task learning: analysis of methods | |
Kaneko et al. | Class-distinct and class-mutual image generation with GANs | |
Sousa et al. | The data replication method for the classification with reject option | |
Saha et al. | Data Classification based on Decision Tree, Rule Generation, Bayes and Statistical Methods: An Empirical Comparison | |
Pokhrel | A comparison of AutoML hyperparameter optimization tools for tabular data | |
Rahman et al. | Estimation of the number of clusters based on simplical depth | |
JP2020181265A (ja) | 情報処理装置、システム、情報処理方法及びプログラム | |
Fong et al. | Improving classification accuracy using fuzzy clustering coefficients of variations (fccv) feature selection algorithm | |
Barani et al. | Classification of binary problems with SVM and a mixed artificial bee colony algorithm | |
Downton et al. | Age and Gender Estimation using Optimised Deep Networks | |
Mena et al. | Revisiting Machine Learning from Crowds a Mixture Model for Grouping Annotations | |
Pangastuti et al. | Classification boosting in imbalanced data | |
KR102222256B1 (ko) | 데이터를 분류하는 장치, 방법 및 컴퓨터 프로그램 |