JP5244438B2 - データ分類装置、データ分類方法、データ分類プログラムおよび電子機器 - Google Patents

データ分類装置、データ分類方法、データ分類プログラムおよび電子機器 Download PDF

Info

Publication number
JP5244438B2
JP5244438B2 JP2008097310A JP2008097310A JP5244438B2 JP 5244438 B2 JP5244438 B2 JP 5244438B2 JP 2008097310 A JP2008097310 A JP 2008097310A JP 2008097310 A JP2008097310 A JP 2008097310A JP 5244438 B2 JP5244438 B2 JP 5244438B2
Authority
JP
Japan
Prior art keywords
learning
data
support vector
learning data
data classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008097310A
Other languages
English (en)
Other versions
JP2009251810A (ja
Inventor
敏 荒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Priority to JP2008097310A priority Critical patent/JP5244438B2/ja
Publication of JP2009251810A publication Critical patent/JP2009251810A/ja
Application granted granted Critical
Publication of JP5244438B2 publication Critical patent/JP5244438B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ソフトマージンサポートベクトルマシンを用いて学習処理を行うデータ分類装置、データ分類方法、データ分類プログラムおよび電子機器に関するものである。
サポートベクトルマシンは、事例学習型の2クラスデータ分類手法であり、汎用性が高く優れたデータ分類手法として広く知られている(非特許文献1参照)。特に、ソフトマージンサポートベクトルマシンは、観測データを分類する場合に優れたデータ分類手法であることが知られている。例えば、特許文献1に記載の画像処理装置は、ソフトマージンサポートベクトルマシンを用いて所定のX線医用画像を異常陰影が撮像された画像と異常陰影が撮像されていない画像とに分類する。
サポートベクトルマシンを用いて事例データを2クラスに分類する場合、操作者は、まず、サポートベクトルマシンに2クラスの学習データを学習させて、特徴空間内での2クラスの分離境界を作成する。なお、学習データとは、事例データとその事例データが所属するクラスとを組み合わせた情報である。操作者は、サポートベクトルマシンに学習データを学習させた後、テストデータを分類させて分類結果の正答率を参照し、さらに学習データを追加するか、または学習処理を終了するかを判断する。
特開2005−198970号公報 Oliver Chapelle, Patrick Haffner and Vladimir N. Vapnik: "Support Vector Machines for Histogram-Based Image Classification" , IEEE TRANSACTIONS ON NEURAL NETWORKS, VOL. 10, NO.5, SEPTEMBER 1999
ところで、従来のデータ分類装置では、操作者は、テストデータの正答率を参照しつつ個人の経験または勘に頼って学習処理を終了するか否かを判断しなければならなかった。このため、学習処理の終了の判断が遅れて不必要な学習や過学習を繰り返してしまい、学習処理に多くの時間を費やしてしまうという問題があった。
本発明は、上記に鑑みてなされたものであって、学習処理全体にかかる時間を抑えることができるデータ分類装置、データ分類方法、データ分類プログラムおよび電子機器を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明のある態様にかかるデータ分類装置は、ソフトマージンサポートベクトルマシンを用いて学習処理を行うデータ分類装置であって、学習データを取得する学習データ取得部と、前記ソフトマージンサポートベクトルマシンに前記取得された学習データを学習させる制御を行う学習制御部と、前記ソフトマージンサポートベクトルマシンの学習によって生じたサポートベクトルの個数を取得するサポートベクトル数取得部と、前記ソフトマージンサポートベクトルマシンによる前記学習データの学習数の増加に伴う前記サポートベクトルの個数の変化に応じて前記学習処理を終了すべきか否かを判定する判定部と、を備えることを特徴とする。
この態様にかかるデータ分類装置によれば、ソフトマージンサポートベクトルによる学習データの学習処理に伴うサポートベクトルの個数の変化をもとに学習処理を終了すべきか否かを判定する。これによれば、学習処理を終了すべきと判定した場合に、例えば、不必要な学習データの取得処理を停止して学習処理を自動的に終了させることができ、結果として、学習処理全体にかかる時間を抑えることができる。
また、本発明の別の態様にかかるデータ分類装置は、ソフトマージンサポートベクトルマシンを用いて学習処理を行うデータ分類装置であって、学習データを取得する学習データ取得部と、前記ソフトマージンサポートベクトルマシンに前記取得された学習データを学習させる制御を行う学習制御部と、前記ソフトマージンサポートベクトルマシンの学習により生じたサポートベクトルの個数を取得するサポートベクトル数取得部と、前記ソフトマージンサポートベクトルマシンによる前記学習データの学習数の増加に伴う前記サポートベクトルの個数の変化に応じて前記学習処理を終了すべきか否かを判定する判定部と、前記判定部の判定結果をもとに、少なくとも前記学習データをさらに取得する必要があるか否かを表示する表示部と、を備えることを特徴とする。
また、本発明のさらに別の態様にかかるデータ分類装置は、ソフトマージンサポートベクトルマシンを用いて学習処理を行うデータ分類装置であって、学習データを取得する学習データ取得部と、前記ソフトマージンサポートベクトルマシンに前記取得された学習データを学習させる制御を行う学習制御部と、前記ソフトマージンサポートベクトルマシンの学習により生じたサポートベクトルの個数を取得するサポートベクトル数取得部と、前記学習データを学習した後に該学習データを分類処理した場合のデータ分類の正答率を取得する正答率取得部と、前記ソフトマージンサポートベクトルマシンによる前記学習データの学習数の増加に伴う前記サポートベクトルの個数の変化および前記正答率に応じて前記学習処理を終了すべきか否かを判定する判定部と、前記判定部の判定結果をもとに、少なくとも前記学習データをさらに取得する必要があるか否かを表示する表示部と、を備えることを特徴とする。
また、本発明のさらに別の態様にかかるデータ分類方法は、ソフトマージンサポートベクトルマシンを用いて学習処理を行うデータ分類方法であって、学習データを取得する学習データ取得ステップと、前記ソフトマージンサポートベクトルマシンに前記取得された学習データを学習させる制御を行う学習制御ステップと、前記ソフトマージンサポートベクトルマシンの学習によって生じたサポートベクトルの個数を取得するサポートベクトル数取得ステップと、前記ソフトマージンサポートベクトルマシンによる前記学習データの学習数の増加に伴う前記サポートベクトルの個数の変化に応じて前記学習処理を終了すべきか否かを判定する判定ステップと、を含むことを特徴とする。
また、本発明のさらに別の態様にかかるデータ分類プログラムは、ソフトマージンサポートベクトルマシンを用いて学習処理を行うためのデータ分類プログラムであって、学習データを取得する学習データ取得手順と、前記ソフトマージンサポートベクトルマシンに前記取得された学習データを学習させる制御を行う学習制御手順と、前記ソフトマージンサポートベクトルマシンの学習によって生じたサポートベクトルの個数を取得するサポートベクトル数取得手順と、前記ソフトマージンサポートベクトルマシンによる前記学習データの学習数の増加に伴う前記サポートベクトルの個数の変化に応じて前記学習処理を終了すべきか否かを判定する判定手順と、をコンピュータに発揮させることを特徴とする。
また、本発明のさらに別の態様にかかるデータ分類装置は、学習の用に供する学習データを複数のクラスに分類することで、学習データを用いた学習処理を行うデータ分類装置であって、学習データを取得する学習データ取得部と、前記取得された学習データが有する値に応じて、前記取得された学習データを特徴空間内に配置する学習データ配置部と、前記配置された学習データを複数のクラスに分類するための境界面を前記特徴空間内に設定する境界面設定部と、前記取得された学習データが配置されるごとに、前記境界面の設定位置を更新する更新部と、前記境界面の設定位置が更新されるたびに、前記更新された境界面に対して所定の近傍範囲内に配置された学習データを注目データとして抽出し、前記取得された学習データが配置されるごとに前記抽出した注目データの数を積算する積算部と、前記取得された学習データの配置に伴う注目データの積算数の変化の結果を参照し、前記取得された学習データを用いた学習処理を終了すべきか否かを判定する判定部と、を備えることを特徴とする。
本発明によれば、学習処理全体にかかる時間を抑えることができる。
以下、本発明を実施するための最良の形態であるデータ分類装置、データ分類方法、データ分類プログラムおよび電子機器について説明する。なお、本実施の形態によって本発明が限定されるものではない。また、図面の記載において、同一部分には同一符号を付している。
(実施の形態)
図1は、本実施の形態にかかるデータ分類装置1の概略構成を示すブロック図である。図1に示すように、データ分類装置1は、各種情報を入力する入力部10、各種情報を出力する出力部20、学習データを含む各種データなどを記憶する記憶部30、ソフトサポートベクトルマシン40およびデータ分類装置1の各部の処理を制御する制御部50を備える。なお、本実施の形態にかかる画像処理装置は電子機器に搭載される。電子機器とは、正しく作動するために電流または電磁界に依存する装置であって、例えば、電子計算機、デジタルカメラ、デジタルビデオカメラ、内視鏡などの装置を指す。
入力部10は、キーボード、マウスおよびデータ通信インターフェイスなどによって実現され、操作者から手動で、または各種メモリカード、CD、DVDなどの携帯型記憶媒体から各種情報の入力を受け付ける。特に、入力部10は、学習データ取得部11を備え、学習データの入力を受け付けて学習データを取得する。
出力部20は、スピーカーおよびディスプレイなどによって実現され、操作者への警告、ソフトマージンサポートベクトルマシン40で行われた演算結果などの情報を映像および通知音などによって出力する。特に、出力部20は表示部21を備え、表示部21は、各種情報を表示するとともに、操作者に対して学習データなどの入力を依頼するGUI(Graphical User Interface)画面を表示する。
記憶部30は、ハードディスク、ROMおよびRAMなどによって実現され、制御部50がデータ分類装置1の各部に処理を実行させる場合に用いる各種処理プログラム、学習データおよび処理結果などの各種情報を記憶する。また、記憶部30には、ソフトマージンサポートベクトルマシン40に学習データを学習させ、分離境界を作成させる学習処理を行い、このソフトマージンサポートベクトルマシン40による学習データの学習数の増加に伴うサポートベクトルの個数の変化に応じて学習処理を終了すべきか否かを判定するためのデータ分類プログラムがあらかじめ記憶される。
なお、データ分類装置1は、制御部50の制御のもと、学習データ取得部11を介して事例データの入力を受付け、入力された事例データを表示部21に表示し、操作者に対して各事例データに所属クラスを与えるように依頼する。この際、データ分類装置1は、所属クラスの分類が容易な事例データから順に、所定数の事例データに所属クラスを与えるように依頼する。記憶部30は、事例データと、所属クラスと、何番目に所属クラスが与えられたかについての情報とを学習データとして記憶する。なお、学習データ取得部11は、予め所属クラスが与えられた事例データの入力を受け付けて学習データを取得してもよい。
ソフトマージンサポートベクトルマシン40は、学習データを学習し、特徴空間において学習データを2つのクラスに分類する分類境界を作成する。
ここで、サポートベクトルマシンについて、図2を参照して説明する。図2は、サポートベクトルマシンが作成する分離境界の概念を示す図である。ここでは簡単のため、分離境界が線形である場合を説明する。図2に示すように、2種類の特徴量を用いて2つのクラスに分類できる事例データ群を2次元特徴空間上にプロットすると、同じクラスに属する事例データどうしが分離境界の同じ側に集合するので、特徴空間上で2つのクラスを線形分離する分離境界を作成できる。分離境界は直線であればよいので何通りもの分離境界を作成できるが、サポートベクトルマシンは、マージン最大化という手法を用いて1本の分離境界を作成する。マージン最大化とは、特徴空間において分離境界に最も近い位置にある学習データをサポートベクトルとし、各サポートベクトルと分離境界とのユークリッド距離をマージンとして、マージンが最大になるように分離境界を作成する手法である。マージンが最大化されることによって、サポートベクトルマシンは、所属クラスが未知の事例データを精度良く分類できる。なお、分離境界の決定に関与する学習データは、サポートベクトルのみであり、それ以外の学習データは分離境界の決定に関与しないことが知られている。
また、サポートベクトルマシンは、ハードマージンサポートベクトルマシンとソフトマージンサポートベクトルマシンとに分類できる。ハードマージンサポートベクトルマシンは、分離境界を作成する際、学習データの分類間違いを許容せず、すべての学習データが正しく分類できるように分離境界を作成する。このため、ハードマージンサポートベクトルマシンは、学習データが完全に線形分離可能であれば最も適した分離境界を作成できるが、本来所属するクラスとは異なるクラスが与えられた学習データ(以下、「ノイズデータ」と呼ぶ)が含まれていた場合、過学習を起こしやすい。
一方、ソフトマージンサポートベクトルマシンは、学習データの分類間違いを許容して分離境界を作成するので、ハードマージンサポートベクトルマシンと比較してデータ分類精度が低下するが、ノイズデータが含まれる場合にも対応でき、過学習にも比較的陥りにくい。このため、ソフトマージンサポートベクトルマシンは、ノイズデータの混入が避けられない場合、例えば観測データを学習データとして用いる場合に適した手法である。以上の説明では簡単のため、分離境界が線形の場合を示したが、サポートベクトルマシンの実際の応用では、データを高次元空間に写像する手法を併用する事で、非線形な分離境界を形成させる場合が多い。
制御部50は、CPUなどによって実現され、データ分類装置1の各部の処理を制御する。特に、制御部50は、学習制御部51、サポートベクトル数取得部52、正答率取得部53および判定部54を備え、判定部54の判定結果をもとに、学習データ取得部11および学習制御部51などの動作を制御してソフトマージンサポートベクトルマシン40に分離境界を作成させる処理、すなわち学習処理を行う。
学習制御部51は、ソフトマージンサポートベクトルマシン40を制御し、オンライン学習で学習データを学習させる。なお、オンライン学習とは、学習データを逐次追加しつつ学習させていく手法である。但し、一回の追加処理において複数の学習データをまとめて追加しても良い。学習制御部51は、学習データを追加する毎に学習処理の一部として、ソフトマージンサポートベクトルマシン40に下式(1)に示す目的関数の最適化問題を解かせる、すなわちラグランジュ(Lagrange)乗数αiの最適化を行わせる。なお、式(1)において、Lは学習データの個数、yiはxiの所属クラス、式(3)において、Cは学習データの分類間違いを許容する度合いを表す定数である。ここで、式(1)を最適化した場合にラグランジュ乗数αiが零にならない学習データxiが、サポートベクトルとなる。
Figure 0005244438
サポートベクトル数取得部52は、注目データの一例であるサポートベクトルの個数を取得する。具体的には、サポートベクトル数取得部52は、零でないラグランジュ乗数αiの個数をカウントすることによって、サポートベクトルの個数を取得する。
正答率取得部53は、データ分類装置1の正答率を取得する。正答率とは、分離境界を用いて、この分離境界を作成する際に学習した学習データを分類した場合に各学習データが予め与えられたクラスに正しく分類される率である。正答率は、学習データに分類間違いがない場合には100%であるが、ノイズデータが含まれる場合には100%未満になり、ノイズデータが多いほど正答率は低下する。
判定部54は、学習処理を終了すべきか否かを判定する。この判定部54は、飽和判断部55および低下判断部56を備え、学習データの追加によりデータ分類装置1のデータ分類精度が向上するか否かの判断処理として、サポートベクトルの個数の変化または正答率の変化の判断処理を行う。そして、判定部54は、この判断処理の結果、データ分類精度が向上しないと判断した場合に、学習処理を終了すべきと判定する。具体的には、判定部54は、サポートベクトル数が飽和した場合、または正答率が低下傾向となった場合、学習データをさらに追加してもデータ分類精度は向上しないと判断する。ここで、データ分類精度とは、所属クラスが未知の事例データをクラス分けした場合の分類精度を示す。
飽和判断部55は、サポートベクトル数取得部52よりサポートベクトルの個数を取得し、オンライン学習中のサポートベクトルの個数の変化を把握し、サポートベクトルの個数が飽和に達したか否かを判断する。具体的には、第i回目の追加処理で追加された学習データを学習した際のサポートベクトルの個数をS(i)、第i−1回目の追加処理で追加された学習データを学習した際のサポートベクトルの個数をS(i−1)とし、サポートベクトルの増加数が所定の閾値Tsを下回った場合、すなわち下式(4)を満たす場合、飽和判断部55は、サポートベクトルの個数が飽和したと判断する。
S(i)−S(i−1)<Ts ・・・(4)
なお、サポートベクトル数の飽和の判断基準は式(4)に限られず、飽和判断部55は、他の判断基準、例えば式(4)を連続して所定の回数満たしたかどうかの情報をもとにサポートベクトル数が飽和したか否かを判断してもよい。
低下判断部56は、正答率取得部53より正答率を取得してオンライン学習中の正答率の変化を把握し、正答率が低下傾向になっているか否かを判断する。具体的には、第i回目に追加された学習データを学習した後の正答率をC(i)、第i−1回目に追加された学習データを学習した後の正答率をC(i−1)とし、正答率が前回の正答率を下回った場合、すなわち下式(5)に示す場合、低下判断部56は、正答率が低下傾向となったと判断する。
C(i)<C(i−1) (5)
なお、正答率が低下傾向であるかの判断基準は式(5)に限られず、低下判断部56は、他の判断基準、例えば、式(5)を所定の回数満たした場合に低下傾向と判断するとしてもよい。
データ分類装置1は、制御部50の制御のもと、取得した学習データをソフトマージンサポートベクトルマシン40に学習させて分離境界を作成させた後、所属クラスが未知の事例データの入力を受けつけ、作成した分離境界を用いて事例データを分類する。
次に、学習データの学習処理の手順を、図3を参照しつつ説明する。図3は、学習処理の手順を示すフローチャートである。なお、ここで説明する学習処理は、制御部50が記憶部30に記憶されているデータ分類プログラムに従ってデータ分類装置1の各部を制御することによって実現される。まず、制御部50は、表示部21および学習データ取得部11を制御して、学習データの入力を依頼して学習データを取得する(ステップS101)。その後、制御部50は、所定数の学習データを取得したかを判断する(ステップS102)。学習データが所定数未満の場合(ステップS102:No)、例えば操作者より入力部10を通じて所定数の学習データが用意できなかった旨の通知を受けた場合、制御部50は、表示部21を制御し、未学習で学習処理を中止する旨を表示させ(ステップS103)、学習処理を終了する。一方、学習データが所定数以上の場合(ステップS102:Yes)、制御部50は、学習制御部51を制御し、ソフトマージンサポートベクトルマシン40に学習データを学習させる(ステップS104)。
その後、制御部50は、サポートベクトル数取得部52を制御し、サポートベクトルの個数を取得するとともに(ステップS105)、正答率取得部53を制御し、正答率を取得する(ステップS106)。次いで、制御部50は、飽和判断部55を制御し、サポートベクトルの個数が飽和したかを判断させる(ステップS107)。サポートベクトルの個数が飽和していないと判断された場合(ステップS107:No)、制御部50は、低下判断部56を制御し、正答率が低下傾向かを判断させる(ステップS108)。正答率が低下傾向でないと判断された場合(ステップS108:No)、制御部50は、表示部21を制御し、学習データの追加によってデータ分類精度が向上する旨を表示させて学習データの追加を依頼させる(ステップS109)。その後、制御部50は、学習データが追加されたかを判断する(ステップS110)。学習データが追加された場合(ステップS110:Yes)、制御部50は、ステップS104に戻り、上述の処理を繰り返す。また、学習データが追加されなかった場合(ステップS110:No)、例えば操作者より入力部10を通じて学習データを追加しない旨の通知があった場合、制御部50は、表示部21を制御し、学習データ不足のため学習処理を中止する旨を表示させ(ステップS111)、学習処理を終了する。
一方、サポートベクトルの個数が飽和したと判断された場合(ステップS107:Yes)や、正答率が低下傾向であると判断された場合には(ステップS108:Yes)、判定部54が、学習処理を終了すべきと判定する。この場合には、制御部50は、表示部21を制御し、学習データの追加は不要であり、学習処理を終了する旨を表示させ(ステップS112)、学習処理を終了する。
ステップS101〜S112の処理において、制御部50は、学習データの追加によりデータ分類精度の向上が見込めるか否かを判断することによって学習処理を終了すべきか否かを判定しつつ学習処理を行い、データ分類精度の向上が見込めない場合に学習処理を終了すべきと判定し、学習処理を終了する。
図4は、学習初期のサポートベクトルと分離境界の関係を示す図である。図4に示すように、学習初期は、学習データが少ないので、学習データの追加に伴ってサポートベクトルが増加または変化し、分離境界が変化する。すなわち、学習データの増加に伴ってサポートベクトルが増加している場合、サポートベクトル数は不十分であり、分離境界はデータ分類に十分適しているとはいえない。この場合、学習データの追加によって、データ分類精度が向上する可能性が高い。一方、学習データが増加してもサポートベクトルがほぼ増加しない場合、すなわちサポートベクトルが飽和している場合、既に十分な量のサポートベクトルによってデータ分類に適した分離境界が作成されていると考えられる。この場合、学習データを追加しても、データ分類精度がこれ以上向上する可能性は低い。
そこで、ステップS107において、制御部50は、サポートベクトル数が飽和に達したと判断された場合、学習処理を終了する。図5は、学習データ数とサポートベクトル数との関係および学習データ数と正答率との関係を示す図である。図5に示すように、ステップS107では、サポートベクトル数が飽和したと判断された場合、制御部50は、正答率が低下傾向でなくても学習処理を終了する。
ところで、正答率は、学習データにノイズデータが多く含まれる場合に低くなる。一般的に、学習データ作成の際、操作者にとってクラス分けの判断が容易な事例データから先に所属クラスが与えられる傾向がある。換言すれば、操作者が比較的早い段階で選択した学習データには分類間違いが少なく、比較的遅い段階で選択した学習データには分類間違いが多く含まれる傾向がある。このため、正答率が低下傾向となった場合、ノイズデータが増加傾向であり、今後追加される学習データにも多くのノイズデータが含まれると推定できる。この場合、学習データを追加するとノイズデータの影響が大きくなりデータ分類に適さない分離境界が形成される恐れがあり、データ分類精度の向上は見込めない。
そこで、ステップS108において、制御部50は、正答率が低下傾向であると判断された場合、学習処理を終了する。図6は、図5と同様に、学習データ数とサポートベクトル数との関係および学習データ数と正答率との関係を示す図である。図6に示すように、ステップS108では、正答率が低下傾向であると判断された場合、制御部50は、サポートベクトル数が増加中であっても学習処理を終了する。
本実施の形態にかかるデータ分類装置1は、サポートベクトル数が飽和した場合または正答率が低下した場合に学習データを追加してもデータ分類精度が向上しないと判断し、学習処理を終了する。このため、データ分類装置1によれば、不必要な学習処理を行わずに学習処理にかかる時間を短縮することができる。また、データ分類装置1は、サポートベクトルが飽和していないと判断した場合および正答率が低下傾向でないと判断した場合に学習データの追加によってデータ分類精度が向上すると判断し、操作者に対して学習データの追加を依頼する。このため、データ分類装置1によれば、操作者は必要な場合のみ学習データを追加すればよく、必要以上に学習データを収集しなくてもよい。
なお、本実施の形態にかかるデータ分類装置1は、サポートベクトル数の変化または正答率をもとに学習処理の続行または終了を判断したが、本実施の形態の変形例として、サポートベクトル数の変化のみをもとに学習処理の続行または終了を判断するとしてもよい。すなわち、サポートベクトル数が飽和したと判断した場合のみに自動的に学習処理を終了するとしても、学習処理にかかる時間および学習データ数を抑えることができる。
また、データ分類装置1は、操作者によって先に与えられた学習データから順にソフトマージンサポートベクトルマシン40に学習させるとしたが、学習データを学習させる順番はこの限りではなく、例えばランダムに学習させてもよい。
また、上記した実施の形態では、サポートベクトルの個数の変化または正答率の変化の判断処理を行い、サポートベクトル数が飽和した場合または正答率が低下傾向となった場合に学習処理を終了すべきと判定する場合について説明したが、学習処理を終了すべきか否かの判定基準として正答率の変化の判断処理のみを行い、この判断処理の結果、例えば正答率が低下傾向となった場合に学習処理を終了すべきと判定することとしてもよい。
また、上記した実施の形態では、サポートベクトルの個数の変化に応じて学習処理を終了すべきか否かを判定することとしたが、これに限定されるものではなく、サポートベクトルの個数に関する値に応じて学習処理を終了すべきか否かを判定することができる。例えば、全学習データ数に対するサポートベクトル数の割合を求め、その変化に応じて学習処理を終了すべきか否かを判定することとしてもよい。あるいは、学習済みの学習データ数に対するサポートベクトル数の割合を求め、その変化に応じて学習処理を終了すべきか否かを判定することとしてもよい。
また、上記した実施の形態では、ソフトサポートベクトルマシン40を用いた学習処理を行うデータ分類装置について説明したが、これに限定されるものではなく、学習の用に供する学習データを複数のクラスに分類することで学習データを用いた学習処理を行うデータ分類装置にも適用可能である。例えば、ソフトサポートベクトルマシン40にかえて、学習データ配置部と、境界面設定部と、更新部とを備えてデータ分類装置を構成する。そして、図2を参照して説明した手法と同様にして、学習データ配置部は、学習データ取得部によって取得された学習データが有する値に応じてこの学習データを特徴空間内に配置する。境界面設定部は、学習データ配置部によって配置された学習データを複数のクラスに分類するための境界面(分離境界)を特徴空間内に設定する。更新部は、学習データが配置されるごとに境界面の設定位置を更新する。そして、学習データが配置されて境界面の設定位置が更新されるたびに、更新後の境界面に対して所定の近傍範囲内に配置された学習データを注目データとして抽出し、抽出した注目データの数を積算する積算部を設け、判定部が、積算部によって積算される注目データの積算数の変化の結果を参照して学習処理を終了すべきか否かを判定するようにする。ここで、データ分類装置は、第i−1回目の学習段階で定まった分離境界のそれぞれの側において、分離境界から最も近い位置に配置された学習データである注目データをそれぞれ特定し、その特定したそれぞれの側に配置された注目データどうしの間に存在する空間を、第i回目の学習段階での所定の近傍範囲として決定する。その所定の近傍範囲の一例として実施の形態を参照すると、図2中の「マージン」部分に対応する空間が挙げられる。なお、データ分類装置は、それぞれの側に配置された注目データどうしの間の空間ではなく、それぞれの側に配置された注目データの配置位置に対して近傍の位置を略注目データ位置として求め、それぞれの側で求めた略注目データ位置の間に存在する空間を、所定の近傍範囲として決定してもよい。もちろん、片方の側から注目データ位置、もう片方の側から略注目データ位置を抽出し、それら間に存在する空間を所定の近傍範囲としてもよい。そして、この場合には、制御部は、判定部が学習処理を終了すべきと判定した場合に、例えば学習データ取得部による学習データの取得の停止や、学習データ配置部による学習データの特徴空間内への配置の停止を制御する。あるいは、制御部は、判定部が学習処理を終了すべきと判定した場合に、出力部を制御して学習処理を終了すべき旨の情報を提示するようにしてもよい。
本発明にかかるデータ分類装置、データ分類方法、データ分類プログラムおよび電子機器は、サポートベクトルマシンを用いて学習処理を行うのに適しており、例えば、画像が特定のオブジェクトを含んでいるか否かを識別する場合や、医用画像中の特定組織を解剖学的名称や医学的所見と対応付ける場合に有用である。
本発明の実施の形態にかかるデータ分類装置の概略構成を示すブロック図である。 サポートベクトルマシンが作成する分離境界の概念を示す図である。 学習処理の手順を示すフローチャートである。 オンライン学習中の学習データと分離境界の関係を示す図である。 学習データ数とサポートベクトル数との関係および学習データ数と正答率との関係を示す図である。 学習データ数とサポートベクトル数との関係および学習データ数と正答率との関係を示す図である。
符号の説明
1 データ分類装置
10 入力部
11 学習データ取得部
20 出力部
21 表示部
30 記憶部
40 ソフトマージンサポートベクトルマシン
50 制御部
51 学習制御部
52 サポートベクトル数取得部
53 正答率取得部
54 判定部
55 飽和判断部
56 低下判断部

Claims (15)

  1. ソフトマージンサポートベクトルマシンを用いて学習処理を行うデータ分類装置であって、
    学習データを取得する学習データ取得部と、
    前記ソフトマージンサポートベクトルマシンに前記取得された学習データを学習させる制御を行う学習制御部と、
    前記ソフトマージンサポートベクトルマシンの学習によって生じたサポートベクトルの個数を取得するサポートベクトル数取得部と、
    前記ソフトマージンサポートベクトルマシンによる前記学習データの学習数の増加に伴う前記サポートベクトルの個数の変化に応じて前記学習処理を終了すべきか否かを判定する判定部と、
    を備えることを特徴とするデータ分類装置。
  2. 前記学習データを学習した後に該学習データを分類処理した場合のデータ分類の正答率を取得する正答率取得部を備え、
    前記判定部は、前記サポートベクトルの個数の変化および前記正答率をもとに前記学習処理を終了すべきか否かを判定することを特徴とする請求項1に記載のデータ分類装置。
  3. 前記判定部は、前記サポートベクトルの個数の変化および前記正答率をもとに、前記学習数をさらに増加させた場合にデータ分類精度が向上するか否かを判断し、前記データ分類精度が向上しないと判断した場合に、前記学習処理を終了すべきと判定することを特徴とする請求項2に記載のデータ分類装置。
  4. 前記判定部は、前記学習数をさらに増加させた場合に前記データ分類精度が向上するか否かの判断処理として、前記サポートベクトルの個数が飽和したか否かの判断処理を行う飽和判断部を有することを特徴とする請求項3に記載のデータ分類装置。
  5. 前記判定部は、前記学習数をさらに増加させた場合に前記データ分類精度が向上するか否かの判断処理として、前記正答率が低下傾向であるか否かの判断処理を行う低下判断部を有することを特徴とする請求項3に記載のデータ分類装置。
  6. 前記判定部の判定結果をもとに、前記学習データ取得部および/または前記学習制御部を制御する制御部を備えることを特徴とする請求項1〜5のいずれか一つに記載のデータ分類装置。
  7. 当該データ分類装置の外部に情報を出力する出力部を備え、
    前記制御部は、前記判定部によって前記学習処理を終了すべきと判定された場合、前記出力部を制御して前記学習データの追加は不要である旨の情報を出力させることを特徴とする請求項6に記載のデータ分類装置。
  8. 当該データ分類装置の外部に情報を出力する出力部を備え、
    前記制御部は、前記判定部によって前記学習処理を終了すべきでないと判定された場合、前記出力部を制御して前記学習データの追加を依頼する情報を出力させることを特徴とする請求項6に記載のデータ分類装置。
  9. ソフトマージンサポートベクトルマシンを用いて学習処理を行うデータ分類装置であって、
    学習データを取得する学習データ取得部と、
    前記ソフトマージンサポートベクトルマシンに前記取得された学習データを学習させる制御を行う学習制御部と、
    前記ソフトマージンサポートベクトルマシンの学習により生じたサポートベクトルの個数を取得するサポートベクトル数取得部と、
    前記ソフトマージンサポートベクトルマシンによる前記学習データの学習数の増加に伴う前記サポートベクトルの個数の変化に応じて前記学習処理を終了すべきか否かを判定する判定部と、
    前記判定部の判定結果をもとに、少なくとも前記学習データをさらに取得する必要があるか否かを表示する表示部と、
    を備えることを特徴とするデータ分類装置。
  10. ソフトマージンサポートベクトルマシンを用いて学習処理を行うデータ分類装置であって、
    学習データを取得する学習データ取得部と、
    前記ソフトマージンサポートベクトルマシンに前記取得された学習データを学習させる制御を行う学習制御部と、
    前記ソフトマージンサポートベクトルマシンの学習により生じたサポートベクトルの個数を取得するサポートベクトル数取得部と、
    前記学習データを学習した後に該学習データを分類処理した場合のデータ分類の正答率を取得する正答率取得部と、
    前記ソフトマージンサポートベクトルマシンによる前記学習データの学習数の増加に伴う前記サポートベクトルの個数の変化および前記正答率に応じて前記学習処理を終了すべきか否かを判定する判定部と、
    前記判定部の判定結果をもとに、少なくとも前記学習データをさらに取得する必要があるか否かを表示する表示部と、
    を備えることを特徴とするデータ分類装置。
  11. ソフトマージンサポートベクトルマシンを用いて学習処理を行うデータ分類方法であって、
    学習データを取得する学習データ取得ステップと、
    前記ソフトマージンサポートベクトルマシンに前記取得された学習データを学習させる制御を行う学習制御ステップと、
    前記ソフトマージンサポートベクトルマシンの学習によって生じたサポートベクトルの個数を取得するサポートベクトル数取得ステップと、
    前記ソフトマージンサポートベクトルマシンによる前記学習データの学習数の増加に伴う前記サポートベクトルの個数の変化に応じて前記学習処理を終了すべきか否かを判定する判定ステップと、
    を含むことを特徴とするデータ分類方法。
  12. ソフトマージンサポートベクトルマシンを用いて学習処理を行うためのデータ分類プログラムであって、
    学習データを取得する学習データ取得手順と、
    前記ソフトマージンサポートベクトルマシンに前記取得された学習データを学習させる制御を行う学習制御手順と、
    前記ソフトマージンサポートベクトルマシンの学習によって生じたサポートベクトルの個数を取得するサポートベクトル数取得手順と、
    前記ソフトマージンサポートベクトルマシンによる前記学習データの学習数の増加に伴う前記サポートベクトルの個数の変化に応じて前記学習処理を終了すべきか否かを判定する判定手順と、
    をコンピュータに発揮させることを特徴とするデータ分類プログラム。
  13. 学習の用に供する学習データを複数のクラスに分類することで、学習データを用いた学習処理を行うデータ分類装置であって、
    学習データを取得する学習データ取得部と、
    前記取得された学習データが有する値に応じて、前記取得された学習データを特徴空間内に配置する学習データ配置部と、
    前記配置された学習データを複数のクラスに分類するための境界面を前記特徴空間内に設定する境界面設定部と、
    前記取得された学習データが配置されるごとに、前記境界面の設定位置を更新する更新部と、
    前記境界面の設定位置が更新されるたびに、前記更新された境界面に対して所定の近傍範囲内に配置された学習データを注目データとして抽出し、前記取得された学習データが配置されるごとに前記抽出した注目データの数を積算する積算部と、
    前記取得された学習データの配置に伴う注目データの積算数の変化の結果を参照し、前記取得された学習データを用いた学習処理を終了すべきか否かを判定する判定部と、
    を備えることを特徴とするデータ分類装置。
  14. 前記判定部により学習処理を終了すべきと判定された場合に、前記学習処理を終了すべき旨の情報を提示する出力部をさらに備えることを特徴とする請求項13に記載のデータ分類装置。
  15. 請求項1または請求項13に記載のデータ分類装置を有することを特徴とする電子機器。
JP2008097310A 2008-04-03 2008-04-03 データ分類装置、データ分類方法、データ分類プログラムおよび電子機器 Expired - Fee Related JP5244438B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008097310A JP5244438B2 (ja) 2008-04-03 2008-04-03 データ分類装置、データ分類方法、データ分類プログラムおよび電子機器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008097310A JP5244438B2 (ja) 2008-04-03 2008-04-03 データ分類装置、データ分類方法、データ分類プログラムおよび電子機器

Publications (2)

Publication Number Publication Date
JP2009251810A JP2009251810A (ja) 2009-10-29
JP5244438B2 true JP5244438B2 (ja) 2013-07-24

Family

ID=41312480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008097310A Expired - Fee Related JP5244438B2 (ja) 2008-04-03 2008-04-03 データ分類装置、データ分類方法、データ分類プログラムおよび電子機器

Country Status (1)

Country Link
JP (1) JP5244438B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6555015B2 (ja) * 2015-08-31 2019-08-07 富士通株式会社 機械学習管理プログラム、機械学習管理装置および機械学習管理方法
JP6839342B2 (ja) * 2016-09-16 2021-03-10 富士通株式会社 情報処理装置、情報処理方法およびプログラム
JP6422142B1 (ja) * 2017-11-29 2018-11-14 康成 宮木 受精卵の画像診断システム、受精卵の画像診断プログラム及び受精卵の画像診断方法。
KR102122884B1 (ko) * 2018-12-28 2020-06-15 슈어소프트테크주식회사 차량 내 제어기와 통신하는 테스트 케이스 생성 장치 및 테스트 케이스 생성 장치의 테스트 케이스 생성 방법
JP7334478B2 (ja) * 2019-06-04 2023-08-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7373384B2 (ja) * 2019-12-18 2023-11-02 株式会社日立製作所 計算機システム及びスケジューリングシステムの検証方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2822909B2 (ja) * 1995-03-01 1998-11-11 日本電気株式会社 データ分類装置
JP4034602B2 (ja) * 2002-06-17 2008-01-16 富士通株式会社 データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム
JP2004213567A (ja) * 2003-01-08 2004-07-29 Ntt Docomo Inc 画像学習装置及びその学習方法
US7778949B2 (en) * 2006-05-15 2010-08-17 Nec Laboratories America, Inc. Method and apparatus for transductive support vector machines
JP4662909B2 (ja) * 2006-11-16 2011-03-30 日本電信電話株式会社 特徴評価方法及び装置及びプログラム
JP2009217319A (ja) * 2008-03-07 2009-09-24 Seiko Epson Corp ファイル生成装置、ドライバ更新システム、ファイル生成方法、およびファイル生成プログラム

Also Published As

Publication number Publication date
JP2009251810A (ja) 2009-10-29

Similar Documents

Publication Publication Date Title
CN108898186B (zh) 用于提取图像的方法和装置
US10956785B2 (en) Methods, systems, and media for selecting candidates for annotation for use in training classifiers
WO2018108129A1 (zh) 用于识别物体类别的方法及装置、电子设备
CN109409398B (zh) 图像处理装置、图像处理方法以及存储介质
JP5244438B2 (ja) データ分類装置、データ分類方法、データ分類プログラムおよび電子機器
WO2020253127A1 (zh) 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质
JP2020008896A (ja) 画像識別装置、画像識別方法及びプログラム
JP2015087903A (ja) 情報処理装置及び情報処理方法
JP2015116319A (ja) 診断支援装置、診断支援方法、および診断支援プログラム
JP5486380B2 (ja) 情報処理装置及びその制御方法、コンピュータプログラム
JP2009541838A (ja) 画像値を含む画像において閾値を定めるための方法、システム及び計算機プログラム
JP2021503139A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2012174222A (ja) 画像認識プログラム、方法及び装置
CN111382791B (zh) 深度学习任务处理方法、图像识别任务处理方法和装置
JP7422548B2 (ja) ラベルノイズ検出プログラム、ラベルノイズ検出方法及びラベルノイズ検出装置
JP5785631B2 (ja) 情報処理装置及びその制御方法、コンピュータプログラム
JP2017162098A (ja) 学習方法、情報処理装置および学習プログラム
US8494986B2 (en) Information processing apparatus, information processing method, and program
US20150243049A1 (en) Classifying image samples
JP6405603B2 (ja) 情報処理装置、情報処理システム及びプログラム
JP2016062249A (ja) 識別辞書学習システム、認識辞書学習方法および認識辞書学習プログラム
US11669949B2 (en) Apparatus and method for inferring contrast score of an image
US11676050B2 (en) Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees using leaf nodes
CN112397180B (zh) 手术影像的智能标记系统及其方法
JP2019016983A (ja) 情報処理装置、情報処理装置の制御方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121225

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees