JP2009122851A - データを分類する技術 - Google Patents

データを分類する技術 Download PDF

Info

Publication number
JP2009122851A
JP2009122851A JP2007294648A JP2007294648A JP2009122851A JP 2009122851 A JP2009122851 A JP 2009122851A JP 2007294648 A JP2007294648 A JP 2007294648A JP 2007294648 A JP2007294648 A JP 2007294648A JP 2009122851 A JP2009122851 A JP 2009122851A
Authority
JP
Japan
Prior art keywords
elements
class
classified
classes
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007294648A
Other languages
English (en)
Other versions
JP5142135B2 (ja
Inventor
Shohei Hito
将平 比戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2007294648A priority Critical patent/JP5142135B2/ja
Priority to US12/270,721 priority patent/US9218572B2/en
Publication of JP2009122851A publication Critical patent/JP2009122851A/ja
Application granted granted Critical
Publication of JP5142135B2 publication Critical patent/JP5142135B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】入力データを、少数クラスを含む複数のクラスに精度良く分類する。
【解決手段】複数のクラスに予め分類されている訓練データに基づいて、入力データを前記複数のクラスに分類するためのモデルを生成するシステムであって、前記訓練データから、少数クラスに分類された予め定められた数の要素、および、多数クラスに分類された前記予め定められた数に基づき定まる数の要素をそれぞれ含む、複数の集合をサンプリングするサンプリング部と、サンプリングした前記複数の集合のそれぞれに基づいて、それぞれが前記入力データを前記複数のクラスに分類するための複数のモデルのそれぞれを機械学習させる学習部とを備えるシステムを提供する。
【選択図】図4

Description

本発明は、データを分類する技術に関する。特に、本発明は、予め与えられた訓練データに基づいてモデルを学習することで、データを適切に分類する技術に関する。
機械学習による分類問題は、様々な分野に応用可能な重要な問題として知られている。例えば、患者の検査結果に基づいて特定の病状を予測したり、借入れ希望者の属性に基づいて与信の可否を判断したりすることができる。分類問題は、複数のクラスに分類された訓練データを用いて、データとクラスの対応関係を学習し、その学習結果に基づいて、クラスが未知のデータを適切に分類する、という問題である。データとクラスの対応関係は、分類の精度を高めることができるように学習される。そして、分類の精度は、分類の正解率によって評価される場合が多い。
機械学習のための訓練データのサンプリングについては、例えば以下の各文献を参照されたい。
特開2005−92253号公報 米国特許第6938049号 Bagging Predictor, Machine Learning, 24(2):123-140 (1996), Leo Breiman Asymmetric Bagging and Random Subspace for Support Vector Machines-Based Relevance Feedback in Image Retrieval, IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(7):1088-1099 (2006), Dacheng Tao et al.
しかしながら、問題によっては、分類の正解率を分類の精度として利用するのは不都合である。例えば、あるクラスに分類されるデータが極めて少ない場合においては、全てのデータを他のクラスに分類するように学習すれば、分類の正解率は高くなる。但し、そのように学習してしまうと有用な知見が得られない場合がある。例えば、多くの患者の中から特定の疾患を抱える少数の患者を見つけ出し、また、多くの借入れ希望者の中から与信に不適切な少数の希望者を見つけ出すのが難しくなってしまう。
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、複数のクラスに予め分類されている訓練データに基づいて、入力データを前記複数のクラスに分類するためのモデルを生成するシステムであって、前記訓練データから、少数クラスに分類された予め定められた数の要素、および、多数クラスに分類された前記予め定められた数に基づき定まる数の要素をそれぞれ含む、複数の集合をサンプリングするサンプリング部と、サンプリングした前記複数の集合のそれぞれに基づいて、それぞれが前記入力データを前記複数のクラスに分類するための複数のモデルのそれぞれを機械学習させる学習部とを備えるシステムを提供する。また、当該システムとしてコンピュータを機能させるプログラム、および、当該システムによってモデルを学習させる方法を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本実施形態に係るコンピュータ10の構成概要を示す。コンピュータ10は、基本的なハードウェアとして、例えばネットワーク・インターフェイス・カードなどである通信インターフェイス102と、例えばハードディスクドライブなどである記憶装置104とを備える。また、コンピュータ10は、記憶装置104から読み出したプログラムをCPUなどの演算処理装置で実行することで、分類システム106として機能する。
分類システム106は、記憶装置104に記憶された訓練データに基づいて、入力データ20を複数のクラスに分類するためのモデルを生成する。その訓練データの一例を図2に示す。
図2は、本実施形態に係る記憶装置104が記憶する訓練データの具体例を示す。記憶装置104は、訓練データとして、複数のクラスに予め分類されている複数の要素のそれぞれを、その要素の属性に対応付けて記憶している。
図2の例は、分類システム106が与信審査を支援するシステムである場合における訓練データを示している。この例で、要素とは、例えば与信審査の審査対象などであり、より具体的には、与信審査される個人、団体または法人である。ここでは、審査対象をそのIDにより表す。
また、それぞれの審査対象は、属性1から属性Mまでの複数の属性を有する。ある属性は、例えば、対応する審査対象の過去の借入れ履歴を示してよい。また、他の属性は、例えば、対応する審査対象の年齢、年収、または資産額などを示してよい。一例として、IDが0001の審査対象は、属性1として属性値100を有し、属性2として属性値20を有し、属性3として属性値50と有し、属性Mとして属性値10を有する。
また、記憶装置104は、それぞれの審査対象が分類されているクラスを記憶している。複数のクラスは、例えば、審査対象に与信した結果として事故が発生したクラス、および、審査対象に与信した結果として事故が発生しなかったクラスを示す。一例として、IDが0001の審査対象はクラスAに分類される一方、IDが0002の審査対象はクラスBに分類されている。このように、この例における訓練データは、審査対象はどのような属性を有するかという情報と、その審査対象に与信した結果として事故が発生したか否かを表している。
これに代えて、例えば分類システム106が特定の疾患を有する患者を推定するシステムである場合においては、記憶装置104は、訓練データ中の要素として患者を記録してよい。そして、訓練データ中の属性として、その患者の属性、例えば所定の検査の結果などを記憶している。さらに、記憶装置104は、患者の属性としてその患者の年齢または過去の病歴などを記憶していてもよい。この例において、クラスは、例えば、その患者が特定の疾患を有するかどうかを表す。
さらに他の例として、例えば分類システム106がネットワークシステム利用の不正侵入等を検知するシステムである場合において、各要素は、各ネットワークアクセスを示す。そして、その要素の属性は、そのネットワークアクセスによるアクセス時刻、アクセス所要時間、または、アクセスの内容などを示す。この例において、クラスは、例えば、そのネットワークアクセスが不正アクセスかどうかを示す。
さらに他の例として、例えば分類システム106がクレジットカードの不正利用の検出を支援するシステムである場合において、各要素は、クレジットカードの各利用を示す。そして、その要素の属性は、クレジットカードの利用時刻、利用金額、利用店舗または支払方法などを表す。この例において、クラスは、例えば、その利用が不正利用かどうかを示す。
そして、分類システム106は、以上のような訓練データに基づいて生成したモデルを使用して、まだクラスに分類されていない入力データ20を複数のクラスに分類する。入力データ20の一例を図3に示す。
図3は、本実施形態に係る入力データ20の具体例を示す。入力データ20は、複数の要素のそれぞれを、その要素が有する少なくとも1つの属性に対応付けて記録している。この図3の例でも、図2の例と同様に、コンピュータ10の用途に応じて要素は様々な具体的対象となり得る。例えばコンピュータ10が与信審査を支援するシステムである場合において、要素は、新たに与信の審査をするべき審査対象であってよい。
同様に、各要素の属性も、コンピュータ10の用途に応じて様々である。例えば、コンピュータ10が与信審査を支援するシステムである場合において、属性は、その審査対象の過去の借入れ履歴などである。但し、入力データ20は、それぞれの審査対象がどのクラスに分類されるかという情報は記録していない。
以上の何れの例においても、たとえばクレジットカードの不正利用、特定の疾患、または不正アクセスなどは、全体のうちのごく僅かを占める場合が多い。分類システム106は、このようなクラス不均衡の訓練データに基づくモデルに従って、クラス不均衡であることが予期されるクラス未分類の入力データ20を、精度良く分類することを目的とする。以下、具体的に説明してゆく。
図4は、本実施形態に係る分類システム106の機能構成の一例を示す。分類システム106は、サンプリング部200と、学習部210と、分類部220とを有する。サンプリング部200は、記憶装置104から訓練データを読み出す。そして、サンプリング部200は、読み出したその訓練データから、少数クラスに分類された要素および多数クラスに分類された要素をそれぞれ含む、複数の集合をサンプリングする。
このサンプリングは、例えば、集合の復元抽出であってよい。具体的には、サンプリング部200は、記憶装置104に記憶された訓練データから、予め定められた数の少数クラスの要素および当該予め定められた数に基づき定まる数の多数クラスの要素をCPUにより無作為に読み出す処理を複数回行うことで、これら複数の集合をサンプリングする。サンプリングされたそれぞれの集合は、記憶装置104に記憶される。
ここで、少数クラスとは、訓練データに含まれる数が他のクラスと比較して少ないことが、予め判明している要素のクラスである。例えば、珍しい疾患を有する患者を一般の患者の中から検出しようとする場合において、その疾患を有する患者のクラスは、他のクラスと比較して少ない要素を有することが、予め判明している。このため、この例において、その疾患を有する患者のクラスが少数クラスである。一方、多数クラスとは、少数クラスと比較して含んでいる数が多いことが予め判明している要素のクラスである。
また、少数クラスからサンプリングされる当該予め定められた数は、訓練データに含まれる少数クラスの要素の総数であってよい。即ちサンプリング部200は、訓練データに含まれる少数クラスの全ての要素を重複無く選択して、それぞれの集合に含めて抽出してよい。一方、それぞれの集合に含まれる多数クラスの要素の数は、集合ごとに異なることが望ましい。
さらに好ましくは、サンプリングされるそれぞれの集合についての多数クラスの要素の合計と、サンプリングされるそれぞれの集合についての少数クラスの要素の合計との比率は、予め定められた比率(例えば1:1)と略等しい。このように、集合のサイズに揺らぎを与えつつも、平均的には少数クラスと多数クラスとが釣り合うように同等に評価することで、後の学習処理の精度を高めることができる。
次に、学習部210は、サンプリングしたこれら複数の集合を、記憶装置104から読み出す。そして、学習部210は、これら複数の集合のそれぞれに基づいて、それぞれが入力データ20を複数のクラスに分類するための複数のモデルのそれぞれを機械学習させる。
ここで、モデルは、要素の集合を入力とし、入力した各要素の属性に基づいて、入力された当該要素の集合を複数のクラスに分類した結果を出力するためのデータである。一例として、そのデータは、例えば決定木(Decision Tree)などのように、そのような分類を実現するための規則を示してよいし、例えばニューラルネットワークなどのように、そのような分類を実現するためのグラフ(経路)を示してよい。
詳細には、学習部210は、機械学習させるべき複数のモデルのそれぞれに対応する学習制御部215を有する。それぞれの学習制御部215は、サンプリングされた集合を入力すると、対応するモデルにその集合を入力した場合にその集合を複数のクラスに分類した結果が、訓練データにおいて当該集合を予め当該複数のクラスに分類した結果と近づくように、当該モデルを示すデータを変更する。例えば、サンプリングされた集合に含まれる各要素に基づき、決定木のノードおよびエッジの構成が変更される。機械学習は、このようなデータの変更により実現される。
学習されたそれぞれのモデルを示すデータは、記憶装置104に格納される。また、モデルを示すデータは、他のコンピュータにおいて使用するために、電気通信回線を介して外部に出力されてもよい。
次に、分類部220は、新たに入力した入力データ20を、学習部210により学習された複数のモデルのそれぞれによって分類する。そして、分類部220は、当該複数のモデルのそれぞれによる複数の分類結果に基づいて、入力データ20を分類する。たとえば、分類部220は、複数の分類結果から多数決によって1つの分類結果を定めてもよい。その機能の構成例を図5に示す。
図5は、本実施形態に係る分類部220の機能構成の一例を示す。分類部220は、複数の分類制御部225と、アンサンブル部228とを備える。複数の分類制御部225は、それぞれ異なるモデルに従って入力データ20を複数のクラスに分類する。このように複数の分類制御部225はそれぞれ異なるモデルに従うので、複数の分類制御部225による分類結果は互いに異なる場合がある。このためアンサンブル部228は、これら複数の分類結果に基づいて、例えば多数決方式などによって単一の分類結果を定める。
例えば、いま、総数9つのモデルのうち、ある要素をクラスAに分類したモデルが5つであり、その要素をクラスBに分類したモデルが4つであれば、分類部220は、その要素をクラスAに分類してよい。これに代えて、分類部220は、複数の分類結果を平均化してもよい。具体的には例えば以下の通りである。
モデルによっては、それぞれの分類結果の確信度を数値化して出力する場合がある。例えば、あるモデルによるある要素の分類結果は、クラスAが100%中の55%であり、クラスBが100%中の45%である。一方、他のモデルによるその要素の分類結果は、クラスAが100%中の30%であり、クラスBが100%中の70%である。
この場合、分類部220は、それぞれのモデルによるそれぞれのクラスへの分類の確信度を平均する。即ち例えば、分類部220は、その要素のクラスAへの分類の確信度として42.5%を算出し、その要素のクラスBへの分類の確信度として47.5%を算出する。この平均化の結果、その要素はクラスBに分類されると評価される。分類結果は、例えば画面に表示されてもよいし、記憶装置104に格納されてもよいし、電気通信回線を通じて外部に出力されてもよい。
図6は、本実施形態に係る分類システム106により入力データが分類される処理の流れを示す。サンプリング部200は、訓練データから複数の集合をサンプリングする(S600)。モデルを効果的に学習できるようにするため、このサンプリングのステップは、以下のS610−S640を含む。
まず、サンプリング部200は、それぞれの集合に含めてサンプリングするべき、少数クラスに分類された要素の数、および、多数クラスに分類された要素の数の比率の分布を算出する(S610)。この分布は、例えば負の2項分布に従う。その一例を図7および以下の式(1)に示す。
Figure 2009122851
訓練データに含まれる少数クラスからサンプリングするべき要素の数をnとする。このnは、既に述べたように、予め定められた定数であり、好ましくは、訓練データに含まれる少数クラスの要素の総数である。
この場合において、少数クラスの要素数および多数クラスの要素数の比率の分布が負の2項分布に従うとすると、多数クラスの要素数がmとなる確率は、上記式(1)の値となる。但し、pは0より大きく1未満の実数である。
nを10とし、pを0.5とおいた場合における、要素数mの確率分布の例を図7に示す。確率密度はm=10付近でピークを迎え、m=0またはm=∞に向かうと徐々に低下する。例えばこの場合において、サンプリング部200は、例えばm:n={2:10,4:10,6:10,8:10,9:10,10:10,11:10,13:10,15:10}などのように、m=10付近の比率が最も多くなるような複数の比率を分布として算出してよい。
次に、サンプリング部200は、算出した分布に従って、少数クラスから要素をサンプリングする(S620)。少数クラスからサンプリングする要素の数は、上記式(1)におけるnであり、既に述べたように訓練データ中の少数クラスの要素の総数であることが好ましく、一例として図7の例のように定数値10である。
これに代えて、サンプリング部200は、いわゆるブートストラッピング・サンプリングにより、少数クラスから予め定められた数の要素を復元抽出してよい。この場合、少数クラスの一部の要素が時にはサンプリングされなくなり、代わりに他の要素が重複してサンプリングされる。この結果、訓練データ中に、クラス分類の基準を決定付けるためには不適切な、いわゆるノイズと呼ばれる要素が含まれる場合であっても、分類の精度をある程度の高さに維持できる。
次に、サンプリング部200は、算出した分布に従って、多数クラスから要素をサンプリングする(S630)。多数クラスからサンプリングする要素の数は、上記式(1)におけるmであり、既に述べたようにn:mは負の2項分布に従うことが望ましい。従って、サンプリング部200は、S610において算出した分布の中から、まず、ある1つの比率を無作為に選択する。ここではたとえば8:10が選択されたとする。
そして、サンプリング部200は、この比率に従うように、多数クラスから要素をサンプリングする。少数クラスからサンプリングする要素の数を10とすると、多数クラスからサンプリングする要素の数は8である。即ち、サンプリング部200は、多数クラスの中から8つの要素をサンプリングする。具体的には、サンプリング部200は、多数クラスから8つの要素を無作為に復元抽出してもよいし、無作為に非復元抽出してよい。
以上の処理を、サンプリング部200は、予め定められた数K回繰り返すことで、K個の集合をサンプリングする(S640)。これにより、サンプリングされるK個の集合に、それぞれ少数クラスに分類された予め定められた数n個の要素を含ませることができ、かつ、含んでいる要素の数の合計が互いに異ならせることができる。また、それぞれの集合についての少数クラスの要素の合計と、多数クラスの要素の合計とを、上記式(1)のpにより定まる所定の比率に略等しくすることができる。
なお、ここではこのような特徴的なサンプリングを実現する技術の一例として負の2項分布を例示したが、各集合中の少数クラスおよび多数クラスの要素の比率が従う分布は、この負の2項分布に限定されるものではない。例えば、この比率は、コンピュータ10の設計者または管理者が予め手作業で作成した分布に従ってもよい。そのような分布であっても、各集合が少数クラスの大部分を含み、かつ互いにサイズが異なることで、モデルの学習の精度を高めることができる。
また、ここでは多数クラスおよび少数クラスという2つのクラスからサンプリングする例を示したが、サンプリングされるクラスは3以上であってよい。その場合において、それぞれのクラスからサンプリングされる要素の数は負の多項分布に従う。そのようなサンプリングの実施例も、本発明の範囲内であることが、本願の特許請求の範囲の記載から明らかである。
次に、学習部210は、サンプリングしたこれらK個の集合のそれぞれに基づいて、それぞれが入力データ20を複数のクラスに分類するためのK個のモデルのそれぞれを機械学習させる(S650)。機械学習させるモデルは、例えば決定木(Decision Tree)である。この決定木は、入力した集合に含まれるそれぞれの要素を、その要素の属性に基づいて複数のクラスに分類するものである。
学習部210は、モデルを学習させるために、この決定木の中間ノード(条件判定手段)、エッジ(条件)、および、末端ノード(分類結果)を生成する。決定木の各ノードおよびエッジを訓練データから生成する技術については周知であるから、ここではその詳細な説明を省略する。学習部210は、このように生成したモデルを示すデータ、例えばここではノードおよびエッジを含むツリー構造のデータを記憶装置104に格納し、または、外部に出力する。
分類部220は、新たに入力した入力データ20を、学習部210により学習された複数のモデルのそれぞれによって分類する。そして、分類部220は、いわゆるアンサンブル学習という手法に従って、当該複数のモデルのそれぞれによる複数の分類結果に基づいて、入力データ20を分類する。たとえば、分類部220は、複数の分類結果から多数決によって1つの分類結果を定めてもよい。但し、分類部220が分類結果を定めるために採用する方法は、いわゆるアンサンブル学習として知られる方法であればその中の特定の方法に限定されるものではない(アンサンブル学習を取り入れたデータマイニング・パッケージソフトウェアについては、例えば以下のURL「http://www.hulinks.co.jp/software/randomforests/」を参照されたい。)。
ここで得られる分類結果は、多数の要素を含む訓練データに含まれる極めて少ない要素の集合をクラスとして精度良く分類している。例えば、多数の借入れ希望者の中から、ある属性の審査対象に与信をした場合に事故が発生するか否かを判断したり、また、多数の患者の中から珍しい疾患の患者の集合をクラスとして分類したりすることができる。
図8は、本実施形態に係るコンピュータ10のハードウェア構成の一例を示す。コンピュータ10は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。具体的には、CPU1000は、ROM1010及びRAM1020からプログラムを読み出して実行することで、コンピュータ10を分類システム106として機能させる。
グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、上記通信インターフェイス102の一例であり、ネットワークを介して外部の装置と通信する。通信インターフェイス1030は、例えば、上記入力データ20を、電気通信回線を介して外部から取得してもよい。また、通信インターフェイス1030は、上記分類結果を示すデータ、または、学習させた前記モデルを示すデータを、外部に出力してもよい。
ハードディスクドライブ1040は、上記記憶装置104の一例であり、コンピュータ10が使用するプログラム及びデータを格納する。例えば、ハードディスクドライブ1040は、外部から取得した入力データ20を格納してもよいし、コンピュータ10を分類システム106として機能させるためのプログラムを格納してもよい。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、コンピュータ10の起動時にCPU1000が実行するブートプログラムや、コンピュータ10のハードウェアに依存するプログラム等を格納する。
フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。上述の入力データ20および/または訓練データは、各種ポートに接続された装置を介して入力されてもよい。例えば、入力データ20および/または訓練データは、キーボードポート及びマウスポートに接続されたキーボード及びマウスを介して入力されてもよい。
コンピュータ10に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出されコンピュータ10にインストールされて実行される。プログラムがコンピュータ10等に働きかけて行わせる動作は、図1から図7において説明した分類システム106における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ10に提供してもよい。
以上、本実施形態に係る分類システム106によれば、少数クラスに分類された要素の情報を最大限に活用しつつも、サンプリングする要素の数に揺らぎを与えることでアンサンブル学習の効果を高めることができるので、少数クラスを含むクラスへの分類において極めて高い分類精度を実現できる。例えば、本願発明者の実証実験によれば、従来手法と比較して分類精度が向上する場合が多く、かつ、従来手法と比較して分類精度が低下することはほとんど無いことが確かめられた。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、本実施形態に係るコンピュータ10の構成概要を示す。 図2は、本実施形態に係る記憶装置104が記憶する訓練データの具体例を示す。 図3は、本実施形態に係る入力データ20の具体例を示す。 図4は、本実施形態に係る分類システム106の機能構成の一例を示す。 図5は、本実施形態に係る分類部220の機能構成の一例を示す。 図6は、本実施形態に係る分類システム106により入力データが分類される処理の流れを示す。 図7は、本実施形態においてサンプリングされるそれぞれの集合において、少数クラスに分類される要素の数および多数クラスに分類される要素の数の比率の分布を示す。 図8は、本実施形態に係るコンピュータ10のハードウェア構成の一例を示す。
符号の説明
10 コンピュータ
20 入力データ
102 通信インターフェイス
104 記憶装置
106 分類システム
200 サンプリング部
210 学習部
215 学習制御部
220 分類部
225 分類制御部
228 アンサンブル部

Claims (15)

  1. 複数のクラスに予め分類されている訓練データに基づいて、入力データを前記複数のクラスに分類するためのモデルを生成するシステムであって、
    前記訓練データから、少数クラスに分類された予め定められた数の要素、および、多数クラスに分類された前記予め定められた数に基づき定まる数の要素をそれぞれ含む、複数の集合をサンプリングするサンプリング部と、
    サンプリングした前記複数の集合のそれぞれに基づいて、それぞれが前記入力データを前記複数のクラスに分類するための複数のモデルのそれぞれを機械学習させる学習部と
    を備えるシステム。
  2. 前記訓練データを記憶するための記憶装置をさらに備え、
    前記サンプリング部は、前記記憶装置に記憶された前記訓練データから、前記予め定められた数の前記少数クラスの要素および前記予め定められた数に基づき定まる数の前記多数クラスの要素をコンピュータの処理によって無作為に読み出す処理を複数回行うことで、前記複数の集合をサンプリングし、サンプリングした前記複数の集合を前記記憶装置に格納し、
    前記学習部は、前記記憶装置から前記複数の集合を読み出し、前記複数のモデルのそれぞれを、読み出した前記複数の集合のそれぞれに基づいてコンピュータの処理によって機械学習させて、学習されたモデルを示すデータを出力する、請求項1に記載のシステム。
  3. 前記少数クラスは、前記訓練データに含まれている数が他のクラスと比較して少ないことが、予め判明している要素のクラスを示し、
    前記モデルは、要素の集合を入力とし、入力された当該要素の集合を前記複数のクラスに分類した結果を出力するモデルであり、
    前記サンプリング部は、前記訓練データから復元抽出により複数の集合のそれぞれをサンプリングし、
    前記学習部は、前記複数のモデルのそれぞれを、サンプリングした前記集合を当該モデルに入力した場合に当該集合を前記複数のクラスに分類した結果が、当該集合を予め前記複数のクラスに分類した結果に近づくように、学習させる、請求項1に記載のシステム。
  4. 前記サンプリング部は、前記少数クラスに分類された前記予め定められた数の要素をそれぞれ含み、かつ、含んでいる要素の数の合計が互いに異なる複数の集合をサンプリングする、請求項3に記載のシステム。
  5. 前記サンプリング部は、サンプリングするそれぞれの集合についての前記多数クラスに分類された要素の合計と、サンプリングするそれぞれの集合についての前記少数クラスに分類された要素の合計との比率が予め定められた比率と略等しくなるように、複数の集合をサンプリングする、請求項4に記載のシステム。
  6. 前記サンプリング部は、サンプリングするそれぞれの集合についての前記少数クラスに分類された要素の数および前記多数クラスに分類された要素の数の比率が、負の2項分布に従うように、前記訓練データから複数の集合をサンプリングする、請求項5に記載のシステム。
  7. 前記予め定められた数は前記訓練データに含まれる前記少数クラスの要素の数であり、
    前記サンプリング部は、前記訓練データのうち前記少数クラスに分類された全ての要素を抽出することで、前記少数クラスの要素をサンプリングする、請求項6に記載のシステム。
  8. 前記サンプリング部は、前記訓練データのうち前記少数クラスから前記予め定められた数の要素を無作為に復元抽出することで、前記少数クラスの要素をサンプリングする、請求項6に記載のシステム。
  9. 前記サンプリング部は、前記多数クラスから前記予め定められた数に基づき定まる数の要素を無作為に復元抽出することで、前記多数クラスの要素をサンプリングする、請求項6に記載のシステム。
  10. 前記サンプリング部は、前記多数クラスから前記予め定められた数に基づき定まる数の要素を無作為に非復元抽出することで、前記多数クラスの要素をサンプリングする、請求項6に記載のシステム。
  11. 前記学習部は、サンプリングされたそれぞれの集合について、当該集合に含まれるそれぞれの要素を、当該要素の属性に基づいて前記複数のクラスに分類する決定木を前記モデルとして生成する、請求項1に記載のシステム。
  12. 複数の要素を含む新たに入力したデータを、前記学習部により学習された前記複数のモデルのそれぞれによって分類して、前記複数のモデルのそれぞれによる複数の分類結果に基づいて、当該新たに入力したデータを分類する分類部をさらに備える、請求項1に記載のシステム。
  13. 当該システムは、与信審査を支援するシステムであり、
    前記訓練データは、審査対象の属性を当該審査対象に与信した結果として事故が発生したか否かによって複数のクラスに分類したデータであり、
    前記入力データは、新たに審査するべき複数の審査対象について当該審査対象の属性を記録したデータであり、
    前記サンプリング部は、前記訓練データから、事故が発生したクラスに分類された予め定められた数の要素、および、事故が発生しなかったクラスに分類された前記予め定められた数に基づき定まる数の要素をそれぞれ含む、複数の集合をサンプリングし、
    前記学習部は、サンプリングした前記複数の集合のそれぞれに基づいて、前記入力データに属性の記録された審査対象を与信した場合に事故が発生するか否かを判断させるための複数のモデルのそれぞれを機械学習させる、請求項1に記載のシステム。
  14. 複数のクラスに予め分類されている訓練データに基づいて、入力データを前記複数のクラスに分類するためのモデルを生成する方法であって、
    前記訓練データから、少数クラスに分類された予め定められた数の要素、および、多数クラスに分類された前記予め定められた数に基づき定まる数の要素をそれぞれ含む、複数の集合をサンプリングするステップと、
    サンプリングした前記複数の集合のそれぞれに基づいて、それぞれが前記入力データを前記複数のクラスに分類するための複数のモデルのそれぞれを機械学習させるステップと
    を備える方法。
  15. 複数のクラスに予め分類されている訓練データに基づいて、入力データを前記複数のクラスに分類するためのモデルを生成するシステムとして、コンピュータを機能させるプログラムであって、
    前記コンピュータを、
    前記訓練データから、少数クラスに分類された予め定められた数の要素、および、多数クラスに分類された前記予め定められた数に基づき定まる数の要素をそれぞれ含む、複数の集合をサンプリングするサンプリング部と、
    サンプリングした前記複数の集合のそれぞれに基づいて、それぞれが前記入力データを前記複数のクラスに分類するための複数のモデルのそれぞれを機械学習させる学習部
    として機能させるプログラム。
JP2007294648A 2007-11-13 2007-11-13 データを分類する技術 Expired - Fee Related JP5142135B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007294648A JP5142135B2 (ja) 2007-11-13 2007-11-13 データを分類する技術
US12/270,721 US9218572B2 (en) 2007-11-13 2008-11-13 Technique for classifying data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007294648A JP5142135B2 (ja) 2007-11-13 2007-11-13 データを分類する技術

Publications (2)

Publication Number Publication Date
JP2009122851A true JP2009122851A (ja) 2009-06-04
JP5142135B2 JP5142135B2 (ja) 2013-02-13

Family

ID=40624687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007294648A Expired - Fee Related JP5142135B2 (ja) 2007-11-13 2007-11-13 データを分類する技術

Country Status (2)

Country Link
US (1) US9218572B2 (ja)
JP (1) JP5142135B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150016972A (ko) * 2012-05-25 2015-02-13 크림손 헥사곤, 인코포레이티드 카테고리 비율들을 계산하기 위한 시스템들 및 방법들
JP6148427B1 (ja) * 2016-03-03 2017-06-14 楽天株式会社 文書分類装置、文書分類方法、および文書分類プログラム
WO2017149911A1 (ja) * 2016-03-03 2017-09-08 楽天株式会社 文書分類装置、文書分類方法、および文書分類プログラム
JP2018533138A (ja) * 2015-09-29 2018-11-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated 選択的バックプロパゲーション
KR101928732B1 (ko) 2017-03-13 2018-12-13 국민대학교산학협력단 텍스트 분석을 통한 이종 매체 카테고리 다중 매핑 시스템 및 방법
JP2019511037A (ja) * 2016-02-19 2019-04-18 アリババ グループ ホウルディング リミテッド 機械学習モデルのモデリング方法及びデバイス
KR102058345B1 (ko) * 2019-05-31 2019-12-23 한국산업기술평가관리원 인공지능 기반 자금 관리 시스템
JP2022527366A (ja) * 2019-04-11 2022-06-01 インターナショナル・ビジネス・マシーンズ・コーポレーション アンサンブル・モデルの強化された多様性および学習
WO2022202366A1 (ja) * 2021-03-25 2022-09-29 パナソニックIpマネジメント株式会社 データ支援システム、データ支援方法、プログラム、統合システム、及び処理装置
JP2022152911A (ja) * 2021-03-29 2022-10-12 横河電機株式会社 プログラム、情報処理装置、及び学習モデルの生成方法
JP7414188B2 (ja) 2020-06-29 2024-01-16 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9652802B1 (en) 2010-03-24 2017-05-16 Consumerinfo.Com, Inc. Indirect monitoring and reporting of a user's credit data
WO2012112781A1 (en) 2011-02-18 2012-08-23 Csidentity Corporation System and methods for identifying compromised personally identifiable information on the internet
US11030562B1 (en) 2011-10-31 2021-06-08 Consumerinfo.Com, Inc. Pre-data breach monitoring
WO2013112160A1 (en) 2012-01-26 2013-08-01 Hewlett-Packard Development Company, L.P. Image-based application automation
KR101993716B1 (ko) 2012-09-28 2019-06-27 삼성전자주식회사 카테고리별 진단 모델을 이용한 병변 진단 장치 및 방법
US8812387B1 (en) 2013-03-14 2014-08-19 Csidentity Corporation System and method for identifying related credit inquiries
US10157175B2 (en) 2013-03-15 2018-12-18 International Business Machines Corporation Business intelligence data models with concept identification using language-specific clues
US10332210B1 (en) * 2013-11-06 2019-06-25 Nationwide Mutual Insurance Company System and method for implementing computer modeling techniques
US20150317374A1 (en) * 2014-04-30 2015-11-05 International Business Machines Corporation User-relevant statistical analytics using business intelligence semantic modeling
US10698924B2 (en) 2014-05-22 2020-06-30 International Business Machines Corporation Generating partitioned hierarchical groups based on data sets for business intelligence data models
US10572877B2 (en) * 2014-10-14 2020-02-25 Jpmorgan Chase Bank, N.A. Identifying potentially risky transactions
US10339527B1 (en) 2014-10-31 2019-07-02 Experian Information Solutions, Inc. System and architecture for electronic fraud detection
KR101636973B1 (ko) * 2014-11-25 2016-07-08 대한민국 토석류 퇴적 모델의 파라미터를 추정하기 위한 장치 및 그 방법
US10002179B2 (en) 2015-01-30 2018-06-19 International Business Machines Corporation Detection and creation of appropriate row concept during automated model generation
US11151468B1 (en) 2015-07-02 2021-10-19 Experian Information Solutions, Inc. Behavior analysis using distributed representations of event data
US9984116B2 (en) 2015-08-28 2018-05-29 International Business Machines Corporation Automated management of natural language queries in enterprise business intelligence analytics
CN105335350A (zh) * 2015-10-08 2016-02-17 北京理工大学 一种基于集成学习的语种识别方法
US10410113B2 (en) * 2016-01-14 2019-09-10 Preferred Networks, Inc. Time series data adaptation and sensor fusion systems, methods, and apparatus
JP6719724B2 (ja) * 2016-02-05 2020-07-08 富士ゼロックス株式会社 データ分類装置およびプログラム
JP6915356B2 (ja) * 2017-04-11 2021-08-04 富士通株式会社 分析プログラム、分析装置及び分析方法
US10699028B1 (en) 2017-09-28 2020-06-30 Csidentity Corporation Identity security architecture systems and methods
US10896472B1 (en) 2017-11-14 2021-01-19 Csidentity Corporation Security and identity verification system and architecture
KR102205518B1 (ko) * 2018-04-02 2021-01-21 한양대학교 산학협력단 기계학습을 수행하는 저장 장치 및 그 장치의 기계학습 방법
US10529018B1 (en) 2018-07-16 2020-01-07 Capital One Services, Llc Credit scoring and pre-approval engine integration
CN109635839B (zh) * 2018-11-12 2020-07-14 国家电网有限公司 一种基于机器学习的非平衡数据集的处理方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6938049B2 (en) * 2002-06-11 2005-08-30 The Regents Of The University Of California Creating ensembles of decision trees through sampling
US20060212386A1 (en) * 2005-03-15 2006-09-21 Willey Dawn M Credit scoring method and system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6012043877; Guang-Gang Geng, et al.: 'Boosting the Performance of Web Spam Detection with Ensemble Under-Sampling Classification' Fuzzy Systems and Knowledge Discovery, 2007. FSKD 2007. Fourth International Conference on vol.4, 20070827, p.583-587 *
JPN6012043878; Xu-Ying Liu, et al.: 'Exploratory Under-Sampling for Class-Imbalance Learning' Data Mining, 2006. ICDM '06. Sixth International Conference on , 20061222, p.965-969 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015520901A (ja) * 2012-05-25 2015-07-23 クリムゾン・ヘキサゴン・インコーポレイテッドCrimson Hexagon, Inc. カテゴリー割合を算出するシステムおよび方法
KR101983538B1 (ko) 2012-05-25 2019-05-29 크림손 헥사곤, 인코포레이티드 카테고리 비율들을 계산하기 위한 시스템들 및 방법들
KR20150016972A (ko) * 2012-05-25 2015-02-13 크림손 헥사곤, 인코포레이티드 카테고리 비율들을 계산하기 위한 시스템들 및 방법들
JP2018533138A (ja) * 2015-09-29 2018-11-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated 選択的バックプロパゲーション
JP2019511037A (ja) * 2016-02-19 2019-04-18 アリババ グループ ホウルディング リミテッド 機械学習モデルのモデリング方法及びデバイス
JP7102344B2 (ja) 2016-02-19 2022-07-19 アリババ グループ ホウルディング リミテッド 機械学習モデルのモデリング方法及びデバイス
JP6148427B1 (ja) * 2016-03-03 2017-06-14 楽天株式会社 文書分類装置、文書分類方法、および文書分類プログラム
WO2017149911A1 (ja) * 2016-03-03 2017-09-08 楽天株式会社 文書分類装置、文書分類方法、および文書分類プログラム
KR101928732B1 (ko) 2017-03-13 2018-12-13 국민대학교산학협력단 텍스트 분석을 통한 이종 매체 카테고리 다중 매핑 시스템 및 방법
JP7335352B2 (ja) 2019-04-11 2023-08-29 インターナショナル・ビジネス・マシーンズ・コーポレーション アンサンブル・モデルの強化された多様性および学習
JP2022527366A (ja) * 2019-04-11 2022-06-01 インターナショナル・ビジネス・マシーンズ・コーポレーション アンサンブル・モデルの強化された多様性および学習
KR102058345B1 (ko) * 2019-05-31 2019-12-23 한국산업기술평가관리원 인공지능 기반 자금 관리 시스템
JP7414188B2 (ja) 2020-06-29 2024-01-16 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
WO2022202366A1 (ja) * 2021-03-25 2022-09-29 パナソニックIpマネジメント株式会社 データ支援システム、データ支援方法、プログラム、統合システム、及び処理装置
JP2022152911A (ja) * 2021-03-29 2022-10-12 横河電機株式会社 プログラム、情報処理装置、及び学習モデルの生成方法
JP7322918B2 (ja) 2021-03-29 2023-08-08 横河電機株式会社 プログラム、情報処理装置、及び学習モデルの生成方法

Also Published As

Publication number Publication date
US9218572B2 (en) 2015-12-22
JP5142135B2 (ja) 2013-02-13
US20090125463A1 (en) 2009-05-14

Similar Documents

Publication Publication Date Title
JP5142135B2 (ja) データを分類する技術
Vuttipittayamongkol et al. Overlap-based undersampling for improving imbalanced data classification
US7444279B2 (en) Question answering system and question answering processing method
Wang et al. Graph convolutional nets for tool presence detection in surgical videos
US10789225B2 (en) Column weight calculation for data deduplication
US10878003B2 (en) System and method for extracting structured information from implicit tables
EP1090275A1 (en) Improved vibrating conduit process parameter sensors,operating methods and computer program products utilizing complex modal estimation
US20210279606A1 (en) Automatic detection and association of new attributes with entities in knowledge bases
Angeli et al. Stanford’s 2014 slot filling systems
JP7332949B2 (ja) 評価方法、評価プログラム、および情報処理装置
JP7276436B2 (ja) 学習装置、学習方法、コンピュータプログラム及び記録媒体
CN111125658A (zh) 识别欺诈用户的方法、装置、服务器和存储介质
Shoohi et al. DCGAN for Handling Imbalanced Malaria Dataset based on Over-Sampling Technique and using CNN.
CN112131322A (zh) 时间序列分类方法及装置
JP7207540B2 (ja) 学習支援装置、学習支援方法、及びプログラム
Kothari et al. Learning from labeled and unlabeled data
CN117216687A (zh) 一种基于集成学习的大语言模型生成文本检测方法
JP2018163527A (ja) 分類装置の製造方法、画像の分類方法、画像の分類装置、半導体の検査装置および分類基準モジュール
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
Walkowiak et al. Utilizing local outlier factor for open-set classification in high-dimensional data-case study applied for text documents
Patel et al. An empirical study of multi-class imbalance learning algorithms
CN112183714A (zh) 基于人工神经网络的自动化数据切片
JP5946949B1 (ja) データ分析システム、その制御方法、プログラム、および、記録媒体
JP5379749B2 (ja) 文書分類装置、文書分類方法、そのプログラムおよび記録媒体
WO2021075995A1 (ru) Способ формирования поисковой выдачи в рекламном виджите

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20121024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5142135

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees