JP2005222445A - データマイニングにおける情報処理方法及び解析装置 - Google Patents

データマイニングにおける情報処理方法及び解析装置 Download PDF

Info

Publication number
JP2005222445A
JP2005222445A JP2004031724A JP2004031724A JP2005222445A JP 2005222445 A JP2005222445 A JP 2005222445A JP 2004031724 A JP2004031724 A JP 2004031724A JP 2004031724 A JP2004031724 A JP 2004031724A JP 2005222445 A JP2005222445 A JP 2005222445A
Authority
JP
Japan
Prior art keywords
storage unit
prediction
learning data
data storage
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004031724A
Other languages
English (en)
Inventor
Tetsuhiro Inoue
哲浩 井上
Daisuke Kogure
大輔 木暮
Takashi Nakamura
崇 中村
Yoichiro Nishimaki
洋一郎 西牧
Etsuko Murata
悦子 村田
Daisuke Tomosawa
大輔 友澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nifty Corp
SPSS Japan Inc
Original Assignee
Nifty Corp
SPSS Japan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nifty Corp, SPSS Japan Inc filed Critical Nifty Corp
Priority to JP2004031724A priority Critical patent/JP2005222445A/ja
Publication of JP2005222445A publication Critical patent/JP2005222445A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】
データマイニングにおける予測精度を向上させる。
【解決手段】
予測対象属性に対する、学習用データの属性間の交互作用を反映した属性として指定された交互作用項の値を、学習用データに含まれるレコード毎に特定し、学習用データを用いて交互作用項を説明変数として含む統計予測モデルを生成し、統計予測モデルを学習用データに適用して予測対象属性に対する予測結果を算出し、予測対象属性に対する予測結果と学習用データに含まれる予測対象属性の値とを比較することにより予測結果の真偽を判定し、予測結果の真偽を第2予測対象属性として所定のアルゴリズムに従って学習用データについて決定木を生成する。交互作用項を導入し当該交互作用項を説明変数として含む統計予測モデルを生成するようにすれば、学習用データの大まかな特徴を反映しつつ統計予測モデルを構築することができ予測精度が上がる。決定木も精度向上に有効である。
【選択図】 図4

Description

本発明は、データマイニング技術に関する。
データマイニングは、膨大な量の生データを解析し、経営やマーケティングにとって必要な傾向動向、相関関係、パターンなどを導き出すため技術であり、現在様々な分野で用いられている。
このデータマイニングの手法の一つにロジスティック回帰法がある。このロジスティック回帰法は、入力値(入力フィールド値)に基づいてレコードを分類する統計手法である。線形回帰と似ているが、数値ではなくシンボル値(文字列などを含むシンボル値フィールド)を分析対象とする。このロジスティック回帰法では、学習用データの入力フィールド値を出力フィールドの各カテゴリに対応する確率に関連付ける一連の方程式(すなわちモデル)が生成される。モデルを生成した後は、そのモデルを使用して予測対象データの確率を推定することができる。レコード毎に、各出力カテゴリ候補に対する所属確率が算出され、最も確率の高い対象カテゴリが、そのレコードの予測出力値として割り当てられる。ロジスティック回帰法の詳細については「個客行動を予測するデータマイニング」佐藤雅春著,日刊工業新聞社発行,ISBN4−526−04736−8における第4章を参照のこと。
また、C5.0という手法も存在している。この手法は、データを繰り返しサブセットに分割することによってデシジョンツリー(決定木)を作成する手法の一つである。はじめは1つのグループから開始し、目標変数の情報尺度を計算する(piを目標カテゴリiのケース比率として、情報尺度(エントロピー)は−Σpiln(pii)で表される。但しlnは自然対数)。併せて各予測変数を調べ、分割においてエントロピー増大率が最大となるような予測変数を見つける。これは数学的な尺度だが、もし同類のケースに対する目標カテゴリが分割先の子カテゴリ(ノード)によって異なる傾向にあれば、エントロピー増大率は高くなる。例えば、3つの目標カテゴリがあってその分布が(1/3,1/3,1/3)であるとする。このとき、分割によって(1,0,0)及び(0,1/2,1/2)の分布を有する2つのサブグループができれば、エントロピーは増大する。このように、C5.0では、ケースが1つの目標カテゴリに集中するように分割が実施される。C5.0の詳細については、例えばhttp://www.rulequest.com/see5-info.htmlを参照のこと。また、C5.0より前のバージョンであるC4.5の詳細については、J.R.Quinlan. (1993). C4.5:Programs for Machine Learning. Morgan Kaufmanを参照のこと。
また、SPSS Inc.が2003年に発行した"Advanced Modeling with Clementine"の第10章には、複数の手法の組み合わせについて述べられており、特に10−8頁乃至10−14頁には「Error Modeling」という項があり、ニューラルネットワークの解析結果の正誤をC5.0モデルにより訂正する手法が開示されている。しかし、ニューラルネットワーク(Neural Network)におけるモデルには特別な工夫はなされておらず、またニューラルネットワークでは、明確な要因間の構造が明示的に識別されないため、この解析結果に基づく施策の構築が不可能である。データマイニングの目的はデータ解析ではなく、解析結果に基づく施策の構築にあるため、ニューラルネットワークを用いることはあまり好ましくない。
「個客行動を予測するデータマイニング」佐藤雅春著,日刊工業新聞社発行,ISBN4−526−04736−8 J.R.Quinlan. (1993). C4.5:Programs for Machine Learning. Morgan Kaufman SPSS Inc."Advanced Modeling with Clementine",2003
上で述べた従来技術の問題としては個々のモデルによる精度があまり高くないという点が大きい。精度が高くなければ、予測結果を用いても効率的な施策を実施できないことになる。また、上で述べたように組み合わせについても議論されているが、各手法の性質を考慮した上で最良な組み合わせの仕方及びそのための工夫については議論されていない。
よって本発明の目的は、予測精度を向上させることができる新規なデータマイニング手法を提供することである。
本発明に係るデータマイニングにおける情報処理方法は、予測対象属性に対する、学習用データ格納部に格納された学習用データの属性間の交互作用を反映した属性として指定された交互作用項の値を、学習用データに含まれるレコード毎に特定し、学習用データ格納部に格納するステップと、学習用データ格納部に格納された学習用データを用いて、交互作用項を説明変数として含む統計予測モデルを生成し、当該統計予測モデルのデータを統計予測モデル格納部に格納するステップと、統計予測モデル格納部に格納されたデータに基づく統計予測モデルを学習用データ格納部に格納された学習用データに適用して予測対象属性に対する予測結果を算出し、記憶装置に格納するステップと、予測対象属性に対する予測結果と学習用データ格納部に格納された学習用データに含まれる予測対象属性の値とを比較することにより予測結果の真偽を判定し、判定結果を学習用データ格納部に格納するステップと、予測結果の真偽を第2予測対象属性として所定のアルゴリズムに従って学習用データ格納部に格納された学習用データについてルール(例えば決定木で表されるルールを含む)を生成し、当該ルールのデータをルール・データ格納部に格納するステップとを含む。
統計予測モデルはその性質から学習用データの大まかな特徴を抽出することは得意ではない。上で述べたように交互作用項を導入し、当該交互作用項を説明変数として含む統計予測モデルを生成するようにすれば、学習用データの大まかな特徴を反映しつつ統計予測モデルを構築することができ、より予測精度が上がる。本発明ではさらに統計予測モデルの真偽を判定するためのルールも生成されるため、さらに予測精度が向上する。
すなわち、未知の予測対象データに対して予測を行う場合には、統計予測モデル格納部に格納されたデータに基づく統計予測モデルを、予測対象データ格納部に格納された予測対象データに対して適用し、予測対象属性に対する予測結果を算出し、予測結果データ格納部に格納するステップと、ルール・データ格納部に格納されたルールのデータを用いて、予測結果データ格納部に格納された予測結果の真偽を判定し、判定結果を記憶装置に格納するステップとをさらに含む。真偽の判定結果を用いて、統計予測モデルの予測結果を修正すれば、精度が向上する。
また、上記所定のアルゴリズムに従って学習用データ格納部に格納された学習用データについて予測対象属性に対する第2のルール(例えば決定木で表されるルールを含む)を生成し、当該第2のルールのデータを記憶装置に格納する第2ルール生成ステップと、記憶装置に格納された第2のルールのデータに含まれる分岐条件に従って、交互作用項の候補を特定する交互作用項候補特定ステップとをさらに含むようにしてもよい。交互作用項については、このようにルールにおける分岐条件に従ってその候補を特定するようにしてもよいが、別の方法にて特定するようにしてもよい。但し、ルールにおける分岐条件は、学習用データの大まかな特徴を表しており、交互作用項の候補として好ましい。なお、上記所定のアルゴリズムは、例えば上で述べたC5.0などである。
さらに、上で述べた第2ルール生成ステップを学習用データ格納部に格納された学習用データの複数のサブセットに対して実行し、上で述べた交互作用項候補特定ステップが、複数生成された第2のルールに含まれる第1の分岐条件と第2の分岐条件の組み合わせの出現頻度の高い順に並べるステップを含むようにしてもよい。第2のルールの分岐条件は特定の学習用データに応じて偏向する場合があるので、学習用データの複数のサブセットに対してルールを生成し、出現頻度が高いものを交互作用項の候補として特定すると、より好ましい交互作用項を抽出することができる。
また、上で述べた統計予測モデルは、ロジスティック回帰モデルとすることも可能である。同様の性質を有する他の手法であってもよい。また、所定のアルゴリズムは、ルールを決定木として生成するアルゴリズムであってもよい。
なお、本発明に係る方法をコンピュータに実行させるためのプログラムを作成することができ、このプログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメモリ等の記憶装置に一時保管される。
本発明によれば、データマイニングにおいて予測精度を向上させることができるようになる。
本発明の一実施の形態に係る機能ブロック図を図1及び図2に示す。本実施の形態に係るコンピュータ・システムは、図示しないキーボードやマウス等の入力部及び表示装置やプリンタなどの出力部と、学習処理部100と予測処理部200とを有する。学習処理部100は、予測対象属性を含む各種属性の値が各レコードについて登録されている学習用データを格納する学習用データ格納部1と、学習用データ格納部1に格納されている学習用データを例えばC5.0のアルゴリズムに従って処理し上記予測対象属性に対する第1の決定木のデータを生成する第1決定木生成部2と、第1決定木生成部2により生成された第1の決定木についてのデータを格納する第1決定木データ格納部3と、第1決定木データ格納部3に格納されているデータを参照して交互作用項の候補を抽出し例えばユーザに対して提示する交互作用項抽出部4と、交互作用項抽出部4により抽出され且つ例えばユーザにより決定された交互作用項に関するデータを格納する交互作用項データ格納部5と、交互作用項データ格納部5と学習用データ格納部1とを参照して学習用データの各レコードについて交互作用項の属性値を決定し学習用データ格納部1に格納すると共に当該交互作用項の属性値を含む学習用データについて所定の統計処理を実施してロジスティック回帰モデルを生成するロジスティック回帰モデル生成部6と、ロジスティック回帰モデル生成部6により生成されたロジスティック回帰モデルのデータを格納するロジスティック回帰モデルデータ格納部7と、ロジスティック回帰モデルデータ格納部7と学習用データ格納部1を参照してロジスティック回帰モデルを学習用データに適用して予測対象属性の値を予測するロジスティック回帰モデル適用処理部8と、ロジスティック回帰モデル適用処理部8による予測結果を格納する第1処理結果格納部9と、第1処理結果格納部9と学習用データ格納部1を参照してロジスティック回帰モデル適用処理部8による予測結果の真偽を判定し、各レコードについての真偽判定結果を学習用データ格納部1に格納する真偽判定部11と、学習用データ格納部1を参照し真偽判定部11による真偽判定結果を予測対象属性として学習用データを例えばC5.0のアルゴリズムに従って処理し上記真偽判定結果に対する第2の決定木を生成する第2決定木生成部12と、第2決定木生成部12により生成された第2の決定木についてのデータを格納する第2決定木データ格納部13と、第1処理結果格納部9と第2決定木データ格納部13と学習用データ格納部1とを参照してロジスティック回帰モデルによる予測結果の真偽を第2の決定木に基づき予測する決定木適用処理部14と、決定木適用処理部14による予測結果を格納する第2処理結果格納部15と、第1処理結果格納部9と学習用データ格納部1と第2処理結果格納部15とを参照して処理結果について比較を行う比較部16とを含む。
また、予測処理部200は、図2に示すように、各種属性値が各レコードについて登録された予測対象データを格納する予測対象データ格納部21と、予測対象データ格納部21とロジスティック回帰モデルデータ格納部7を参照しロジスティック回帰モデルを予測対象データに適用して予測対象属性の値を予測するロジスティック回帰モデル適用処理部22と、ロジスティック回帰モデル適用処理部22の予測結果を格納する第1予測結果格納部23と、予測対象データ格納部21と第1予測結果格納部23と第2決定木データ格納部13を参照して第2の決定木に基づき予測対象データ格納部21の各レコードについて第1予測結果格納部23に格納されている予測結果の真偽を予測し、各レコードの最終的な予測結果を特定する決定木適用処理部24と、決定木適用処理部24の真偽の予測結果及び最終的な予測結果を各レコードについて格納する第2予測結果格納部25とを有する。
なお、図1及び図2に示したコンピュータ・システムにおいては、図3に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施の形態における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本発明の実施例では、以下の処理を実施するためのアプリケーション・プログラムはリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、以下で述べるような各種機能を実現する。
以下、図1及び図2に示したコンピュータ・システムの処理フローを図4乃至図13を用いて説明する。まず、第1決定木生成部2は、学習用データ格納部1に格納されている学習用データの各サブセットに対してコンピュータサイエンス予測モデル(例えばC5.0)のアルゴリズムに従って予測対象属性についての決定木を生成し、当該決定木のデータを第1決定木生成部2に格納する(図4:ステップS1)。なお、C5.0は、学習用データの大まかな特徴を抽出するのには非常に有効であるが、データに対する感度が高いため特定の学習用データに応じて偏向した結果を出す場合がある。従って、学習用データの複数のサブセットの各々につき決定木を生成しておく。
なお、図5に学習用データの一例を示しておく。本実施の形態において学習用データは、ある企業の顧客データであり、各ユーザにつき、ユーザID、購入累計価格、主な支払方法、性別、家の所有の有無、年収、年齢といった各種属性の値が登録されている。また、予測対象属性は「高額オーディオユーザであるか否か」という属性であって、学習用データなので「高額オーディオユーザであるか否か」という属性の値についても「はい」「いいえ」で登録されている。
また、例えば、このような学習用データのあるサブセットについてC5.0のアルゴリズムに従って決定木を生成すると図6のようなデータを得ることができる。ノード0は、学習用データの1つのサブセット全体を表し、予測対象属性である「高額オーディオユーザであるか否か」について「はい(Y)」という属性値である人(レコード)が854人(レコード)で、「いいえ(N)」という属性値である人(レコード)が146人(レコード)であることを示している。そして第1の分岐602における条件は、属性「年収」であって、「16000」を基準として「16000」より大きいという第1の条件603と「16000」以下という第2の条件604とで構成される。この第1の分岐602の第1の条件603を満たしている場合にはノード1が構成されて、分岐が終了している。ノード1は、予測対象属性が「Y」という属性値である人が614人で、「N」という属性値である人が24人であることを示している。このように十分に偏りが生じた場合には分岐は終了される。第1の分岐602の第2の条件604を満たしている場合にはノード2が構成されている。ノード2は、予測対象属性が「Y」という属性値である人が182人で、「N」という属性値である人が180人であることを示している。「Y」と「N」の人数は均衡しているので、第2の分岐607が生成されている。第2の分岐607における条件は、属性「性別」であって、「男性(M)」という第1の条件608と「女性(F)」という第2の条件609とで構成される。この第2の分岐607の第1の条件608を満たしている場合にはノード3が構成され、分岐が終了している。ノード3は、予測対象属性が「Y」という属性値である人が120人で、「N」という属性値である人が24人であることを示している。一方、第2の分岐607の第2の条件609を満たしている場合にはノード4が構成され、分岐が終了している。ノード4は、予測対象属性が「Y」という属性値である人が62人で、「N」という属性値である人が156人であることを示している。なお、決定木のデータは、図6のようなツリーのデータではなく、図6に示したようなツリーを構成できる、いかなる形式のデータであってもよい。
図4の説明に戻って、交互作用項抽出部4は、第1決定木データ格納部3に格納されたデータを参照して、ステップS1で生成された決定木における分岐条件から交互作用項となり得る条件を交互作用項の候補として抽出する。交互作用については、2以上の因子が互いに影響を及ぼし合っているとき、それらの因子の間に交互作用があるという定義となっている。決定木では、予測対象属性に対して、2つの分岐条件が含まれていれば、第1の分岐条件という因子と第2の分岐条件という因子とが互いに影響を及ぼしあっているということが表されている。すなわち、第1の分岐条件と第2の分岐条件とは予測対象属性に対して交互作用があり、当該交互作用を反映した交互作用項として、第1の分岐条件と第2の分岐条件との組み合わせが採用される。このように例えばC5.0により生成される決定木は、統計処理では発見しにくい、予測対象属性に対する学習用データのアドホックな特徴を表しており、決定木の分岐条件による交互作用項は、学習用データの特徴を反映したものとなる。
本実施の形態ではまず交互作用項の候補を抽出する。抽出する際には、ステップS1において複数の決定木が生成されているので、各決定木の第1の分岐条件及び第2の分岐条件の組み合わせについて出現頻度を計数し、最も出現頻度の高い順番に並べる。この出現頻度順に並べられた交互作用項の候補のうち所定の個数を自動的に交互作用項として特定しても良い。また、出現頻度順に並べられた交互作用項の候補を例えば表示装置に表示してユーザに対して所定個数選択するように促してもよい。さらに、ユーザに別途追加又は指定させるようにしてもよい。交互作用項抽出部4により抽出された交互作用項をそのまま、又は抽出された交互作用項の候補のうち選択されたもの、若しくはユーザにより別途追加又は指定された交互作用項を特定し、当該交互作用項のデータを交互作用項データ格納部5に格納する(ステップS3)。なお、交互作用項データ格納部5に格納されるデータは、図6の例では「年収16000未満」且つ「性別男」、「年収16000未満」且つ「性別女」、「年収16000以上」且つ「性別男」、「年収16000以上」且つ「性別女」といった第1の分岐条件及び第2の分岐条件の組み合わせにて構成される。
次に、ロジスティック回帰モデル生成部6は、学習用データ格納部1及び交互作用項データ格納部5を参照して、交互作用項であると特定された属性の値を学習用データ格納部1に格納された各レコードについて決定し、学習用データ格納部1に格納する(ステップS5)。例えば「年収」「年齢」「性別」という属性の他に交互作用項として特定された新たな属性に対する値「はい」又は「いいえ」を登録する。図5の例では図7に示すような学習用データが学習用データ格納部1に格納されることになる。図7の例では、図5に示したデータの他、交互作用項1(「年収16000以上」且つ「性別男性」)についての列が追加されており、交互作用項1についての値が登録されている。その他の交互作用項の値についても登録されるが、ここでは説明を省略する。
そして、ロジスティック回帰モデル生成部6は、学習用データ格納部1に格納された各レコードの属性値を解析し、交互作用項を説明変数として含む統計予測モデル、すなわちロジスティック回帰モデルを生成し、当該ロジスティック回帰モデルのデータをロジスティック回帰モデルデータ格納部7に格納する(ステップS7)。ロジスティック回帰モデルは、上でも述べたように説明変数の値から予測対象属性の各値についての確率を算出するための方程式からなるモデルである。すなわち、方程式のデータを生成して、ロジスティック回帰モデルデータ格納部7に格納する。本実施の形態では、ロジスティック回帰法においては、モデルのデータに対する当てはまりを高めるために有効な変数を、統計量を基準として取捨選択しながらモデルを作成する方法であるステップワイズ法を採用する。
ここまで実施されると、ロジスティック回帰モデル適用処理部8は、ロジスティック回帰モデルデータ格納部7に格納されたモデルのデータを、学習用データ格納部1に格納された各レコードについて適用することにより、各レコードの予測対象属性の値を予測し、第1処理結果格納部9に格納する。最も確率の高い値を各レコードの予測対象属性の値として特定する。図5の例では、「高額オーディオユーザであるか否か」について予測結果が第1処理結果格納部9に格納される。そして、真偽判定部11は、第1処理結果格納部9に格納された各レコードについての予測結果と、学習用データ格納部1に格納された実際の結果とを比較し、予測結果の真偽についてのデータを学習用データ格納部1に格納する(ステップS9)。
ステップS9終了後における学習用データ格納部1の一例を図8に示す。図7のデータに加えて、予測結果の真偽として「T(真)」「F(偽)」のいずれかのデータが各レコードについて登録されている。
なお、図8に示した各レコードの真偽の結果をまとめると、例えば図9に示すようになる。すなわち、ロジスティック回帰モデルでの予測において「高額オーディオユーザである」(=T)と判定され、実際に「高額オーディオユーザである」(=T)であるユーザが698人であり、ロジスティック回帰モデルでの予測において「高額オーディオユーザである」(=T)と判定され、実際には「高額オーディオユーザではない」(=F)ユーザが64人であり、ロジスティック回帰モデルでの予測において「高額オーディオユーザではない」(=F)と判定され、実際には「高額オーディオユーザである」(=T)ユーザが102人であり、ロジスティック回帰モデルでの予測において「高額オーディオユーザではない」(=F)と判定され、実際に「高額オーディオユーザではない」(=F)ユーザが136人である。この結果によれば、予測が当たったユーザは834人(=698+136)、予測が外れたユーザは166人(=102+64)である。
図8のようなデータは、全体構造を識別することを長所とするロジスティック回帰モデルでは説明できないものであり、特異な構造を有するものである。
そして第2決定木生成部12は、図8に示したような学習用データ格納部1を参照して、例えばC5.0のアルゴリズムに従ってステップS9で生成した予測結果の真偽を予測対象属性とする決定木を生成し、第2決定木データ格納部13に格納する(ステップS11)。ロジスティック回帰モデルによる予測があたったものとはずれたものがステップS9で判別される。本実施の形態では、予測が外れたものを正しく訂正するために、ステップS9で生成した予測結果の真偽を予測対象属性として決定木を生成する。ステップS9で生成されたデータの特異性を識別するため、対象データの特徴を捉えることを長所とするC5.0を用い、なぜ予測の当たり外れが生じたのかを表す構造を明らかにする。これにより2つのモデルが有効にハイブリッド化される。
ステップS11で生成される決定木の一例を図10に示す。ノード0は、学習用データの全体を表し、予測対象属性である「予測結果の真偽」について「真」という属性値であるレコードが834レコードで、「偽」という属性値であるレコードが166レコードであることを示している。そして第1の分岐1001における条件は、属性「年齢」であって、「33」を基準として「33」未満という第1の条件1002と「33」以上という第2の条件1003とで構成される。この第1の分岐1001の第1の条件1002を満たしている場合にはノード1が構成されて、分岐が終了している。ノード1は、予測結果が「真」という属性値であるレコードが15レコードで、「偽」という属性値であるレコードが48レコードであることを示している。第1の分岐1001の第2の条件1003を満たしている場合にはノード2が構成されている。ノード2は、予測結果が「真」という属性値であるレコードが819レコードで、「偽」という属性値であるレコードが118レコードであることを示している。第2の分岐1004における条件は、属性「主な支払方法」であって、「チェック」という第1の条件1005と「現金」という第2の条件1006と「カード」という第3の条件1007とで構成される。この第2の分岐1004の第1の条件1005を満たしている場合にはノード3が構成される。ノード3は、予測結果が「真」という属性値であるレコードが30レコードで、「偽」という属性値であるレコードが42レコードであることを示している。また、第2の分岐1004の第2の条件1006を満たしている場合にはノード4が構成され、分岐が終了している。ノード4は、予測結果が「真」という属性値であるレコードが749レコードで、「偽」という属性値であるレコードが61レコードであることを示している。さらに、第2の分岐1004の第3の条件1007を満たしている場合にはノード5が構成され、分岐が終了している。ノード5は、予測結果が「真」という属性値であるレコードが40レコードで、「偽」という属性値であるレコードが15レコードであることを示している。
また第3の分岐1008における条件は、属性「家の所有」であって、「はい(Y)」という第1の条件1009と、「いいえ(N)」という第2の条件1010とで構成される。この第3の分岐1008の第1の条件1009を満たしている場合にはノード6が構成されて、分岐が終了している。ノード6は、予測結果が「真」という属性値であるレコードが30レコードで、「偽」という属性値であるレコードが2レコードであることを示している。第3の分岐1008の第2の条件1010を満たしている場合にはノード7が構成されている。ノード7は、予測結果が「真」という属性値であるレコードが0レコードで、「偽」という属性値であるレコードが40レコードであることを示している。なお、決定木のデータは、図10のようなツリーのデータではなく、図10に示したようなツリーを構成できる、いかなる形式のデータであってもよい。
決定木適用処理部14は、第2決定木データ格納部13と学習用データ格納部1を参照して、ステップS11で生成された決定木を学習用データの各レコードに適用し、ロジスティック回帰モデルによる予測結果の真偽を予測すると共に、第1処理結果格納部9を参照して当該真偽予測を基に学習用データの各レコードに対する最終予測結果を決定し、第2処理結果格納部15に格納する(ステップS12)。例えば図10のような決定木により各レコードにつきロジスティック回帰モデルによる予測結果の真偽が予測される。単に予測することが目的ではなく、「偽」と予測されたレコードについては、ロジスティック回帰モデルによる予測結果を反転することにより、より正しい予測となるようにする。なお、「真」と予測されたレコードについては、ロジスティック回帰モデルによる予測結果を維持する。
例えば図10のような決定木では、ノード1に属するレコードについては、ロジスティック回帰モデルによる予測結果が「偽」と判断されて、ロジスティック回帰モデルによる予測結果が反転される。ノード4に属するレコードについては、ロジスティック回帰モデルによる予測結果が「真」と判断されて、ロジスティック回帰モデルによる予測結果は維持される。ノード5に属するレコードについては、ロジスティック回帰モデルによる予測結果が「真」と判断されて、ロジスティック回帰モデルによる予測結果は維持される。ノード6に属するレコードについては、ロジスティック回帰モデルによる予測結果が「真」と判断されて、ロジスティック回帰モデルによる予測結果は維持される。ノード7に属するレコードについては、ロジスティック回帰モデルによる予測結果が「偽」と判断されて、ロジスティック回帰モデルによる予測結果は反転される。
最後に、比較部16は、第1処理結果格納部9と第2処理結果格納部15を参照して、ロジスティック回帰モデルによる予測結果と、さらにC5.0による決定木を適用した場合の予測結果とを比較し、比較のためのデータを例えば表示装置などに出力する(ステップS13)。予測結果をまとめる処理を行う場合などに、学習用データ格納部1をも参照する。各レコードの予測対象属性の実際の値を参照しなければ、予測の当たり外れは判断できないためである。
第1処理結果格納部9の予測結果をまとめると図9に示すようなデータを得ることができる。同じように、図10のような決定木を適用することにより、図11のようなデータを得ることができる。すなわち、ロジスティック回帰モデルの予測結果が「真」であると予測され、実際に「真」であるレコード数は819であり、ロジスティック回帰モデルの予測結果が「偽」であると予測されたが、実際には「真」であるレコード数は15であり、ロジスティック回帰モデルの予測結果が「真」であると予測されたが、実際には「偽」であるレコード数は78であり、ロジスティック回帰モデルの予測結果が「偽」である予測され、実際に「偽」であるレコード数は88である。
図9と図11を比較すると、「T」を「T」と予測し「F」を「F」と予測した割合又は「真」を「真」と予測し「偽」を「偽」と予測した割合である精度は83.4%(=(698+136)/1000)から90.7%(=(819+88)/1000)に向上している。例えば図9と図11のようなデータを生成して表示装置などに出力する。
なお、図6に示した単純にC5.0を学習用データに適用した場合の決定木で同様のデータを生成すると図12のようになる。図12では、ステップS1で生成された決定木による予測において「高額オーディオユーザである」(=T)と判定され、実際に「高額オーディオユーザである」(=T)であるユーザが734人であり、ステップS1で生成された決定木による予測において「高額オーディオユーザである」(=T)と判定され、実際には「高額オーディオユーザではない」(=F)ユーザが48人であり、ステップS1で生成された決定木による予測において「高額オーディオユーザではない」(=F)と判定され、実際には「高額オーディオユーザである」(=T)ユーザが62人であり、ステップS1で生成された決定木による予測において「高額オーディオユーザではない」(=F)と判定され、実際に「高額オーディオユーザではない」(=F)ユーザが156人である。この結果によれば、予測が当たったユーザは890人(=734+156)、予測が外れたユーザは110人(=62+48)である。従って、図11に示した本実施の形態による処理結果の方が精度が高くなっている。
以上述べたような処理を実施することにより、予測精度を上げることができる。特に、交互作用項を用いてロジスティック回帰モデルを生成することにより、学習用データの特徴を反映した形でモデルの生成ができ、さらに当該ロジスティック回帰モデルの予測結果の真偽についてC5.0により決定木を生成するため、ロジスティック回帰モデルの予測結果をロジスティック回帰モデルの傾向を踏まえて補正することができ、さらに予測精度が向上する。
次に、予測処理時についての処理フローを図13に従って説明する。ロジスティック回帰モデル適用処理部22は、予測対象データ格納部21に格納された各レコードについて、ロジスティック回帰モデルデータ格納部7に格納されたロジスティック回帰モデルのデータを用いて予測対象属性の値を予測し、第1の予測結果として第1予測結果格納部23に格納する(ステップS21)。
そして、決定木適用処理部24は、第1予測結果格納部23と予測対象データ格納部21と第2決定木データ格納部13とを参照して、予測対象データに対して決定木を適用し、ロジスティック回帰モデルの第1の予測結果の真偽を予測して第2の予測結果として第2予測結果格納部25に格納すると共に、当該第1の予測結果に対する真偽予測に基づき第1の予測結果を訂正し、最終的な予測結果を第2予測結果格納部25に格納する(ステップS23)。
このような処理を実施することにより、未知の予測対象データの予測対象属性についての値を精度よく予測することができる。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、図1及び図2に示した機能ブロックについては一例であって、必ずしも実際のプログラムモジュールに対応するものではない。また、図4のステップS12及びS13は、単に生成したモデルの効果を見るための処理であって必ず実施しなければならないわけではない。また、交互作用項については、必ずしもC5.0による決定木だけではなく他の方法にて交互作用項を抽出するようにしてもよい。さらに、ステップS11においても決定木ではない他のルールを生成する方法を使用しても良い。
また、C5.0も一例であって他の手法を用いてもよい。さらに、ロジスティック回帰モデルについても他の統計モデルであってもよい。
本発明の一実施の形態に係る学習処理部の機能ブロック図である。 本発明の一実施の形態に係る予測処理部の機能ブロック図である。 コンピュータの機能ブロック図である。 学習処理時の処理フローを示す図である。 学習用データ格納部に格納されるデータの第1の状態を示す図である。 交互作用項を抽出するための決定木の一例を示す図である。 学習用データ格納部に格納されるデータの第2の状態を示す図である。 学習用データ格納部に格納されるデータの第3の状態を示す図である。 ロジスティック回帰モデルによる予測結果の効果を示すテーブルである。 ロジスティック回帰モデルによる予測結果の真偽に対するC5.0の予測結果を示す決定木の一例を示す図である。 ロジスティック回帰モデルによる予測結果の真偽に対するC5.0の予測結果の効果を示すテーブルである。 予測対象属性に対するC5.0の予測結果の効果を示すテーブルである。 予測処理時の処理フローを示す図である。
符号の説明
1 学習用データ格納部 2 第1決定木生成部 3 第1決定木データ格納部
4 交互作用項抽出部 5 交互作用項データ格納部
6 ロジスティック回帰モデル生成部
7 ロジスティック回帰モデルデータ格納部
8 ロジスティック回帰モデル適用処理部
9 第1処理結果格納部 11 真偽判定部 12 第2決定木生成部
13 第2決定木データ格納部 14 決定木適用処理部
15 第2処理結果格納部 16 比較部
21 予測対象データ格納部 22 ロジスティック回帰モデル適用処理部
23 第1予測結果格納部 24 決定木適用処理部
25 第2予測結果格納部

Claims (8)

  1. 予測対象属性に対する、学習用データ格納部に格納された学習用データの属性間の交互作用を反映した属性として指定された交互作用項の値を、前記学習用データに含まれるレコード毎に特定し、前記学習用データ格納部に格納するステップと、
    前記学習用データ格納部に格納された学習用データを用いて、前記交互作用項を説明変数として含む統計予測モデルを生成し、当該統計予測モデルのデータを統計予測モデル格納部に格納するステップと、
    前記統計予測モデル格納部に格納されたデータに基づく前記統計予測モデルを前記学習用データ格納部に格納された前記学習用データに適用して前記予測対象属性に対する予測結果を算出し、記憶装置に格納するステップと、
    前記予測対象属性に対する予測結果と前記学習用データ格納部に格納された学習用データに含まれる予測対象属性の値とを比較することにより前記予測結果の真偽を判定し、判定結果を前記学習用データ格納部に格納するステップと、
    前記予測結果の真偽を第2予測対象属性として所定のアルゴリズムに従って前記学習用データ格納部に格納された前記学習用データについてルールを生成し、当該ルールのデータをルール・データ格納部に格納するステップと、
    を含み、コンピュータにより実行される情報処理方法。
  2. 前記統計予測モデル格納部に格納されたデータに基づく前記統計予測モデルを、予測対象データ格納部に格納された予測対象データに対して適用し、前記予測対象属性に対する予測結果を算出し、予測結果データ格納部に格納するステップと、
    前記ルール・データ格納部に格納された前記ルールのデータを用いて、前記予測結果データ格納部に格納された予測結果の真偽を判定し、判定結果を記憶装置に格納するステップと、
    をさらに含む請求項1記載の情報処理方法。
  3. 前記所定のアルゴリズムに従って前記学習用データ格納部に格納された学習用データについて前記予測対象属性に対する第2のルールを生成し、当該第2のルールのデータを記憶装置に格納する第2ルール生成ステップと、
    前記記憶装置に格納された前記第2のルールのデータに含まれる分岐条件に従って、前記交互作用項の候補を特定する交互作用項候補特定ステップと、
    をさらに含む請求項1又は2記載の情報処理方法。
  4. 前記第2ルール生成ステップを前記学習用データ格納部に格納された学習用データの複数のサブセットに対して実行し、
    前記交互作用項候補特定ステップが、
    複数生成された前記第2のルールに含まれる第1の分岐条件と第2の分岐条件の組み合わせの出現頻度の高い順に並べるステップ
    を含む請求項3記載の情報処理方法。
  5. 前記統計予測モデルが、ロジスティック回帰モデルであることを特徴とする請求項1乃至4のいずれか1つ記載の情報処理方法。
  6. 前記所定のアルゴリズムが、前記ルールを決定木として生成するアルゴリズムであることを特徴とする請求項1乃至5のいずれか1つ記載の情報処理方法。
  7. 請求項1乃至6のいずれか1つ記載の情報処理方法をコンピュータに実行させるためのプログラム。
  8. 予測対象属性に対する、学習用データ格納部に格納された学習用データの属性間の交互作用を反映した属性として指定された交互作用項の値を、前記学習用データに含まれるレコード毎に特定し、前記学習用データ格納部に格納する手段と、
    前記学習用データ格納部に格納された学習用データを用いて、前記交互作用項を説明変数として含む統計予測モデルを生成し、当該統計予測モデルのデータを統計予測モデル格納部に格納する手段と、
    前記統計予測モデル格納部に格納されたデータに基づく前記統計予測モデルを前記学習用データ格納部に格納された前記学習用データに適用して前記予測対象属性に対する予測結果を算出し、記憶装置に格納する手段と、
    前記予測対象属性に対する予測結果と前記学習用データ格納部に格納された学習用データに含まれる予測対象属性の値とを比較することにより前記予測結果の真偽を判定し、判定結果を前記学習用データ格納部に格納するステップと、
    前記予測結果の真偽を第2予測対象属性として所定のアルゴリズムに従って前記学習用データ格納部に格納された前記学習用データについてルールを生成し、当該ルールのデータをルール・データ格納部に格納する手段と、
    を有する解析装置。
JP2004031724A 2004-02-09 2004-02-09 データマイニングにおける情報処理方法及び解析装置 Pending JP2005222445A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004031724A JP2005222445A (ja) 2004-02-09 2004-02-09 データマイニングにおける情報処理方法及び解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004031724A JP2005222445A (ja) 2004-02-09 2004-02-09 データマイニングにおける情報処理方法及び解析装置

Publications (1)

Publication Number Publication Date
JP2005222445A true JP2005222445A (ja) 2005-08-18

Family

ID=34998003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004031724A Pending JP2005222445A (ja) 2004-02-09 2004-02-09 データマイニングにおける情報処理方法及び解析装置

Country Status (1)

Country Link
JP (1) JP2005222445A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011064876A1 (ja) * 2009-11-27 2011-06-03 株式会社東芝 予測モデル生成装置
CN102436764A (zh) * 2011-11-21 2012-05-02 南京莱斯信息技术股份有限公司 通过历史数据挖掘航班管制因素的方法
CN105095652A (zh) * 2015-07-10 2015-11-25 东北大学 基于堆叠极限学习机的样品成份测定方法
JP2015215906A (ja) * 2009-08-31 2015-12-03 シマンテック コーポレーションSymantec Corporation 偽陽性を減少させるために複数のインラインヒューリスティックを使用するためのシステムおよび方法
JPWO2016002133A1 (ja) * 2014-06-30 2017-05-25 日本電気株式会社 予測システムおよび予測方法
JP2017138643A (ja) * 2016-02-01 2017-08-10 株式会社神戸製鋼所 解析対象決定装置及び解析対象決定方法
JP2018120487A (ja) * 2017-01-26 2018-08-02 東芝情報システム株式会社 事象分類装置、事象分類プログラム、故障・不良判定装置
US20190392295A1 (en) * 2017-02-02 2019-12-26 Nec Corporation Information processing device, method, and program that use deep learning
CN111476274A (zh) * 2020-03-16 2020-07-31 宜通世纪科技股份有限公司 一种大数据预测分析的方法、系统、装置及存储介质
JP2021009572A (ja) * 2019-07-01 2021-01-28 富士通株式会社 予測プログラム、予測方法および予測装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015215906A (ja) * 2009-08-31 2015-12-03 シマンテック コーポレーションSymantec Corporation 偽陽性を減少させるために複数のインラインヒューリスティックを使用するためのシステムおよび方法
WO2011064876A1 (ja) * 2009-11-27 2011-06-03 株式会社東芝 予測モデル生成装置
CN102436764A (zh) * 2011-11-21 2012-05-02 南京莱斯信息技术股份有限公司 通过历史数据挖掘航班管制因素的方法
JPWO2016002133A1 (ja) * 2014-06-30 2017-05-25 日本電気株式会社 予測システムおよび予測方法
CN105095652B (zh) * 2015-07-10 2017-10-03 东北大学 基于堆叠极限学习机的样品成份测定方法
CN105095652A (zh) * 2015-07-10 2015-11-25 东北大学 基于堆叠极限学习机的样品成份测定方法
JP2017138643A (ja) * 2016-02-01 2017-08-10 株式会社神戸製鋼所 解析対象決定装置及び解析対象決定方法
JP2018120487A (ja) * 2017-01-26 2018-08-02 東芝情報システム株式会社 事象分類装置、事象分類プログラム、故障・不良判定装置
US20190392295A1 (en) * 2017-02-02 2019-12-26 Nec Corporation Information processing device, method, and program that use deep learning
JP2021009572A (ja) * 2019-07-01 2021-01-28 富士通株式会社 予測プログラム、予測方法および予測装置
JP7259596B2 (ja) 2019-07-01 2023-04-18 富士通株式会社 予測プログラム、予測方法および予測装置
CN111476274A (zh) * 2020-03-16 2020-07-31 宜通世纪科技股份有限公司 一种大数据预测分析的方法、系统、装置及存储介质
CN111476274B (zh) * 2020-03-16 2024-03-08 宜通世纪科技股份有限公司 一种大数据预测分析的方法、系统、装置及存储介质

Similar Documents

Publication Publication Date Title
US10380236B1 (en) Machine learning system for annotating unstructured text
CN102903008B (zh) 用于计算机问答的方法及系统
JP6414363B2 (ja) 予測システム、方法およびプログラム
Lin et al. Multiobjective personalized recommendation algorithm using extreme point guided evolutionary computation
CN106484777A (zh) 一种多媒体数据处理方法以及装置
US20180285969A1 (en) Predictive model training and selection for consumer evaluation
CN107507028A (zh) 用户偏好确定方法、装置、设备及存储介质
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN112686301A (zh) 基于交叉验证的数据标注方法及相关设备
JP2005222445A (ja) データマイニングにおける情報処理方法及び解析装置
CN111582912A (zh) 一种基于深度嵌入聚类算法的画像建模方法
CN114255050A (zh) 一种识别业务异常用户的方法、装置和电子设备
CN113570437A (zh) 一种产品推荐方法和装置
CN116402625B (zh) 客户评估方法、装置、计算机设备及存储介质
KR20190075631A (ko) 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템
US20170330055A1 (en) Sequential data analysis apparatus and program
CN113886697A (zh) 基于聚类算法的活动推荐方法、装置、设备及存储介质
CN111108516B (zh) 使用深度学习算法来评价输入数据
US7933853B2 (en) Computer-readable recording medium, apparatus and method for calculating scale-parameter
CN113627513A (zh) 一种训练数据生成方法、系统、电子设备及存储介质
CN112732891A (zh) 办公课程推荐方法、装置、电子设备及介质
CN112328899A (zh) 信息处理方法、信息处理装置、存储介质与电子设备
CN112132367A (zh) 一种用于企业经营管理风险识别的建模方法及装置
CN115660722B (zh) 银寿客户转化的预测方法、装置和电子设备
CN116228484B (zh) 基于量子聚类算法的课程组合方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091013

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100302