JP2005222445A

JP2005222445A - データマイニングにおける情報処理方法及び解析装置

Info

Publication number: JP2005222445A
Application number: JP2004031724A
Authority: JP
Inventors: Tetsuhiro Inoue; 哲浩井上; Daisuke Kogure; 大輔木暮; Takashi Nakamura; 崇中村; Yoichiro Nishimaki; 洋一郎西牧; Etsuko Murata; 悦子村田; Daisuke Tomosawa; 大輔友澤
Original assignee: Nifty Corp; SPSS Japan Inc
Current assignee: Nifty Corp; SPSS Japan Inc
Priority date: 2004-02-09
Filing date: 2004-02-09
Publication date: 2005-08-18

Abstract

【課題】
データマイニングにおける予測精度を向上させる。
【解決手段】
予測対象属性に対する、学習用データの属性間の交互作用を反映した属性として指定された交互作用項の値を、学習用データに含まれるレコード毎に特定し、学習用データを用いて交互作用項を説明変数として含む統計予測モデルを生成し、統計予測モデルを学習用データに適用して予測対象属性に対する予測結果を算出し、予測対象属性に対する予測結果と学習用データに含まれる予測対象属性の値とを比較することにより予測結果の真偽を判定し、予測結果の真偽を第２予測対象属性として所定のアルゴリズムに従って学習用データについて決定木を生成する。交互作用項を導入し当該交互作用項を説明変数として含む統計予測モデルを生成するようにすれば、学習用データの大まかな特徴を反映しつつ統計予測モデルを構築することができ予測精度が上がる。決定木も精度向上に有効である。
【選択図】図４

Description

本発明は、データマイニング技術に関する。

データマイニングは、膨大な量の生データを解析し、経営やマーケティングにとって必要な傾向動向、相関関係、パターンなどを導き出すため技術であり、現在様々な分野で用いられている。

このデータマイニングの手法の一つにロジスティック回帰法がある。このロジスティック回帰法は、入力値（入力フィールド値）に基づいてレコードを分類する統計手法である。線形回帰と似ているが、数値ではなくシンボル値（文字列などを含むシンボル値フィールド）を分析対象とする。このロジスティック回帰法では、学習用データの入力フィールド値を出力フィールドの各カテゴリに対応する確率に関連付ける一連の方程式（すなわちモデル）が生成される。モデルを生成した後は、そのモデルを使用して予測対象データの確率を推定することができる。レコード毎に、各出力カテゴリ候補に対する所属確率が算出され、最も確率の高い対象カテゴリが、そのレコードの予測出力値として割り当てられる。ロジスティック回帰法の詳細については「個客行動を予測するデータマイニング」佐藤雅春著，日刊工業新聞社発行，ＩＳＢＮ４−５２６−０４７３６−８における第４章を参照のこと。

また、Ｃ５．０という手法も存在している。この手法は、データを繰り返しサブセットに分割することによってデシジョンツリー（決定木）を作成する手法の一つである。はじめは１つのグループから開始し、目標変数の情報尺度を計算する（ｐ_iを目標カテゴリｉのケース比率として、情報尺度（エントロピー）は−Σｐ_iln(p_ii)で表される。但しlnは自然対数）。併せて各予測変数を調べ、分割においてエントロピー増大率が最大となるような予測変数を見つける。これは数学的な尺度だが、もし同類のケースに対する目標カテゴリが分割先の子カテゴリ（ノード）によって異なる傾向にあれば、エントロピー増大率は高くなる。例えば、３つの目標カテゴリがあってその分布が（１／３，１／３，１／３）であるとする。このとき、分割によって（１，０，０）及び（０，１／２，１／２）の分布を有する２つのサブグループができれば、エントロピーは増大する。このように、Ｃ５．０では、ケースが１つの目標カテゴリに集中するように分割が実施される。Ｃ５．０の詳細については、例えばhttp://www.rulequest.com/see5-info.htmlを参照のこと。また、Ｃ５．０より前のバージョンであるＣ４．５の詳細については、J.R.Quinlan. (1993). C4.5:Programs for Machine Learning. Morgan Kaufmanを参照のこと。

また、ＳＰＳＳＩｎｃ．が２００３年に発行した"Advanced Modeling with Clementine"の第１０章には、複数の手法の組み合わせについて述べられており、特に１０−８頁乃至１０−１４頁には「Error Modeling」という項があり、ニューラルネットワークの解析結果の正誤をＣ５．０モデルにより訂正する手法が開示されている。しかし、ニューラルネットワーク（Neural Network）におけるモデルには特別な工夫はなされておらず、またニューラルネットワークでは、明確な要因間の構造が明示的に識別されないため、この解析結果に基づく施策の構築が不可能である。データマイニングの目的はデータ解析ではなく、解析結果に基づく施策の構築にあるため、ニューラルネットワークを用いることはあまり好ましくない。
「個客行動を予測するデータマイニング」佐藤雅春著，日刊工業新聞社発行，ＩＳＢＮ４−５２６−０４７３６−８ J.R.Quinlan. (1993). C4.5:Programs for Machine Learning. Morgan Kaufman ＳＰＳＳＩｎｃ．"Advanced Modeling with Clementine"，２００３

上で述べた従来技術の問題としては個々のモデルによる精度があまり高くないという点が大きい。精度が高くなければ、予測結果を用いても効率的な施策を実施できないことになる。また、上で述べたように組み合わせについても議論されているが、各手法の性質を考慮した上で最良な組み合わせの仕方及びそのための工夫については議論されていない。

よって本発明の目的は、予測精度を向上させることができる新規なデータマイニング手法を提供することである。

本発明に係るデータマイニングにおける情報処理方法は、予測対象属性に対する、学習用データ格納部に格納された学習用データの属性間の交互作用を反映した属性として指定された交互作用項の値を、学習用データに含まれるレコード毎に特定し、学習用データ格納部に格納するステップと、学習用データ格納部に格納された学習用データを用いて、交互作用項を説明変数として含む統計予測モデルを生成し、当該統計予測モデルのデータを統計予測モデル格納部に格納するステップと、統計予測モデル格納部に格納されたデータに基づく統計予測モデルを学習用データ格納部に格納された学習用データに適用して予測対象属性に対する予測結果を算出し、記憶装置に格納するステップと、予測対象属性に対する予測結果と学習用データ格納部に格納された学習用データに含まれる予測対象属性の値とを比較することにより予測結果の真偽を判定し、判定結果を学習用データ格納部に格納するステップと、予測結果の真偽を第２予測対象属性として所定のアルゴリズムに従って学習用データ格納部に格納された学習用データについてルール（例えば決定木で表されるルールを含む）を生成し、当該ルールのデータをルール・データ格納部に格納するステップとを含む。

統計予測モデルはその性質から学習用データの大まかな特徴を抽出することは得意ではない。上で述べたように交互作用項を導入し、当該交互作用項を説明変数として含む統計予測モデルを生成するようにすれば、学習用データの大まかな特徴を反映しつつ統計予測モデルを構築することができ、より予測精度が上がる。本発明ではさらに統計予測モデルの真偽を判定するためのルールも生成されるため、さらに予測精度が向上する。

すなわち、未知の予測対象データに対して予測を行う場合には、統計予測モデル格納部に格納されたデータに基づく統計予測モデルを、予測対象データ格納部に格納された予測対象データに対して適用し、予測対象属性に対する予測結果を算出し、予測結果データ格納部に格納するステップと、ルール・データ格納部に格納されたルールのデータを用いて、予測結果データ格納部に格納された予測結果の真偽を判定し、判定結果を記憶装置に格納するステップとをさらに含む。真偽の判定結果を用いて、統計予測モデルの予測結果を修正すれば、精度が向上する。

また、上記所定のアルゴリズムに従って学習用データ格納部に格納された学習用データについて予測対象属性に対する第２のルール（例えば決定木で表されるルールを含む）を生成し、当該第２のルールのデータを記憶装置に格納する第２ルール生成ステップと、記憶装置に格納された第２のルールのデータに含まれる分岐条件に従って、交互作用項の候補を特定する交互作用項候補特定ステップとをさらに含むようにしてもよい。交互作用項については、このようにルールにおける分岐条件に従ってその候補を特定するようにしてもよいが、別の方法にて特定するようにしてもよい。但し、ルールにおける分岐条件は、学習用データの大まかな特徴を表しており、交互作用項の候補として好ましい。なお、上記所定のアルゴリズムは、例えば上で述べたＣ５．０などである。

さらに、上で述べた第２ルール生成ステップを学習用データ格納部に格納された学習用データの複数のサブセットに対して実行し、上で述べた交互作用項候補特定ステップが、複数生成された第２のルールに含まれる第１の分岐条件と第２の分岐条件の組み合わせの出現頻度の高い順に並べるステップを含むようにしてもよい。第２のルールの分岐条件は特定の学習用データに応じて偏向する場合があるので、学習用データの複数のサブセットに対してルールを生成し、出現頻度が高いものを交互作用項の候補として特定すると、より好ましい交互作用項を抽出することができる。

また、上で述べた統計予測モデルは、ロジスティック回帰モデルとすることも可能である。同様の性質を有する他の手法であってもよい。また、所定のアルゴリズムは、ルールを決定木として生成するアルゴリズムであってもよい。

なお、本発明に係る方法をコンピュータに実行させるためのプログラムを作成することができ、このプログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメモリ等の記憶装置に一時保管される。

本発明によれば、データマイニングにおいて予測精度を向上させることができるようになる。

本発明の一実施の形態に係る機能ブロック図を図１及び図２に示す。本実施の形態に係るコンピュータ・システムは、図示しないキーボードやマウス等の入力部及び表示装置やプリンタなどの出力部と、学習処理部１００と予測処理部２００とを有する。学習処理部１００は、予測対象属性を含む各種属性の値が各レコードについて登録されている学習用データを格納する学習用データ格納部１と、学習用データ格納部１に格納されている学習用データを例えばＣ５．０のアルゴリズムに従って処理し上記予測対象属性に対する第１の決定木のデータを生成する第１決定木生成部２と、第１決定木生成部２により生成された第１の決定木についてのデータを格納する第１決定木データ格納部３と、第１決定木データ格納部３に格納されているデータを参照して交互作用項の候補を抽出し例えばユーザに対して提示する交互作用項抽出部４と、交互作用項抽出部４により抽出され且つ例えばユーザにより決定された交互作用項に関するデータを格納する交互作用項データ格納部５と、交互作用項データ格納部５と学習用データ格納部１とを参照して学習用データの各レコードについて交互作用項の属性値を決定し学習用データ格納部１に格納すると共に当該交互作用項の属性値を含む学習用データについて所定の統計処理を実施してロジスティック回帰モデルを生成するロジスティック回帰モデル生成部６と、ロジスティック回帰モデル生成部６により生成されたロジスティック回帰モデルのデータを格納するロジスティック回帰モデルデータ格納部７と、ロジスティック回帰モデルデータ格納部７と学習用データ格納部１を参照してロジスティック回帰モデルを学習用データに適用して予測対象属性の値を予測するロジスティック回帰モデル適用処理部８と、ロジスティック回帰モデル適用処理部８による予測結果を格納する第１処理結果格納部９と、第１処理結果格納部９と学習用データ格納部１を参照してロジスティック回帰モデル適用処理部８による予測結果の真偽を判定し、各レコードについての真偽判定結果を学習用データ格納部１に格納する真偽判定部１１と、学習用データ格納部１を参照し真偽判定部１１による真偽判定結果を予測対象属性として学習用データを例えばＣ５．０のアルゴリズムに従って処理し上記真偽判定結果に対する第２の決定木を生成する第２決定木生成部１２と、第２決定木生成部１２により生成された第２の決定木についてのデータを格納する第２決定木データ格納部１３と、第１処理結果格納部９と第２決定木データ格納部１３と学習用データ格納部１とを参照してロジスティック回帰モデルによる予測結果の真偽を第２の決定木に基づき予測する決定木適用処理部１４と、決定木適用処理部１４による予測結果を格納する第２処理結果格納部１５と、第１処理結果格納部９と学習用データ格納部１と第２処理結果格納部１５とを参照して処理結果について比較を行う比較部１６とを含む。

また、予測処理部２００は、図２に示すように、各種属性値が各レコードについて登録された予測対象データを格納する予測対象データ格納部２１と、予測対象データ格納部２１とロジスティック回帰モデルデータ格納部７を参照しロジスティック回帰モデルを予測対象データに適用して予測対象属性の値を予測するロジスティック回帰モデル適用処理部２２と、ロジスティック回帰モデル適用処理部２２の予測結果を格納する第１予測結果格納部２３と、予測対象データ格納部２１と第１予測結果格納部２３と第２決定木データ格納部１３を参照して第２の決定木に基づき予測対象データ格納部２１の各レコードについて第１予測結果格納部２３に格納されている予測結果の真偽を予測し、各レコードの最終的な予測結果を特定する決定木適用処理部２４と、決定木適用処理部２４の真偽の予測結果及び最終的な予測結果を各レコードについて格納する第２予測結果格納部２５とを有する。

なお、図１及び図２に示したコンピュータ・システムにおいては、図３に示すように、メモリ２５０１とＣＰＵ２５０３とハードディスク・ドライブ（ＨＤＤ）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施の形態における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。必要に応じてＣＰＵ２５０３は、表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ２５０１に格納され、必要があればＨＤＤ２５０５に格納される。本発明の実施例では、以下の処理を実施するためのアプリケーション・プログラムはリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及び必要なアプリケーション・プログラムとが有機的に協働することにより、以下で述べるような各種機能を実現する。

以下、図１及び図２に示したコンピュータ・システムの処理フローを図４乃至図１３を用いて説明する。まず、第１決定木生成部２は、学習用データ格納部１に格納されている学習用データの各サブセットに対してコンピュータサイエンス予測モデル（例えばＣ５．０）のアルゴリズムに従って予測対象属性についての決定木を生成し、当該決定木のデータを第１決定木生成部２に格納する（図４：ステップＳ１）。なお、Ｃ５．０は、学習用データの大まかな特徴を抽出するのには非常に有効であるが、データに対する感度が高いため特定の学習用データに応じて偏向した結果を出す場合がある。従って、学習用データの複数のサブセットの各々につき決定木を生成しておく。

なお、図５に学習用データの一例を示しておく。本実施の形態において学習用データは、ある企業の顧客データであり、各ユーザにつき、ユーザＩＤ、購入累計価格、主な支払方法、性別、家の所有の有無、年収、年齢といった各種属性の値が登録されている。また、予測対象属性は「高額オーディオユーザであるか否か」という属性であって、学習用データなので「高額オーディオユーザであるか否か」という属性の値についても「はい」「いいえ」で登録されている。

また、例えば、このような学習用データのあるサブセットについてＣ５．０のアルゴリズムに従って決定木を生成すると図６のようなデータを得ることができる。ノード０は、学習用データの１つのサブセット全体を表し、予測対象属性である「高額オーディオユーザであるか否か」について「はい（Ｙ）」という属性値である人（レコード）が８５４人（レコード）で、「いいえ（Ｎ）」という属性値である人（レコード）が１４６人（レコード）であることを示している。そして第１の分岐６０２における条件は、属性「年収」であって、「１６０００」を基準として「１６０００」より大きいという第１の条件６０３と「１６０００」以下という第２の条件６０４とで構成される。この第１の分岐６０２の第１の条件６０３を満たしている場合にはノード１が構成されて、分岐が終了している。ノード１は、予測対象属性が「Ｙ」という属性値である人が６１４人で、「Ｎ」という属性値である人が２４人であることを示している。このように十分に偏りが生じた場合には分岐は終了される。第１の分岐６０２の第２の条件６０４を満たしている場合にはノード２が構成されている。ノード２は、予測対象属性が「Ｙ」という属性値である人が１８２人で、「Ｎ」という属性値である人が１８０人であることを示している。「Ｙ」と「Ｎ」の人数は均衡しているので、第２の分岐６０７が生成されている。第２の分岐６０７における条件は、属性「性別」であって、「男性（Ｍ）」という第１の条件６０８と「女性（Ｆ）」という第２の条件６０９とで構成される。この第２の分岐６０７の第１の条件６０８を満たしている場合にはノード３が構成され、分岐が終了している。ノード３は、予測対象属性が「Ｙ」という属性値である人が１２０人で、「Ｎ」という属性値である人が２４人であることを示している。一方、第２の分岐６０７の第２の条件６０９を満たしている場合にはノード４が構成され、分岐が終了している。ノード４は、予測対象属性が「Ｙ」という属性値である人が６２人で、「Ｎ」という属性値である人が１５６人であることを示している。なお、決定木のデータは、図６のようなツリーのデータではなく、図６に示したようなツリーを構成できる、いかなる形式のデータであってもよい。

図４の説明に戻って、交互作用項抽出部４は、第１決定木データ格納部３に格納されたデータを参照して、ステップＳ１で生成された決定木における分岐条件から交互作用項となり得る条件を交互作用項の候補として抽出する。交互作用については、２以上の因子が互いに影響を及ぼし合っているとき、それらの因子の間に交互作用があるという定義となっている。決定木では、予測対象属性に対して、２つの分岐条件が含まれていれば、第１の分岐条件という因子と第２の分岐条件という因子とが互いに影響を及ぼしあっているということが表されている。すなわち、第１の分岐条件と第２の分岐条件とは予測対象属性に対して交互作用があり、当該交互作用を反映した交互作用項として、第１の分岐条件と第２の分岐条件との組み合わせが採用される。このように例えばＣ５．０により生成される決定木は、統計処理では発見しにくい、予測対象属性に対する学習用データのアドホックな特徴を表しており、決定木の分岐条件による交互作用項は、学習用データの特徴を反映したものとなる。

本実施の形態ではまず交互作用項の候補を抽出する。抽出する際には、ステップＳ１において複数の決定木が生成されているので、各決定木の第１の分岐条件及び第２の分岐条件の組み合わせについて出現頻度を計数し、最も出現頻度の高い順番に並べる。この出現頻度順に並べられた交互作用項の候補のうち所定の個数を自動的に交互作用項として特定しても良い。また、出現頻度順に並べられた交互作用項の候補を例えば表示装置に表示してユーザに対して所定個数選択するように促してもよい。さらに、ユーザに別途追加又は指定させるようにしてもよい。交互作用項抽出部４により抽出された交互作用項をそのまま、又は抽出された交互作用項の候補のうち選択されたもの、若しくはユーザにより別途追加又は指定された交互作用項を特定し、当該交互作用項のデータを交互作用項データ格納部５に格納する（ステップＳ３）。なお、交互作用項データ格納部５に格納されるデータは、図６の例では「年収１６０００未満」且つ「性別男」、「年収１６０００未満」且つ「性別女」、「年収１６０００以上」且つ「性別男」、「年収１６０００以上」且つ「性別女」といった第１の分岐条件及び第２の分岐条件の組み合わせにて構成される。

次に、ロジスティック回帰モデル生成部６は、学習用データ格納部１及び交互作用項データ格納部５を参照して、交互作用項であると特定された属性の値を学習用データ格納部１に格納された各レコードについて決定し、学習用データ格納部１に格納する（ステップＳ５）。例えば「年収」「年齢」「性別」という属性の他に交互作用項として特定された新たな属性に対する値「はい」又は「いいえ」を登録する。図５の例では図７に示すような学習用データが学習用データ格納部１に格納されることになる。図７の例では、図５に示したデータの他、交互作用項１（「年収１６０００以上」且つ「性別男性」）についての列が追加されており、交互作用項１についての値が登録されている。その他の交互作用項の値についても登録されるが、ここでは説明を省略する。

そして、ロジスティック回帰モデル生成部６は、学習用データ格納部１に格納された各レコードの属性値を解析し、交互作用項を説明変数として含む統計予測モデル、すなわちロジスティック回帰モデルを生成し、当該ロジスティック回帰モデルのデータをロジスティック回帰モデルデータ格納部７に格納する（ステップＳ７）。ロジスティック回帰モデルは、上でも述べたように説明変数の値から予測対象属性の各値についての確率を算出するための方程式からなるモデルである。すなわち、方程式のデータを生成して、ロジスティック回帰モデルデータ格納部７に格納する。本実施の形態では、ロジスティック回帰法においては、モデルのデータに対する当てはまりを高めるために有効な変数を、統計量を基準として取捨選択しながらモデルを作成する方法であるステップワイズ法を採用する。

ここまで実施されると、ロジスティック回帰モデル適用処理部８は、ロジスティック回帰モデルデータ格納部７に格納されたモデルのデータを、学習用データ格納部１に格納された各レコードについて適用することにより、各レコードの予測対象属性の値を予測し、第１処理結果格納部９に格納する。最も確率の高い値を各レコードの予測対象属性の値として特定する。図５の例では、「高額オーディオユーザであるか否か」について予測結果が第１処理結果格納部９に格納される。そして、真偽判定部１１は、第１処理結果格納部９に格納された各レコードについての予測結果と、学習用データ格納部１に格納された実際の結果とを比較し、予測結果の真偽についてのデータを学習用データ格納部１に格納する（ステップＳ９）。

ステップＳ９終了後における学習用データ格納部１の一例を図８に示す。図７のデータに加えて、予測結果の真偽として「Ｔ（真）」「Ｆ（偽）」のいずれかのデータが各レコードについて登録されている。

なお、図８に示した各レコードの真偽の結果をまとめると、例えば図９に示すようになる。すなわち、ロジスティック回帰モデルでの予測において「高額オーディオユーザである」（＝Ｔ）と判定され、実際に「高額オーディオユーザである」（＝Ｔ）であるユーザが６９８人であり、ロジスティック回帰モデルでの予測において「高額オーディオユーザである」（＝Ｔ）と判定され、実際には「高額オーディオユーザではない」（＝Ｆ）ユーザが６４人であり、ロジスティック回帰モデルでの予測において「高額オーディオユーザではない」（＝Ｆ）と判定され、実際には「高額オーディオユーザである」（＝Ｔ）ユーザが１０２人であり、ロジスティック回帰モデルでの予測において「高額オーディオユーザではない」（＝Ｆ）と判定され、実際に「高額オーディオユーザではない」（＝Ｆ）ユーザが１３６人である。この結果によれば、予測が当たったユーザは８３４人（＝６９８＋１３６）、予測が外れたユーザは１６６人（＝１０２＋６４）である。

図８のようなデータは、全体構造を識別することを長所とするロジスティック回帰モデルでは説明できないものであり、特異な構造を有するものである。

そして第２決定木生成部１２は、図８に示したような学習用データ格納部１を参照して、例えばＣ５．０のアルゴリズムに従ってステップＳ９で生成した予測結果の真偽を予測対象属性とする決定木を生成し、第２決定木データ格納部１３に格納する（ステップＳ１１）。ロジスティック回帰モデルによる予測があたったものとはずれたものがステップＳ９で判別される。本実施の形態では、予測が外れたものを正しく訂正するために、ステップＳ９で生成した予測結果の真偽を予測対象属性として決定木を生成する。ステップＳ９で生成されたデータの特異性を識別するため、対象データの特徴を捉えることを長所とするＣ５．０を用い、なぜ予測の当たり外れが生じたのかを表す構造を明らかにする。これにより２つのモデルが有効にハイブリッド化される。

ステップＳ１１で生成される決定木の一例を図１０に示す。ノード０は、学習用データの全体を表し、予測対象属性である「予測結果の真偽」について「真」という属性値であるレコードが８３４レコードで、「偽」という属性値であるレコードが１６６レコードであることを示している。そして第１の分岐１００１における条件は、属性「年齢」であって、「３３」を基準として「３３」未満という第１の条件１００２と「３３」以上という第２の条件１００３とで構成される。この第１の分岐１００１の第１の条件１００２を満たしている場合にはノード１が構成されて、分岐が終了している。ノード１は、予測結果が「真」という属性値であるレコードが１５レコードで、「偽」という属性値であるレコードが４８レコードであることを示している。第１の分岐１００１の第２の条件１００３を満たしている場合にはノード２が構成されている。ノード２は、予測結果が「真」という属性値であるレコードが８１９レコードで、「偽」という属性値であるレコードが１１８レコードであることを示している。第２の分岐１００４における条件は、属性「主な支払方法」であって、「チェック」という第１の条件１００５と「現金」という第２の条件１００６と「カード」という第３の条件１００７とで構成される。この第２の分岐１００４の第１の条件１００５を満たしている場合にはノード３が構成される。ノード３は、予測結果が「真」という属性値であるレコードが３０レコードで、「偽」という属性値であるレコードが４２レコードであることを示している。また、第２の分岐１００４の第２の条件１００６を満たしている場合にはノード４が構成され、分岐が終了している。ノード４は、予測結果が「真」という属性値であるレコードが７４９レコードで、「偽」という属性値であるレコードが６１レコードであることを示している。さらに、第２の分岐１００４の第３の条件１００７を満たしている場合にはノード５が構成され、分岐が終了している。ノード５は、予測結果が「真」という属性値であるレコードが４０レコードで、「偽」という属性値であるレコードが１５レコードであることを示している。

また第３の分岐１００８における条件は、属性「家の所有」であって、「はい（Ｙ）」という第１の条件１００９と、「いいえ（Ｎ）」という第２の条件１０１０とで構成される。この第３の分岐１００８の第１の条件１００９を満たしている場合にはノード６が構成されて、分岐が終了している。ノード６は、予測結果が「真」という属性値であるレコードが３０レコードで、「偽」という属性値であるレコードが２レコードであることを示している。第３の分岐１００８の第２の条件１０１０を満たしている場合にはノード７が構成されている。ノード７は、予測結果が「真」という属性値であるレコードが０レコードで、「偽」という属性値であるレコードが４０レコードであることを示している。なお、決定木のデータは、図１０のようなツリーのデータではなく、図１０に示したようなツリーを構成できる、いかなる形式のデータであってもよい。

決定木適用処理部１４は、第２決定木データ格納部１３と学習用データ格納部１を参照して、ステップＳ１１で生成された決定木を学習用データの各レコードに適用し、ロジスティック回帰モデルによる予測結果の真偽を予測すると共に、第１処理結果格納部９を参照して当該真偽予測を基に学習用データの各レコードに対する最終予測結果を決定し、第２処理結果格納部１５に格納する（ステップＳ１２）。例えば図１０のような決定木により各レコードにつきロジスティック回帰モデルによる予測結果の真偽が予測される。単に予測することが目的ではなく、「偽」と予測されたレコードについては、ロジスティック回帰モデルによる予測結果を反転することにより、より正しい予測となるようにする。なお、「真」と予測されたレコードについては、ロジスティック回帰モデルによる予測結果を維持する。

例えば図１０のような決定木では、ノード１に属するレコードについては、ロジスティック回帰モデルによる予測結果が「偽」と判断されて、ロジスティック回帰モデルによる予測結果が反転される。ノード４に属するレコードについては、ロジスティック回帰モデルによる予測結果が「真」と判断されて、ロジスティック回帰モデルによる予測結果は維持される。ノード５に属するレコードについては、ロジスティック回帰モデルによる予測結果が「真」と判断されて、ロジスティック回帰モデルによる予測結果は維持される。ノード６に属するレコードについては、ロジスティック回帰モデルによる予測結果が「真」と判断されて、ロジスティック回帰モデルによる予測結果は維持される。ノード７に属するレコードについては、ロジスティック回帰モデルによる予測結果が「偽」と判断されて、ロジスティック回帰モデルによる予測結果は反転される。

最後に、比較部１６は、第１処理結果格納部９と第２処理結果格納部１５を参照して、ロジスティック回帰モデルによる予測結果と、さらにＣ５．０による決定木を適用した場合の予測結果とを比較し、比較のためのデータを例えば表示装置などに出力する（ステップＳ１３）。予測結果をまとめる処理を行う場合などに、学習用データ格納部１をも参照する。各レコードの予測対象属性の実際の値を参照しなければ、予測の当たり外れは判断できないためである。

第１処理結果格納部９の予測結果をまとめると図９に示すようなデータを得ることができる。同じように、図１０のような決定木を適用することにより、図１１のようなデータを得ることができる。すなわち、ロジスティック回帰モデルの予測結果が「真」であると予測され、実際に「真」であるレコード数は８１９であり、ロジスティック回帰モデルの予測結果が「偽」であると予測されたが、実際には「真」であるレコード数は１５であり、ロジスティック回帰モデルの予測結果が「真」であると予測されたが、実際には「偽」であるレコード数は７８であり、ロジスティック回帰モデルの予測結果が「偽」である予測され、実際に「偽」であるレコード数は８８である。

図９と図１１を比較すると、「Ｔ」を「Ｔ」と予測し「Ｆ」を「Ｆ」と予測した割合又は「真」を「真」と予測し「偽」を「偽」と予測した割合である精度は８３．４％（＝（６９８＋１３６）／１０００）から９０．７％（＝（８１９＋８８）／１０００）に向上している。例えば図９と図１１のようなデータを生成して表示装置などに出力する。

なお、図６に示した単純にＣ５．０を学習用データに適用した場合の決定木で同様のデータを生成すると図１２のようになる。図１２では、ステップＳ１で生成された決定木による予測において「高額オーディオユーザである」（＝Ｔ）と判定され、実際に「高額オーディオユーザである」（＝Ｔ）であるユーザが７３４人であり、ステップＳ１で生成された決定木による予測において「高額オーディオユーザである」（＝Ｔ）と判定され、実際には「高額オーディオユーザではない」（＝Ｆ）ユーザが４８人であり、ステップＳ１で生成された決定木による予測において「高額オーディオユーザではない」（＝Ｆ）と判定され、実際には「高額オーディオユーザである」（＝Ｔ）ユーザが６２人であり、ステップＳ１で生成された決定木による予測において「高額オーディオユーザではない」（＝Ｆ）と判定され、実際に「高額オーディオユーザではない」（＝Ｆ）ユーザが１５６人である。この結果によれば、予測が当たったユーザは８９０人（＝７３４＋１５６）、予測が外れたユーザは１１０人（＝６２＋４８）である。従って、図１１に示した本実施の形態による処理結果の方が精度が高くなっている。

以上述べたような処理を実施することにより、予測精度を上げることができる。特に、交互作用項を用いてロジスティック回帰モデルを生成することにより、学習用データの特徴を反映した形でモデルの生成ができ、さらに当該ロジスティック回帰モデルの予測結果の真偽についてＣ５．０により決定木を生成するため、ロジスティック回帰モデルの予測結果をロジスティック回帰モデルの傾向を踏まえて補正することができ、さらに予測精度が向上する。

次に、予測処理時についての処理フローを図１３に従って説明する。ロジスティック回帰モデル適用処理部２２は、予測対象データ格納部２１に格納された各レコードについて、ロジスティック回帰モデルデータ格納部７に格納されたロジスティック回帰モデルのデータを用いて予測対象属性の値を予測し、第１の予測結果として第１予測結果格納部２３に格納する（ステップＳ２１）。

そして、決定木適用処理部２４は、第１予測結果格納部２３と予測対象データ格納部２１と第２決定木データ格納部１３とを参照して、予測対象データに対して決定木を適用し、ロジスティック回帰モデルの第１の予測結果の真偽を予測して第２の予測結果として第２予測結果格納部２５に格納すると共に、当該第１の予測結果に対する真偽予測に基づき第１の予測結果を訂正し、最終的な予測結果を第２予測結果格納部２５に格納する（ステップＳ２３）。

このような処理を実施することにより、未知の予測対象データの予測対象属性についての値を精度よく予測することができる。

以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、図１及び図２に示した機能ブロックについては一例であって、必ずしも実際のプログラムモジュールに対応するものではない。また、図４のステップＳ１２及びＳ１３は、単に生成したモデルの効果を見るための処理であって必ず実施しなければならないわけではない。また、交互作用項については、必ずしもＣ５．０による決定木だけではなく他の方法にて交互作用項を抽出するようにしてもよい。さらに、ステップＳ１１においても決定木ではない他のルールを生成する方法を使用しても良い。

また、Ｃ５．０も一例であって他の手法を用いてもよい。さらに、ロジスティック回帰モデルについても他の統計モデルであってもよい。

本発明の一実施の形態に係る学習処理部の機能ブロック図である。本発明の一実施の形態に係る予測処理部の機能ブロック図である。コンピュータの機能ブロック図である。学習処理時の処理フローを示す図である。学習用データ格納部に格納されるデータの第１の状態を示す図である。交互作用項を抽出するための決定木の一例を示す図である。学習用データ格納部に格納されるデータの第２の状態を示す図である。学習用データ格納部に格納されるデータの第３の状態を示す図である。ロジスティック回帰モデルによる予測結果の効果を示すテーブルである。ロジスティック回帰モデルによる予測結果の真偽に対するＣ５．０の予測結果を示す決定木の一例を示す図である。ロジスティック回帰モデルによる予測結果の真偽に対するＣ５．０の予測結果の効果を示すテーブルである。予測対象属性に対するＣ５．０の予測結果の効果を示すテーブルである。予測処理時の処理フローを示す図である。

符号の説明

１学習用データ格納部２第１決定木生成部３第１決定木データ格納部
４交互作用項抽出部５交互作用項データ格納部
６ロジスティック回帰モデル生成部
７ロジスティック回帰モデルデータ格納部
８ロジスティック回帰モデル適用処理部
９第１処理結果格納部１１真偽判定部１２第２決定木生成部
１３第２決定木データ格納部１４決定木適用処理部
１５第２処理結果格納部１６比較部
２１予測対象データ格納部２２ロジスティック回帰モデル適用処理部
２３第１予測結果格納部２４決定木適用処理部
２５第２予測結果格納部

Claims

予測対象属性に対する、学習用データ格納部に格納された学習用データの属性間の交互作用を反映した属性として指定された交互作用項の値を、前記学習用データに含まれるレコード毎に特定し、前記学習用データ格納部に格納するステップと、
前記学習用データ格納部に格納された学習用データを用いて、前記交互作用項を説明変数として含む統計予測モデルを生成し、当該統計予測モデルのデータを統計予測モデル格納部に格納するステップと、
前記統計予測モデル格納部に格納されたデータに基づく前記統計予測モデルを前記学習用データ格納部に格納された前記学習用データに適用して前記予測対象属性に対する予測結果を算出し、記憶装置に格納するステップと、
前記予測対象属性に対する予測結果と前記学習用データ格納部に格納された学習用データに含まれる予測対象属性の値とを比較することにより前記予測結果の真偽を判定し、判定結果を前記学習用データ格納部に格納するステップと、
前記予測結果の真偽を第２予測対象属性として所定のアルゴリズムに従って前記学習用データ格納部に格納された前記学習用データについてルールを生成し、当該ルールのデータをルール・データ格納部に格納するステップと、
を含み、コンピュータにより実行される情報処理方法。
前記統計予測モデル格納部に格納されたデータに基づく前記統計予測モデルを、予測対象データ格納部に格納された予測対象データに対して適用し、前記予測対象属性に対する予測結果を算出し、予測結果データ格納部に格納するステップと、
前記ルール・データ格納部に格納された前記ルールのデータを用いて、前記予測結果データ格納部に格納された予測結果の真偽を判定し、判定結果を記憶装置に格納するステップと、
をさらに含む請求項１記載の情報処理方法。
前記所定のアルゴリズムに従って前記学習用データ格納部に格納された学習用データについて前記予測対象属性に対する第２のルールを生成し、当該第２のルールのデータを記憶装置に格納する第２ルール生成ステップと、
前記記憶装置に格納された前記第２のルールのデータに含まれる分岐条件に従って、前記交互作用項の候補を特定する交互作用項候補特定ステップと、
をさらに含む請求項１又は２記載の情報処理方法。
前記第２ルール生成ステップを前記学習用データ格納部に格納された学習用データの複数のサブセットに対して実行し、
前記交互作用項候補特定ステップが、
複数生成された前記第２のルールに含まれる第１の分岐条件と第２の分岐条件の組み合わせの出現頻度の高い順に並べるステップ
を含む請求項３記載の情報処理方法。
前記統計予測モデルが、ロジスティック回帰モデルであることを特徴とする請求項１乃至４のいずれか１つ記載の情報処理方法。
前記所定のアルゴリズムが、前記ルールを決定木として生成するアルゴリズムであることを特徴とする請求項１乃至５のいずれか１つ記載の情報処理方法。
請求項１乃至６のいずれか１つ記載の情報処理方法をコンピュータに実行させるためのプログラム。
予測対象属性に対する、学習用データ格納部に格納された学習用データの属性間の交互作用を反映した属性として指定された交互作用項の値を、前記学習用データに含まれるレコード毎に特定し、前記学習用データ格納部に格納する手段と、
前記学習用データ格納部に格納された学習用データを用いて、前記交互作用項を説明変数として含む統計予測モデルを生成し、当該統計予測モデルのデータを統計予測モデル格納部に格納する手段と、
前記統計予測モデル格納部に格納されたデータに基づく前記統計予測モデルを前記学習用データ格納部に格納された前記学習用データに適用して前記予測対象属性に対する予測結果を算出し、記憶装置に格納する手段と、
前記予測対象属性に対する予測結果と前記学習用データ格納部に格納された学習用データに含まれる予測対象属性の値とを比較することにより前記予測結果の真偽を判定し、判定結果を前記学習用データ格納部に格納するステップと、
前記予測結果の真偽を第２予測対象属性として所定のアルゴリズムに従って前記学習用データ格納部に格納された前記学習用データについてルールを生成し、当該ルールのデータをルール・データ格納部に格納する手段と、
を有する解析装置。