JP3897169B2

JP3897169B2 - 決定木生成方法およびモデル構造生成装置

Info

Publication number: JP3897169B2
Application number: JP2002323610A
Authority: JP
Inventors: 道夫竹中
Original assignee: Fuji Electric Holdings Ltd
Current assignee: Fuji Electric Co Ltd
Priority date: 2002-11-07
Filing date: 2002-11-07
Publication date: 2007-03-22
Anticipated expiration: 2022-11-07
Also published as: JP2004157814A

Description

【０００１】
【発明の属する技術分野】
本発明は、予め蓄積された多種多量の学習データの中から関連する学習データへの分類とその分類規則の生成を行う決定木生成方法、および、予測または診断などを行うモデルのモデル構造を決定するためのモデル構造生成装置に関する。
【０００２】
【従来の技術】
データマイニングでは、蓄積された多種多量のデータを解析して内在する複雑な関係を抽出し、予測または診断などを行うモデルを構築する必要がある。このようなモデルとしては、大きく分けて次の３種のモデルが一般的によく利用されている。
【０００３】
（１）重回帰モデル
目的変数とそれに影響を与える多数の説明変数との関係を表現した回帰式を導出し、この回帰式により目的変数値を算出する。
（２）ニューラルネットワークモデル
過去実績データにより入力変数間の重み係数を学習してニューラルネットワークを構築し、このニューラルネットワークにより目的変数値を算出する。
（３）過去事例モデル
類似した状態の実績データを抽出・補正して過去事例モデルを構築し、この過去事例モデルにより目的変数値を算出する。
【０００４】
しかし、予測・診断を行うモデルとして重回帰モデル、または、ニューラルネットワークモデルを適用する場合、条件（例えば、朝・昼・晩という時間条件、春・夏・秋・冬という季節条件などである）が異なれば、その条件におけるデータ群毎にデータ特性が大きく変化することが知見されており、このような複数条件のデータ群に対応できるような一つのモデルを構築しようとしても、精度の良いモデルを構築できないことが経験的に知られている。
【０００５】
このような問題に対処するため、モデル化対象となるデータを特性変化点で複数区間に分割し、それぞれのデータ区間に対応した複数のニューラルネットワークを組み合わせたモデルを構築する方法が、例えば、非特許文献１または非特許文献２に開示されている。
このようなモデル構築方法により構築されたモデルは予測精度を向上させているが、モデル化に必要な入力変数やモデル構造の決定は依然人手により試行錯誤的に行われ、労力がかかっているのが現状である。
【０００６】
このようなモデル構築の自動化を実現するため、データの分類規則を木構造で表現する決定木を用い、その分類規則をコンピュータ等で自動的に生成する方法が各種提案されている。
代表的な手法として、ＩＤ３(Iterative Dichotomiser 3)やその発展形であるＣ４．５、ＣＡＲＴ(Classification And Regression Trees)、ＣＨＡＩＤ(Chi-squared Automatic Interaction Detection)などがある。これら手法は、例えば、非特許文献３に詳しく記載されている。
これら方法は、分類後の多様性（目的変数が離散属性の場合はカテゴリ変数の均等分布性であり、目的変数が連続数値属性の場合は分位数や等分でｎ分割した区間の均等分布性である）が最も減少する条件を最良の分類規則として決定していくものである。このときの多様性の基準としては、平均情報量から求める利得や利得比、ジニ（Gini）の多様性指標、およびそれらを改良した指標などが使用されている。
【０００７】
しかし、いずれの方法も扱う目的変数・説明変数は基本的には離散属性に属する変数に適したものであり、連続数値属性に属する変数に適したものではなかった。実際上、上記方法で連続数値属性を扱えるようにするため、分位数や等分でｎ分割した区間の均等分布性である区間を分割して離散化した上で多様性指標を大きく減少させるように決定木を生成するという手法を用いている。
【０００８】
この点について図を参照しつつ説明する。図１４は連続数値属性で相関のあるデータの決定木を説明する説明図である。決定木生成時にある説明変数に対し、矩形単位にした範囲に目的変数の同じカテゴリのデータが多く存在するように分割するため、図１４で示すような細分化された矩形を生成する必要がある。このため、目的変数と説明変数との間にはっきりした相関があってもそのデータ分布特徴が抽出できずに、細かな分割を行ってしまう。
【０００９】
このように目的変数が連続数値属性の場合である説明変数との相関が強く線形式で近似可能なデータ群があるとしても、図１４のような離散化範囲単位で決定木を生成するため、一つのデータ群としては分類できない。
たとえば、夏は正の強い相関（線形式で近似可）、冬は負の強い相関（線形式で近似可）のデータがあった場合、夏用と冬用の２つの線形式モデルを作成して季節を判断して切り分けてモデルを適用すれば良いが、前記した決定木の生成方法ではある区間（矩形）単位の分類となってしまうために分類が細かくなってしまうなどうまく分類ができない。
【００１０】
以上説明したように、従来技術の決定木生成では、目的変数が離散属性の場合は木構造を精度良く作成できるが、目的変数が連続数値属性の場合には精度良くならない場合があり、精度良いモデルの自動的な構築が不可能であり、人手による試行錯誤によるモデル構築が避けられないという問題点があった。
【００１１】
【非特許文献１】
飯坂，松井，植木，「ニューロ・ファジーによるダム流入量予測システムの開発」，電気学会論文誌B，Vol.119-B，No.10，1999年
【非特許文献２】
相沢，石原，石岡，松井，飯坂，福山，「負荷種別を考慮したＮＮ応用電力需要予測の検討」，平成13年電気学会全国大会，No.6-054,2001年
【非特許文献３】
Michael J.A.Berry，Gordon Linoff（江原, 佐藤訳），「データマイニング手法」，海文堂出版，2000年
【００１２】
【発明が解決しようとする課題】
前述の従来技術では、予測、診断などの機能を実現するためのモデル構造の決定は人手により試行錯誤を繰り返すことにより実現していたため、目的とするモデルの作成および実現対象の構成変化に伴うモデル構成の変更に多くの作業工数を必要としていた。
【００１３】
また、予測、診断などの機能実現のために対象データの分類基準作成を自動で行う決定木生成方法は開発されているが、前記したようにそれらの方法ではある条件での線形性や分布範囲の違いなど（以下、データ分布特徴という）による分類はできないというものであった。
データ分布特徴の分類が実現できれば、ある条件で抽出したデータ群に対しては線形モデル、別の条件で抽出したデータ群に対しては別の線形モデル、また別の条件で抽出したデータ群に対してはニューラルネットワークモデルなどのように、条件により抽出されたデータ群ごとに適切な（精度良い）モデルを適用することができるようになる。
【００１４】
本発明は、上記課題を解決するためになされたものであり、その目的とするところは、予測、診断などの機能を実現するためのモデル構造の決定や変更を容易にするため、連続数値属性にある学習データをデータ分布特徴に基づいて決定木により分類するような決定木生成方法、および、この決定木生成方法を用いて自動的にモデルを構築するモデル構造生成装置を提供することにある。
【００１５】
【課題を解決するための手段】
上記課題を解決するためになされた請求項１記載の発明に係る決定木生成方法は、
複数属性のデータ群からなる学習データを格納する決定木生成用学習データ格納手段と、決定木生成に用いる評価制御情報を格納する評価制御情報格納手段と、学習データと評価制御情報とを読み込んで決定木を生成する決定木生成手段と、決定木により分割された各ノードに関する分岐条件、および、各ノードに分類されたデータ、を含む決定木情報を保存する決定木情報格納手段と、基礎統計量や統計検定量など決定木の生成途中で計算された計算値や評価条件などである決定木生成評価情報を保存する決定木生成評価情報格納手段と、決定木生成手段により生成された決定木情報および決定木生成評価情報から決定木の末端のノードのデータ群に対し目的変数と説明変数とを考慮してモデル構造を作成するモデル作成用学習手段と、モデル作成用学習手段により作成されたモデル構造を保存するモデル格納手段と、を備えるモデル構造生成装置で用いられ、決定木生成に際し、複数属性のデータ群からなる学習データを親のノードに含み、ある一の属性に係るデータ群を連続数値属性の目的変数とし、また、残りの複数属性に係るデータ群をそれぞれ説明変数とする場合に、これら目的変数と説明変数との関係が所定の分類規則を満たすようなノードを複数生成して木構造に分岐させ、全ての説明変数を考慮して分岐された決定木を生成する決定木生成手段における決定木生成方法であって、
決定木生成手段により、決定木生成用学習データ格納手段から読み出された決定木生成用の学習データを含むノードである未評価のノードを分岐前ノードとして選択させる分岐前ノード選択ステップと、
決定木生成手段により、選択された分岐前ノードに含まれる学習データの基礎統計量を算出させる分岐前ノード統計量算出ステップと、
決定木生成手段により、この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択させる説明変数選択ステップと、
決定木生成手段により、選択された一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成させる分岐後ノード生成ステップと、一の分岐後ノードに含まれる学習データについての基礎統計量を全ての分岐後ノードに関して算出させる初期統計量算出ステップと、全ての分岐後ノードおよび分岐前ノードの中から二個の分岐後ノードまたは分岐前ノードと分岐後ノードとを選択させるノード選択ステップと、二個の分岐後ノードまたは分岐前ノードと分岐後ノードとに含まれる学習データの基礎統計量を用いて検定統計量を算出させ、評価制御情報格納手段から読み出された評価制御情報に含まれる有意水準に基づいて検定統計量に統計的に有意な差があるかないかを判断させ有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断させ、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断させるグループ化可能判断ステップと、グループ化が可能な二個の分岐後ノードまたは分岐前ノードと分岐後ノードとをグループ化して新たに一個の分岐後ノードを生成させるグループ化ステップと、新たにグループ化した分岐後ノードに含まれる学習データの基礎統計量を算出させるグループ化ノード統計量算出ステップと、残る分岐後ノードまたは分岐前ノードがグループ化が可能か否かを判断させ、これ以上のグループ化が不可能になるまで、分岐後ノード生成ステップ、初期統計量算出ステップ、ノード選択ステップ、グループ化可能判断ステップ、グループ化ステップ、およびグループ化ノード統計量算出ステップを繰り返すようにさせるグループ化継続判断ステップと、グループ化が不可能な場合に残った分岐後ノードを確定させるノード確定ステップと、を行うノード決定の一連のステップと、
決定木生成手段により、全ての説明変数について分岐後ノードを確定したか否かを判断させ、全ての説明変数について分岐後ノードが確定されるまで、説明変数選択ステップおよびノード決定の一連のステップを繰り返すようにさせるノード決定判断ステップと、
決定木生成手段により、全ての説明変数について分岐後ノードが確定された場合に分岐後ノードの説明変数を分岐条件として確定させる分岐条件確定ステップと、
決定木生成手段により、新たに生成された分岐後ノードが分岐を停止するノードであると評価されるか否かを判断し、分岐を停止するノードであると評価されると判断されるまでは分岐後ノードを新たな未評価のノードとして、分岐前ノード選択ステップ、分岐前ノード統計量算出ステップ、説明変数選択ステップ、ノード決定の一連のステップ、ノード決定判断ステップ、および、分岐条件確定ステップとを繰り返すようにさせる未評価ノード判断ステップと、
を有し、親ノードから分岐した複数ノードは、それぞれのノードに含まれる学習データ間で統計的に有意な差を持つように分類することで、各ノードにおける学習データの目的変数と説明変数の関係も有意な差を有するという分類規則で分類し、この分類によるときの説明変数を分岐条件とした決定木とすることを特徴とする。
【００１６】
この決定木生成方法では、平均値や分散が大きく異なること、または、相関が高く線形性があることなどのデータ分布特徴による分類を実現しているため、あまり細かな分類にはならずにそのデータ分布特徴や入力因子とすべき変数が明確になるので、精度の高い決定木の生成が少ない工数で可能となる。
また、この決定木生成方法では、全ての説明変数について決定木生成可能か否かを判断して分類するというものであり、全ての説明変数のデータ分布特徴による分類規則を構築することができる。
これにより、データ分布特徴が異なる決定木に分岐しているため、この決定木を参考にしてモデル構築を行うことができる。
【００１７】
また、請求項２記載の発明に係るモデル構造生成装置は、
複数属性のデータ群からなる学習データを親のノードに含み、ある一の属性に係るデータ群を連続数値属性の目的変数とし、また、残りの複数属性に係るデータ群をそれぞれ説明変数とする場合に、これら目的変数と説明変数との関係が所定の分類規則を満たすようなノードを複数生成して木構造に分岐させ、全ての説明変数を考慮して分岐された決定木を生成し、この決定木に基づいてモデル構造を生成するモデル構造生成装置において、
複数属性のデータ群からなる学習データを格納する決定木生成用学習データ格納手段と、
決定木生成に用いる評価制御情報を格納する評価制御情報格納手段と、
学習データと評価制御情報とを読み込んで決定木を生成する決定木生成手段と、
決定木により分割された各ノードに関する分岐条件、および、各ノードに分類されたデータ、を含む決定木情報を保存する決定木情報格納手段と、
基礎統計量や統計検定量など決定木の生成途中で計算された計算値や評価条件などである決定木生成評価情報を保存する決定木生成評価情報格納手段と、
決定木生成手段により生成された決定木情報および決定木生成評価情報から決定木の末端のノードのデータ群に対し目的変数と説明変数を考慮してモデル構造を作成するモデル作成用学習手段と、
モデル作成用学習手段により作成されたモデル構造を保存するモデル格納手段と、
を備えるモデル構造生成装置であって、
前記の決定木生成手段は、
決定木生成用学習データ格納手段から読み出された決定木生成用の学習データを含むノードである未評価のノードを分岐前ノードとして選択する分岐前ノード選択処理と、
選択された分岐前ノードに含まれる学習データの基礎統計量を算出する分岐前ノード統計量算出処理と、
この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択する説明変数選択処理と、
選択された一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成する分岐後ノード生成処理と、一の分岐後ノードに含まれる学習データについての基礎統計量を全ての分岐後ノードに関して算出する初期統計量算出処理と、全ての分岐後ノードおよび分岐前ノードの中から二個の分岐後ノードまたは分岐前ノードと分岐後ノードとを選択するノード選択処理と、二個の分岐後ノードまたは分岐前ノードと分岐後ノードとに含まれる学習データの基礎統計量を用いて検定統計量を算出し、評価制御情報格納手段から読み出された評価制御情報に含まれる有意水準に基づいて検定統計量に統計的に有意な差があるかないかを判断し有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断し、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断するグループ化可能判断処理と、グループ化が可能な二個の分岐後ノードまたは分岐前ノードと分岐後ノードとをグループ化して新たに一個の分岐後ノードを生成するグループ化処理と、新たにグループ化した分岐後ノードに含まれる学習データの基礎統計量を算出するグループ化ノード統計量算出処理と、残る分岐後ノードまたは分岐前ノードがグループ化が可能か否かを判断し、これ以上のグループ化が不可能になるまで、分岐後ノード生成処理、初期統計量算出処理、ノード選択処理、グループ化可能判断処理、グループ化処理、およびグループ化ノード統計量算出処理を繰り返すようにするグループ化継続判断処理と、グループ化が不可能な場合に残った分岐後ノードを確定するノード確定処理と、を行うノード決定の一連の処理と、
全ての説明変数について分岐後ノードを確定したか否かを判断し、全ての説明変数について分岐後ノードが確定されるまで、説明変数選択処理およびノード決定の一連の処理を繰り返すようにするノード決定判断処理と、
全ての説明変数について分岐後ノードが確定した場合に分岐後ノードの説明変数を分岐条件として確定する分岐条件確定処理と、
新たに生成した分岐後ノードが分岐を停止するノードであると評価されるか否かを判断し、分岐を停止するノードであると評価するものと判断されるまでは分岐後ノードを新たな未評価のノードとして、分岐前ノード選択処理、分岐前ノード統計量算出処理、説明変数選択処理、ノード決定の一連の処理、ノード決定判断処理、および、分岐条件確定処理とを繰り返すようにする未評価ノード判断処理と、
を行い、親ノードから分岐した複数ノードは、それぞれのノードに含まれる学習データ間で統計的に有意な差を持つように分類することで、各ノードにおける学習データの目的変数と説明変数の関係も有意な差を有するという分類規則で分類し、この分類によるときの説明変数を分岐条件とした決定木とすることを特徴とする。
【００１８】
本発明のモデル構造生成装置によれば、連続数値属性に係るデータであって、蓄積された実績データをそのまま学習データとしてモデル分割の条件を決定木により決定し、これにより分類された類似性の高いデータ単位にモデル化が行えるので、より精度の高いモデルの構築が少ない工数で可能となる。
【００２１】
【発明の実施の形態】
以下、本発明の決定木生成方法およびモデル構造生成装置の実施形態について図を参照しつつ一括して説明する。図１はモデル構造生成装置の構成図、図２は決定木生成用の学習データのデータ構造図、図３，図４，図５は決定木生成方法のフローチャート、図６，図７は分岐後ノードに含まれる学習データのデータ構造を説明する説明図、図８は統計的検定を説明する説明図、図９は決定木により表されたモデル構造の説明図である。
なお、本実施形態では、モデル構造生成装置とは、具体的にはコンピュータであり、このコンピュータが後述する各手段を実行することでモデル構造生成装置としての機能を果たす。
【００２２】
まず、モデル構造生成装置について説明する。
図１で示すモデル構造生成装置は、決定木生成用学習データ格納手段１と、評価制御情報格納手段２と、決定木生成手段３と、決定木情報格納手段４と、決定木生成評価情報格納手段５と、モデル作成用学習手段６と、モデル格納手段７と、を備えている。
【００２３】
このモデル構造生成装置では、決定木生成用学習データ格納手段１と、評価制御情報格納手段２とが、決定木生成手段３への入力データである決定木生成用の学習データおよび評価制御情報を登録する。
また、決定木情報格納手段４と、決定木生成評価情報格納手段５とが、決定木生成手段３からの出力データである決定木情報および決定木生成評価情報を登録する。これら決定木情報および決定木生成評価情報は、モデル作成用学習手段６へ出力される。
また、モデル格納手段７が、モデル作成用学習手段６からの出力データであるモデル構造データを登録する。
【００２４】
決定木生成用学習データ格納手段１は、入力されたデータを保存するデータベース機能を有しており、目的とする予測・診断を実現するのに必要と思われる過去の実績データを決定木生成用の学習データとして取り込む処理、および、取り込んだ学習データを保存する。このデータベース構造とは、ある属性に属するデータ群が複数属性にわたり含まれるようなデータ構造である。
【００２５】
例えば、決定木生成用の学習データは、図２で示すようなデータ構造を有している。このデータ構造は、たとえば、表計算ソフトウェアで用いられる表計算データ（複数属性に含まれる一組みのデータを複数行で表したデータ）である。
図２において、1行目は属性名を列挙したものであり、２行目以降はそれに対応する属性値を列挙したファイルである。各行は、例えば時系列的なデータであることを示している。
また、特に図示しないがCSV形式データ（複数属性を表ではなく単にカンマ区切りで表したデータ等のデータベース構造）を採用しても良い。
この学習用データは、図９で示す親ノードに含まれる全データに相当する。この学習データは、図９でも明らかなように、データ分布特徴を直感的に把握できないようになっている。
【００２６】
評価制御情報格納手段２は、入力されたデータを保存するデータベース機能を有しており、以下に示すような決定木生成における分岐する変数決定のための各種評価項目のしきい値やその適用順序を定義する処理にかかる評価制御情報を格納する。
＜目的変数が連続数値属性の場合＞
・２つのノード間のある属性（通常は目的変数）のデータ群の平均値、分散、相関係数の有意差検定用の有意水準
・平均値、分散、相関係数の有意差を判断する順序
・分岐を終了する相関係数値
＜目的変数が離散属性の場合＞
・評価基準の選択（情報量利得、利得比のどちらを採用するかの指定）
・評価基準（情報量利得、利得比）のしきい値
＜共通＞
・学習データの複数属性に係るデータ群を目的変数、説明変数として指定
・連続数値属性の説明変数の分割数と方法（平均値で２分割、５等分など）
・分岐を終了する１ノード内の最大データ数（行数；これより小さいとき分岐を中止する）
【００２７】
決定木生成手段３は、決定木生成用学習データ格納手段１から学習データを、また、評価制御情報格納手段２から評価制御情報を読み込んで決定木を生成する処理である。
なお、決定木生成方法については後述する。
【００２８】
決定木情報（ノードデータ）格納手段４は、決定木生成手段３により決定された分岐条件、および、各ノードに分類されたデータなどの決定木情報（ノードデータ）を保存する。
なお、格納されるデータの構成は決定木生成用の学習データと同じであり、図２で示すようなデータベース構造を有しているが行数が分岐により減少している。このデータ構造も、表計算ソフトウェアで用いられる表計算データ（複数属性を列とした一組のデータを複数行で表したデータ）であり、１行目は属性名を列挙したものであり、２行目以降はそれに対応する属性値を列挙したファイルである。
【００２９】
また、決定木生成評価情報格納手段５は、基礎統計量や統計検定量など決定木の生成途中で計算された計算値や評価条件などである決定木生成評価情報を保存する。
この決定木生成評価情報は、詳しくは以下の項目が出力される。
連続数値属性の場合における分割前・分割後の基礎統計量は、平均値、分散、最小値、最大値、標本数、数値変数間の相関係数である。
離散属性の場合における分割前、分割後の基礎統計量は、カテゴリ数、標本数である。
さらに、分岐前と各分岐後ノード、各分岐後ノード間の統計検定量および有意水準点との比較結果が含まれる。
【００３０】
モデル作成用学習手段６は、これら決定木情報および決定木生成評価情報に従って分類された末端のノードに含まれるデータ単位で目的変数と説明変数とを考慮してモデル化のための学習や計算を行い、モデル構造を作成する。
たとえば、あるノードで目的変数とある一つの説明変数とで相関が非常に高い場合は単回帰による近似式を作成し、また、あるノードで目的変数と複数の説明変数とで相関がある程度高い場合は重回帰による近似式を作成する。また、あるノードで非線形の場合にはニューラルネットワークによる学習を行うなどしてモデル化する。また、あるノードでは説明変数の変化に拘わらず目的変数の値が集中しているようなデータ群の場合は、そのまま目的変数の値を予測値や診断値とするモデルとなる。
なお、モデル構築についても決定木生成方法の説明とともに後述する。
【００３１】
ここで、モデル化（または学習）に使用するデータは、生成した決定木の分類基準で該当ノードに分類されたデータであれば、決定木の生成で使用したデータでも良いし、新たなデータでも良い。
【００３２】
モデル格納手段７は、作成されたモデルを、モデルの分類基準となる決定木とともにモデル構造をモデル構造データとして保存する。
モデル構造生成装置はこのようなものである。
【００３３】
続いて先にモデル構造生成装置の決定木生成手段３で実施される決定木生成方法について、図３〜図５の決定木生成方法のフローチャートを参照しつつ説明する。
まず、図３のステップＳ１では、目的変数が連続数値属性か否かの判断を行う。この判断に際してはオペレータが予め属性の中から予測等の対象となる目的変数を判断して選択してあるものとする。
【００３４】
例えば、目的変数が数値ならば連続数値属性であると判断され、一方、目的変数が高い、普通、低いというようなものであれば連続数値属性でなく離散属性であると判断される。このとき、通常は連続数値属性として取り扱われる整数でも取りうる値の種類が少ない（例えば目的変数が０，１，２のみ）場合は離散属性とする。本実施形態では、例えば図２で示すような属性１に属するデータ群（連続数値属性）が目的変数として選択されるものとして以下説明する。このような判断は評価制御情報格納手段２に登録してあるため、直ちに判別することができる。
連続数値属性であると判断された場合はステップＳ１１へジャンプし、また、連続数値属性でない（つまり離散属性である）と判断された場合はステップＳ２１へジャンプする。
【００３５】
目的変数が連続数値属性の場合は、ステップＳ１１〜ステップＳ１７により、目的変数に着目した平均、分散、または、各説明変数との相関係数などの基礎統計量により分岐を行う。
ステップＳ１１では、未評価のノードを分岐前ノードとして選択する（分岐前ノード選択ステップ）。
一番最初の未評価のノードは、全ての決定木生成用の学習データを含むノードである。例えば、図２で示すように目的変数と説明変数１〜説明変数ｎ−１の全ての行のデータを含むようなノードである。このような未評価のノードを分岐前ノードとする。
【００３６】
続いて、ステップＳ１２では、選択された分岐前ノードに含まれる学習データの基礎統計量を算出する（分岐前ノード統計量算出ステップ）。
ここに基礎統計量の候補としては、平均値、中央値[メジアン]、最頻値[モード] 、標準偏差、分散、尖度、歪度、範囲、最小値、最大値、合計、標本数が考えられる。
【００３７】
ただし、本アルゴリズムの中では分割有無の評価に必要な項目のみとして、連続数値変数の場合は目的変数についての平均値、分散、最小値、最大値、標本数を算出する。
さらに、数値変数については目的変数と説明変数との相関係数を算出する。ここでは、目的変数とある一つの説明変数についての相関係数を、説明変数毎に異ならせて複数算出しておく。
【００３８】
ステップＳ１３は、この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択する（説明変数選択ステップ）。
ある一の説明変数に着目してノード分岐を決定するため、その対象となる説明変数を選択する。
【００３９】
ステップＳ１４は、その説明変数についてのノードを決定する（ノード決定ステップ）。具体的には図４に示された連続数値属性用の決定木生成方法により決定される。
【００４０】
ステップＳ１４１は、一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成する（分岐後ノード生成ステップ）。
分岐後ノードとは、例えば図２で示す決定木生成用の学習データに対してある一つの説明変数について所定条件で分割を行って生成した複数ノードである。
【００４１】
分岐後ノードの生成について具体例を挙げて説明する。
例えば、図２で示す決定木生成用学習データにおいて、説明変数１（属性２）に着目すると、説明変数１は離散属性であり、ＡＡ，ＢＢ，ＣＣというデータである。この説明変数１に着目して分類すると、図６で示すように、説明変数１（属性２）がＡＡ毎の分岐後ノード１，説明変数１（属性２）がＢＢ毎の分岐後ノード２，説明変数１（属性２）がＣＣ毎の分岐後ノード３というように説明変数１について複数の分岐後ノードを生成する。この場合、他の説明変数については考慮されない。
【００４２】
また、図２で示す決定木生成用学習データにおいて、説明変数２（属性３）に着目すると、説明変数２が数値、つまり、連続数値属性ならば所定分割数に分ける。例えば、説明変数２について所定分割数が３である（つまり３個のノードを生成する）ものとし、説明変数２（属性３）が０．０〜３．０の範囲に含まれる値ならば、図７で示すように、説明変数２（属性３）が０．０以上〜１．０未満で纏めた分岐後ノード１、説明変数２（属性３）が１．０以上〜２．０未満で纏めた分岐後ノード２、説明変数２（属性３）が２．０以上〜３．０以下で纏めた分岐後ノード３が３つ生成される。分岐後ノードの生成はこのように行われる。
【００４３】
ステップＳ１４２は、一の分岐後ノードに含まれる学習データについての基礎統計量を全ての分岐後ノードに関して算出する（初期統計量算出ステップ）。
このような全ての分岐後ノードについての基礎統計量の算出を行うこととなるが、連続数値属性の目的変数の場合は目的変数の平均値、分散、最小値、最大値、標本数を算出する。さらに、連続数値属性については目的変数と説明変数（ステップＳ１３で選択された説明変数）の相関係数も算出する。
【００４４】
ステップＳ１４３では、全ての分岐後ノードおよび分岐前ノードの中から二個の分岐後ノードまたは分岐前ノードと分岐後ノードとを選択する（ノード選択ステップ）。
選択は、例えば、隣接する二個の分岐後ノードを選択するなど、種々の選択方式を採用することができる。
【００４５】
ステップＳ１４４では、二個の分岐後ノードまたは分岐前ノードと分岐後ノードとに含まれる学習データの基礎統計量を用いて検定統計量を算出させ、評価制御情報格納手段から読み出された評価制御情報に含まれる有意水準に基づいて検定統計量に、統計的に有意な差があるかないかを判断させ有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断させ、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断させる（グループ化可能判断ステップ）。
このとき、二個の分岐後のノード間または分岐前ノードと分岐後ノードとの間の基礎統計量のすべてに統計的な有意差が無ければ同様なデータ分布をしていると見なすことができるので、それらはグループ化が可能と判断する。
【００４６】
分岐が有効であるかどうか判断するためには分岐前と分岐後、または分岐後のノード間の基礎統計量を比較する必要がある。そのまま比較すると、対象とするデータのオーダーに合わせてしきい値を変える必要があり、現実的（汎用的）ではない。その問題を解決するには、対象とするデータがどんなオーダー、分布であっても同じスケールで評価できるようにする必要がある。その方法として、２つの母集団の平均、分散、相関係数など基礎統計量の有意差の有無を検定する統計的検定の方法を採用している。
以下に、平均、分散、相関係数についての有意差の検定方法についてそれぞれ示す。
なお、以下に述べる統計検定量については、（参考文献：石村，「統計解析のはなし」，東京図書, 1989年）を基にしている。
【００４７】
（１）ノード間の母平均（２つ母集団の母平均の差）の検定
まず、以下の仮説をたてる。
仮説Ｈ₀ ：分岐前ノードと分岐後ノード（または二個の分岐後ノード間）で平均に有意な差がない
対立仮説Ｈ₁：分岐前ノードと分岐後ノード（または二個の分岐後ノード間）で平均に有意な差がある
【００４８】
仮説Ｈ₀を破棄する有意水準αを設定し、そのときのしきい値を求める。
有意水準α ：危険率、棄却域（全データを１とした時の割合）
ｔ(α) ：有意水準αの時の検定統計量Ｔに対する棄却域のパーセント点（しきい値）
【００４９】
検定統計量Ｔを求め、それがしきい値以内の場合は仮説Ｈ₀を採用し、超える場合は有意差ありのため対立仮説Ｈ₁を採用する。
これは、図８で示すようにｔ分布では有意水準αで棄却域に含まれるような場合に、有意な差があると判断される。
【００５０】
検定統計量Ｔ：自由度ｍのｔ分布に従い、次式で算出する。ここに自由度ｍは整数であり、整数でない時はもっとも近い整数とする。
なお、次式では二個の分岐後ノードをノード１およびノード２として表している。さらに、ノードのデータとは目的変数のデータのみを利用する。
【００５１】
【数１】

【００５２】
続いて、他の手法について述べる。
（２）ノード間の母分散（２つ母集団の母分散の差）の検定
以下の仮説をたてる。
仮説Ｈ₀ ：分岐前ノードと分岐後ノード（または二個の分岐後ノード間）で分散に有意な差がない
対立仮説Ｈ₁ ：分岐前ノードと分岐後ノード（または二個の分岐後ノード間）で分散に有意な差がある
【００５３】
仮説Ｈ₀を破棄する有意水準αを設定し、そのときのしきい値を求める。
有意水準α ：危険率、棄却域（全データを１とした時の割合）
ｔ(α) ：有意水準αの時の検定統計量Ｔに対する棄却域のパーセント点（しきい値）
【００５４】
検定統計量Ｔを求め、それがしきい値以内の場合は仮説Ｈ₀を採用し、超える場合は有意差ありのため対立仮説Ｈ₁を採用する。
検定統計量Ｔ：自由度（Ｎ₁−１，Ｎ₂−１）のＦ分布に従い、次式で算出する。なお、次式では二個の分岐後ノードをノード１およびノード２として表している。さらに、ノードのデータとは目的変数のデータのみを利用する。
【００５５】
【数２】

【００５６】
続いて、他の手法について述べる。
（３）ノード間の母相関係数の検定
以下の仮説をたてる。
仮説Ｈ₀ ：分岐前ノードと分岐後ノードで相関係数に有意な差がない
対立仮説Ｈ₁ ：分岐前ノードと分岐後ノードで相関係数に有意な差がある
【００５７】
仮説Ｈ₀を破棄する有意水準αを設定し、そのときのしきい値を求める。
有意水準α ：危険率、棄却域（全データを１とした時の割合）
ｔ(α) ：有意水準αの時の検定統計量Ｔに対する棄却域のパーセント点（しきい値）
【００５８】
検定統計量Ｔを求め、それがしきい値以内の場合は仮説Ｈ₀を採用し、超える場合は有意差ありのため対立仮説Ｈ₁を採用する。
検定統計量Ｔ：検定統計量（標準正規分布N(0,1²))に従い、次式で算出する。
なお、ノードのデータとは目的変数のデータのみを利用する。
【００５９】
【数３】

【００６０】
このようにして、検定統計量に統計的に有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断してステップＳ１４５へ進み、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断してステップＳ１４７の先頭へジャンプする。
【００６１】
ステップＳ１４５では二個の分岐後ノードまたは分岐前ノードと分岐後ノードとは有意な差がなくグループ化が可能と判断された二個の分岐後ノードまたは分岐前ノードと分岐後ノードとをグループ化して新たに一個の分岐後ノードを生成する（グループ化ステップ）。
このグループ化では、それぞれのノードの学習データが結合されて新たな学習データが生成される（例えば、図７で示す分岐後ノード１と分岐後ノード２とが結合された学習データである）。
【００６２】
ステップＳ１４６は、グループ化した分岐後ノードに含まれる学習データの基礎統計量を算出する（グループ化ノード統計量算出ステップ）。
上記したステップＳ１４２と同様に基礎統計量を算出する。
【００６３】
ステップＳ１４７は、ステップＳ１４５で生成した新しい分岐後ノードも含み、残る分岐後ノードまたは分岐前ノードがグループ化が可能か否かを判断する（グループ化継続判断ステップ）。具体的には残る分岐後ノードまたは分岐前ノードが、全て有意な差がある場合は、グループ化が行われない。
一方、有意な差がない場合はグループ化されることとなり、グループ化が不可能になるまで、分岐後ノード生成ステップ（Ｓ１４１）、初期統計量算出ステップ（Ｓ１４２）、ノード選択ステップ（Ｓ１４３）、グループ化可能判断ステップ（Ｓ１４４）、グループ化ステップ（Ｓ１４５）、およびグループ化ノード統計量算出ステップ（Ｓ１４６）を繰り返すようにする。
【００６４】
以下、ステップＳ１４１〜ステップＳ１４７を繰り返してノードのグループ化を行い、最終的に有意な差があるノードしかないような場合、または、全てグループ化されて一つのノード（分岐前ノードと同じである）が残る場合に、ステップＳ１４７で二個のノードのグループ化が不可能であると判断して、ステップＳ１４８へ進む。
【００６５】
ステップＳ１４８では、グループ化が不可能な場合に残った分岐後ノードをノードとして確定する（ノード確定ステップ）。
例えば、図６の説明変数１は離散属性であり、ＡＡ，ＢＢ，ＣＣというデータであるが、仮に上記した処理により、これらをＡＡとＢＢとでは有意な差がないとしてグループ化し、ＣＣと他は有意な差があるとしてグループ化が行われないような場合、分類規則は説明変数１がＣＣの場合とＣＣでない場合とに分けられる。これで１の説明変数におけるノードの分岐条件が判別し、ノードが確定することとなる。
【００６６】
続いて、図３で示すステップＳ１５の先頭へ戻る。
ステップＳ１５では、全ての説明変数についてノードを決定したか否かを判断する（ノード決定判断ステップ）。そして、全ての説明変数についてノード決定されるまで、説明変数選択ステップ（Ｓ１３）およびノード決定ステップ（Ｓ１４）を繰り返すようにする。
【００６７】
ステップＳ１６は、全ての説明変数についてノード決定された場合に最終的なノードの分岐条件（分類規則）を確定する（分岐条件確定ステップ）。
この場合、説明変数ごとに分岐前ノードと分岐後ノードの統計的有意差の有無を判断し、以下の条件を満たすものをこの分岐する説明変数とする。
条件１：分岐ノード数に対する有意差有りのノード数の割合が大きい説明変数
条件２：条件１が同値の場合は、有意差有りのノードに対して、統計検定量と有意水準パーセント点の差の絶対値平均が大きい説明変数
これであるノードについて全ての説明変数について分岐させた場合の統計的有意差の評価を行い、上記条件の最も良いノードの分岐条件（説明変数）が確定される。
【００６８】
ステップＳ１７は、新たに生成したノードを含む全てのノードを評価したか否かを判断する（未評価ノード判断ステップ）。全てのノードについて評価されるまで、分岐前ノード選択ステップ（Ｓ１１）、分岐前ノード統計量算出ステップ（Ｓ１２）、説明変数選択ステップ（Ｓ１３）、ノード決定ステップ（Ｓ１４）、ノード決定判断ステップ（Ｓ１５）、および、分岐条件確定ステップ（Ｓ１６）とを繰り返すようにする。
【００６９】
なお、この場合、ある説明変数について複数ノードに分岐がなされているため、分岐したそれぞれのノードについて行われることとなる。
例えば、説明変数１について分岐後ノード１，分岐後ノード２に分岐している場合、分岐後ノード１に含まれるデータを新たに分岐前ノードとし、以下同様の処理を行ってこの分岐後ノード２についても分岐を行う。このようにすれば、ノードが分岐し、決定木が生成されることとなる。
【００７０】
そして、全てのノードについて評価され、以下の条件が成立する場合は分岐を停止するノードと判断される。
(1)有意差のある分岐ノードがない。
(2)目的変数といずれかの説明変数の相関係数の絶対値がある値以上である。
(3)ノードのデータ数が分岐を終了する最大データ数（行数）以下である。
そして、全てのノードが上記条件を満たし、これ以上のノード分岐は不可能と判断された場合分岐が停止され、終了することとなる。
【００７１】
続いて、目的変数が連続数値属性でない場合の処理について説明する。ステップＳ１で目的変数が連続数値属性でない、つまり離散属性と判断された場合に、ステップＳ２１へジャンプする。
【００７２】
目的変数が連続数値属性の場合は、ステップＳ２１〜ステップＳ２７により、目的変数に着目した平均情報量利得、平均情報量利得比などの多様性指標により分岐を行う。この分岐は従来技術としても挙げられており、簡単に説明する。
【００７３】
ステップＳ２１では、未評価のノードを分岐前ノードとして選択する。
一番最初の未評価のノードとは、全ての決定木生成用学習データを含むノードである。例えば目的変数に対し説明変数１〜説明変数ｎの全てを含むようなノードである。このような未評価のノードを分岐前ノードとする。
【００７４】
続いて、ステップＳ２２では、選択された分岐前ノードに含まれる学習データの多様性指標を算出する。
ここに多様性指標とは、以下に示すような情報量利得Ｇ、または利得比ＧＲである。
【００７５】
この多様性指標の算出手法について説明する。
目的変数が離散属性の場合は、一般的な決定木アルゴリズムと同様に平均情報量などの多様性指標により分岐評価を行う（参考文献：Michael J.A.Berry，Gordon Linoff（江原, 佐藤訳），「データマイニング手法」，海文堂出版，2000年）。まず、分岐前ノードの平均情報量Ｉ(before)、および各説明変数で分岐した場合の平均情報量Ｉ(after)を求める。
【００７６】
【数４】

【００７７】
【数５】

【００７８】
次に、各説明変数で分岐した時の情報量利得Ｇ、または利得比ＧＲを算出する。評価制御情報としてあらかじめ設定された選択条件により情報量利得と利得比のいずれかを選択する。いずれにしても分岐候補となっている説明変数の中であるしきい値（あらかじめ設定可能）以上で一番大きなものを分岐変数とする。
【００７９】
【数６】

【００８０】
【数７】

【００８１】
ステップＳ２３は、この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択する。
ある一の説明変数についてノードを決定するため、その対象となる説明変数を選択する。
ステップＳ２４は、その説明変数についてのノードを決定する。具体的には図５に示された離散属性用の決定木生成方法により決定される。
【００８２】
ステップＳ２４１は、一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成する。
分岐後ノードとは、例えばある一つの説明変数について所定条件で分割を行い、複数ノードを生成するというものである。
このような分岐後ノードは、説明変数が数値変数の場合は評価制御パラメータファイルの設定分岐数に分岐し（２分岐：平均で２分割、４分岐：さらにそれぞれの平均で４分割など）、説明変数がカテゴリ変数（離散属性）の場合は取りうるカテゴリ毎に分割する。
【００８３】
ステップＳ２４２は、一の分岐後ノードの多様性指標を算出する。
ステップＳ２２と同様にして多様性指標を算出する。
【００８４】
ステップＳ２４３は、多様性指標が所定条件を満たすか否かを判断する。
このとき、以下の条件が成立する場合は分岐を行わない。
(1)すべての分岐の情報量利得（または利得比）がしきい値以内である。
(2)ノードのデータ数が分岐を終了する最大データ数（行数）以下である。
所定条件を満たさない場合はステップＳ２４４へ進み、所定条件を満たす場合はＳ２４５へジャンプする。
【００８５】
ステップＳ２４４では、分岐後ノードを分岐候補とする。
ステップＳ２４５では、分岐後ノードの全ての組合せについて評価したか否かを判断する。全て評価していないならば、ステップＳ２４１の先頭にジャンプし、以下、ステップＳ２４１〜Ｓ２４４を繰り返し行う。また、全て評価したならば、ステップＳ２４６へ進む。
【００８６】
ステップＳ２４６では、ノードを確定する。
平均情報量利得または平均情報利得比が一番大きな値となる個所で分岐することとなる。
【００８７】
続いて、図４で示すステップＳ２５の先頭へ戻る。
ステップＳ２５では、全ての説明変数についてノードを決定したか否かを判断する。そして、全ての説明変数についてノード決定されるまで、ステップＳ２３およびステップＳ２４を繰り返すようにする。
【００８８】
ステップＳ２６はノードの分岐条件を決定する。
複数分岐が可能であってもが平均情報量利得または平均情報利得比が一番大きな値となる点で分岐させることとなる。
ステップＳ２７は、全てのノードを評価したか否かを判断する。全てのノードについて評価されるまで、ステップＳ２１〜ステップＳ２７を繰り返すようにする。
【００８９】
なお、この場合、先にある説明変数について複数ノードに分岐しているため、それぞれのノードについて行われることとなる。
例えば、説明変数１について分岐後ノード１，分岐後ノード２に分岐している場合、分岐後ノード１に含まれるデータを分岐前ノードとし、以下説明変数２について同様の処理を行ってノードの分岐を行う。このようにすれば、ノードが分岐し、決定木が生成されることとなる。
そして、全てのノードについて評価がなされた場合、終了することとなる。
【００９０】
このような、決定木生成方法により決定木が生成されたならば、決定木情報および決定木生成評価情報が登録される。この状態ではある説明変数についての分岐条件のみ登録されていてモデルが構築されているわけではない。そこで、モデル作成用学習手段６では、決定木情報および決定木生成評価情報を用いて決定木で生成された末端のノードに含まれるデータからモデルを構築する。例えば、図９で示す条件Ｂ１のように目的変数と説明変数の相関が高いため、重回帰式で表された線形モデルＡを構築したり、条件Ｂ２のように目的変数と説明変数の相関が低いため、例えば、ニューラルネットワークで表された○○モデルを構築したり、条件Ｃ１のように説明変数に拘わらず目的変数が特定値に集中するような集中値型モデルをを構築したり、条件Ｄ１のように目的変数と説明変数の相関が高いため、単回帰式で表された線形モデルＢを構築したりする。このようなモデルをモデル構築データとしてモデル格納手段７に登録することとなる。
【００９１】
なお、このようなモデルを用いる実際の予測、診断処理では、図９で示す条件Ａ１〜Ｄ１に基づいて、多数のモデルの中から最適なモデルを選択することとなる。
オペレータは、入力データから決定木の分類に従って適用するモデルを決定し、そのモデルを実行することによって、目的とする結果を算出することになる。
【００９２】
このように本実施形態の決定木生成方法を用いることで、学習データを説明変数単位で分離して決定木を生成することができる。
モデル化のデータ単位および必要な入力因子を決定するための試行錯誤的作業の自動化または支援が可能となり、予測、診断などのモデル化作業にかかる工数を短縮することが可能である。さらに、予測、診断などの対象自身またはその周辺の状況が変わりモデルの再構築が頻繁に必要になる場合でも定期的にあるいは任意のタイミングで本発明のモデル化処理を実行することで、その変化状況に応じたモデルを適宜再構築していくことが可能である。
また、平均、分散などの相違、線形性などのデータ分布特徴に従ったデータ分割（抽出）が可能であるため、少ないモデル数（データ空間の分割）で精度良いモデル構造とすることが可能である。
【００９３】
【実施例】
続いて、本発明の具体的な実施例について図を参照しつつ説明する。図１０，図１１，図１２，図１３は決定木により分割された学習データのデータ分布特徴を説明する説明図である。
電力需要データ１０９５件（約３年分）を以下に示す条件を与えて、本発明の決定木生成方法を用いて決定木の生成を行った。
【００９４】
（１）実施条件
目的変数：最大電力
説明変数候補：曜日、当日種別、最低気温、最高気温、最小湿度
検定の有意水準：０．０５（全検定同じ）
検定の評価順：平均、分散、相関係数の順
なお、その他の条件として連続数値属性の説明変数は、説明の簡略化のため平均値により二分割することとした（但し、本発明では説明変数毎に予め分割数（等分割／任意幅）が設定可能である）。
【００９５】
（２）実施結果
本発明により生成した決定木を図１０〜図１３に示す。各ノードはデータの分布特徴が理解できるように、最大電力と最高気温の散布図とした。
１段階目での分割では、「曜日」変数による分岐が行われ、最初は分岐後ノードとして日，月，火，水，木，金，土の７ノード（図示せず）に分かれるが、月〜金曜日（平日）の基礎統計量に有意な差がないために１ノードにグループ化され、結果的に、図１０で示すように、ＮＯＤＥ０１（日曜日）、ＮＯＤＥ０２（土曜日）、ＮＯＤＥ０３（月曜日〜金曜日）の３ノードに分割された。
【００９６】
さらに、ＮＯＤＥ０１ノードは、「最低気温」変数による分岐が行われ、図１１で示すように、ＮＯＤＥ０１０１（平均未満）とＮＯＤＥ０１０２（平均以上）の２つのノードに分割された。
【００９７】
さらに、ＮＯＤＥ０２ノードは、最初に「当日種別」変数による分岐が行われ、図１２で示すように、ＮＯＤＥ０２０１（休日：土曜日の祭日）とＮＯＤＥ０２０２（通常の土曜日）の２つのノードに分割された。さらに、ＮＯＤＥ０２０２（通常の土曜日）ノードは「最低気温」変数による分岐が行われ、ＮＯＤＥ０２０２０１（平均未満）とＮＯＤＥ０２０２０２（平均以上）の２つのノードに分割された。
【００９８】
さらに、ＮＯＤＥ０３ノードは、最初に「当日種別」変数による分岐が行われ、図１３で示すように、ＮＯＤＥ０３０１（休日：平日の祭日）とＮＯＤＥ０３０２（通常の平日）の２つのノードに分割された。さらに、ＮＯＤＥ０３０２（平日）ノードは「最低気温」変数による分岐が行われ、ＮＯＤＥ０３０２０１（平均未満）とＮＯＤＥ０３０２０２（平均以上）の２つのノードに分割された。
【００９９】
ＮＯＤＥ０２０１（図１２）とＮＯＤＥ０３０１（図１３）以外の末端ノード（ＮＯＤＥ０２０２０１，ＮＯＤＥ０２０２０２，ＮＯＤＥ０３０２０１，ＮＯＤＥ０３０２０２）における最大電力と最高気温（または最低気温）との関係は、負の相関、または正の相関の特徴を示していることがわかる（相関係数の絶対値も０．８以上）。これらノードについては、最大電力との相関係数の高い最高気温、最低気温を説明変数とした単回帰や重回帰で精度の良い予測モデルの作成が可能である。
【０１００】
一方、ＮＯＤＥ０２０１とＮＯＤＥ０３０１の末端ノードは、これといったデータ特徴が見られないため、このままではモデル化は難しいデータと考えられる。モデル化を行うためにはこの例で示した説明変数以外（例えば、休日が連休か否か、または、季節｛春、夏、秋、冬｝など）を追加した再評価（決定木生成）が必要であると考えられる。
【０１０１】
【発明の効果】
以上本発明について説明した。本発明によれば、データ分布特徴の分類が実現でき、ある条件で抽出したデータ群に対しては線形モデル、別の条件で抽出したデータ群に対しては別の線形モデル、また別の条件で抽出したデータ群に対してはニューラルネットワークモデルなどのように、条件により抽出されたデータ群ごとに適切な（精度良い）モデルを適用することができるようになった。
【０１０２】
総じて本発明によれば、予測、診断などの機能を実現するためのモデル構造の決定や変更を容易にするため、連続数値属性にある学習データをデータ分布特徴に基づいて決定木により分類するような決定木生成方法、および、この決定木生成方法を用いて自動的にモデルを構築するモデル構造生成装置を提供することができる。
【図面の簡単な説明】
【図１】モデル構造生成装置の構成図である。
【図２】決定木生成用の学習データのデータ構造図である。
【図３】決定木生成方法のフローチャートである。
【図４】決定木生成方法のフローチャートである。
【図５】決定木生成方法のフローチャートである。
【図６】分岐後ノードに含まれる学習データのデータ構造を説明する説明図である。
【図７】分岐後ノードに含まれる学習データのデータ構造を説明する説明図である。
【図８】統計的検定を説明する説明図である。
【図９】決定木により表されたモデル構造の説明図である。
【図１０】決定木により分割された学習データのデータ分布特徴を説明するための説明図である。
【図１１】決定木により分割された学習データのデータ分布特徴を説明するための説明図である。
【図１２】決定木により分割された学習データのデータ分布特徴を説明するための説明図である。
【図１３】決定木により分割された学習データのデータ分布特徴を説明するための説明図である。
【図１４】連続数値属性で相関のあるデータの決定木を説明する説明図である。
【符号の説明】
１決定木生成用学習データ格納手段
２評価制御情報格納手段
３決定木生成手段
４決定木情報（ノードデータ）格納手段
５決定木生成評価情報格納手段
６モデル作成用学習手段
７モデル格納手段

Claims

複数属性のデータ群からなる学習データを格納する決定木生成用学習データ格納手段と、決定木生成に用いる評価制御情報を格納する評価制御情報格納手段と、学習データと評価制御情報とを読み込んで決定木を生成する決定木生成手段と、決定木により分割された各ノードに関する分岐条件、および、各ノードに分類されたデータ、を含む決定木情報を保存する決定木情報格納手段と、基礎統計量や統計検定量など決定木の生成途中で計算された計算値や評価条件などである決定木生成評価情報を保存する決定木生成評価情報格納手段と、決定木生成手段により生成された決定木情報および決定木生成評価情報から決定木の末端のノードのデータ群に対し目的変数と説明変数とを考慮してモデル構造を作成するモデル作成用学習手段と、モデル作成用学習手段により作成されたモデル構造を保存するモデル格納手段と、を備えるモデル構造生成装置で用いられ、決定木生成に際し、複数属性のデータ群からなる学習データを親のノードに含み、ある一の属性に係るデータ群を連続数値属性の目的変数とし、また、残りの複数属性に係るデータ群をそれぞれ説明変数とする場合に、これら目的変数と説明変数との関係が所定の分類規則を満たすようなノードを複数生成して木構造に分岐させ、全ての説明変数を考慮して分岐された決定木を生成する決定木生成手段における決定木生成方法であって、
決定木生成手段により、決定木生成用学習データ格納手段から読み出された決定木生成用の学習データを含むノードである未評価のノードを分岐前ノードとして選択させる分岐前ノード選択ステップと、
決定木生成手段により、選択された分岐前ノードに含まれる学習データの基礎統計量を算出させる分岐前ノード統計量算出ステップと、
決定木生成手段により、この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択させる説明変数選択ステップと、
決定木生成手段により、選択された一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成させる分岐後ノード生成ステップと、一の分岐後ノードに含まれる学習データについての基礎統計量を全ての分岐後ノードに関して算出させる初期統計量算出ステップと、全ての分岐後ノードおよび分岐前ノードの中から二個の分岐後ノードまたは分岐前ノードと分岐後ノードとを選択させるノード選択ステップと、二個の分岐後ノードまたは分岐前ノードと分岐後ノードとに含まれる学習データの基礎統計量を用いて検定統計量を算出させ、評価制御情報格納手段から読み出された評価制御情報に含まれる有意水準に基づいて検定統計量に統計的に有意な差があるかないかを判断させ有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断させ、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断させるグループ化可能判断ステップと、グループ化が可能な二個の分岐後ノードまたは分岐前ノードと分岐後ノードとをグループ化して新たに一個の分岐後ノードを生成させるグループ化ステップと、新たにグループ化した分岐後ノードに含まれる学習データの基礎統計量を算出させるグループ化ノード統計量算出ステップと、残る分岐後ノードまたは分岐前ノードがグループ化が可能か否かを判断させ、これ以上のグループ化が不可能になるまで、分岐後ノード生成ステップ、初期統計量算出ステップ、ノード選択ステップ、グループ化可能判断ステップ、グループ化ステップ、およびグループ化ノード統計量算出ステップを繰り返すようにさせるグループ化継続判断ステップと、グループ化が不可能な場合に残った分岐後ノードを確定させるノード確定ステップと、を行うノード決定の一連のステップと、
決定木生成手段により、全ての説明変数について分岐後ノードを確定したか否かを判断させ、全ての説明変数について分岐後ノードが確定されるまで、説明変数選択ステップおよびノード決定の一連のステップを繰り返すようにさせるノード決定判断ステップと、
決定木生成手段により、全ての説明変数について分岐後ノードが確定された場合に分岐後ノードの説明変数を分岐条件として確定させる分岐条件確定ステップと、
決定木生成手段により、新たに生成された分岐後ノードが分岐を停止するノードであると評価されるか否かを判断し、分岐を停止するノードであると評価されると判断されるまでは分岐後ノードを新たな未評価のノードとして、分岐前ノード選択ステップ、分岐前ノード統計量算出ステップ、説明変数選択ステップ、ノード決定の一連のステップ、ノード決定判断ステップ、および、分岐条件確定ステップとを繰り返すようにさせる未評価ノード判断ステップと、
を有し、親ノードから分岐した複数ノードは、それぞれのノードに含まれる学習データ間で統計的に有意な差を持つように分類することで、各ノードにおける学習データの目的変数と説明変数の関係も有意な差を有するという分類規則で分類し、この分類によるときの説明変数を分岐条件とした決定木とすることを特徴とする決定木生成方法。
複数属性のデータ群からなる学習データを親のノードに含み、ある一の属性に係るデータ群を連続数値属性の目的変数とし、また、残りの複数属性に係るデータ群をそれぞれ説明変数とする場合に、これら目的変数と説明変数との関係が所定の分類規則を満たすようなノードを複数生成して木構造に分岐させ、全ての説明変数を考慮して分岐された決定木を生成し、この決定木に基づいてモデル構造を生成するモデル構造生成装置において、
複数属性のデータ群からなる学習データを格納する決定木生成用学習データ格納手段と、
決定木生成に用いる評価制御情報を格納する評価制御情報格納手段と、
学習データと評価制御情報とを読み込んで決定木を生成する決定木生成手段と、
決定木により分割された各ノードに関する分岐条件、および、各ノードに分類されたデータ、を含む決定木情報を保存する決定木情報格納手段と、
基礎統計量や統計検定量など決定木の生成途中で計算された計算値や評価条件などである決定木生成評価情報を保存する決定木生成評価情報格納手段と、
決定木生成手段により生成された決定木情報および決定木生成評価情報から決定木の末端のノードのデータ群に対し目的変数と説明変数を考慮してモデル構造を作成するモデル作成用学習手段と、
モデル作成用学習手段により作成されたモデル構造を保存するモデル格納手段と、
を備えるモデル構造生成装置であって、
前記の決定木生成手段は、
決定木生成用学習データ格納手段から読み出された決定木生成用の学習データを含むノードである未評価のノードを分岐前ノードとして選択する分岐前ノード選択処理と、
選択された分岐前ノードに含まれる学習データの基礎統計量を算出する分岐前ノード統計量算出処理と、
この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択する説明変数選択処理と、
選択された一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成する分岐後ノード生成処理と、一の分岐後ノードに含まれる学習データについての基礎統計量を全ての分岐後ノードに関して算出する初期統計量算出処理と、全ての分岐後ノードおよび分岐前ノードの中から二個の分岐後ノードまたは分岐前ノードと分岐後ノードとを選択するノード選択処理と、二個の分岐後ノードまたは分岐前ノードと分岐後ノードとに含まれる学習データの基礎統計量を用いて検定統計量を算出し、評価制御情報格納手段から読み出された評価制御情報に含まれる有意水準に基づいて検定統計量に統計的に有意な差があるかないかを判断し有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断し、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断するグループ化可能判断処理と、グループ化が可能な二個の分岐後ノードまたは分岐前ノードと分岐後ノードとをグループ化して新たに一個の分岐後ノードを生成するグループ化処理と、新たにグループ化した分岐後ノードに含まれる学習データの基礎統計量を算出するグループ化ノード統計量算出処理と、残る分岐後ノードまたは分岐前ノードがグループ化が可能か否かを判断し、これ以上のグループ化が不可能になるまで、分岐後ノード生成処理、初期統計量算出処理、ノード選択処理、グループ化可能判断処理、グループ化処理、およびグループ化ノード統計量算出処理を繰り返すようにするグループ化継続判断処理と、グループ化が不可能な場合に残った分岐後ノードを確定するノード確定処理と、を行うノード決定の一連の処理と、
全ての説明変数について分岐後ノードを確定したか否かを判断し、全ての説明変数について分岐後ノードが確定されるまで、説明変数選択処理およびノード決定の一連の処理を繰り返すようにするノード決定判断処理と、
全ての説明変数について分岐後ノードが確定した場合に分岐後ノードの説明変数を分岐条件として確定する分岐条件確定処理と、
新たに生成した分岐後ノードが分岐を停止するノードであると評価されるか否かを判断し、分岐を停止するノードであると評価するものと判断されるまでは分岐後ノードを新たな未評価のノードとして、分岐前ノード選択処理、分岐前ノード統計量算出処理、説明変数選択処理、ノード決定の一連の処理、ノード決定判断処理、および、分岐条件確定処理とを繰り返すようにする未評価ノード判断処理と、
を行い、親ノードから分岐した複数ノードは、それぞれのノードに含まれる学習データ間で統計的に有意な差を持つように分類することで、各ノードにおける学習データの目的変数と説明変数の関係も有意な差を有するという分類規則で分類し、この分類によるときの説明変数を分岐条件とした決定木とすることを特徴とするモデル構造生成装置。