JP3897169B2 - 決定木生成方法およびモデル構造生成装置 - Google Patents

決定木生成方法およびモデル構造生成装置 Download PDF

Info

Publication number
JP3897169B2
JP3897169B2 JP2002323610A JP2002323610A JP3897169B2 JP 3897169 B2 JP3897169 B2 JP 3897169B2 JP 2002323610 A JP2002323610 A JP 2002323610A JP 2002323610 A JP2002323610 A JP 2002323610A JP 3897169 B2 JP3897169 B2 JP 3897169B2
Authority
JP
Japan
Prior art keywords
node
branch
decision tree
post
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002323610A
Other languages
English (en)
Other versions
JP2004157814A (ja
Inventor
道夫 竹中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Holdings Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Holdings Ltd filed Critical Fuji Electric Holdings Ltd
Priority to JP2002323610A priority Critical patent/JP3897169B2/ja
Publication of JP2004157814A publication Critical patent/JP2004157814A/ja
Application granted granted Critical
Publication of JP3897169B2 publication Critical patent/JP3897169B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、予め蓄積された多種多量の学習データの中から関連する学習データへの分類とその分類規則の生成を行う決定木生成方法、および、予測または診断などを行うモデルのモデル構造を決定するためのモデル構造生成装置に関する。
【0002】
【従来の技術】
データマイニングでは、蓄積された多種多量のデータを解析して内在する複雑な関係を抽出し、予測または診断などを行うモデルを構築する必要がある。このようなモデルとしては、大きく分けて次の3種のモデルが一般的によく利用されている。
【0003】
(1)重回帰モデル
目的変数とそれに影響を与える多数の説明変数との関係を表現した回帰式を導出し、この回帰式により目的変数値を算出する。
(2)ニューラルネットワークモデル
過去実績データにより入力変数間の重み係数を学習してニューラルネットワークを構築し、このニューラルネットワークにより目的変数値を算出する。
(3)過去事例モデル
類似した状態の実績データを抽出・補正して過去事例モデルを構築し、この過去事例モデルにより目的変数値を算出する。
【0004】
しかし、予測・診断を行うモデルとして重回帰モデル、または、ニューラルネットワークモデルを適用する場合、条件(例えば、朝・昼・晩という時間条件、春・夏・秋・冬という季節条件などである)が異なれば、その条件におけるデータ群毎にデータ特性が大きく変化することが知見されており、このような複数条件のデータ群に対応できるような一つのモデルを構築しようとしても、精度の良いモデルを構築できないことが経験的に知られている。
【0005】
このような問題に対処するため、モデル化対象となるデータを特性変化点で複数区間に分割し、それぞれのデータ区間に対応した複数のニューラルネットワークを組み合わせたモデルを構築する方法が、例えば、非特許文献1または非特許文献2に開示されている。
このようなモデル構築方法により構築されたモデルは予測精度を向上させているが、モデル化に必要な入力変数やモデル構造の決定は依然人手により試行錯誤的に行われ、労力がかかっているのが現状である。
【0006】
このようなモデル構築の自動化を実現するため、データの分類規則を木構造で表現する決定木を用い、その分類規則をコンピュータ等で自動的に生成する方法が各種提案されている。
代表的な手法として、ID3(Iterative Dichotomiser 3)やその発展形であるC4.5、CART(Classification And Regression Trees)、CHAID(Chi-squared Automatic Interaction Detection)などがある。これら手法は、例えば、非特許文献3に詳しく記載されている。
これら方法は、分類後の多様性(目的変数が離散属性の場合はカテゴリ変数の均等分布性であり、目的変数が連続数値属性の場合は分位数や等分でn分割した区間の均等分布性である)が最も減少する条件を最良の分類規則として決定していくものである。このときの多様性の基準としては、平均情報量から求める利得や利得比、ジニ(Gini)の多様性指標、およびそれらを改良した指標などが使用されている。
【0007】
しかし、いずれの方法も扱う目的変数・説明変数は基本的には離散属性に属する変数に適したものであり、連続数値属性に属する変数に適したものではなかった。実際上、上記方法で連続数値属性を扱えるようにするため、分位数や等分でn分割した区間の均等分布性である区間を分割して離散化した上で多様性指標を大きく減少させるように決定木を生成するという手法を用いている。
【0008】
この点について図を参照しつつ説明する。図14は連続数値属性で相関のあるデータの決定木を説明する説明図である。決定木生成時にある説明変数に対し、矩形単位にした範囲に目的変数の同じカテゴリのデータが多く存在するように分割するため、図14で示すような細分化された矩形を生成する必要がある。このため、目的変数と説明変数との間にはっきりした相関があってもそのデータ分布特徴が抽出できずに、細かな分割を行ってしまう。
【0009】
このように目的変数が連続数値属性の場合である説明変数との相関が強く線形式で近似可能なデータ群があるとしても、図14のような離散化範囲単位で決定木を生成するため、一つのデータ群としては分類できない。
たとえば、夏は正の強い相関(線形式で近似可)、冬は負の強い相関(線形式で近似可)のデータがあった場合、夏用と冬用の2つの線形式モデルを作成して季節を判断して切り分けてモデルを適用すれば良いが、前記した決定木の生成方法ではある区間(矩形)単位の分類となってしまうために分類が細かくなってしまうなどうまく分類ができない。
【0010】
以上説明したように、従来技術の決定木生成では、目的変数が離散属性の場合は木構造を精度良く作成できるが、目的変数が連続数値属性の場合には精度良くならない場合があり、精度良いモデルの自動的な構築が不可能であり、人手による試行錯誤によるモデル構築が避けられないという問題点があった。
【0011】
【非特許文献1】
飯坂,松井,植木,「ニューロ・ファジーによるダム流入量予測システムの開発」,電気学会論文誌B,Vol.119-B,No.10,1999年
【非特許文献2】
相沢,石原,石岡,松井,飯坂,福山,「負荷種別を考慮したNN応用電力需要予測の検討」,平成13年電気学会全国大会,No.6-054,2001年
【非特許文献3】
Michael J.A.Berry,Gordon Linoff(江原, 佐藤訳),「データマイニング手法」,海文堂出版,2000年
【0012】
【発明が解決しようとする課題】
前述の従来技術では、予測、診断などの機能を実現するためのモデル構造の決定は人手により試行錯誤を繰り返すことにより実現していたため、目的とするモデルの作成および実現対象の構成変化に伴うモデル構成の変更に多くの作業工数を必要としていた。
【0013】
また、予測、診断などの機能実現のために対象データの分類基準作成を自動で行う決定木生成方法は開発されているが、前記したようにそれらの方法ではある条件での線形性や分布範囲の違いなど(以下、データ分布特徴という)による分類はできないというものであった。
データ分布特徴の分類が実現できれば、ある条件で抽出したデータ群に対しては線形モデル、別の条件で抽出したデータ群に対しては別の線形モデル、また別の条件で抽出したデータ群に対してはニューラルネットワークモデルなどのように、条件により抽出されたデータ群ごとに適切な(精度良い)モデルを適用することができるようになる。
【0014】
本発明は、上記課題を解決するためになされたものであり、その目的とするところは、予測、診断などの機能を実現するためのモデル構造の決定や変更を容易にするため、連続数値属性にある学習データをデータ分布特徴に基づいて決定木により分類するような決定木生成方法、および、この決定木生成方法を用いて自動的にモデルを構築するモデル構造生成装置を提供することにある。
【0015】
【課題を解決するための手段】
上記課題を解決するためになされた請求項1記載の発明に係る決定木生成方法は、
複数属性のデータ群からなる学習データを格納する決定木生成用学習データ格納手段と、決定木生成に用いる評価制御情報を格納する評価制御情報格納手段と、学習データと評価制御情報とを読み込んで決定木を生成する決定木生成手段と、決定木により分割された各ノードに関する分岐条件、および、各ノードに分類されたデータ、を含む決定木情報を保存する決定木情報格納手段と、基礎統計量や統計検定量など決定木の生成途中で計算された計算値や評価条件などである決定木生成評価情報を保存する決定木生成評価情報格納手段と、決定木生成手段により生成された決定木情報および決定木生成評価情報から決定木の末端のノードのデータ群に対し目的変数と説明変数とを考慮してモデル構造を作成するモデル作成用学習手段と、モデル作成用学習手段により作成されたモデル構造を保存するモデル格納手段と、を備えるモデル構造生成装置で用いられ、決定木生成に際し、複数属性のデータ群からなる学習データを親のノードに含み、ある一の属性に係るデータ群を連続数値属性の目的変数とし、また、残りの複数属性に係るデータ群をそれぞれ説明変数とする場合に、これら目的変数と説明変数との関係が所定の分類規則を満たすようなノードを複数生成して木構造に分岐させ、全ての説明変数を考慮して分岐された決定木を生成する決定木生成手段における決定木生成方法であって、
決定木生成手段により、決定木生成用学習データ格納手段から読み出された決定木生成用の学習データを含むノードである未評価のノードを分岐前ノードとして選択させる分岐前ノード選択ステップと、
決定木生成手段により、選択された分岐前ノードに含まれる学習データの基礎統計量を算出させる分岐前ノード統計量算出ステップと、
決定木生成手段により、この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択させる説明変数選択ステップと、
決定木生成手段により、選択された一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成させる分岐後ノード生成ステップと、一の分岐後ノードに含まれる学習データについての基礎統計量を全ての分岐後ノードに関して算出させる初期統計量算出ステップと、全ての分岐後ノードおよび分岐前ノードの中から二個の分岐後ノードまたは分岐前ノードと分岐後ノードとを選択させるノード選択ステップと、二個の分岐後ノードまたは分岐前ノードと分岐後ノードとに含まれる学習データの基礎統計量を用いて検定統計量を算出させ、評価制御情報格納手段から読み出された評価制御情報に含まれる有意水準に基づいて検定統計量に統計的に有意な差があるかないかを判断させ有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断させ、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断させるグループ化可能判断ステップと、グループ化が可能な二個の分岐後ノードまたは分岐前ノードと分岐後ノードとをグループ化して新たに一個の分岐後ノードを生成させるグループ化ステップと、新たにグループ化した分岐後ノードに含まれる学習データの基礎統計量を算出させるグループ化ノード統計量算出ステップと、残る分岐後ノードまたは分岐前ノードがグループ化が可能か否かを判断させ、これ以上のグループ化が不可能になるまで、分岐後ノード生成ステップ、初期統計量算出ステップ、ノード選択ステップ、グループ化可能判断ステップ、グループ化ステップ、およびグループ化ノード統計量算出ステップを繰り返すようにさせるグループ化継続判断ステップと、グループ化が不可能な場合に残った分岐後ノードを確定させるノード確定ステップと、を行うノード決定の一連のステップと、
決定木生成手段により、全ての説明変数について分岐後ノードを確定したか否かを判断させ、全ての説明変数について分岐後ノードが確定されるまで、説明変数選択ステップおよびノード決定の一連のステップを繰り返すようにさせるノード決定判断ステップと、
決定木生成手段により、全ての説明変数について分岐後ノードが確定された場合に分岐後ノードの説明変数を分岐条件として確定させる分岐条件確定ステップと、
決定木生成手段により、新たに生成された分岐後ノードが分岐を停止するノードであると評価されるか否かを判断し、分岐を停止するノードであると評価されると判断されるまでは分岐後ノードを新たな未評価のノードとして、分岐前ノード選択ステップ、分岐前ノード統計量算出ステップ、説明変数選択ステップ、ノード決定の一連のステップ、ノード決定判断ステップ、および、分岐条件確定ステップとを繰り返すようにさせる未評価ノード判断ステップと、
を有し、親ノードから分岐した複数ノードは、それぞれのノードに含まれる学習データ間で統計的に有意な差を持つように分類することで、各ノードにおける学習データの目的変数と説明変数の関係も有意な差を有するという分類規則で分類し、この分類によるときの説明変数を分岐条件とした決定木とすることを特徴とする。
【0016】
この決定木生成方法では、平均値や分散が大きく異なること、または、相関が高く線形性があることなどのデータ分布特徴による分類を実現しているため、あまり細かな分類にはならずにそのデータ分布特徴や入力因子とすべき変数が明確になるので、精度の高い決定木の生成が少ない工数で可能となる。
また、この決定木生成方法では、全ての説明変数について決定木生成可能か否かを判断して分類するというものであり、全ての説明変数のデータ分布特徴による分類規則を構築することができる。
これにより、データ分布特徴が異なる決定木に分岐しているため、この決定木を参考にしてモデル構築を行うことができる。
【0017】
また、請求項2記載の発明に係るモデル構造生成装置は、
複数属性のデータ群からなる学習データを親のノードに含み、ある一の属性に係るデータ群を連続数値属性の目的変数とし、また、残りの複数属性に係るデータ群をそれぞれ説明変数とする場合に、これら目的変数と説明変数との関係が所定の分類規則を満たすようなノードを複数生成して木構造に分岐させ、全ての説明変数を考慮して分岐された決定木を生成し、この決定木に基づいてモデル構造を生成するモデル構造生成装置において、
複数属性のデータ群からなる学習データを格納する決定木生成用学習データ格納手段と、
決定木生成に用いる評価制御情報を格納する評価制御情報格納手段と、
学習データと評価制御情報とを読み込んで決定木を生成する決定木生成手段と、
決定木により分割された各ノードに関する分岐条件、および、各ノードに分類されたデータ、を含む決定木情報を保存する決定木情報格納手段と、
基礎統計量や統計検定量など決定木の生成途中で計算された計算値や評価条件などである決定木生成評価情報を保存する決定木生成評価情報格納手段と、
決定木生成手段により生成された決定木情報および決定木生成評価情報から決定木の末端のノードのデータ群に対し目的変数と説明変数を考慮してモデル構造を作成するモデル作成用学習手段と、
モデル作成用学習手段により作成されたモデル構造を保存するモデル格納手段と、
を備えるモデル構造生成装置であって、
前記の決定木生成手段は、
決定木生成用学習データ格納手段から読み出された決定木生成用の学習データを含むノードである未評価のノードを分岐前ノードとして選択する分岐前ノード選択処理と、
選択された分岐前ノードに含まれる学習データの基礎統計量を算出する分岐前ノード統計量算出処理と、
この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択する説明変数選択処理と、
選択された一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成する分岐後ノード生成処理と、一の分岐後ノードに含まれる学習データについての基礎統計量を全ての分岐後ノードに関して算出する初期統計量算出処理と、全ての分岐後ノードおよび分岐前ノードの中から二個の分岐後ノードまたは分岐前ノードと分岐後ノードとを選択するノード選択処理と、二個の分岐後ノードまたは分岐前ノードと分岐後ノードとに含まれる学習データの基礎統計量を用いて検定統計量を算出し、評価制御情報格納手段から読み出された評価制御情報に含まれる有意水準に基づいて検定統計量に統計的に有意な差があるかないかを判断し有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断し、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断するグループ化可能判断処理と、グループ化が可能な二個の分岐後ノードまたは分岐前ノードと分岐後ノードとをグループ化して新たに一個の分岐後ノードを生成するグループ化処理と、新たにグループ化した分岐後ノードに含まれる学習データの基礎統計量を算出するグループ化ノード統計量算出処理と、残る分岐後ノードまたは分岐前ノードがグループ化が可能か否かを判断し、これ以上のグループ化が不可能になるまで、分岐後ノード生成処理、初期統計量算出処理、ノード選択処理、グループ化可能判断処理、グループ化処理、およびグループ化ノード統計量算出処理を繰り返すようにするグループ化継続判断処理と、グループ化が不可能な場合に残った分岐後ノードを確定するノード確定処理と、を行うノード決定の一連の処理と、
全ての説明変数について分岐後ノードを確定したか否かを判断し、全ての説明変数について分岐後ノードが確定されるまで、説明変数選択処理およびノード決定の一連の処理を繰り返すようにするノード決定判断処理と、
全ての説明変数について分岐後ノードが確定した場合に分岐後ノードの説明変数を分岐 条件として確定する分岐条件確定処理と、
新たに生成した分岐後ノードが分岐を停止するノードであると評価されるか否かを判断し、分岐を停止するノードであると評価するものと判断されるまでは分岐後ノードを新たな未評価のノードとして、分岐前ノード選択処理、分岐前ノード統計量算出処理、説明変数選択処理、ノード決定の一連の処理、ノード決定判断処理、および、分岐条件確定処理とを繰り返すようにする未評価ノード判断処理と、
を行い、親ノードから分岐した複数ノードは、それぞれのノードに含まれる学習データ間で統計的に有意な差を持つように分類することで、各ノードにおける学習データの目的変数と説明変数の関係も有意な差を有するという分類規則で分類し、この分類によるときの説明変数を分岐条件とした決定木とすることを特徴とする。
【0018】
本発明のモデル構造生成装置によれば、連続数値属性に係るデータであって、蓄積された実績データをそのまま学習データとしてモデル分割の条件を決定木により決定し、これにより分類された類似性の高いデータ単位にモデル化が行えるので、より精度の高いモデルの構築が少ない工数で可能となる。
【0021】
【発明の実施の形態】
以下、本発明の決定木生成方法およびモデル構造生成装置の実施形態について図を参照しつつ一括して説明する。図1はモデル構造生成装置の構成図、図2は決定木生成用の学習データのデータ構造図、図3,図4,図5は決定木生成方法のフローチャート、図6,図7は分岐後ノードに含まれる学習データのデータ構造を説明する説明図、図8は統計的検定を説明する説明図、図9は決定木により表されたモデル構造の説明図である。
なお、本実施形態では、モデル構造生成装置とは、具体的にはコンピュータであり、このコンピュータが後述する各手段を実行することでモデル構造生成装置としての機能を果たす。
【0022】
まず、モデル構造生成装置について説明する。
図1で示すモデル構造生成装置は、決定木生成用学習データ格納手段1と、評価制御情報格納手段2と、決定木生成手段3と、決定木情報格納手段4と、決定木生成評価情報格納手段5と、モデル作成用学習手段6と、モデル格納手段7と、を備えている。
【0023】
このモデル構造生成装置では、決定木生成用学習データ格納手段1と、評価制御情報格納手段2とが、決定木生成手段3への入力データである決定木生成用の学習データおよび評価制御情報を登録する。
また、決定木情報格納手段4と、決定木生成評価情報格納手段5とが、決定木生成手段3からの出力データである決定木情報および決定木生成評価情報を登録する。これら決定木情報および決定木生成評価情報は、モデル作成用学習手段6へ出力される。
また、モデル格納手段7が、モデル作成用学習手段6からの出力データであるモデル構造データを登録する。
【0024】
決定木生成用学習データ格納手段1は、入力されたデータを保存するデータベース機能を有しており、目的とする予測・診断を実現するのに必要と思われる過去の実績データを決定木生成用の学習データとして取り込む処理、および、取り込んだ学習データを保存する。このデータベース構造とは、ある属性に属するデータ群が複数属性にわたり含まれるようなデータ構造である。
【0025】
例えば、決定木生成用の学習データは、図2で示すようなデータ構造を有している。このデータ構造は、たとえば、表計算ソフトウェアで用いられる表計算データ(複数属性に含まれる一組みのデータを複数行で表したデータ)である。
図2において、1行目は属性名を列挙したものであり、2行目以降はそれに対応する属性値を列挙したファイルである。各行は、例えば時系列的なデータであることを示している。
また、特に図示しないがCSV形式データ(複数属性を表ではなく単にカンマ区切りで表したデータ等のデータベース構造)を採用しても良い。
この学習用データは、図9で示す親ノードに含まれる全データに相当する。この学習データは、図9でも明らかなように、データ分布特徴を直感的に把握できないようになっている。
【0026】
評価制御情報格納手段2は、入力されたデータを保存するデータベース機能を有しており、以下に示すような決定木生成における分岐する変数決定のための各種評価項目のしきい値やその適用順序を定義する処理にかかる評価制御情報を格納する。
<目的変数が連続数値属性の場合>
・2つのノード間のある属性(通常は目的変数)のデータ群の平均値、分散、相関係数の有意差検定用の有意水準
・平均値、分散、相関係数の有意差を判断する順序
・分岐を終了する相関係数値
<目的変数が離散属性の場合>
・評価基準の選択(情報量利得、利得比のどちらを採用するかの指定)
・評価基準(情報量利得、利得比)のしきい値
<共通>
・学習データの複数属性に係るデータ群を目的変数、説明変数として指定
・連続数値属性の説明変数の分割数と方法(平均値で2分割、5等分など)
・分岐を終了する1ノード内の最大データ数(行数;これより小さいとき分岐を中止する)
【0027】
決定木生成手段3は、決定木生成用学習データ格納手段1から学習データを、また、評価制御情報格納手段2から評価制御情報を読み込んで決定木を生成する処理である。
なお、決定木生成方法については後述する。
【0028】
決定木情報(ノードデータ)格納手段4は、決定木生成手段3により決定された分岐条件、および、各ノードに分類されたデータなどの決定木情報(ノードデータ)を保存する。
なお、格納されるデータの構成は決定木生成用の学習データと同じであり、図2で示すようなデータベース構造を有しているが行数が分岐により減少している。このデータ構造も、表計算ソフトウェアで用いられる表計算データ(複数属性を列とした一組のデータを複数行で表したデータ)であり、1行目は属性名を列挙したものであり、2行目以降はそれに対応する属性値を列挙したファイルである。
【0029】
また、決定木生成評価情報格納手段5は、基礎統計量や統計検定量など決定木の生成途中で計算された計算値や評価条件などである決定木生成評価情報を保存する。
この決定木生成評価情報は、詳しくは以下の項目が出力される。
連続数値属性の場合における分割前・分割後の基礎統計量は、平均値、分散、最小値、最大値、標本数、数値変数間の相関係数である。
離散属性の場合における分割前、分割後の基礎統計量は、カテゴリ数、標本数である。
さらに、分岐前と各分岐後ノード、各分岐後ノード間の統計検定量および有意水準点との比較結果が含まれる。
【0030】
モデル作成用学習手段6は、これら決定木情報および決定木生成評価情報に従って分類された末端のノードに含まれるデータ単位で目的変数と説明変数とを考慮してモデル化のための学習や計算を行い、モデル構造を作成する。
たとえば、あるノードで目的変数とある一つの説明変数とで相関が非常に高い場合は単回帰による近似式を作成し、また、あるノードで目的変数と複数の説明変数とで相関がある程度高い場合は重回帰による近似式を作成する。また、あるノードで非線形の場合にはニューラルネットワークによる学習を行うなどしてモデル化する。また、あるノードでは説明変数の変化に拘わらず目的変数の値が集中しているようなデータ群の場合は、そのまま目的変数の値を予測値や診断値とするモデルとなる。
なお、モデル構築についても決定木生成方法の説明とともに後述する。
【0031】
ここで、モデル化(または学習)に使用するデータは、生成した決定木の分類基準で該当ノードに分類されたデータであれば、決定木の生成で使用したデータでも良いし、新たなデータでも良い。
【0032】
モデル格納手段7は、作成されたモデルを、モデルの分類基準となる決定木とともにモデル構造をモデル構造データとして保存する。
モデル構造生成装置はこのようなものである。
【0033】
続いて先にモデル構造生成装置の決定木生成手段3で実施される決定木生成方法について、図3〜図5の決定木生成方法のフローチャートを参照しつつ説明する。
まず、図3のステップS1では、目的変数が連続数値属性か否かの判断を行う。この判断に際してはオペレータが予め属性の中から予測等の対象となる目的変数を判断して選択してあるものとする。
【0034】
例えば、目的変数が数値ならば連続数値属性であると判断され、一方、目的変数が高い、普通、低いというようなものであれば連続数値属性でなく離散属性であると判断される。このとき、通常は連続数値属性として取り扱われる整数でも取りうる値の種類が少ない(例えば目的変数が0,1,2のみ)場合は離散属性とする。本実施形態では、例えば図2で示すような属性1に属するデータ群(連続数値属性)が目的変数として選択されるものとして以下説明する。このような判断は評価制御情報格納手段2に登録してあるため、直ちに判別することができる。
連続数値属性であると判断された場合はステップS11へジャンプし、また、連続数値属性でない(つまり離散属性である)と判断された場合はステップS21へジャンプする。
【0035】
目的変数が連続数値属性の場合は、ステップS11〜ステップS17により、目的変数に着目した平均、分散、または、各説明変数との相関係数などの基礎統計量により分岐を行う。
ステップS11では、未評価のノードを分岐前ノードとして選択する(分岐前ノード選択ステップ)。
一番最初の未評価のノードは、全ての決定木生成用の学習データを含むノードである。例えば、図2で示すように目的変数と説明変数1〜説明変数n−1の全ての行のデータを含むようなノードである。このような未評価のノードを分岐前ノードとする。
【0036】
続いて、ステップS12では、選択された分岐前ノードに含まれる学習データの基礎統計量を算出する(分岐前ノード統計量算出ステップ)。
ここに基礎統計量の候補としては、平均値、中央値[メジアン]、最頻値[モード] 、標準偏差、分散、尖度、歪度、範囲、最小値、最大値、合計、標本数が考えられる。
【0037】
ただし、本アルゴリズムの中では分割有無の評価に必要な項目のみとして、連続数値変数の場合は目的変数についての平均値、分散、最小値、最大値、標本数を算出する。
さらに、数値変数については目的変数と説明変数との相関係数を算出する。ここでは、目的変数とある一つの説明変数についての相関係数を、説明変数毎に異ならせて複数算出しておく。
【0038】
ステップS13は、この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択する(説明変数選択ステップ)。
ある一の説明変数に着目してノード分岐を決定するため、その対象となる説明変数を選択する。
【0039】
ステップS14は、その説明変数についてのノードを決定する(ノード決定ステップ)。具体的には図4に示された連続数値属性用の決定木生成方法により決定される。
【0040】
ステップS141は、一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成する(分岐後ノード生成ステップ)。
分岐後ノードとは、例えば図2で示す決定木生成用の学習データに対してある一つの説明変数について所定条件で分割を行って生成した複数ノードである。
【0041】
分岐後ノードの生成について具体例を挙げて説明する。
例えば、図2で示す決定木生成用学習データにおいて、説明変数1(属性2)に着目すると、説明変数1は離散属性であり、AA,BB,CCというデータである。この説明変数1に着目して分類すると、図6で示すように、説明変数1(属性2)がAA毎の分岐後ノード1,説明変数1(属性2)がBB毎の分岐後ノード2,説明変数1(属性2)がCC毎の分岐後ノード3というように説明変数1について複数の分岐後ノードを生成する。この場合、他の説明変数については考慮されない。
【0042】
また、図2で示す決定木生成用学習データにおいて、説明変数2(属性3)に着目すると、説明変数2が数値、つまり、連続数値属性ならば所定分割数に分ける。例えば、説明変数2について所定分割数が3である(つまり3個のノードを生成する)ものとし、説明変数2(属性3)が0.0〜3.0の範囲に含まれる値ならば、図7で示すように、説明変数2(属性3)が0.0以上〜1.0未満で纏めた分岐後ノード1、説明変数2(属性3)が1.0以上〜2.0未満で纏めた分岐後ノード2、説明変数2(属性3)が2.0以上〜3.0以下で纏めた分岐後ノード3が3つ生成される。分岐後ノードの生成はこのように行われる。
【0043】
ステップS142は、一の分岐後ノードに含まれる学習データについての基礎統計量を全ての分岐後ノードに関して算出する(初期統計量算出ステップ)。
このような全ての分岐後ノードについての基礎統計量の算出を行うこととなるが、連続数値属性の目的変数の場合は目的変数の平均値、分散、最小値、最大値、標本数を算出する。さらに、連続数値属性については目的変数と説明変数(ステップS13で選択された説明変数)の相関係数も算出する。
【0044】
ステップS143では、全ての分岐後ノードおよび分岐前ノードの中から二個の分岐後ノードまたは分岐前ノードと分岐後ノードとを選択する(ノード選択ステップ)。
選択は、例えば、隣接する二個の分岐後ノードを選択するなど、種々の選択方式を採用することができる。
【0045】
ステップS144では、二個の分岐後ノードまたは分岐前ノードと分岐後ノードとに含まれる学習データの基礎統計量を用いて検定統計量を算出させ、評価制御情報格納手段から読み出された評価制御情報に含まれる有意水準に基づいて検定統計量に、統計的に有意な差があるかないかを判断させ有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断させ、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断させる(グループ化可能判断ステップ)。
このとき、二個の分岐後のノード間または分岐前ノードと分岐後ノードとの間の基礎統計量のすべてに統計的な有意差が無ければ同様なデータ分布をしていると見なすことができるので、それらはグループ化が可能と判断する。
【0046】
分岐が有効であるかどうか判断するためには分岐前と分岐後、または分岐後のノード間の基礎統計量を比較する必要がある。そのまま比較すると、対象とするデータのオーダーに合わせてしきい値を変える必要があり、現実的(汎用的)ではない。その問題を解決するには、対象とするデータがどんなオーダー、分布であっても同じスケールで評価できるようにする必要がある。その方法として、2つの母集団の平均、分散、相関係数など基礎統計量の有意差の有無を検定する統計的検定の方法を採用している。
以下に、平均、分散、相関係数についての有意差の検定方法についてそれぞれ示す。
なお、以下に述べる統計検定量については、(参考文献:石村,「統計解析のはなし」,東京図書, 1989年)を基にしている。
【0047】
(1)ノード間の母平均(2つ母集団の母平均の差)の検定
まず、以下の仮説をたてる。
仮説H0 :分岐前ノードと分岐後ノード(または二個の分岐後ノード間)で平均に有意な差がない
対立仮説H1:分岐前ノードと分岐後ノード(または二個の分岐後ノード間)で平均に有意な差がある
【0048】
仮説H0を破棄する有意水準αを設定し、そのときのしきい値を求める。
有意水準α :危険率、棄却域(全データを1とした時の割合)
t(α) :有意水準αの時の検定統計量Tに対する棄却域のパーセント点(しきい値)
【0049】
検定統計量Tを求め、それがしきい値以内の場合は仮説H0を採用し、超える場合は有意差ありのため対立仮説H1を採用する。
これは、図8で示すようにt分布では有意水準αで棄却域に含まれるような場合に、有意な差があると判断される。
【0050】
検定統計量T:自由度mのt分布に従い、次式で算出する。ここに自由度mは整数であり、整数でない時はもっとも近い整数とする。
なお、次式では二個の分岐後ノードをノード1およびノード2として表している。さらに、ノードのデータとは目的変数のデータのみを利用する。
【0051】
【数1】
Figure 0003897169
【0052】
続いて、他の手法について述べる。
(2)ノード間の母分散(2つ母集団の母分散の差)の検定
以下の仮説をたてる。
仮説H0 :分岐前ノードと分岐後ノード(または二個の分岐後ノード間)で分散に有意な差がない
対立仮説H1 :分岐前ノードと分岐後ノード(または二個の分岐後ノード間)で分散に有意な差がある
【0053】
仮説H0を破棄する有意水準αを設定し、そのときのしきい値を求める。
有意水準α :危険率、棄却域(全データを1とした時の割合)
t(α) :有意水準αの時の検定統計量Tに対する棄却域のパーセント点(しきい値)
【0054】
検定統計量Tを求め、それがしきい値以内の場合は仮説H0を採用し、超える場合は有意差ありのため対立仮説H1を採用する。
検定統計量T:自由度(N1−1,N2−1)のF分布に従い、次式で算出する。なお、次式では二個の分岐後ノードをノード1およびノード2として表している。さらに、ノードのデータとは目的変数のデータのみを利用する。
【0055】
【数2】
Figure 0003897169
【0056】
続いて、他の手法について述べる。
(3)ノード間の母相関係数の検定
以下の仮説をたてる。
仮説H0 :分岐前ノードと分岐後ノードで相関係数に有意な差がない
対立仮説H1 :分岐前ノードと分岐後ノードで相関係数に有意な差がある
【0057】
仮説H0を破棄する有意水準αを設定し、そのときのしきい値を求める。
有意水準α :危険率、棄却域(全データを1とした時の割合)
t(α) :有意水準αの時の検定統計量Tに対する棄却域のパーセント点(しきい値)
【0058】
検定統計量Tを求め、それがしきい値以内の場合は仮説H0を採用し、超える場合は有意差ありのため対立仮説H1を採用する。
検定統計量T:検定統計量(標準正規分布N(0,12))に従い、次式で算出する。
なお、ノードのデータとは目的変数のデータのみを利用する。
【0059】
【数3】
Figure 0003897169
【0060】
このようにして、検定統計量に統計的に有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断してステップS145へ進み、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断してステップS147の先頭へジャンプする。
【0061】
ステップS145では二個の分岐後ノードまたは分岐前ノードと分岐後ノードとは有意な差がなくグループ化が可能と判断された二個の分岐後ノードまたは分岐前ノードと分岐後ノードとをグループ化して新たに一個の分岐後ノードを生成する(グループ化ステップ)。
このグループ化では、それぞれのノードの学習データが結合されて新たな学習データが生成される(例えば、図7で示す分岐後ノード1と分岐後ノード2とが結合された学習データである)。
【0062】
ステップS146は、グループ化した分岐後ノードに含まれる学習データの基礎統計量を算出する(グループ化ノード統計量算出ステップ)。
上記したステップS142と同様に基礎統計量を算出する。
【0063】
ステップS147は、ステップS145で生成した新しい分岐後ノードも含み、残る分岐後ノードまたは分岐前ノードがグループ化が可能か否かを判断する(グループ化継続判断ステップ)。具体的には残る分岐後ノードまたは分岐前ノードが、全て有意な差がある場合は、グループ化が行われない。
一方、有意な差がない場合はグループ化されることとなり、グループ化が不可能になるまで、分岐後ノード生成ステップ(S141)、初期統計量算出ステップ(S142)、ノード選択ステップ(S143)、グループ化可能判断ステップ(S144)、グループ化ステップ(S145)、およびグループ化ノード統計量算出ステップ(S146)を繰り返すようにする。
【0064】
以下、ステップS141〜ステップS147を繰り返してノードのグループ化を行い、最終的に有意な差があるノードしかないような場合、または、全てグループ化されて一つのノード(分岐前ノードと同じである)が残る場合に、ステップS147で二個のノードのグループ化が不可能であると判断して、ステップS148へ進む。
【0065】
ステップS148では、グループ化が不可能な場合に残った分岐後ノードをノードとして確定する(ノード確定ステップ)。
例えば、図6の説明変数1は離散属性であり、AA,BB,CCというデータであるが、仮に上記した処理により、これらをAAとBBとでは有意な差がないとしてグループ化し、CCと他は有意な差があるとしてグループ化が行われないような場合、分類規則は説明変数1がCCの場合とCCでない場合とに分けられる。これで1の説明変数におけるノードの分岐条件が判別し、ノードが確定することとなる。
【0066】
続いて、図3で示すステップS15の先頭へ戻る。
ステップS15では、全ての説明変数についてノードを決定したか否かを判断する(ノード決定判断ステップ)。そして、全ての説明変数についてノード決定されるまで、説明変数選択ステップ(S13)およびノード決定ステップ(S14)を繰り返すようにする。
【0067】
ステップS16は、全ての説明変数についてノード決定された場合に最終的なノードの分岐条件(分類規則)を確定する(分岐条件確定ステップ)。
この場合、説明変数ごとに分岐前ノードと分岐後ノードの統計的有意差の有無を判断し、以下の条件を満たすものをこの分岐する説明変数とする。
条件1:分岐ノード数に対する有意差有りのノード数の割合が大きい説明変数
条件2:条件1が同値の場合は、有意差有りのノードに対して、統計検定量と有意水準パーセント点の差の絶対値平均が大きい説明変数
これであるノードについて全ての説明変数について分岐させた場合の統計的有意差の評価を行い、上記条件の最も良いノードの分岐条件(説明変数)が確定される。
【0068】
ステップS17は、新たに生成したノードを含む全てのノードを評価したか否かを判断する(未評価ノード判断ステップ)。全てのノードについて評価されるまで、分岐前ノード選択ステップ(S11)、分岐前ノード統計量算出ステップ(S12)、説明変数選択ステップ(S13)、ノード決定ステップ(S14)、ノード決定判断ステップ(S15)、および、分岐条件確定ステップ(S16)とを繰り返すようにする。
【0069】
なお、この場合、ある説明変数について複数ノードに分岐がなされているため、分岐したそれぞれのノードについて行われることとなる。
例えば、説明変数1について分岐後ノード1,分岐後ノード2に分岐している場合、分岐後ノード1に含まれるデータを新たに分岐前ノードとし、以下同様の処理を行ってこの分岐後ノード2についても分岐を行う。このようにすれば、ノードが分岐し、決定木が生成されることとなる。
【0070】
そして、全てのノードについて評価され、以下の条件が成立する場合は分岐を停止するノードと判断される。
(1)有意差のある分岐ノードがない。
(2)目的変数といずれかの説明変数の相関係数の絶対値がある値以上である。
(3)ノードのデータ数が分岐を終了する最大データ数(行数)以下である。
そして、全てのノードが上記条件を満たし、これ以上のノード分岐は不可能と判断された場合分岐が停止され、終了することとなる。
【0071】
続いて、目的変数が連続数値属性でない場合の処理について説明する。ステップS1で目的変数が連続数値属性でない、つまり離散属性と判断された場合に、ステップS21へジャンプする。
【0072】
目的変数が連続数値属性の場合は、ステップS21〜ステップS27により、目的変数に着目した平均情報量利得、平均情報量利得比などの多様性指標により分岐を行う。この分岐は従来技術としても挙げられており、簡単に説明する。
【0073】
ステップS21では、未評価のノードを分岐前ノードとして選択する。
一番最初の未評価のノードとは、全ての決定木生成用学習データを含むノードである。例えば目的変数に対し説明変数1〜説明変数nの全てを含むようなノードである。このような未評価のノードを分岐前ノードとする。
【0074】
続いて、ステップS22では、選択された分岐前ノードに含まれる学習データの多様性指標を算出する。
ここに多様性指標とは、以下に示すような情報量利得G、または利得比GRである。
【0075】
この多様性指標の算出手法について説明する。
目的変数が離散属性の場合は、一般的な決定木アルゴリズムと同様に平均情報量などの多様性指標により分岐評価を行う(参考文献:Michael J.A.Berry,Gordon Linoff(江原, 佐藤訳),「データマイニング手法」,海文堂出版,2000年)。まず、分岐前ノードの平均情報量I(before)、および各説明変数で分岐した場合の平均情報量I(after)を求める。
【0076】
【数4】
Figure 0003897169
【0077】
【数5】
Figure 0003897169
【0078】
次に、各説明変数で分岐した時の情報量利得G、または利得比GRを算出する。評価制御情報としてあらかじめ設定された選択条件により情報量利得と利得比のいずれかを選択する。いずれにしても分岐候補となっている説明変数の中であるしきい値(あらかじめ設定可能)以上で一番大きなものを分岐変数とする。
【0079】
【数6】
Figure 0003897169
【0080】
【数7】
Figure 0003897169
【0081】
ステップS23は、この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択する。
ある一の説明変数についてノードを決定するため、その対象となる説明変数を選択する。
ステップS24は、その説明変数についてのノードを決定する。具体的には図5に示された離散属性用の決定木生成方法により決定される。
【0082】
ステップS241は、一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成する。
分岐後ノードとは、例えばある一つの説明変数について所定条件で分割を行い、複数ノードを生成するというものである。
このような分岐後ノードは、説明変数が数値変数の場合は評価制御パラメータファイルの設定分岐数に分岐し(2分岐:平均で2分割、4分岐:さらにそれぞれの平均で4分割など)、説明変数がカテゴリ変数(離散属性)の場合は取りうるカテゴリ毎に分割する。
【0083】
ステップS242は、一の分岐後ノードの多様性指標を算出する。
ステップS22と同様にして多様性指標を算出する。
【0084】
ステップS243は、多様性指標が所定条件を満たすか否かを判断する。
このとき、以下の条件が成立する場合は分岐を行わない。
(1)すべての分岐の情報量利得(または利得比)がしきい値以内である。
(2)ノードのデータ数が分岐を終了する最大データ数(行数)以下である。
所定条件を満たさない場合はステップS244へ進み、所定条件を満たす場合はS245へジャンプする。
【0085】
ステップS244では、分岐後ノードを分岐候補とする。
ステップS245では、分岐後ノードの全ての組合せについて評価したか否かを判断する。全て評価していないならば、ステップS241の先頭にジャンプし、以下、ステップS241〜S244を繰り返し行う。また、全て評価したならば、ステップS246へ進む。
【0086】
ステップS246では、ノードを確定する。
平均情報量利得または平均情報利得比が一番大きな値となる個所で分岐することとなる。
【0087】
続いて、図4で示すステップS25の先頭へ戻る。
ステップS25では、全ての説明変数についてノードを決定したか否かを判断する。そして、全ての説明変数についてノード決定されるまで、ステップS23およびステップS24を繰り返すようにする。
【0088】
ステップS26はノードの分岐条件を決定する。
複数分岐が可能であってもが平均情報量利得または平均情報利得比が一番大きな値となる点で分岐させることとなる。
ステップS27は、全てのノードを評価したか否かを判断する。全てのノードについて評価されるまで、ステップS21〜ステップS27を繰り返すようにする。
【0089】
なお、この場合、先にある説明変数について複数ノードに分岐しているため、それぞれのノードについて行われることとなる。
例えば、説明変数1について分岐後ノード1,分岐後ノード2に分岐している場合、分岐後ノード1に含まれるデータを分岐前ノードとし、以下説明変数2について同様の処理を行ってノードの分岐を行う。このようにすれば、ノードが分岐し、決定木が生成されることとなる。
そして、全てのノードについて評価がなされた場合、終了することとなる。
【0090】
このような、決定木生成方法により決定木が生成されたならば、決定木情報および決定木生成評価情報が登録される。この状態ではある説明変数についての分岐条件のみ登録されていてモデルが構築されているわけではない。そこで、モデル作成用学習手段6では、決定木情報および決定木生成評価情報を用いて決定木で生成された末端のノードに含まれるデータからモデルを構築する。例えば、図9で示す条件B1のように目的変数と説明変数の相関が高いため、重回帰式で表された線形モデルAを構築したり、条件B2のように目的変数と説明変数の相関が低いため、例えば、ニューラルネットワークで表された○○モデルを構築したり、条件C1のように説明変数に拘わらず目的変数が特定値に集中するような集中値型モデルをを構築したり、条件D1のように目的変数と説明変数の相関が高いため、単回帰式で表された線形モデルBを構築したりする。このようなモデルをモデル構築データとしてモデル格納手段7に登録することとなる。
【0091】
なお、このようなモデルを用いる実際の予測、診断処理では、図9で示す条件A1〜D1に基づいて、多数のモデルの中から最適なモデルを選択することとなる。
オペレータは、入力データから決定木の分類に従って適用するモデルを決定し、そのモデルを実行することによって、目的とする結果を算出することになる。
【0092】
このように本実施形態の決定木生成方法を用いることで、学習データを説明変数単位で分離して決定木を生成することができる。
モデル化のデータ単位および必要な入力因子を決定するための試行錯誤的作業の自動化または支援が可能となり、予測、診断などのモデル化作業にかかる工数を短縮することが可能である。さらに、予測、診断などの対象自身またはその周辺の状況が変わりモデルの再構築が頻繁に必要になる場合でも定期的にあるいは任意のタイミングで本発明のモデル化処理を実行することで、その変化状況に応じたモデルを適宜再構築していくことが可能である。
また、平均、分散などの相違、線形性などのデータ分布特徴に従ったデータ分割(抽出)が可能であるため、少ないモデル数(データ空間の分割)で精度良いモデル構造とすることが可能である。
【0093】
【実施例】
続いて、本発明の具体的な実施例について図を参照しつつ説明する。図10,図11,図12,図13は決定木により分割された学習データのデータ分布特徴を説明する説明図である。
電力需要データ1095件(約3年分)を以下に示す条件を与えて、本発明の決定木生成方法を用いて決定木の生成を行った。
【0094】
(1)実施条件
目的変数 :最大電力
説明変数候補 :曜日、当日種別、最低気温、最高気温、最小湿度
検定の有意水準:0.05(全検定同じ)
検定の評価順 :平均、分散、相関係数の順
なお、その他の条件として連続数値属性の説明変数は、説明の簡略化のため平均値により二分割することとした(但し、本発明では説明変数毎に予め分割数(等分割/任意幅)が設定可能である)。
【0095】
(2)実施結果
本発明により生成した決定木を図10〜図13に示す。各ノードはデータの分布特徴が理解できるように、最大電力と最高気温の散布図とした。
1段階目での分割では、「曜日」変数による分岐が行われ、最初は分岐後ノードとして日,月,火,水,木,金,土の7ノード(図示せず)に分かれるが、月〜金曜日(平日)の基礎統計量に有意な差がないために1ノードにグループ化され、結果的に、図10で示すように、NODE01(日曜日)、NODE02(土曜日)、NODE03(月曜日〜金曜日)の3ノードに分割された。
【0096】
さらに、NODE01ノードは、「最低気温」変数による分岐が行われ、図11で示すように、NODE0101(平均未満)とNODE0102(平均以上)の2つのノードに分割された。
【0097】
さらに、NODE02ノードは、最初に「当日種別」変数による分岐が行われ、図12で示すように、NODE0201(休日:土曜日の祭日)とNODE0202(通常の土曜日)の2つのノードに分割された。さらに、NODE0202(通常の土曜日)ノードは「最低気温」変数による分岐が行われ、NODE020201(平均未満)とNODE020202(平均以上)の2つのノードに分割された。
【0098】
さらに、NODE03ノードは、最初に「当日種別」変数による分岐が行われ、図13で示すように、NODE0301(休日:平日の祭日)とNODE0302(通常の平日)の2つのノードに分割された。さらに、NODE0302(平日)ノードは「最低気温」変数による分岐が行われ、NODE030201(平均未満)とNODE030202(平均以上)の2つのノードに分割された。
【0099】
NODE0201(図12)とNODE0301(図13)以外の末端ノード(NODE020201,NODE020202,NODE030201,NODE030202)における最大電力と最高気温(または最低気温)との関係は、負の相関、または正の相関の特徴を示していることがわかる(相関係数の絶対値も0.8以上)。これらノードについては、最大電力との相関係数の高い最高気温、最低気温を説明変数とした単回帰や重回帰で精度の良い予測モデルの作成が可能である。
【0100】
一方、NODE0201とNODE0301の末端ノードは、これといったデータ特徴が見られないため、このままではモデル化は難しいデータと考えられる。モデル化を行うためにはこの例で示した説明変数以外(例えば、休日が連休か否か、または、季節{春、夏、秋、冬}など)を追加した再評価(決定木生成)が必要であると考えられる。
【0101】
【発明の効果】
以上本発明について説明した。本発明によれば、データ分布特徴の分類が実現でき、ある条件で抽出したデータ群に対しては線形モデル、別の条件で抽出したデータ群に対しては別の線形モデル、また別の条件で抽出したデータ群に対してはニューラルネットワークモデルなどのように、条件により抽出されたデータ群ごとに適切な(精度良い)モデルを適用することができるようになった。
【0102】
総じて本発明によれば、予測、診断などの機能を実現するためのモデル構造の決定や変更を容易にするため、連続数値属性にある学習データをデータ分布特徴に基づいて決定木により分類するような決定木生成方法、および、この決定木生成方法を用いて自動的にモデルを構築するモデル構造生成装置を提供することができる。
【図面の簡単な説明】
【図1】モデル構造生成装置の構成図である。
【図2】決定木生成用の学習データのデータ構造図である。
【図3】決定木生成方法のフローチャートである。
【図4】決定木生成方法のフローチャートである。
【図5】決定木生成方法のフローチャートである。
【図6】分岐後ノードに含まれる学習データのデータ構造を説明する説明図である。
【図7】分岐後ノードに含まれる学習データのデータ構造を説明する説明図である。
【図8】統計的検定を説明する説明図である。
【図9】決定木により表されたモデル構造の説明図である。
【図10】決定木により分割された学習データのデータ分布特徴を説明するための説明図である。
【図11】決定木により分割された学習データのデータ分布特徴を説明するための説明図である。
【図12】決定木により分割された学習データのデータ分布特徴を説明するための説明図である。
【図13】決定木により分割された学習データのデータ分布特徴を説明するための説明図である。
【図14】連続数値属性で相関のあるデータの決定木を説明する説明図である。
【符号の説明】
1 決定木生成用学習データ格納手段
2 評価制御情報格納手段
3 決定木生成手段
4 決定木情報(ノードデータ)格納手段
5 決定木生成評価情報格納手段
6 モデル作成用学習手段
7 モデル格納手段

Claims (2)

  1. 複数属性のデータ群からなる学習データを格納する決定木生成用学習データ格納手段と、決定木生成に用いる評価制御情報を格納する評価制御情報格納手段と、学習データと評価制御情報とを読み込んで決定木を生成する決定木生成手段と、決定木により分割された各ノードに関する分岐条件、および、各ノードに分類されたデータ、を含む決定木情報を保存する決定木情報格納手段と、基礎統計量や統計検定量など決定木の生成途中で計算された計算値や評価条件などである決定木生成評価情報を保存する決定木生成評価情報格納手段と、決定木生成手段により生成された決定木情報および決定木生成評価情報から決定木の末端のノードのデータ群に対し目的変数と説明変数とを考慮してモデル構造を作成するモデル作成用学習手段と、モデル作成用学習手段により作成されたモデル構造を保存するモデル格納手段と、を備えるモデル構造生成装置で用いられ、決定木生成に際し、複数属性のデータ群からなる学習データを親のノードに含み、ある一の属性に係るデータ群を連続数値属性の目的変数とし、また、残りの複数属性に係るデータ群をそれぞれ説明変数とする場合に、これら目的変数と説明変数との関係が所定の分類規則を満たすようなノードを複数生成して木構造に分岐させ、全ての説明変数を考慮して分岐された決定木を生成する決定木生成手段における決定木生成方法であって、
    決定木生成手段により、決定木生成用学習データ格納手段から読み出された決定木生成用の学習データを含むノードである未評価のノードを分岐前ノードとして選択させる分岐前ノード選択ステップと、
    決定木生成手段により、選択された分岐前ノードに含まれる学習データの基礎統計量を算出させる分岐前ノード統計量算出ステップと、
    決定木生成手段により、この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択させる説明変数選択ステップと、
    決定木生成手段により、選択された一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成させる分岐後ノード生成ステップと、一の分岐後ノードに含まれる学習データについての基礎統計量を全ての分岐後ノードに関して算出させる初期統計量算出ステップと、全ての分岐後ノードおよび分岐前ノードの中から二個の分岐後ノードまたは分岐前ノードと分岐後ノードとを選択させるノード選択ステップと、二個の分岐後ノードまたは分岐前ノードと分岐後ノードとに含まれる学習データの基礎統計量を用いて検定統計量を算出させ、評価制御情報格納手段から読み出された評価制御情報に含まれる有意水準に基づいて検定統計量に統計的に有意な差があるかないかを判断させ有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断させ、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断させるグループ化可能判断ステップと、グループ化が可能な二個の分岐後ノードまたは分岐前ノードと分岐後ノードとをグループ化して新たに一個の分岐後ノードを生成させるグループ化ステップと、新たにグループ化した分岐後ノードに含まれる学習データの基礎統計量を算出させるグループ化ノード統計量算出ステップと、残る分岐後ノードまたは分岐前ノードがグループ化が可能か否かを判断させ、これ以上のグループ化が不可能になるまで、分岐後ノード生成ステップ、初期統計量算出ステップ、ノード選択ステップ、グループ化可能判断ステップ、グループ化ステップ、およびグループ化ノード統計量算出ステップを繰り返すようにさせるグループ化継続判断ステップと、グループ化が不可能な場合に残った分岐後ノードを確定させるノード確定ステップと、を行うノード決定の一連のステップと、
    決定木生成手段により、全ての説明変数について分岐後ノードを確定したか否かを判断させ、全ての説明変数について分岐後ノードが確定されるまで、説明変数選択ステップおよびノード決定の一連のステップを繰り返すようにさせるノード決定判断ステップと、
    決定木生成手段により、全ての説明変数について分岐後ノードが確定された場合に分岐後ノードの説明変数を分岐条件として確定させる分岐条件確定ステップと、
    決定木生成手段により、新たに生成された分岐後ノードが分岐を停止するノードである と評価されるか否かを判断し、分岐を停止するノードであると評価されると判断されるまでは分岐後ノードを新たな未評価のノードとして、分岐前ノード選択ステップ、分岐前ノード統計量算出ステップ、説明変数選択ステップ、ノード決定の一連のステップ、ノード決定判断ステップ、および、分岐条件確定ステップとを繰り返すようにさせる未評価ノード判断ステップと、
    を有し、親ノードから分岐した複数ノードは、それぞれのノードに含まれる学習データ間で統計的に有意な差を持つように分類することで、各ノードにおける学習データの目的変数と説明変数の関係も有意な差を有するという分類規則で分類し、この分類によるときの説明変数を分岐条件とした決定木とすることを特徴とする決定木生成方法。
  2. 複数属性のデータ群からなる学習データを親のノードに含み、ある一の属性に係るデータ群を連続数値属性の目的変数とし、また、残りの複数属性に係るデータ群をそれぞれ説明変数とする場合に、これら目的変数と説明変数との関係が所定の分類規則を満たすようなノードを複数生成して木構造に分岐させ、全ての説明変数を考慮して分岐された決定木を生成し、この決定木に基づいてモデル構造を生成するモデル構造生成装置において、
    複数属性のデータ群からなる学習データを格納する決定木生成用学習データ格納手段と、
    決定木生成に用いる評価制御情報を格納する評価制御情報格納手段と、
    学習データと評価制御情報とを読み込んで決定木を生成する決定木生成手段と、
    決定木により分割された各ノードに関する分岐条件、および、各ノードに分類されたデータ、を含む決定木情報を保存する決定木情報格納手段と、
    基礎統計量や統計検定量など決定木の生成途中で計算された計算値や評価条件などである決定木生成評価情報を保存する決定木生成評価情報格納手段と、
    決定木生成手段により生成された決定木情報および決定木生成評価情報から決定木の末端のノードのデータ群に対し目的変数と説明変数を考慮してモデル構造を作成するモデル作成用学習手段と、
    モデル作成用学習手段により作成されたモデル構造を保存するモデル格納手段と、
    を備えるモデル構造生成装置であって、
    前記の決定木生成手段は、
    決定木生成用学習データ格納手段から読み出された決定木生成用の学習データを含むノードである未評価のノードを分岐前ノードとして選択する分岐前ノード選択処理と、
    選択された分岐前ノードに含まれる学習データの基礎統計量を算出する分岐前ノード統計量算出処理と、
    この分岐前ノードに含まれる学習データの一の未評価の説明変数を選択する説明変数選択処理と、
    選択された一の説明変数に係るデータ群を所定条件で分割して複数の分岐後ノードを生成する分岐後ノード生成処理と、一の分岐後ノードに含まれる学習データについての基礎統計量を全ての分岐後ノードに関して算出する初期統計量算出処理と、全ての分岐後ノードおよび分岐前ノードの中から二個の分岐後ノードまたは分岐前ノードと分岐後ノードとを選択するノード選択処理と、二個の分岐後ノードまたは分岐前ノードと分岐後ノードとに含まれる学習データの基礎統計量を用いて検定統計量を算出し、評価制御情報格納手段から読み出された評価制御情報に含まれる有意水準に基づいて検定統計量に統計的に有意な差があるかないかを判断し有意な差がない場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化可能と判断し、また、検定統計量に統計的に有意な差がある場合は二個の分岐後ノードまたは分岐前ノードと分岐後ノードとはグループ化不可能と判断するグループ化可能判断処理と、グループ化が可能な二個の分岐後ノードまたは分岐前ノードと分岐後ノードとをグループ化して新たに一個の分岐後ノードを生成するグループ化処理と、新たにグループ化した分岐後ノードに含まれる学習データの基礎統計量を算出するグループ化ノード統計量算出処理と、残る分岐後ノードまたは分岐前ノードがグループ化が可能か否かを判断し、これ以上のグループ化が不可能になるまで、分岐後ノー ド生成処理、初期統計量算出処理、ノード選択処理、グループ化可能判断処理、グループ化処理、およびグループ化ノード統計量算出処理を繰り返すようにするグループ化継続判断処理と、グループ化が不可能な場合に残った分岐後ノードを確定するノード確定処理と、を行うノード決定の一連の処理と、
    全ての説明変数について分岐後ノードを確定したか否かを判断し、全ての説明変数について分岐後ノードが確定されるまで、説明変数選択処理およびノード決定の一連の処理を繰り返すようにするノード決定判断処理と、
    全ての説明変数について分岐後ノードが確定した場合に分岐後ノードの説明変数を分岐条件として確定する分岐条件確定処理と、
    新たに生成した分岐後ノードが分岐を停止するノードであると評価されるか否かを判断し、分岐を停止するノードであると評価するものと判断されるまでは分岐後ノードを新たな未評価のノードとして、分岐前ノード選択処理、分岐前ノード統計量算出処理、説明変数選択処理、ノード決定の一連の処理、ノード決定判断処理、および、分岐条件確定処理とを繰り返すようにする未評価ノード判断処理と、
    を行い、親ノードから分岐した複数ノードは、それぞれのノードに含まれる学習データ間で統計的に有意な差を持つように分類することで、各ノードにおける学習データの目的変数と説明変数の関係も有意な差を有するという分類規則で分類し、この分類によるときの説明変数を分岐条件とした決定木とすることを特徴とするモデル構造生成装置。
JP2002323610A 2002-11-07 2002-11-07 決定木生成方法およびモデル構造生成装置 Expired - Fee Related JP3897169B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002323610A JP3897169B2 (ja) 2002-11-07 2002-11-07 決定木生成方法およびモデル構造生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002323610A JP3897169B2 (ja) 2002-11-07 2002-11-07 決定木生成方法およびモデル構造生成装置

Publications (2)

Publication Number Publication Date
JP2004157814A JP2004157814A (ja) 2004-06-03
JP3897169B2 true JP3897169B2 (ja) 2007-03-22

Family

ID=32803433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002323610A Expired - Fee Related JP3897169B2 (ja) 2002-11-07 2002-11-07 決定木生成方法およびモデル構造生成装置

Country Status (1)

Country Link
JP (1) JP3897169B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210287134A1 (en) * 2020-03-13 2021-09-16 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program
EP4404106A1 (en) * 2023-01-19 2024-07-24 Hitachi, Ltd. Analysis device, analysis method, and analysis program

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4738309B2 (ja) * 2006-10-11 2011-08-03 株式会社東芝 プラント運転データ監視装置
WO2008126209A1 (ja) 2007-03-27 2008-10-23 Fujitsu Limited 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
JP5045240B2 (ja) * 2007-05-29 2012-10-10 富士通株式会社 データ分割プログラム、該プログラムを記録した記録媒体、データ分割装置、およびデータ分割方法
JP5159368B2 (ja) * 2008-02-29 2013-03-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 変化分析システム、方法及びプログラム
JP4394728B2 (ja) * 2008-04-15 2010-01-06 シャープ株式会社 影響要因特定装置
JP4500876B1 (ja) * 2009-01-20 2010-07-14 シャープ株式会社 生産管理システム
JP5481242B2 (ja) * 2010-03-17 2014-04-23 エヌ・ティ・ティ・コムウェア株式会社 ユーザ特徴と利用動向の分析システム、およびその処理方法とプログラム
JP5135389B2 (ja) * 2010-06-30 2013-02-06 株式会社日立情報システムズ 情報漏えいファイル検知装置、及びその方法とプログラム
US10013469B2 (en) 2012-12-13 2018-07-03 Nec Corporation Visualization device, visualization method and visualization program
WO2016121328A1 (ja) * 2015-01-28 2016-08-04 日本電気株式会社 予測結果表示システム、予測結果表示方法および予測結果表示プログラム
JP6414321B2 (ja) * 2015-03-26 2018-10-31 日本電気株式会社 人数予測システム、人数予測方法および人数予測プログラム
JP6164311B1 (ja) * 2016-01-21 2017-07-19 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
CN105930934B (zh) * 2016-04-27 2018-08-14 第四范式(北京)技术有限公司 展示预测模型的方法、装置及调整预测模型的方法、装置
JP6765911B2 (ja) * 2016-09-15 2020-10-07 三菱重工業株式会社 分類装置、分類方法およびプログラム
US20210012214A1 (en) * 2018-03-29 2021-01-14 Nec Corporation Learning apparatus, learning method, and computer-readable recording medium
JP7246958B2 (ja) * 2019-02-13 2023-03-28 株式会社キーエンス データ分析装置及びデータ分析方法
CN113965445B (zh) * 2020-07-02 2023-10-27 中国移动通信集团山东有限公司 一种质差根因的定位方法、装置、计算机设备和存储介质
CN112017062B (zh) * 2020-07-15 2024-06-07 北京淇瑀信息科技有限公司 基于客群细分的资源额度分配方法、装置及电子设备
JP7489275B2 (ja) 2020-09-09 2024-05-23 株式会社Screenホールディングス 情報処理装置、情報処理システムおよび情報処理方法
CN113590691B (zh) * 2021-08-04 2024-06-28 浙江网商银行股份有限公司 目标对象处理方法以及装置
JP2023113393A (ja) * 2022-02-03 2023-08-16 株式会社日立製作所 推定器学習装置
CN116933185B (zh) * 2023-07-26 2024-07-02 常州润来科技有限公司 一种铜管精整复绕的评估方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210287134A1 (en) * 2020-03-13 2021-09-16 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program
EP4404106A1 (en) * 2023-01-19 2024-07-24 Hitachi, Ltd. Analysis device, analysis method, and analysis program

Also Published As

Publication number Publication date
JP2004157814A (ja) 2004-06-03

Similar Documents

Publication Publication Date Title
JP3897169B2 (ja) 決定木生成方法およびモデル構造生成装置
CN107045788B (zh) 交通路况预测方法及装置
CN110111888A (zh) 一种XGBoost疾病概率预测方法、系统及存储介质
Zekic Neural network applications in stock market predictions-a methodology analysis
CN110503256B (zh) 基于大数据技术的短期负荷预测方法及系统
CN113096388B (zh) 一种基于梯度提升决策树的短时交通流量预测方法
CN112990284B (zh) 一种基于XGBoost算法的个体出行行为预测方法、系统及终端
CN106156809A (zh) 用于更新分类模型的方法及装置
JP5234085B2 (ja) ニューラルネットワークの学習方法
CN109034861A (zh) 基于移动端日志行为数据的用户流失预测方法及装置
Huang et al. A novel forecasting approach inspired by human memory: The example of short-term traffic volume forecasting
CN107330464A (zh) 数据处理方法和装置
CN112308281A (zh) 一种温度信息预测方法及装置
Gautam et al. A novel moving average forecasting approach using fuzzy time series data set
Pamuła Classification and prediction of traffic flow based on real data using neural networks
Bhardwaj et al. Health insurance amount prediction
CN114037138A (zh) 基于双层分解和深度学习的地铁短时进站客流预测系统及实施方法
CN113268929B (zh) 短期负荷区间预测方法及装置
JP2004023114A (ja) 通信トラヒック予測方法およびその装置
CN117273457B (zh) 一种基于客户画像进行月度负荷预测的方法及系统
Treboux et al. A predictive data-driven model for traffic-jams forecasting in smart santader city-scale testbed
JPH09233700A (ja) 日最大需要電力予測の信頼性評価方法
Ignatiadis et al. Forecasting residential monthly electricity consumption using smart meter data
CN115687948A (zh) 一种基于负荷曲线的电力专变用户无监督分类方法
JP2019032807A (ja) 要因分析システム、要因分析方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees