JP6239486B2 - Prediction model creation method - Google Patents
Prediction model creation method Download PDFInfo
- Publication number
- JP6239486B2 JP6239486B2 JP2014225055A JP2014225055A JP6239486B2 JP 6239486 B2 JP6239486 B2 JP 6239486B2 JP 2014225055 A JP2014225055 A JP 2014225055A JP 2014225055 A JP2014225055 A JP 2014225055A JP 6239486 B2 JP6239486 B2 JP 6239486B2
- Authority
- JP
- Japan
- Prior art keywords
- prediction model
- learning data
- data
- prediction
- unit prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000011156 evaluation Methods 0.000 claims description 74
- 230000010354 integration Effects 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 21
- 238000007477 logistic regression Methods 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 13
- 238000004220 aggregation Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 14
- 238000012360 testing method Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 238000007637 random forest analysis Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013523 data management Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明の実施形態は予測モデル作成方法に関する。 Embodiments described herein relate generally to a prediction model creation method.
大規模データ活用の重要性が広く認識され、大量の顧客情報の分析や、機器のセンサデータに基づく異常検知など、様々な場面でデータ分析技術や予測モデルが活用されている。 The importance of utilizing large-scale data is widely recognized, and data analysis techniques and prediction models are used in various situations such as analysis of large amounts of customer information and detection of anomalies based on device sensor data.
ソフトウェア開発管理の分野においても、各種ツールやインフラの発展に伴い、大量のソフトウェア開発データが蓄積されるようになり、予測モデルの構築による開発プロジェクトのコントロールが重要な課題となっている。 Also in the field of software development management, with the development of various tools and infrastructure, a large amount of software development data has been accumulated, and control of development projects by building predictive models has become an important issue.
予測モデルの活用を考えた際に、予測モデルに望まれる特性としては、予測精度が高いことに加えて、「なぜ、そのような予測に至ったか?」の原因の追究など、予測結果の解釈の容易さも重要な要素となる。 When considering the use of a prediction model, as a characteristic desired for a prediction model, in addition to high prediction accuracy, interpretation of the prediction results, such as the investigation of the cause of “why did such a prediction occur?” This is also an important factor.
これまで、様々な予測モデルが提案されているが、高い予測精度と予測結果の解釈の容易さを両立することは困難だった。ナイーブベイズや決定木などの単純な予測モデルは、予測結果の解釈の容易さの点では優れているが、予測精度の面ではランダム・フォレスト等のより複雑な集団学習の手法に劣る。一方、ランダム・フォレストなどの集団学習の手法は、予測精度の面では優れているが、予測結果がブラックボックス化しがちであり、予測結果の解釈の容易さの点では劣る。 Various prediction models have been proposed so far, but it has been difficult to achieve both high prediction accuracy and ease of interpretation of prediction results. Simple prediction models such as naive Bayes and decision trees are superior in terms of ease of interpretation of prediction results, but are inferior to more complex group learning methods such as random forest in terms of prediction accuracy. On the other hand, group learning methods such as random forest are excellent in terms of prediction accuracy, but the prediction results tend to be black boxes, and are inferior in the ease of interpretation of the prediction results.
本発明の目的は、予測精度を保ったまま予測結果の解釈の容易さを向上する予測モデルを作成することである。 An object of the present invention is to create a prediction model that improves the ease of interpretation of prediction results while maintaining prediction accuracy.
実施形態によれば、予測モデル作成方法は評価ステップと、繰り返しステップと、統合ステップと、集約ステップとを具備する。評価ステップは過去に蓄積されたデータであり、予測モデルの作成に使用されるものである学習データを離散化し、離散領域毎に事前確率から事後確率を計算するための係数であるリフト値を求め、離散領域毎のリフト値を表す単体予測モデルを生成し、単体予測モデルを学習データに適用して、その予測結果と実績を比較し、予測精度や必要なパラメータの値を求めることにより単体予測モデルを評価する。繰り返しステップは離散領域を変更して、評価ステップを複数回動作させ、複数の単体予測モデルを生成させ、複数の単体予測モデルを評価させる。統合ステップは複数の単体予測モデルの評価結果を1つの統合評価結果に変換する。集約ステップは統合評価結果の非線形部分を線形近似して集約予測モデルを生成する。 According to the embodiment, the prediction model creation method includes an evaluation step, a repetition step, an integration step, and an aggregation step. The evaluation step is data accumulated in the past, discretizes the learning data that is used to create the prediction model, and calculates the lift value, which is a coefficient for calculating the posterior probability from the prior probability for each discrete region. , Generate a unitary prediction model that represents the lift value for each discrete region, apply the unitary prediction model to learning data, compare the prediction results with the actual results, and calculate the prediction accuracy and necessary parameter values Evaluate the model. The iteration step changes the discrete region, operates the evaluation step a plurality of times, generates a plurality of unit prediction models, and evaluates the plurality of unit prediction models. The integration step converts the evaluation results of a plurality of unit prediction models into one integrated evaluation result. The aggregation step generates an aggregate prediction model by linearly approximating the nonlinear part of the integrated evaluation result.
実施形態を説明する前に、実施形態の説明に関係する用語を説明する。 Before describing the embodiment, terms related to the description of the embodiment will be described.
・尺度水準
変数やその測定データに対して、それらが表現する情報の性質に基づき数学・統計学的に分類した基準。低い方から順に、名義尺度、順序尺度、間隔尺度、比例尺度の4つの尺度水準があり、高い水準はより低い水準の性質を含む形になっている。
・ Scale level
A standard that categorizes variables and their measured data mathematically and statistically based on the nature of the information they represent. In order from the lowest, there are four scale levels: nominal scale, ordinal scale, interval scale, and proportional scale, with the higher level including the properties of lower levels.
・学習データ
予測モデルの学習に用いられるデータの集合。各データは、1つ以上の説明変数、及び1つの目的変数から成るベクトルとして表現される。全ての説明変数の値の組み合わせに対して目的変数が所定の値になるように予測モデルを学習することが目標である。学習データの個々のデータに重みを付加したものを、重み付き学習データと呼ぶ。
・ Learning data
A collection of data used for learning predictive models. Each data is expressed as a vector composed of one or more explanatory variables and one objective variable. The goal is to learn the prediction model so that the objective variable becomes a predetermined value for all combinations of the values of the explanatory variables. Data obtained by adding weights to individual pieces of learning data is referred to as weighted learning data.
・テストデータ
予測モデルの評価(テスト)に用いられるデータの集合。データセットの構造自体は、学習データと同じである。
·test data
A collection of data used to evaluate (test) a predictive model. The structure of the data set itself is the same as the learning data.
・ブートストラップ・サンプリング
1つのデータセットから、データ数と同じ回数の復元抽出を行って新たなサンプルを生成し、その繰り返しにより、母集団の性質やモデルの推測の誤差などを分析する方法。復元抽出されたサンプルを、ブートストラップ・サンプルという。
・ Bootstrap sampling
A method of generating a new sample by performing restoration extraction as many times as the number of data from one data set, and analyzing the characteristics of the population, model estimation error, and the like by repetition. The restored sample is called a bootstrap sample.
・OOB(Out-of-Bag)データ
ブートストラップ・サンプリングにおいて、復元抽出で一部のデータが重複して選択された場合、その分、一度も選択されないデータが生じる。これらのデータを集めたものを、OOB(Out-of-Bag)データと呼ぶ。
-OOB (Out-of-Bag) data
In bootstrap sampling, when some data is selected redundantly in the restoration extraction, data that is not selected is generated. A collection of these data is called OOB (Out-of-Bag) data.
・正答率
予測モデルの評価指標の一つ。全予測対象データにおける正答(例えば、正と負の2クラスの判別において、正と予測して実際に正、または負と予測して実際に負)の割合。判別のための閾値を変化させると、それに伴って正答率も変化する。その最大値を最大正答率と呼ぶ。また、最大正答率における、誤判別されたデータを誤判別データと呼ぶ。
-Correct answer rate
One of the evaluation indices of the prediction model. Percentage of correct answers in all prediction target data (for example, in positive and negative two-class discrimination, predicted as positive and actually positive, or predicted as negative and actually negative). When the threshold value for discrimination is changed, the correct answer rate also changes accordingly. The maximum value is called the maximum correct answer rate. Further, misclassified data at the maximum correct answer rate is referred to as misclassified data.
・ROC曲線
予測モデルの性能評価のためのグラフ。予測モデルの出力が高い順にデータをソートして、横軸に偽陽性率(例えば、正と負の2クラスの判別において、正と予測して実際は負だった割合)、縦軸に真陽性率(正と予測して実際に正だった割合)をプロットしたもの。ROC曲線の下側の面積はAUC(Area Under the ROC Curve)と呼ばれ、予測モデルの評価指標の一つで、0から1の間の値をとる。AUCが1に近いほど、予測精度が高いと言える。
・ ROC curve
Graph for performance evaluation of prediction model. The data is sorted in descending order of the output of the prediction model, the horizontal axis represents the false positive rate (for example, the rate of positive and negative in the two-class discrimination), and the vertical axis represents the true positive rate. A plot of the percentage that was actually positive as expected. The area under the ROC curve is called AUC (Area Under the ROC Curve), which is one of the evaluation indices of the prediction model and takes a value between 0 and 1. It can be said that the closer the AUC is to 1, the higher the prediction accuracy.
・バイアス−バリアンス分解
予測モデルの誤差は、予測モデルの真のモデルからの偏りに起因する誤差(バイアス)、学習データのサンプルのばらつきに起因する誤差(バリアンス)、及び本質的に削減不可能な誤差に分解できる。バイアスとバリアンスには、一般に、トレードオフの関係がある。
・ Bias-variance decomposition
The error of the prediction model can be decomposed into an error (bias) due to the deviation of the prediction model from the true model, an error (variance) due to sample variation of the learning data, and an error that cannot be essentially reduced. There is generally a trade-off between bias and variance.
・交差検定(K分割交差検定)
予測モデルの性能評価のための実験方法の一つ。予測モデルの学習・評価に用いるデータセットをK分割(K=5,10等が多く用いられる)し、(K−1)セットを学習データ、残りの1セットをテストデータとし、予測モデルの評価をK回繰り返す。
・ Cross-validation (K-division cross-validation)
An experimental method for evaluating the performance of predictive models. The data set used for learning / evaluation of the prediction model is divided into K (K = 5, 10 etc. are often used), (K-1) set is used as learning data, and the remaining one set is used as test data. Repeat K times.
・予測モデル
対象の観察データや測定データから要因間の関係や内在する傾向、パターンを学習し、諸量を計算できる形のモデルとして表現したもの。予測の対象となる変数(目的変数)が連続値の場合を回帰モデル、離散値の場合を判別モデルという。判別のための代表的な予測モデルとしては、例えば、決定木、ナイーブベイズなどがある。
・ Prediction model
The model is a model that can learn the relationship between factors, inherent trends and patterns from the observed and measured data, and calculate various quantities. When the variable (objective variable) to be predicted is a continuous value, it is called a regression model, and when it is a discrete value, it is called a discriminant model. Typical prediction models for discrimination include, for example, decision trees and naive bayes.
対象の観察データの一例は顧客データがあり、測定データの一例は種々の機器のセンサデータがある。顧客データは過去の顧客のパターン情報を含んでおり、例えば、顧客の特性と購買パターンを構造化したものが予測モデルとなる。予測モデルを作っておくと、新しい顧客が来た時に、こういう商品があれば購買するであろうという予測を立てることができる。単純な予測モデルは生のデータを入力し予測結果を出力する関数で表すことができる。 An example of target observation data is customer data, and an example of measurement data is sensor data of various devices. The customer data includes past customer pattern information. For example, a structured model of customer characteristics and purchase patterns is a prediction model. By creating a prediction model, when a new customer arrives, you can make a prediction that if you have such a product, you will buy it. A simple prediction model can be represented by a function that inputs raw data and outputs a prediction result.
・ナイーブベイズ
予測モデルの一種。目的変数の判別に関する事後確率をベイズの定理に基づき計算したもの。ただし、事後確率の計算において、説明変数の独立性を仮定している。事後確率は、事前確率に対してリフト値と呼ばれる一種の補正係数を掛け合わせて行くことによって計算する。モデルの出力(事後確率の推定値)の対数をとったものを対数スコアと呼ぶ。
・ Naive Bayes
A kind of prediction model. A posteriori probability for objective variable discrimination calculated based on Bayes' theorem. However, independence of explanatory variables is assumed in the calculation of posterior probabilities. The posterior probability is calculated by multiplying the prior probability by a kind of correction coefficient called a lift value. The logarithm of the model output (estimated posterior probability) is called the logarithmic score.
・集団学習
単独ではそれほど精度が高くない複数の予測モデルを統合・組み合わせることで、精度を向上させる学習方法。複数の結果の統合・組み合わせの方法としては、多数決、平均などが用いられる。代表的な集団学習のアルゴリズムとして、バギング(ブートラップ・サンプリングした学習データの予測結果を多数決で評価)、ブースティング(予測結果に基づいて学習データの重みを変更)、ランダム・フォレストなどがある。ここでは、集団学習の構成要素となる個々の予測モデルを単体予測モデル、複数の単体予測モデルの評価結果を統合・組み合わせたものを統合評価結果、複数の単体予測モデルを統合・組み合わせたモデルを統合予測モデルと呼ぶ。単体予測モデルを統合・組み合わせる際、各単体予測モデルに対して割り当てられた重みを、統合ウェイトと呼ぶ。また、統合予測モデルを1つの単体予測モデルに変換する操作を集約と呼ぶ。
・ Group learning
A learning method that improves accuracy by integrating and combining multiple prediction models that are not so accurate alone. As a method of integrating / combining a plurality of results, majority vote, average, or the like is used. Typical group learning algorithms include bagging (evaluating the prediction result of bootlap sampled learning data by majority vote), boosting (changing the weight of the learning data based on the prediction result), random forest, and the like. Here, individual prediction models that are components of group learning are unit prediction models, evaluation results of multiple unit prediction models are integrated and combined, integrated evaluation results, and models that combine and combine multiple unit prediction models are combined. This is called an integrated prediction model. When the unit prediction models are integrated / combined, the weight assigned to each unit prediction model is called an integration weight. In addition, an operation for converting the integrated prediction model into one single prediction model is called aggregation.
・ランダム・フォレスト
決定木を用いた集団学習のアルゴリズムの一種。バギングの改良版であり、決定木における説明変数の選択をランダム化して、個々の予測のばらつきを大きくすることにより、統合した結果の予測精度を高めることに成功。
・ Random Forest
A kind of group learning algorithm using decision trees. It is an improved version of bagging and succeeds in improving the prediction accuracy of the integrated results by randomizing the selection of explanatory variables in the decision tree and increasing the variation of individual predictions.
以下、実施形態について図面を参照して説明する。
図1は、予測モデル作成方法を実行するシステムの構成例を示す機能ブロック図である。破線はモデル作成処理部70への入力を意味し、実線はモデル作成処理部70からの出力を意味する。システムは、入力データ管理部10と、出力データ管理部40と、モデル作成処理部70とからなる。入力データ管理部10は、ブートストラップ最大回数データ12、ブースティング最大回数データ14、学習データ16、テストデータ18を管理する。出力データ管理部40は、重み付け学習データ42、単体予測モデル44、対数スコア46、最大正答率データ48、誤判別データ50、統合ウェイト52、統合スコア54、集約予測モデル56、評価結果データ58を管理する。モデル作成処理部70は、ブートストラップ・サンプル生成部72、ナイーブベイズ予測モデル生成部74、ブースティング処理部76、予測モデル統合部78、予測モデル集約部80、予測モデル評価部82を含む。
Hereinafter, embodiments will be described with reference to the drawings.
FIG. 1 is a functional block diagram illustrating a configuration example of a system that executes a prediction model creation method. A broken line means an input to the model
ブートストラップ最大回数データ12はブートストラップ・サンプル生成部72に入力される。ブースティング最大回数データ14はブースティング処理部76に入力される。学習データ16はブートストラップ・サンプル生成部72に入力される。テストデータ18は評価結果データ58に入力される。
The bootstrap maximum number of times data 12 is input to the bootstrap
ブートストラップ・サンプル生成部72は重み付き学習データ42を出力する。重み付き学習データ42はナイーブベイズ予測モデル生成部74とブースティング処理部76に入力される。ナイーブベイズ予測モデル生成部74は、単体予測モデル44、対数スコア46、最大正答率データ48、誤判別データ50、統合ウェイト52を出力する。最大正答率データ48、誤判別データ50はブースティング処理部76に入力される。ブースティング処理部76は重み付き学習データ42も出力する。重み付け学習データ42、対数スコア46、統合ウェイト52は、予測モデル統合部78に入力される。予測モデル統合部78は統合スコア54を出力する。統合スコア54は予測モデル集約部80に入力され、予測モデル集約部80は集約予測モデル56を出力する。統合スコア54、集約予測モデル56は予測モデル評価部82に入力され、予測モデル評価部82は評価結果データ58を出力する。
The bootstrap
実施形態は、予測精度が高く、かつ、結果の解釈が容易な予測モデルを作成するものである。
予測精度の向上のために、ブートストラップ・サンプリングとブースティングを組み合わせて学習データをランダム化し、ナイーブベイズ予測モデルに適用している。ここで、OOBデータのAUCから計算した重み(統合ウェイト)で各予測モデルの評価結果の加重平均をとり評価結果を統合し、その結果に基づいて予測モデルを生成することにより、高い予測精度が実現される。過去のデータである学習データから予測モデルを作る際、新しいデータであるテストデータに対する予測精度を出来るだけ高めることが目標だが、学習データに対して過剰に適合させる(オーバーフィッティング)と、かえってテストデータに対する予測精度が悪くなることがある。OOBデータ、すなわち、ブートストラップ・サンプリングにおける重複を許したランダム抽出で選ばれなかったデータ、を用いることにより、テストデータに対して実際に予測精度を評価する前段階で、オーバーフィッティングの度合いや新しいデータに対する予測性を事前に見積もることができる。OOBデータに対する予測精度が低い場合には、仮に、学習データに対する予測精度が高くても、テストデータに対する予測精度は高くない可能性がある。このような情報を、評価結果を統合する際のウェイトとして利用することで、トータルとして高い予測精度を実現している。
In the embodiment, a prediction model with high prediction accuracy and easy interpretation of a result is created.
In order to improve the prediction accuracy, bootstrap sampling and boosting are combined to randomize the training data and apply it to the naive Bayes prediction model. Here, the weighted average of the evaluation results of each prediction model is integrated with the weight (integrated weight) calculated from the AUC of the OOB data, the evaluation results are integrated, and a prediction model is generated based on the result, thereby achieving high prediction accuracy. Realized. When creating a prediction model from learning data that is past data, the goal is to increase the prediction accuracy of test data that is new data as much as possible. However, if you fit too much to learning data (overfitting), test data The prediction accuracy may be deteriorated. By using OOB data, that is, data that was not selected by random sampling that allowed duplication in bootstrap sampling, the degree of overfitting or new Predictability of data can be estimated in advance. If the prediction accuracy for OOB data is low, the prediction accuracy for test data may not be high even if the prediction accuracy for learning data is high. By using such information as a weight when integrating the evaluation results, high prediction accuracy is realized as a total.
ナイーブベイズ予測モデルは、一般に、バイアスが大きくバリアンスが小さい比較的安定した予測モデルであるため、従来、集団学習のアルゴリズムとはあまり相性が良くなかった。集団学習では、むしろ、決定木のような、バイアスが小さくバリアンスが大きい不安定な予測モデルの方が適用効果が大きい。そこで、ブートストラップ・サンプリングとブースティングを組み合わせて適用することにより、ナイーブベイズの予測結果のばらつきを大きくし、さらに、OOBデータのAUCから計算した重み(統合ウェイト)を使うことにより、極端な予測結果の影響を減らして、予測精度を高めることができる。 Since the naive Bayes prediction model is generally a relatively stable prediction model with a large bias and a small variance, it has conventionally not been very compatible with the group learning algorithm. In group learning, an unstable prediction model with a small bias and a large variance, such as a decision tree, is more effective. Therefore, by applying a combination of bootstrap sampling and boosting, the dispersion of the Naive Bayes prediction results is increased, and by using weights (integrated weights) calculated from the AUC of OOB data, extreme predictions are made. The influence of the results can be reduced and the prediction accuracy can be increased.
結果の解釈容易性の向上のために、集団学習による予測モデルの非線形部分を線形近似して、予測精度を概ね保ったまま等価な単体のナイーブベイズの予測モデルに集約することにより、予測結果の解釈が容易なモデルを実現した。集約予測モデルは単一のナイーブベイズモデルと等価であるので、単一のモデルを調べるだけでよく、また、各変数の影響を独立に考慮することができるので、予測結果の解釈が容易である。 In order to improve the interpretability of the results, the nonlinear part of the prediction model by collective learning is linearly approximated and aggregated into an equivalent single naive Bayes prediction model while maintaining the prediction accuracy in general. A model that is easy to interpret was realized. The aggregated prediction model is equivalent to a single naive Bayes model, so it is only necessary to examine a single model, and the influence of each variable can be taken into account independently, making it easy to interpret the prediction results .
図2は、予測モデル作成方法の一例を示すフローチャートである。
ブロック102で、学習データ16がブートストラップ・サンプル生成部72に入力される。ブートストラップ・サンプル生成部72には、ブートストラップ最大回数データ12が設定されている。学習データ16は、予測モデル作成のための生データであり、顧客データ等である。
FIG. 2 is a flowchart illustrating an example of a prediction model creation method.
At
ステップ104で、ブートストラップ・サンプル生成部72は、学習データ16に対して、データの数と同じ回数、重複ありのランダム抽出(ブートストラップ・サンプリングと呼ばれる)を実施し、重み付き学習データ42を出力する。
In
図3は、ブートストラップ・サンプリングの一例を示す。学習データ16は、多数、例えば20個のデータセットからなり、データセットは、データの識別子、説明変数X1、X2、X3、目的変数Y(2値)を含む。予測モデルの学習の目標は、例えば目的変数Y=1を判別することである。ブートストラップ・サンプリングにより得られる重み付け学習データ42も20個のデータセットからなり、データセットは、データの識別子、説明変数X1、X2、X3、目的変数Y(2値)、重みを含む。全てのデータセットの重みの合計は、データセットの数(=20)である。識別子ID=1、2のデータは1回も抽出されておらず、識別子ID=3のデータは2回抽出されている。
FIG. 3 shows an example of bootstrap sampling. The learning
ステップ106で、ブートストラップ・サンプル生成回数のカウンタがインクリメント(+1)される。
In
ステップ108で、ナイーブベイズ予測モデル生成部74は、重み付き学習データ42の説明変数Xを離散化する。重み付き学習データ42の各説明変数X1、X2、X3が順序尺度(あるいは間隔尺度、比例尺度)の場合、あらかじめ決定した評価関数に基づいて変数を離散化する。離散化のための主な評価関数としては、エントロピー、期待リフト値(特願2013−118091)などがあるが、いずれを用いてもよく、評価関数は特に限定しない。
In
一例として、評価関数としてエントロピーを用いた場合の説明変数X1の離散化を図4に示す。変数毎に離散化の候補を幾つか用意し、評価関数が最小となる候補に決定する。候補2で、エントロピーが最小であるので、変数X1の離散化は候補2に決定する。変数X2も同様の方法で離散化される。変数X3は、元々、名義尺度の離散変数なので、離散化の必要がない。
As an example, FIG. 4 shows the discretization of the explanatory variable X1 when entropy is used as the evaluation function. Several discretization candidates are prepared for each variable, and the candidate having the smallest evaluation function is determined. Since
ステップ110で、ナイーブベイズ予測モデル生成部74は、各説明変数X1、X2について各離散領域のリフト値を計算する。リフト値は、ナイーブベイズ手法において、事前確率P(A)から事後確率P(A│D)を計算するための一種の補正係数であり、ベイズの定理を式変形した以下の式で定義される。
P(A│D)=P(A)×P(D│A)/P(D)
事後確率P(A│D)は変数Xが離散領域Dに入ったときに、変数Y=Aとなる確率である。事前確率P(A)は何も条件がないときに、変数Y=Aとなる確率である。リフト値P(D│A)/P(D)の分子:P(D│A)は変数Y=Aの条件下で、変数Xが離散領域Dに入る確率であり、分母:P(D)は変数Xが離散領域Dに入る確率である。結果として得られる(変数、離散領域、リフト値)の組が、単体予測モデル44となる。
In
P (A | D) = P (A) × P (D | A) / P (D)
The posterior probability P (A | D) is a probability that the variable Y = A when the variable X enters the discrete region D. Prior probability P (A) is a probability that variable Y = A when there is no condition. The numerator of lift value P (D | A) / P (D): P (D | A) is the probability that variable X enters discrete region D under the condition of variable Y = A, and denominator: P (D) Is the probability that the variable X enters the discrete region D. A set of (variable, discrete region, lift value) obtained as a result is a
単体予測モデル44の一例をリフト値の計算例とともに図5に示す。なお、単体予測モデルは初期確率(Y=1の重みの合計を全データ数で割った値)も含む。
An example of the
ステップ112で、ナイーブベイズ予測モデル生成部74は、重み付き学習データ42による単体予測モデル44の評価を行なう。重み付き学習データ42を単体予測モデル44に適用して、その出力に基づき評価する。単体予測モデル44の評価結果は、対数スコア(事後確率の対数)46、最大正答率データ48、誤判別データ50及びOOBデータのAUCから構成される。
In
対数スコア46は、対象データの各要素(ID=1,2,…)に対してナイーブベイズ予測モデルを適用して計算する。対数スコア46は、初期確率に、各説明変数X1,X2,…の該当する離散領域のリフト値を掛け合わせて、最後にLog10をとることによって得られる。
The
対数スコア46の計算例を図6に示す。変数X1は離散領域D1,1に含まれ、変数X2は離散領域D2,2に含まれる。識別子ID=1、2のデータは、重み=0なので適用対象外である。識別子ID=3のデータの対数スコアはLog10(0.4×0.659×2.133×…)=0.749である。ここで、0.4は初期確率であり、0.659はX1∈D1,1のリフト値、2.133はX2∈D2,2のリフト値である。
A calculation example of the
ナイーブベイズ予測モデルを適用して得られる各データの対数スコアが高いほど、当該データがY=1である確率が高いと期待される。対数スコアの閾値を決めて、対数スコアが閾値以上のデータをY=1とみなすことにより予測結果が確定する。ここで、予測結果と実績を比較することにより、予測モデルの正答率が計算できる。 It is expected that the higher the log score of each data obtained by applying the naive Bayes prediction model, the higher the probability that the data is Y = 1. The threshold value of the logarithmic score is determined, and the prediction result is determined by regarding the data having the logarithmic score equal to or higher than the threshold value as Y = 1. Here, the correct answer rate of the prediction model can be calculated by comparing the prediction result with the actual result.
対数スコアの閾値を動かすと、それに伴って正答率も変化する。正答率の最大値を最大正答率データ48と呼ぶ。また、最大正答率において、予測と実績が異なるデータの集合を誤判別データ50と呼ぶ。
When the threshold value of the logarithmic score is moved, the correct answer rate also changes accordingly. The maximum value of the correct answer rate is called maximum correct
最大正答率の計算例を図7に示す。閾値1とした場合、Y=1と予測し、実績もY=1だったデータの重みの合計は5であり、Y=0と予測し、実績もY=0だったデータの重みの合計は12である。全データの重みの合計は20であるので、正答率=(5+12)/20=0.85である。閾値2とした場合、同様にして計算すると、正答率=(7+7)/20=0.7である。そのため、最大正答率=0.85、誤判別データ={4,11}である。 A calculation example of the maximum correct answer rate is shown in FIG. When the threshold value is 1, Y = 1 is predicted, and the total weight of data for which the actual result is Y = 1 is 5, and Y = 0 is predicted, and the total weight of the data for which the actual result is also Y = 0 is 12. Since the total weight of all data is 20, the correct answer rate = (5 + 12) /20=0.85. When the threshold value is 2, the correct answer rate = (7 + 7) /20=0.7 is calculated in the same manner. Therefore, the maximum correct answer rate = 0.85, and misclassification data = {4, 11}.
予測結果の一般的な評価方法として、正答率の他に、ROC曲線がある。ROC曲線の下側の面積は、AUC(Area Under the ROC Curve)と呼ばれる。 As a general evaluation method of the prediction result, there is an ROC curve in addition to the correct answer rate. The area under the ROC curve is called AUC (Area Under the ROC Curve).
重み付き学習データ42において、重みを反転(重み>0のデータを重み=0に変更、重み=0のデータを重み=1に変更)させたデータを、OOBデータと呼ぶ。
In the
OOBデータに対してAUCを計算した値auc_oobから、統合スコア計算時(ステップ124)の各単体予測モデル44の重みである統合ウェイト(w)52が得られる。
w=loge(auc_oob/(1−auc_oob))
ただし、auc_oob<=0.5の場合、w=0となる。
From the value auc_oob obtained by calculating AUC with respect to the OOB data, an integrated weight (w) 52 that is a weight of each
w = log e (auc_oob / (1-auc_oob))
However, when auc_oob <= 0.5, w = 0.
ROC曲線及びAUCの一例を図8に示す。ROC曲線は、対数スコアの高い順にデータをソートして、横軸に偽陽性率、縦軸に真陽性率をプロットしたグラフである。縦軸の真陽性率は、Y=1と予測して実際もY=1だった割合であり、横軸の偽陽性率は、Y=1と予測して実際はY=0だった割合である。ROC曲線の下側の面積がAUCであり、この例ではAUC=0.875である。 An example of the ROC curve and AUC is shown in FIG. The ROC curve is a graph in which data is sorted in descending order of logarithmic score, and the false positive rate is plotted on the horizontal axis and the true positive rate is plotted on the vertical axis. The true positive rate on the vertical axis is the rate where Y = 1 was actually predicted, and the false positive rate on the horizontal axis was the rate where Y = 1 was actually predicted when Y = 1 was predicted. . The area under the ROC curve is AUC, and in this example, AUC = 0.875.
ステップ112で出力される最大正答率データ48及び誤判別データ50は、ステップ116の「重み付き学習データの重みを更新」で使用される。ステップ112で出力される対数スコア46及び統合ウェイト(w)52は、ステップ124の「統合スコアの計算」で使用される。
The maximum correct
図9は、単体予測モデルの評価結果の一例を示す。重み付き学習データ(重み=0を除去)からは、対数スコア(識別子ID=3のデータについて0.749)、最大正答率(=0.85)、誤判別データ50(={4,11})が得られる。OOBデータからは、auc_oob=0.875より、統合ウェイトw(=1.946)が得られる。 FIG. 9 shows an example of the evaluation result of the unit prediction model. From weighted learning data (weight = 0 removed), logarithmic score (0.749 for data with identifier ID = 3), maximum correct answer rate (= 0.85), misclassification data 50 (= {4, 11}) ) Is obtained. From the OOB data, an integrated weight w (= 1.946) is obtained from auc_oob = 0.875.
ステップ114で、ブースティング処理部76はブースティング処理を終了すべきか否かを判定する。ブースティング処理とは、学習データによる予測モデルの評価結果に基づいて、学習データの重みを調整する処理である。代表的なブースティング手法として、AdaBoost、LogitBoost等があるが、いずれを用いてもよく、ブースティング手法は特に限定しない。
In
終了判定は、ブースティング処理の回数、最大正答率、または最大正答率に基づくことができる。例えば、ブースティング処理の回数がブースティング最大回数データ14(値はNbst)を超えるか、最大正答率=1(誤判別データセット=φ)となるか、または最大正答率が0.5を下回った場合、ブースティング処理のループから抜ける。 The end determination can be based on the number of boosting processes, the maximum correct answer rate, or the maximum correct answer rate. For example, the number of boosting processes exceeds the boosting maximum number data 14 (value is N bst ), the maximum correct answer rate = 1 (misidentification data set = φ), or the maximum correct answer rate is 0.5. If it falls below, it will break out of the boosting loop.
終了判定の結果が否の場合は、ステップ116で、ブースティング処理部76が重み付き学習データ42の重みを更新する(ブースティング処理)。ブースティング処理部76は、重み付き学習データ42、最大正答率データ48、誤判別データ50を入力して、各データに対する重みを再計算し、重み付き学習データ42を更新する。
If the end determination result is negative, the boosting
重みの更新例を図10に示す。重みの更新では、誤判別したデータの重みを増して、全体を正規化する。ステップ1001で、b=a/(1−a)を計算する。ここで、aは最大正答率である。ステップ1002で、誤判別データの重みをb倍する(W_temp=bxW_old)。なお、正しく判別したデータの重みは変更しない(W_temp=W_old)。ステップ1003で、変更前と変更後の全データの重みの比を求める(k=ΣW_temp/ΣW_old)。ステップ1004で、変更後の重みをkで割って正規化する(W_new=W_temp/k)。Σはデータの数についての積算である。
An example of updating the weight is shown in FIG. In updating the weights, the weight of misclassified data is increased and the whole is normalized. In
図11は、更新された重み付け学習データの一例を示す。
図9に示すように、最大正答率=0.85であるので、bは次のように計算される(ステップ1001)。
b=0.85/(1−0.85)=5.666
ID=3のデータは正しく判別されたので、重みは変更しない(ステップ1002)。
W3_temp=W3_old=2
ID=4のデータは誤って判別されたので、重みをb倍する(ステップ1002)。
W4_temp=bxW4_old=11.333
以下、同様に、正判別か誤判別かに応じて重みを更新する。
ΣWi_temp=31
ΣWi_old=20
k=ΣWi_temp/ΣWi_old=1.55
W3_new=W3_temp/k=1.29
W4_new=W4_temp/k=7.31
この後、ステップ118でブースティング処理回数のカウンタがインクリメント(+1)され、ステップ108に戻り、ブースティング処理が継続される。
FIG. 11 shows an example of updated weighted learning data.
As shown in FIG. 9, since the maximum correct answer rate = 0.85, b is calculated as follows (step 1001).
b = 0.85 / (1−0.85) = 5.666
Since the data with ID = 3 is correctly identified, the weight is not changed (step 1002).
W 3_temp = W 3_old = 2
Since the data with ID = 4 has been erroneously determined, the weight is multiplied by b (step 1002).
W 4_temp = bxW 4_old = 11.333
Similarly, the weight is updated according to whether the determination is correct or incorrect.
ΣW i_temp = 31
ΣW i_old = 20
k = ΣW i_temp / ΣW i_old = 1.55
W3_new = W3_temp / k = 1.29
W4_new = W4_temp / k = 7.31
Thereafter, the counter of the number of boosting processes is incremented (+1) in step 118, the process returns to step 108, and the boosting process is continued.
ブースティング終了判定の結果がOKの場合は、ステップ120で、ブートストラップ・サンプル生成部72は、ブートストラップ・サンプル処理を終了すべきか否かを判定する。終了判定は、ブートストラップ・サンプル生成回数に基づくことができる。例えば、ブートストラップ・サンプル生成回数がブートストラップ最大回数データ12(値はNbsp)を超える場合、ブートストラップ・サンプル生成処理のループから抜ける。
If the result of the boosting end determination is OK, in
終了判定の結果が否の場合は、ステップ104に戻り、ブートストラップ・サンプル生成処理が継続される。 If the end determination is negative, the process returns to step 104 and the bootstrap sample generation process is continued.
ここまでの処理で、ブートストラップ・サンプリング処理とブースティング処理の2つのループを入れ子(ブースティングループが内側、ブートストラップ・サンプリングループが外側)で繰り返した結果、様々な重みに変化した重み付き学習データ42と、それに対応する単体予測モデル44、対数スコア46、統合ウェイト52が、出力データ管理部40に保存される。以後、各ループをRun=1,2,…として参照する。例えば、Nbst=10,Nbsp=20の場合、Run=1から始まり、最大でRun=10x20=200個までの単体予測モデル44及びこれらのデータセットが存在する可能性がある。
In the process so far, the weighted learning changed to various weights as a result of repeating the two loops of the bootstrap sampling process and boosting process in a nested manner (with the boosting group inside and the bootstrap sampling loop outside) The
ブートストラップ・サンプリング終了判定の結果がOKの場合は、予測モデル統合部78は各Run毎に出力データ管理部40に保存されている複数の単体予測モデル44を統合する。先ず、ステップ122で、予測モデル統合部78は重み付き学習データ42と対数スコア46を用いて、各Runにおけるロジスティック回帰パラメータα,βを計算する。具体的には、対数スコア46を説明変数(=S)、重み付き学習データ42のYを目的変数として、次式のロジスティック回帰分析を実施し、ロジスティック回帰パラメータα,βを求める。
P(Y=1)=1/(1+e−(α+β×S))
各Runで得られる個々のデータの対数スコア46は、変数の独立性を仮定した事後確率の近似指標であるが、厳密な意味での確率値でない(0から1の範囲に収まらない)ため、複数の単体予測モデル44を統合する際、スケールがばらばらで予測精度が落ちてしまうことが実験により確認された。そこで、対数スコア46をロジスティック回帰式で変換することにより、0から1の範囲で正規化され、その結果、複数の単体予測モデル44を統合する際の予測精度が向上する。
When the bootstrap sampling end result is OK, the prediction
P (Y = 1) = 1 / (1 + e− (α + β × S) )
Since the
これにより、図12に示すように、ステップ112で計算した統合ウェイトw、auc_oobデータとロジスティック回帰パラメータα,βとを併せて、単体予測モデル統合用のパラメータとして使用する。
As a result, as shown in FIG. 12, the integrated weight w, auc_oob data calculated in
ステップ124で、予測モデル統合部78は、全Runの単体予測モデル44とモデル統合用パラメータw,α,βを用いて、集団学習の予測モデルの一種である統合予測モデルの統合スコアSallを計算する。
In
統合スコアSallの計算例を図13に示す。予測モデル統合部78は、全Runの単体予測モデル44から導出される対数スコアSn(=Σlog(Lifti (n))、Σはi=0からmの積算である)をロジスティック回帰式(Pn=1/(1+e−(αn+βn×Sn)))で変換して、各単体予測モデル44の重みwで加重平均をとることにより、複数の単体予測モデル44を統合・組み合わせた統合予測モデルの統合スコアSallを計算する。
Sall=Σwi×Pi/Σwi
ここで、単体予測モデル44の説明変数をX1,X2,…Xm、Run=kにおける初期確率をLift0 (k)、変数Xiのリフト値をLifti (k)とする。Σはi=0からmの積算である。
A calculation example of the integrated score S all is shown in FIG. The prediction
S all = Σw i × P i / Σw i
Here, the explanatory variables of the
ステップ126で、予測モデル集約部80は、統合予測モデルを集約した1つの単体予測モデル(集約予測モデル56)を構築する。具体的には、図14に示すように、統合スコアに含まれるロジスティック回帰式(Pn=1/(1+e−(αn+βn×Sn)))をテーラー展開して得られた予測式の非線形部分を線形近似(非線形の項を無視して線形項のみとする)して、式変形や項の整理を行うことにより、集約予測モデル56が得られる。
In
集約予測モデル56において、Aを初期確率(log)、Bを変数Xjのリフト値(log)とみなすことにより、単体のナイーブベイズ予測式が得られる。これにより、ブートストラップ・サンプリング処理とブースティング処理の2つのループを入れ子で繰り返し、様々な重みの重み付き学習データに対応する単体予測モデルが多数得られ、これらを統合した1つの集約予測モデルが得られる。
By considering A as an initial probability (log) and B as a lift value (log) of the variable Xj in the
ステップ128で、予測モデル評価部82は、テストデータによる統合予測モデル、集約予測モデル56の評価を行なう。統合予測モデルは実施例では構築していないが、統合スコアを直接予測に利用した仮想的なモデルを統合予測モデルとする。統合予測モデル及び集約予測モデル56をテストデータに適用して、評価結果データ58を得る。
In
図15に示すように、単体予測モデル44は、全てのRunに対応する重みwと、ロジスティック回帰パラメータα、βを含む。一方、集約予測モデル56は、集約された離散領域とリフト値をもつ単一のナイーブベイズ予測モデルである。
As shown in FIG. 15, the
予測モデルの評価は、一般的な手法、例えば、前述のAUCなどを用いることができる。ここでは、一例として、NASAが公開しているソフトウェア開発データの4つのデータセットを用いて、ランダム・フォレスト、統合予測モデル、集約予測モデル56との比較を行った。評価結果を図16に示す。5分割交差検定(全データを5分割し、4つを学習データ、1つをテストデータとした評価を5回繰り返す方法)で予測精度(AUC)を計算する。これを5回繰り返し、その平均値を求めた。その結果、4つのデータセット全てにおいて、統合予測モデル、集約予測モデル56の予測精度(AUC)がランダム・フォレストを上回った。統合予測モデルと集約予測モデル56とを比較すると、今回のデータセットにおいて、予測精度はほぼ同等である。ただし、モデルの複雑さの面では、統合予測モデルは、他の集団学習のモデル(ランダム・フォレスト等)とあまり変わらないが、集約予測モデル56は、単一のモデルに集約されているため、構造が単純であり、モデルの解釈(予測結果に至った原因の分析等)が容易である。
A general method, for example, the above-mentioned AUC etc. can be used for evaluation of a prediction model. Here, as an example, comparison was made with a random forest, an integrated prediction model, and an
以上説明したように、実施形態によれば、ブートストラップ・サンプリングとブースティングを組み合わせて学習データをランダム化し、ナイーブベイズ予測モデルに適用することにより、予測精度が向上する。ブートストラップ・サンプリングでは、重複を許してランダム抽出するので、選ばれないデータ(OOB)が存在する。OOBデータに対して予測精度を評価することで学習データに含まれない新しいデータに対してどの位の予測精度がありそうかを事前に見積もることができる。OOBデータのAUCから計算した統合ウェイトを用いて各予測モデルの評価結果の加重平均をとって評価結果を統合し、その結果に基づいて予測モデルを生成することにより、高い予測精度が実現される。また、集団学習による予測モデルの非線形部分を線形近似して、予測精度を概ね保ったまま等価な単体のナイーブベイズの予測モデルに集約することにより、予測結果の解釈が容易なモデルを実現することができる。 As described above, according to the embodiment, the prediction accuracy is improved by randomizing the learning data by combining bootstrap sampling and boosting and applying the learning data to the naive Bayes prediction model. In bootstrap sampling, random extraction is allowed with duplication, so there is unselected data (OOB). By evaluating the prediction accuracy for the OOB data, it is possible to estimate in advance how much the prediction accuracy is likely to be for new data not included in the learning data. High prediction accuracy is realized by integrating the evaluation results by taking the weighted average of the evaluation results of each prediction model using the integrated weight calculated from the AUC of the OOB data, and generating the prediction model based on the result. . In addition, by linearly approximating the nonlinear part of the prediction model by collective learning and consolidating it into an equivalent single naive Bayes prediction model while maintaining the prediction accuracy in general, a model that can easily interpret the prediction result should be realized. Can do.
なお、本実施形態の処理はコンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムをコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。 Note that the processing of the present embodiment can be realized by a computer program, so that the computer program can be installed and executed on a computer through a computer-readable storage medium storing the computer program, as in the present embodiment. The effect of can be easily realized.
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。例えば、ブートストラップ・サンプリング、ブースティング、及び、OOBデータを用いた複数の予測モデルの統合は、ナイーブベイズ以外の単体予測モデルにも適用できる。また、集団学習による予測モデルの非線形部分の線形近似は、上述した実施形態に限らずに生成された複数のナイーブベイズ予測モデルを集約する際に適用してもよい。 Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment. For example, the integration of multiple prediction models using bootstrap sampling, boosting, and OOB data can be applied to simpler prediction models other than naive Bayes. Further, the linear approximation of the nonlinear part of the prediction model by collective learning may be applied when a plurality of naive Bayes prediction models generated are not limited to the above-described embodiment.
16…学習データ、42…重み付き学習データ、44…単体予測モデル、46…対数スコア、52…統合ウェイト、54…統合スコア、56…集約予測モデル、72…ブートストラップ・サンプル生成部、74…ナイーブベイズ予測モデル生成部、76…ブースティング処理部、78…予測モデル統合部、80…予測モデル集約部、82…予測モデル評価部。
DESCRIPTION OF
Claims (14)
前記離散領域を変更して、前記評価ステップを複数回動作させ、複数の単体予測モデルを生成させ、前記複数の単体予測モデルを評価させる繰り返しステップと、
前記複数の単体予測モデルの評価結果を1つの統合評価結果に変換する統合ステップと、
前記統合評価結果から集約予測モデルを生成する集約ステップと、
を具備し、
前記集約ステップは、前記統合評価結果の非線形部分を線形近似して前記集約予測モデルを生成する予測モデル作成方法。 Discretized learning data, which is data accumulated in the past and used to create a prediction model, finds lift values that are coefficients for calculating posterior probabilities from prior probabilities for each discrete region, and A single unit prediction model representing a lift value for each region is generated, the single unit prediction model is applied to the learning data, the prediction result is compared with the actual result, and the single unit prediction model is obtained by calculating the prediction accuracy and the necessary parameter value. An evaluation step for evaluating the predictive model;
Changing the discrete region, operating the evaluation step a plurality of times, generating a plurality of unit prediction models, and repeatedly evaluating the plurality of unit prediction models;
An integration step of converting the evaluation results of the plurality of unit prediction models into one integrated evaluation result;
An aggregation step of generating an aggregate prediction model from the integrated evaluation result;
Comprising
The aggregation step is a prediction model creation method for generating the aggregate prediction model by linearly approximating a nonlinear portion of the integrated evaluation result.
前記統合ステップは、前記対数に応じたロジスティック回帰パラメータを求め、前記複数の単体予測モデルの評価結果を前記統合ウェイトと前記ロジスティック回帰パラメータを用いて前記統合評価結果に変換する請求項1記載の予測モデル作成方法。 The evaluation step obtains a logarithm of the posterior probability of the single unit prediction model and an integrated weight according to the area under the ROC curve of the single unit prediction model;
The prediction according to claim 1, wherein the integration step obtains a logistic regression parameter corresponding to the logarithm, and converts the evaluation results of the plurality of unit prediction models into the integrated evaluation result using the integration weight and the logistic regression parameter. Model creation method.
前記評価ステップは、前記重み付け学習データを離散化し、前記離散領域毎のリフト値を求め、前記単体予測モデルを生成し、前記単体予測モデルを評価し、
前記繰り返しステップは、
前記重み付き学習データの重みを更新して、前記評価ステップを第1の正整数m回動作させ、m個の単体予測モデルを生成させ、前記m個の単体予測モデルを評価させる第1の繰り返しステップと、
前記m個の単体予測モデルの評価後、前記重み付け学習データ生成ステップを動作させることを第2の正整数n回繰り返し、m×n個の単体予測モデルを生成させ、前記m×n個の単体予測モデルを評価させる第2の繰り返しステップと、を具備し、
前記統合ステップは、前記m×n個の単体予測モデルの評価結果を1つの統合評価結果に変換する請求項1記載の予測モデル作成方法。 Further comprising a weighted learning data generation step of bootstrap sampling the learning data to generate weighted learning data;
The evaluation step discretizes the weighted learning data, obtains a lift value for each discrete region, generates the unit prediction model, evaluates the unit prediction model,
The repeating step includes
A first iteration of updating the weight of the weighted learning data, operating the evaluation step a first positive integer m times, generating m unit prediction models, and evaluating the m unit prediction models Steps,
After evaluating the m unit prediction models, the operation of the weighted learning data generation step is repeated a second positive integer n times to generate m × n unit prediction models, and the m × n unit prediction models are generated. A second iteration step for evaluating the prediction model;
The prediction model creating method according to claim 1, wherein the integration step converts the evaluation result of the m × n unit prediction models into one integrated evaluation result.
前記重み付き学習データは、ブートストラップ・サンプリングによる学習データの抽出回数を示す重みをさらに含み、
前記評価ステップは、目的変数が目標値となるデータの前記重みの合計をデータ数で割った初期確率と、前記離散領域毎のリフト値を表す単体予測モデルを生成し、
前記初期確率と前記離散領域毎のリフト値とを掛け合わせて前記単体予測モデルの事後確率の対数を求める請求項4記載の予測モデル作成方法。 The learning data includes explanatory variables and objective variables,
The weighted learning data further includes a weight indicating the number of times the learning data is extracted by bootstrap sampling,
In the evaluation step, an initial probability obtained by dividing the sum of the weights of data in which the objective variable becomes a target value by the number of data and a single prediction model representing a lift value for each discrete region,
The prediction model creation method according to claim 4, wherein the logarithm of the posterior probability of the single prediction model is obtained by multiplying the initial probability and the lift value for each discrete region.
過去に蓄積されたデータであり、予測モデルの作成に使用されるものである学習データを離散化し、離散領域毎に事前確率から事後確率を計算するための係数であるリフト値を求め、前記離散領域毎のリフト値を表す単体予測モデルを生成し、前記単体予測モデルを前記学習データに適用して、その予測結果と実績を比較し、予測精度や必要なパラメータの値を求めることにより前記単体予測モデルを評価する評価ステップと、
前記離散領域を変更して、前記評価ステップを複数回動作させ、複数の単体予測モデルを生成させ、前記複数の単体予測モデルを評価させる繰り返しステップと、
前記複数の単体予測モデルの評価結果を1つの統合評価結果に変換する統合ステップと、
前記統合評価結果から集約予測モデルを生成する集約ステップと、
を具備し、
前記集約ステップは、前記統合評価結果の非線形部分を線形近似して前記集約予測モデルを生成するものであるプログラム。 A program executed by a computer, wherein the program is
Discretized learning data, which is data accumulated in the past and used to create a prediction model, finds lift values that are coefficients for calculating posterior probabilities from prior probabilities for each discrete region, and A single unit prediction model representing a lift value for each region is generated, the single unit prediction model is applied to the learning data, the prediction result is compared with the actual result, and the single unit prediction model is obtained by calculating the prediction accuracy and the necessary parameter value. An evaluation step for evaluating the predictive model;
Changing the discrete region, operating the evaluation step a plurality of times, generating a plurality of unit prediction models, and repeatedly evaluating the plurality of unit prediction models;
An integration step of converting the evaluation results of the plurality of unit prediction models into one integrated evaluation result;
An aggregation step of generating an aggregate prediction model from the integrated evaluation result;
Comprising
The aggregation step is a program for generating the aggregate prediction model by linearly approximating a nonlinear part of the integrated evaluation result.
前記統合ステップは、前記対数に応じたロジスティック回帰パラメータを求め、前記複数の単体予測モデルの評価結果を前記統合ウェイトと前記ロジスティック回帰パラメータを用いて前記統合評価結果に変換する請求項8記載のプログラム。 The evaluation step obtains a logarithm of the posterior probability of the single unit prediction model and an integrated weight according to the area under the ROC curve of the single unit prediction model;
The program according to claim 8, wherein the integration step obtains a logistic regression parameter corresponding to the logarithm, and converts the evaluation results of the plurality of unit prediction models into the integrated evaluation result using the integration weight and the logistic regression parameter. .
前記評価ステップは、前記重み付け学習データを離散化し、前記離散領域毎のリフト値を求め、前記単体予測モデルを生成し、前記単体予測モデルを評価し、
前記繰り返しステップは、
前記重み付き学習データの重みを更新して、前記評価ステップを第1の正整数m回動作させ、m個の単体予測モデルを生成させ、前記m個の単体予測モデルを評価させる第1の繰り返しステップと、
前記m個の単体予測モデルの評価後、前記重み付け学習データ生成ステップを動作させることを第2の正整数n回繰り返し、m×n個の単体予測モデルを生成させ、前記m×n個の単体予測モデルを評価させる第2の繰り返しステップと、を具備し、
前記統合ステップは、前記m×n個の単体予測モデルの評価結果を1つの統合評価結果に変換する請求項8記載のプログラム。 Further comprising a weighted learning data generation step of bootstrap sampling the learning data to generate weighted learning data;
The evaluation step discretizes the weighted learning data, obtains a lift value for each discrete region, generates the unit prediction model, evaluates the unit prediction model,
The repeating step includes
A first iteration of updating the weight of the weighted learning data, operating the evaluation step a first positive integer m times, generating m unit prediction models, and evaluating the m unit prediction models Steps,
After evaluating the m unit prediction models, the operation of the weighted learning data generation step is repeated a second positive integer n times to generate m × n unit prediction models, and the m × n unit prediction models are generated. A second iteration step for evaluating the prediction model;
The program according to claim 8, wherein the integration step converts the evaluation result of the m × n unit prediction models into one integrated evaluation result.
前記重み付き学習データは、ブートストラップ・サンプリングによる学習データの抽出回数を示す重みをさらに含み、
前記評価ステップは、目的変数が目標値となるデータの前記重みの合計をデータ数で割った初期確率と、前記離散領域毎のリフト値を表す単体予測モデルを生成し、
前記初期確率と前記離散領域毎のリフト値とを掛け合わせて前記単体予測モデルの事後確率の対数を求める請求項11記載のプログラム。 The learning data includes explanatory variables and objective variables,
The weighted learning data further includes a weight indicating the number of times the learning data is extracted by bootstrap sampling,
In the evaluation step, an initial probability obtained by dividing the sum of the weights of data in which the objective variable becomes a target value by the number of data and a single prediction model representing a lift value for each discrete region,
The program according to claim 11, wherein the logarithm of the posterior probability of the simplex prediction model is obtained by multiplying the initial probability and the lift value for each discrete region.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014225055A JP6239486B2 (en) | 2014-11-05 | 2014-11-05 | Prediction model creation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014225055A JP6239486B2 (en) | 2014-11-05 | 2014-11-05 | Prediction model creation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016091306A JP2016091306A (en) | 2016-05-23 |
JP6239486B2 true JP6239486B2 (en) | 2017-11-29 |
Family
ID=56017017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014225055A Expired - Fee Related JP6239486B2 (en) | 2014-11-05 | 2014-11-05 | Prediction model creation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6239486B2 (en) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3223177A1 (en) * | 2016-03-24 | 2017-09-27 | Fujitsu Limited | System and method to aid diagnosis of a patient |
JP6570501B2 (en) * | 2016-11-04 | 2019-09-04 | ヤフー株式会社 | Information providing apparatus, information providing method, and information providing program |
CN107766929B (en) | 2017-05-05 | 2019-05-24 | 平安科技(深圳)有限公司 | Model analysis method and device |
US10356117B2 (en) | 2017-07-13 | 2019-07-16 | Cisco Technology, Inc. | Bayesian tree aggregation in decision forests to increase detection of rare malware |
US10572827B2 (en) | 2017-08-08 | 2020-02-25 | International Business Machines Corporation | Prediction quality assessment |
JP7080759B2 (en) * | 2018-07-19 | 2022-06-06 | アルー株式会社 | Predicted score providing device, predicted score providing method and predicted score providing program |
US11893499B2 (en) * | 2019-03-12 | 2024-02-06 | International Business Machines Corporation | Deep forest model development and training |
JP6875445B2 (en) * | 2019-04-15 | 2021-05-26 | 株式会社三菱総合研究所 | Information processing equipment, information processing methods and programs |
US20220229428A1 (en) * | 2019-05-22 | 2022-07-21 | Nec Corporation | Model generation device, parameter calculation device, model generation method, parameter calculation method, and recording medium |
US11227299B2 (en) * | 2019-09-25 | 2022-01-18 | Cvent, Inc. | Automatic computer price tracking, valuation, and negotiation optimization |
JP7165795B2 (en) * | 2020-08-31 | 2022-11-04 | 株式会社日立製作所 | Methods and devices for generating privacy-preserving data for data analysis systems |
JP7533772B2 (en) | 2021-04-09 | 2024-08-14 | 日本電気株式会社 | Prediction model generation device, prediction model generation method, and program |
CN117634652B (en) * | 2024-01-26 | 2024-04-09 | 西安理工大学 | Dam deformation interpretable prediction method based on machine learning |
-
2014
- 2014-11-05 JP JP2014225055A patent/JP6239486B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016091306A (en) | 2016-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6239486B2 (en) | Prediction model creation method | |
CN112288191B (en) | Ocean buoy service life prediction method based on multi-class machine learning method | |
Goebel et al. | A comparison of three data-driven techniques for prognostics | |
Sarda-Espinosa et al. | Conditional inference trees for knowledge extraction from motor health condition data | |
US20200311576A1 (en) | Time series data analysis method, time series data analysis apparatus, and non-transitory computer readable medium | |
US9189750B1 (en) | Methods and systems for sequential feature selection based on significance testing | |
Nishiyama et al. | Hilbert space embeddings of POMDPs | |
Vadimovich et al. | Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems | |
JP6172317B2 (en) | Method and apparatus for mixed model selection | |
Sevakula et al. | Assessing generalization ability of majority vote point classifiers | |
CN118151020B (en) | Method and system for detecting safety performance of battery | |
Neshatian et al. | Improving relevance measures using genetic programming | |
CN117312865B (en) | Nonlinear dynamic optimization-based data classification model construction method and device | |
WO2018048704A1 (en) | Gaussian mixture model based approximation of continuous belief distributions | |
Damera Venkata et al. | Deep recurrent optimal stopping | |
Moreno-Pino et al. | Rough transformers for continuous and efficient time-series modelling | |
Manurung et al. | GPD threshold estimation using measure of surprise | |
Ryabko et al. | Reducing statistical time-series problems to binary classification | |
Faranda et al. | Enhancing geophysical flow machine learning performance via scale separation | |
Bluvband et al. | Critical zone recognition: Classification vs. regression | |
US11521092B2 (en) | Inference system, inference method, and recording medium | |
Reddy et al. | Improving the Accuracy of Neural Networks through Ensemble Techniques | |
JP6740193B2 (en) | Parameter estimation device, parameter estimation method, and parameter estimation program | |
Settle | Random Forest Hyperparameter Sensitivity for Noisy, High-Dimesional Data | |
Márquez-Grajales et al. | asMODiTS: An application of surrogate models to optimize Time Series symbolic discretization through archive-based training set update strategy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160929 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171101 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6239486 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |