JP2021033895A - 変数選定方法、変数選定プログラムおよび変数選定システム - Google Patents
変数選定方法、変数選定プログラムおよび変数選定システム Download PDFInfo
- Publication number
- JP2021033895A JP2021033895A JP2019156305A JP2019156305A JP2021033895A JP 2021033895 A JP2021033895 A JP 2021033895A JP 2019156305 A JP2019156305 A JP 2019156305A JP 2019156305 A JP2019156305 A JP 2019156305A JP 2021033895 A JP2021033895 A JP 2021033895A
- Authority
- JP
- Japan
- Prior art keywords
- variable
- group
- selection
- variables
- data group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 19
- 238000010801 machine learning Methods 0.000 claims abstract description 20
- 238000012795 verification Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 13
- 238000012790 confirmation Methods 0.000 claims description 10
- 238000002790 cross-validation Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 abstract description 17
- 230000003247 decreasing effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】予測精度等の向上を図れる機械学習用の変数選定方法を提供する。【解決手段】本発明は、対象となる母データ群を構成する全変数群から機械学習に用いる特定変数群を選定する変数選定方法である。変数選定方法は、全変数群から抽出される1以上の第1変数と第1変数と異なり全変数群から抽出される各第2変数との組合せである変数対の相互情報量をそれぞれ母データ群を用いて算出する情報量算出ステップと、相互情報量の大きい方から降順に所定の選択数だけ抽出した第2変数または該変数対からなる選択変数群について、母データ群から抽出される選択変数群に係る選択データ群を用いて学習モデルの作成と性能評価を行う検証ステップとを備える。特定変数群は、選択変数群の選択数と学習モデルの性能との関係に基づいて選定される。【選択図】図5
Description
本発明は、機械学習に用いる変数選定方法等に関する。
生産、販売、インフラ等の各種分野で、多数の変数毎について、時系列等に沿って取得される膨大なデータ群からなるビッグデータを解析して、様々な予測(推定)や認識等を行うことがなされている。このようなビッグデータの解析は、従来のデータベース管理手法にかわり、機械学習手法によりなされることが多い。
予測精度等の向上を図るためには、機械学習に用いる変数選択を適切に行って学習モデルを作成する必要がある。逆にいえば、結果(出力)に殆ど影響(寄与)しない入力側の変数は、適確に排除または削減される方がよい。このような変数選択(選定)に関連する記載が、例えば、下記の特許文献にある。
Hastie, T., R. Tibshirani and J. Friedman (2009):"The Elements of Statistical Learning : Data Mining, Inference, and Prediction (second edition)", Springer (日本語訳)杉山将、井手剛、神嶌敏弘、栗田多喜夫、前田英作(監訳)(2014):『統計的学習の基礎:データマイニング・推論・予測』、共立出版
畠中道雄(1996):「第6章:最尤法にもとづく推測」『計量経済学の方法(改訂版)』、創文社、pp.246-269.
Cover, T. M. and J. A. Thomas (2006): "Chapter. 8 Differential Entropy", in "Elements of Information Theory, Second Edition", John Wiley and sons,(日本語訳)山本博資、古賀弘樹、有村光晴、岩本貢(訳)「第8章:微分エントロピー」『情報理論:基礎と広がり』、共立出版、pp.179-191.
Reshef, David M., Y. A. Reshef, H. K. Finucane, S. R. Grossman, G. Mcvean, P. J. Turnbaugh, E. S. Landen, M. Mitzenmacher, and P. C. Sabet (2011): "Detecting Novel Associations in Large Data Sets", science, vol.334, pp.1518-1524.
Reshef, David M., Y. A. Reshef, H. K. Finucane, and P. C. Sabet (2016): "Measuring Dependence Powerfully and Equitably", Journal of Machine Learning Research, vol.17, pp.1-63.
福水健次(2010):『カーネル法入門 ‐正定値カーネルによるデータ解析‐』、(シリーズ 多変量データの統計科学)、朝倉書店.
特許文献1は、機械学習部分で、次元圧縮や次元変換を行って変数を削減している。具体的にいうと、主成分分析や畳込みニューラルネットワークを用いて変数合成等を行い、変数を削減している。この場合、元の変数と異なる変数が新たに作成され得るため、機械学習へ強く寄与する元の変数が不明確になり易い。
特許文献2は、機械学習部分で、学習モデルを用いて変数選択をしている。この場合、独立して寄与している変数であれば、低い寄与率(例えば0.001未満)の変数でも選択され、万能な近似がなされる学習器(万能近似器)が作成される。この場合、適切な変数削減がなされず、変数の多い学習モデルが作成されるため、過学習により却って出力値の精度が悪化し得る(非特許文献1、pp.445参照)。
また、特許文献2のように、特定の機械学習手法を前提として、最尤法で求まる尤度に基づいて変数を選択する場合、元の尤度関数(分布)の指定が誤っていると、変数選択も誤りとなる。このとき、出力値の誤差が改善されないことが知られている(非特許文献2参照)。
本発明はこのような事情に鑑みて為されたものであり、従来とは異なる手法により、機械学習に用いる変数を選定できる変数選定方法等を提供することを目的とする。
本発明者は上述した課題を解決すべく鋭意研究した結果、学習モデルの作成前に、変数間の相互情報量を予め算出しておき、その相互情報量の大小関係に基づいて選定した変数を用いて機械学習を行うことを着想し、具現化した。この成果を発展させることにより、以降に述べる本発明を完成するに至った。
《変数選定方法》
(1)本発明は、対象となる母データ群を構成する全変数群から機械学習に用いる特定変数群を選定する変数選定方法であって、該全変数群から抽出される1以上の第1変数と該第1変数と異なり該全変数群から抽出される各第2変数との組合せである変数対の相互情報量をそれぞれ該母データ群を用いて算出する情報量算出ステップと、該相互情報量の大きい方から降順に所定の選択数だけ抽出した該第2変数または該変数対からなる選択変数群について、該母データ群から抽出される該選択変数群に係る選択データ群を用いて学習モデルの作成と性能評価を行う検証ステップとを備え、該学習モデルの性能を考慮した該選択変数群の選択数に基づいて該特定変数群を選定する変数選定方法である。
(1)本発明は、対象となる母データ群を構成する全変数群から機械学習に用いる特定変数群を選定する変数選定方法であって、該全変数群から抽出される1以上の第1変数と該第1変数と異なり該全変数群から抽出される各第2変数との組合せである変数対の相互情報量をそれぞれ該母データ群を用いて算出する情報量算出ステップと、該相互情報量の大きい方から降順に所定の選択数だけ抽出した該第2変数または該変数対からなる選択変数群について、該母データ群から抽出される該選択変数群に係る選択データ群を用いて学習モデルの作成と性能評価を行う検証ステップとを備え、該学習モデルの性能を考慮した該選択変数群の選択数に基づいて該特定変数群を選定する変数選定方法である。
(2)本発明によれば、機械学習前に、予め相互情報量が小さい変数を排除して、学習モデルを作成できる。このため、高精度な学習モデル(予測器等)の作成を効率的に行える。また、本発明では、機械学習前に算出した相互情報量に基づいて変数を選択しており、機械学習中に次元圧縮による変数変更や変数合成等を行っていない。このため本発明によれば、学習モデルの作成に強く寄与する変数が不明確になることもない。
《プログラムとシステム》
本発明は、上述したステップをコンピュータに実行させる変数選定プログラムとしても把握できる。また、その変数選定プログラムと、該変数選定プログラムを実行するコンピュータとを備える変数選定システムとしても把握できる。
本発明は、上述したステップをコンピュータに実行させる変数選定プログラムとしても把握できる。また、その変数選定プログラムと、該変数選定プログラムを実行するコンピュータとを備える変数選定システムとしても把握できる。
《その他》
(1)検証された選択変数群の変数の数(選択数)と、最終的に学習モデルの構築に用いられる特定変数群の変数の数(特定数)とは、必ずしも一致しなくてもない。良好な結果が得られそうな選択数に基づいて、特定数が調整(変更)されてもよい。
(1)検証された選択変数群の変数の数(選択数)と、最終的に学習モデルの構築に用いられる特定変数群の変数の数(特定数)とは、必ずしも一致しなくてもない。良好な結果が得られそうな選択数に基づいて、特定数が調整(変更)されてもよい。
相互情報量に基づいて適切な数の変数を選択すると、初回の検証時から、良好な結果(精度)が得られることもある。このようなときは、必ずしも、選択数を変更して学習モデルの検証を繰り返し行う必要はない。
選択数を変更して学習モデルの検証を繰り返すときは、選択数は1個刻みで増加させても、複数刻みで増加させてもよい。また、選択数の増分は一定でなくてもよい。
(2)本明細書でいう「〜ステップ」と「〜手段」は、本発明の対象(物の発明か方法の発明)に応じて、相互に言換えることができる。また、「〜手段」は「〜部」と換言することもできる。
上述した本発明の構成要素に、本明細書中から任意に選択した一つまたは二つ以上の構成要素を付加し得る。本明細書で説明する内容は、変数選定方法のみならず、そのプログラムやシステム等にも適宜該当する。
《情報量算出ステップ(手段)》
(1)情報量算出ステップにより、母データ群(検討対象とする全データ)を構成する全変数群(検討対象とする全変数)から抽出した各変数対について、母データ群を用いて、相互情報量が算出される。なお、相互情報量は、一対の変数間の相互依存の尺度を示す量である。独立変数間の相互情報量は零であり、相互情報量が大きくなるほど、変数間の依存性は高くなる。
(1)情報量算出ステップにより、母データ群(検討対象とする全データ)を構成する全変数群(検討対象とする全変数)から抽出した各変数対について、母データ群を用いて、相互情報量が算出される。なお、相互情報量は、一対の変数間の相互依存の尺度を示す量である。独立変数間の相互情報量は零であり、相互情報量が大きくなるほど、変数間の依存性は高くなる。
相互情報量およびその算出手法は種々あり、適宜、選択される。例えば、相互情報量は「最大情報量係数(Maximum Information Coefficient:MIC)」として算出される。その詳細は、上述した非特許文献4、非特許文献5に示されている。また、相互情報量は、「ピアソン相関係数」または「ヒルベルト=シュミット独立性規準(Hilbert-Schmidt Independence Criteria:HSIC)」として算出される。その詳細は、上述した非特許文献6に示されている。相互情報量の大小関係に基づいて変数(対)を配列できる限り、いずれの算出方法を採用してもよい。
(2)相互情報量を算出する変数対は、全変数群から抽出される第1変数とその第1変数と異なる第2変数とのペアリングである。
目的変数が特定(限定)されているときなら、例えば、全変数群から抽出した1以上の変数を第1変数(目的変数)とし、その第1変数と異なる変数を第2変数(説明変数)として、変数対が生成される。一具体例として、全変数が100個あり、その内、1個が目的変数(第1変数)で、残り99個が説明変数(第2変数)である場合を図1Aに示した。このとき、目的変数と説明変数を組み合わせ(変数対)は99通りとなり、それぞれの組合せ(変数対)について相互情報量が計算される。
こうして1個の目的変数と、99個の各説明変数との間でそれぞれ算出された相互情報量を一覧にすると図1Bの左表のようになる。各説明変数(No.1〜99)を、相互情報量の大きい方から降順に再配列すると、図1Bの中表のようになる。相互情報量の大きい方から各説明変数に順位(No.1〜99)を付与すると、図1Bの右表のようになる。こうして、目的変数(第1変数)に対する説明変数(第2変数)またはそれらの変数対が、相互情報量に関する降順で配列される(配列ステップ)。
第1変数(目的変数)は複数でもよい。例えば、上記の例でいうと、目的変数(第1変数)が2個になると、197(=99+98)個の変数対が構成され、それぞれの相互情報量を算出することになる。この場合も、相互情報量に関する降順で変数を配列できる。なお、順位付けされた変数に重複があるときは、重複を排除して変数を選択すればよい(以下同様)。
さらに、目的変数が非特定(非限定)なときなら、全変数群から抽出した異なる二つの変数(第1変数と第2変数)の全組合せ(変数対)について、相互情報量を算出してもよい。この具体例として、100個ある全変数群から2個の変数を抽出して組み合わせた各変数対について、相互情報量をそれぞれ算出する場合を図2Aに示した。相互情報量を算出するとき、変数間の順序(方向)は問わない。このため、図2Aの場合なら、4950(=100C2)個の変数対について、それぞれ相互情報量が算出される。
各変数対に関して算出された相互情報量を一覧にすると図2Bの左表のようになる。各変数対を相互情報量の大きい方から降順に再配列して、順位付け(No.1〜4950)すると、図2Bの右表のようになる。こうして、全変数群から抽出された異なる2変数間(変数対)が、相互情報量に関する降順で配列される(配列ステップ)。
《検証ステップ(手段)》
検証ステップにより、相互情報量の大きい方から降順に所定の選択数だけ抽出した第2変数または変数対からなる選択変数群について、学習モデルの作成と性能評価がなされる。
検証ステップにより、相互情報量の大きい方から降順に所定の選択数だけ抽出した第2変数または変数対からなる選択変数群について、学習モデルの作成と性能評価がなされる。
学習モデルの作成と性能評価は、例えば、交差検証法(相互検証法、クロスバリデーション)によりなされる。交差検証法は、先ず、選択変数群に係る選択データ群を、所定数の個体群毎に分割して、その一部を学習モデル(予測器等)の作成用データ(訓練データ、教示データ)、その他部を評価用データとする(分割ステップ)。
次に、作成用データから得られた学習モデルに、評価用データ(説明変数値)をそれぞれ入力し、得られた各出力値を評価する。出力値の評価は、出力値を正解値(目的変数値)と比較して行う。例えば、正誤の確率(一致率等)、誤差の平均値等の指標値により評価される。
同様な操作を、作成用データと評価用データの組合せを変更して繰り返す。各回で得られた指標値またはその処理値(例えば平均値)により、母データ群に対する選択変数群(変数の選択数)の適否(性能)が評価される(評価ステップ)。
良好な結果(例えば予測精度)が得られないとき、変数の選択数を増加した新たな選択変数群について、上述した検証ステップ(分割ステップ、評価ステップ)を行う。この操作を、良好(または最良)と考えられる評価が得られるまで繰り返す。勿論、初回の選択変数群について十分に良好な評価が得られているときなら、選択数を変更して操作を繰り返す必要はない。
一具体例として、図3に示すように、母データ群を構成する全変数が1000個あり、その1個が目的変数(第1変数)で、残り999個が説明変数(第2変数)である場合を考える。また一例として、前述したように、相互情報量について降順に配列された説明変数群から5個(選択数)選択した選択変数群について、検証ステップを行う場合を考える。図3には、150個の個体(サンプル)を例示した。但し、本例では、その内の100個の個体に関するデータ群を検証ステップに用いた。残り50個の個体に関するデータ群は、後述する確認ステップに用いた。
先ず、5個の選択変数群に係る選択データ群を、例えば、個体数に関して10等分する。次に、その1等分に相当する10個の個体(No.1〜10)に係る選択データ群を評価用データ、9等分に相当する90個の個体(No.11〜100)に係る選択データ群を作成用データとする。作成用データ(説明変数値)を入力値とし、正解値(目的変数値)を教示データとして、予測器(学習モデル)を作成する。この予測器に評価用データを入力して得られる予測値(出力値)を正解値とそれぞれ比較する。そして予測値と正解値の一致率を求める。両値が完全一致していなくても、予測値が正解値に対して所定範囲内にあれば、両者は一致としてもよい。10個の予測値に対して、正解値と一致している確率(一致率)を求める。例えば、10個のうち8個が一致しているなら、一致率0.8(=8/10)とする。
この操作を、分割した個体群と評価用データおよび作成用データとの対応関係(組合せ)を変更して、繰り返し行う。例えば、2回目の評価ステップなら、10個の個体(No.11〜20)に係る選択データ群を評価用データとし、残り90個の個体(No.1〜10およびNo.21〜100)に係る選択データ群を作成用データとして行う。同様に、評価用データと作成用データを変更して、本例の場合なら、10回の評価ステップを行う。こうして得られた10個の一致率の算術平均値(単に「一致率」ともいう。)を、本例における選択変数群の性能指標値とする。
選択数を変更した選択変数群(例えば、選択数が10、15・・・)についても、上述した操作を同様に行う。これにより、選択変数群の選択数と予測器(学習モデル)の性能指標値(性能評価)との関係が求まる。その関係に基づいて、性能指標値が良好さらには最大となり得る選択数を決定する。
その一例として、相互情報量の大きい方から順に選択した変数の選択数(5個ずつ)と、交差検証後の性能指標値(一致率)との関係を図4に示した。本例の場合なら、相互情報量の上位15個の変数を選定して作成した予測器(学習モデル)が、ほぼ最高の精度といえる。
このように求まった選択数を踏まえて、特定変数群に含まれる変数の数を決定する(選定ステップ)。検証結果が良好な選択変数群を、そのまま特定変数群としてもよい。また選択変数群に対して、特定変数群に含まれる変数の数を増減させてもよい。
《確認ステップ(手段)》
確認ステップにより、特定変数群からなる学習モデルの性能を確認する。確認ステップでは、検証ステップで使用されていない母データ群の残部(確認データ)を用いて評価(検証)するとよい。確認ステップで用いる学習モデルは、母データ群から確認データを除いた検証データ全体を教示データとして機械学習されたものでもよい。特定変数群に係る学習モデルが良好な予測値を出力することが確認されたら、変数選定処理または学習モデルの作成処理を終える。
確認ステップにより、特定変数群からなる学習モデルの性能を確認する。確認ステップでは、検証ステップで使用されていない母データ群の残部(確認データ)を用いて評価(検証)するとよい。確認ステップで用いる学習モデルは、母データ群から確認データを除いた検証データ全体を教示データとして機械学習されたものでもよい。特定変数群に係る学習モデルが良好な予測値を出力することが確認されたら、変数選定処理または学習モデルの作成処理を終える。
《フローチャート》
本発明に係る変数選定や学習モデルの作成は、例えば、図5に示すフローチャートに沿ってなされる。以下、そのフローチャートを構成する各ステップについて説明する。
本発明に係る変数選定や学習モデルの作成は、例えば、図5に示すフローチャートに沿ってなされる。以下、そのフローチャートを構成する各ステップについて説明する。
ステップS1で、関連するデータが収集される(収集ステップ)。各データは、個体番号等の識別子に基づいて統合される(統合ステップ)。統合形式は、行列形式、グラフ形式等のいずれでもよい。こうして、解析対象となるビッグデータ(母データ群)が取得される。
ステップS2で、各データを構成する全変数群から抽出した変数間毎の相互情報量が算出される(情報量算出ステップ)。相互情報量の降順に、各変数(第2変数/説明変数)または各変数対が配列される(配列ステップ)。
ステップS31で、配列された変数(対)群から抽出する選択数の設定がなされ、選択数に応じた選択変数群が設定される。
ステップS32で、その選択変数群に係る選択データ群を用いて、交差検証法により学習モデルの作成と評価を行う(検証ステップ)。その評価は、学習モデルの性能指標値(例えば予測器の一致率の平均値)を算出する。
ステップS33で、その性能指標値の適否を判断する。性能指標値が所望範囲内なら、そのときの選択数を考慮して特定変数群を選定し、ステップS4へ進む。その性能指標値が所望範囲外なら、ステップS34に進み、選択数を増加させて、ステップS31〜S33を繰り返す。
ステップS4では、特定変数群について作成された学習モデルの性能を、未利用な母データ群を用いて確認する(確認ステップ)。なお、ステップS32で用いる検証用データとステップS4で用いる確認用データとは、ステップS31後に、所定の個体数分で、選択データ群を分割して設定される(データ分割ステップ)。
《システム》
本実施例に係る変数選定システムは、汎用または専用のコンピュータと、そのコンピュータ上で実行されるプログラムとにより構成される。コンピュータは、演算部(CPU等)、データやプログラムを一時的または長期的に保存する保存部(ROM、RAM、HDD、SSD等)、表示部(ディスプレー等)、入出力部(キーボード、マウス、通信インターフェース等)などを備える。コンピュータは、専用機でも汎用機(パーソナルコンピュータ(PC)等)でもよい。プログラムは、コンピュータに一時的または長期的にインストールされて、上述した変数選定方法に係る各ステップを実行する。プログラムは、専用ソフトウェアでも、汎用ソフトウェアを利用したものでもよい。なお、各ステップを実行するプログラム部分が各手段となる。
本実施例に係る変数選定システムは、汎用または専用のコンピュータと、そのコンピュータ上で実行されるプログラムとにより構成される。コンピュータは、演算部(CPU等)、データやプログラムを一時的または長期的に保存する保存部(ROM、RAM、HDD、SSD等)、表示部(ディスプレー等)、入出力部(キーボード、マウス、通信インターフェース等)などを備える。コンピュータは、専用機でも汎用機(パーソナルコンピュータ(PC)等)でもよい。プログラムは、コンピュータに一時的または長期的にインストールされて、上述した変数選定方法に係る各ステップを実行する。プログラムは、専用ソフトウェアでも、汎用ソフトウェアを利用したものでもよい。なお、各ステップを実行するプログラム部分が各手段となる。
本発明の変数選定方法は、機械学習手法を問わず、様々な分野のビッグデータの解析等に利用され得る。一例として、生産現場で日々収集される品質管理用ログデータ(ビッグデータ)の解析を行うを取り上げる。具体的にいうと、目的変数となる製品の品質(強度、硬さ等)を、製造時の環境(温度、気圧等)、条件等を指標する説明変数値(データ)に基づいて、予測する予測器を作成する場合である。このような場合に本発明の変数選定方法を適用すると、品質への寄与が大きい変数が採用されると共に、品質への寄与が小さい変数が排除された予測器が作成されて、高精度な予測が可能となる。
《解析例》
工場で取得された品質管理用ログデータ群(母データ群)について、本発明の変数選定方法を適用したときの効果を確認した。その結果を図6Aと図6B(両者を併せて「図6」という。)に示した。図6Aは、機械学習手法に「サポートベクター回帰」を用いた場合である。図6Bは、機械学習手法に「XGBOOST」を用いた場合である。
工場で取得された品質管理用ログデータ群(母データ群)について、本発明の変数選定方法を適用したときの効果を確認した。その結果を図6Aと図6B(両者を併せて「図6」という。)に示した。図6Aは、機械学習手法に「サポートベクター回帰」を用いた場合である。図6Bは、機械学習手法に「XGBOOST」を用いた場合である。
いずれの場合も、700個の各変数(全変数群)について、それぞれ採取された15万個のサンプルからなるビッグデータ(データ総数:700×15万=1億500万個)を対象とした。
このビッグデータを利用して、各変数間の相互情報量を算出した(情報量算出ステップ)。相互情報量の算出には、非特許文献4・5に記載されている最大情報量係数MICを用いて行った。相互情報量は、製品品質に係る1つの変数を目的変数(第1変数)とし、それ以外の変数を説明変数(第2変数)として、各変数対間で算出した。得られた相互情報量に基づいて、各説明変数を相互情報量の降順に配列した(配列ステップ)。
図6Aに示した「サポートベクター回帰」では、相互情報量が大きい方から選択した5個(選択数)の変数を選択変数群とした。図6Bに示した「XGBOOST」では、相互情報量が大きい方から選択した20個(選択数)を選択変数群とした。
いずれの場合も、全サンプルを10等分して、交差検証を行い、予測器(学習モデル)の作成と評価を行った(検証ステップ)。評価は、各説明変数の実データを入力したときに得られる予測値と、目的変数の実データ(正解値)との一致率(相加平均値)に基づいて行った。このとき、予測値の正解値に対する誤差が所定範囲内(5%未満)であれば、両者は一致とした。
図6には、変数を選択せず全変数を用いて交差検証をしたときの一致率も併せて示した。図6から明らかなように、相互情報量に基づく変数選定を行った場合、機械学習モデルにかかわらず、一致率(精度)が向上することがわかった。つまり、本発明の変数選定方法を用いると、予測精度を向上させ得ることが確認された。
Claims (5)
- 対象となる母データ群を構成する全変数群から機械学習に用いる特定変数群を選定する変数選定方法であって、
該全変数群から抽出される1以上の第1変数と該第1変数と異なり該全変数群から抽出される各第2変数との組合せである変数対の相互情報量をそれぞれ該母データ群を用いて算出する情報量算出ステップと、
該相互情報量の大きい方から降順に所定の選択数だけ抽出した該第2変数または該変数対からなる選択変数群について、該母データ群から抽出される該選択変数群に係る選択データ群を用いて学習モデルの作成と性能評価を行う検証ステップとを備え、
該学習モデルの性能を考慮した該選択変数群の選択数に基づいて該特定変数群を選定する変数選定方法。 - 前記検証ステップは、交差検証法によりなされる請求項1に記載の変数選定方法。
- 前記検証ステップは、前記母データ群を構成する個体群の一部に係るデータ群を用いてなされ、
さらに、該個体群の他部に係るデータ群を用いて、前記特定変数群について作成された学習モデルの性能評価を行う確認ステップを備える請求項1または2に記載の変数選定方法。 - 請求項1〜3のいずれかに記載のステップをコンピュータに実行させる変数選定プログラム。
- 請求項4に記載の変数選定プログラムと、
該変数選定プログラムを実行するコンピュータとを備える変数選定システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019156305A JP2021033895A (ja) | 2019-08-29 | 2019-08-29 | 変数選定方法、変数選定プログラムおよび変数選定システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019156305A JP2021033895A (ja) | 2019-08-29 | 2019-08-29 | 変数選定方法、変数選定プログラムおよび変数選定システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021033895A true JP2021033895A (ja) | 2021-03-01 |
Family
ID=74677472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019156305A Pending JP2021033895A (ja) | 2019-08-29 | 2019-08-29 | 変数選定方法、変数選定プログラムおよび変数選定システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021033895A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220125052A (ko) * | 2021-03-04 | 2022-09-14 | (주)위드아이에스 | 데이터 통합 분석을 기반으로 하는 운송사업운영 분석 평가 시스템 및 그 방법 |
CN115905198A (zh) * | 2022-11-24 | 2023-04-04 | 中国长江电力股份有限公司 | 一种长江流域关键水位站点的水位数据预警方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09167152A (ja) * | 1995-12-19 | 1997-06-24 | Hitachi Ltd | 対話的モデル作成方法 |
JP2017199358A (ja) * | 2016-03-10 | 2017-11-02 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | 視覚ベイジアンデータフュージョンのシステムおよび方法 |
JP2018045559A (ja) * | 2016-09-16 | 2018-03-22 | 富士通株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2018096683A1 (ja) * | 2016-11-28 | 2018-05-31 | 日本電気株式会社 | 要因分析方法、要因分析装置および要因分析プログラム |
-
2019
- 2019-08-29 JP JP2019156305A patent/JP2021033895A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09167152A (ja) * | 1995-12-19 | 1997-06-24 | Hitachi Ltd | 対話的モデル作成方法 |
JP2017199358A (ja) * | 2016-03-10 | 2017-11-02 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | 視覚ベイジアンデータフュージョンのシステムおよび方法 |
JP2018045559A (ja) * | 2016-09-16 | 2018-03-22 | 富士通株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2018096683A1 (ja) * | 2016-11-28 | 2018-05-31 | 日本電気株式会社 | 要因分析方法、要因分析装置および要因分析プログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220125052A (ko) * | 2021-03-04 | 2022-09-14 | (주)위드아이에스 | 데이터 통합 분석을 기반으로 하는 운송사업운영 분석 평가 시스템 및 그 방법 |
KR102457947B1 (ko) | 2021-03-04 | 2022-10-25 | (주)위드아이에스 | 데이터 통합 분석을 기반으로 하는 운송사업운영 분석 평가 시스템 및 그 방법 |
CN115905198A (zh) * | 2022-11-24 | 2023-04-04 | 中国长江电力股份有限公司 | 一种长江流域关键水位站点的水位数据预警方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meager | Understanding the average impact of microcredit expansions: A Bayesian hierarchical analysis of seven randomized experiments | |
Jiang et al. | Variable selection with prior information for generalized linear models via the prior LASSO method | |
Liesecke et al. | Ranking genome-wide correlation measurements improves microarray and RNA-seq based global and targeted co-expression networks | |
Sawatsky et al. | Partial least squares regression in the social sciences | |
Choodari‐Oskooei et al. | A simulation study of predictive ability measures in a survival model I: explained variation measures | |
Young et al. | Fast Bayesian inference for gene regulatory networks using ScanBMA | |
LeDell et al. | AUC-maximizing ensembles through metalearning | |
Prangle et al. | Semi-automatic selection of summary statistics for ABC model choice | |
Lin et al. | High-dimensional sparse additive hazards regression | |
Kline et al. | Sensitivity to missing data assumptions: Theory and an evaluation of the US wage structure | |
Mittas et al. | LSEbA: least squares regression and estimation by analogy in a semi-parametric model for software cost estimation | |
Cho et al. | Reconstructing causal biological networks through active learning | |
Kandler et al. | Analysing cultural frequency data: Neutral theory and beyond | |
Scutari et al. | Introduction to graphical modelling | |
Zou et al. | A transfer learning approach for predictive modeling of degenerate biological systems | |
Tang et al. | Soden: A scalable continuous-time survival model through ordinary differential equation networks | |
Mogensen et al. | A random forest approach for competing risks based on pseudo‐values | |
Hanson et al. | LCA*: an entropy-based measure for taxonomic assignment within assembled metagenomes | |
JP2021033895A (ja) | 変数選定方法、変数選定プログラムおよび変数選定システム | |
Schmid et al. | A robust alternative to the Schemper–Henderson estimator of prediction error | |
Huang et al. | On self‐normalization for censored dependent data | |
Alharbi et al. | Fuzzy System Reliability Analysis for Kumaraswamy Distribution: Bayesian and Non-Bayesian Estimation with Simulation and an Application on Cancer Data Set | |
Sun et al. | Semiparametric efficient G-estimation with invalid instrumental variables | |
Pelizzola et al. | Multiple haplotype reconstruction from allele frequency data | |
Yu et al. | Asymptotic properties and information criteria for misspecified generalized linear mixed models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230131 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230725 |