JP2021033895A

JP2021033895A - 変数選定方法、変数選定プログラムおよび変数選定システム

Info

Publication number: JP2021033895A
Application number: JP2019156305A
Authority: JP
Inventors: 孝裕柚木; Takahiro Yunoki; 康宏与語; Yasuhiro Yogo; 伊弦宮嵜; Izuru Miyazaki
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2021-03-01

Abstract

【課題】予測精度等の向上を図れる機械学習用の変数選定方法を提供する。【解決手段】本発明は、対象となる母データ群を構成する全変数群から機械学習に用いる特定変数群を選定する変数選定方法である。変数選定方法は、全変数群から抽出される１以上の第１変数と第１変数と異なり全変数群から抽出される各第２変数との組合せである変数対の相互情報量をそれぞれ母データ群を用いて算出する情報量算出ステップと、相互情報量の大きい方から降順に所定の選択数だけ抽出した第２変数または該変数対からなる選択変数群について、母データ群から抽出される選択変数群に係る選択データ群を用いて学習モデルの作成と性能評価を行う検証ステップとを備える。特定変数群は、選択変数群の選択数と学習モデルの性能との関係に基づいて選定される。【選択図】図５

Description

本発明は、機械学習に用いる変数選定方法等に関する。

生産、販売、インフラ等の各種分野で、多数の変数毎について、時系列等に沿って取得される膨大なデータ群からなるビッグデータを解析して、様々な予測（推定）や認識等を行うことがなされている。このようなビッグデータの解析は、従来のデータベース管理手法にかわり、機械学習手法によりなされることが多い。

予測精度等の向上を図るためには、機械学習に用いる変数選択を適切に行って学習モデルを作成する必要がある。逆にいえば、結果（出力）に殆ど影響（寄与）しない入力側の変数は、適確に排除または削減される方がよい。このような変数選択（選定）に関連する記載が、例えば、下記の特許文献にある。

国際公開公報：ＷＯ２０１８／０９２３１７米国特許公報：ＵＳ８７５１２７３

Hastie, T., R. Tibshirani and J. Friedman （2009）："The Elements of Statistical Learning : Data Mining, Inference, and Prediction (second edition)", Springer （日本語訳）杉山将、井手剛、神嶌敏弘、栗田多喜夫、前田英作（監訳）（2014）：『統計的学習の基礎：データマイニング・推論・予測』、共立出版畠中道雄（1996）：「第6章：最尤法にもとづく推測」『計量経済学の方法（改訂版）』、創文社、pp.246-269. Cover, T. M. and J. A. Thomas (2006): "Chapter. 8 Differential Entropy", in "Elements of Information Theory, Second Edition", John Wiley and sons,（日本語訳）山本博資、古賀弘樹、有村光晴、岩本貢（訳）「第８章：微分エントロピー」『情報理論：基礎と広がり』、共立出版、pp.179-191. Reshef, David M., Y. A. Reshef, H. K. Finucane, S. R. Grossman, G. Mcvean, P. J. Turnbaugh, E. S. Landen, M. Mitzenmacher, and P. C. Sabet (2011): "Detecting Novel Associations in Large Data Sets", science, vol.334, pp.1518-1524. Reshef, David M., Y. A. Reshef, H. K. Finucane, and P. C. Sabet (2016): "Measuring Dependence Powerfully and Equitably", Journal of Machine Learning Research, vol.17, pp.1-63. 福水健次（2010）：『カーネル法入門 ‐正定値カーネルによるデータ解析‐』、（シリーズ多変量データの統計科学）、朝倉書店.

特許文献１は、機械学習部分で、次元圧縮や次元変換を行って変数を削減している。具体的にいうと、主成分分析や畳込みニューラルネットワークを用いて変数合成等を行い、変数を削減している。この場合、元の変数と異なる変数が新たに作成され得るため、機械学習へ強く寄与する元の変数が不明確になり易い。

特許文献２は、機械学習部分で、学習モデルを用いて変数選択をしている。この場合、独立して寄与している変数であれば、低い寄与率（例えば０．００１未満）の変数でも選択され、万能な近似がなされる学習器（万能近似器）が作成される。この場合、適切な変数削減がなされず、変数の多い学習モデルが作成されるため、過学習により却って出力値の精度が悪化し得る（非特許文献１、pp.445参照）。

また、特許文献２のように、特定の機械学習手法を前提として、最尤法で求まる尤度に基づいて変数を選択する場合、元の尤度関数（分布）の指定が誤っていると、変数選択も誤りとなる。このとき、出力値の誤差が改善されないことが知られている（非特許文献２参照）。

本発明はこのような事情に鑑みて為されたものであり、従来とは異なる手法により、機械学習に用いる変数を選定できる変数選定方法等を提供することを目的とする。

本発明者は上述した課題を解決すべく鋭意研究した結果、学習モデルの作成前に、変数間の相互情報量を予め算出しておき、その相互情報量の大小関係に基づいて選定した変数を用いて機械学習を行うことを着想し、具現化した。この成果を発展させることにより、以降に述べる本発明を完成するに至った。

《変数選定方法》
（１）本発明は、対象となる母データ群を構成する全変数群から機械学習に用いる特定変数群を選定する変数選定方法であって、該全変数群から抽出される１以上の第１変数と該第１変数と異なり該全変数群から抽出される各第２変数との組合せである変数対の相互情報量をそれぞれ該母データ群を用いて算出する情報量算出ステップと、該相互情報量の大きい方から降順に所定の選択数だけ抽出した該第２変数または該変数対からなる選択変数群について、該母データ群から抽出される該選択変数群に係る選択データ群を用いて学習モデルの作成と性能評価を行う検証ステップとを備え、該学習モデルの性能を考慮した該選択変数群の選択数に基づいて該特定変数群を選定する変数選定方法である。

（２）本発明によれば、機械学習前に、予め相互情報量が小さい変数を排除して、学習モデルを作成できる。このため、高精度な学習モデル（予測器等）の作成を効率的に行える。また、本発明では、機械学習前に算出した相互情報量に基づいて変数を選択しており、機械学習中に次元圧縮による変数変更や変数合成等を行っていない。このため本発明によれば、学習モデルの作成に強く寄与する変数が不明確になることもない。

《プログラムとシステム》
本発明は、上述したステップをコンピュータに実行させる変数選定プログラムとしても把握できる。また、その変数選定プログラムと、該変数選定プログラムを実行するコンピュータとを備える変数選定システムとしても把握できる。

《その他》
（１）検証された選択変数群の変数の数（選択数）と、最終的に学習モデルの構築に用いられる特定変数群の変数の数（特定数）とは、必ずしも一致しなくてもない。良好な結果が得られそうな選択数に基づいて、特定数が調整（変更）されてもよい。

相互情報量に基づいて適切な数の変数を選択すると、初回の検証時から、良好な結果（精度）が得られることもある。このようなときは、必ずしも、選択数を変更して学習モデルの検証を繰り返し行う必要はない。

選択数を変更して学習モデルの検証を繰り返すときは、選択数は１個刻みで増加させても、複数刻みで増加させてもよい。また、選択数の増分は一定でなくてもよい。

（２）本明細書でいう「〜ステップ」と「〜手段」は、本発明の対象（物の発明か方法の発明）に応じて、相互に言換えることができる。また、「〜手段」は「〜部」と換言することもできる。

相互情報量を算出する変数対の一例を示す模式図である。その相互情報量の算出例と、相互情報量の降順に沿った変数の配列例を示すテーブルである。相互情報量を算出する変数対の他例を示す模式図である。その相互情報量の算出例と、相互情報量の降順に沿った変数の配列例を示すテーブルである。選択変数群に交差検証法を適用するデータ群の分割例を示す模式図である。変数の選択数と学習モデルの性能指標値との関係を例示する散布図である。選定した変数による学習モデルの作成過程を示すフローチャート例である。学習モデルの予測精度（一致率）に対する変数選定の影響を例示する棒グラフである。別な学習モデルの予測精度に対する変数選定の影響を例示する棒グラフである。

上述した本発明の構成要素に、本明細書中から任意に選択した一つまたは二つ以上の構成要素を付加し得る。本明細書で説明する内容は、変数選定方法のみならず、そのプログラムやシステム等にも適宜該当する。

《情報量算出ステップ（手段）》
（１）情報量算出ステップにより、母データ群（検討対象とする全データ）を構成する全変数群（検討対象とする全変数）から抽出した各変数対について、母データ群を用いて、相互情報量が算出される。なお、相互情報量は、一対の変数間の相互依存の尺度を示す量である。独立変数間の相互情報量は零であり、相互情報量が大きくなるほど、変数間の依存性は高くなる。

相互情報量およびその算出手法は種々あり、適宜、選択される。例えば、相互情報量は「最大情報量係数（Maximum Information Coefficient：MIC）」として算出される。その詳細は、上述した非特許文献４、非特許文献５に示されている。また、相互情報量は、「ピアソン相関係数」または「ヒルベルト＝シュミット独立性規準（Hilbert-Schmidt Independence Criteria：HSIC）」として算出される。その詳細は、上述した非特許文献６に示されている。相互情報量の大小関係に基づいて変数（対）を配列できる限り、いずれの算出方法を採用してもよい。

（２）相互情報量を算出する変数対は、全変数群から抽出される第１変数とその第１変数と異なる第２変数とのペアリングである。

目的変数が特定（限定）されているときなら、例えば、全変数群から抽出した１以上の変数を第１変数（目的変数）とし、その第１変数と異なる変数を第２変数（説明変数）として、変数対が生成される。一具体例として、全変数が１００個あり、その内、１個が目的変数（第１変数）で、残り９９個が説明変数（第２変数）である場合を図１Ａに示した。このとき、目的変数と説明変数を組み合わせ（変数対）は９９通りとなり、それぞれの組合せ（変数対）について相互情報量が計算される。

こうして１個の目的変数と、９９個の各説明変数との間でそれぞれ算出された相互情報量を一覧にすると図１Ｂの左表のようになる。各説明変数（Ｎｏ．１〜９９）を、相互情報量の大きい方から降順に再配列すると、図１Ｂの中表のようになる。相互情報量の大きい方から各説明変数に順位（Ｎｏ．１〜９９）を付与すると、図１Ｂの右表のようになる。こうして、目的変数（第１変数）に対する説明変数（第２変数）またはそれらの変数対が、相互情報量に関する降順で配列される（配列ステップ）。

第１変数（目的変数）は複数でもよい。例えば、上記の例でいうと、目的変数（第１変数）が２個になると、１９７（＝９９＋９８）個の変数対が構成され、それぞれの相互情報量を算出することになる。この場合も、相互情報量に関する降順で変数を配列できる。なお、順位付けされた変数に重複があるときは、重複を排除して変数を選択すればよい（以下同様）。

さらに、目的変数が非特定（非限定）なときなら、全変数群から抽出した異なる二つの変数（第１変数と第２変数）の全組合せ（変数対）について、相互情報量を算出してもよい。この具体例として、１００個ある全変数群から２個の変数を抽出して組み合わせた各変数対について、相互情報量をそれぞれ算出する場合を図２Ａに示した。相互情報量を算出するとき、変数間の順序（方向）は問わない。このため、図２Ａの場合なら、４９５０（＝_１００Ｃ_２）個の変数対について、それぞれ相互情報量が算出される。

各変数対に関して算出された相互情報量を一覧にすると図２Ｂの左表のようになる。各変数対を相互情報量の大きい方から降順に再配列して、順位付け（Ｎｏ．１〜４９５０）すると、図２Ｂの右表のようになる。こうして、全変数群から抽出された異なる２変数間（変数対）が、相互情報量に関する降順で配列される（配列ステップ）。

《検証ステップ（手段）》
検証ステップにより、相互情報量の大きい方から降順に所定の選択数だけ抽出した第２変数または変数対からなる選択変数群について、学習モデルの作成と性能評価がなされる。

学習モデルの作成と性能評価は、例えば、交差検証法（相互検証法、クロスバリデーション）によりなされる。交差検証法は、先ず、選択変数群に係る選択データ群を、所定数の個体群毎に分割して、その一部を学習モデル（予測器等）の作成用データ（訓練データ、教示データ）、その他部を評価用データとする（分割ステップ）。

次に、作成用データから得られた学習モデルに、評価用データ（説明変数値）をそれぞれ入力し、得られた各出力値を評価する。出力値の評価は、出力値を正解値（目的変数値）と比較して行う。例えば、正誤の確率（一致率等）、誤差の平均値等の指標値により評価される。

同様な操作を、作成用データと評価用データの組合せを変更して繰り返す。各回で得られた指標値またはその処理値（例えば平均値）により、母データ群に対する選択変数群（変数の選択数）の適否（性能）が評価される（評価ステップ）。

良好な結果（例えば予測精度）が得られないとき、変数の選択数を増加した新たな選択変数群について、上述した検証ステップ（分割ステップ、評価ステップ）を行う。この操作を、良好（または最良）と考えられる評価が得られるまで繰り返す。勿論、初回の選択変数群について十分に良好な評価が得られているときなら、選択数を変更して操作を繰り返す必要はない。

一具体例として、図３に示すように、母データ群を構成する全変数が１０００個あり、その１個が目的変数（第１変数）で、残り９９９個が説明変数（第２変数）である場合を考える。また一例として、前述したように、相互情報量について降順に配列された説明変数群から５個（選択数）選択した選択変数群について、検証ステップを行う場合を考える。図３には、１５０個の個体（サンプル）を例示した。但し、本例では、その内の１００個の個体に関するデータ群を検証ステップに用いた。残り５０個の個体に関するデータ群は、後述する確認ステップに用いた。

先ず、５個の選択変数群に係る選択データ群を、例えば、個体数に関して１０等分する。次に、その１等分に相当する１０個の個体（Ｎｏ．１〜１０）に係る選択データ群を評価用データ、９等分に相当する９０個の個体（Ｎｏ．１１〜１００）に係る選択データ群を作成用データとする。作成用データ（説明変数値）を入力値とし、正解値（目的変数値）を教示データとして、予測器（学習モデル）を作成する。この予測器に評価用データを入力して得られる予測値（出力値）を正解値とそれぞれ比較する。そして予測値と正解値の一致率を求める。両値が完全一致していなくても、予測値が正解値に対して所定範囲内にあれば、両者は一致としてもよい。１０個の予測値に対して、正解値と一致している確率（一致率）を求める。例えば、１０個のうち８個が一致しているなら、一致率０．８（＝８／１０）とする。

この操作を、分割した個体群と評価用データおよび作成用データとの対応関係（組合せ）を変更して、繰り返し行う。例えば、２回目の評価ステップなら、１０個の個体（Ｎｏ．１１〜２０）に係る選択データ群を評価用データとし、残り９０個の個体（Ｎｏ．１〜１０およびＮｏ．２１〜１００）に係る選択データ群を作成用データとして行う。同様に、評価用データと作成用データを変更して、本例の場合なら、１０回の評価ステップを行う。こうして得られた１０個の一致率の算術平均値（単に「一致率」ともいう。）を、本例における選択変数群の性能指標値とする。

選択数を変更した選択変数群（例えば、選択数が１０、１５・・・）についても、上述した操作を同様に行う。これにより、選択変数群の選択数と予測器（学習モデル）の性能指標値（性能評価）との関係が求まる。その関係に基づいて、性能指標値が良好さらには最大となり得る選択数を決定する。

その一例として、相互情報量の大きい方から順に選択した変数の選択数（５個ずつ）と、交差検証後の性能指標値（一致率）との関係を図４に示した。本例の場合なら、相互情報量の上位１５個の変数を選定して作成した予測器（学習モデル）が、ほぼ最高の精度といえる。

このように求まった選択数を踏まえて、特定変数群に含まれる変数の数を決定する（選定ステップ）。検証結果が良好な選択変数群を、そのまま特定変数群としてもよい。また選択変数群に対して、特定変数群に含まれる変数の数を増減させてもよい。

《確認ステップ（手段）》
確認ステップにより、特定変数群からなる学習モデルの性能を確認する。確認ステップでは、検証ステップで使用されていない母データ群の残部（確認データ）を用いて評価（検証）するとよい。確認ステップで用いる学習モデルは、母データ群から確認データを除いた検証データ全体を教示データとして機械学習されたものでもよい。特定変数群に係る学習モデルが良好な予測値を出力することが確認されたら、変数選定処理または学習モデルの作成処理を終える。

《フローチャート》
本発明に係る変数選定や学習モデルの作成は、例えば、図５に示すフローチャートに沿ってなされる。以下、そのフローチャートを構成する各ステップについて説明する。

ステップＳ１で、関連するデータが収集される（収集ステップ）。各データは、個体番号等の識別子に基づいて統合される（統合ステップ）。統合形式は、行列形式、グラフ形式等のいずれでもよい。こうして、解析対象となるビッグデータ（母データ群）が取得される。

ステップＳ２で、各データを構成する全変数群から抽出した変数間毎の相互情報量が算出される（情報量算出ステップ）。相互情報量の降順に、各変数（第２変数／説明変数）または各変数対が配列される（配列ステップ）。

ステップＳ３１で、配列された変数（対）群から抽出する選択数の設定がなされ、選択数に応じた選択変数群が設定される。

ステップＳ３２で、その選択変数群に係る選択データ群を用いて、交差検証法により学習モデルの作成と評価を行う（検証ステップ）。その評価は、学習モデルの性能指標値（例えば予測器の一致率の平均値）を算出する。

ステップＳ３３で、その性能指標値の適否を判断する。性能指標値が所望範囲内なら、そのときの選択数を考慮して特定変数群を選定し、ステップＳ４へ進む。その性能指標値が所望範囲外なら、ステップＳ３４に進み、選択数を増加させて、ステップＳ３１〜Ｓ３３を繰り返す。

ステップＳ４では、特定変数群について作成された学習モデルの性能を、未利用な母データ群を用いて確認する（確認ステップ）。なお、ステップＳ３２で用いる検証用データとステップＳ４で用いる確認用データとは、ステップＳ３１後に、所定の個体数分で、選択データ群を分割して設定される（データ分割ステップ）。

《システム》
本実施例に係る変数選定システムは、汎用または専用のコンピュータと、そのコンピュータ上で実行されるプログラムとにより構成される。コンピュータは、演算部（ＣＰＵ等）、データやプログラムを一時的または長期的に保存する保存部（ＲＯＭ、ＲＡＭ、ＨＤＤ、ＳＳＤ等）、表示部（ディスプレー等）、入出力部（キーボード、マウス、通信インターフェース等）などを備える。コンピュータは、専用機でも汎用機（パーソナルコンピュータ（ＰＣ）等）でもよい。プログラムは、コンピュータに一時的または長期的にインストールされて、上述した変数選定方法に係る各ステップを実行する。プログラムは、専用ソフトウェアでも、汎用ソフトウェアを利用したものでもよい。なお、各ステップを実行するプログラム部分が各手段となる。

本発明の変数選定方法は、機械学習手法を問わず、様々な分野のビッグデータの解析等に利用され得る。一例として、生産現場で日々収集される品質管理用ログデータ（ビッグデータ）の解析を行うを取り上げる。具体的にいうと、目的変数となる製品の品質（強度、硬さ等）を、製造時の環境（温度、気圧等）、条件等を指標する説明変数値（データ）に基づいて、予測する予測器を作成する場合である。このような場合に本発明の変数選定方法を適用すると、品質への寄与が大きい変数が採用されると共に、品質への寄与が小さい変数が排除された予測器が作成されて、高精度な予測が可能となる。

《解析例》
工場で取得された品質管理用ログデータ群（母データ群）について、本発明の変数選定方法を適用したときの効果を確認した。その結果を図６Ａと図６Ｂ（両者を併せて「図６」という。）に示した。図６Ａは、機械学習手法に「サポートベクター回帰」を用いた場合である。図６Ｂは、機械学習手法に「ＸＧＢＯＯＳＴ」を用いた場合である。

いずれの場合も、７００個の各変数（全変数群）について、それぞれ採取された１５万個のサンプルからなるビッグデータ（データ総数：７００×１５万＝１億５００万個）を対象とした。

このビッグデータを利用して、各変数間の相互情報量を算出した（情報量算出ステップ）。相互情報量の算出には、非特許文献４・５に記載されている最大情報量係数ＭＩＣを用いて行った。相互情報量は、製品品質に係る１つの変数を目的変数（第１変数）とし、それ以外の変数を説明変数（第２変数）として、各変数対間で算出した。得られた相互情報量に基づいて、各説明変数を相互情報量の降順に配列した（配列ステップ）。

図６Ａに示した「サポートベクター回帰」では、相互情報量が大きい方から選択した５個（選択数）の変数を選択変数群とした。図６Ｂに示した「ＸＧＢＯＯＳＴ」では、相互情報量が大きい方から選択した２０個（選択数）を選択変数群とした。

いずれの場合も、全サンプルを１０等分して、交差検証を行い、予測器（学習モデル）の作成と評価を行った（検証ステップ）。評価は、各説明変数の実データを入力したときに得られる予測値と、目的変数の実データ（正解値）との一致率（相加平均値）に基づいて行った。このとき、予測値の正解値に対する誤差が所定範囲内（５％未満）であれば、両者は一致とした。

図６には、変数を選択せず全変数を用いて交差検証をしたときの一致率も併せて示した。図６から明らかなように、相互情報量に基づく変数選定を行った場合、機械学習モデルにかかわらず、一致率（精度）が向上することがわかった。つまり、本発明の変数選定方法を用いると、予測精度を向上させ得ることが確認された。

Claims

対象となる母データ群を構成する全変数群から機械学習に用いる特定変数群を選定する変数選定方法であって、
該全変数群から抽出される１以上の第１変数と該第１変数と異なり該全変数群から抽出される各第２変数との組合せである変数対の相互情報量をそれぞれ該母データ群を用いて算出する情報量算出ステップと、
該相互情報量の大きい方から降順に所定の選択数だけ抽出した該第２変数または該変数対からなる選択変数群について、該母データ群から抽出される該選択変数群に係る選択データ群を用いて学習モデルの作成と性能評価を行う検証ステップとを備え、
該学習モデルの性能を考慮した該選択変数群の選択数に基づいて該特定変数群を選定する変数選定方法。
前記検証ステップは、交差検証法によりなされる請求項１に記載の変数選定方法。
前記検証ステップは、前記母データ群を構成する個体群の一部に係るデータ群を用いてなされ、
さらに、該個体群の他部に係るデータ群を用いて、前記特定変数群について作成された学習モデルの性能評価を行う確認ステップを備える請求項１または２に記載の変数選定方法。
請求項１〜３のいずれかに記載のステップをコンピュータに実行させる変数選定プログラム。
請求項４に記載の変数選定プログラムと、
該変数選定プログラムを実行するコンピュータとを備える変数選定システム。