JP7352070B2

JP7352070B2 - データ処理方法、データ処理装置、及びプログラム

Info

Publication number: JP7352070B2
Application number: JP2019139622A
Authority: JP
Inventors: 直哉古渡
Original assignee: Yokohama Rubber Co Ltd
Current assignee: Yokohama Rubber Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2023-09-28
Anticipated expiration: 2039-07-30
Also published as: JP2021022275A

Description

本発明は、コンピュータが、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成するためのデータ処理方法、データ処理装置、及びプログラムに関する。

近年、コンピュータに機械学習をさせて、入力されたデータから種々の予測を行う技術が活発に提案されている。一方、従来より、複数のゴム材料、充填材、及びオイル等を試行錯誤により配合して加硫ゴム組成物を試作して物性データを実験して計測することが行われている。このため、加硫ゴム組成物の配合情報と物性データの値とを紐付けたデータが多数蓄積されている。この蓄積データを学習用データセットとして活用して、コンピュータに機械学習させて、入力されたデータから物性データの値を予測させることができる。

例えば、ニューラルネットワークの手法を用いて、設計・配合等の実験データの要因群と特性群との写像関係を学習し、要因条件から特性値を推定するとともに、任意の特性データに対して、それを作り出す要因データの最適値を効率的にかつ容易に求める方法を提供する技術が知られている（特許文献１）。

特開２００３－５８５８２号公報

この技術におけるニューラルネットワークの学習では、用意したオリジナルデータを全て一律に読み取って複数の学習データに用いる。オリジナルデータの大部分は、設計・配合等の実験データの要因群である複数の説明変数の値と、説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、説明変数の値に欠損情報がない複数の非欠損データである。しかし、オリジナルデータには、説明変数の一部に値がない欠損情報を含んだ欠損データを複数含む場合が多い。

このような欠損データについては、欠損情報に、説明変数の値に０や予め定めた値を設定して強制的に非欠損データに調整処理する、あるいは、欠損情報を含んだ説明変数をオリジナルデータから強制的に除去する除去処理を施こす場合が多い。
このような処理を行ったオリジナルデータを予測モジュールに機械学習をさせると、上記調整処理した非欠損データは、ノイズ成分となり易く、また、上記除去処理により、説明変数の数が少なくなるので、要因条件から特性値を予測する予測精度が低下し易い。

そこで、本発明は、コンピュータが、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを定めるとき、オリジナルデータセットに欠損データがあっても、欠損データを生かして可能な限り精度よく特徴量の値を予測することができる予測モジュールを定めるデータ処理方法、データ処理装置、およびデータ処理方法をコンピュータに実行させるプログラムを提供することを目的とする。

本発明の一態様は、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を、コンピュータが予測して出力する予測モジュールを作成するためのデータ処理方法である。当該データ処理方法は、
複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットを、コンピュータが、学習用データセットと、検証用データセットとに分離するステップと、
前記コンピュータが、前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出するステップと、
抽出した複数の欠損説明変数のいずれか１つ、あるいは少なくとも２つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、前記コンピュータが、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を行い、前記処理において、前記選択欠損説明変数を変更することにより、前記コンピュータが、複数のサブ学習用データセット及びサブ検証用データセットを作成するステップと、
前記コンピュータが、前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成するステップと、
前記コンピュータが、前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価するステップと、
前記コンピュータは、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定するステップと、を備える。

前記サブ学習用データセット及び前記サブ検証用データセットを作成するときに用いる、選択する前記欠損説明変数の組合せは、２つの欠損説明変数の組み合わせの他に、３つ以上の欠損説明変数の組み合わせを含み、
前記予測精度の評価に用いるサブ検証用データセットは、前記複数の予測モジュール候補のそれぞれにおいて定義される複数の説明変数の種類に対応した説明変数を少なくとも有するサブ検証用データセットをすべて用いて予測精度の評価をする、ことが好ましい。

前記オリジナルデータセットを前記学習用データセットと前記検証用データセットとに分割するとき、前記検証用データセットを前記オリジナルデータセットの異なる部分から取り出し、残りの部分を前記学習用データセットとする分割を複数回行い、前記分割の度に、前記学習用データセットを用いて作成した前記複数の予測モジュール候補の予測精度の評価を行い、複数回行った予測精度の評価結果の平均値に基づいて前記複数の予測モジュール候補から前記予測モジュールを決定する、ことが好ましい。

前記サブ学習用データセット及び前記サブ検証用データセットを作成するとき、前記抽出した前記欠損説明変数全てを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除することにより作成したデータセットを、前記サブ学習用データセット及び前記サブ検証用データセットとして作成する、ことが好ましい。

前記サブ学習用データセット及び前記サブ検証用データセットを作成するとき、前記抽出した複数の欠損説明変数の全ての組み合わせに対応したサブ学習用データセット及びサブ検証用データセットを作成する、ことが好ましい。

前記特徴量は、タイヤに作用する物理量であり、
前記説明変数は、前記タイヤが備える異なる構造によって規定される構造特有の構造説明変数と、前記構造説明変数とは異なる前記タイヤに共通する共通説明変数と、を含み、
前記構造説明変数は、少なくとも第１構造及び第２構造それぞれに関する構造説明変数を含み、
前記サブ学習用データセット及び前記サブ検証用データセットの少なくとも一部のサブ学習用データセット及びサブ検証用データセットにおける説明変数は、前記共通説明変数と前記第１構造及び第２構造のいずれか一方の構造に関する構造説明変数であり、他方の構造に関する構造説明変数を含まない、ことが好ましい。

さらに、前記特徴量に関する目標値の入力に応じて、前記コンピュータが、前記予測モジュールを用いて前記目標値を再現する前記説明変数に関する最適値を算出するステップを備え、
前記最適値を算出するステップでは、前記予測モジュールに入力される前記説明変数の値に応じて前記予測モジュールが予測する前記特徴量の値に基づいて、前記説明変数に関する前記最適値を算出する、ことが好ましい。

前記説明変数の値と前記特徴量の値の関係を可視化するステップを、さらに備える、ことが好ましい。

本発明の他の一態様は、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成する、コンピュータで構成されたデータ処理装置である。当該データ処理装置は、
複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットを、学習用データセットと、検証用データセットとに分離する分離処理部と、
前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出する説明変数抽出処理部と、
抽出した複数の欠損説明変数のいずれか１つ、あるいは少なくとも２つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、前記コンピュータが、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を行い、前記処理において、前記選択欠損説明変数を変更することにより、前記コンピュータが、複数のサブ学習用データセット及びサブ検証用データセットを作成するサブデータセット作成部と、
前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成する予測モジュール候補作成部と、
前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価をする予測モジュール候補評価部と、
前記コンピュータは、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定する予測モジュール決定部と、を備える。

本発明のさらに他の一態様は、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成するためのデータ処理方法を、コンピュータに実行させるプログラムである。当該プログラムは、
複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットから、コンピュータに、学習用データセットと、検証用データセットとに分離させる手順と、
前記コンピュータに、前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出させる手順と、
抽出した複数の欠損説明変数のいずれか１つ、あるいは少なくとも２つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を前記コンピュータに行わせ、前記処理において、前記コンピュータに、前記選択欠損説明変数を変更させることにより、前記コンピュータに、複数のサブ学習用データセット及びサブ検証用データセットを作成させる手順と、
前記コンピュータに、前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成させる手順と、
前記コンピュータに、前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価させる手順と、
前記コンピュータに、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定させる手順と、を備える。

上述のデータ処理方法、データ処理装置、およびプログラムによれば、コンピュータが、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成するとき、オリジナルデータに欠損データがあっても、欠損データを生かして可能な限り精度よく特徴量の値を予測することができる。

一実施形態のデータ処理方法の流れの一例を概略説明する図である。一実施形態のデータ処理装置の構成の一例を示す図である。一実施形態のデータ処理方法で用いるオリジナルデータセットの一例を簡素化して説明する図である。一実施形態のデータ処理方法において、図３に示すオリジナルデータセットから作成されるサブ学習用データセットの例を示す図である。一実施形態のデータ処理方法において、図３に示すオリジナルデータセットから作成されるサブ学習用データセットの例を示す図である。一実施形態のデータ処理方法において、図３に示すオリジナルデータセットから作成されるサブ学習用データセットの例を示す図である。一実施形態のデータ処理方法において、図３に示すオリジナルデータセットから作成されるサブ学習用データセットの例を示す図である。一実施形態のデータ処理方法において用いる転移学習の一例を説明する図である。一実施形態のデータ処理方法で行う予測モジュール候補における予測精度の評価の一例を説明する図である。一実施形態のデータ処理方法で用いる、共通説明変数、第１構造の説明変数、及び第２構造の説明変数、を持つオリジナルデータの一例を示す図である。図１０に示すオリジナルデータから作成されるサブ学習用データセットの例を示す図である。図１０に示すオリジナルデータから作成されるサブ学習用データセットの例を示す図である。図１０に示すオリジナルデータから作成されるサブ学習用データセットの例を示す図である。図１０に示すオリジナルデータから作成されるサブ学習用データセットの例を示す図である。一実施形態のデータ処理方法で作成された予測モジュール候補の予測精度の評価結果の一例を示す図である。

以下、一実施形態のデータ処理方法、データ処理装置、およびプログラムを添付の図に基づいて説明する。

図１は、一実施形態のデータ処理方法の流れの一例を概略説明する図である。図２は、一実施形態のデータ処理装置の構成の一例を示す図である。
一実施形態のデータ処理方法は、コンピュータにより実行される方法であり、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成する方法である。
予測モジュールは、オリジナルデータセットから作成される複数のサブ学習用データセットを用いて作成された複数の予測モジュール候補の中から、サブ検証用データセットを用いて評価した評価結果に基づいて定められる。

図２に示すデータ処理装置１０は、ＣＰＵ１２及びメモリ１４を含むコンピュータにより構成される。データ処理装置１０には、ディスプレイ３０、及び、情報を指示入力するためのマウスやキーボードを含む入力操作デバイス３２と接続されている。
入力操作デバイス３２は、操作者がデータ処理装置１０に所望の指示入力をするために用いられる。例えば、予測モジュール候補を作成するための条件を設定するために入力操作デバイス３２から操作者は入力する。
ディスプレイ３０は、設定された情報を表示するために用いられ、例えば、データ処理方法で用いるオリジナルデータセット、学習用データセット、検証用データセット、サブ学習用データセット、サブ検証用データセット等におけるデータの数値、説明変数、欠損説明変数、予測モジュール候補を作成するための条件設定画面、及び、予測モジュール候補における予測精度の評価結果等を表示する。

メモリ１４には、プログラムが記憶されており、ＣＰＵ１２が読み出して実行することにより、サブデータセット作成部１６、予測モジュール候補作成部１８、予測モジュール候補評価部２０、予測モジュール決定部２２、及び予測部２４をソフトウェアモジュールとして機能させる。以下、サブデータセット作成部１６、予測モジュール候補作成部１８、予測モジュール候補評価部２０、予測モジュール決定部２２、及び予測部２４の機能を、図１に示す一実施形態のデータ処理方法の流れを説明しながら同時に説明する。

コンピュータは、機械学習することにより、予測モジュールとなり得る予測モデルを予め保持する。この予測モデルは、上記オリジナルデータセットから作成される複数のサブ学習用データセットを用いて機械学習することにより、予測モジュール候補となる。この予測モジュール候補の少なくとも１つが、予測モジュールとなる。予測モデルは、周知のディープラーニングに代表されるニューラルネットワークを用いたモデル、複数の決定木を使用して、「分類」または「回帰」をする、周知のランダムフォレスト法を用いたモデル、LASSO回帰を用いたモデルを含む。また、予測モデルとして、多項式あるいはクリギング、RBF（Radial Base Function）を用いた非線形関数を用いることもできる。

オリジナルデータセットは、複数の説明変数の値と、これらの説明変数の値と関連付けを行うための特徴量の値とをセットにして複数組み（例えば、数万組）保持したデータの群である。説明変数は、例えば、製品の設計寸法、製品に用いる構成材料の構造や物性値、あるいは、製品を作製するときの作製条件等を含み、特徴量は、例えば製品の特性値、市場における販売量等を含む。例えば、オリジナルデータセットが、説明変数として、構造体の設計寸法、構成材料の構造を含み、特徴量として、構造体の特性値を含む場合、データは、上記設計寸法、上記構造を種々変化させたときの上記設計寸法及び上記構造の情報と特性値とからなるデータをいう。したがって、この場合、オリジナルデータセットは、上記設計寸法、上記構造を種々変化させたときの上記設計寸法及び上記構造の情報と特性値とをセットにしたデータを多数含む。

オリジナルデータセットには、過去蓄積された膨大なデータである場合が多く、大部分のデータは、説明変数の値に欠損情報がない非欠損データであるが、一部分のデータは、説明変数の一部において欠損情報を含む欠損データである。欠損データは、説明変数の一部において欠損情報（値がない情報）を含むが説明変数の残りの部分には値があり、該値及び該欠損情報と、特徴量の値とをセットにして保持するデータである。欠損データは、オリジナルデータセット中に複数個含まれる。

サブデータセット作成部１６は、上述のオリジナルデータを、図１に示すように、学習用データセットと検証用データセットに分離する（図１のＳＴ１０，ＳＴ１２）。学習用データセットは、コンピュータ内の予測モデルに機械学習をさせて予測モジュール候補を作成するために用いられる。検証用データセットは、作成した予測モジュール候補の特徴量に関する値の予測精度を評価するために用いられる。予測精度のよい予測モジュールを作成するために、学習用データセットは、検証用データセットに比べて多いデータ数を有することが好ましい。
オリジナルデータセットには、欠損データが含まれているので、さらに、サブデータセット作成部１６は、オリジナルデータセットから欠損情報を持つ説明変数を欠損説明変数として複数個抽出する（図１のＳＴ１３）。欠損説明変数は、後述するように、複数種類のサブ学習用データセット及びサブ検証用学習データセットを作成するために用いられる。

さらに、サブデータセット作成部１６は、学習用データセットから、欠損説明変数の情報を用いて、複数のサブ学習用データセットを作成し（図１のＳＴ１４）、検証用用データセットから、欠損説明変数の情報を用いて、複数のサブ検証用データセットを作成する（図１のＳＴ１６）。図１に示す例では、学習用データセットから、サブ学習用データセット１～サブ学習用データセットＮが作成され、検証用データセットから、サブ検証用データセット１～サブ検証用データセットＮが作成される。

具体的には、サブデータセット作成部１６は、抽出した複数の欠損説明変数のいずれか１つ、あるいは少なくとも２つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した欠損情報を含む欠損データを学習用データセット及び検証用データセットから削除し、さらに、選択欠損説明変数を説明変数として維持しつつ、残りの欠損説明変数を学習用データセット及び検証用データセットから削除することにより、欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する。サブ学習用データセット及びサブ検証用データセットは、学習用データセット及び検証用データセットの一部分のデータセットである。サブデータセット作成部１６は、この処理を、上記選択欠損説明変数を変更することにより、複数のサブ学習用データセット及びサブ検証用データセットを作成する。

図３は、オリジナルデータセットの一例を簡素化してわかり易く説明する図であり、図４～７は、一実施形態のデータ処理方法において、図３に示すオリジナルデータセットから作成されるサブ学習用データセットの例を示す図である。
図３に示すオリジナルデータセットは、説明変数として、説明変数Ｘ_１～Ｘ_ｎ（ｎは自然数）を含み、説明変数それぞれに対するデータとして、データ１～データｍ（ｍは自然数）を含む。図３に示すオリジナルデータセットでは、説明変数の欄のみが図示されており、特徴量の欄の図示は省略されている。
ここで、図中の「・・・」は、実際の数値があることを示し、「ＮＡ」は、値が欠損していること、すなわち欠損情報を示している。例えば、データ１では、説明変数Ｘ_２１，Ｘ_ｎの値が欠損し、それ以外の説明変数は値を有する。データ３では、説明変数Ｘ_１１の値が欠損し、それ以外の説明変数は値を有する。データｍでは、説明変数Ｘ_１及びＸ_２１の値が欠損し、それ以外の説明変数は値を有する。したがって、欠損説明変数は、説明変数Ｘ_１，Ｘ_１１，Ｘ_２１，Ｘ_ｎである。

図４に示すサブ学習用データセット１は、データ１～データｍを維持したまま、上記欠損説明変数Ｘ_１，Ｘ_１１，Ｘ_２１，Ｘ_ｎを全て削除したデータセットである。サブ学習用データセット１は、欠損説明変数Ｘ_１，Ｘ_１１，Ｘ_２１，Ｘ_ｎを全て削除したデータセットであるので、以下説明するサブ学習用データセットの中で説明変数が最も少ないデータセットである。
図５に示すサブ学習用データセット２は、選択欠損説明変数を欠損説明変数Ｘ_１とし、この欠損説明変数Ｘ_１を説明変数として維持しつつ、残りの欠損説明変数Ｘ_１１，Ｘ_２１，Ｘ_ｎを学習用データセットから削除することにより、欠損情報がないデータセットとしたものである。この場合、欠損説明変数Ｘ_１を維持するので、説明変数Ｘ_１の値が欠損しているデータｍが学習用データセットから削除される。
図６に示すサブ学習用データセット３は、選択欠損説明変数を欠損説明変数Ｘ_１，Ｘ_１１とし、この欠損説明変数Ｘ_１，Ｘ_１１を説明変数として維持しつつ、残りの欠損説明変数Ｘ_２１，Ｘ_ｎを学習用データセットから削除することにより、欠損情報がないデータセットとしたものである。この場合、欠損説明変数Ｘ_１，Ｘ_１１を維持するので、説明変数Ｘ_１，Ｘ_１１の値が欠損しているデータ３及びデータｍが学習用データセットから削除される。
図７に示すサブ学習用データセットＮは、選択欠損説明変数を全ての欠損説明変数Ｘ_１，Ｘ_１１，Ｘ_２１，Ｘ_ｎとし、このすべての欠損説明変数Ｘ_１，Ｘ_１１，Ｘ_２１，Ｘ_ｎを説明変数として維持することにより、欠損情報がないデータセットとしたものである。この場合、欠損説明変数Ｘ_１，Ｘ_１１，Ｘ_２１，Ｘ_ｎを維持するので、説明変数Ｘ_１，Ｘ_１１，Ｘ_２１，Ｘ_ｎの値が欠損しているデータ１、データ３、及びデータｍが学習用データセットから削除される。

このように複数の欠損説明変数から選択され、説明変数として維持しておく選択欠損説明変数は、１つ、あるいは複数である。複数の選択欠損説明変数の場合、選択欠損説明変数を、複数の欠損説明変数の組み合わせの分だけ作成することができる。例えば、欠損説明変数が３つある場合、１つだけを選択欠損説明変数とする場合、３つ（＝_３Ｃ_１）のサブ学習用データセットができ、２つだけを選択欠損説明変数とする場合、３つの欠損説明変数のうち２つの組み合わせの数（＝_３Ｃ_２）、すなわち、３つのサブ学習用データセットができ、さらに、３つ全てを選択欠損説明変数とする場合、１つ（＝_３Ｃ_３）のサブ学習用データセットができる。すなわち、合計７つのサブ学習用データセットができる。
同様に、欠損説明変数が４つの場合、同様に、１５（＝_４Ｃ_１＋_４Ｃ_２＋_４Ｃ_３＋_４Ｃ_４）のサブ学習用データセットができる。
このようなサブ学習用データセットを組み合わせ可能な数だけ作成することが、予測モジュールの予測精度を向上させる点から好ましい。
このようなサブ学習用データセットと同様に、サブ検証用データセットも作成される。

次に、サブ学習用データセット１～Ｎは、データ毎の説明変数の値とそれに対応する特徴量の値を備えているので、予測モジュール候補作成部１８は、サブ学習用データセット１～Ｎのそれぞれを用いて予測モデルに、説明変数と特徴量との間の関係を機械学習させることにより予測モジュール候補１～Ｎを作成する（図１のＳＴ１６）。サブ学習用データセット１～Ｎは、サブ学習用データセット１～Ｎ毎に、異なる説明変数が定まっているので、機械学習してできる予測モジュール候補１～Ｎも異なる説明変数で説明変数が定義される。したがって、予測モジュール候補１～Ｎが予測のために入力値を要求する説明変数、すなわち、予測モジュール候補１～Ｎにおいて定義される説明変数は、互いに異なる。

予測モジュールの機械学習では、転移学習方法を用いることができる。転移学習とは、説明変数が最も少ないサブ学習用データセットを用いて機械学習した予測モデルを基礎として、基礎とする予測モデルから、説明変数がより多いサブ学習用データセットを用いて機械学習させることをいう。図８は、一実施形態のデータ処理方法において用いる転移学習の一例を説明する図である。説明変数が最も少ないサブ学習用データセット１で機械学習して得られる予測モジュール候補１は、ディープラーニング法を用いてレイヤー１～３で構成されたものであるとすると、予測モジュール候補２は、説明変数がサブ学習用データセット１より多いサブ学習用データセット２を用いてレイヤー３の内部構造を再学習により修正されている。予測モジュール候補３は、説明変数がサブ学習用データセット２より多いサブ学習用データセット３を用いてレイヤー４を新設して内部構造をより複雑にしている。このように、移転学習は、基礎とする予測モジュール候補から、説明変数がより多いサブ学習用データセットを用いて機械学習させることで、予測モジュール候補の構造を順次変更していくことをいう。このようなレイヤーの再学習や新設等は、予測モデルにおける機械学習のさせ方を定める条件設定として、入力操作デバイス３２から入力指示されることが好ましい。

次に、予測モジュール候補評価部２０は、サブ学習用データセット１～Ｎの別に機械学習した予測モジュール候補１～Ｎのそれぞれに対して、サブ学習用データセットと同様の方法で作成したサブ検証用データセット１～Ｎを用いて、特徴量の値の予測精度を評価する。サブ検証用データセット１～Ｎには、データに対して説明変数の値の他に、対応する特徴量の値も備えているので、この特徴量の値を正解値として、予測モジュール候補１～Ｎそれぞれが予測した特徴量の予測値が、正解値にどの程度近似しているかを評価する。評価の仕方は、特に制限されないが、例えば、正解値に対する予測値の比を表した値を評価値とする。特徴量が複数設定されている場合、特徴量毎の比の平均値あるいは、比が最も１から離れている値を評価値とする。あるいは、実際の特徴量の値と予測モジュール候補の予測値とが複数の組あるので、実際の特徴量の値と予測値との間の相関係数Ｒあるいは決定係数Ｒ^２を評価値とする。

予測モジュール候補１～Ｎを評価するとき、各予測モジュール候補に入力されるサブ検証用データセットは、各予測モジュール候補で定義される説明変数に完全に一致する説明変数を持つサブ検証データセットにだけに制限されない。図９は、一実施形態のデータ処理方法で行う予測モジュール候補における予測精度の評価の一例を説明する図である。
図８に示すように、予測モジュール候補１～Ｎの中で、予測モジュール候補１において定義される説明変数が最も少なく、説明変数Ｘ_２～Ｘ_１０～Ｘ_ｎ－１である。予測モジュール候補１における特徴量の予測精度の評価には、説明変数Ｘ_２～Ｘ_１０～Ｘ_ｎ－１を説明変数として持つサブ検証用データセット１の他に、説明変数Ｘ_２～Ｘ_１０～Ｘ_ｎ－１を少なくとも一部の説明変数として持つサブ検証用データセット２～Ｎも用いることができる。
同様に、予測モジュール候補２における特徴量の予測精度の評価には、サブ検証用データセット２の他に、サブ検証用データセット３～Ｎも用いることができ、予測モジュール候補３における特徴量の予測精度の評価には、サブ検証用データセット３の他に、サブ検証用データセット４～Ｎも用いることができる。
したがって、これらの検証用データセットを効率よく用いることにより、予測モジュール候補１～ｎを広い範囲のサブ検証用データセットによって、特徴量の予測精度を把握することができる。

予測モジュール決定部２２は、予測モジュール候補評価部２０で求めた予測精度の評価結果（評価値）に基づいて、予測精度が高い予測モジュールを決定する（図１のＳＴ２０）。決定される予測モジュールは、複数の予測モジュール候補の中から、予測精度が最も高い１つを選んで決定してもよいし、予測精度が閾値を越える複数の予測モジュール候補を予測モジュールとして決定してもよい。予測モジュール候補の中で、説明変数が最も多いものが、最も予測精度が高い予測モジュール候補とは限らない。説明変数の中には、特徴量に寄与しないにもかかわらず、この説明変数がノイズ成分となって予測精度を低下させる場合もある。
なお、複数の予測モジュールを決定する場合、説明変数の組み合わせが異なっているものを決定することが好ましい。例えば、特徴量を予測するために値を入力する説明変数が、予測モジュールにおいて定義される説明変数と一致しない場合、値を入力する説明変数の一部を削除して定義される説明変数と一致するような予測モジュールを取り揃えていることが好ましい。このような場合、予測精度の評価結果の情報を、特徴量の予測値に加えて付加して、ディスプレイ３０に画面表示されることが好ましい。

予測部２４は、決定された予測モジュールを設定して、説明変数の値を入力することにより特徴量に関する値を予測する。予測した特徴量に関する値は、ディスプレイ３０に出力する。

このように、上述のデータ処理方法では、複数の欠損説明変数のいずれか１つ、あるいは少なくとも２つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した欠損情報を含む欠損データを、学習用データセット及び検証用データセットから削除し、さらに、選択欠損説明変数を説明変数として維持しつつ、残りの欠損説明変数を学習用データセット及び検証用データセットから削除することにより、欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成するので、サブ学習用データセットに対応した予測モジュール候補を複数作成することができる。この複数の予測モジュール候補のそれぞれに対して、サブ検証用データセットを用いて特徴量の予測精度の評価を行って、複数の予測モジュール候補の中から予測モジュールを決定するので、オリジナルデータに欠損データがあっても、欠損データを生かして可能な限り精度よく特徴量の値を予測することができる。

上述したように、サブ学習用データセット１～Ｎ及びサブ検証用データセット１～Ｎを作成するときに用いる、選択する欠損説明変数の組合せは、２つの欠損説明変数の組み合わせの他に、３つ以上の欠損説明変数の組み合わせを含み、予測精度の評価に用いるサブ検証用データセット１～Ｎは、複数の予測モジュール候補１～Ｎのそれぞれにおいて定義される複数の説明変数の種類に対応した説明変数を少なくとも有するサブ検証用データセットをすべて用いて予測精度の評価をする、ことが好ましい。これにより、予測モジュール候補１～Ｎを広い範囲のサブ検証用データセットによって、特徴量の予測精度を把握することができる。

一実施形態によれは、オリジナルデータを学習用データセットと検証用データセットとに分割するとき、検証用データセットをオリジナルデータセットの異なる部分から取り出し、残りの部分を学習用データセットとする分割を複数回行い、分割の度に、学習用データセットを用いて作成した予測モジュール候補１～Ｎの予測精度の評価を行い、複数回行った予測精度の評価結果の平均値に基づいて予測モジュール候補１～Ｎから予測モジュールを決定する、ことが好ましい。これにより、オリジナルデータセットに欠損データがあっても、広い範囲で偏ることなく機械学習のためのサブ学習用データセットを作成することができ、また、検証のためのサブ検証用データセットを広い範囲で偏ることなく用いることができ、予測精度を精度よく求めることができる。

また、一実施形態によれば、サブ学習用データセット１～Ｎ及びサブ検証用データセット１～Ｎを作成するとき、図４に示すように、抽出した欠損説明変数の全てを、学習用データセット及び検証用データセットから削除することにより作成したサブデータセットを、サブ学習用データセット及びサブ検証用データセットとして作成する、ことが好ましい。このデータセットは、データの総数を維持して、欠損説明変数を全て除去するので、欠損データのない共通の説明変数のみが定義された予測モジュール候補を作成することができ、この予測モジュール候補に対して、共通の説明変数を少なくとも説明変数として持つ複数のサブ検証用データセットを、予測精度の評価のために用いることができる。したがって、、広い範囲のデータセットを用いて、この予測モジュール候補の予測精度の評価を行うことができる。

サブ学習用データセット１～Ｎ及びサブ検証用データセット１～Ｎを作成するとき、図４～７に示すように、抽出した複数の欠損説明変数の全ての組み合わせに対応したサブ学習用データセット１～Ｎ及びサブ検証用データセット１～Ｎを作成することにより、種々の説明変数が定義された予測モジュール候補を複数作成することができ、この予測モジュール候補の中から予測精度のよい予測モジュールを得ることができる。

一実施形態によれば、特徴量は、タイヤに作用する物理量であり、説明変数は、タイヤが備える構造によって規定される構造特有の構造説明変数と、この構造説明変数とは異なるタイヤに共通する共通説明変数と、を含む。
この場合、構造説明変数は、少なくとも第１構造及び第２構造それぞれに関する構造説明変数を含み、サブ学習用データセット及びサブ検証用データセットの少なくとも一部のサブ学習用データセット及びサブ検証用データセットにおける説明変数は、共通説明変数と第１構造及び第２構造のいずれか一方の構造に関する構造説明変数であり、他方の構造に関する構造説明変数を含まない、ことが好ましい。

タイヤにおける共通説明変数は、例えば、タイヤを装着するリムサイズ、タイヤの偏平率、タイヤ幅、ビードフィラー断面積等を含む。第１構造の構造説明変数は、例えば、第１スチールコードの角度、第１スチールコードの剛性、第２スチールコードの角度、第２スチールコードの剛性、第１カーカスコードの角度、及び第１カーカスコードの剛性等を含み、第２構造の構造説明変数は、例えば、２プライのタイヤ構造として第２カーカスコードの角度、第２カーカスコードの剛性等を含む。

図１０は、共通説明変数、第１構造の説明変数、及び第２構造の説明変数、を持つオリジナルデータの一例を示す図である。図１０中では、特徴量については、図示されていない。図１０中の「・・・」及び「ＮＡ」は、図３中のオリジナルデータセットの「・・・」及び「ＮＡ」と同じ内容を意味する。図１０中、共通説明変数中の説明変数Ｘ_１では、データｍに欠損情報があり、第１構造の説明変数中の説明変数Ｘ_１１では、データ３に欠損情報があり、第２構造の説明変数中の説明変数Ｘ_２１では、データ１，ｍに欠損情報があり、説明変数Ｘ_ｎでは、データ１に欠損情報がある。

このようなオリジナルデータから、欠損情報がないサブ学習用データセット及びサブ検証用データセットが作成される。図１１～１４は、図１０に示すオリジナルデータから作成されるサブ学習用データセットの例を示す図である。
図１１に示すサブ学習用データセットは、共通説明変数のみを説明変数としたサブ学習用データセットであり、共通説明変数のうち、欠損説明変数である説明変数Ｘ_１を維持し、データｍを学習用データセットから除去している。
図１２に示すサブ学習用データセットは、共通説明変数と第１構造の説明変数を説明変数としたサブ学習用データセットであり、欠損説明変数である説明変数Ｘ_１，Ｘ_１１を維持し、データｍ及びデータ３を学習用データセットから除去している。
図１３に示すサブ学習用データセットは、共通説明変数と第２構造の説明変数を説6明変数としたサブ学習用データセットであり、共通説明変数と第２構造の説明変数のうち、欠損説明変数である説明変数Ｘ_１，Ｘ_２１，Ｘ_ｎを維持し、データ１及びデータｍを学習用データセットから除去している。
図１４に示すサブ学習用データセットは、共通説明変数と第１構造と第２構造の説明変数を説明変数としたサブ学習用データセットであり、共通説明変数と第１構造と第２構造の説明変数のうち、欠損説明変数である説明変数Ｘ_１，Ｘ_１１，Ｘ_２１，Ｘ_ｎを維持し、データ１、データ３、及びデータｍを学習用データセットから除去している。

このように、サブ学習用データセットの少なくとも一部は、共通説明変数と第１構造及び第２タイヤ構造のいずれか一方のタイヤ構造に関する構造説明変数であり、他方のタイヤ構造に関する構造説明変数を含まないサブ学習用データセットである。このため、タイヤの上記特徴量を予測する際、共通説明変数のみが定義された予測モジュール候補、共通説明変数、第１構造の説明変数、及び第２構造の説明変数が定義された予測モジュール候補の他に、共通説明変数、及び第１構造の説明変数が定義された予測モジュール候補、あるいは、共通説明変数、及び第２構造の説明変数が定義された予測モジュール候補を作成することができ、第１構造や第２構造のような適用範囲を限定した予測モジュール候補を種々作製できるので、予測精度の高い予測モジュールを定めることができる。例えば、第１構造の場合、共通説明変数と第１構造の説明変数が定義された予測モジュール候補の予測精度が高い一方、第２構造の場合、共通説明変数と第１構造と第２構造の説明変数が定義された予測モジュール候補の予測精度が高いと評価される場合もある。このような場合、予測モジュールは、入力される値に応じて、第１構造における特徴量を予測するのか、第２構造における特徴量を予測するのかを判定し、判定に応じて予測モジュールを使い分けることが好ましい。

図１１～１４では示されていないが、共通説明変数内、あるいは同じタイヤ構造の説明変数内に欠損説明変数が複数ある場合、上述した選択欠損説明変数として、複数の欠損説明変数同士を組み合わせて、複数のサブ学習用データセット及びサブ検証用データセットを作成し、複数の予測モジュール候補を作成してもよい。

図１５は、一実施形態で作成された予測モジュール候補の予測精度の評価結果の一例を示す図である。図１５は、共通説明変数を説明変数とするサブ学習用データセットを用いて作成された予測モジュール候補と、共通説明変数及び第１構造の構造説明変数を説明変数とするサブ学習用データセットを用いて作成された予測モジュール候補と、に対してサブ検証用データセットを用いて特徴量（物性量）の値を予測した時の、サブ検証用データセットにおける物理量の値、具体的には実験値と、予測モジュール候補が予測した予測値の相関を示す散布図である。図１５中、“○”は、共通説明変数を説明変数とするサブ学習用データセットを用いて作成された予測モジュール候補に関するプロットであり、“●”は、共通説明変数及び第１構造の構造説明変数を説明変数とするサブ学習用データセットに関するプロットである。“○”のプロットにおける、実験値と予測値の間の決定係数Ｒ^２は、０．５８であるのに対して、“●”のプロットにおける、実験値と予測値の間の決定係数Ｒ^２は、０．７６であり、共通説明変数及び第１構造の構造説明変数を説明変数とするサブ学習用データセットを用いて作成された予測モジュール候補の予測精度が高いことを示している。

一実施形態によれば、予測モジュールは、特徴量に関する目標値の入力に応じて、目標値を再現する説明変数に関する最適値を算出する最適化処理に用いることもできる。すなわち、一実施形態のデータ処理方法では、特徴量に関する目標値の入力に応じて、データ処理装置１０が、予測モジュールを用いて目標値を再現する説明変数に関する最適値を算出する最適化処理を含むことが好ましい。この場合、予測モジュールに入力される説明変数の値に応じて予測モジュールが予測する特徴量の値に基づいて、説明変数に関する最適値を算出することが好ましい。最適値を算出する方法は、例えば、進化的アルゴリズムが利用することが好ましい。進化的アルゴリズムは、Genetic Algorithm（遺伝的アルゴリズム）、Differential Evolution、Particle Swarm Optimization、Ant Colony Optimization等を含む。実験計画法やラテンハイパーキューブ法を利用することも好ましい。
予測モジュールにおいて定義される説明変数が、オリジナルデータセットが持つオリジナルデータセットの説明変数の一部である場合、例えば、Genetic Algorithmを用いて最適値を算出するときの試行途中の世代におけるデータの生成において説明変数が、オリジナルデータセットの説明変数ではありが、予測モジュールにおいて定義された説明変数を超えた説明変数を含む場合もある。このような場合でも特徴量の予測ができるように、異なる説明変数の組み合わせが定義された複数の予測モジュールを定めておくことが好ましい。

一実施形態によれば、説明変数の値と特徴量の値の関係を可視化することが好ましい。
説明変数の値と特徴量の値の関係は、ディスプレイ３０に表示される。説明変数の値と特徴量の値の関係は、例えば自己組織化マップにより表される。あるいは、自己組織化マップに代えて、散布図を用いて、説明変数と特徴量の値の関係を可視化してもよい。

このようなデータ処理方法は、コンピュータに実行させるプログラムをメモリ１４から読み出して実行することにより達成することができる。したがって、このプログラムは、
（１）オリジナルデータセットから、コンピュータに、学習用データセットと、検証用データセットとに分離させる手順と、
（２）コンピュータに、オリジナルデータセットから上述の欠損情報を持つ説明変数を欠損説明変数として複数個抽出させる手順と、
（３）抽出した複数の欠損説明変数のいずれか１つ、あるいは少なくとも２つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した欠損情報を含む欠損データを学習用データセット及び検証用データセットから削除し、さらに、選択欠損説明変数を説明変数として維持しつつ、残りの欠損説明変数を学習用データセット及び検証用データセットから削除することにより、学習用データセット及び検証用データセットの一部分のデータセットである、欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理をコンピュータに行わせ、上記処理において、コンピュータに、選択欠損説明変数を変更させることにより、コンピュータに、複数のサブ学習用データセット及びサブ検証用データセットを作成させる手順と、
（４）コンピュータに、サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成させる手順と、
（５）コンピュータに、サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、サブ検証用データセットを用いて、特徴量の値の予測精度を評価させる手順と、
（６）コンピュータに、予測精度の評価結果に基づいて、複数の予測モジュール候補から予測モジュールを決定させる手順と、を備える。

以上、本発明のデータ処理方法、データ処理装置、及びプログラムについて詳細に説明したが、本発明は上記実施形態に限定されず、本発明の主旨を逸脱しない範囲において、種々の改良や変更をしてもよいのはもちろんである。

１０データ処理装置
１２ＣＰＵ
１４メモリ
１６サブデータセット作成部
１８予測モジュール候補作成部
２０予測モジュール候補作成部
２２予測モジュール決定部
２４予測部
３０ディスプレイ
３２入力操作デバイス

Claims

複数の説明変数の値を入力することにより予め定めた特徴量に関する値を、コンピュータが予測して出力する予測モジュールを作成するためのデータ処理方法であって、
複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットを、コンピュータが、学習用データセットと、検証用データセットとに分離するステップと、
前記コンピュータが、前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出するステップと、
抽出した複数の欠損説明変数のいずれか１つ、あるいは少なくとも２つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、前記コンピュータが、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を行い、前記処理において、前記選択欠損説明変数を変更することにより、前記コンピュータが、複数のサブ学習用データセット及びサブ検証用データセットを作成するステップと、
前記コンピュータが、前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成するステップと、
前記コンピュータが、前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価するステップと、
前記コンピュータは、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定するステップと、を備えることを特徴とするデータ処理方法。
前記サブ学習用データセット及び前記サブ検証用データセットを作成するときに用いる、選択する前記欠損説明変数の組合せは、２つの欠損説明変数の組み合わせの他に、３つ以上の欠損説明変数の組み合わせを含み、
前記予測精度の評価に用いるサブ検証用データセットは、前記複数の予測モジュール候補のそれぞれにおいて定義される複数の説明変数の種類に対応した説明変数を少なくとも有するサブ検証用データセットをすべて用いて予測精度の評価をする、請求項１に記載のデータ処理方法。
前記オリジナルデータセットを前記学習用データセットと前記検証用データセットとに分割するとき、前記検証用データセットを前記オリジナルデータセットの異なる部分から取り出し、残りの部分を前記学習用データセットとする分割を複数回行い、前記分割の度に、前記学習用データセットを用いて作成した前記複数の予測モジュール候補の予測精度の評価を行い、複数回行った予測精度の評価結果の平均値に基づいて前記複数の予測モジュール候補から前記予測モジュールを決定する、請求項１又は２に記載のデータ処理方法。
前記サブ学習用データセット及び前記サブ検証用データセットを作成するとき、前記抽出した前記欠損説明変数全てを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除することにより作成したデータセットを、前記サブ学習用データセット及び前記サブ検証用データセットとして作成する、請求項１～３のいずれか１項に記載のデータ処理方法。
前記サブ学習用データセット及び前記サブ検証用データセットを作成するとき、前記抽出した複数の欠損説明変数の全ての組み合わせに対応したサブ学習用データセット及びサブ検証用データセットを作成する、請求項１～４のいずれか１項に記載のデータ処理方法。
前記特徴量は、タイヤに作用する物理量であり、
前記説明変数は、前記タイヤが備える異なる構造によって規定される構造特有の構造説明変数と、前記構造説明変数とは異なる前記タイヤに共通する共通説明変数と、を含み、
前記構造説明変数は、少なくとも第１構造及び第２構造それぞれに関する構造説明変数を含み、
前記サブ学習用データセット及び前記サブ検証用データセットの少なくとも一部のサブ学習用データセット及びサブ検証用データセットにおける説明変数は、前記共通説明変数と前記第１構造及び第２構造のいずれか一方の構造に関する構造説明変数であり、他方の構造に関する構造説明変数を含まない、請求項１～５のいずれか１項に記載のデータ処理方法。
さらに、前記特徴量に関する目標値の入力に応じて、前記コンピュータが、前記予測モジュールを用いて前記目標値を再現する前記説明変数に関する最適値を算出するステップを備え、
前記最適値を算出するステップでは、前記予測モジュールに入力される前記説明変数の値に応じて前記予測モジュールが予測する前記特徴量の値に基づいて、前記説明変数に関する前記最適値を算出する、請求項１～６のいずれか１項に記載のデータ処理方法。
前記説明変数の値と前記特徴量の値の関係を可視化するステップを、さらに備える、請求項１～７のいずれか１項に記載のデータ処理方法。
複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成する、コンピュータで構成されたデータ処理装置であって、
複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットを、学習用データセットと、検証用データセットとに分離する分離処理部と、
前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出する説明変数抽出処理部と、
抽出した複数の欠損説明変数のいずれか１つ、あるいは少なくとも２つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、前記コンピュータが、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を行い、前記処理において、前記選択欠損説明変数を変更することにより、前記コンピュータが、複数のサブ学習用データセット及びサブ検証用データセットを作成するサブデータセット作成部と、
前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成する予測モジュール候補作成部と、
前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価をする予測モジュール候補評価部と、
前記コンピュータは、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定する予測モジュール決定部と、を備えることを特徴とするデータ処理装置。
複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成するためのデータ処理方法を、コンピュータに実行させるプログラムであって、
複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットから、コンピュータに、学習用データセットと、検証用データセットとに分離させる手順と、
前記コンピュータに、前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出させる手順と、
抽出した複数の欠損説明変数のいずれか１つ、あるいは少なくとも２つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を前記コンピュータに行わせ、前記処理において、前記コンピュータに、前記選択欠損説明変数を変更させることにより、前記コンピュータに、複数のサブ学習用データセット及びサブ検証用データセットを作成させる手順と、
前記コンピュータに、前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成させる手順と、
前記コンピュータに、前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価させる手順と、
前記コンピュータに、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定させる手順と、を備えることを特徴とするプログラム。