JP7352070B2 - データ処理方法、データ処理装置、及びプログラム - Google Patents

データ処理方法、データ処理装置、及びプログラム Download PDF

Info

Publication number
JP7352070B2
JP7352070B2 JP2019139622A JP2019139622A JP7352070B2 JP 7352070 B2 JP7352070 B2 JP 7352070B2 JP 2019139622 A JP2019139622 A JP 2019139622A JP 2019139622 A JP2019139622 A JP 2019139622A JP 7352070 B2 JP7352070 B2 JP 7352070B2
Authority
JP
Japan
Prior art keywords
missing
explanatory variables
sub
data set
prediction module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019139622A
Other languages
English (en)
Other versions
JP2021022275A (ja
Inventor
直哉 古渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yokohama Rubber Co Ltd
Original Assignee
Yokohama Rubber Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yokohama Rubber Co Ltd filed Critical Yokohama Rubber Co Ltd
Priority to JP2019139622A priority Critical patent/JP7352070B2/ja
Publication of JP2021022275A publication Critical patent/JP2021022275A/ja
Application granted granted Critical
Publication of JP7352070B2 publication Critical patent/JP7352070B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Tires In General (AREA)

Description

本発明は、コンピュータが、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成するためのデータ処理方法、データ処理装置、及びプログラムに関する。
近年、コンピュータに機械学習をさせて、入力されたデータから種々の予測を行う技術が活発に提案されている。一方、従来より、複数のゴム材料、充填材、及びオイル等を試行錯誤により配合して加硫ゴム組成物を試作して物性データを実験して計測することが行われている。このため、加硫ゴム組成物の配合情報と物性データの値とを紐付けたデータが多数蓄積されている。この蓄積データを学習用データセットとして活用して、コンピュータに機械学習させて、入力されたデータから物性データの値を予測させることができる。
例えば、ニューラルネットワークの手法を用いて、設計・配合等の実験データの要因群と特性群との写像関係を学習し、要因条件から特性値を推定するとともに、任意の特性データに対して、それを作り出す要因データの最適値を効率的にかつ容易に求める方法を提供する技術が知られている(特許文献1)。
特開2003-58582号公報
この技術におけるニューラルネットワークの学習では、用意したオリジナルデータを全て一律に読み取って複数の学習データに用いる。オリジナルデータの大部分は、設計・配合等の実験データの要因群である複数の説明変数の値と、説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、説明変数の値に欠損情報がない複数の非欠損データである。しかし、オリジナルデータには、説明変数の一部に値がない欠損情報を含んだ欠損データを複数含む場合が多い。
このような欠損データについては、欠損情報に、説明変数の値に0や予め定めた値を設定して強制的に非欠損データに調整処理する、あるいは、欠損情報を含んだ説明変数をオリジナルデータから強制的に除去する除去処理を施こす場合が多い。
このような処理を行ったオリジナルデータを予測モジュールに機械学習をさせると、上記調整処理した非欠損データは、ノイズ成分となり易く、また、上記除去処理により、説明変数の数が少なくなるので、要因条件から特性値を予測する予測精度が低下し易い。
そこで、本発明は、コンピュータが、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを定めるとき、オリジナルデータセットに欠損データがあっても、欠損データを生かして可能な限り精度よく特徴量の値を予測することができる予測モジュールを定めるデータ処理方法、データ処理装置、およびデータ処理方法をコンピュータに実行させるプログラムを提供することを目的とする。
本発明の一態様は、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を、コンピュータが予測して出力する予測モジュールを作成するためのデータ処理方法である。当該データ処理方法は、
複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットを、コンピュータが、学習用データセットと、検証用データセットとに分離するステップと、
前記コンピュータが、前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出するステップと、
抽出した複数の欠損説明変数のいずれか1つ、あるいは少なくとも2つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、前記コンピュータが、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を行い、前記処理において、前記選択欠損説明変数を変更することにより、前記コンピュータが、複数のサブ学習用データセット及びサブ検証用データセットを作成するステップと、
前記コンピュータが、前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成するステップと、
前記コンピュータが、前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価するステップと、
前記コンピュータは、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定するステップと、を備える。
前記サブ学習用データセット及び前記サブ検証用データセットを作成するときに用いる、選択する前記欠損説明変数の組合せは、2つの欠損説明変数の組み合わせの他に、3つ以上の欠損説明変数の組み合わせを含み、
前記予測精度の評価に用いるサブ検証用データセットは、前記複数の予測モジュール候補のそれぞれにおいて定義される複数の説明変数の種類に対応した説明変数を少なくとも有するサブ検証用データセットをすべて用いて予測精度の評価をする、ことが好ましい。
前記オリジナルデータセットを前記学習用データセットと前記検証用データセットとに分割するとき、前記検証用データセットを前記オリジナルデータセットの異なる部分から取り出し、残りの部分を前記学習用データセットとする分割を複数回行い、前記分割の度に、前記学習用データセットを用いて作成した前記複数の予測モジュール候補の予測精度の評価を行い、複数回行った予測精度の評価結果の平均値に基づいて前記複数の予測モジュール候補から前記予測モジュールを決定する、ことが好ましい。
前記サブ学習用データセット及び前記サブ検証用データセットを作成するとき、前記抽出した前記欠損説明変数全てを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除することにより作成したデータセットを、前記サブ学習用データセット及び前記サブ検証用データセットとして作成する、ことが好ましい。
前記サブ学習用データセット及び前記サブ検証用データセットを作成するとき、前記抽出した複数の欠損説明変数の全ての組み合わせに対応したサブ学習用データセット及びサブ検証用データセットを作成する、ことが好ましい。
前記特徴量は、タイヤに作用する物理量であり、
前記説明変数は、前記タイヤが備える異なる構造によって規定される構造特有の構造説明変数と、前記構造説明変数とは異なる前記タイヤに共通する共通説明変数と、を含み、
前記構造説明変数は、少なくとも第1構造及び第2構造それぞれに関する構造説明変数を含み、
前記サブ学習用データセット及び前記サブ検証用データセットの少なくとも一部のサブ学習用データセット及びサブ検証用データセットにおける説明変数は、前記共通説明変数と前記第1構造及び第2構造のいずれか一方の構造に関する構造説明変数であり、他方の構造に関する構造説明変数を含まない、ことが好ましい。
さらに、前記特徴量に関する目標値の入力に応じて、前記コンピュータが、前記予測モジュールを用いて前記目標値を再現する前記説明変数に関する最適値を算出するステップを備え、
前記最適値を算出するステップでは、前記予測モジュールに入力される前記説明変数の値に応じて前記予測モジュールが予測する前記特徴量の値に基づいて、前記説明変数に関する前記最適値を算出する、ことが好ましい。
前記説明変数の値と前記特徴量の値の関係を可視化するステップを、さらに備える、ことが好ましい。
本発明の他の一態様は、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成する、コンピュータで構成されたデータ処理装置である。当該データ処理装置は、
複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットを、学習用データセットと、検証用データセットとに分離する分離処理部と、
前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出する説明変数抽出処理部と、
抽出した複数の欠損説明変数のいずれか1つ、あるいは少なくとも2つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、前記コンピュータが、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を行い、前記処理において、前記選択欠損説明変数を変更することにより、前記コンピュータが、複数のサブ学習用データセット及びサブ検証用データセットを作成するサブデータセット作成部と、
前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成する予測モジュール候補作成部と、
前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価をする予測モジュール候補評価部と、
前記コンピュータは、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定する予測モジュール決定部と、を備える。
本発明のさらに他の一態様は、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成するためのデータ処理方法を、コンピュータに実行させるプログラムである。当該プログラムは、
複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットから、コンピュータに、学習用データセットと、検証用データセットとに分離させる手順と、
前記コンピュータに、前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出させる手順と、
抽出した複数の欠損説明変数のいずれか1つ、あるいは少なくとも2つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を前記コンピュータに行わせ、前記処理において、前記コンピュータに、前記選択欠損説明変数を変更させることにより、前記コンピュータに、複数のサブ学習用データセット及びサブ検証用データセットを作成させる手順と、
前記コンピュータに、前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成させる手順と、
前記コンピュータに、前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価させる手順と、
前記コンピュータに、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定させる手順と、を備える。
上述のデータ処理方法、データ処理装置、およびプログラムによれば、コンピュータが、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成するとき、オリジナルデータに欠損データがあっても、欠損データを生かして可能な限り精度よく特徴量の値を予測することができる。
一実施形態のデータ処理方法の流れの一例を概略説明する図である。 一実施形態のデータ処理装置の構成の一例を示す図である。 一実施形態のデータ処理方法で用いるオリジナルデータセットの一例を簡素化して説明する図である。 一実施形態のデータ処理方法において、図3に示すオリジナルデータセットから作成されるサブ学習用データセットの例を示す図である。 一実施形態のデータ処理方法において、図3に示すオリジナルデータセットから作成されるサブ学習用データセットの例を示す図である。 一実施形態のデータ処理方法において、図3に示すオリジナルデータセットから作成されるサブ学習用データセットの例を示す図である。 一実施形態のデータ処理方法において、図3に示すオリジナルデータセットから作成されるサブ学習用データセットの例を示す図である。 一実施形態のデータ処理方法において用いる転移学習の一例を説明する図である。 一実施形態のデータ処理方法で行う予測モジュール候補における予測精度の評価の一例を説明する図である。 一実施形態のデータ処理方法で用いる、共通説明変数、第1構造の説明変数、及び第2構造の説明変数、を持つオリジナルデータの一例を示す図である。 図10に示すオリジナルデータから作成されるサブ学習用データセットの例を示す図である。 図10に示すオリジナルデータから作成されるサブ学習用データセットの例を示す図である。 図10に示すオリジナルデータから作成されるサブ学習用データセットの例を示す図である。 図10に示すオリジナルデータから作成されるサブ学習用データセットの例を示す図である。 一実施形態のデータ処理方法で作成された予測モジュール候補の予測精度の評価結果の一例を示す図である。
以下、一実施形態のデータ処理方法、データ処理装置、およびプログラムを添付の図に基づいて説明する。
図1は、一実施形態のデータ処理方法の流れの一例を概略説明する図である。図2は、一実施形態のデータ処理装置の構成の一例を示す図である。
一実施形態のデータ処理方法は、コンピュータにより実行される方法であり、複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成する方法である。
予測モジュールは、オリジナルデータセットから作成される複数のサブ学習用データセットを用いて作成された複数の予測モジュール候補の中から、サブ検証用データセットを用いて評価した評価結果に基づいて定められる。
図2に示すデータ処理装置10は、CPU12及びメモリ14を含むコンピュータにより構成される。データ処理装置10には、ディスプレイ30、及び、情報を指示入力するためのマウスやキーボードを含む入力操作デバイス32と接続されている。
入力操作デバイス32は、操作者がデータ処理装置10に所望の指示入力をするために用いられる。例えば、予測モジュール候補を作成するための条件を設定するために入力操作デバイス32から操作者は入力する。
ディスプレイ30は、設定された情報を表示するために用いられ、例えば、データ処理方法で用いるオリジナルデータセット、学習用データセット、検証用データセット、サブ学習用データセット、サブ検証用データセット等におけるデータの数値、説明変数、欠損説明変数、予測モジュール候補を作成するための条件設定画面、及び、予測モジュール候補における予測精度の評価結果等を表示する。
メモリ14には、プログラムが記憶されており、CPU12が読み出して実行することにより、サブデータセット作成部16、予測モジュール候補作成部18、予測モジュール候補評価部20、予測モジュール決定部22、及び予測部24をソフトウェアモジュールとして機能させる。以下、サブデータセット作成部16、予測モジュール候補作成部18、予測モジュール候補評価部20、予測モジュール決定部22、及び予測部24の機能を、図1に示す一実施形態のデータ処理方法の流れを説明しながら同時に説明する。
コンピュータは、機械学習することにより、予測モジュールとなり得る予測モデルを予め保持する。この予測モデルは、上記オリジナルデータセットから作成される複数のサブ学習用データセットを用いて機械学習することにより、予測モジュール候補となる。この予測モジュール候補の少なくとも1つが、予測モジュールとなる。予測モデルは、周知のディープラーニングに代表されるニューラルネットワークを用いたモデル、複数の決定木を使用して、「分類」または「回帰」をする、周知のランダムフォレスト法を用いたモデル、LASSO回帰を用いたモデルを含む。また、予測モデルとして、多項式あるいはクリギング、RBF(Radial Base Function)を用いた非線形関数を用いることもできる。
オリジナルデータセットは、複数の説明変数の値と、これらの説明変数の値と関連付けを行うための特徴量の値とをセットにして複数組み(例えば、数万組)保持したデータの群である。説明変数は、例えば、製品の設計寸法、製品に用いる構成材料の構造や物性値、あるいは、製品を作製するときの作製条件等を含み、特徴量は、例えば製品の特性値、市場における販売量等を含む。例えば、オリジナルデータセットが、説明変数として、構造体の設計寸法、構成材料の構造を含み、特徴量として、構造体の特性値を含む場合、データは、上記設計寸法、上記構造を種々変化させたときの上記設計寸法及び上記構造の情報と特性値とからなるデータをいう。したがって、この場合、オリジナルデータセットは、上記設計寸法、上記構造を種々変化させたときの上記設計寸法及び上記構造の情報と特性値とをセットにしたデータを多数含む。
オリジナルデータセットには、過去蓄積された膨大なデータである場合が多く、大部分のデータは、説明変数の値に欠損情報がない非欠損データであるが、一部分のデータは、説明変数の一部において欠損情報を含む欠損データである。欠損データは、説明変数の一部において欠損情報(値がない情報)を含むが説明変数の残りの部分には値があり、該値及び該欠損情報と、特徴量の値とをセットにして保持するデータである。欠損データは、オリジナルデータセット中に複数個含まれる。
サブデータセット作成部16は、上述のオリジナルデータを、図1に示すように、学習用データセットと検証用データセットに分離する(図1のST10,ST12)。学習用データセットは、コンピュータ内の予測モデルに機械学習をさせて予測モジュール候補を作成するために用いられる。検証用データセットは、作成した予測モジュール候補の特徴量に関する値の予測精度を評価するために用いられる。予測精度のよい予測モジュールを作成するために、学習用データセットは、検証用データセットに比べて多いデータ数を有することが好ましい。
オリジナルデータセットには、欠損データが含まれているので、さらに、サブデータセット作成部16は、オリジナルデータセットから欠損情報を持つ説明変数を欠損説明変数として複数個抽出する(図1のST13)。欠損説明変数は、後述するように、複数種類のサブ学習用データセット及びサブ検証用学習データセットを作成するために用いられる。
さらに、サブデータセット作成部16は、学習用データセットから、欠損説明変数の情報を用いて、複数のサブ学習用データセットを作成し(図1のST14)、検証用用データセットから、欠損説明変数の情報を用いて、複数のサブ検証用データセットを作成する(図1のST16)。図1に示す例では、学習用データセットから、サブ学習用データセット1~サブ学習用データセットNが作成され、検証用データセットから、サブ検証用データセット1~サブ検証用データセットNが作成される。
具体的には、サブデータセット作成部16は、抽出した複数の欠損説明変数のいずれか1つ、あるいは少なくとも2つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した欠損情報を含む欠損データを学習用データセット及び検証用データセットから削除し、さらに、選択欠損説明変数を説明変数として維持しつつ、残りの欠損説明変数を学習用データセット及び検証用データセットから削除することにより、欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する。サブ学習用データセット及びサブ検証用データセットは、学習用データセット及び検証用データセットの一部分のデータセットである。サブデータセット作成部16は、この処理を、上記選択欠損説明変数を変更することにより、複数のサブ学習用データセット及びサブ検証用データセットを作成する。
図3は、オリジナルデータセットの一例を簡素化してわかり易く説明する図であり、図4~7は、一実施形態のデータ処理方法において、図3に示すオリジナルデータセットから作成されるサブ学習用データセットの例を示す図である。
図3に示すオリジナルデータセットは、説明変数として、説明変数X~X(nは自然数)を含み、説明変数それぞれに対するデータとして、データ1~データm(mは自然数)を含む。図3に示すオリジナルデータセットでは、説明変数の欄のみが図示されており、特徴量の欄の図示は省略されている。
ここで、図中の「・・・」は、実際の数値があることを示し、「NA」は、値が欠損していること、すなわち欠損情報を示している。例えば、データ1では、説明変数X21,Xの値が欠損し、それ以外の説明変数は値を有する。データ3では、説明変数X11の値が欠損し、それ以外の説明変数は値を有する。データmでは、説明変数X及びX21の値が欠損し、それ以外の説明変数は値を有する。したがって、欠損説明変数は、説明変数X,X11,X21,Xである。
図4に示すサブ学習用データセット1は、データ1~データmを維持したまま、上記欠損説明変数X,X11,X21,Xを全て削除したデータセットである。サブ学習用データセット1は、欠損説明変数X,X11,X21,Xを全て削除したデータセットであるので、以下説明するサブ学習用データセットの中で説明変数が最も少ないデータセットである。
図5に示すサブ学習用データセット2は、選択欠損説明変数を欠損説明変数Xとし、この欠損説明変数Xを説明変数として維持しつつ、残りの欠損説明変数X11,X21,Xを学習用データセットから削除することにより、欠損情報がないデータセットとしたものである。この場合、欠損説明変数Xを維持するので、説明変数Xの値が欠損しているデータmが学習用データセットから削除される。
図6に示すサブ学習用データセット3は、選択欠損説明変数を欠損説明変数X,X11とし、この欠損説明変数X,X11を説明変数として維持しつつ、残りの欠損説明変数X21,Xを学習用データセットから削除することにより、欠損情報がないデータセットとしたものである。この場合、欠損説明変数X,X11を維持するので、説明変数X,X11の値が欠損しているデータ3及びデータmが学習用データセットから削除される。
図7に示すサブ学習用データセットNは、選択欠損説明変数を全ての欠損説明変数X,X11,X21,Xとし、このすべての欠損説明変数X,X11,X21,Xを説明変数として維持することにより、欠損情報がないデータセットとしたものである。この場合、欠損説明変数X,X11,X21,Xを維持するので、説明変数X,X11,X21,Xの値が欠損しているデータ1、データ3、及びデータmが学習用データセットから削除される。
このように複数の欠損説明変数から選択され、説明変数として維持しておく選択欠損説明変数は、1つ、あるいは複数である。複数の選択欠損説明変数の場合、選択欠損説明変数を、複数の欠損説明変数の組み合わせの分だけ作成することができる。例えば、欠損説明変数が3つある場合、1つだけを選択欠損説明変数とする場合、3つ(=)のサブ学習用データセットができ、2つだけを選択欠損説明変数とする場合、3つの欠損説明変数のうち2つの組み合わせの数(=)、すなわち、3つのサブ学習用データセットができ、さらに、3つ全てを選択欠損説明変数とする場合、1つ(=)のサブ学習用データセットができる。すなわち、合計7つのサブ学習用データセットができる。
同様に、欠損説明変数が4つの場合、同様に、15(=)のサブ学習用データセットができる。
このようなサブ学習用データセットを組み合わせ可能な数だけ作成することが、予測モジュールの予測精度を向上させる点から好ましい。
このようなサブ学習用データセットと同様に、サブ検証用データセットも作成される。
次に、サブ学習用データセット1~Nは、データ毎の説明変数の値とそれに対応する特徴量の値を備えているので、予測モジュール候補作成部18は、サブ学習用データセット1~Nのそれぞれを用いて予測モデルに、説明変数と特徴量との間の関係を機械学習させることにより予測モジュール候補1~Nを作成する(図1のST16)。サブ学習用データセット1~Nは、サブ学習用データセット1~N毎に、異なる説明変数が定まっているので、機械学習してできる予測モジュール候補1~Nも異なる説明変数で説明変数が定義される。したがって、予測モジュール候補1~Nが予測のために入力値を要求する説明変数、すなわち、予測モジュール候補1~Nにおいて定義される説明変数は、互いに異なる。
予測モジュールの機械学習では、転移学習方法を用いることができる。転移学習とは、説明変数が最も少ないサブ学習用データセットを用いて機械学習した予測モデルを基礎として、基礎とする予測モデルから、説明変数がより多いサブ学習用データセットを用いて機械学習させることをいう。図8は、一実施形態のデータ処理方法において用いる転移学習の一例を説明する図である。説明変数が最も少ないサブ学習用データセット1で機械学習して得られる予測モジュール候補1は、ディープラーニング法を用いてレイヤー1~3で構成されたものであるとすると、予測モジュール候補2は、説明変数がサブ学習用データセット1より多いサブ学習用データセット2を用いてレイヤー3の内部構造を再学習により修正されている。予測モジュール候補3は、説明変数がサブ学習用データセット2より多いサブ学習用データセット3を用いてレイヤー4を新設して内部構造をより複雑にしている。このように、移転学習は、基礎とする予測モジュール候補から、説明変数がより多いサブ学習用データセットを用いて機械学習させることで、予測モジュール候補の構造を順次変更していくことをいう。このようなレイヤーの再学習や新設等は、予測モデルにおける機械学習のさせ方を定める条件設定として、入力操作デバイス32から入力指示されることが好ましい。
次に、予測モジュール候補評価部20は、サブ学習用データセット1~Nの別に機械学習した予測モジュール候補1~Nのそれぞれに対して、サブ学習用データセットと同様の方法で作成したサブ検証用データセット1~Nを用いて、特徴量の値の予測精度を評価する。サブ検証用データセット1~Nには、データに対して説明変数の値の他に、対応する特徴量の値も備えているので、この特徴量の値を正解値として、予測モジュール候補1~Nそれぞれが予測した特徴量の予測値が、正解値にどの程度近似しているかを評価する。評価の仕方は、特に制限されないが、例えば、正解値に対する予測値の比を表した値を評価値とする。特徴量が複数設定されている場合、特徴量毎の比の平均値あるいは、比が最も1から離れている値を評価値とする。あるいは、実際の特徴量の値と予測モジュール候補の予測値とが複数の組あるので、実際の特徴量の値と予測値との間の相関係数Rあるいは決定係数Rを評価値とする。
予測モジュール候補1~Nを評価するとき、各予測モジュール候補に入力されるサブ検証用データセットは、各予測モジュール候補で定義される説明変数に完全に一致する説明変数を持つサブ検証データセットにだけに制限されない。図9は、一実施形態のデータ処理方法で行う予測モジュール候補における予測精度の評価の一例を説明する図である。
図8に示すように、予測モジュール候補1~Nの中で、予測モジュール候補1において定義される説明変数が最も少なく、説明変数X~X10~Xn-1である。予測モジュール候補1における特徴量の予測精度の評価には、説明変数X~X10~Xn-1を説明変数として持つサブ検証用データセット1の他に、説明変数X~X10~Xn-1を少なくとも一部の説明変数として持つサブ検証用データセット2~Nも用いることができる。
同様に、予測モジュール候補2における特徴量の予測精度の評価には、サブ検証用データセット2の他に、サブ検証用データセット3~Nも用いることができ、予測モジュール候補3における特徴量の予測精度の評価には、サブ検証用データセット3の他に、サブ検証用データセット4~Nも用いることができる。
したがって、これらの検証用データセットを効率よく用いることにより、予測モジュール候補1~nを広い範囲のサブ検証用データセットによって、特徴量の予測精度を把握することができる。
予測モジュール決定部22は、予測モジュール候補評価部20で求めた予測精度の評価結果(評価値)に基づいて、予測精度が高い予測モジュールを決定する(図1のST20)。決定される予測モジュールは、複数の予測モジュール候補の中から、予測精度が最も高い1つを選んで決定してもよいし、予測精度が閾値を越える複数の予測モジュール候補を予測モジュールとして決定してもよい。予測モジュール候補の中で、説明変数が最も多いものが、最も予測精度が高い予測モジュール候補とは限らない。説明変数の中には、特徴量に寄与しないにもかかわらず、この説明変数がノイズ成分となって予測精度を低下させる場合もある。
なお、複数の予測モジュールを決定する場合、説明変数の組み合わせが異なっているものを決定することが好ましい。例えば、特徴量を予測するために値を入力する説明変数が、予測モジュールにおいて定義される説明変数と一致しない場合、値を入力する説明変数の一部を削除して定義される説明変数と一致するような予測モジュールを取り揃えていることが好ましい。このような場合、予測精度の評価結果の情報を、特徴量の予測値に加えて付加して、ディスプレイ30に画面表示されることが好ましい。
予測部24は、決定された予測モジュールを設定して、説明変数の値を入力することにより特徴量に関する値を予測する。予測した特徴量に関する値は、ディスプレイ30に出力する。
このように、上述のデータ処理方法では、複数の欠損説明変数のいずれか1つ、あるいは少なくとも2つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した欠損情報を含む欠損データを、学習用データセット及び検証用データセットから削除し、さらに、選択欠損説明変数を説明変数として維持しつつ、残りの欠損説明変数を学習用データセット及び検証用データセットから削除することにより、欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成するので、サブ学習用データセットに対応した予測モジュール候補を複数作成することができる。この複数の予測モジュール候補のそれぞれに対して、サブ検証用データセットを用いて特徴量の予測精度の評価を行って、複数の予測モジュール候補の中から予測モジュールを決定するので、オリジナルデータに欠損データがあっても、欠損データを生かして可能な限り精度よく特徴量の値を予測することができる。
上述したように、サブ学習用データセット1~N及びサブ検証用データセット1~Nを作成するときに用いる、選択する欠損説明変数の組合せは、2つの欠損説明変数の組み合わせの他に、3つ以上の欠損説明変数の組み合わせを含み、予測精度の評価に用いるサブ検証用データセット1~Nは、複数の予測モジュール候補1~Nのそれぞれにおいて定義される複数の説明変数の種類に対応した説明変数を少なくとも有するサブ検証用データセットをすべて用いて予測精度の評価をする、ことが好ましい。これにより、予測モジュール候補1~Nを広い範囲のサブ検証用データセットによって、特徴量の予測精度を把握することができる。
一実施形態によれは、オリジナルデータを学習用データセットと検証用データセットとに分割するとき、検証用データセットをオリジナルデータセットの異なる部分から取り出し、残りの部分を学習用データセットとする分割を複数回行い、分割の度に、学習用データセットを用いて作成した予測モジュール候補1~Nの予測精度の評価を行い、複数回行った予測精度の評価結果の平均値に基づいて予測モジュール候補1~Nから予測モジュールを決定する、ことが好ましい。これにより、オリジナルデータセットに欠損データがあっても、広い範囲で偏ることなく機械学習のためのサブ学習用データセットを作成することができ、また、検証のためのサブ検証用データセットを広い範囲で偏ることなく用いることができ、予測精度を精度よく求めることができる。
また、一実施形態によれば、サブ学習用データセット1~N及びサブ検証用データセット1~Nを作成するとき、図4に示すように、抽出した欠損説明変数の全てを、学習用データセット及び検証用データセットから削除することにより作成したサブデータセットを、サブ学習用データセット及びサブ検証用データセットとして作成する、ことが好ましい。このデータセットは、データの総数を維持して、欠損説明変数を全て除去するので、欠損データのない共通の説明変数のみが定義された予測モジュール候補を作成することができ、この予測モジュール候補に対して、共通の説明変数を少なくとも説明変数として持つ複数のサブ検証用データセットを、予測精度の評価のために用いることができる。したがって、、広い範囲のデータセットを用いて、この予測モジュール候補の予測精度の評価を行うことができる。
サブ学習用データセット1~N及びサブ検証用データセット1~Nを作成するとき、図4~7に示すように、抽出した複数の欠損説明変数の全ての組み合わせに対応したサブ学習用データセット1~N及びサブ検証用データセット1~Nを作成することにより、種々の説明変数が定義された予測モジュール候補を複数作成することができ、この予測モジュール候補の中から予測精度のよい予測モジュールを得ることができる。
一実施形態によれば、特徴量は、タイヤに作用する物理量であり、説明変数は、タイヤが備える構造によって規定される構造特有の構造説明変数と、この構造説明変数とは異なるタイヤに共通する共通説明変数と、を含む。
この場合、構造説明変数は、少なくとも第1構造及び第2構造それぞれに関する構造説明変数を含み、サブ学習用データセット及びサブ検証用データセットの少なくとも一部のサブ学習用データセット及びサブ検証用データセットにおける説明変数は、共通説明変数と第1構造及び第2構造のいずれか一方の構造に関する構造説明変数であり、他方の構造に関する構造説明変数を含まない、ことが好ましい。
タイヤにおける共通説明変数は、例えば、タイヤを装着するリムサイズ、タイヤの偏平率、タイヤ幅、ビードフィラー断面積等を含む。第1構造の構造説明変数は、例えば、第1スチールコードの角度、第1スチールコードの剛性、第2スチールコードの角度、第2スチールコードの剛性、第1カーカスコードの角度、及び第1カーカスコードの剛性等を含み、第2構造の構造説明変数は、例えば、2プライのタイヤ構造として第2カーカスコードの角度、第2カーカスコードの剛性等を含む。
図10は、共通説明変数、第1構造の説明変数、及び第2構造の説明変数、を持つオリジナルデータの一例を示す図である。図10中では、特徴量については、図示されていない。図10中の「・・・」及び「NA」は、図3中のオリジナルデータセットの「・・・」及び「NA」と同じ内容を意味する。図10中、共通説明変数中の説明変数Xでは、データmに欠損情報があり、第1構造の説明変数中の説明変数X11では、データ3に欠損情報があり、第2構造の説明変数中の説明変数X21では、データ1,mに欠損情報があり、説明変数Xでは、データ1に欠損情報がある。
このようなオリジナルデータから、欠損情報がないサブ学習用データセット及びサブ検証用データセットが作成される。図11~14は、図10に示すオリジナルデータから作成されるサブ学習用データセットの例を示す図である。
図11に示すサブ学習用データセットは、共通説明変数のみを説明変数としたサブ学習用データセットであり、共通説明変数のうち、欠損説明変数である説明変数Xを維持し、データmを学習用データセットから除去している。
図12に示すサブ学習用データセットは、共通説明変数と第1構造の説明変数を説明変数としたサブ学習用データセットであり、欠損説明変数である説明変数X,X11を維持し、データm及びデータ3を学習用データセットから除去している。
図13に示すサブ学習用データセットは、共通説明変数と第2構造の説明変数を説6明変数としたサブ学習用データセットであり、共通説明変数と第2構造の説明変数のうち、欠損説明変数である説明変数X,X21,Xを維持し、データ1及びデータmを学習用データセットから除去している。
図14に示すサブ学習用データセットは、共通説明変数と第1構造と第2構造の説明変数を説明変数としたサブ学習用データセットであり、共通説明変数と第1構造と第2構造の説明変数のうち、欠損説明変数である説明変数X,X11,X21,Xを維持し、データ1、データ3、及びデータmを学習用データセットから除去している。
このように、サブ学習用データセットの少なくとも一部は、共通説明変数と第1構造及び第2タイヤ構造のいずれか一方のタイヤ構造に関する構造説明変数であり、他方のタイヤ構造に関する構造説明変数を含まないサブ学習用データセットである。このため、タイヤの上記特徴量を予測する際、共通説明変数のみが定義された予測モジュール候補、共通説明変数、第1構造の説明変数、及び第2構造の説明変数が定義された予測モジュール候補の他に、共通説明変数、及び第1構造の説明変数が定義された予測モジュール候補、あるいは、共通説明変数、及び第2構造の説明変数が定義された予測モジュール候補を作成することができ、第1構造や第2構造のような適用範囲を限定した予測モジュール候補を種々作製できるので、予測精度の高い予測モジュールを定めることができる。例えば、第1構造の場合、共通説明変数と第1構造の説明変数が定義された予測モジュール候補の予測精度が高い一方、第2構造の場合、共通説明変数と第1構造と第2構造の説明変数が定義された予測モジュール候補の予測精度が高いと評価される場合もある。このような場合、予測モジュールは、入力される値に応じて、第1構造における特徴量を予測するのか、第2構造における特徴量を予測するのかを判定し、判定に応じて予測モジュールを使い分けることが好ましい。
図11~14では示されていないが、共通説明変数内、あるいは同じタイヤ構造の説明変数内に欠損説明変数が複数ある場合、上述した選択欠損説明変数として、複数の欠損説明変数同士を組み合わせて、複数のサブ学習用データセット及びサブ検証用データセットを作成し、複数の予測モジュール候補を作成してもよい。
図15は、一実施形態で作成された予測モジュール候補の予測精度の評価結果の一例を示す図である。図15は、共通説明変数を説明変数とするサブ学習用データセットを用いて作成された予測モジュール候補と、共通説明変数及び第1構造の構造説明変数を説明変数とするサブ学習用データセットを用いて作成された予測モジュール候補と、に対してサブ検証用データセットを用いて特徴量(物性量)の値を予測した時の、サブ検証用データセットにおける物理量の値、具体的には実験値と、予測モジュール候補が予測した予測値の相関を示す散布図である。図15中、“○”は、共通説明変数を説明変数とするサブ学習用データセットを用いて作成された予測モジュール候補に関するプロットであり、“●”は、共通説明変数及び第1構造の構造説明変数を説明変数とするサブ学習用データセットに関するプロットである。“○”のプロットにおける、実験値と予測値の間の決定係数Rは、0.58であるのに対して、“●”のプロットにおける、実験値と予測値の間の決定係数Rは、0.76であり、共通説明変数及び第1構造の構造説明変数を説明変数とするサブ学習用データセットを用いて作成された予測モジュール候補の予測精度が高いことを示している。
一実施形態によれば、予測モジュールは、特徴量に関する目標値の入力に応じて、目標値を再現する説明変数に関する最適値を算出する最適化処理に用いることもできる。すなわち、一実施形態のデータ処理方法では、特徴量に関する目標値の入力に応じて、データ処理装置10が、予測モジュールを用いて目標値を再現する説明変数に関する最適値を算出する最適化処理を含むことが好ましい。この場合、予測モジュールに入力される説明変数の値に応じて予測モジュールが予測する特徴量の値に基づいて、説明変数に関する最適値を算出することが好ましい。最適値を算出する方法は、例えば、進化的アルゴリズムが利用することが好ましい。進化的アルゴリズムは、Genetic Algorithm(遺伝的アルゴリズム)、Differential Evolution、Particle Swarm Optimization、Ant Colony Optimization等を含む。実験計画法やラテンハイパーキューブ法を利用することも好ましい。
予測モジュールにおいて定義される説明変数が、オリジナルデータセットが持つオリジナルデータセットの説明変数の一部である場合、例えば、Genetic Algorithmを用いて最適値を算出するときの試行途中の世代におけるデータの生成において説明変数が、オリジナルデータセットの説明変数ではありが、予測モジュールにおいて定義された説明変数を超えた説明変数を含む場合もある。このような場合でも特徴量の予測ができるように、異なる説明変数の組み合わせが定義された複数の予測モジュールを定めておくことが好ましい。
一実施形態によれば、説明変数の値と特徴量の値の関係を可視化することが好ましい。
説明変数の値と特徴量の値の関係は、ディスプレイ30に表示される。説明変数の値と特徴量の値の関係は、例えば自己組織化マップにより表される。あるいは、自己組織化マップに代えて、散布図を用いて、説明変数と特徴量の値の関係を可視化してもよい。
このようなデータ処理方法は、コンピュータに実行させるプログラムをメモリ14から読み出して実行することにより達成することができる。したがって、このプログラムは、
(1)オリジナルデータセットから、コンピュータに、学習用データセットと、検証用データセットとに分離させる手順と、
(2)コンピュータに、オリジナルデータセットから上述の欠損情報を持つ説明変数を欠損説明変数として複数個抽出させる手順と、
(3)抽出した複数の欠損説明変数のいずれか1つ、あるいは少なくとも2つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した欠損情報を含む欠損データを学習用データセット及び検証用データセットから削除し、さらに、選択欠損説明変数を説明変数として維持しつつ、残りの欠損説明変数を学習用データセット及び検証用データセットから削除することにより、学習用データセット及び検証用データセットの一部分のデータセットである、欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理をコンピュータに行わせ、上記処理において、コンピュータに、選択欠損説明変数を変更させることにより、コンピュータに、複数のサブ学習用データセット及びサブ検証用データセットを作成させる手順と、
(4)コンピュータに、サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成させる手順と、
(5)コンピュータに、サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、サブ検証用データセットを用いて、特徴量の値の予測精度を評価させる手順と、
(6)コンピュータに、予測精度の評価結果に基づいて、複数の予測モジュール候補から予測モジュールを決定させる手順と、を備える。
以上、本発明のデータ処理方法、データ処理装置、及びプログラムについて詳細に説明したが、本発明は上記実施形態に限定されず、本発明の主旨を逸脱しない範囲において、種々の改良や変更をしてもよいのはもちろんである。
10 データ処理装置
12 CPU
14 メモリ
16 サブデータセット作成部
18 予測モジュール候補作成部
20 予測モジュール候補作成部
22 予測モジュール決定部
24 予測部
30 ディスプレイ
32 入力操作デバイス

Claims (10)

  1. 複数の説明変数の値を入力することにより予め定めた特徴量に関する値を、コンピュータが予測して出力する予測モジュールを作成するためのデータ処理方法であって、
    複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットを、コンピュータが、学習用データセットと、検証用データセットとに分離するステップと、
    前記コンピュータが、前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出するステップと、
    抽出した複数の欠損説明変数のいずれか1つ、あるいは少なくとも2つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、前記コンピュータが、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を行い、前記処理において、前記選択欠損説明変数を変更することにより、前記コンピュータが、複数のサブ学習用データセット及びサブ検証用データセットを作成するステップと、
    前記コンピュータが、前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成するステップと、
    前記コンピュータが、前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価するステップと、
    前記コンピュータは、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定するステップと、を備えることを特徴とするデータ処理方法。
  2. 前記サブ学習用データセット及び前記サブ検証用データセットを作成するときに用いる、選択する前記欠損説明変数の組合せは、2つの欠損説明変数の組み合わせの他に、3つ以上の欠損説明変数の組み合わせを含み、
    前記予測精度の評価に用いるサブ検証用データセットは、前記複数の予測モジュール候補のそれぞれにおいて定義される複数の説明変数の種類に対応した説明変数を少なくとも有するサブ検証用データセットをすべて用いて予測精度の評価をする、請求項1に記載のデータ処理方法。
  3. 前記オリジナルデータセットを前記学習用データセットと前記検証用データセットとに分割するとき、前記検証用データセットを前記オリジナルデータセットの異なる部分から取り出し、残りの部分を前記学習用データセットとする分割を複数回行い、前記分割の度に、前記学習用データセットを用いて作成した前記複数の予測モジュール候補の予測精度の評価を行い、複数回行った予測精度の評価結果の平均値に基づいて前記複数の予測モジュール候補から前記予測モジュールを決定する、請求項1又は2に記載のデータ処理方法。
  4. 前記サブ学習用データセット及び前記サブ検証用データセットを作成するとき、前記抽出した前記欠損説明変数全てを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除することにより作成したデータセットを、前記サブ学習用データセット及び前記サブ検証用データセットとして作成する、請求項1~3のいずれか1項に記載のデータ処理方法。
  5. 前記サブ学習用データセット及び前記サブ検証用データセットを作成するとき、前記抽出した複数の欠損説明変数の全ての組み合わせに対応したサブ学習用データセット及びサブ検証用データセットを作成する、請求項1~4のいずれか1項に記載のデータ処理方法。
  6. 前記特徴量は、タイヤに作用する物理量であり、
    前記説明変数は、前記タイヤが備える異なる構造によって規定される構造特有の構造説明変数と、前記構造説明変数とは異なる前記タイヤに共通する共通説明変数と、を含み、
    前記構造説明変数は、少なくとも第1構造及び第2構造それぞれに関する構造説明変数を含み、
    前記サブ学習用データセット及び前記サブ検証用データセットの少なくとも一部のサブ学習用データセット及びサブ検証用データセットにおける説明変数は、前記共通説明変数と前記第1構造及び第2構造のいずれか一方の構造に関する構造説明変数であり、他方の構造に関する構造説明変数を含まない、請求項1~5のいずれか1項に記載のデータ処理方法。
  7. さらに、前記特徴量に関する目標値の入力に応じて、前記コンピュータが、前記予測モジュールを用いて前記目標値を再現する前記説明変数に関する最適値を算出するステップを備え、
    前記最適値を算出するステップでは、前記予測モジュールに入力される前記説明変数の値に応じて前記予測モジュールが予測する前記特徴量の値に基づいて、前記説明変数に関する前記最適値を算出する、請求項1~6のいずれか1項に記載のデータ処理方法。
  8. 前記説明変数の値と前記特徴量の値の関係を可視化するステップを、さらに備える、請求項1~7のいずれか1項に記載のデータ処理方法。
  9. 複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成する、コンピュータで構成されたデータ処理装置であって、
    複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットを、学習用データセットと、検証用データセットとに分離する分離処理部と、
    前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出する説明変数抽出処理部と、
    抽出した複数の欠損説明変数のいずれか1つ、あるいは少なくとも2つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを、前記コンピュータが前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、前記コンピュータが、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を行い、前記処理において、前記選択欠損説明変数を変更することにより、前記コンピュータが、複数のサブ学習用データセット及びサブ検証用データセットを作成するサブデータセット作成部と、
    前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成する予測モジュール候補作成部と、
    前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価をする予測モジュール候補評価部と、
    前記コンピュータは、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定する予測モジュール決定部と、を備えることを特徴とするデータ処理装置。
  10. 複数の説明変数の値を入力することにより予め定めた特徴量に関する値を予測して出力する予測モジュールを作成するためのデータ処理方法を、コンピュータに実行させるプログラムであって、
    複数の説明変数の値と、前記説明変数の値と関連付けを行うための特徴量の値とをセットにして保持し、前記説明変数の値に欠損情報がない複数の非欠損データと、前記説明変数の一部において前記欠損情報を含むが前記説明変数の残りの部分には値がある、該値及び該欠損情報と、前記特徴量の値とをセットにして保持する複数の欠損データと、を含むオリジナルデータセットから、コンピュータに、学習用データセットと、検証用データセットとに分離させる手順と、
    前記コンピュータに、前記オリジナルデータセットから前記欠損情報を持つ前記説明変数を欠損説明変数として複数個抽出させる手順と、
    抽出した複数の欠損説明変数のいずれか1つ、あるいは少なくとも2つ以上の欠損説明変数を組み合わせた欠損説明変数の組を選択し、選択した選択欠損説明変数に対応した前記欠損情報を含む欠損データを前記学習用データセット及び前記検証用データセットから削除し、さらに、前記選択欠損説明変数を前記説明変数として維持しつつ、残りの欠損説明変数を前記学習用データセット及び前記検証用データセットから削除することにより、前記学習用データセット及び前記検証用データセットの一部分のデータセットである、前記欠損情報がないサブ学習用データセット及びサブ検証用データセットを作成する処理を前記コンピュータに行わせ、前記処理において、前記コンピュータに、前記選択欠損説明変数を変更させることにより、前記コンピュータに、複数のサブ学習用データセット及びサブ検証用データセットを作成させる手順と、
    前記コンピュータに、前記サブ学習用データセットのそれぞれを用いて機械学習させた予測モジュール候補を作成させる手順と、
    前記コンピュータに、前記サブ学習用データセット別に機械学習した複数の予測モジュール候補のそれぞれに対して、前記サブ検証用データセットを用いて、前記特徴量の値の予測精度を評価させる手順と、
    前記コンピュータに、前記予測精度の評価結果に基づいて、前記複数の予測モジュール候補から前記予測モジュールを決定させる手順と、を備えることを特徴とするプログラム。
JP2019139622A 2019-07-30 2019-07-30 データ処理方法、データ処理装置、及びプログラム Active JP7352070B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019139622A JP7352070B2 (ja) 2019-07-30 2019-07-30 データ処理方法、データ処理装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019139622A JP7352070B2 (ja) 2019-07-30 2019-07-30 データ処理方法、データ処理装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021022275A JP2021022275A (ja) 2021-02-18
JP7352070B2 true JP7352070B2 (ja) 2023-09-28

Family

ID=74574291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019139622A Active JP7352070B2 (ja) 2019-07-30 2019-07-30 データ処理方法、データ処理装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP7352070B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012162226A (ja) 2011-02-09 2012-08-30 Honda Motor Co Ltd 関係式推定支援方法および関係式推定支援装置
JP2014063432A (ja) 2012-09-24 2014-04-10 Nippon Telegr & Teleph Corp <Ntt> 欠損値予測装置、欠損値予測方法、欠損値予測プログラム
WO2014199920A1 (ja) 2013-06-12 2014-12-18 日本電気株式会社 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体
JP2017090947A (ja) 2015-11-02 2017-05-25 オムロン株式会社 製造プロセスの予測システムおよび予測制御システム
JP2018173813A (ja) 2017-03-31 2018-11-08 富士通株式会社 比較プログラム、比較方法および比較装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012162226A (ja) 2011-02-09 2012-08-30 Honda Motor Co Ltd 関係式推定支援方法および関係式推定支援装置
JP2014063432A (ja) 2012-09-24 2014-04-10 Nippon Telegr & Teleph Corp <Ntt> 欠損値予測装置、欠損値予測方法、欠損値予測プログラム
WO2014199920A1 (ja) 2013-06-12 2014-12-18 日本電気株式会社 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体
JP2017090947A (ja) 2015-11-02 2017-05-25 オムロン株式会社 製造プロセスの予測システムおよび予測制御システム
JP2018173813A (ja) 2017-03-31 2018-11-08 富士通株式会社 比較プログラム、比較方法および比較装置

Also Published As

Publication number Publication date
JP2021022275A (ja) 2021-02-18

Similar Documents

Publication Publication Date Title
JP6561455B2 (ja) データの分析方法およびデータの表示方法
JP4888227B2 (ja) データ解析プログラム、データ解析装置、構造体の設計プログラム、および構造体の設計装置
AU2006234877A1 (en) Mahalanobis distance genetic algorithm method and system
JP6263883B2 (ja) データ処理方法および構造体の設計方法
EP2064630A2 (en) Forecasting petroleum reservoir production using genetic algorithms
JP2006285381A (ja) 構造体の設計方法
CN105183928A (zh) 铸铝构件中的残余应力和变形的快速分析
JP6589285B2 (ja) データの分析方法およびデータの表示方法
CN106991212A (zh) 一种基于ga_pso优化grnn网络算法的叶根强度安全特性预测方法
CN106067029A (zh) 面向数据空间的实体分类方法
JP2020030683A (ja) ゴム材料設計方法、ゴム材料設計装置、及びプログラム
JP5966836B2 (ja) 評価支援方法、情報処理装置、及びプログラム
JP6544005B2 (ja) 構造体の近似モデル作成方法、構造体の近似モデル作成装置、およびプログラム
JP6349723B2 (ja) シミュレーション方法、その装置およびプログラム
JP5889759B2 (ja) 欠損値予測装置、欠損値予測方法、欠損値予測プログラム
JP5236301B2 (ja) タイヤの設計方法
JP7352070B2 (ja) データ処理方法、データ処理装置、及びプログラム
JP2001287516A (ja) タイヤの設計方法、タイヤ用加硫金型の設計方法、タイヤ用加硫金型の製造方法、タイヤの製造方法、タイヤの最適化解析装置及びタイヤの最適化解析プログラムを記録した記憶媒体
CN111782904B (zh) 一种基于改进smote算法的非平衡数据集处理方法及系统
JP7152938B2 (ja) 機械学習モデル構築装置および機械学習モデル構築方法
JP7360016B2 (ja) データ処理方法、データ処理装置、及びプログラム
JP6544006B2 (ja) 構造体の近似モデル作成方法、構造体の近似モデル作成装置、およびプログラム
Bartz-Beielstein Stacked generalization of surrogate models-a practical approach
JP2008059106A (ja) サンプリング生成装置、サンプリング生成プログラムが記録された媒体及びサンプリング生成方法
JP6565285B2 (ja) 構造体の近似モデル作成方法、構造体の近似モデル作成装置、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230828

R150 Certificate of patent or registration of utility model

Ref document number: 7352070

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150