JP7456273B2 - データ解析システム、データ解析方法及びデータ解析プログラム - Google Patents

データ解析システム、データ解析方法及びデータ解析プログラム Download PDF

Info

Publication number
JP7456273B2
JP7456273B2 JP2020083197A JP2020083197A JP7456273B2 JP 7456273 B2 JP7456273 B2 JP 7456273B2 JP 2020083197 A JP2020083197 A JP 2020083197A JP 2020083197 A JP2020083197 A JP 2020083197A JP 7456273 B2 JP7456273 B2 JP 7456273B2
Authority
JP
Japan
Prior art keywords
regression
model
display
accuracy
regression models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020083197A
Other languages
English (en)
Other versions
JP2021179668A (ja
Inventor
俊宏 井口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TDK Corp
Original Assignee
TDK Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TDK Corp filed Critical TDK Corp
Priority to JP2020083197A priority Critical patent/JP7456273B2/ja
Publication of JP2021179668A publication Critical patent/JP2021179668A/ja
Application granted granted Critical
Publication of JP7456273B2 publication Critical patent/JP7456273B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、データ解析システム、データ解析方法及びデータ解析プログラムに関する。
データ解析方法として、解析対象のデータセットに基づいて目的変数と説明変数との間の関係を表す回帰モデルを作成し、作成された回帰モデルに基づいて解析を行う方法が知られている(例えば特許文献1参照)。
特開2020-24544号公報
上述したようなデータ解析方法においては種々の回帰モデルが用いられ得るが、データセットによって適した回帰モデルが異なるため、ユーザが適切な回帰モデルを選択する必要があり、データ解析が容易ではない場合がある。また、回帰モデルの中には解釈が容易でないものがあり、このことによってもデータ解析が困難となり得る。
本発明は、データ解析を容易化することができるデータ解析システム、データ解析方法及びデータ解析プログラムを提供することを目的とする。
本発明のデータ解析システムは、少なくとも1つのプロセッサを備え、少なくとも1つのプロセッサは、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、データセットに基づいて、複数の項目のうちの一の項目が目的変数であり、複数の項目のうちの他の項目が説明変数である互いに異なる複数の回帰モデルを作成し、複数の回帰モデルの各々の精度を算出し、複数の回帰モデルの中から精度に応じて選択された回帰モデルを表示モデルとして表示部に表示させ、複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。
このデータ解析システムでは、データセットに基づいて互いに異なる複数の回帰モデルが生成され、作成された各回帰モデルの精度が算出される。そして、複数の回帰モデルの中から精度に応じて選択された回帰モデルが表示部に表示される。これにより、ユーザは、精度に応じて選択された回帰モデルを利用して解析を行うことができる。その結果、容易にデータ解析を行うことができる。また、このデータ解析システムでは、各回帰モデルが、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。これにより、回帰式を用いた回帰モデル及び決定木を用いた回帰モデルの解釈は容易であるため、ユーザは、表示された回帰モデルを容易に解釈することができる。よって、このデータ解析システムによれば、データ解析を容易化することができる。
少なくとも1つのプロセッサは、複数の回帰モデルのうち精度が最も高い回帰モデルを表示モデルとして表示部に表示させてもよい。この場合、データ解析を一層容易化することができる。
少なくとも1つのプロセッサは、データセットにおける目的変数の値と、表示モデルにより予測される目的変数の値と間の関係を示すグラフを、表示モデルと共に表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。
少なくとも1つのプロセッサは、表示モデルにおける説明変数の重要度を、表示モデルと共に表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。
少なくとも1つのプロセッサは、表示モデルにおけるハイパーパラメータのチューニング結果を、表示モデルと共に表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。
少なくとも1つのプロセッサは、複数の回帰モデルをそれぞれ示す複数のラベルを、対応する回帰モデルの精度が高い順に並ぶように、表示部に表示させてもよい。この場合、複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。
少なくとも1つのプロセッサは、複数の回帰モデルの各々について、複数の精度指標を用いて精度を算出し、複数の精度指標の各々を用いた場合の複数の回帰モデルの精度を表示部に表示させてもよい。この場合、各精度指標を用いた場合の複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。
少なくとも1つのプロセッサは、複数の回帰モデルの各々における説明変数の係数を表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。
少なくとも1つのプロセッサは、複数の回帰モデルの各々における説明変数の重要度を表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。
本発明のデータ解析方法は、少なくとも1つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、データセットに基づいて、複数の項目のうちの一の項目を目的変数とし、複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、複数の回帰モデルの各々の精度を算出するステップと、複数の回帰モデルの中から精度に応じて選択された回帰モデルを表示モデルとして表示部に表示させるステップと、を備え、複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。このデータ解析方法によれば、上述した理由により、データ解析を容易化することができる。
本発明のデータ解析プログラムは、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、データセットに基づいて、複数の項目のうちの一の項目を目的変数とし、複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、複数の回帰モデルの各々の精度を算出するステップと、複数の回帰モデルの中から精度に応じて選択された回帰モデルを表示モデルとして表示部に表示させるステップと、をコンピュータに実行させ、複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。このデータ解析プログラムによれば、上述した理由により、データ解析を容易化することができる。
本発明によれば、データ解析を容易化することができるデータ解析システム、データ解析方法及びデータ解析プログラムを提供することが可能となる。
実施形態に係るデータ解析システムの機能構成の例を示す図である。 データ解析システムを構成するコンピュータのハードウェアの構成例を示す図である。 データ解析システムの動作例を示すフローチャートである。 データセットの例を示す図である。 表示部の表示例を示す図である。 決定木を用いた回帰モデルの表示例を示す図である。 (a)は、表示モデルを選択するための選択ボックスが展開される前の状態を示す図であり、(b)は、選択ボックスが展開されている状態を示す図である。 精度の比較のための表示の例を示す図である。 説明変数の係数の比較のための表示の例を示す図である。 説明変数の重要度の比較のための表示の例を示す図である。
以下、本発明の一実施形態について、図面を参照しつつ詳細に説明する。以下の説明において、同一又は相当要素には同一符号を用い、重複する説明を省略する。
[システムの構成]
図1に示されるように、実施形態に係るデータ解析システム1は、機能要素として、受付部11と、モデル作成部12と、精度算出部13と、表示制御部14と、を備えている。受付部11は、データセット30を受け付ける。モデル作成部12は、データセット30に基づいて複数の回帰モデルを作成する。精度算出部13は、各回帰モデルの精度を算出する。表示制御部14は、複数の回帰モデルの中から選択された回帰モデルを後述の表示部26に表示させる。
データ解析システム1は、例えばコンピュータ20により構成されている。図2に示されるように、コンピュータ20は、プロセッサ21と、主記憶部22と、補助記憶部23と、通信制御部24と、入力部25と、表示部26と、を備えている。プロセッサ21は、例えばCPUであり、オペレーティングシステム、アプリケーションプログラム等を実行する。主記憶部22は、例えばROM、RAM等により構成される。補助記憶部23は、例えばハードディスク、フラッシュメモリ等により構成され、主記憶部22よりも大量のデータを記憶する。通信制御部24は、例えばネットワークカード、無線通信モジュール等により構成される。入力部25は、例えばキーボード、マウス、タッチパネル等により構成される。表示部26は、例えばモニタ、タッチパネルディスプレイ等により構成される。
データ解析システム1の各機能要素は、補助記憶部23内に予め記憶されているデータ解析プログラム27を実行させることにより実現される。具体的には、プロセッサ21又は主記憶部22の上にデータ解析プログラム27を読み込ませてプロセッサ21にデータ解析プログラム27を実行させることにより、受付部11、モデル作成部12、精度算出部13及び表示制御部14の各機能が実現される。プロセッサ21は、データ解析プログラム27に従って、通信制御部24、入力部25及び表示部26を動作させ、主記憶部22及び補助記憶部23におけるデータの読み出し及び書き込みを行う。処理に必要なデータ又はデータベースは、主記憶部22又は補助記憶部23内に格納される。
データ解析プログラム27は、例えば、CD-ROM、DVD-ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。或いは、データ解析プログラム27は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
データ解析システム1は、1台のコンピュータ20により構成されてもよいし、複数台のコンピュータ20により構成されてもよい。複数台のコンピュータ20を用いる場合には、これらのコンピュータ20がインターネット又はイントラネット等の通信ネットワークを介して互いに接続されることで、論理的に一つのデータ解析システム1が構築されてもよい。
[システムの動作]
図3を参照しつつ、データ解析システム1により実行されるデータ解析方法の一例を説明する。まず、受付部11は、データセット30を受け付ける(ステップS1)。受付部11へのデータセット30の入力は、例えば、ユーザにより入力部25及び表示部26を介して行われる。例えば、ユーザが補助記憶部23に記憶されたデータセット30を指定すると、指定されたデータセット30が読み込まれて受付部11に受け付けられる。
データセット30は、複数の項目のデータの集合であるデータユニット31を複数含んでいる。データユニット31が有する項目は、任意に設定されてよい。項目は、例えば、材料、化合物等の特性、組成等であってもよいし、装置、デバイス等の特性、寸法、材料等であってもよい。項目のデータは、数値であってもよいし、文字であってもよい。文字データは数値データに変換して用いられる。項目の中には、データが存在しない(欠損値である)項目があってもよい。データユニット31の数は限定されないが、例えば数百個以内であってもよい。
図4は、データセット30の例を示す図である。この例では、データセット30は、表形式で表されている。各行がデータユニット31に相当し、各列が項目に相当する。各データユニット31は、材料組成と透磁率との間の関係を表している。データユニット31は、項目として、透磁率、材料A、材料B、材料C、材料D、材料E、材料F及び材料Hを含んでいる。透磁率のデータは、透磁率を示す数値であり、材料A~Hのデータは、材料組成をパーセンテージで表した数値である。
ステップS1に続いて、受付部11は、解析条件を受け付ける(ステップS2)。受付部11への解析条件の入力は、例えば、ユーザにより入力部25及び表示部26を介して行われる。解析条件は、目的変数及び設計変数の指定を含んでいる。ユーザは、データセット30における複数の項目変数の中から一の項目を目的変数として選択すると共に、残りの項目の中から一又は複数の項目を説明変数として選択する。例えば、表示部26には目的変数を選択するための選択ボックスが表示され、当該選択ボックスにおいて項目を選択することで、ユーザは目的変数を選択する。また、表示部26には、目的変数として選択された項目以外の項目に対応した複数のチェックボックスが表示され、対応するチェックボックスをチェックすることで、ユーザは説明変数を選択する。
また、解析条件は、欠損値処理方法の指定を含んでいる。ユーザは、複数の欠損値処理方法の中から、後述するモデル作成処理(ステップS3)において用いられる一の欠損値処理方法を選択する。例えば、表示部26には欠損値処理方法を選択するための選択ボックスが表示され、当該選択ボックスにおいて欠損値処理方法を選択することで、ユーザは使用する欠損値処理方法を選択する。欠損値処理方法の例としては、例えば、リストワイズ除去(Listwise deletion)、予測平均マッチング(Predictive meanmatching)、ランダムサンプリング等が挙げられる。リストワイズ除去では、欠損値が含まれるデータユニット31は解析対象とされない。欠損値処理方法としては、欠損値を値0として扱う方法(ゼロ置換)又は欠損値処理無し(none)が選択可能となっていてもよい。
また、解析条件は、交互作用項及び自乗項の指定を含んでいる。交互作用項を有りに設定すると、2つの説明変数間の交互作用項が回帰モデルに追加される。自乗項を有りに設定すると、説明変数の自乗項が回帰モデルに追加される。ユーザは、交互作用及び自乗項を回帰モデルに追加するか否かを選択する。例えば、表示部26には、行方向及び列方向の各々が説明変数に対応するようにマトリクス状に配置されたチェックボックス群が表示され、対応するチェックボックスをチェックすることで、ユーザは追加する交互作用項及び自乗項を選択する。チェックボックス群の下には、例えば勾配ブースティング(Gradient Boosting)により算出された各説明変数の重要度が表示されていてもよい。この場合、ユーザは、当該重要度を参考にしつつ交互作用項及び自乗項を選択することができる。
また、解析条件は、目的変数をそのまま使用するか、又は対数に変換して使用するかの指定を含んでいてもよい。また、解析条件は、各説明変数についての数値範囲の指定を含んでいてもよい。また、解析条件は、何れのデータユニット31を解析対象とするかの指定を含んでいてもよい。
また、解析条件は、回帰モデルの指定を含んでいる。ユーザは、互いに異なる複数の回帰モデルの中から、後述するモデル作成処理(ステップS3)において用いられる複数の回帰モデルを選択する。例えば、表示部26には回帰モデルを選択するための選択ボックスが表示され、当該選択ボックスにおいて回帰モデルを選択することで、ユーザは使用する回帰モデルを選択する。以下、表示部26に表示され、ユーザが選択可能である回帰モデルを選択可能回帰モデルともいう。
選択可能回帰モデルは、回帰式を用いた回帰モデルか、又は決定木を用いた回帰モデルである。選択可能回帰モデルは、例えば、回帰式を用いた回帰モデルとして、ベイジアン一般化線形モデル(Bayesian Generalized Linear Model)、一般化線形モデル(GeneralizedLinear Model)、多変量適応型回帰スプライン (MARS: MultivariateAdaptive Regression Spline)、負の二項分布一般化線形モデル(Negative BinomialGeneralized Linear Model)、部分的最小二乗回帰(Partial LeastSquares)、線形回帰(Linear Regression)、主成分回帰(Principal Component Regression)、正則化回帰モデル(PenalizedLinear Regression)、Elastic Net、LASSO、Ridge等を含む。選択可能回帰モデルは、例えば、決定木を用いた回帰モデルとして、条件推測木(Conditional Inference Tree)、Cubist、CART等を含む。
選択可能回帰モデルは、ニューラルネットワーク及びサポートベクターマシン、並びに非線形モデルのアンサンブル学習を用いた回帰モデルを含まない。これらの回帰モデルはブラックボックスであり、解釈が容易でない。アンサンブル学習とは、複数の回帰モデルを作成し、その結果を組み合わせて1つの回帰モデルを作成する手法である。非線形モデルのアンサンブル学習とは、組み合わされる回帰モデルとして非線形モデルを含むものをいう。回帰式を用いた回帰モデルは、例えば、n次(nは1以上の整数)の単項式若しくは多項式、又はそれらを含む分数式の組み合わせにより表される回帰式を用いた回帰モデルである。回帰式は、切片(定数項)のみにより構成されてもよい。回帰式は指数関数を含んでいてもよいが、指数関数の変数として指数関数を含むもの(二重指数関数)は除外されてもよい。回帰式はマックス関数を含んでいてもよいが、マックス関数を含むものは除外されてもよい。回帰式は指数関数とマックス関数を含んでいてもよいが、指数関数の変数としてマックス関数を含むもの、マックス関数の変数として指数関数を含むもの、及びマックス関数の変数としてマックス関数を含むものは除外されてもよい。スプライン関数を含むものは回帰式から除外されてもよい。
また、解析条件は、各回帰モデルのハイパーパラメータのチューニング範囲の指定を含んでいる。例えば、ユーザがチューニング範囲を表す指標として大きな数値を選択すると、ハイパーパラメータのチューニング範囲が大きくなる。一方、ユーザがチューニングの程度を表す指標として小さな数値を選択すると、ハイパーパラメータのチューニング範囲が小さくなる。ハイパーパラメータは、例えば、回帰モデルがLASSO、Ridge又はElasticNetである場合、正則化項を考慮する度合いを表すパラメータである。ハイパーパラメータは、例えば、回帰モデルが負の二項分布一般化線形モデルである場合、リンク関数を表すパラメータである。ハイパーパラメータは、例えば、回帰モデルが決定木を用いたものである場合、木の深さの最大値を表すパラメータや終端ノード数を表すパラメータであってよい。回帰モデルがCARTである場合、ハイパーパラメータは複雑パラメータである。
また、解析条件は、データ検証方法の指定を含んでいる。ユーザは、複数のデータ検証方法の中から、後述するモデル作成処理(ステップS3)において用いられる一のデータ検証方法を選択する。例えば、表示部26にはデータ検証方法を選択するための選択ボックスが表示され、当該選択ボックスにおいてデータ検証方法を選択することで、ユーザは使用するデータ検証方法を選択する。データ検証方法の例としては、例えば、k分割クロスバリデーション、ブートストラップ、一個抜き交差検証(Leave-one-out cross-validation)等が挙げられる。
ステップS2に続いて、モデル作成部12は、複数の回帰モデルを作成する(ステップS3)。より具体的には、モデル作成部12は、ステップS1において受け付けられたデータセット30に基づいて、ステップS2において指定された解析条件を用いて、ステップS2において選択された複数の回帰モデルを作成する。
例えばデータ検証方法としてk分割クロスバリデーションが選択された場合、各回帰モデルの作成手順は次のとおりである。まず、ハイパーパラメータのチューニングを行う。具体的には、複数のデータユニット31をランダムにk分割する(kは2以上の整数)。解析条件として設定されたチューニング範囲でハイパーパラメータを変化させてk分割クロスバリデーションを行い、精度を比較する。例えば、目的変数が数値である場合はRMSE(二乗平均平方根誤差)により精度を比較し、目的変数が文字である場合は正答率(Accuracy)により精度を比較する。精度が最も高いハイパーパラメータの値を選択する。なお、回帰モデルがハイパーパラメータのチューニングが不要なアルゴリズムである場合、ハイパーパラメータのチューニングは行われない。
続いて、選択されたハイパーパラメータを用いて精度を算出し、期待される精度が得られているか否かを確認する。具体的には、データを再度k分割し(ただし、ハイパーパラメータのチューニング時とは異なる分割)、選択されたハイパーパラメータを用いて精度を計算し、確認を行う。続いて、選択されたハイパーパラメータを用い、全てのデータユニット31に基づく各回帰モデルの作成を行う。
ステップS3に続いて、精度算出部13は、各回帰モデルの精度を算出する(ステップS4)。この例では、精度算出部13は、各回帰モデルについて、複数の精度指標を用いて精度を算出する。目的変数が数値の場合に用いられる精度指標の例としては、例えば、RMSE、決定係数(R-squared)、MAE(平均絶対誤差)等が挙げられる。目的変数が文字の場合に用いられる精度指標の例としては、例えば、正答率、適合率、再現率等が挙げられる。
ステップS4に続いて、表示制御部14は、精度が最も高い回帰モデルを表示モデルとして表示部26に表示させる(ステップS5)。この例では、表示制御部14は、RMSEが最も小さい回帰モデルを表示部26に表示させる。
図5は、表示部26の表示例を示す図である。この例は、表示モデル41が負の二項分布一般化線形モデルである例であり、表示部26には表示モデル41の回帰式が表示されている。目的変数は透磁率であり、説明変数は材料A~Hである。交互作用項及び自乗項は追加されていない。変数P1は切片であり、変数P2,P3,P4,P5,P6,P7は、それぞれ、説明変数である材料A,B,E,F,G,Hの係数である。この例では、他の説明変数である材料C,Dは回帰式に含まれていない。表示部26には、表示モデル41と共に、グラフ42、グラフ43、変数重要度44、及び解析結果の詳細45が表示されている。
グラフ42は、表示モデル41の上側に表示されている。グラフ42は、データセット30における目的変数の値(実測値)と、表示モデル41により予測される目的変数の値(予測値)と間の関係を示す散布図である。グラフ42では、横軸が実測値であり、縦軸が予測値である。グラフ42内には、実測値と予測値とが等しい場合のプロット位置を示す直線が破線により表示されている。グラフ42内には、RMSE及び決定係数の値が表示されている。
グラフ43は、表示モデル41の上側に表示されている。グラフ43は、表示モデル41におけるハイパーパラメータのチューニング結果を示す折れ線グラフである。グラフ43では、横軸がハイパーパラメータであり、縦軸がRMSEである。グラフ43から、この例ではハイパーパラメータがBである場合にRMSEが最も小さくなり、ハイパーパラメータA~Cの中からハイパーパラメータBが選択されたことが分かる。
変数重要度44は、表示モデル41の上側に表示されている。グラフ42、グラフ43及び変数重要度44は、左右方向においてこの順に並んでいる。変数重要度44は、表示モデル41における各説明変数の重要度を数値により示す表示である。この例では、説明変数である材料A~Hが、重要度が高い順に上から並ぶように表示されている。解析結果の詳細45は、表示モデル41の下側に表示されている。解析結果の詳細45には、表示モデル41に関する種々の情報が示されている。
図6は、表示モデルが決定木を用いた回帰モデルである場合の表示例を示す図である。この例は、表示モデル41がCARTである例であり、表示モデル41の決定木が表示されている。この例では、説明変数である項目A及び項目Cの大小に応じて決定木が分岐している。表示モデル41以外の表示については例えば図5の場合と同様である。決定木を用いた回帰モデルが表示モデル41である場合、表示モデル41の決定木に代えて又は加えて、表示モデル41の条件分岐が表示されてもよい。
また、表示制御部14は、ユーザにより選択された回帰モデルを表示モデル41として表示部26に表示させてもよい。例えば、図7の例では、表示部26には、表示モデル41を選択するための選択ボックス51が表示されている。選択ボックス51は、例えば表示モデル41等と共に表示されるが、表示モデル41とは異なる画面(タブ)に表示されてもよい。
図7(a)に示されるように、展開される前の状態においては、選択ボックス51には、現在選択されている表示モデル41を示すラベルが表示される。この例では、現在選択されている表示モデル41は回帰モデルDであり、表示モデル41を示すラベルとして、その名称が表示されている。なお、ラベルは名称に限定されず、回帰モデルを示す文字、記号又は図形等であってもよい。
図7(b)に示されるように、ユーザが選択ボックス51を押下すると、選択ボックス51が展開される。展開されている状態においては、選択ボックス51には、モデル作成済の複数の回帰モデルを示すラベルが、対応する回帰モデルの精度が高い順に上から並ぶように表示される。ユーザは、選択ボックス51において回帰モデルを示すラベルを選択することで、表示モデル41として表示する回帰モデルを選択する。この選択を受け付けると、表示制御部14は、選択された回帰モデルを表示モデル41として表示部26に表示する。
また、表示制御部14は、各精度指標を用いた場合の各回帰モデルの精度を表示部26に表示させてもよい。例えば、図8の例では、表示部26には、各精度指標を用いた場合の各回帰モデルの精度を示す表52が表示されている。表52は、例えば表示モデル41とは異なる画面(タブ)に表示されるが、表示モデル41等と共に表示されてもよい。表52では、回帰モデルA~Dは、RMSEが小さい順に上から並ぶように表示されている。ユーザは、精度指標のラベルを押下することにより、当該精度指標が高い順に回帰モデルA~Dを並べ替えることができる。
また、表示制御部14は、各回帰モデルにおける各説明変数の係数を表示部26に表示させてもよい。例えば、図9の例では、表示部26には、各回帰モデルA~Dにおける各説明変数(材料A~H)の係数及び切片の値を示す表53が表示されている。表53は、例えば表示モデル41とは異なる画面(タブ)に表示されるが、表示モデル41等と共に表示されてもよい。
また、表示制御部14は、各回帰モデルにおける各説明変数の重要度を表示部26に表示させてもよい。例えば、図10の例では、表示部26には、各回帰モデルにおける各説明変数(材料A~H)の重要度を示す表54が表示されている。表54は、例えば表示モデル41とは異なる画面(タブ)に表示されるが、表示モデル41等と共に表示されてもよい。表54では、説明変数は、回帰モデルAにおける重要度が高い順に上から並ぶように表示されている。ユーザは、回帰モデルのラベルを押下することにより、当該回帰モデルにおいて重要度が高い順に説明変数を並べ替えることができる。
また、データ解析システム1は、受付部11により予測のためのデータセット30を受け付け可能に構成されている。ユーザは、入力部25及び表示部26を介して予測のためのデータセット30を受付部11に入力する。受付部11が予測のためのデータセット30を受け付けると、表示制御部14は、現在の表示モデル41による説明変数の予測結果を表示部26に表示する。
[作用及び効果]
データ解析システム1では、データセット30に基づいて互いに異なる複数の回帰モデルが生成され、作成された各回帰モデルの精度が算出される。そして、複数の回帰モデルの中から精度に応じて選択された回帰モデルが表示部26に表示される。これにより、ユーザは、精度に応じて選択された回帰モデルを利用して解析を行うことができる。その結果、容易にデータ解析を行うことができる。また、データ解析システム1では、各回帰モデルが、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。これにより、回帰式を用いた回帰モデル及び決定木を用いた回帰モデルの解釈は容易であるため、ユーザは、表示された回帰モデルを容易に解釈することができる。よって、データ解析システム1によれば、データ解析を容易化することができる。その結果、データセット30についての定量的な説明と高精度な予測を容易に行うことが可能となる。
プロセッサ21が、複数の回帰モデルのうち精度が最も高い回帰モデルを表示モデル41として表示部26に表示させる。これにより、データ解析を一層容易化することができる。
プロセッサ21が、データセット30における目的変数の値と、表示モデル41により予測される目的変数の値と間の関係を示すグラフ42を、表示モデル41と共に表示部26に表示させる。これにより、データ解析をより一層容易化することができる。
プロセッサ21が、表示モデル41における説明変数の重要度(変数重要度44)を、表示モデル41と共に表示部26に表示させる。これにより、データ解析をより一層容易化することができる。
プロセッサ21が、表示モデル41におけるハイパーパラメータのチューニング結果(グラフ43)を、表示モデル41と共に表示部26に表示させる。これにより、データ解析をより一層容易化することができる。
プロセッサ21が、複数の回帰モデルをそれぞれ示す複数のラベルを、対応する回帰モデルの精度が高い順に並ぶように、表示部26に表示させる(図7(b))。これにより、複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。
プロセッサ21が、複数の精度指標の各々を用いた場合の複数の回帰モデルの精度を表示部26に表示させる(図8)。これにより、各精度指標を用いた場合の複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。
プロセッサ21が、複数の回帰モデルの各々における説明変数の係数を表示部26に表示させる(図9)。これにより、データ解析をより一層容易化することができる。
プロセッサ21が、複数の回帰モデルの各々における説明変数の重要度を表示部26に表示させる(図10)。これにより、データ解析をより一層容易化することができる。
本発明は、上記実施形態に限られない。例えば、上記実施形態のステップS5では複数の回帰モデルのうち精度が最も高い回帰モデルが表示モデル41として表示部26に表示されたが、ステップS5における処理はこれに限られず、次の処理であってもよい。モデル作成済の複数の回帰モデルを示すラベルが、対応する回帰モデルの精度が高い順に上から並ぶように表示される。ユーザは、一のラベルを選択することで、表示モデル41として表示する回帰モデルを選択する。この選択を受け付けると、表示制御部14は、選択された回帰モデルを表示モデル41として表示部26に表示する。
1…データ解析システム、20…コンピュータ、21…プロセッサ、26…表示部、27…データ解析プログラム、30…データセット、31…データユニット、41…表示モデル、42…グラフ。

Claims (12)

  1. 少なくとも1つのプロセッサを備え、
    前記少なくとも1つのプロセッサは、
    複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、
    前記データセットに基づいて、前記複数の項目のうちの一の項目が目的変数であり、前記複数の項目のうちの他の項目が説明変数である互いに異なる複数の回帰モデルを作成し、
    前記複数の回帰モデルの各々の精度を算出し、
    前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させ、
    前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
    前記少なくとも1つのプロセッサは、
    前記表示モデルにおける前記説明変数の重要度を、前記表示モデルと共に前記表示部に表示させる、データ解析システム。
  2. 少なくとも1つのプロセッサを備え、
    前記少なくとも1つのプロセッサは、
    複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、
    前記データセットに基づいて、前記複数の項目のうちの一の項目が目的変数であり、前記複数の項目のうちの他の項目が説明変数である互いに異なる複数の回帰モデルを作成し、
    前記複数の回帰モデルの各々の精度を算出し、
    前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させ、
    前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
    前記少なくとも1つのプロセッサは、
    複数のハイパーパラメータを用いて前記複数の回帰モデルの前記精度を算出し、前記精度が最も高い前記ハイパーパラメータを前記回帰モデルの前記ハイパーパラメータとして選択し、
    前記表示モデルにおける前記ハイパーパラメータのチューニング結果として、前記複数のハイパーパラメータを用いた場合の前記精度を、前記表示モデルと共に前記表示部に表示させる、データ解析システム。
  3. 前記少なくとも1つのプロセッサは、
    前記複数の回帰モデルのうち前記精度が最も高い前記回帰モデルを前記表示モデルとして前記表示部に表示させる、請求項1又は2に記載のデータ解析システム。
  4. 前記少なくとも1つのプロセッサは、
    前記データセットにおける前記目的変数の値と、前記表示モデルにより予測される前記目的変数の値と間の関係を示すグラフを、前記表示モデルと共に前記表示部に表示させる、請求項1~3のいずれか一項に記載のデータ解析システム。
  5. 前記少なくとも1つのプロセッサは、
    前記複数の回帰モデルをそれぞれ示す複数のラベルを、対応する前記回帰モデルの前記精度が高い順に並ぶように、前記表示部に表示させる、請求項1~のいずれか一項に記載のデータ解析システム。
  6. 前記少なくとも1つのプロセッサは、
    前記複数の回帰モデルの各々について、複数の精度指標を用いて前記精度を算出し、
    前記複数の精度指標の各々を用いた場合の前記複数の回帰モデルの前記精度を前記表示部に表示させる、請求項1~のいずれかいずれか一項に記載のデータ解析システム。
  7. 前記少なくとも1つのプロセッサは、
    前記複数の回帰モデルの各々における前記説明変数の係数を前記表示部に表示させる、請求項1~のいずれかいずれか一項に記載のデータ解析システム。
  8. 前記少なくとも1つのプロセッサは、
    前記複数の回帰モデルの各々における前記説明変数の重要度を前記表示部に表示させる、請求項1~のいずれかいずれか一項に記載のデータ解析システム。
  9. 少なくとも1つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、
    複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
    前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
    前記複数の回帰モデルの各々の精度を算出するステップと、
    前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、を備え、
    前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
    前記表示部に表示させるステップでは、前記表示モデルにおける前記説明変数の重要度を、前記表示モデルと共に前記表示部に表示させる、データ解析方法。
  10. 少なくとも1つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、
    複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
    前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
    前記複数の回帰モデルの各々の精度を算出するステップと、
    前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、を備え、
    前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
    前記複数の回帰モデルを作成するステップでは、複数のハイパーパラメータを用いて前記複数の回帰モデルの前記精度を算出し、前記精度が最も高い前記ハイパーパラメータを前記回帰モデルの前記ハイパーパラメータとして選択し、
    前記表示部に表示させるステップでは、前記表示モデルにおける前記ハイパーパラメータのチューニング結果として、前記複数のハイパーパラメータを用いた場合の前記精度を、前記表示モデルと共に前記表示部に表示させる、データ解析方法。
  11. 複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
    前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
    前記複数の回帰モデルの各々の精度を算出するステップと、
    前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、をコンピュータに実行させ、
    前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
    前記表示部に表示させるステップでは、前記表示モデルにおける前記説明変数の重要度を、前記表示モデルと共に前記表示部に表示させる、データ解析プログラム。
  12. 複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
    前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
    前記複数の回帰モデルの各々の精度を算出するステップと、
    前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、をコンピュータに実行させ、
    前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
    前記複数の回帰モデルを作成するステップでは、複数のハイパーパラメータを用いて前記複数の回帰モデルの前記精度を算出し、前記精度が最も高い前記ハイパーパラメータを前記回帰モデルの前記ハイパーパラメータとして選択し、
    前記表示部に表示させるステップでは、前記表示モデルにおける前記ハイパーパラメータのチューニング結果として、前記複数のハイパーパラメータを用いた場合の前記精度を、前記表示モデルと共に前記表示部に表示させる、データ解析プログラム。
JP2020083197A 2020-05-11 2020-05-11 データ解析システム、データ解析方法及びデータ解析プログラム Active JP7456273B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020083197A JP7456273B2 (ja) 2020-05-11 2020-05-11 データ解析システム、データ解析方法及びデータ解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020083197A JP7456273B2 (ja) 2020-05-11 2020-05-11 データ解析システム、データ解析方法及びデータ解析プログラム

Publications (2)

Publication Number Publication Date
JP2021179668A JP2021179668A (ja) 2021-11-18
JP7456273B2 true JP7456273B2 (ja) 2024-03-27

Family

ID=78511520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020083197A Active JP7456273B2 (ja) 2020-05-11 2020-05-11 データ解析システム、データ解析方法及びデータ解析プログラム

Country Status (1)

Country Link
JP (1) JP7456273B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024025242A (ja) * 2022-08-10 2024-02-26 パナソニックIpマネジメント株式会社 予測装置、データ処理装置、予測方法、データ処理方法、コンピュータプログラム及び記録媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094207A1 (ja) 2015-11-30 2017-06-08 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
JP2019144022A (ja) 2018-02-16 2019-08-29 株式会社三菱総合研究所 飲料の特性予測方法、特性予測プログラムおよび特性予測装置
JP2019200487A (ja) 2018-05-14 2019-11-21 株式会社東芝 利用数予測装置、利用数予測方法及びプログラム
JP2020183767A (ja) 2019-04-26 2020-11-12 株式会社東芝 摩耗予測装置、摩耗予測方法及びコンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094207A1 (ja) 2015-11-30 2017-06-08 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
JP2019144022A (ja) 2018-02-16 2019-08-29 株式会社三菱総合研究所 飲料の特性予測方法、特性予測プログラムおよび特性予測装置
JP2019200487A (ja) 2018-05-14 2019-11-21 株式会社東芝 利用数予測装置、利用数予測方法及びプログラム
JP2020183767A (ja) 2019-04-26 2020-11-12 株式会社東芝 摩耗予測装置、摩耗予測方法及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2021179668A (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
Dangeti Statistics for machine learning
Tatsat et al. Machine Learning and Data Science Blueprints for Finance
Legramanti et al. Bayesian cumulative shrinkage for infinite factorizations
Villa-Vialaneix et al. A comparison of eight metamodeling techniques for the simulation of N2O fluxes and N leaching from corn crops
US20160232457A1 (en) User Interface for Unified Data Science Platform Including Management of Models, Experiments, Data Sets, Projects, Actions and Features
US11080475B2 (en) Predicting spreadsheet properties
US9087294B2 (en) Prediction method, prediction system and program
US11151480B1 (en) Hyperparameter tuning system results viewer
Das et al. Classification methods
Kuhn et al. Regression trees and rule-based models
EP3816879A1 (en) A method of yield estimation for arable crops and grasslands and a system for performing the method
Wang et al. Boosted varying-coefficient regression models for product demand prediction
US11550970B2 (en) Resolving opaqueness of complex machine learning applications
Montesinos-López et al. A Bayesian genomic multi-output regressor stacking model for predicting multi-trait multi-environment plant breeding data
Karabatsos A menu-driven software package of Bayesian nonparametric (and parametric) mixed models for regression analysis and density estimation
Saleh Machine Learning Fundamentals: Use Python and scikit-learn to get up and running with the hottest developments in machine learning
Pardo et al. Rotation forests for regression
Ballings et al. Kernel Factory: An ensemble of kernel machines
JP7456273B2 (ja) データ解析システム、データ解析方法及びデータ解析プログラム
CN114207729A (zh) 材料特性预测系统以及材料特性预测方法
Kick et al. Yield prediction through integration of genetic, environment, and management data through deep learning
Galea et al. Applied Deep Learning with Python: Use scikit-learn, TensorFlow, and Keras to create intelligent systems and machine learning solutions
CA3189593A1 (en) Hybrid machine learning
Chopra et al. Data Science with Python: Combine Python with machine learning principles to discover hidden patterns in raw data
US20230273771A1 (en) Secret decision tree test apparatus, secret decision tree test system, secret decision tree test method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230727

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240123

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240226

R150 Certificate of patent or registration of utility model

Ref document number: 7456273

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150