JP7456273B2

JP7456273B2 - データ解析システム、データ解析方法及びデータ解析プログラム

Info

Publication number: JP7456273B2
Application number: JP2020083197A
Authority: JP
Inventors: 俊宏井口
Original assignee: TDK Corp
Current assignee: TDK Corp
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2024-03-27
Anticipated expiration: 2040-05-11
Also published as: JP2021179668A

Description

本発明は、データ解析システム、データ解析方法及びデータ解析プログラムに関する。

データ解析方法として、解析対象のデータセットに基づいて目的変数と説明変数との間の関係を表す回帰モデルを作成し、作成された回帰モデルに基づいて解析を行う方法が知られている（例えば特許文献１参照）。

特開２０２０－２４５４４号公報

上述したようなデータ解析方法においては種々の回帰モデルが用いられ得るが、データセットによって適した回帰モデルが異なるため、ユーザが適切な回帰モデルを選択する必要があり、データ解析が容易ではない場合がある。また、回帰モデルの中には解釈が容易でないものがあり、このことによってもデータ解析が困難となり得る。

本発明は、データ解析を容易化することができるデータ解析システム、データ解析方法及びデータ解析プログラムを提供することを目的とする。

本発明のデータ解析システムは、少なくとも１つのプロセッサを備え、少なくとも１つのプロセッサは、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、データセットに基づいて、複数の項目のうちの一の項目が目的変数であり、複数の項目のうちの他の項目が説明変数である互いに異なる複数の回帰モデルを作成し、複数の回帰モデルの各々の精度を算出し、複数の回帰モデルの中から精度に応じて選択された回帰モデルを表示モデルとして表示部に表示させ、複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。

このデータ解析システムでは、データセットに基づいて互いに異なる複数の回帰モデルが生成され、作成された各回帰モデルの精度が算出される。そして、複数の回帰モデルの中から精度に応じて選択された回帰モデルが表示部に表示される。これにより、ユーザは、精度に応じて選択された回帰モデルを利用して解析を行うことができる。その結果、容易にデータ解析を行うことができる。また、このデータ解析システムでは、各回帰モデルが、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。これにより、回帰式を用いた回帰モデル及び決定木を用いた回帰モデルの解釈は容易であるため、ユーザは、表示された回帰モデルを容易に解釈することができる。よって、このデータ解析システムによれば、データ解析を容易化することができる。

少なくとも１つのプロセッサは、複数の回帰モデルのうち精度が最も高い回帰モデルを表示モデルとして表示部に表示させてもよい。この場合、データ解析を一層容易化することができる。

少なくとも１つのプロセッサは、データセットにおける目的変数の値と、表示モデルにより予測される目的変数の値と間の関係を示すグラフを、表示モデルと共に表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。

少なくとも１つのプロセッサは、表示モデルにおける説明変数の重要度を、表示モデルと共に表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。

少なくとも１つのプロセッサは、表示モデルにおけるハイパーパラメータのチューニング結果を、表示モデルと共に表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。

少なくとも１つのプロセッサは、複数の回帰モデルをそれぞれ示す複数のラベルを、対応する回帰モデルの精度が高い順に並ぶように、表示部に表示させてもよい。この場合、複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。

少なくとも１つのプロセッサは、複数の回帰モデルの各々について、複数の精度指標を用いて精度を算出し、複数の精度指標の各々を用いた場合の複数の回帰モデルの精度を表示部に表示させてもよい。この場合、各精度指標を用いた場合の複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。

少なくとも１つのプロセッサは、複数の回帰モデルの各々における説明変数の係数を表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。

少なくとも１つのプロセッサは、複数の回帰モデルの各々における説明変数の重要度を表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。

本発明のデータ解析方法は、少なくとも１つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、データセットに基づいて、複数の項目のうちの一の項目を目的変数とし、複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、複数の回帰モデルの各々の精度を算出するステップと、複数の回帰モデルの中から精度に応じて選択された回帰モデルを表示モデルとして表示部に表示させるステップと、を備え、複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。このデータ解析方法によれば、上述した理由により、データ解析を容易化することができる。

本発明のデータ解析プログラムは、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、データセットに基づいて、複数の項目のうちの一の項目を目的変数とし、複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、複数の回帰モデルの各々の精度を算出するステップと、複数の回帰モデルの中から精度に応じて選択された回帰モデルを表示モデルとして表示部に表示させるステップと、をコンピュータに実行させ、複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。このデータ解析プログラムによれば、上述した理由により、データ解析を容易化することができる。

本発明によれば、データ解析を容易化することができるデータ解析システム、データ解析方法及びデータ解析プログラムを提供することが可能となる。

実施形態に係るデータ解析システムの機能構成の例を示す図である。データ解析システムを構成するコンピュータのハードウェアの構成例を示す図である。データ解析システムの動作例を示すフローチャートである。データセットの例を示す図である。表示部の表示例を示す図である。決定木を用いた回帰モデルの表示例を示す図である。（ａ）は、表示モデルを選択するための選択ボックスが展開される前の状態を示す図であり、（ｂ）は、選択ボックスが展開されている状態を示す図である。精度の比較のための表示の例を示す図である。説明変数の係数の比較のための表示の例を示す図である。説明変数の重要度の比較のための表示の例を示す図である。

以下、本発明の一実施形態について、図面を参照しつつ詳細に説明する。以下の説明において、同一又は相当要素には同一符号を用い、重複する説明を省略する。
［システムの構成］

図１に示されるように、実施形態に係るデータ解析システム１は、機能要素として、受付部１１と、モデル作成部１２と、精度算出部１３と、表示制御部１４と、を備えている。受付部１１は、データセット３０を受け付ける。モデル作成部１２は、データセット３０に基づいて複数の回帰モデルを作成する。精度算出部１３は、各回帰モデルの精度を算出する。表示制御部１４は、複数の回帰モデルの中から選択された回帰モデルを後述の表示部２６に表示させる。

データ解析システム１は、例えばコンピュータ２０により構成されている。図２に示されるように、コンピュータ２０は、プロセッサ２１と、主記憶部２２と、補助記憶部２３と、通信制御部２４と、入力部２５と、表示部２６と、を備えている。プロセッサ２１は、例えばＣＰＵであり、オペレーティングシステム、アプリケーションプログラム等を実行する。主記憶部２２は、例えばＲＯＭ、ＲＡＭ等により構成される。補助記憶部２３は、例えばハードディスク、フラッシュメモリ等により構成され、主記憶部２２よりも大量のデータを記憶する。通信制御部２４は、例えばネットワークカード、無線通信モジュール等により構成される。入力部２５は、例えばキーボード、マウス、タッチパネル等により構成される。表示部２６は、例えばモニタ、タッチパネルディスプレイ等により構成される。

データ解析システム１の各機能要素は、補助記憶部２３内に予め記憶されているデータ解析プログラム２７を実行させることにより実現される。具体的には、プロセッサ２１又は主記憶部２２の上にデータ解析プログラム２７を読み込ませてプロセッサ２１にデータ解析プログラム２７を実行させることにより、受付部１１、モデル作成部１２、精度算出部１３及び表示制御部１４の各機能が実現される。プロセッサ２１は、データ解析プログラム２７に従って、通信制御部２４、入力部２５及び表示部２６を動作させ、主記憶部２２及び補助記憶部２３におけるデータの読み出し及び書き込みを行う。処理に必要なデータ又はデータベースは、主記憶部２２又は補助記憶部２３内に格納される。

データ解析プログラム２７は、例えば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。或いは、データ解析プログラム２７は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。

データ解析システム１は、１台のコンピュータ２０により構成されてもよいし、複数台のコンピュータ２０により構成されてもよい。複数台のコンピュータ２０を用いる場合には、これらのコンピュータ２０がインターネット又はイントラネット等の通信ネットワークを介して互いに接続されることで、論理的に一つのデータ解析システム１が構築されてもよい。
［システムの動作］

図３を参照しつつ、データ解析システム１により実行されるデータ解析方法の一例を説明する。まず、受付部１１は、データセット３０を受け付ける（ステップＳ１）。受付部１１へのデータセット３０の入力は、例えば、ユーザにより入力部２５及び表示部２６を介して行われる。例えば、ユーザが補助記憶部２３に記憶されたデータセット３０を指定すると、指定されたデータセット３０が読み込まれて受付部１１に受け付けられる。

データセット３０は、複数の項目のデータの集合であるデータユニット３１を複数含んでいる。データユニット３１が有する項目は、任意に設定されてよい。項目は、例えば、材料、化合物等の特性、組成等であってもよいし、装置、デバイス等の特性、寸法、材料等であってもよい。項目のデータは、数値であってもよいし、文字であってもよい。文字データは数値データに変換して用いられる。項目の中には、データが存在しない（欠損値である）項目があってもよい。データユニット３１の数は限定されないが、例えば数百個以内であってもよい。

図４は、データセット３０の例を示す図である。この例では、データセット３０は、表形式で表されている。各行がデータユニット３１に相当し、各列が項目に相当する。各データユニット３１は、材料組成と透磁率との間の関係を表している。データユニット３１は、項目として、透磁率、材料Ａ、材料Ｂ、材料Ｃ、材料Ｄ、材料Ｅ、材料Ｆ及び材料Ｈを含んでいる。透磁率のデータは、透磁率を示す数値であり、材料Ａ～Ｈのデータは、材料組成をパーセンテージで表した数値である。

ステップＳ１に続いて、受付部１１は、解析条件を受け付ける（ステップＳ２）。受付部１１への解析条件の入力は、例えば、ユーザにより入力部２５及び表示部２６を介して行われる。解析条件は、目的変数及び設計変数の指定を含んでいる。ユーザは、データセット３０における複数の項目変数の中から一の項目を目的変数として選択すると共に、残りの項目の中から一又は複数の項目を説明変数として選択する。例えば、表示部２６には目的変数を選択するための選択ボックスが表示され、当該選択ボックスにおいて項目を選択することで、ユーザは目的変数を選択する。また、表示部２６には、目的変数として選択された項目以外の項目に対応した複数のチェックボックスが表示され、対応するチェックボックスをチェックすることで、ユーザは説明変数を選択する。

また、解析条件は、欠損値処理方法の指定を含んでいる。ユーザは、複数の欠損値処理方法の中から、後述するモデル作成処理（ステップＳ３）において用いられる一の欠損値処理方法を選択する。例えば、表示部２６には欠損値処理方法を選択するための選択ボックスが表示され、当該選択ボックスにおいて欠損値処理方法を選択することで、ユーザは使用する欠損値処理方法を選択する。欠損値処理方法の例としては、例えば、リストワイズ除去（Listwise deletion）、予測平均マッチング（Predictive meanmatching）、ランダムサンプリング等が挙げられる。リストワイズ除去では、欠損値が含まれるデータユニット３１は解析対象とされない。欠損値処理方法としては、欠損値を値０として扱う方法（ゼロ置換）又は欠損値処理無し（none）が選択可能となっていてもよい。

また、解析条件は、交互作用項及び自乗項の指定を含んでいる。交互作用項を有りに設定すると、２つの説明変数間の交互作用項が回帰モデルに追加される。自乗項を有りに設定すると、説明変数の自乗項が回帰モデルに追加される。ユーザは、交互作用及び自乗項を回帰モデルに追加するか否かを選択する。例えば、表示部２６には、行方向及び列方向の各々が説明変数に対応するようにマトリクス状に配置されたチェックボックス群が表示され、対応するチェックボックスをチェックすることで、ユーザは追加する交互作用項及び自乗項を選択する。チェックボックス群の下には、例えば勾配ブースティング（Gradient Boosting）により算出された各説明変数の重要度が表示されていてもよい。この場合、ユーザは、当該重要度を参考にしつつ交互作用項及び自乗項を選択することができる。

また、解析条件は、目的変数をそのまま使用するか、又は対数に変換して使用するかの指定を含んでいてもよい。また、解析条件は、各説明変数についての数値範囲の指定を含んでいてもよい。また、解析条件は、何れのデータユニット３１を解析対象とするかの指定を含んでいてもよい。

また、解析条件は、回帰モデルの指定を含んでいる。ユーザは、互いに異なる複数の回帰モデルの中から、後述するモデル作成処理（ステップＳ３）において用いられる複数の回帰モデルを選択する。例えば、表示部２６には回帰モデルを選択するための選択ボックスが表示され、当該選択ボックスにおいて回帰モデルを選択することで、ユーザは使用する回帰モデルを選択する。以下、表示部２６に表示され、ユーザが選択可能である回帰モデルを選択可能回帰モデルともいう。

選択可能回帰モデルは、回帰式を用いた回帰モデルか、又は決定木を用いた回帰モデルである。選択可能回帰モデルは、例えば、回帰式を用いた回帰モデルとして、ベイジアン一般化線形モデル（Bayesian Generalized Linear Model）、一般化線形モデル（GeneralizedLinear Model）、多変量適応型回帰スプライン (MARS: MultivariateAdaptive Regression Spline)、負の二項分布一般化線形モデル（Negative BinomialGeneralized Linear Model）、部分的最小二乗回帰（Partial LeastSquares）、線形回帰（Linear Regression）、主成分回帰（Principal Component Regression）、正則化回帰モデル（PenalizedLinear Regression）、Elastic Net、LASSO、Ridge等を含む。選択可能回帰モデルは、例えば、決定木を用いた回帰モデルとして、条件推測木（Conditional Inference Tree）、Cubist、CART等を含む。

選択可能回帰モデルは、ニューラルネットワーク及びサポートベクターマシン、並びに非線形モデルのアンサンブル学習を用いた回帰モデルを含まない。これらの回帰モデルはブラックボックスであり、解釈が容易でない。アンサンブル学習とは、複数の回帰モデルを作成し、その結果を組み合わせて１つの回帰モデルを作成する手法である。非線形モデルのアンサンブル学習とは、組み合わされる回帰モデルとして非線形モデルを含むものをいう。回帰式を用いた回帰モデルは、例えば、ｎ次（ｎは１以上の整数）の単項式若しくは多項式、又はそれらを含む分数式の組み合わせにより表される回帰式を用いた回帰モデルである。回帰式は、切片（定数項）のみにより構成されてもよい。回帰式は指数関数を含んでいてもよいが、指数関数の変数として指数関数を含むもの（二重指数関数）は除外されてもよい。回帰式はマックス関数を含んでいてもよいが、マックス関数を含むものは除外されてもよい。回帰式は指数関数とマックス関数を含んでいてもよいが、指数関数の変数としてマックス関数を含むもの、マックス関数の変数として指数関数を含むもの、及びマックス関数の変数としてマックス関数を含むものは除外されてもよい。スプライン関数を含むものは回帰式から除外されてもよい。

また、解析条件は、各回帰モデルのハイパーパラメータのチューニング範囲の指定を含んでいる。例えば、ユーザがチューニング範囲を表す指標として大きな数値を選択すると、ハイパーパラメータのチューニング範囲が大きくなる。一方、ユーザがチューニングの程度を表す指標として小さな数値を選択すると、ハイパーパラメータのチューニング範囲が小さくなる。ハイパーパラメータは、例えば、回帰モデルがLASSO、Ridge又はElasticNetである場合、正則化項を考慮する度合いを表すパラメータである。ハイパーパラメータは、例えば、回帰モデルが負の二項分布一般化線形モデルである場合、リンク関数を表すパラメータである。ハイパーパラメータは、例えば、回帰モデルが決定木を用いたものである場合、木の深さの最大値を表すパラメータや終端ノード数を表すパラメータであってよい。回帰モデルがCARTである場合、ハイパーパラメータは複雑パラメータである。

また、解析条件は、データ検証方法の指定を含んでいる。ユーザは、複数のデータ検証方法の中から、後述するモデル作成処理（ステップＳ３）において用いられる一のデータ検証方法を選択する。例えば、表示部２６にはデータ検証方法を選択するための選択ボックスが表示され、当該選択ボックスにおいてデータ検証方法を選択することで、ユーザは使用するデータ検証方法を選択する。データ検証方法の例としては、例えば、ｋ分割クロスバリデーション、ブートストラップ、一個抜き交差検証(Leave-one-out cross-validation)等が挙げられる。

ステップＳ２に続いて、モデル作成部１２は、複数の回帰モデルを作成する（ステップＳ３）。より具体的には、モデル作成部１２は、ステップＳ１において受け付けられたデータセット３０に基づいて、ステップＳ２において指定された解析条件を用いて、ステップＳ２において選択された複数の回帰モデルを作成する。

例えばデータ検証方法としてｋ分割クロスバリデーションが選択された場合、各回帰モデルの作成手順は次のとおりである。まず、ハイパーパラメータのチューニングを行う。具体的には、複数のデータユニット３１をランダムにｋ分割する（ｋは２以上の整数）。解析条件として設定されたチューニング範囲でハイパーパラメータを変化させてk分割クロスバリデーションを行い、精度を比較する。例えば、目的変数が数値である場合はＲＭＳＥ（二乗平均平方根誤差）により精度を比較し、目的変数が文字である場合は正答率（Accuracy）により精度を比較する。精度が最も高いハイパーパラメータの値を選択する。なお、回帰モデルがハイパーパラメータのチューニングが不要なアルゴリズムである場合、ハイパーパラメータのチューニングは行われない。

続いて、選択されたハイパーパラメータを用いて精度を算出し、期待される精度が得られているか否かを確認する。具体的には、データを再度ｋ分割し（ただし、ハイパーパラメータのチューニング時とは異なる分割）、選択されたハイパーパラメータを用いて精度を計算し、確認を行う。続いて、選択されたハイパーパラメータを用い、全てのデータユニット３１に基づく各回帰モデルの作成を行う。

ステップＳ３に続いて、精度算出部１３は、各回帰モデルの精度を算出する（ステップＳ４）。この例では、精度算出部１３は、各回帰モデルについて、複数の精度指標を用いて精度を算出する。目的変数が数値の場合に用いられる精度指標の例としては、例えば、ＲＭＳＥ、決定係数（R-squared）、ＭＡＥ（平均絶対誤差）等が挙げられる。目的変数が文字の場合に用いられる精度指標の例としては、例えば、正答率、適合率、再現率等が挙げられる。

ステップＳ４に続いて、表示制御部１４は、精度が最も高い回帰モデルを表示モデルとして表示部２６に表示させる（ステップＳ５）。この例では、表示制御部１４は、ＲＭＳＥが最も小さい回帰モデルを表示部２６に表示させる。

図５は、表示部２６の表示例を示す図である。この例は、表示モデル４１が負の二項分布一般化線形モデルである例であり、表示部２６には表示モデル４１の回帰式が表示されている。目的変数は透磁率であり、説明変数は材料Ａ～Ｈである。交互作用項及び自乗項は追加されていない。変数Ｐ１は切片であり、変数Ｐ２，Ｐ３，Ｐ４，Ｐ５，Ｐ６，Ｐ７は、それぞれ、説明変数である材料Ａ，Ｂ，Ｅ，Ｆ，Ｇ，Ｈの係数である。この例では、他の説明変数である材料Ｃ，Ｄは回帰式に含まれていない。表示部２６には、表示モデル４１と共に、グラフ４２、グラフ４３、変数重要度４４、及び解析結果の詳細４５が表示されている。

グラフ４２は、表示モデル４１の上側に表示されている。グラフ４２は、データセット３０における目的変数の値（実測値）と、表示モデル４１により予測される目的変数の値（予測値）と間の関係を示す散布図である。グラフ４２では、横軸が実測値であり、縦軸が予測値である。グラフ４２内には、実測値と予測値とが等しい場合のプロット位置を示す直線が破線により表示されている。グラフ４２内には、ＲＭＳＥ及び決定係数の値が表示されている。

グラフ４３は、表示モデル４１の上側に表示されている。グラフ４３は、表示モデル４１におけるハイパーパラメータのチューニング結果を示す折れ線グラフである。グラフ４３では、横軸がハイパーパラメータであり、縦軸がＲＭＳＥである。グラフ４３から、この例ではハイパーパラメータがＢである場合にＲＭＳＥが最も小さくなり、ハイパーパラメータＡ～Ｃの中からハイパーパラメータＢが選択されたことが分かる。

変数重要度４４は、表示モデル４１の上側に表示されている。グラフ４２、グラフ４３及び変数重要度４４は、左右方向においてこの順に並んでいる。変数重要度４４は、表示モデル４１における各説明変数の重要度を数値により示す表示である。この例では、説明変数である材料Ａ～Ｈが、重要度が高い順に上から並ぶように表示されている。解析結果の詳細４５は、表示モデル４１の下側に表示されている。解析結果の詳細４５には、表示モデル４１に関する種々の情報が示されている。

図６は、表示モデルが決定木を用いた回帰モデルである場合の表示例を示す図である。この例は、表示モデル４１がCARTである例であり、表示モデル４１の決定木が表示されている。この例では、説明変数である項目Ａ及び項目Ｃの大小に応じて決定木が分岐している。表示モデル４１以外の表示については例えば図５の場合と同様である。決定木を用いた回帰モデルが表示モデル４１である場合、表示モデル４１の決定木に代えて又は加えて、表示モデル４１の条件分岐が表示されてもよい。

また、表示制御部１４は、ユーザにより選択された回帰モデルを表示モデル４１として表示部２６に表示させてもよい。例えば、図７の例では、表示部２６には、表示モデル４１を選択するための選択ボックス５１が表示されている。選択ボックス５１は、例えば表示モデル４１等と共に表示されるが、表示モデル４１とは異なる画面（タブ）に表示されてもよい。

図７（ａ）に示されるように、展開される前の状態においては、選択ボックス５１には、現在選択されている表示モデル４１を示すラベルが表示される。この例では、現在選択されている表示モデル４１は回帰モデルＤであり、表示モデル４１を示すラベルとして、その名称が表示されている。なお、ラベルは名称に限定されず、回帰モデルを示す文字、記号又は図形等であってもよい。

図７（ｂ）に示されるように、ユーザが選択ボックス５１を押下すると、選択ボックス５１が展開される。展開されている状態においては、選択ボックス５１には、モデル作成済の複数の回帰モデルを示すラベルが、対応する回帰モデルの精度が高い順に上から並ぶように表示される。ユーザは、選択ボックス５１において回帰モデルを示すラベルを選択することで、表示モデル４１として表示する回帰モデルを選択する。この選択を受け付けると、表示制御部１４は、選択された回帰モデルを表示モデル４１として表示部２６に表示する。

また、表示制御部１４は、各精度指標を用いた場合の各回帰モデルの精度を表示部２６に表示させてもよい。例えば、図８の例では、表示部２６には、各精度指標を用いた場合の各回帰モデルの精度を示す表５２が表示されている。表５２は、例えば表示モデル４１とは異なる画面（タブ）に表示されるが、表示モデル４１等と共に表示されてもよい。表５２では、回帰モデルＡ～Ｄは、ＲＭＳＥが小さい順に上から並ぶように表示されている。ユーザは、精度指標のラベルを押下することにより、当該精度指標が高い順に回帰モデルＡ～Ｄを並べ替えることができる。

また、表示制御部１４は、各回帰モデルにおける各説明変数の係数を表示部２６に表示させてもよい。例えば、図９の例では、表示部２６には、各回帰モデルＡ～Ｄにおける各説明変数（材料Ａ～Ｈ）の係数及び切片の値を示す表５３が表示されている。表５３は、例えば表示モデル４１とは異なる画面（タブ）に表示されるが、表示モデル４１等と共に表示されてもよい。

また、表示制御部１４は、各回帰モデルにおける各説明変数の重要度を表示部２６に表示させてもよい。例えば、図１０の例では、表示部２６には、各回帰モデルにおける各説明変数（材料Ａ～Ｈ）の重要度を示す表５４が表示されている。表５４は、例えば表示モデル４１とは異なる画面（タブ）に表示されるが、表示モデル４１等と共に表示されてもよい。表５４では、説明変数は、回帰モデルＡにおける重要度が高い順に上から並ぶように表示されている。ユーザは、回帰モデルのラベルを押下することにより、当該回帰モデルにおいて重要度が高い順に説明変数を並べ替えることができる。

また、データ解析システム１は、受付部１１により予測のためのデータセット３０を受け付け可能に構成されている。ユーザは、入力部２５及び表示部２６を介して予測のためのデータセット３０を受付部１１に入力する。受付部１１が予測のためのデータセット３０を受け付けると、表示制御部１４は、現在の表示モデル４１による説明変数の予測結果を表示部２６に表示する。
［作用及び効果］

データ解析システム１では、データセット３０に基づいて互いに異なる複数の回帰モデルが生成され、作成された各回帰モデルの精度が算出される。そして、複数の回帰モデルの中から精度に応じて選択された回帰モデルが表示部２６に表示される。これにより、ユーザは、精度に応じて選択された回帰モデルを利用して解析を行うことができる。その結果、容易にデータ解析を行うことができる。また、データ解析システム１では、各回帰モデルが、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。これにより、回帰式を用いた回帰モデル及び決定木を用いた回帰モデルの解釈は容易であるため、ユーザは、表示された回帰モデルを容易に解釈することができる。よって、データ解析システム１によれば、データ解析を容易化することができる。その結果、データセット３０についての定量的な説明と高精度な予測を容易に行うことが可能となる。

プロセッサ２１が、複数の回帰モデルのうち精度が最も高い回帰モデルを表示モデル４１として表示部２６に表示させる。これにより、データ解析を一層容易化することができる。

プロセッサ２１が、データセット３０における目的変数の値と、表示モデル４１により予測される目的変数の値と間の関係を示すグラフ４２を、表示モデル４１と共に表示部２６に表示させる。これにより、データ解析をより一層容易化することができる。

プロセッサ２１が、表示モデル４１における説明変数の重要度（変数重要度４４）を、表示モデル４１と共に表示部２６に表示させる。これにより、データ解析をより一層容易化することができる。

プロセッサ２１が、表示モデル４１におけるハイパーパラメータのチューニング結果（グラフ４３）を、表示モデル４１と共に表示部２６に表示させる。これにより、データ解析をより一層容易化することができる。

プロセッサ２１が、複数の回帰モデルをそれぞれ示す複数のラベルを、対応する回帰モデルの精度が高い順に並ぶように、表示部２６に表示させる（図７（ｂ））。これにより、複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。

プロセッサ２１が、複数の精度指標の各々を用いた場合の複数の回帰モデルの精度を表示部２６に表示させる（図８）。これにより、各精度指標を用いた場合の複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。

プロセッサ２１が、複数の回帰モデルの各々における説明変数の係数を表示部２６に表示させる（図９）。これにより、データ解析をより一層容易化することができる。

プロセッサ２１が、複数の回帰モデルの各々における説明変数の重要度を表示部２６に表示させる（図１０）。これにより、データ解析をより一層容易化することができる。

本発明は、上記実施形態に限られない。例えば、上記実施形態のステップＳ５では複数の回帰モデルのうち精度が最も高い回帰モデルが表示モデル４１として表示部２６に表示されたが、ステップＳ５における処理はこれに限られず、次の処理であってもよい。モデル作成済の複数の回帰モデルを示すラベルが、対応する回帰モデルの精度が高い順に上から並ぶように表示される。ユーザは、一のラベルを選択することで、表示モデル４１として表示する回帰モデルを選択する。この選択を受け付けると、表示制御部１４は、選択された回帰モデルを表示モデル４１として表示部２６に表示する。

１…データ解析システム、２０…コンピュータ、２１…プロセッサ、２６…表示部、２７…データ解析プログラム、３０…データセット、３１…データユニット、４１…表示モデル、４２…グラフ。

Claims

少なくとも１つのプロセッサを備え、
前記少なくとも１つのプロセッサは、
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、
前記データセットに基づいて、前記複数の項目のうちの一の項目が目的変数であり、前記複数の項目のうちの他の項目が説明変数である互いに異なる複数の回帰モデルを作成し、
前記複数の回帰モデルの各々の精度を算出し、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させ、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
前記少なくとも１つのプロセッサは、
前記表示モデルにおける前記説明変数の重要度を、前記表示モデルと共に前記表示部に表示させる、データ解析システム。
少なくとも１つのプロセッサを備え、
前記少なくとも１つのプロセッサは、
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、
前記データセットに基づいて、前記複数の項目のうちの一の項目が目的変数であり、前記複数の項目のうちの他の項目が説明変数である互いに異なる複数の回帰モデルを作成し、
前記複数の回帰モデルの各々の精度を算出し、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させ、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
前記少なくとも１つのプロセッサは、
複数のハイパーパラメータを用いて前記複数の回帰モデルの前記精度を算出し、前記精度が最も高い前記ハイパーパラメータを前記回帰モデルの前記ハイパーパラメータとして選択し、
前記表示モデルにおける前記ハイパーパラメータのチューニング結果として、前記複数のハイパーパラメータを用いた場合の前記精度を、前記表示モデルと共に前記表示部に表示させる、データ解析システム。
前記少なくとも１つのプロセッサは、
前記複数の回帰モデルのうち前記精度が最も高い前記回帰モデルを前記表示モデルとして前記表示部に表示させる、請求項１又は２に記載のデータ解析システム。
前記少なくとも１つのプロセッサは、
前記データセットにおける前記目的変数の値と、前記表示モデルにより予測される前記目的変数の値と間の関係を示すグラフを、前記表示モデルと共に前記表示部に表示させる、請求項１～３のいずれか一項に記載のデータ解析システム。
前記少なくとも１つのプロセッサは、
前記複数の回帰モデルをそれぞれ示す複数のラベルを、対応する前記回帰モデルの前記精度が高い順に並ぶように、前記表示部に表示させる、請求項１～４のいずれか一項に記載のデータ解析システム。
前記少なくとも１つのプロセッサは、
前記複数の回帰モデルの各々について、複数の精度指標を用いて前記精度を算出し、
前記複数の精度指標の各々を用いた場合の前記複数の回帰モデルの前記精度を前記表示部に表示させる、請求項１～５のいずれかいずれか一項に記載のデータ解析システム。
前記少なくとも１つのプロセッサは、
前記複数の回帰モデルの各々における前記説明変数の係数を前記表示部に表示させる、請求項１～６のいずれかいずれか一項に記載のデータ解析システム。
前記少なくとも１つのプロセッサは、
前記複数の回帰モデルの各々における前記説明変数の重要度を前記表示部に表示させる、請求項１～７のいずれかいずれか一項に記載のデータ解析システム。
少なくとも１つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
前記複数の回帰モデルの各々の精度を算出するステップと、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、を備え、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
前記表示部に表示させるステップでは、前記表示モデルにおける前記説明変数の重要度を、前記表示モデルと共に前記表示部に表示させる、データ解析方法。
少なくとも１つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
前記複数の回帰モデルの各々の精度を算出するステップと、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、を備え、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
前記複数の回帰モデルを作成するステップでは、複数のハイパーパラメータを用いて前記複数の回帰モデルの前記精度を算出し、前記精度が最も高い前記ハイパーパラメータを前記回帰モデルの前記ハイパーパラメータとして選択し、
前記表示部に表示させるステップでは、前記表示モデルにおける前記ハイパーパラメータのチューニング結果として、前記複数のハイパーパラメータを用いた場合の前記精度を、前記表示モデルと共に前記表示部に表示させる、データ解析方法。
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
前記複数の回帰モデルの各々の精度を算出するステップと、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、をコンピュータに実行させ、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
前記表示部に表示させるステップでは、前記表示モデルにおける前記説明変数の重要度を、前記表示モデルと共に前記表示部に表示させる、データ解析プログラム。
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
前記複数の回帰モデルの各々の精度を算出するステップと、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、をコンピュータに実行させ、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
前記複数の回帰モデルを作成するステップでは、複数のハイパーパラメータを用いて前記複数の回帰モデルの前記精度を算出し、前記精度が最も高い前記ハイパーパラメータを前記回帰モデルの前記ハイパーパラメータとして選択し、
前記表示部に表示させるステップでは、前記表示モデルにおける前記ハイパーパラメータのチューニング結果として、前記複数のハイパーパラメータを用いた場合の前記精度を、前記表示モデルと共に前記表示部に表示させる、データ解析プログラム。