JP7396213B2 - Data analysis system, data analysis method, and data analysis program - Google Patents
Data analysis system, data analysis method, and data analysis program Download PDFInfo
- Publication number
- JP7396213B2 JP7396213B2 JP2020106939A JP2020106939A JP7396213B2 JP 7396213 B2 JP7396213 B2 JP 7396213B2 JP 2020106939 A JP2020106939 A JP 2020106939A JP 2020106939 A JP2020106939 A JP 2020106939A JP 7396213 B2 JP7396213 B2 JP 7396213B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- variable
- explanatory
- hypothesis testing
- testing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007405 data analysis Methods 0.000 title claims description 55
- 238000000034 method Methods 0.000 title claims description 31
- 238000012360 testing method Methods 0.000 claims description 140
- 238000004364 calculation method Methods 0.000 claims description 105
- 238000004458 analytical method Methods 0.000 description 29
- 238000003860 storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000002159 abnormal effect Effects 0.000 description 8
- 238000010998 test method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000003247 decreasing effect Effects 0.000 description 6
- 238000012313 Kruskal-Wallis test Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000000729 Fisher's exact test Methods 0.000 description 2
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000000546 chi-square test Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000000540 analysis of variance Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012109 statistical procedure Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、データ解析システム、データ解析方法及びデータ解析プログラムに関する。 The present invention relates to a data analysis system, a data analysis method, and a data analysis program.
データ解析方法として、解析対象のデータセットに基づいて目的変数と説明変数との間の関係を表す予測モデルを作成し、作成された予測モデルに基づいて解析を行う方法が知られている(例えば特許文献1参照)。 A known data analysis method is to create a predictive model that represents the relationship between the objective variable and explanatory variables based on the dataset to be analyzed, and then perform analysis based on the created predictive model (e.g. (See Patent Document 1).
上述したようなデータ解析方法では、例えば機械学習を用いることで、説明変数から目的変数を高精度に予測するモデルを生成し得る。しかしながら、得られたモデルの解釈が容易でないためにデータ解析が困難となる場合がある。また、例えば、解析対象に数値データだけではなく文字データが含まれていると適切に解析を行うことができない場合があり、解析対象の自由度が低いといった課題もある。 In the data analysis method described above, for example, by using machine learning, it is possible to generate a model that predicts a target variable with high accuracy from explanatory variables. However, data analysis may be difficult because the resulting model is not easy to interpret. Further, for example, if the analysis target includes not only numerical data but also character data, it may not be possible to perform the analysis appropriately, and there is also a problem that the degree of freedom of the analysis target is low.
本発明は、データ解析を容易化することができると共に、解析対象の自由度を向上することができるデータ解析システム、データ解析方法及びデータ解析プログラムを提供することを目的とする。 An object of the present invention is to provide a data analysis system, a data analysis method, and a data analysis program that can facilitate data analysis and improve the degree of freedom of an analysis target.
本発明のデータ解析システムは、少なくとも1つのプロセッサを備え、少なくとも1つのプロセッサは、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、複数の項目のうちの一の項目からなる目的変数、及び複数の項目のうちの他の二以上の項目からなる複数の説明変数について、データセットに基づいて、仮説検定における算出方法により、目的変数と複数の説明変数の各々との間の有意確率を算出し、複数の説明変数を、有意確率が小さい順に並ぶように、表示部に表示させる。 The data analysis system of the present invention includes at least one processor, and the at least one processor receives a data set including a plurality of data units that are a collection of data of a plurality of items, and the at least one processor receives a data set including a plurality of data units that are a collection of data of a plurality of items. Based on the dataset, the relationship between the objective variable and each of the multiple explanatory variables is calculated using the calculation method in hypothesis testing based on the data set. The significance probability of the explanatory variables is calculated, and the plurality of explanatory variables are displayed on the display unit in descending order of significance probability.
このデータ解析システムでは、仮説検定における算出方法により目的変数と複数の説明変数の各々との間の有意確率が算出され、複数の説明変数が、有意確率が小さい順に並ぶように表示部に表示される。これにより、ユーザは、有意確率が小さい説明変数、すなわち目的変数との関連が強いことが期待される説明変数を容易に把握することができる。また、このデータ解析システムでは、ユーザは、有意確率を基準として複数の説明変数を比較することができる。異なる仮説検定手法の算出方法を用いた場合でも有意確率は共通に算出されることから、有意確率を基準とすることにより、異なる仮説検定手法の算出方法を用いたとしても、同一の基準で複数の説明変数を比較することが可能となる。その結果、例えば、解析対象に数値データ及び文字データの両方が含まれている場合でも、複数の説明変数を好適に比較することが可能となる。よって、このデータ解析システムによれば、データ解析を容易化することができると共に、解析対象の自由度を向上することができる。なお、このデータ解析システムでは仮説検定における算出方法を用いて有意確率を算出するが、仮説検定自体は行われなくてもよい。仮説検定は、帰無仮説を棄却し対立仮説を支持するか、又は帰無仮説を棄却しないかを観測値に基づいて決めるための統計的手続きである。 In this data analysis system, the significance probability between the target variable and each of multiple explanatory variables is calculated using the calculation method used in hypothesis testing, and the multiple explanatory variables are displayed on the display in order of decreasing significance probability. Ru. This allows the user to easily understand explanatory variables with a low significance probability, that is, explanatory variables that are expected to have a strong relationship with the target variable. Furthermore, this data analysis system allows the user to compare multiple explanatory variables based on significance probability. Since the significance probability is calculated in common even when calculation methods of different hypothesis testing methods are used, by using the significance probability as the standard, even if calculation methods of different hypothesis testing methods are used, multiple calculations using the same standard can be performed. It becomes possible to compare the explanatory variables of As a result, for example, even when the analysis target includes both numerical data and character data, it is possible to suitably compare a plurality of explanatory variables. Therefore, according to this data analysis system, data analysis can be facilitated, and the degree of freedom of analysis targets can be improved. Note that although this data analysis system calculates the significance probability using a calculation method in hypothesis testing, the hypothesis testing itself does not need to be performed. Hypothesis testing is a statistical procedure for deciding based on observed values whether to reject the null hypothesis and support an alternative hypothesis, or not to reject the null hypothesis.
少なくとも1つのプロセッサにより用いられる算出方法は、ノンパラメトリックな検定手法における算出方法を含んでいてもよい。この場合、ノンパラメトリックな検定手法における算出方法では解析対象のデータに外れ値などの異常値が含まれていたとしても精度が低下し難く、母集団の分布などの前提を必要としないため、解析対象の自由度を一層向上することができる。 The calculation method used by the at least one processor may include a calculation method in a non-parametric testing technique. In this case, the calculation method used in the nonparametric test method does not easily reduce accuracy even if the data to be analyzed contains abnormal values such as outliers, and does not require assumptions such as population distribution. The degree of freedom of targeting can be further improved.
少なくとも1つのプロセッサにより用いられる算出方法は、第1仮説検定手法における算出方法と、第1仮説検定手法とは異なる第2仮説検定手法における算出方法と、を含み、少なくとも1つのプロセッサは、目的変数及び説明変数の両方が数値データにより構成されている場合、第1仮説検定手法における算出方法を用いて有意確率を算出し、目的変数及び説明変数の少なくとも一方が文字データにより構成されている場合、第2仮説検定手法における算出方法を用いて有意確率を算出してもよい。この場合、解析対象に数値データ及び文字データの両方が含まれている場合でも、有意確率を好適に算出することができる。 The calculation method used by the at least one processor includes a calculation method in a first hypothesis testing method and a calculation method in a second hypothesis testing method different from the first hypothesis testing method, and the at least one processor When both the objective variable and the explanatory variable are composed of numerical data, the significance probability is calculated using the calculation method in the first hypothesis testing method, and when at least one of the objective variable and the explanatory variable is composed of character data, The significance probability may be calculated using the calculation method in the second hypothesis testing method. In this case, even if the analysis target includes both numerical data and character data, the significance probability can be suitably calculated.
第2仮説検定手法は、第3仮説検定手法と、第3仮説検定手法とは異なる第4仮説検定手法と、を含み、少なくとも1つのプロセッサは、目的変数及び説明変数の一方が数値データにより構成されていると共に、目的変数及び説明変数の他方が文字データにより構成されている場合、第3仮説検定手法における算出方法を用いて有意確率を算出し、目的変数及び説明変数の両方が文字データにより構成されている場合、第4仮説検定手法における算出方法を用いて有意確率を算出してもよい。この場合、解析対象に数値データ及び文字データの両方が含まれている場合でも、有意確率を一層好適に算出することができる。 The second hypothesis testing method includes a third hypothesis testing method and a fourth hypothesis testing method different from the third hypothesis testing method, and the at least one processor is configured such that one of the objective variable and the explanatory variable is composed of numerical data. and the other of the objective variable and explanatory variable is composed of text data, the significance probability is calculated using the calculation method in the third hypothesis testing method, and both the objective variable and explanatory variable are composed of text data. If configured, the significance probability may be calculated using the calculation method in the fourth hypothesis testing method. In this case, even if the analysis target includes both numerical data and character data, the significance probability can be calculated more suitably.
少なくとも1つのプロセッサは、互いに異なる複数の仮説検定手法における算出方法を用いて目的変数と説明変数との間の有意確率を複数算出し、複数の有意確率のうち最も小さい有意確率を目的変数と説明変数との間の有意確率としてもよい。この場合、有意確率を一層精度良く算出することができる。 The at least one processor calculates a plurality of significance probabilities between the objective variable and the explanatory variable using calculation methods in a plurality of mutually different hypothesis testing methods, and explains the smallest significance probability among the plurality of significance probabilities as the objective variable. It may also be a significance probability between variables. In this case, the significance probability can be calculated with higher accuracy.
複数の説明変数は、第1説明変数及び第2説明変数を含み、少なくとも1つのプロセッサは、第1仮説検定手法における算出方法を用いて目的変数と第1説明変数との間の有意確率を算出し、第1仮説検定手法とは異なる第2仮説検定手法における算出方法を用いて、目的変数と第2説明変数との間の有意確率を算出してもよい。この場合、第1仮説検定手法及び第2仮説検定手法における算出方法を用いて有意確率を算出することができ、解析対象の自由度を一層向上することができる。 The plurality of explanatory variables include a first explanatory variable and a second explanatory variable, and the at least one processor calculates the significance probability between the target variable and the first explanatory variable using a calculation method in the first hypothesis testing method. However, the significance probability between the objective variable and the second explanatory variable may be calculated using a calculation method in a second hypothesis testing method that is different from the first hypothesis testing method. In this case, the significance probability can be calculated using the calculation methods in the first hypothesis testing method and the second hypothesis testing method, and the degree of freedom of the analysis target can be further improved.
少なくとも1つのプロセッサは、表示部に表示された複数の説明変数の中から選択された一の説明変数と目的変数との間の関係を示すグラフを、表示部に表示させてもよい。この場合、ユーザは、選択された説明変数と目的変数との間の関係を容易に把握することができる。 The at least one processor may cause the display unit to display a graph showing a relationship between the objective variable and one explanatory variable selected from the plurality of explanatory variables displayed on the display unit. In this case, the user can easily understand the relationship between the selected explanatory variable and the target variable.
本発明のデータ解析方法は、少なくとも1つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、複数の項目のうちの一の項目からなる目的変数、及び複数の項目のうちの他の二以上の項目からなる複数の説明変数について、データセットに基づいて、仮説検定における算出方法により、目的変数と複数の説明変数の各々との間の有意確率を算出するステップと、複数の説明変数を、有意確率が小さい順に並ぶように、表示部に表示させるステップと、を含む。このデータ解析方法によれば、上述した理由により、データ解析を容易化することができると共に、解析対象の自由度を向上することができる。 The data analysis method of the present invention is a data analysis method executed by a data analysis system equipped with at least one processor, and includes the steps of receiving a data set including a plurality of data units that are a collection of data of a plurality of items; For the objective variable consisting of one of the items, and the multiple explanatory variables consisting of two or more of the multiple items, the objective variable and The method includes the steps of calculating the significance probability between each of the plurality of explanatory variables, and displaying the plurality of explanatory variables on the display unit in order of decreasing significance probability. According to this data analysis method, for the reasons mentioned above, data analysis can be facilitated and the degree of freedom of the analysis target can be improved.
本発明のデータ解析プログラムは、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、複数の項目のうちの一の項目からなる目的変数、及び複数の項目のうちの他の二以上の項目からなる複数の説明変数について、データセットに基づいて、仮説検定における算出方法により、目的変数と複数の説明変数の各々との間の有意確率を算出するステップと、複数の説明変数を、有意確率が小さい順に並ぶように、表示部に表示させるステップと、をコンピュータに実行させる。このデータ解析プログラムによれば、上述した理由により、データ解析を容易化することができると共に、解析対象の自由度を向上することができる。 The data analysis program of the present invention includes the steps of accepting a dataset including a plurality of data units that are a collection of data of a plurality of items, an objective variable consisting of one item among the plurality of items, and a target variable consisting of one item among the plurality of items. A step of calculating the significance probability between the target variable and each of the plurality of explanatory variables based on the data set using a calculation method in hypothesis testing for the plurality of explanatory variables consisting of two or more other items; A computer is caused to display the explanatory variables on a display unit in order of decreasing significance probability. According to this data analysis program, for the reasons mentioned above, data analysis can be facilitated and the degree of freedom of the analysis target can be improved.
本発明によれば、データ解析を容易化することができると共に、解析対象の自由度を向上することができるデータ解析システム、データ解析方法及びデータ解析プログラムを提供することが可能となる。 According to the present invention, it is possible to provide a data analysis system, a data analysis method, and a data analysis program that can facilitate data analysis and improve the degree of freedom of analysis targets.
以下、本発明の一実施形態について、図面を参照しつつ詳細に説明する。以下の説明において、同一又は相当要素には同一符号を用い、重複する説明を省略する。
[システムの構成]
Hereinafter, one embodiment of the present invention will be described in detail with reference to the drawings. In the following description, the same reference numerals will be used for the same or equivalent elements, and overlapping description will be omitted.
[System configuration]
図1に示されるように、実施形態に係るデータ解析システム1は、機能要素として、受付部11と、算出部12と、表示制御部13と、を備えている。受付部11は、データセット30を受け付ける。算出部12は、データセット30に基づいて、目的変数と複数の説明変数の各々との間の有意確率を算出する。表示制御部13は、複数の説明変数を、有意確率が小さい順に並ぶように、後述の表示部26に表示させる。
As shown in FIG. 1, the
データ解析システム1は、例えばコンピュータ20により構成されている。図2に示されるように、コンピュータ20は、プロセッサ21と、主記憶部22と、補助記憶部23と、通信制御部24と、入力部25と、表示部26と、を備えている。プロセッサ21は、例えばCPUであり、オペレーティングシステム、アプリケーションプログラム等を実行する。主記憶部22は、例えばROM、RAM等により構成される。補助記憶部23は、例えばハードディスク、フラッシュメモリ等により構成され、主記憶部22よりも大量のデータを記憶する。通信制御部24は、例えばネットワークカード、無線通信モジュール等により構成される。入力部25は、例えばキーボード、マウス、タッチパネル等により構成される。表示部26は、例えばモニタ、タッチパネルディスプレイ等により構成される。
The
データ解析システム1の各機能要素は、補助記憶部23内に予め記憶されているデータ解析プログラム27を実行させることにより実現される。具体的には、プロセッサ21又は主記憶部22の上にデータ解析プログラム27を読み込ませてプロセッサ21にデータ解析プログラム27を実行させることにより、受付部11、算出部12及び表示制御部13の各機能が実現される。プロセッサ21は、データ解析プログラム27に従って、通信制御部24、入力部25及び表示部26を動作させ、主記憶部22及び補助記憶部23におけるデータの読み出し及び書き込みを行う。処理に必要なデータ又はデータベースは、主記憶部22又は補助記憶部23内に格納される。
Each functional element of the
データ解析プログラム27は、例えば、CD-ROM、DVD-ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。すなわち、データ解析プログラム27は、コンピュータ読み取り可能な記録媒体に記録された上で提供されてもよい。或いは、データ解析プログラム27は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
The
データ解析システム1は、1台のコンピュータ20により構成されてもよいし、複数台のコンピュータ20により構成されてもよい。複数台のコンピュータ20を用いる場合には、これらのコンピュータ20がインターネット又はイントラネット等の通信ネットワークを介して互いに接続されることで、論理的に一つのデータ解析システム1が構築されてもよい。
[システムの動作]
The
[System operation]
図3を参照しつつ、データ解析システム1により実行されるデータ解析方法の一例を説明する。まず、受付部11は、データセット30を受け付ける(ステップS1)。受付部11へのデータセット30の入力は、例えば、ユーザにより入力部25及び表示部26を介して行われる。例えば、ユーザが補助記憶部23に記憶されたデータセット30を指定すると、指定されたデータセット30が読み込まれて受付部11に受け付けられる。
An example of a data analysis method executed by the
データセット30は、解析対象であり、複数の項目のデータの集合であるデータユニット31を複数含んでいる。データユニット31が有する項目は、任意に設定されてよい。項目は、例えば、材料、化合物等の特性、組成等であってもよいし、装置、デバイス等の特性、寸法、材料等であってもよい。各項目のデータは、数値データ又は文字データである。文字データとは、数値データ以外のデータであって、文字又は記号により表されるデータである。後述するように、文字データは数値データに変換して用いられる。
The
データセット30は、例えば、工場での製造工程において取得されたデータの集合であってもよい。IOT(Internet of Things)の促進により、製造工程において大量のデータを取得可能となることが期待される。項目は、製造された製品の品質、特性、製造条件等を含み得る。製品の品質又は特性の例としては、不良率、破壊電圧、ショート率等が挙げられる。製造条件の例としては、製造設備に割り当てられた固有番号/記号、材料の厚さの平均値又は分散、工程実施時間/回数等が挙げられる。データセット30は、時系列データであってもよい。この場合、一の項目は、データユニット31が取得された時刻又は順番を表す数値データにより構成されてもよい。
The
データセット30には、欠損値を含むデータユニット31が含まれていてもよい。欠損値とは、データが欠落していることを意味する。データセット30には、異常値(外れ値)を含むデータユニット31が含まれていてもよい。異常値とは、当該項目における他のデータと比べて極端に逸脱した値であり、測定又は記録の誤り等に起因して生じ得る。欠損値及び異常値の処理については後述する。データユニット31の数は限定されないが、例えば数百個以上であってもよい。項目の数は限定されないが、例えば数千個以上であってもよい。
Data set 30 may include
図4は、データセット30の例を示す図である。この例では、データセット30は、表形式で表されている。各行がデータユニット31に相当し、各列が項目に相当する。各データユニット31は、項目として、項目A、項目B、項目C、項目D、項目E、項目F、項目G及び項目Hを含んでいる。例えば、項目A~Dは、数値データにより構成されており、項目E~Hは、文字データにより構成されている。
FIG. 4 is a diagram showing an example of the
ステップS1に続いて、受付部11は、解析条件を受け付ける(ステップS2)。受付部11への解析条件の入力は、例えば、ユーザにより入力部25及び表示部26を介して行われる。解析条件は、目的変数及び説明変数の指定を含んでいる。ユーザは、データセット30における複数の項目の中から一の項目を目的変数として選択すると共に、残りの項目の中から複数の項目を説明変数として選択する。例えば、表示部26には目的変数を選択するための選択ボックスが表示され、当該選択ボックスにおいて項目を選択することで、ユーザは目的変数を選択する。これに伴い、目的変数として選択された項目以外の項目が、説明変数として選択される。なお、目的変数として選択された項目以外の項目の中から、説明変数として設定する項目を選択可能となっていてもよい。
Following step S1, the receiving
また、解析条件は、目的変数及び各説明変数についての数値範囲の指定を含んでいてもよい。また、解析条件は、何れのデータユニット31を解析対象とするかの指定を含んでいてもよい。
Furthermore, the analysis conditions may include designation of numerical ranges for the objective variable and each explanatory variable. Furthermore, the analysis conditions may include a designation as to which
ステップS2に続いて、算出部12は、データセット30に基づいて、仮説検定において用いられる算出方法により、目的変数と各説明変数との間の有意確率(P値)を算出する(ステップS3)。有意確率は、統計的仮説検定において、帰無仮説の下で統計検定量が実現する確率である。有意確率が小さいことは、帰無仮説が成り立つ可能性が低いことを表す。この場合の帰無仮説は、仮説検定手法により異なるが、例えば、目的変数と説明変数との間に関連が無いとの仮説である。算出部12は、複数の説明変数の各々について、目的変数との間の有意確率を算出する。算出部12により有意確率の算出に用いられる算出方法は、互いに異なる複数の仮説検定手法における算出方法を含んでいる。算出部12は、以下のとおり、目的変数と説明変数との組み合わせごとに、いずれの仮説検定手法における算出方法を用いるかを判断する。
Following step S2, the
算出部12は、目的変数及び説明変数の両方が数値データにより構成されている場合、第1仮説検定手法における算出方法を用いて有意確率を算出する。一方、算出部12は、目的変数及び説明変数の少なくとも一方が文字データにより構成されている場合、第2仮説検定手法における算出方法を用いて有意確率を算出する。
The
より具体的には、算出部12は、目的変数及び説明変数の一方が数値データにより構成されていると共に、目的変数及び説明変数の他方が文字データにより構成されている場合、第3仮説検定手法における算出方法を用いて有意確率を算出する。算出部12は、目的変数及び説明変数の両方が文字データにより構成されている場合、第4仮説検定手法における算出方法を用いて有意確率を算出する。すなわち、算出部12により用いられる算出方法は、第1仮説検定手法及び第2仮説検定手法における算出方法を含んでおり、第2仮説検定手法は、第3仮説検定手法及び第4仮説検定手法を含んでいる。第1仮説検定手法、第3仮説検定手法及び第4仮説検定手法は、互いに異なる仮説検定手法である。いずれの仮説検定手法における算出方法を用いた場合でも、有意確率は共通に算出される。
More specifically, when one of the objective variable and the explanatory variable is composed of numerical data, and the other of the objective variable and the explanatory variable is composed of character data, the
第1仮説検定手法は、検定対象の変数の両方が数値データである場合に適用可能な手法である。第1仮説検定手法では、変数間の相関について検定が行われる。第1仮説検定手法の例としては、スピアマン(Spearman)の順位相関係数の検定、ケンドール(Kendall)の順位相関係数の検定が挙げられる。スピアマンの順位相関係数の検定及びケンドールの順位相関係数の検定は、ノンパラメトリックな検定手法である。ノンパラメトリックな検定手法とは、母集団の分布として正規分布等の特定の分布を仮定することなく統計的検定を行う手法である。ノンパラメトリックな検定手法では、解析対象のデータに外れ値などの異常値が含まれている場合でも、精度が低下し難い。 The first hypothesis testing method is applicable when both variables to be tested are numerical data. In the first hypothesis testing method, correlations between variables are tested. Examples of the first hypothesis testing method include Spearman's rank correlation coefficient test and Kendall's rank correlation coefficient test. Spearman's rank correlation coefficient test and Kendall's rank correlation coefficient test are nonparametric test methods. A nonparametric testing method is a method of performing a statistical test without assuming a specific distribution such as a normal distribution as the population distribution. With non-parametric testing methods, accuracy is unlikely to decrease even if the data to be analyzed contains abnormal values such as outliers.
第3仮説検定手法は、検定対象の変数の一方が数値データであり他方が文字データである場合に適用可能な手法である。第3仮説検定手法では、水準間(文字データ間)の代表値(数値データ)の差について検定が行われる。第3仮説検定手法の例としては、クラスカル・ウォリス(Kruskal-Wallis)の検定、フリグナー・キリーン(Flinger-Killen)の検定が挙げられる。クラスカル・ウォリスの検定及びフリグナー・キリーンの検定は、ノンパラメトリックな検定手法である。 The third hypothesis testing method is a method applicable when one of the variables to be tested is numerical data and the other is character data. In the third hypothesis testing method, a test is performed on the difference in representative values (numeric data) between levels (between character data). Examples of the third hypothesis testing method include the Kruskal-Wallis test and the Flinger-Killen test. The Kruskal-Wallis test and the Fligner-Killen test are nonparametric test methods.
第4仮説検定手法は、検定対象の変数の両方が文字データである場合に適用可能な手法である。第4仮説検定手法では、各変数から作成された分割表の独立性について検定が行われる。第4仮説検定手法の例としては、独立性のカイ二乗検定、フィッシャー(Fisher)の正確確率検定が挙げられる。独立性のカイ二乗検定及びフィッシャーの正確確率検定は、ノンパラメトリックな検定手法である。 The fourth hypothesis testing method is a method applicable when both variables to be tested are character data. In the fourth hypothesis testing method, the independence of contingency tables created from each variable is tested. Examples of the fourth hypothesis testing method include chi-square test of independence and Fisher's exact test. Chi-square test of independence and Fisher's exact test are non-parametric testing techniques.
第1仮説検定手法、第3仮説検定手法及び第4仮説検定手法の少なくとも1つとして、互いに異なる複数の仮説検定手法が設定されていてもよい。この場合、算出部12は、設定された複数の仮説検定手法における算出方法を用いて、目的変数と説明変数との間の有意確率を複数算出する。そして、算出部12は、算出された複数の有意確率のうち最も小さい有意確率を目的変数と説明変数との間の有意確率とする。例えば、第3仮説検定手法としてクラスカル・ウォリスの検定及びフリグナー・キリーンの検定の2つの手法が設定されている場合、算出部12は、目的変数及び説明変数の一方が数値データにより構成され、他方が文字データにより構成されている場合、クラスカル・ウォリスの検定及びフリグナー・キリーンの検定の各々における算出方法を用いて、目的変数と説明変数との間の水準間の代表値の差の有意確率を算出する。そして、算出部12は、算出された2つの有意確率のうち小さい方の有意確率を、当該目的変数と説明変数との間の水準間の代表値の差の有意確率とする。
A plurality of different hypothesis testing methods may be set as at least one of the first hypothesis testing method, the third hypothesis testing method, and the fourth hypothesis testing method. In this case, the
また、算出部12は、有意確率の算出時に、次の欠損値処理を行う。算出部12は、数値データにより構成された目的変数又は設計変数に欠損値が含まれている場合、欠損値を含むデータユニット31を解析対象から除外し、残りのデータユニット31を用いて有意確率を算出する。算出部12は、文字データにより構成された目的変数又は設計変数に欠損値が含まれている場合、欠損値を所定の単語(例えば「NA」)に置換して、有意確率を算出する。
Further, the
また、算出部12は、文字データを数値データに変換した後に、有意確率の算出を行ってもよい。文字データの数値データへの変換方法としては、任意の手法が用いられてよい。例えば、図5の例では、項目「装置」が、「A」、「B」、「C」の3種類の文字からなる列データを含んでおり、当該列データが、数値「0」及び「1」からなる3列の行列データに変換されている。このような変換により、文字データを数値データに変換することができる。また、算出部12は、文字データを数値データに変換することなく、有意確率の算出を行ってもよい。例えば、クラスカル・ウォリスの検定における算出方法では、文字データを数値データに変換することなく、有意確率が算出される。
Further, the
ステップS3に続いて、表示制御部13は、複数の説明変数を、有意確率が小さい順に並ぶように、表示部26に表示させる(ステップS4)。
Following step S3, the
図6は、表示部26の表示例を示す図である。この例では、計算結果を示す表40が表示部26に表示されている。表40では、目的変数が項目Aであり、説明変数が項目B~Hである例が示されている。説明変数である項目B~Hは、有意確率の最小値が小さい順に上から順に並んでいる。すなわち、この例では、項目Hの有意確率の最小値が最も小さく、項目Fの有意確率の最小値が最も大きい。項目名の右隣には、説明変数(項目)を構成するデータが数値データであるか、又は文字データであるかの情報(すなわち、説明変数のデータタイプ)が文字により表示されている。データタイプの右隣には、説明変数(項目)のデータ数が数値により表示されている。
FIG. 6 is a diagram showing a display example of the
データ数の右側には、仮説検定手法A、仮説検定手法B、仮説検定手法C及び仮説検定手法Dの各々における算出方法を用いて算出された有意確率が数値により表示されている。仮説検定手法A及び仮説検定手法Bは、上述した第1仮説検定手法である。すなわち、この例では、第1仮説検定手法として互いに異なる2つの仮説検定手法が設定されている。仮説検定手法Cは、上述した第3仮説検定手法(第2仮説検定手法)である。仮説検定手法Dは、上述した第4仮説検定手法(第2仮説検定手法)である。 On the right side of the number of data, the significance probability calculated using each of the calculation methods of hypothesis testing method A, hypothesis testing method B, hypothesis testing method C, and hypothesis testing method D is displayed as a numerical value. Hypothesis testing method A and hypothesis testing method B are the first hypothesis testing methods described above. That is, in this example, two different hypothesis testing methods are set as the first hypothesis testing method. Hypothesis testing method C is the third hypothesis testing method (second hypothesis testing method) described above. Hypothesis testing method D is the fourth hypothesis testing method (second hypothesis testing method) described above.
この例では、目的変数である項目A、及び説明変数である項目B~Dは数値データにより構成されており、項目E~Hは文字データにより構成されている。そのため、項目Aと項目B~Dとの間の有意確率は、第1仮説検定手法である仮説検定手法A及び仮説検定手法Bの各々における算出方法を用いて算出されている。算出された有意確率は、それぞれ、「有意確率(手法A)」、「有意確率(手法B)」の列に数値により表示されている。 In this example, item A, which is the objective variable, and items B to D, which are explanatory variables, are composed of numerical data, and items E to H are composed of character data. Therefore, the significance probabilities between item A and items B to D are calculated using the calculation methods in each of hypothesis testing method A and hypothesis testing method B, which are the first hypothesis testing methods. The calculated significance probabilities are displayed numerically in columns of "Significance Probability (Method A)" and "Significance Probability (Method B)", respectively.
項目Aと項目E~Hとの間の有意確率は、第3仮説検定手法である仮説検定手法Cにおける算出方法を用いて算出されている。算出された有意確率は、「有意確率(手法C)」の列に数値により表示されている。この例では、目的変数である項目Aが数値データであるため、仮説検定手法Dにおける算出方法は用いられていない。そのため、「有意確率(手法D)」の列は空欄となっている。仮説検定手法Dにおける算出方法を用いて有意確率が算出された場合には、算出された有意確率は「有意確率(手法D)」の欄に数値により表示される。なお、「有意確率(手法A)」、「有意確率(手法B)」、「有意確率(手法C)」の列においても、対応する項目の欄以外は空欄となっている。 The significance probabilities between item A and items E to H are calculated using the calculation method in hypothesis testing method C, which is the third hypothesis testing method. The calculated significance probability is displayed numerically in the "Significance Probability (Method C)" column. In this example, since item A, which is the target variable, is numerical data, the calculation method in hypothesis testing method D is not used. Therefore, the column "Significance Probability (Method D)" is blank. When the significance probability is calculated using the calculation method in hypothesis testing method D, the calculated significance probability is displayed as a numerical value in the "Significance probability (method D)" column. Note that in the columns of "Significance Probability (Method A)," "Significance Probability (Method B)," and "Significance Probability (Method C)," the columns other than those for the corresponding items are also blank.
最も右側の列には、有意確率の最小値が数値により表示されている。この例では、項目B~Dについては、有意確率の最小値は、仮説検定手法Aにおける算出方法を用いて算出された有意確率、及び仮説検定手法Bにおける算出方法を用いて算出された有意確率のうち小さい方である。項目E~Hについては、有意確率の最小値は、仮説検定手法Cにおける算出方法を用いて算出された有意確率である。すなわち、複数の仮説検定手法における算出方法を用いて目的変数と説明変数との間の有意確率が複数算出されている場合、複数の有意確率のうち最も小さい有意確率が、目的変数と説明変数との間の有意確率とされる。 In the rightmost column, the minimum value of the significance probability is displayed numerically. In this example, for items B to D, the minimum significance probability is the significance probability calculated using the calculation method in hypothesis testing method A, and the significance probability calculated using the calculation method in hypothesis testing method B. This is the smaller of the two. For items E to H, the minimum significance probability is the significance probability calculated using the calculation method in hypothesis testing method C. In other words, if multiple significance probabilities are calculated between the objective variable and explanatory variables using calculation methods in multiple hypothesis testing methods, the smallest significance probability among the multiple significance probabilities will be used to determine the relationship between the objective variable and explanatory variable. It is considered to be the significance probability between.
ステップS4の後に、ユーザは、表示部26に表示された複数の説明変数(項目)の中から、後述するグラフ50を表示するための一の説明変数を選択することができる。例えば、表示部26には、選択ボックスが表示されており、ユーザが選択ボックスを押下すると、選択ボックスが展開される。展開されている状態においては、選択ボックスには、複数の説明変数を示すラベルが、有意確率が小さい順に上から並ぶように、文字により表示される。ユーザは、選択ボックスにおいて説明変数を示すラベルを選択することで、一の説明変数を選択する。この選択を受け付けると、表示制御部13は、選択された説明変数と目的変数との間の関係を示すグラフ50を表示部26に表示する。グラフ50及び選択ボックスは、例えば表40とは異なる画面(タブ)に表示されるが、表40と同一の画面上に表40と共に表示されてもよい。選択ボックスにおいては複数の説明変数が有意確率が小さい順に並んで表示されるため、ユーザは、例えば上から順に説明変数を選択してグラフ50を確認することで、効率的に解析を進めることができる。
After step S4, the user can select one explanatory variable for displaying a
図7~図10は、グラフ50の例を示す図である。図7~図10では、説明変数が項目Xであり、目的変数が項目Yである場合のグラフ50が示されている。図7の例では、項目Xと項目Yとの関係が散布図により示されている。有意確率(P)及びデータ数(n)が左上に表示されると共に、平滑線51が表示されている。有意確率、データ数及び平滑線51の表示の有無は、チェックボックスにより選択可能となっていてもよい。図8の例では、項目Xと項目Yとの関係が箱ひげ図により示されている。項目Xは、「H1」、「H2」、「H3」、「H4」、「H5」…の文字データを含んでいる。
7 to 10 are diagrams showing examples of the
図9の例では、項目Xと項目Yとの関係が、時系列情報として折れ線グラフにより表示されている。横軸は、データユニット31が取得された時刻又は順番を示す数値を表しており、縦軸は、項目X及び項目Yの数値を表している。このように、項目Xと項目Yとの関係は、時系列情報として表示されてもよい。横軸は、データユニット31が取得された時刻又は順番を表す数値データからなる項目がある場合、当該項目のデータであってもよい。或いは、横軸は、データユニット31の行番号であってもよい。
In the example of FIG. 9, the relationship between item X and item Y is displayed as time series information using a line graph. The horizontal axis represents a numerical value indicating the time or order in which the
項目Xと項目Yとの関係は、図10(a)に示されるように散布図により表示されてもよいし、図10(b)に示されるように箱ひげ図により表示されてもよいし、図10(c)に示されるようにバイオリンプロットにより表示されてもよい。図10(a)~図10(c)の例では、項目Xは、「a」、「b」の2種類の文字データにより構成されている。なお、0よりも大きい数値データは対数変換して表示されてもよい。項目X及び項目Yの両方が文字データにより構成されている場合、モザイクプロットが用いられてもよい。表示部26には、複数のグラフ50が表示されてもよい。この場合、複数のグラフ50は、対応する説明変数についての有意確率が小さい順に並ぶように表示されてもよい。データ解析システム1は、表示40及びグラフ50を含む解析結果を所定の形式でファイルに出力可能に構成されていてもよい。
[作用及び効果]
The relationship between item X and item Y may be displayed using a scatter diagram as shown in FIG. , may be displayed using a violin plot as shown in FIG. 10(c). In the examples shown in FIGS. 10(a) to 10(c), item X is composed of two types of character data: "a" and "b". Note that numerical data greater than 0 may be displayed after being logarithmically converted. If both item X and item Y are composed of character data, a mosaic plot may be used. A plurality of
[Action and effect]
データ解析システム1では、仮説検定における算出方法により目的変数と複数の説明変数の各々との間の有意確率が算出され、複数の説明変数が、有意確率が小さい順に並ぶように表示部26に表示される。これにより、ユーザは、有意確率が小さい説明変数、すなわち目的変数との関連が強いことが期待される説明変数を容易に把握することができる。また、データ解析システム1では、ユーザは、有意確率を基準として複数の説明変数を比較することができる。異なる仮説検定手法における算出方法を用いた場合でも有意確率は共通に算出されることから、有意確率を基準とすることにより、異なる仮説検定手法における算出方法を用いたとしても、同一の基準で複数の説明変数を比較することが可能となる。その結果、例えば、解析対象に数値データ及び文字データの両方が含まれている場合でも、複数の説明変数を好適に比較することが可能となる。よって、データ解析システム1によれば、データ解析を容易化することができると共に、解析対象の自由度を向上することができる。
In the
上述したとおり、製造工程においては日々大量のデータが取得され得る。しかし、データ量は膨大であるため、製品の品質と関連するデータを見出すことは容易ではない。また、機械学習を用いることで、説明変数から目的変数を高精度に予測することができる場合があるが、得られたモデルの解釈は容易ではない。製造工程データの解析にあたっては、不良率を高精度に予測すること自体に意味はなく、不良率を低減させることが目的とされる。この点、製造工程において製品の品質に異常が生じた場合、複数の原因が絡み合うのではなく、単一の原因であることが多い。例えば、特定の設備により製造した場合又は特定の原料を使用した場合に不良が増加する事象が生じ得る。また、市販のソフトウェアでも相関係数を算出することができるが、欠損値が存在すると算出することができない、異常値が存在すると精度が大きく低下する、といった課題がある。また、数値間の関係が線形でないと正確に算出することができない、数値と文字との間、又は文字と文字との間の相関係数を算出することができない、といった課題もある。これに対し、上述したとおり、データ解析システム1では、ユーザは、有意確率が小さい説明変数、すなわち目的変数との関連が強いことが期待される説明変数を容易に把握することができる。その結果、例えば、製造工程において製品の品質に異常が生じた場合でも、その原因を容易に特定することが可能となる。また、データ解析システム1は、解析対象に数値データ及び文字データの両方が含まれている場合にも適用可能であるし、欠損値又は異常値が存在する場合にも適用可能である。したがって、データ解析システム1によれば、データ解析を容易化することができると共に、解析対象の自由度を向上することができる。
As mentioned above, a large amount of data can be acquired every day in the manufacturing process. However, since the amount of data is enormous, it is not easy to find data related to product quality. Furthermore, by using machine learning, it is sometimes possible to predict a target variable from explanatory variables with high accuracy, but it is not easy to interpret the resulting model. When analyzing manufacturing process data, there is no point in predicting the defective rate with high accuracy, but rather to reduce the defective rate. In this regard, when an abnormality occurs in the quality of a product during the manufacturing process, it is often the result of a single cause rather than a combination of multiple causes. For example, an event may occur where the number of defects increases when manufactured with specific equipment or when specific raw materials are used. Furthermore, commercially available software can also calculate the correlation coefficient, but there are problems in that the calculation cannot be performed if there are missing values, and the accuracy decreases significantly if there are abnormal values. Further, there are also problems in that it is impossible to calculate accurately unless the relationship between numerical values is linear, and it is impossible to calculate a correlation coefficient between numerical values and characters or between characters. On the other hand, as described above, in the
プロセッサ21により用いられる算出方法手法が、ノンパラメトリックな検定手法における算出方法のみを含んでいる。これにより、ノンパラメトリックな検定手法における算出方法では解析対象のデータに外れ値などの異常値が含まれていたとしても精度が低下し難く、母集団の分布などの前提を必要としないため、解析対象の自由度を一層向上することができる。
The calculation methods used by the
プロセッサ21により用いられる算出方法が、第1仮説検定手法における算出方法と、第1仮説検定手法とは異なる第2仮説検定手法における算出方法と、を含んでいる。そして、プロセッサ21が、目的変数及び説明変数の両方が数値データにより構成されている場合、第1仮説検定手法における算出方法を用いて有意確率を算出し、目的変数及び説明変数の少なくとも一方が文字データにより構成されている場合、第2仮説検定手法における算出方法を用いて有意確率を算出する。これにより、解析対象に数値データ及び文字データの両方が含まれている場合でも、有意確率を好適に算出することができる。
The calculation method used by the
第2仮説検定手法が、第3仮説検定手法と、第3仮説検定手法とは異なる第4仮説検定手法と、を含んでいる。そして、プロセッサ21が、目的変数及び説明変数の一方が数値データにより構成されていると共に、目的変数及び説明変数の他方が文字データにより構成されている場合、第3仮説検定手法における算出方法を用いて有意確率を算出し、目的変数及び説明変数の両方が文字データにより構成されている場合、第4仮説検定手法における算出方法を用いて有意確率を算出する。これにより、解析対象に数値データ及び文字データの両方が含まれている場合でも、有意確率を一層好適に算出することができる。
The second hypothesis testing method includes a third hypothesis testing method and a fourth hypothesis testing method different from the third hypothesis testing method. When one of the objective variable and the explanatory variable is composed of numerical data, and the other of the objective variable and the explanatory variable is composed of character data, the
プロセッサ21が、互いに異なる複数の仮説検定手法における算出方法を用いて目的変数と説明変数との間の有意確率を複数算出し、複数の有意確率のうち最も小さい有意確率を目的変数と説明変数との間の有意確率とする。これにより、有意確率を一層精度良く算出することができる。
The
プロセッサ21が、表示部26に表示された複数の説明変数の中から選択された一の説明変数と目的変数との間の関係を示すグラフ50を、表示部26に表示させる。これにより、ユーザは、選択された説明変数と目的変数との間の関係を容易に把握することができる。
The
上記実施形態では、複数の説明変数のうち、一の説明変数についての有意確率の算出に用いられる算出方法と、他の説明変数についての有意確率の算出に用いられる算出方法とが異なる。すなわち、複数の説明変数が、第1説明変数及び第2説明変数を含み、プロセッサ21が、第1仮説検定手法における算出方法を用いて目的変数と第1説明変数との間の有意確率を算出し、第1仮説検定手法とは異なる第2仮説検定手法における算出方法を用いて、目的変数と第2説明変数との間の有意確率を算出する。これにより、第1仮説検定手法及び第2仮説検定手法における算出方法を用いて有意確率を算出することができ、解析対象の自由度を一層向上することができる。
In the above embodiment, the calculation method used to calculate the significance probability for one explanatory variable among the plurality of explanatory variables is different from the calculation method used to calculate the significance probability for the other explanatory variables. That is, the plurality of explanatory variables include a first explanatory variable and a second explanatory variable, and the
本発明は、上記実施形態に限られない。例えば、上記実施形態では、プロセッサ21により用いられる算出方法がノンパラメトリックな検定手法における算出方法のみであったが、パラメトリックな検定手法における算出方法を更に含んでいてもよいし、或いは、パラメトリックな検定手法における算出方法のみであってもよい。検定対象の変数の両方が数値データである場合に適用可能で且つパラメトリックな第1仮説検定手法の例としては、ピアソン(Pearson)の相関係数の検定が挙げられる。検定対象の変数の一方が数値データであり他方が文字データである場合に適用可能で且つパラメトリックな第3仮説検定手法の例としては、分散分析が挙げられる。
The present invention is not limited to the above embodiments. For example, in the above embodiment, the calculation method used by the
1…データ解析システム、20…コンピュータ、21…プロセッサ、26…表示部、27…データ解析プログラム、30…データセット、31…データユニット、50…グラフ。
DESCRIPTION OF
Claims (9)
前記少なくとも1つのプロセッサは、
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、
前記複数の項目のうちの一の項目からなる目的変数、及び前記複数の項目のうちの他の二以上の項目からなる複数の説明変数について、前記データセットに基づいて、前記目的変数と前記説明変数との間に関連が無いとの仮説を帰無仮説とする仮説検定における算出方法により、前記目的変数と前記複数の説明変数の各々との間の有意確率を算出し、
前記複数の説明変数を、前記有意確率が小さい順に並ぶように、表示部に表示させる、データ解析システム。 comprising at least one processor;
The at least one processor includes:
Accepts a dataset containing multiple data units that are a collection of data for multiple items,
For an objective variable consisting of one item among the plurality of items and a plurality of explanatory variables consisting of two or more other items among the plurality of items, the objective variable and the explanation are determined based on the data set. Calculating the significance probability between the target variable and each of the plurality of explanatory variables using a calculation method in a hypothesis test in which a null hypothesis is a hypothesis that there is no relationship between the variables,
A data analysis system that displays the plurality of explanatory variables on a display unit in descending order of the significance probability.
前記少なくとも1つのプロセッサは、
前記目的変数及び前記説明変数の両方が数値データにより構成されている場合、前記第1仮説検定手法における算出方法を用いて前記有意確率を算出し、
前記目的変数及び前記説明変数の少なくとも一方が文字データにより構成されている場合、前記第2仮説検定手法における算出方法を用いて前記有意確率を算出する、請求項1又は2に記載のデータ解析システム。 The calculation method used by the at least one processor includes a calculation method in a first hypothesis testing method and a calculation method in a second hypothesis testing method different from the first hypothesis testing method,
The at least one processor includes:
When both the objective variable and the explanatory variable are composed of numerical data, calculating the significance probability using the calculation method in the first hypothesis testing method,
The data analysis system according to claim 1 or 2, wherein when at least one of the objective variable and the explanatory variable is composed of character data, the significance probability is calculated using a calculation method in the second hypothesis testing method. .
前記少なくとも1つのプロセッサは、
前記目的変数及び前記説明変数の一方が数値データにより構成されていると共に、前記目的変数及び前記説明変数の他方が文字データにより構成されている場合、前記第3仮説検定手法における算出方法を用いて前記有意確率を算出し、
前記目的変数及び前記説明変数の両方が文字データにより構成されている場合、前記第4仮説検定手法における算出方法を用いて前記有意確率を算出する、請求項3に記載のデータ解析システム。 The second hypothesis testing method includes a third hypothesis testing method and a fourth hypothesis testing method different from the third hypothesis testing method,
The at least one processor includes:
When one of the objective variable and the explanatory variable is composed of numerical data, and the other of the objective variable and the explanatory variable is composed of character data, using the calculation method in the third hypothesis testing method. Calculate the significance probability,
4. The data analysis system according to claim 3, wherein when both the objective variable and the explanatory variable are composed of character data, the significance probability is calculated using a calculation method in the fourth hypothesis testing method.
互いに異なる複数の仮説検定手法における算出方法を用いて前記目的変数と前記説明変数との間の前記有意確率を複数算出し、
前記複数の有意確率のうち最も小さい前記有意確率を前記目的変数と前記説明変数との間の前記有意確率とする、請求項1~4のいずれか一項に記載のデータ解析システム。 The at least one processor includes:
calculating a plurality of significance probabilities between the objective variable and the explanatory variable using calculation methods in a plurality of mutually different hypothesis testing methods;
5. The data analysis system according to claim 1, wherein the smallest significance probability among the plurality of significance probabilities is set as the significance probability between the target variable and the explanatory variable.
前記少なくとも1つのプロセッサは、
第1仮説検定手法における算出方法を用いて前記目的変数と前記第1説明変数との間の有意確率を算出し、
前記第1仮説検定手法とは異なる第2仮説検定手法における算出方法を用いて、前記目的変数と前記第2説明変数との間の有意確率を算出する、請求項1又は2に記載のデータ解析システム。 The plurality of explanatory variables include a first explanatory variable and a second explanatory variable,
The at least one processor includes:
Calculating the significance probability between the objective variable and the first explanatory variable using a calculation method in a first hypothesis testing method,
The data analysis according to claim 1 or 2, wherein the significance probability between the objective variable and the second explanatory variable is calculated using a calculation method in a second hypothesis testing method different from the first hypothesis testing method. system.
前記表示部に表示された前記複数の説明変数の中から選択された一の説明変数と前記目的変数との間の関係を示すグラフを、前記表示部に表示させる、請求項1~6のいずれか一項に記載のデータ解析システム。 The at least one processor includes:
Any one of claims 1 to 6, wherein a graph showing a relationship between one explanatory variable selected from the plurality of explanatory variables displayed on the display unit and the target variable is displayed on the display unit. The data analysis system according to item (1).
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
前記複数の項目のうちの一の項目からなる目的変数、及び前記複数の項目のうちの他の二以上の項目からなる複数の説明変数について、前記データセットに基づいて、前記目的変数と前記説明変数との間に関連が無いとの仮説を帰無仮説とする仮説検定における算出方法により、前記目的変数と前記複数の説明変数の各々との間の有意確率を算出するステップと、
前記複数の説明変数を、前記有意確率が小さい順に並ぶように、表示部に表示させるステップと、を含む、データ解析方法。 A data analysis method performed by a data analysis system comprising at least one processor, the method comprising:
accepting a dataset including multiple data units that are a collection of data of multiple items;
For an objective variable consisting of one item among the plurality of items and a plurality of explanatory variables consisting of two or more other items among the plurality of items, the objective variable and the explanation are determined based on the data set. calculating the significance probability between the target variable and each of the plurality of explanatory variables using a calculation method in a hypothesis test in which a null hypothesis is a hypothesis that there is no relationship between the variables;
A data analysis method, comprising the step of displaying the plurality of explanatory variables on a display unit in descending order of the significance probability.
前記複数の項目のうちの一の項目からなる目的変数、及び前記複数の項目のうちの他の二以上の項目からなる複数の説明変数について、前記データセットに基づいて、前記目的変数と前記説明変数との間に関連が無いとの仮説を帰無仮説とする仮説検定における算出方法により、前記目的変数と前記複数の説明変数の各々との間の有意確率を算出するステップと、
前記複数の説明変数を、前記有意確率が小さい順に並ぶように、表示部に表示させるステップと、をコンピュータに実行させる、データ解析プログラム。 accepting a dataset including multiple data units that are a collection of data of multiple items;
For an objective variable consisting of one item among the plurality of items and a plurality of explanatory variables consisting of two or more other items among the plurality of items, the objective variable and the explanation are determined based on the data set. calculating the significance probability between the target variable and each of the plurality of explanatory variables using a calculation method in a hypothesis test in which a null hypothesis is a hypothesis that there is no relationship between the variables;
A data analysis program that causes a computer to execute the step of displaying the plurality of explanatory variables on a display unit in descending order of the significance probabilities.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020106939A JP7396213B2 (en) | 2020-06-22 | 2020-06-22 | Data analysis system, data analysis method, and data analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020106939A JP7396213B2 (en) | 2020-06-22 | 2020-06-22 | Data analysis system, data analysis method, and data analysis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022002029A JP2022002029A (en) | 2022-01-06 |
JP7396213B2 true JP7396213B2 (en) | 2023-12-12 |
Family
ID=79244473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020106939A Active JP7396213B2 (en) | 2020-06-22 | 2020-06-22 | Data analysis system, data analysis method, and data analysis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7396213B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7413616B1 (en) * | 2022-02-25 | 2024-01-15 | 株式会社アルバック | Display device, display method, and program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016004525A (en) | 2014-06-19 | 2016-01-12 | 株式会社日立製作所 | Data analysis system and data analysis method |
JP2017142732A (en) | 2016-02-12 | 2017-08-17 | 株式会社日立製作所 | Drug effect evaluation auxiliary system and drug effect evaluation auxiliary information provision method |
JP2018515493A (en) | 2015-05-07 | 2018-06-14 | ノビミューン エスアー | Methods and compositions for diagnosis and treatment of disorders in patients with elevated levels of CXCL9 and other biomarkers |
JP2018538587A (en) | 2016-02-01 | 2018-12-27 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | Risk assessment method and system |
JP2020027319A (en) | 2018-08-09 | 2020-02-20 | 株式会社豊田中央研究所 | Evaluation apparatus, evaluation method and computer program |
-
2020
- 2020-06-22 JP JP2020106939A patent/JP7396213B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016004525A (en) | 2014-06-19 | 2016-01-12 | 株式会社日立製作所 | Data analysis system and data analysis method |
JP2018515493A (en) | 2015-05-07 | 2018-06-14 | ノビミューン エスアー | Methods and compositions for diagnosis and treatment of disorders in patients with elevated levels of CXCL9 and other biomarkers |
JP2018538587A (en) | 2016-02-01 | 2018-12-27 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | Risk assessment method and system |
JP2017142732A (en) | 2016-02-12 | 2017-08-17 | 株式会社日立製作所 | Drug effect evaluation auxiliary system and drug effect evaluation auxiliary information provision method |
JP2020027319A (en) | 2018-08-09 | 2020-02-20 | 株式会社豊田中央研究所 | Evaluation apparatus, evaluation method and computer program |
Also Published As
Publication number | Publication date |
---|---|
JP2022002029A (en) | 2022-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4394728B2 (en) | Influence factor identification device | |
US8594826B2 (en) | Method and system for evaluating a machine tool operating characteristics | |
US7840844B2 (en) | Techniques for prioritizing test dependencies | |
US20110154117A1 (en) | Methods and apparatus to perform log file analyses | |
Genta et al. | Product complexity and design of inspection strategies for assembly manufacturing processes | |
Acharya et al. | A diagnostic tool for population models using non-compartmental analysis: the ncappc package for R | |
CN102884486B (en) | Malfunction analysis apparatus and malfunction analysis method | |
JP5338492B2 (en) | Input variable selection support device | |
US11170332B2 (en) | Data analysis system and apparatus for analyzing manufacturing defects based on key performance indicators | |
Shadman et al. | A change point method for Phase II monitoring of generalized linear profiles | |
EP3869424A1 (en) | Equipment failure diagnosis support system and equipment failure diagnosis support method | |
Gitzel | Data Quality in Time Series Data: An Experience Report. | |
JP7396213B2 (en) | Data analysis system, data analysis method, and data analysis program | |
JP7019339B2 (en) | Defect cause extraction system and its method | |
JP2019219848A (en) | Source code analysis method and source code analysis device | |
US20210374771A1 (en) | Data analysis support apparatus and data analysis support method | |
JP7491724B2 (en) | Information processing device and information processing method | |
US20220292053A1 (en) | Method for generating a coherent representation for at least two log files | |
EP3940484A1 (en) | Analysis device, analysis method, and analysis program | |
CN116348829A (en) | Abnormality diagnosis model construction method, abnormality diagnosis model construction device, and abnormality diagnosis device | |
GB2611967A (en) | Automated data linkages across datasets | |
US20240094092A1 (en) | Manufacturing data analysis device and method | |
JP2009157655A (en) | Data analysis device, data analysis method, and program | |
Singh et al. | Decision Support System for Ranking of Software Reliability Growth Models | |
US11645359B1 (en) | Piecewise linearization of multivariable data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220728 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7396213 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |