JP2019191634A - データ分析方法、データ分析プログラムおよびデータ分析システム - Google Patents
データ分析方法、データ分析プログラムおよびデータ分析システム Download PDFInfo
- Publication number
- JP2019191634A JP2019191634A JP2018079774A JP2018079774A JP2019191634A JP 2019191634 A JP2019191634 A JP 2019191634A JP 2018079774 A JP2018079774 A JP 2018079774A JP 2018079774 A JP2018079774 A JP 2018079774A JP 2019191634 A JP2019191634 A JP 2019191634A
- Authority
- JP
- Japan
- Prior art keywords
- variable
- variables
- data analysis
- relationship
- analysis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】各製造工程で採取された変数のように時間的な先後性が明確であるデータを対象として、特定の変数の背後に存在する条件付き独立関係や因果関係を明らかにすることができるデータ分析方法を提供する。【解決手段】本発明は、時間的な先後性を有する変数に関するデータを対象としたデータ分析方法であり、変数間の先後性を考慮しながら変数選択できる回帰法を適用することにより、変数間に存在する特定の変数に関係する因果関係構築に適した疎な条件付き独立関係の抽出ステップを備える。抽出ステップは、設定した目的変数に対して先行する変数中から説明変数を選択すると共に、選択された説明変数を新たな目的変数に再設定して新たな目的変数に対して先行する変数中から新たな説明変数を再選択する選択ステップにより行える。こうして各変数間に存在する的確な条件付き独立関係ひいては因果関係を明らかにできる。【選択図】図2
Description
本発明は、時間的に先後関係がある変数(データ)を対象としたデータ分析方法等に関する。
種々の変数に係る多数のデータを分析することにより、各変数間に存在する因果関係を明らかにすることが望まれる。例えば、多くの工程を経て製造される製品について、その特性(強度等)と、それに大きく影響を及ぼしている工程の条件等との因果関係が明らかになると、製品の品質改善や生産性の向上等に役立つ。
しかしながら、影響を及ぼす可能性のある変数は膨大に存在することが多く、その中でも重要な変数だけの選択が求められる。各変数間の因果関係を明らかにするためには、条件付き独立関係が明らかであることが重要である。このような事情の下、各変数間の条件付き独立関係を回帰法により求める提案が下記の文献でなされている。
Meinshausen & Buhlmann, Ann. Stats. 2006
非特許文献1に記載されている従来の手法により、図3に示すような各変数間の因果関係を構築する場合を一例として考える。図中に示した○印は各変数を示す。図中に示した線分は、変数間に直接的な関係があることを示す。
従来の手法では、各変数間の時間的な先後関係が考慮されず、一つの変数を目的変数(従属変数)、それ以外の変数を説明変数(独立変数)とした回帰を、各変数毎に独立に行っていた(図3のB〜F)。こうして得られる偏回帰係数を条件付き独立関係と解釈し、それらの和集合として得られる統合的な条件付き独立関係(図3のG)を、各変数の背後にある条件付き独立関係として把握していた。
しかし、時間的な先後関係がある変数間で、図3のAに示すような因果関係を構築したい場合を考えると、従来の手法により得られる条件付き独立関係(図3のG)では、変数間に偽の関係が生成されていた。なお、図中に示した矢印が、変数間の因果関係を示す。図中の○中に記載した番号は、時間的な先後関係を絶対的に示すものではないが、概ねその番号が小さい変数ほど時間的に先行する可能性が高くなる。
具体的な一適用例として、図4に示すような圧粉焼結体の製造工程が想定される。このとき、圧粉焼結体の品質・特性を指標するビッカース硬さ(または強度)を最終的に特定したい目的変数(変数5)とし、そのビッカース硬さに関連する変数(各工程の右側に並記した対象)として、例えば、焼結温度(変数4)、圧粉体密度(変数3)、成形速度(変数2)、成形圧力(変数1)を考える。なお、当然、データ分析を行う際には、算出対象となる各変数に対応する実データが存在していることになる。
従来の手法に依ると、図3のGに示すように、成形圧力(変数1)と成形速度(変数2)との間、および圧粉体密度(変数3)と焼結温度(変数4)との間にも、それぞれ関連付けがなされて、関係が存在することとなる。しかし、それらの各変数は独立して設定されるものである(図3のA)。
また、成形圧力(変数1)と成形速度(変数2)の間や圧粉体密度(変数3)と焼結温度(変数4)の間に生じる関係に基づいて、変数間の時間的な先後性を考慮した因果関係(例えば、変数1→変数2、変数3→変数4)を構築することもできない。このように従来の手法では、各変数間の条件付き独立関係に基づいて因果関係を的確に構築することが容易ではなかった。
本発明はこのような事情に鑑みて為されたものであり、重要な変数だけを選択するという意味で疎な条件付き独立関係さらには因果関係を容易に構築できるデータ分析方法等を提供することを目的とする。
本発明者は上述した課題を解決すべく鋭意研究した結果、変数間の時間的な先後関係を考慮して変数選択できる回帰法を行うことにより、疎で適切な条件付き独立関係を構築することに成功した。この成果を発展させることにより、以降に述べる本発明を完成するに至った。
《データ分析方法》
(1)本発明は、時間的な先後性を有する変数に関するデータを対象としたデータ分析方法であって、該変数間の先後性を考慮しながら変数選択できる回帰法を適用することにより、該変数間に存在する特定の変数に関係する因果関係構築に適した疎な条件付き独立関係の抽出ステップを備えるデータ分析方法である。
(1)本発明は、時間的な先後性を有する変数に関するデータを対象としたデータ分析方法であって、該変数間の先後性を考慮しながら変数選択できる回帰法を適用することにより、該変数間に存在する特定の変数に関係する因果関係構築に適した疎な条件付き独立関係の抽出ステップを備えるデータ分析方法である。
(2)本発明のデータ分析方法によれば、変数間の時間的な先後性を考慮して回帰を行うことにより、変数間の適切な条件付き独立関係を導き出し、的確な因果構造の構築が可能となる。
一方、従来の手法では、各変数に対して独立に回帰法を行い、得られた回帰係数から変数間の条件付き独立関係を求めた後、その結果を解釈して各変数間の因果構造を構築していた。
しかし、そのような従来の手法では、結果系の変数を条件づけたことによるセレクションバイアスを生じ得る。このため従来の手法では、変数間の適切な条件付き独立関係さらには因果関係を構築することが困難であった。これに対して本発明のデータ分析方法によれば、回帰法を適用する際に時間的な先後性を考慮している。このため、セレクションバイアスの発生を予め低減させて、変数間に存在する正しい条件付き独立関係の抽出が可能となる。
《プログラムとシステム》
本発明は、上述したステップをコンピュータに実行させるデータ分析プログラムとしても把握できる。また、そのデータ分析プログラムと、該データ分析プログラムを実行するコンピュータとを備えるデータ分析システムとしても把握できる。
本発明は、上述したステップをコンピュータに実行させるデータ分析プログラムとしても把握できる。また、そのデータ分析プログラムと、該データ分析プログラムを実行するコンピュータとを備えるデータ分析システムとしても把握できる。
《その他》
本明細書でいう「〜ステップ」と「〜手段」は、本発明の対象(物の発明か方法の発明)に応じて、相互に言換えることができる。また、「〜手段」は「〜部」と換言することもできる。
本明細書でいう「〜ステップ」と「〜手段」は、本発明の対象(物の発明か方法の発明)に応じて、相互に言換えることができる。また、「〜手段」は「〜部」と換言することもできる。
上述した本発明の構成要素に、本明細書中から任意に選択した一つまたは二つ以上の構成要素を付加し得る。本明細書で説明する内容は、データ分析方法のみならず、そのプログラムやシステム等にも適宜該当する。
《抽出ステップ》
抽出ステップは、例えば、先後性がある変数(データ)に対して、設定した目的変数に対して先行する変数中から説明変数を選択すると共に、選択された説明変数を新たな目的変数に再設定して新たな目的変数に対して先行する変数中から新たな説明変数を再選択する選択ステップにより行うことができる。変数が多数あるときは、その選択ステップを、先後性を有する変数間で時間的に遡及して順次繰り返して行うとよい。
抽出ステップは、例えば、先後性がある変数(データ)に対して、設定した目的変数に対して先行する変数中から説明変数を選択すると共に、選択された説明変数を新たな目的変数に再設定して新たな目的変数に対して先行する変数中から新たな説明変数を再選択する選択ステップにより行うことができる。変数が多数あるときは、その選択ステップを、先後性を有する変数間で時間的に遡及して順次繰り返して行うとよい。
こうして得られた各変数間の条件付き独立関係は、各変数の先後関係を考慮することにより、容易に因果関係として構築できる。また、先後関係を考慮して回帰法を適用するため、互いに関係がない変数間で見せかけの関係を生じることもなく、セレクションバイアスの発生が抑止される。
なお、変数選択のできる回帰法として、lasso回帰、重回帰におけるステップワイズ法などがある。また変数選択は、予測の汎化能力を考慮してなされると好ましい。予測の汎化能力には、尤度交差検証、AIC(赤池情報量規準)などがある。
《用語》
本明細書に記載した各用語の意味は次の通りである。
・「汎化能力」を考慮したとは、学習に使用していない変数(データ)においても、得られた変数間の関係性があてはまるかどうか、を考慮したという意味である。
・「目的変数」または「従属変数」は、回帰により予測される変数をいう。
・「説明変数」または「独立変数」は、回帰で目的変数(従属変数)を予測するために使用される変数をいう。
・「構造学習」は、変数間の関係性を自動的に推定する手法をいう。
・「条件付き独立関係」とは、ある変数を条件づけたときに、別な2変数が独立か否かの関係性をいう。
・「セレクションバイアス」とは、結果側の変数を条件づけたことにより、その原因側の変数間に生じる見かけ上の関係をいう。
本明細書に記載した各用語の意味は次の通りである。
・「汎化能力」を考慮したとは、学習に使用していない変数(データ)においても、得られた変数間の関係性があてはまるかどうか、を考慮したという意味である。
・「目的変数」または「従属変数」は、回帰により予測される変数をいう。
・「説明変数」または「独立変数」は、回帰で目的変数(従属変数)を予測するために使用される変数をいう。
・「構造学習」は、変数間の関係性を自動的に推定する手法をいう。
・「条件付き独立関係」とは、ある変数を条件づけたときに、別な2変数が独立か否かの関係性をいう。
・「セレクションバイアス」とは、結果側の変数を条件づけたことにより、その原因側の変数間に生じる見かけ上の関係をいう。
想定事例にデータ分析システムを適用する場合を示しつつ、本発明をより具体的に以下に説明する。
《システム》
本実施例に係るデータ分析システムは、汎用または専用のコンピュータと、そのコンピュータ上で実行されるプログラムとにより構成される。コンピュータは、演算部(CPU等)、データやプログラムを一時的または長期的に保存する保存部(ROM、RAM、HDD、SSD等)、表示部(ディスプレー等)、入出力部(キーボード、マウス、通信インターフェース等)などを備える。コンピュータは、専用機でも汎用機(パーソナルコンピュータ(PC)等)でもよい。プログラムは、コンピュータに一時的または長期的にインストールされて、後述するデータ分析方法に係る各ステップを実行する。プログラムは、専用ソフトウェアでも、汎用ソフトウェアを利用したものでもよい。なお、各ステップを実行するプログラム部分が各手段となる。
本実施例に係るデータ分析システムは、汎用または専用のコンピュータと、そのコンピュータ上で実行されるプログラムとにより構成される。コンピュータは、演算部(CPU等)、データやプログラムを一時的または長期的に保存する保存部(ROM、RAM、HDD、SSD等)、表示部(ディスプレー等)、入出力部(キーボード、マウス、通信インターフェース等)などを備える。コンピュータは、専用機でも汎用機(パーソナルコンピュータ(PC)等)でもよい。プログラムは、コンピュータに一時的または長期的にインストールされて、後述するデータ分析方法に係る各ステップを実行する。プログラムは、専用ソフトウェアでも、汎用ソフトウェアを利用したものでもよい。なお、各ステップを実行するプログラム部分が各手段となる。
《事例設定》
本実施例では、製品の各製造工程で採取される変数(データ)のように、相互の時間的な先後性が明確なデータを分析して、特定のデータの背後にある各変数間の構造的な因果関係を明らかにする場合を想定している。このようなデータ分析の対象となる製造工程の一例として、既述した図4に示す圧粉焼結体(製品)の各製造工程(評価工程を含む。)を取り上げる。
本実施例では、製品の各製造工程で採取される変数(データ)のように、相互の時間的な先後性が明確なデータを分析して、特定のデータの背後にある各変数間の構造的な因果関係を明らかにする場合を想定している。このようなデータ分析の対象となる製造工程の一例として、既述した図4に示す圧粉焼結体(製品)の各製造工程(評価工程を含む。)を取り上げる。
評価工程で得られる圧粉焼結体のビッカース硬さのデータを最終的な目的変数:変数5とする。そのデータがどのような各変数(データ)の影響を受けて得られるか、その因果関係を明らかにするために、圧粉焼結体の製造工程に係る変数として、例えば、焼結温度:変数4、圧粉体密度:変数3、成形速度:変数2、成形圧力:変数1が考えられる。この場合、最終的に求めたい各変数間の因果関係は、図2のAに示すようなものとする。
なお、図3の場合と同様に、図中に示した○印は各変数を示し、線分は変数間に何らかの関係があることを示し、矢印は変数間の因果関係を示す。図中の○中に記載した番号は、時間的な先後関係を絶対的に示すものではないが、概ねその番号が小さい変数ほど時間的に先行する可能性が高くなる。
《データ分析》
上述の設定事例において、変数1〜5に係る各データが存在しており、変数5を最終的な目的変数として、変数選択できる回帰法により、データ分析するときの手順を、図1のフローチャートに示した。また、それら各手順を視覚的かつ具体的に図2に示した。なお、本実施例に係るデータ分析は、具体的にいうと、変数間の先後性を考慮しながら変数選択できる回帰法(lasso回帰法)を実行できるR(オープンソースでフリーの統計解析に特化したプログラミング用語)等を用いて行える。
上述の設定事例において、変数1〜5に係る各データが存在しており、変数5を最終的な目的変数として、変数選択できる回帰法により、データ分析するときの手順を、図1のフローチャートに示した。また、それら各手順を視覚的かつ具体的に図2に示した。なお、本実施例に係るデータ分析は、具体的にいうと、変数間の先後性を考慮しながら変数選択できる回帰法(lasso回帰法)を実行できるR(オープンソースでフリーの統計解析に特化したプログラミング用語)等を用いて行える。
(1)目的変数の設定
図1のステップS1で、時間的に先行する変数を目的変数として設定する。本実施例の場合なら、時間的に最も後行する変数5を、最初の目的変数として設定する。
図1のステップS1で、時間的に先行する変数を目的変数として設定する。本実施例の場合なら、時間的に最も後行する変数5を、最初の目的変数として設定する。
(2)説明変数の選択
図1のステップS2で、設定した目的変数に対する説明変数を、その目的変数に先行する変数から選択する。このときの変数選択は、例えばlasso回帰法により、変数間の先後性を考慮しつつ、汎化能力で評価したときに重要な関係がある疎な変数のみを、他の変数を介さずに直接的に選択する。
図1のステップS2で、設定した目的変数に対する説明変数を、その目的変数に先行する変数から選択する。このときの変数選択は、例えばlasso回帰法により、変数間の先後性を考慮しつつ、汎化能力で評価したときに重要な関係がある疎な変数のみを、他の変数を介さずに直接的に選択する。
例えば、図2のBに示すように、目的変数:変数5(ビッカース硬さ)としたとき、その説明変数として、時間的に先行する変数内で、圧粉焼結体のビッカース硬さに最も影響していると考えられる独立した変数4(焼結温度)と変数3(圧粉体密度)が選択される。こうして、変数5−変数4と変数5−変数3とのペアリング(関係付け)がなされる。
(3)目的変数の再設定と説明変数の再選択
図1のステップS3で、先に選択された説明変数よりさらに先行する変数があるか、判断される。さらに先行する変数がある場合、先に選択された説明変数を、新たな目的変数として再設定し、ステップS1(目的変数の再設定)とステップS2(説明変数の再選択)を再び繰り返す。
図1のステップS3で、先に選択された説明変数よりさらに先行する変数があるか、判断される。さらに先行する変数がある場合、先に選択された説明変数を、新たな目的変数として再設定し、ステップS1(目的変数の再設定)とステップS2(説明変数の再選択)を再び繰り返す。
図2のCに示すように、目的変数である変数5(ビッカース硬さ)に対する説明変数として選択された変数4(焼結温度)が新たな目的変数として設定される。但し、この場合、変数4に時間的に先行する変数中に、変数4(焼結温度)に影響を及ぼしている変数はない。従って、変数4を目的変数としたとき、他の変数とのペアリングは生成されない。この点で、変数4と変数3の間に余計な関係を生じる従来の手法(図3のD、E、G参照)とは異なる。
次に、図2のDに示すように、目的変数である変数5(ビッカース硬さ)に対する説明変数として選択された別な変数3(圧粉体密度)も新たな目的変数として設定される。この場合、変数3に時間的に先行する変数中に、変数3(圧粉体密度)に影響し得る変数として、変数2(成形速度)および変数1(成形圧力)があり、それらが選択される。こうして、変数3−変数2と変数3−変数1がペアリング(関係付け)される。
さらに、図2のEに示すように、目的変数である変数3(圧粉体密度)に対する説明変数として選択された変数2(成形速度)を、新たな目的変数として設定する。この場合も、変数2に時間的に先行する変数中に、変数2に影響を及ぼす変数はない。つまり、目的変数である変数2(成形速度)に対して変数1(成形圧力)は説明変数としては選択されない。従って、変数2を目的変数としたとき、変数2と変数1のペアリングも生じない。この点でも、変数2と変数1の間に余計な関係を生じる従来の手法(図3のB、C、G参照)とは異なる。
図2のFに示すように、目的変数である変数3(圧粉体密度)に対する説明変数として選択された別な変数1(成形圧力)も新たな目的変数として設定する。しかし、この場合、変数1に時間的に先行する変数は存在しないため、この時点で変数間の条件付き独立関係の抽出が終了する。
(4)条件付き独立関係の構築
図1のステップS4で、ステップS1〜S3の抽出ステップ(選択ステップ)で得られた各変数間のペアの和集合をとる。こうして、図2のGに示すような各変数間のペアリング(条件付き独立関係)が明らかとなる。各変数間の時間的な先後関係を考慮すると、図2のGに示す各変数間の条件付き独立関係から、図2のAのような各変数間の因果関係も容易に求まる。
図1のステップS4で、ステップS1〜S3の抽出ステップ(選択ステップ)で得られた各変数間のペアの和集合をとる。こうして、図2のGに示すような各変数間のペアリング(条件付き独立関係)が明らかとなる。各変数間の時間的な先後関係を考慮すると、図2のGに示す各変数間の条件付き独立関係から、図2のAのような各変数間の因果関係も容易に求まる。
こうして、上述した本実施例(本発明)のように、各変数間の先後性を考慮して変数選択できる回帰法を用いることにより、変数間の疎な条件付き独立関係を抽出でき、特定の変数の背後に存在する因果関係を明らかにできた。
Claims (5)
- 時間的な先後性を有する変数に関するデータを対象としたデータ分析方法であって、
該変数間の先後性を考慮しながら変数選択できる回帰法を適用することにより、該変数間に存在する特定の変数に関係する因果関係構築に適した疎な条件付き独立関係の抽出ステップを備えるデータ分析方法。 - 前記抽出ステップは、
設定した目的変数に対して先行する変数中から説明変数を選択すると共に、選択された該説明変数を新たな目的変数に再設定して該新たな目的変数に対して先行する変数中から新たな説明変数を再選択する選択ステップを行う請求項1に記載のデータ分析方法。 - 前記選択ステップは、先後性を有する変数間で時間的に遡及して順次繰り返される請求項2に記載のデータ分析方法。
- 請求項1〜3のいずれかに記載のステップをコンピュータに実行させるデータ分析プログラム。
- 請求項4に記載のデータ分析プログラムと、
該データ分析プログラムを実行するコンピュータとを備えるデータ分析システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018079774A JP2019191634A (ja) | 2018-04-18 | 2018-04-18 | データ分析方法、データ分析プログラムおよびデータ分析システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018079774A JP2019191634A (ja) | 2018-04-18 | 2018-04-18 | データ分析方法、データ分析プログラムおよびデータ分析システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019191634A true JP2019191634A (ja) | 2019-10-31 |
Family
ID=68390324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018079774A Pending JP2019191634A (ja) | 2018-04-18 | 2018-04-18 | データ分析方法、データ分析プログラムおよびデータ分析システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019191634A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7326640B1 (ja) | 2023-02-10 | 2023-08-15 | 株式会社エクサウィザーズ | 情報処理方法、コンピュータプログラム及び情報処理装置 |
-
2018
- 2018-04-18 JP JP2018079774A patent/JP2019191634A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7326640B1 (ja) | 2023-02-10 | 2023-08-15 | 株式会社エクサウィザーズ | 情報処理方法、コンピュータプログラム及び情報処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5071475B2 (ja) | 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム | |
US11216741B2 (en) | Analysis apparatus, analysis method, and non-transitory computer readable medium | |
US20180082185A1 (en) | Predictive model updating system, predictive model updating method, and predictive model updating program | |
WO2010016110A1 (ja) | 重回帰分析による予測モデルの作成方法、作成システムおよび作成プログラム | |
JP2006268558A (ja) | データ処理方法及びプログラム | |
JP7069029B2 (ja) | 自動予測システム、自動予測方法および自動予測プログラム | |
KR20190072652A (ko) | 정보 처리 장치 및 정보 처리 방법 | |
US10394763B2 (en) | Method and device for generating pileup file from compressed genomic data | |
Bello Cruz et al. | Level bundle-like algorithms for convex optimization | |
WO2010027046A1 (ja) | 情報処理装置、情報処理方法、情報記憶媒体及びプログラム | |
JPWO2016151620A1 (ja) | シミュレートシステム、シミュレート方法およびシミュレート用プログラム | |
JPWO2015136885A1 (ja) | 評価システム、評価方法およびコンピュータ読み取り可能な記憶媒体 | |
CN114580602A (zh) | 模型训练、产品生命周期预测方法、装置、设备、介质 | |
JP2019191634A (ja) | データ分析方法、データ分析プログラムおよびデータ分析システム | |
Giannetti | A framework for improving process robustness with quantification of uncertainties in Industry 4.0 | |
JP6622938B1 (ja) | 相関性抽出方法および相関性抽出プログラム | |
JP5560220B2 (ja) | 工数見積装置、工数見積方法、工数見積プログラム | |
JP6659618B2 (ja) | 分析装置、分析方法及び分析プログラム | |
JP6536157B2 (ja) | モデル推定システム、モデル推定方法およびモデル推定プログラム | |
JP2019032807A (ja) | 要因分析システム、要因分析方法およびプログラム | |
Lazariv et al. | Behavior of EWMA type control charts for small smoothing parameters | |
Eo et al. | Identification of outlying observations with quantile regression for censored data | |
WO2016143337A1 (ja) | 情報処理装置、情報処理方法、及び、記録媒体 | |
JP2019003453A (ja) | 不良要因分析システム及び不良要因分析方法 | |
CN109284354B (zh) | 脚本搜索方法、装置、计算机设备及存储介质 |