JP6369995B2 - データ分析装置、データ分析方法およびデータ分析処理プログラム - Google Patents
データ分析装置、データ分析方法およびデータ分析処理プログラム Download PDFInfo
- Publication number
- JP6369995B2 JP6369995B2 JP2015179792A JP2015179792A JP6369995B2 JP 6369995 B2 JP6369995 B2 JP 6369995B2 JP 2015179792 A JP2015179792 A JP 2015179792A JP 2015179792 A JP2015179792 A JP 2015179792A JP 6369995 B2 JP6369995 B2 JP 6369995B2
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- data
- upper limit
- variable
- regression analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007405 data analysis Methods 0.000 title claims description 49
- 238000000034 method Methods 0.000 title claims description 31
- 238000000611 regression analysis Methods 0.000 claims description 86
- 238000004458 analytical method Methods 0.000 claims description 70
- 238000004422 calculation algorithm Methods 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 17
- 230000007812 deficiency Effects 0.000 claims description 13
- 238000012790 confirmation Methods 0.000 claims description 11
- 238000013179 statistical model Methods 0.000 claims description 9
- 238000013500 data storage Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 14
- 238000000556 factor analysis Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000007547 defect Effects 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000011480 coordinate descent method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Landscapes
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、目的変数と説明変数の両方の変数間に相関がある場合でも、3項以上からなる目的変数であっても、また、大量のデータ欠損がある場合でも、目的変数を高い精度で予測することと、入力情報を少なくすることの両方を実現するための技術である。
(第1のアルゴリズム)
第1のアルゴリズムでは、目的変数を説明変数に含めた因子回帰モデルを用いる。この因子回帰モデルは、因子分析モデル(式(1))と回帰モデル(式(2))とから成る。図1は、本発明におけるデータ分析のための因子回帰モデルの一例を示す図である。この図1におけるFnはn次元潜在変数ベクトルである。
因子分析モデル(式(1))におけるμはp次元平均ベクトルであり、Λはp×mの因子負荷行列であり、fnはn次元潜在変数ベクトルであり、ξはp次元独自因子ベクトルである。
第2のアルゴリズムでは、第1のアルゴリズムに加えて、共通因子を潜在変数に含め、説明変数のとりうる値に確率分布を仮定した統計的モデルとしての因子回帰モデルを用いる。統計的モデルとは、統計学の専門用語であり、例えば、コイン投げを考えた場合、コインの表裏の目の出方が二項分布に従うといった、この二項分布の確率分布を意味する。この統計的モデルは、上記の非特許文献1にも記載されている。
第3のアルゴリズムは、以下の式(5)から式(6)への変換で与えられる条件付き分布の平均を用いた目的変数予測に関する。
以下の式(9)乃至(20)では、独自分散Ψのいくつかの成分を0に近づけた時、この近づけ方によって係数の収束値が異なる、つまり独自分散Ψiと回帰係数Biの収束先が異なることがされる。ここで、式(10)などのδは調整パラメータを示し、式(9)などのTは転置を示し、式(9)などのΦは因子間相関行列を示す。
上記の式(21)の罰則項は、因子回帰モデルのリッジ(ridge)ペナルティに対応し、目的変数の予測に関して最適なペナルティであることが知られており、以下の式(22)が成り立つ。
この罰則付き最尤法によって、独自分散の推定値を0から遠ざけることができるようになるため、上記の多重共線性の問題が解決できる。
第4のアルゴリズムでは、第3のアルゴリズムにおいて、因子負荷行列がスパース(sparse(すなわちほとんどの成分が0である))となるようなスパース推定法を用いる。ここでは、因子負荷量にも罰則項を加えた罰則付き最尤法を用いる。この関数は、以下の式(23)で表すことができる。
スパース推定を行うことで、目的変数の予測式を導出するのに必要な説明変数の項目数が多くなっても、新しいデータが得られた時に、目的変数の予測に有用な回帰係数の絶対値が大きい説明変数のみを選択できるため、安定して予測ができる。また、目的変数の予測に有用な説明変数のみを選択できるので、目的変数の予測誤差を小さくでき、結果としてユーザの入力負荷も減らすことができる。
第5のアルゴリズムでは、第1ないし第4のアルゴリズムで述べた因子回帰分析に用いるデータに大量に欠損がある場合についても因子回帰分析が可能な方法について述べる。分析対象のデータがランダムに欠損している場合、尤度の最大化によってEMアルゴリズムにおけるq次元パラメータθ=(θ1,…,θq)Tを推定できるが、通常の因子分析のEMアルゴリズムを用いると、推定の速度が極端に低速となり実用的でない。
本発明の第1の実施形態では、上記の第1ないし第3のアルゴリズム用いたデータ分析装置について説明する。図2は、本発明の第1の実施形態におけるデータ分析システムの構成例を示すブロック図である。
図2に示すように、このシステムは、ネットワーク1にデータ生成端末2、サーバ(データ分析装置)3、管理端末4が接続される。データ生成端末2は、分析するデータを生成する。サーバ3は、データ生成端末2で生成されたデータの格納および分析を行う。管理端末4は、分析されたデータを活用する。
図3に示すように、サーバ3は、入力部91、分析対象データ記憶部92、分析部93、分析結果データ記憶部94、出力部95を有する。入力部91は、データ生成端末2からネットワーク1を介しての分析対象のデータを受け付ける。分析対象データ記憶部92は、例えば不揮発性メモリなどの記憶媒体であり、分析対象データを格納する。分析部93は、分析対象データ記憶部92に記憶された分析対象のデータに対して、任意のタイミングで分析を実施する。分析結果データ記憶部94は、例えば不揮発性メモリなどの記憶媒体であり、分析結果のデータを格納する。出力部95は、分析結果のデータを管理端末4へ送信する。
図4に示すように、サーバ3の分析部93は、相関確認部101、因子回帰分析実行部102、回帰分析実行部103、分析結果送信部104を有する。
実世界の情報やWebから収集した情報は、データ生成端末2を介して、分析対象の時データとしてサーバ3へ送信される(S11)。サーバ3は、入力部91が入力したデータを分析対象データ記憶部92へ格納する(S12)。
分析部93は、任意のタイミングで回帰分析を開始する(S21)。まず、分析部93は、分析対象データ記憶部92から回帰分析に必要なデータを読み込む(S22)。相関確認部101は、説明変数および目的変数の間に強い相関(相関係数だと0.6または0.7以上)があるか否かを確認する(S23)。
分析結果送信部104は、因子回帰分析実行部102または回帰分析実行部103による分析結果のデータを、分析結果データ記憶部94へ格納する(S27)。
分析結果データ記憶部94に格納されたデータは、任意のタイミングで、出力部95とネットワーク1を介して、管理端末4へ送信される(S31)。
本発明の第2の実施形態では、本発明の第1の実施形態で説明したサーバ3の分析部93の因子回帰分析実行部102および回帰分析実行部103により処理する説明変数の次元数を減らしたい場合に、目的変数を予測するために有効な説明変数のみを用いて安定した予測を実現するためのLassoタイプの正則化法に基づくスパース推定を行う。
図8に示すように、本発明の第2の実施形態におけるサーバ3の分析部93は、第1の実施形態で説明した相関確認部101、因子回帰分析実行部102、回帰分析実行部103、分析結果送信部104に加え、説明変数の次元数上限判定部171、スパース推定因子回帰分析実行部172、およびスパース推定回帰分析実行部173を有する。
ここで設定する数は、目的変数の予測に必要な回帰式の説明変数の上限であり、導出した回帰式で目的変数の値を算出するために必要な入力の数となる。目安としては、株価予測のようなアプリケーションで回帰式の入力となる説明変数の次元数に上限がなければ「n=∞」の値が設定され、占いなどのユーザの手入力を前提とするようなアプリケーションでは、ユーザの入力負荷を考えると「n=10」程度の値が設定される。
まず、分析部93は、分析対象データ記憶部92から回帰分析に必要なデータを読み込む(S41)。そして、分析部93は、説明変数の次元数上限判定部171は、設定された数nを確認する(S42)。このnが∞の場合、つまり説明変数の上限がない場合は(S43のYes)、第1の実施形態で説明したS23以降の処理がなされる。
一方、nが∞でない場合、つまり説明変数の上限がある場合は(S43のNo)、相関確認部101は、説明変数および目的変数の間に強い相関があるか否かを確認する。
本発明の第3の実施形態は、本発明の第1または第2の実施形態で説明したデータ分析装置において、第4および第5のアルゴリズムに基づく処理を実現するものである。以下では、本発明の第2の実施形態で説明したデータ分析装置において、第4および第5のアルゴリズムに基づく機能を追加した例について説明する。
図10に示すように、本発明の第3の実施形態におけるサーバ3の分析部93は、第2の実施形態で説明した相関確認部101、因子回帰分析実行部102、回帰分析実行部103、分析結果送信部104、説明変数の次元数上限判定部171、スパース推定因子回帰分析実行部172、およびスパース推定回帰分析実行部173に加え、分析対象のデータに欠損があるか否かを判定する欠損データ有無判定部181と、欠損があった場合に高速で欠損値補完を行う改良EMアルゴリズム実行部182をさらに有する。
まず、サーバ3の分析部93は、分析対象データ記憶部92から回帰分析に必要なデータを読み込む(S51)。
そして、欠損データ有無判定部181は、この読み込んだデータに欠損があるか否かを判定する(S52)。
Claims (5)
- 分析対象データの欠損の有無を判定する欠損データ有無判定手段と、
前記欠損がある場合に、前記分析対象データの複数の説明変数の共通因子のみを潜在変数とみなしたEMアルゴリズムである改良EMアルゴリズムを実行することで前記欠損を補完する改良EMアルゴリズム実行手段と、
前記欠損が補完された後に前記分析対象データの説明変数の次元数の上限数の有無を判定する次元数上限判定手段と、
前記分析対象データの複数の目的変数間の相関と複数の前記説明変数間の相関が所定の条件を満たして高いか否かを判定する相関確認手段と、
前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子をまとめた前記分析対象データに対する因子回帰分析を行なう因子回帰分析実行手段と、
前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択して前記上限数にあわせて前記回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記因子回帰分析であるスパース推定因子回帰分析を行なうスパース推定因子回帰分析実行手段とを備えた、データ分析装置。 - 前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高くない場合に、前記分析対象データに対する回帰分析を行なう回帰分析実行手段と、
前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高くない場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択し、前記上限数にあわせて回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記回帰分析であるスパース推定回帰分析を行なうスパース推定回帰分析実行手段とをさらに備えた請求項1に記載のデータ分析装置。 - 前記因子回帰分析実行手段は、
前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子を前記潜在変数に含め、前記説明変数のとりうる値に確率分布を仮定した統計的モデルを用いて前記因子回帰分析を行ない、
前記スパース推定因子回帰分析実行手段は、
前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子を前記潜在変数に含め、前記説明変数のとりうる値に確率分布を仮定した統計的モデルを用いて前記スパース推定因子回帰分析を行なう請求項1に記載のデータ分析装置。 - データ分析装置に適用される方法であって、
分析対象データの欠損の有無を判定し、
前記欠損がある場合に、前記分析対象データの複数の説明変数の共通因子のみを潜在変数とみなしたEMアルゴリズムである改良EMアルゴリズムを実行することで前記欠損を補完し、
前記欠損が補完された後に前記分析対象データの説明変数の次元数の上限数の有無を判定し、
前記分析対象データの複数の目的変数間の相関と複数の前記説明変数間の相関が所定の条件を満たして高いか否かを判定し、
前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子をまとめた前記分析対象データに対する因子回帰分析を行ない、
前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択して前記上限数にあわせて前記回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記因子回帰分析であるスパース推定因子回帰分析を行なうデータ分析方法。 - 請求項1に記載のデータ分析装置の一部分として動作するコンピュータに用いられるプログラムであって、
前記コンピュータを、
前記欠損データ有無判定手段、前記改良EMアルゴリズム実行手段、前記次元数上限判定手段、前記相関確認手段、前記因子回帰分析実行手段、および前記スパース推定因子回帰分析実行手段
として機能させるためのデータ分析処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015179792A JP6369995B2 (ja) | 2015-09-11 | 2015-09-11 | データ分析装置、データ分析方法およびデータ分析処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015179792A JP6369995B2 (ja) | 2015-09-11 | 2015-09-11 | データ分析装置、データ分析方法およびデータ分析処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017054432A JP2017054432A (ja) | 2017-03-16 |
JP6369995B2 true JP6369995B2 (ja) | 2018-08-08 |
Family
ID=58316758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015179792A Active JP6369995B2 (ja) | 2015-09-11 | 2015-09-11 | データ分析装置、データ分析方法およびデータ分析処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6369995B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7196696B2 (ja) * | 2019-03-07 | 2022-12-27 | 株式会社ジェイテクト | 機械学習装置及び機械学習方法 |
WO2021053782A1 (ja) * | 2019-09-19 | 2021-03-25 | オムロン株式会社 | 生産設備に生じ得る事象の解析装置 |
CN111459921A (zh) * | 2020-01-13 | 2020-07-28 | 杭州电子科技大学 | 一种基于时滞互信息的空分工厂氮气浓度相关性分析方法 |
JP6725928B1 (ja) * | 2020-02-13 | 2020-07-22 | 東洋インキScホールディングス株式会社 | 回帰モデル作成方法、回帰モデル作成装置、及び、回帰モデル作成プログラム |
JP7384713B2 (ja) * | 2020-03-10 | 2023-11-21 | 株式会社日立製作所 | データ補完システム、およびデータ補完方法 |
CN113345525B (zh) * | 2021-06-03 | 2022-08-09 | 谱天(天津)生物科技有限公司 | 一种用于高通量检测中减少协变量对检测结果影响的分析方法 |
CN115905891B (zh) * | 2022-12-19 | 2023-06-23 | 上海交通大学 | 基于pmu数据的配电网运行方式与关键影响因素识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009205464A (ja) * | 2008-02-28 | 2009-09-10 | Gifu Univ | 医療情報処理装置、医療情報処理方法、及び医療情報処理プログラム |
JP6075279B2 (ja) * | 2013-12-12 | 2017-02-08 | 日本電信電話株式会社 | データ分析装置、方法およびプログラム |
-
2015
- 2015-09-11 JP JP2015179792A patent/JP6369995B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017054432A (ja) | 2017-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6369995B2 (ja) | データ分析装置、データ分析方法およびデータ分析処理プログラム | |
Menon et al. | The cost of fairness in binary classification | |
Bogunovic et al. | Time-varying Gaussian process bandit optimization | |
Dubé et al. | The joint identification of utility and discount functions from stated choice data: An application to durable goods adoption | |
Deng et al. | Density estimation in R | |
US20200143252A1 (en) | Finite rank deep kernel learning for robust time series forecasting and regression | |
Raza et al. | Cloud sentiment accuracy comparison using RNN, LSTM and GRU | |
Makarova et al. | Automatic termination for hyperparameter optimization | |
Wang et al. | Modeling uncertainty to improve personalized recommendations via Bayesian deep learning | |
US20210042619A1 (en) | Finite rank deep kernel learning with linear computational complexity | |
Shreyas et al. | Predicting popularity of online articles using random forest regression | |
Luna et al. | Adaptive fuzzy system to forecast financial time series volatility | |
Hathaway et al. | Personalized priority policies in call centers using past customer interaction information | |
CA3119351C (en) | Extending finite rank deep kernel learning to forecasting over long time horizons | |
JP6075279B2 (ja) | データ分析装置、方法およびプログラム | |
Yamane et al. | Uplift modeling from separate labels | |
JP2018067227A (ja) | データ分析装置、データ分析方法、データ分析処理プログラム | |
Tiapkin et al. | Fast rates for maximum entropy exploration | |
Saini et al. | Forecasting volatility in indian stock market using State Space models | |
Liu et al. | Ordinal random fields for recommender systems | |
Kole | Markov switching models: An example for a stock market index | |
Huang et al. | A network autoregressive model with GARCH effects and its applications | |
Tashkandi et al. | Comparative Evaluation for Recommender Systems for Book Recommendations | |
JP5421842B2 (ja) | 影響力解析装置、影響力解析方法、およびプログラム | |
Wegener et al. | Forecasting in nonlinear univariate time series using penalized splines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180709 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6369995 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |