JP6369995B2 - データ分析装置、データ分析方法およびデータ分析処理プログラム - Google Patents

データ分析装置、データ分析方法およびデータ分析処理プログラム Download PDF

Info

Publication number
JP6369995B2
JP6369995B2 JP2015179792A JP2015179792A JP6369995B2 JP 6369995 B2 JP6369995 B2 JP 6369995B2 JP 2015179792 A JP2015179792 A JP 2015179792A JP 2015179792 A JP2015179792 A JP 2015179792A JP 6369995 B2 JP6369995 B2 JP 6369995B2
Authority
JP
Japan
Prior art keywords
analysis
data
upper limit
variable
regression analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015179792A
Other languages
English (en)
Other versions
JP2017054432A (ja
Inventor
美幸 今田
美幸 今田
真人 松尾
真人 松尾
裕 狩野
裕 狩野
慧 廣瀬
慧 廣瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Osaka University NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Osaka University NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015179792A priority Critical patent/JP6369995B2/ja
Publication of JP2017054432A publication Critical patent/JP2017054432A/ja
Application granted granted Critical
Publication of JP6369995B2 publication Critical patent/JP6369995B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明の実施形態は、データ分析装置、データ分析方法およびデータ分析処理プログラムに関する。
工学の中でもユーザ系のサービスを実現する分野では、ユーザの行動履歴を分析し、ユーザの嗜好や行動パターンに対する特徴量を抽出し、サービスの提案や行動予測する研究開発が数多く行われている。より人に寄り添ったサービスを実現するために、近年、心理学の知見を活用した学際領域の研究がいくつか行われている。
心理学の研究の中でも、人に対する気持ちや感情の傾向分析を、男女や年齢といった古典的に傾向が違うと言われている分類毎に実施したり、因子分析を使用して実施したりする研究が多くみられる。しかしながら、傾向分析は高い予測精度があまり求められない傾向もあり、予測精度は一般に30%程度と言われている。なんらかの工学のサービスに心理学の知見を活用しようとした場合、予測精度が低すぎるため使用用途が限定される。より広いサービスへの適用を考えると、予測精度向上のための技術が必要である。
人の心理状態をできるだけ正しく分析するためには、様々な角度から調査したデータの分析をする必要がある。このため、統計分析の際に必要となる説明変数の種類は膨大となる上、予測したい目的変数も複数になることが多い。心理学の分析では、独立した目的変数であっても、「好き嫌い」と「尊敬軽蔑」のように、目的変数間には、“尊敬しているから好き、軽蔑しているから嫌い“といったような相関が少なからずあると考えられる。このような場合、2つの目的変数に対して独立に回帰分析を行うより、2つの目的変数間の相関を考慮して予測する方が、劇的に精度が向上することがある。
一方で、説明変数間にも相関がある場合、多重共線性の問題が出てきて予測結果が不安定になる。多重共線性とは、説明変数間に強い相関があることにより、計算ができなかったり、計算結果の信頼性が低くなったりすることである。
また、心理のような主観調査は、表現によって回答者に与える印象が異なるので、様々な表現の選択肢を準備する必要がある。例えば、相手を評価するポイントを聞く場合を考える。例えば、女性に対して男性を評価するポイントを調査する際、“容姿重視”という選択肢を入れたいとする。心理学の調査では、より人の真の嗜好を探るため、個々の女性の心に一番響く言葉を用意して調査する。“容姿重視”であれば、“イケメン”、“クール”、“カッコいい”、“見た目がよい”などの思いつく限りの容姿重視のバリエーションをすべて用意する。心理調査では、回答者によって言葉の響き具合が異なるので、全てのバリ―ションを用意し、選択回答させることが多い。結果として、多くの“回答されない”項が生じ、多くの欠損となる。
統計的モデル:小西,北川,"情報量基準",朝倉書店,pp.1-4, 2013. Hirose et al., 2011:Hirose, K., Kawano, S., Konishi, S., & Ichikawa, M. (2011). Bayesian information criterion and selection of the number of factors in factor analysis models. Journal of Data Science, 9(2), 243-259.
目的変数の予測精度を高くするために、予測に必要な入力情報が膨大になったのでは、ユーザの使い勝手が悪い。入力情報が、最悪の場合、全て手入力になることまで考えると、入力を10種類程度として安定して高い精度の予測を実現する必要がある。
このように、分析対象のデータが大量の欠損を含んだデータや多重共線性の問題を含むデータであっても、心理学の知見を工学に応用するためには、10種類以下の入力で、50%以上の予測精度を確保するための技術が必要となる。
本発明は上記実情に鑑みてなされたものであり、高い精度で目的変数を予測することと、入力情報を少なくすることの両方を実現できるデータ分析装置、データ分析方法およびデータ分析処理プログラムを提供することを目的とする。
上記目的を達成するために、この発明の実施形態におけるデータ分析装置の第1の態様は、分析対象データの欠損の有無を判定する欠損データ有無判定手段と、前記欠損がある場合に、前記分析対象データの複数の説明変数の共通因子のみを潜在変数とみなしたEMアルゴリズムである改良EMアルゴリズムを実行することで前記欠損を補完する改良EMアルゴリズム実行手段と、前記欠損が補完された後に前記分析対象データの説明変数の次元数の上限数の有無を判定する次元数上限判定手段と、前記分析対象データの複数の目的変数間の相関複数の前記説明変数の相関が所定の条件を満たして高いか否かを判定する相関確認手段と、前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子をまとめた前記分析対象データに対する因子回帰分析を行なう因子回帰分析実行手段と、前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択して前記上限数にあわせて前記回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記因子回帰分析であるスパース推定因子回帰分析を行なうスパース推定因子回帰分析実行手段とを備えた装置を提供する。
上記構成のデータ分析装置の第2の態様は、第1の態様において、前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高くない場合に、前記分析対象データに対する回帰分析を行なう回帰分析実行手段と、前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高くない場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択し、前記上限数にあわせて回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記回帰分析であるスパース推定回帰分析を行なうスパース推定回帰分析実行手段とを備えた装置を提供する。
上記構成のデータ分析装置の第3の態様は、第1の態様において、前記因子回帰分析実行手段は、前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子を前記潜在変数に含め、前記説明変数のとりうる値に確率分布を仮定した統計的モデルを用いて前記因子回帰分析を行ない、前記スパース推定因子回帰分析実行手段は、前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子を前記潜在変数に含め、前記説明変数のとりうる値に確率分布を仮定した統計的モデルを用いて前記スパース推定因子回帰分析を行なう装置を提供する。
本発明の実施形態におけるデータ分析方法の態様は、データ分析装置に適用される方法であって、分析対象データの欠損の有無を判定し、前記欠損がある場合に、前記分析対象データの複数の説明変数の共通因子のみを潜在変数とみなしたEMアルゴリズムである改良EMアルゴリズムを実行することで前記欠損を補完し、前記欠損が補完された後に前記分析対象データの説明変数の次元数の上限数の有無を判定し、前記分析対象データの複数の目的変数間の相関複数の前記説明変数の相関が所定の条件を満たして高いか否かを判定し、前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子をまとめた前記分析対象データに対する因子回帰分析を行ない、前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択して前記上限数にあわせて前記回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記因子回帰分析であるスパース推定因子回帰分析を行なう方法を提供する。
本発明の実施形態におけるデータ分析処理プログラムの態様は、データ分析装置の一部分として動作するコンピュータに用いられるプログラムであって、前記コンピュータを、前記欠損データ有無判定手段、前記改良EMアルゴリズム実行手段、前記次元数上限判定手段、前記相関確認手段、前記因子回帰分析実行手段、および前記スパース推定因子回帰分析実行手段として機能させるためプログラムを提供する。
本発明によれば、高い精度で目的変数を予測することと、入力情報を少なくすることの両方を実現することが可能になる。
本発明におけるデータ分析のための因子回帰モデルの一例を示す図。 本発明の第1の実施形態におけるデータ分析システムの構成例を示すブロック図。 本発明の第1の実施形態におけるデータ分析システムのサーバ3の機能構成例を示すブロック図。 本発明の第1の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図。 本発明の第1の実施形態におけるデータ分析システムの第1の処理動作の手順の一例を示すフローチャート。 本発明の第1の実施形態におけるデータ分析システムの第2の処理動作の手順の一例を示すフローチャート。 本発明の第1の実施形態におけるデータ分析システムの第3の処理動作の手順の一例を示すフローチャート。 本発明の第2の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図。 本発明の第2の実施形態におけるデータ分析システムの処理動作の手順の一例を示すフローチャート。 本発明の第3の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図。 本発明の第3の実施形態におけるデータ分析システムの処理動作の手順の一例を示すフローチャート。
以下、この発明に係わる実施形態を説明する。
本発明は、目的変数と説明変数の両方の変数間に相関がある場合でも、3項以上からなる目的変数であっても、また、大量のデータ欠損がある場合でも、目的変数を高い精度で予測することと、入力情報を少なくすることの両方を実現するための技術である。
本発明は、統計分析に必要なサンプル数が十分にある状況で、分析対象のデータの欠損率が高く、互いに相関がある説明変数や目的変数であっても、1つの式で高い精度での予測が実現できる技術に関する。なお、必要なサンプル数が十分といえる下限の目安は2000であり、欠損率が高いといえる下限の目安は60%であり、説明変数が多いといえる下限の目安は60であり、高い精度の目安は目的変数が5項で50%以上である。
まず、本発明におけるデータ分析のための各種のアルゴリズムについて説明する。
(第1のアルゴリズム)
第1のアルゴリズムでは、目的変数を説明変数に含めた因子回帰モデルを用いる。この因子回帰モデルは、因子分析モデル(式(1))と回帰モデル(式(2))とから成る。図1は、本発明におけるデータ分析のための因子回帰モデルの一例を示す図である。この図1におけるFはn次元潜在変数ベクトルである。
いま、q次元目的変数ベクトルを式(2)の左辺とし、p次元説明変数ベクトルを式(1)の左辺とする。
因子分析モデル(式(1))におけるμはp次元平均ベクトルであり、Λはp×mの因子負荷行列であり、fはn次元潜在変数ベクトルであり、ξはp次元独自因子ベクトルである。
回帰モデル(式(2))におけるαは切片項であり、Θは回帰係数であり、εは誤差項である。上記の、目的変数を説明変数に含めたというのは、上記の式(1)、式(2)の共通部分fが対応する。
この回帰モデルは、説明変数から目的変数を回帰させるわけでなく、説明変数から共通因子を見つけ出し、この共通因子からダイレクトに目的変数に回帰させるという仕組みを入れている。このため、目的変数間に相関があり、この目的変数に影響を与える説明変数の数が少ない場合においても、精度よくパラメータを推定できる。また、式(1)と式(2)を式(3)へ変換し、この式(3)を式(4)に変換することで、回帰モデルを因子分析モデルに帰着させることができるため、因子分析モデルと回帰モデルとを1つの式(式(4))で記述することができ、分析モデルを単純化できる。
実際に目的変数の予測を行なうときは、条件付き分布の平均を用いる。この予測については後述する。
以上のように、第1のアルゴリズムでは、目的変数を説明変数に含めた因子回帰モデルを用い、このモデルは、目的変数の数が多く、かつ目的変数同士に相関がある場合に有効に機能する。
(第2のアルゴリズム)
第2のアルゴリズムでは、第1のアルゴリズムに加えて、共通因子を潜在変数に含め、説明変数のとりうる値に確率分布を仮定した統計的モデルとしての因子回帰モデルを用いる。統計的モデルとは、統計学の専門用語であり、例えば、コイン投げを考えた場合、コインの表裏の目の出方が二項分布に従うといった、この二項分布の確率分布を意味する。この統計的モデルは、上記の非特許文献1にも記載されている。
第1のアルゴリズムで説明したように、回帰モデルを因子分析モデルに帰着させることができるため、パラメータを推定する際、これまで因子分析で用いられてきたアルゴリズムをそのまま用いることができる。また、各説明変数の誤差分布の共分散行列が異なる場合(すなわち、p次元説明変数ベクトルの共分散行列Ψが、Ψ=diag(ψ,…,ψ)で与えられるとき)でもパラメータの推定が可能となる。また、第1のアルゴリズムと同様に、回帰モデル推定を因子分析モデル推定に帰着させることができるため、因子間に相関がある場合でもパラメータの推定が可能となる。
(第3のアルゴリズム)
第3のアルゴリズムは、以下の式(5)から式(6)への変換で与えられる条件付き分布の平均を用いた目的変数予測に関する。
ただし、式(6)については以下の式(7)、式(8)が成り立つ。この式(7)の左辺は回帰係数行列である。
一般に、相関のある説明変数があることで係数行列Bが不安定になるという多重共線性という問題がある。因子回帰モデルでも、この問題は発生する。
以下の式(9)乃至(20)では、独自分散Ψのいくつかの成分を0に近づけた時、この近づけ方によって係数の収束値が異なる、つまり独自分散Ψと回帰係数Bの収束先が異なることがされる。ここで、式(10)などのδは調整パラメータを示し、式(9)などのTは転置を示し、式(9)などのΦは因子間相関行列を示す。
上記の式(9)、(10)、(11)、(12)に基づいて、以下の式(13)、(14)を導くことができる。
また、上記の式(11)、(12)に基づいて、以下の式(15)、(16)を導くことができ、これらの式(15)、(16)に基づいて、以下の式(17)を導くことができる。
また、上記の式(13)、(14)に基づいて、以下の式(18)、(19)を導くことができ、これらの式(18)、(19)に基づいて、以下の式(20)を導くことができる。
上記の多重共線性の問題は、因子分析モデルにおける、誤差分散の推定値が負となる不適解問題と対応する。この不適解問題を解決するためには、独自分散Ψの推定値を0から遠ざけるための方法が必要となる。
この不適解問題に対しては、独自分散に関する罰則項を入れた罰則付き最尤法を用いることによって対処することができる。次に、この罰則付き最尤法による推定について述べる。
罰則付き対数尤度関数は、以下の式(21)で表すことができる。
この罰則付き対数尤度関数の右辺の第1項は対数尤度関数を示し、第2項が罰則項に対応する。この罰則付き対数尤度関数は、上記の非特許文献2にも記載されている。この罰則項は、独自分散の推定値を0から遠ざける役割を果たす。
ここで、式(21)のsiiはサンプル分散共分散行列の(i,i)番目の要素であり、式(21)のρは、チューニングパラメータベクトルである。
上記の式(21)の罰則項は、因子回帰モデルのリッジ(ridge)ペナルティに対応し、目的変数の予測に関して最適なペナルティであることが知られており、以下の式(22)が成り立つ。
この式(22)の右辺の第1項は、EM(Expectation Maximization)アルゴリズム(期待値最大化法)で得られる最尤推定値に対応し、第2項は、独自分散の推定値を0から遠ざける役割を果たす。
このように、独自分散の推定値を0から遠ざけることが、係数の収束値を一致させることにつながる。
この罰則付き最尤法によって、独自分散の推定値を0から遠ざけることができるようになるため、上記の多重共線性の問題が解決できる。
つまり、第3のアルゴリズムを用いれば、相関のある説明変数があることで目的変数の予測精度が上がらないような回帰分析であっても、相関のある説明変数を因子分析でまとめた上で回帰分析を実施することで、精度を落とすことなく回帰分析を実施できる。
(第4のアルゴリズム)
第4のアルゴリズムでは、第3のアルゴリズムにおいて、因子負荷行列がスパース(sparse(すなわちほとんどの成分が0である))となるようなスパース推定法を用いる。ここでは、因子負荷量にも罰則項を加えた罰則付き最尤法を用いる。この関数は、以下の式(23)で表すことができる。
式(23)の右辺の第2項である罰則項はL1正則化法(lasso)に基づいており、パラメータに関して微分不可能な項を含むが、座標降下法(Coordinate descent method)を用いることによって効率的にパラメータを推定できる。ここで、式(23)の右辺の第2項の
は、lassoペナルティである。
スパース推定を行うことで、目的変数の予測式を導出するのに必要な説明変数の項目数が多くなっても、新しいデータが得られた時に、目的変数の予測に有用な回帰係数の絶対値が大きい説明変数のみを選択できるため、安定して予測ができる。また、目的変数の予測に有用な説明変数のみを選択できるので、目的変数の予測誤差を小さくでき、結果としてユーザの入力負荷も減らすことができる。
(第5のアルゴリズム)
第5のアルゴリズムでは、第1ないし第4のアルゴリズムで述べた因子回帰分析に用いるデータに大量に欠損がある場合についても因子回帰分析が可能な方法について述べる。分析対象のデータがランダムに欠損している場合、尤度の最大化によってEMアルゴリズムにおけるq次元パラメータθ=(θ,…,θ)Tを推定できるが、通常の因子分析のEMアルゴリズムを用いると、推定の速度が極端に低速となり実用的でない。
そこで、第5のアルゴリズムでは、欠損値を潜在変数とみなさず、共通因子のみを潜在変数とみなした改良EMアルゴリズムを構築することによって、高速にパラメータを推定できる。パラメータの推定値は、以下の式(24)で示す完全情報罰則付き対数尤度関数を最大にすることにより得られる。
ただし、式(24)の
は、完全体数尤度関数であり、式(24)の左辺は、この左辺にデータxが与えられた時の当該左辺のfに関する事後期待値である。このfは潜在変数ベクトルである。
式(24)については、以下の式(25)、(26)、(27)が成り立つ。
また、式(24)については、以下の式(28)、(29)が成り立つ。
式(27)などのMnついては、以下の式(30)が成り立つ。
式(24)に示した完全情報罰則付き対数尤度関数の最大化により、通常のEMアルゴリズムを用いた場合よりもサイズの小さい行列に基づいた計算ができるようになる。このため、因子回帰分析を行うためのデータに60%以上の大量欠損が発生しても高速に欠損値を補完しながら因子回帰分析を実行できる。
このように、第5のアルゴリズムを用いれば、データに欠損がある場合に、改良EMアルゴリズムを使うことで、欠損値を補完しながら因子回帰分析を実施できる。
(第1の実施形態)
本発明の第1の実施形態では、上記の第1ないし第3のアルゴリズム用いたデータ分析装置について説明する。図2は、本発明の第1の実施形態におけるデータ分析システムの構成例を示すブロック図である。
図2に示すように、このシステムは、ネットワーク1にデータ生成端末2、サーバ(データ分析装置)3、管理端末4が接続される。データ生成端末2は、分析するデータを生成する。サーバ3は、データ生成端末2で生成されたデータの格納および分析を行う。管理端末4は、分析されたデータを活用する。
図3は、本発明の第1の実施形態におけるデータ分析システムのサーバの機能構成例を示すブロック図である。
図3に示すように、サーバ3は、入力部91、分析対象データ記憶部92、分析部93、分析結果データ記憶部94、出力部95を有する。入力部91は、データ生成端末2からネットワーク1を介しての分析対象のデータを受け付ける。分析対象データ記憶部92は、例えば不揮発性メモリなどの記憶媒体であり、分析対象データを格納する。分析部93は、分析対象データ記憶部92に記憶された分析対象のデータに対して、任意のタイミングで分析を実施する。分析結果データ記憶部94は、例えば不揮発性メモリなどの記憶媒体であり、分析結果のデータを格納する。出力部95は、分析結果のデータを管理端末4へ送信する。
図4は、本発明の第1の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図である。
図4に示すように、サーバ3の分析部93は、相関確認部101、因子回帰分析実行部102、回帰分析実行部103、分析結果送信部104を有する。
相関確認部101は、説明変数および目的変数の間に多重共線性の問題があるか否かを確認する。因子回帰分析実行部102は、説明変数および目的変数の間に多重共線性の問題がある場合に因子回帰分析を行う。回帰分析実行部103は、説明変数および目的変数の間に多重共線性の問題がない場合に通常の回帰分析を行う。分析結果送信部104は、分析結果のデータを分析結果データ記憶部94へ格納する。
図5は、本発明の第1の実施形態におけるデータ分析システムの第1の処理動作の手順の一例を示すフローチャートである。
実世界の情報やWebから収集した情報は、データ生成端末2を介して、分析対象の時データとしてサーバ3へ送信される(S11)。サーバ3は、入力部91が入力したデータを分析対象データ記憶部92へ格納する(S12)。
図6は、本発明の第1の実施形態におけるデータ分析システムの第2の処理動作の手順の一例を示すフローチャートである。
分析部93は、任意のタイミングで回帰分析を開始する(S21)。まず、分析部93は、分析対象データ記憶部92から回帰分析に必要なデータを読み込む(S22)。相関確認部101は、説明変数および目的変数の間に強い相関(相関係数だと0.6または0.7以上)があるか否かを確認する(S23)。
強い相関がある場合(S24のYes)、多重共線性の問題が発生するため、因子回帰分析実行部102は、第3のアルゴリズムで説明した、共通因子をまとめたものに対する回帰分析である因子回帰分析を行う(S25)。この因子開始分析では、第2のアルゴリズムで説明したように、共通因子を潜在変数に含め、説明変数のとりうる値に確率分布を仮定した統計的モデルとしての因子回帰モデルを用いてもよい。
一方、強い相関がない場合(S24のNo)、各変数は独立因子とみなすことができるため、回帰分析実行部103は、通常の回帰分析を行う(S26)。
分析結果送信部104は、因子回帰分析実行部102または回帰分析実行部103による分析結果のデータを、分析結果データ記憶部94へ格納する(S27)。
図7は、本発明の第1の実施形態におけるデータ分析システムの第3の処理動作の手順の一例を示すフローチャートである。
分析結果データ記憶部94に格納されたデータは、任意のタイミングで、出力部95とネットワーク1を介して、管理端末4へ送信される(S31)。
以上のように第1の実施形態では、分析対象のデータが、説明変数および目的変数の間に相関があるデータであっても、高い精度で目的変数を予測可能な因子回帰分析を実行できる。
(第2の実施形態)
本発明の第2の実施形態では、本発明の第1の実施形態で説明したサーバ3の分析部93の因子回帰分析実行部102および回帰分析実行部103により処理する説明変数の次元数を減らしたい場合に、目的変数を予測するために有効な説明変数のみを用いて安定した予測を実現するためのLassoタイプの正則化法に基づくスパース推定を行う。
図8は、本発明の第2の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図である。
図8に示すように、本発明の第2の実施形態におけるサーバ3の分析部93は、第1の実施形態で説明した相関確認部101、因子回帰分析実行部102、回帰分析実行部103、分析結果送信部104に加え、説明変数の次元数上限判定部171、スパース推定因子回帰分析実行部172、およびスパース推定回帰分析実行部173を有する。
スパース推定因子回帰分析実行部172およびスパース推定回帰分析実行部173は、説明変数を減らすための第4のアルゴリズムを実現する。説明変数の次元数上限判定部171は、説明変数を減らす必要があるかの判断を行うために、説明変数の次元数に上限があるか否かを判定する。
ここで、本実施形態を利用するアプリケーションのニーズに合わせて、ユーザは、説明変数の次元数上限判定部171に、目的変数の予測にあたり許容できる数として、説明変数の数の上限nを設定する。
ここで設定する数は、目的変数の予測に必要な回帰式の説明変数の上限であり、導出した回帰式で目的変数の値を算出するために必要な入力の数となる。目安としては、株価予測のようなアプリケーションで回帰式の入力となる説明変数の次元数に上限がなければ「n=∞」の値が設定され、占いなどのユーザの手入力を前提とするようなアプリケーションでは、ユーザの入力負荷を考えると「n=10」程度の値が設定される。
図9は、本発明の第2の実施形態におけるデータ分析システムの処理動作の手順の一例を示すフローチャートである。ここでは、説明変数の次元数の上限を設定した場合の処理動作について説明する。
まず、分析部93は、分析対象データ記憶部92から回帰分析に必要なデータを読み込む(S41)。そして、分析部93は、説明変数の次元数上限判定部171は、設定された数nを確認する(S42)。このnが∞の場合、つまり説明変数の上限がない場合は(S43のYes)、第1の実施形態で説明したS23以降の処理がなされる。
一方、nが∞でない場合、つまり説明変数の上限がある場合は(S43のNo)、相関確認部101は、説明変数および目的変数の間に強い相関があるか否かを確認する。
強い相関がある場合(S44のYes)、多重共線性の問題が発生するため、分析部93は、スパース推定因子回帰分析実行部172を動作させる(S45)。強い相関がない場合(S44のNo)、分析部93は、スパース推定回帰分析実行部173を動作させる(S46)。
スパース推定因子回帰分析実行部172やスパース推定回帰分析実行部173におけるスパース推定では、目的変数の予測に有用な回帰係数の絶対値が大きい説明変数を選択した後、入力の上限nに合わせて、回帰係数の絶対値の大きい説明変数を大きい順に最大n個まで選択する(S47)。
そして、分析結果送信部104は、スパース推定因子回帰分析実行部172またはスパース推定回帰分析実行部173による分析結果のデータを、分析結果データ記憶部94へ格納する(S48)。
以上のように、本発明の第2の実施形態では、スパース推定(Lasso)を使って変数の次元数を減らすことで、少ない説明変数で安定した目的変数予測が可能となるだけでなく、ユーザの入力負荷を軽減できる。また、第2のアルゴリズムで説明したように、説明変数のとりうる値に確率分布を仮定した統計的モデルを用いることで、各説明変数の誤差分布が異なる場合でも、回帰係数の推定が可能となる。
(第3の実施形態)
本発明の第3の実施形態は、本発明の第1または第2の実施形態で説明したデータ分析装置において、第4および第5のアルゴリズムに基づく処理を実現するものである。以下では、本発明の第2の実施形態で説明したデータ分析装置において、第4および第5のアルゴリズムに基づく機能を追加した例について説明する。
図10は、本発明の第3の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図である。
図10に示すように、本発明の第3の実施形態におけるサーバ3の分析部93は、第2の実施形態で説明した相関確認部101、因子回帰分析実行部102、回帰分析実行部103、分析結果送信部104、説明変数の次元数上限判定部171、スパース推定因子回帰分析実行部172、およびスパース推定回帰分析実行部173に加え、分析対象のデータに欠損があるか否かを判定する欠損データ有無判定部181と、欠損があった場合に高速で欠損値補完を行う改良EMアルゴリズム実行部182をさらに有する。
図11は、本発明の第3の実施形態におけるデータ分析システムの処理動作の手順の一例を示すフローチャートである。
まず、サーバ3の分析部93は、分析対象データ記憶部92から回帰分析に必要なデータを読み込む(S51)。
そして、欠損データ有無判定部181は、この読み込んだデータに欠損があるか否かを判定する(S52)。
欠損がない場合は(S53のYes)、第2の実施形態で説明した、S42以降の処理がなされる。
一方、欠損がある場合は(S53のNo)、改良EMアルゴリズム実行部182は、改良EMアルゴリズムを使って、分析対象のデータの欠損値補完を行う(S54)。欠損値補完がなされた後は、第2の実施形態で説明した、S42以降の処理がなされる。
分析対象のデータに欠損がある場合、因子分析が困難になる。そこで、第3の実施形態では、高速にEMアルゴリズムを実行する改良EMアルゴリズム実行部82により欠損部分を補完する。これにより、分析対象のデータに欠損があっても、第2の実施形態で説明した因子回帰分析、またはスパース推定因子回帰分析を実行することができるようになる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
また、各実施形態に記載した手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウエア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ等)等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段(実行プログラムのみならずテーブルやデータ構造も含む)を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスクや半導体メモリ等の記憶媒体を含むものである。
1…ネットワーク、2…データ生成端末、3…サーバ、4…管理端末、91…入力部、92…分析対象データ記憶部、93…分析部、94…分析結果データ記憶部、95…出力部、101…相関確認部、102…因子回帰分析実行部、103…回帰分析実行部、104…分析結果送信部、171…説明変数の次元数上限判定部、172…スパース推定因子回帰分析実行部、173…スパース推定回帰分析実行部、181…欠損データ有無判定部、182…改良EMアルゴリズム実行部。

Claims (5)

  1. 分析対象データの欠損の有無を判定する欠損データ有無判定手段と、
    前記欠損がある場合に、前記分析対象データの複数の説明変数の共通因子のみを潜在変数とみなしたEMアルゴリズムである改良EMアルゴリズムを実行することで前記欠損を補完する改良EMアルゴリズム実行手段と、
    前記欠損が補完された後に前記分析対象データの説明変数の次元数の上限数の有無を判定する次元数上限判定手段と、
    前記分析対象データの複数の目的変数間の相関複数の前記説明変数の相関が所定の条件を満たして高いか否かを判定する相関確認手段と、
    前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子をまとめた前記分析対象データに対する因子回帰分析を行なう因子回帰分析実行手段と、
    前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択して前記上限数にあわせて前記回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記因子回帰分析であるスパース推定因子回帰分析を行なうスパース推定因子回帰分析実行手段とを備えた、データ分析装置。
  2. 前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高くない場合に、前記分析対象データに対する回帰分析を行なう回帰分析実行手段と、
    前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高くない場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択し、前記上限数にあわせて回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記回帰分析であるスパース推定回帰分析を行なうスパース推定回帰分析実行手段とをさらに備えた請求項1に記載のデータ分析装置。
  3. 前記因子回帰分析実行手段は、
    前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子を前記潜在変数に含め、前記説明変数のとりうる値に確率分布を仮定した統計的モデルを用いて前記因子回帰分析を行ない、
    前記スパース推定因子回帰分析実行手段は、
    前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子を前記潜在変数に含め、前記説明変数のとりうる値に確率分布を仮定した統計的モデルを用いて前記スパース推定因子回帰分析を行なう請求項1に記載のデータ分析装置。
  4. データ分析装置に適用される方法であって、
    分析対象データの欠損の有無を判定し、
    前記欠損がある場合に、前記分析対象データの複数の説明変数の共通因子のみを潜在変数とみなしたEMアルゴリズムである改良EMアルゴリズムを実行することで前記欠損を補完し、
    前記欠損が補完された後に前記分析対象データの説明変数の次元数の上限数の有無を判定し、
    前記分析対象データの複数の目的変数間の相関複数の前記説明変数の相関が所定の条件を満たして高いか否かを判定し、
    前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子をまとめた前記分析対象データに対する因子回帰分析を行ない、
    前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択して前記上限数にあわせて前記回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記因子回帰分析であるスパース推定因子回帰分析を行なうデータ分析方法。
  5. 請求項1に記載のデータ分析装置の一部分として動作するコンピュータに用いられるプログラムであって、
    前記コンピュータを、
    前記欠損データ有無判定手段、前記改良EMアルゴリズム実行手段、前記次元数上限判定手段、前記相関確認手段、前記因子回帰分析実行手段、および前記スパース推定因子回帰分析実行手段
    として機能させるためのデータ分析処理プログラム。
JP2015179792A 2015-09-11 2015-09-11 データ分析装置、データ分析方法およびデータ分析処理プログラム Active JP6369995B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015179792A JP6369995B2 (ja) 2015-09-11 2015-09-11 データ分析装置、データ分析方法およびデータ分析処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015179792A JP6369995B2 (ja) 2015-09-11 2015-09-11 データ分析装置、データ分析方法およびデータ分析処理プログラム

Publications (2)

Publication Number Publication Date
JP2017054432A JP2017054432A (ja) 2017-03-16
JP6369995B2 true JP6369995B2 (ja) 2018-08-08

Family

ID=58316758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015179792A Active JP6369995B2 (ja) 2015-09-11 2015-09-11 データ分析装置、データ分析方法およびデータ分析処理プログラム

Country Status (1)

Country Link
JP (1) JP6369995B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7196696B2 (ja) * 2019-03-07 2022-12-27 株式会社ジェイテクト 機械学習装置及び機械学習方法
WO2021053782A1 (ja) * 2019-09-19 2021-03-25 オムロン株式会社 生産設備に生じ得る事象の解析装置
CN111459921A (zh) * 2020-01-13 2020-07-28 杭州电子科技大学 一种基于时滞互信息的空分工厂氮气浓度相关性分析方法
JP6725928B1 (ja) * 2020-02-13 2020-07-22 東洋インキScホールディングス株式会社 回帰モデル作成方法、回帰モデル作成装置、及び、回帰モデル作成プログラム
JP7384713B2 (ja) * 2020-03-10 2023-11-21 株式会社日立製作所 データ補完システム、およびデータ補完方法
CN113345525B (zh) * 2021-06-03 2022-08-09 谱天(天津)生物科技有限公司 一种用于高通量检测中减少协变量对检测结果影响的分析方法
CN115905891B (zh) * 2022-12-19 2023-06-23 上海交通大学 基于pmu数据的配电网运行方式与关键影响因素识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205464A (ja) * 2008-02-28 2009-09-10 Gifu Univ 医療情報処理装置、医療情報処理方法、及び医療情報処理プログラム
JP6075279B2 (ja) * 2013-12-12 2017-02-08 日本電信電話株式会社 データ分析装置、方法およびプログラム

Also Published As

Publication number Publication date
JP2017054432A (ja) 2017-03-16

Similar Documents

Publication Publication Date Title
JP6369995B2 (ja) データ分析装置、データ分析方法およびデータ分析処理プログラム
Menon et al. The cost of fairness in binary classification
Bogunovic et al. Time-varying Gaussian process bandit optimization
Dubé et al. The joint identification of utility and discount functions from stated choice data: An application to durable goods adoption
Deng et al. Density estimation in R
US20200143252A1 (en) Finite rank deep kernel learning for robust time series forecasting and regression
Raza et al. Cloud sentiment accuracy comparison using RNN, LSTM and GRU
Makarova et al. Automatic termination for hyperparameter optimization
Wang et al. Modeling uncertainty to improve personalized recommendations via Bayesian deep learning
US20210042619A1 (en) Finite rank deep kernel learning with linear computational complexity
Shreyas et al. Predicting popularity of online articles using random forest regression
Luna et al. Adaptive fuzzy system to forecast financial time series volatility
Hathaway et al. Personalized priority policies in call centers using past customer interaction information
CA3119351C (en) Extending finite rank deep kernel learning to forecasting over long time horizons
JP6075279B2 (ja) データ分析装置、方法およびプログラム
Yamane et al. Uplift modeling from separate labels
JP2018067227A (ja) データ分析装置、データ分析方法、データ分析処理プログラム
Tiapkin et al. Fast rates for maximum entropy exploration
Saini et al. Forecasting volatility in indian stock market using State Space models
Liu et al. Ordinal random fields for recommender systems
Kole Markov switching models: An example for a stock market index
Huang et al. A network autoregressive model with GARCH effects and its applications
Tashkandi et al. Comparative Evaluation for Recommender Systems for Book Recommendations
JP5421842B2 (ja) 影響力解析装置、影響力解析方法、およびプログラム
Wegener et al. Forecasting in nonlinear univariate time series using penalized splines

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180709

R150 Certificate of patent or registration of utility model

Ref document number: 6369995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250