JP2017054432A

JP2017054432A - データ分析装置、データ分析方法およびデータ分析処理プログラム

Info

Publication number: JP2017054432A
Application number: JP2015179792A
Authority: JP
Inventors: 美幸今田; Miyuki Imada; 真人松尾; Masato Matsuo; 裕狩野; Hiroshi Kano; 慧廣瀬; Satoshi Hirose
Original assignee: Nippon Telegraph and Telephone Corp; Osaka University NUC
Current assignee: Nippon Telegraph and Telephone Corp; Osaka University NUC
Priority date: 2015-09-11
Filing date: 2015-09-11
Publication date: 2017-03-16
Anticipated expiration: 2035-09-11
Also published as: JP6369995B2

Abstract

【課題】高い精度で目的変数を予測することと、入力情報を少なくすることの両方を実現する。【解決手段】実施形態におけるデータ分析装置は、分析対象データの説明変数に上限数がなく、かつ、変数間の相関が所定の条件を満たして高い場合に、共通因子をまとめた分析対象データに対する因子回帰分析を行なう因子回帰分析実行手段と、説明変数に上限数があり、かつ、相関が所定の条件を満たして高い場合に、目的変数の予測に有用な回帰係数の絶対値が大きい説明変数を選択して上限数にあわせて回帰係数の絶対値が大きい説明変数を値の大きい順に上限数だけ選択した上での因子回帰分析であるスパース推定因子回帰分析を行なうスパース推定因子回帰分析実行手段とを有する。【選択図】図１

Description

本発明の実施形態は、データ分析装置、データ分析方法およびデータ分析処理プログラムに関する。

工学の中でもユーザ系のサービスを実現する分野では、ユーザの行動履歴を分析し、ユーザの嗜好や行動パターンに対する特徴量を抽出し、サービスの提案や行動予測する研究開発が数多く行われている。より人に寄り添ったサービスを実現するために、近年、心理学の知見を活用した学際領域の研究がいくつか行われている。

心理学の研究の中でも、人に対する気持ちや感情の傾向分析を、男女や年齢といった古典的に傾向が違うと言われている分類毎に実施したり、因子分析を使用して実施したりする研究が多くみられる。しかしながら、傾向分析は高い予測精度があまり求められない傾向もあり、予測精度は一般に３０％程度と言われている。なんらかの工学のサービスに心理学の知見を活用しようとした場合、予測精度が低すぎるため使用用途が限定される。より広いサービスへの適用を考えると、予測精度向上のための技術が必要である。

人の心理状態をできるだけ正しく分析するためには、様々な角度から調査したデータの分析をする必要がある。このため、統計分析の際に必要となる説明変数の種類は膨大となる上、予測したい目的変数も複数になることが多い。心理学の分析では、独立した目的変数であっても、「好き嫌い」と「尊敬軽蔑」のように、目的変数間には、“尊敬しているから好き、軽蔑しているから嫌い“といったような相関が少なからずあると考えられる。このような場合、２つの目的変数に対して独立に回帰分析を行うより、２つの目的変数間の相関を考慮して予測する方が、劇的に精度が向上することがある。

一方で、説明変数間にも相関がある場合、多重共線性の問題が出てきて予測結果が不安定になる。多重共線性とは、説明変数間に強い相関があることにより、計算ができなかったり、計算結果の信頼性が低くなったりすることである。

また、心理のような主観調査は、表現によって回答者に与える印象が異なるので、様々な表現の選択肢を準備する必要がある。例えば、相手を評価するポイントを聞く場合を考える。例えば、女性に対して男性を評価するポイントを調査する際、“容姿重視”という選択肢を入れたいとする。心理学の調査では、より人の真の嗜好を探るため、個々の女性の心に一番響く言葉を用意して調査する。“容姿重視”であれば、“イケメン”、“クール”、“カッコいい”、“見た目がよい”などの思いつく限りの容姿重視のバリエーションをすべて用意する。心理調査では、回答者によって言葉の響き具合が異なるので、全てのバリ―ションを用意し、選択回答させることが多い。結果として、多くの“回答されない”項が生じ、多くの欠損となる。

統計的モデル：小西，北川，"情報量基準"，朝倉書店，pp.1-4, 2013. Hirose et al., 2011：Hirose, K., Kawano, S., Konishi, S., & Ichikawa, M. (2011). Bayesian information criterion and selection of the number of factors in factor analysis models. Journal of Data Science, 9(2), 243-259.

目的変数の予測精度を高くするために、予測に必要な入力情報が膨大になったのでは、ユーザの使い勝手が悪い。入力情報が、最悪の場合、全て手入力になることまで考えると、入力を１０種類程度として安定して高い精度の予測を実現する必要がある。

このように、分析対象のデータが大量の欠損を含んだデータや多重共線性の問題を含むデータであっても、心理学の知見を工学に応用するためには、１０種類以下の入力で、５０％以上の予測精度を確保するための技術が必要となる。

本発明は上記実情に鑑みてなされたものであり、高い精度で目的変数を予測することと、入力情報を少なくすることの両方を実現できるデータ分析装置、データ分析方法およびデータ分析処理プログラムを提供することを目的とする。

上記目的を達成するために、この発明の実施形態におけるデータ分析装置の第１の態様は、分析対象データの欠損の有無を判定する欠損データ有無判定手段と、前記欠損がある場合に、前記分析対象データの説明変数の共通因子のみを潜在変数とみなしたＥＭアルゴリズムである改良ＥＭアルゴリズムを実行することで前記欠損を補完する改良ＥＭアルゴリズム実行手段と、前記欠損が補完された後に前記分析対象データの説明変数の次元数の上限数の有無を判定する次元数上限判定手段と、前記分析対象データの目的変数と前記説明変数との間の相関が所定の条件を満たして高いか否かを判定する相関確認手段と、前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子をまとめた前記分析対象データに対する因子回帰分析を行なう因子回帰分析実行手段と、前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択して前記上限数にあわせて前記回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記因子回帰分析であるスパース推定因子回帰分析を行なうスパース推定因子回帰分析実行手段とを備えた装置を提供する。

上記構成のデータ分析装置の第２の態様は、第１の態様において、前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高くない場合に、前記分析対象データに対する回帰分析を行なう回帰分析実行手段と、前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高くない場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択し、前記上限数にあわせて回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記回帰分析であるスパース推定回帰分析を行なうスパース推定回帰分析実行手段とを備えた装置を提供する。

上記構成のデータ分析装置の第３の態様は、第１の態様において、前記因子回帰分析実行手段は、前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子を前記潜在変数に含め、前記説明変数のとりうる値に確率分布を仮定した統計的モデルを用いて前記因子回帰分析を行ない、前記スパース推定因子回帰分析実行手段は、前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子を前記潜在変数に含め、前記説明変数のとりうる値に確率分布を仮定した統計的モデルを用いて前記スパース推定因子回帰分析を行なう装置を提供する。

本発明の実施形態におけるデータ分析方法の態様は、データ分析装置に適用される方法であって、分析対象データの欠損の有無を判定し、前記欠損がある場合に、前記分析対象データの説明変数の共通因子のみを潜在変数とみなしたＥＭアルゴリズムである改良ＥＭアルゴリズムを実行することで前記欠損を補完し、前記欠損が補完された後に前記分析対象データの説明変数の次元数の上限数の有無を判定し、前記分析対象データの目的変数と前記説明変数との間の相関が所定の条件を満たして高いか否かを判定し、前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子をまとめた前記分析対象データに対する因子回帰分析を行ない、前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択して前記上限数にあわせて前記回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記因子回帰分析であるスパース推定因子回帰分析を行なう方法を提供する。

本発明の実施形態におけるデータ分析処理プログラムの態様は、データ分析装置の一部分として動作するコンピュータに用いられるプログラムであって、前記コンピュータを、前記欠損データ有無判定手段、前記改良ＥＭアルゴリズム実行手段、前記次元数上限判定手段、前記相関確認手段、前記因子回帰分析実行手段、および前記スパース推定因子回帰分析実行手段として機能させるためプログラムを提供する。

本発明によれば、高い精度で目的変数を予測することと、入力情報を少なくすることの両方を実現することが可能になる。

本発明におけるデータ分析のための因子回帰モデルの一例を示す図。本発明の第１の実施形態におけるデータ分析システムの構成例を示すブロック図。本発明の第１の実施形態におけるデータ分析システムのサーバ３の機能構成例を示すブロック図。本発明の第１の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図。本発明の第１の実施形態におけるデータ分析システムの第１の処理動作の手順の一例を示すフローチャート。本発明の第１の実施形態におけるデータ分析システムの第２の処理動作の手順の一例を示すフローチャート。本発明の第１の実施形態におけるデータ分析システムの第３の処理動作の手順の一例を示すフローチャート。本発明の第２の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図。本発明の第２の実施形態におけるデータ分析システムの処理動作の手順の一例を示すフローチャート。本発明の第３の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図。本発明の第３の実施形態におけるデータ分析システムの処理動作の手順の一例を示すフローチャート。

以下、この発明に係わる実施形態を説明する。
本発明は、目的変数と説明変数の両方の変数間に相関がある場合でも、３項以上からなる目的変数であっても、また、大量のデータ欠損がある場合でも、目的変数を高い精度で予測することと、入力情報を少なくすることの両方を実現するための技術である。

本発明は、統計分析に必要なサンプル数が十分にある状況で、分析対象のデータの欠損率が高く、互いに相関がある説明変数や目的変数であっても、１つの式で高い精度での予測が実現できる技術に関する。なお、必要なサンプル数が十分といえる下限の目安は２０００であり、欠損率が高いといえる下限の目安は６０％であり、説明変数が多いといえる下限の目安は６０であり、高い精度の目安は目的変数が５項で５０％以上である。

まず、本発明におけるデータ分析のための各種のアルゴリズムについて説明する。
（第１のアルゴリズム）
第１のアルゴリズムでは、目的変数を説明変数に含めた因子回帰モデルを用いる。この因子回帰モデルは、因子分析モデル（式（１））と回帰モデル（式（２））とから成る。図１は、本発明におけるデータ分析のための因子回帰モデルの一例を示す図である。この図１におけるＦ_ｎはｎ次元潜在変数ベクトルである。

いま、ｑ次元目的変数ベクトルを式（２）の左辺とし、ｐ次元説明変数ベクトルを式（１）の左辺とする。
因子分析モデル（式（１））におけるμはｐ次元平均ベクトルであり、Λはｐ×ｍの因子負荷行列であり、ｆ_ｎはｎ次元潜在変数ベクトルであり、ξはｐ次元独自因子ベクトルである。

回帰モデル（式（２））におけるαは切片項であり、Θは回帰係数であり、εは誤差項である。上記の、目的変数を説明変数に含めたというのは、上記の式（１）、式（２）の共通部分ｆ_ｎが対応する。

この回帰モデルは、説明変数から目的変数を回帰させるわけでなく、説明変数から共通因子を見つけ出し、この共通因子からダイレクトに目的変数に回帰させるという仕組みを入れている。このため、目的変数間に相関があり、この目的変数に影響を与える説明変数の数が少ない場合においても、精度よくパラメータを推定できる。また、式（１）と式（２）を式（３）へ変換し、この式（３）を式（４）に変換することで、回帰モデルを因子分析モデルに帰着させることができるため、因子分析モデルと回帰モデルとを１つの式（式（４））で記述することができ、分析モデルを単純化できる。

実際に目的変数の予測を行なうときは、条件付き分布の平均を用いる。この予測については後述する。

以上のように、第１のアルゴリズムでは、目的変数を説明変数に含めた因子回帰モデルを用い、このモデルは、目的変数の数が多く、かつ目的変数同士に相関がある場合に有効に機能する。

（第２のアルゴリズム）
第２のアルゴリズムでは、第１のアルゴリズムに加えて、共通因子を潜在変数に含め、説明変数のとりうる値に確率分布を仮定した統計的モデルとしての因子回帰モデルを用いる。統計的モデルとは、統計学の専門用語であり、例えば、コイン投げを考えた場合、コインの表裏の目の出方が二項分布に従うといった、この二項分布の確率分布を意味する。この統計的モデルは、上記の非特許文献１にも記載されている。

第１のアルゴリズムで説明したように、回帰モデルを因子分析モデルに帰着させることができるため、パラメータを推定する際、これまで因子分析で用いられてきたアルゴリズムをそのまま用いることができる。また、各説明変数の誤差分布の共分散行列が異なる場合（すなわち、ｐ次元説明変数ベクトルの共分散行列Ψが、Ψ＝ｄｉａｇ（ψ_１，…，ψ_ｐ）で与えられるとき）でもパラメータの推定が可能となる。また、第１のアルゴリズムと同様に、回帰モデル推定を因子分析モデル推定に帰着させることができるため、因子間に相関がある場合でもパラメータの推定が可能となる。

（第３のアルゴリズム）
第３のアルゴリズムは、以下の式（５）から式（６）への変換で与えられる条件付き分布の平均を用いた目的変数予測に関する。

ただし、式（６）については以下の式（７）、式（８）が成り立つ。この式（７）の左辺は回帰係数行列である。

一般に、相関のある説明変数があることで係数行列Ｂが不安定になるという多重共線性という問題がある。因子回帰モデルでも、この問題は発生する。
以下の式（９）乃至（２０）では、独自分散Ψのいくつかの成分を０に近づけた時、この近づけ方によって係数の収束値が異なる、つまり独自分散Ψ_ｉと回帰係数Ｂ_ｉの収束先が異なることがされる。ここで、式（１０）などのδは調整パラメータを示し、式（９）などのＴは転置を示し、式（９）などのΦは因子間相関行列を示す。

上記の式（９）、（１０）、（１１）、（１２）に基づいて、以下の式（１３）、（１４）を導くことができる。

また、上記の式（１１）、（１２）に基づいて、以下の式（１５）、（１６）を導くことができ、これらの式（１５）、（１６）に基づいて、以下の式（１７）を導くことができる。

また、上記の式（１３）、（１４）に基づいて、以下の式（１８）、（１９）を導くことができ、これらの式（１８）、（１９）に基づいて、以下の式（２０）を導くことができる。

上記の多重共線性の問題は、因子分析モデルにおける、誤差分散の推定値が負となる不適解問題と対応する。この不適解問題を解決するためには、独自分散Ψの推定値を０から遠ざけるための方法が必要となる。

この不適解問題に対しては、独自分散に関する罰則項を入れた罰則付き最尤法を用いることによって対処することができる。次に、この罰則付き最尤法による推定について述べる。

罰則付き対数尤度関数は、以下の式（２１）で表すことができる。

この罰則付き対数尤度関数の右辺の第１項は対数尤度関数を示し、第２項が罰則項に対応する。この罰則付き対数尤度関数は、上記の非特許文献２にも記載されている。この罰則項は、独自分散の推定値を０から遠ざける役割を果たす。

ここで、式（２１）のｓ_ｉｉはサンプル分散共分散行列の（ｉ，ｉ）番目の要素であり、式（２１）のρは、チューニングパラメータベクトルである。
上記の式（２１）の罰則項は、因子回帰モデルのリッジ（ridge）ペナルティに対応し、目的変数の予測に関して最適なペナルティであることが知られており、以下の式（２２）が成り立つ。

この式（２２）の右辺の第１項は、ＥＭ（Expectation Maximization）アルゴリズム（期待値最大化法）で得られる最尤推定値に対応し、第２項は、独自分散の推定値を０から遠ざける役割を果たす。

このように、独自分散の推定値を０から遠ざけることが、係数の収束値を一致させることにつながる。
この罰則付き最尤法によって、独自分散の推定値を０から遠ざけることができるようになるため、上記の多重共線性の問題が解決できる。

つまり、第３のアルゴリズムを用いれば、相関のある説明変数があることで目的変数の予測精度が上がらないような回帰分析であっても、相関のある説明変数を因子分析でまとめた上で回帰分析を実施することで、精度を落とすことなく回帰分析を実施できる。

（第４のアルゴリズム）
第４のアルゴリズムでは、第３のアルゴリズムにおいて、因子負荷行列がスパース（sparse（すなわちほとんどの成分が０である））となるようなスパース推定法を用いる。ここでは、因子負荷量にも罰則項を加えた罰則付き最尤法を用いる。この関数は、以下の式（２３）で表すことができる。

式（２３）の右辺の第２項である罰則項はＬ１正則化法（lasso）に基づいており、パラメータに関して微分不可能な項を含むが、座標降下法（Coordinate descent method）を用いることによって効率的にパラメータを推定できる。ここで、式（２３）の右辺の第２項の

は、lassoペナルティである。
スパース推定を行うことで、目的変数の予測式を導出するのに必要な説明変数の項目数が多くなっても、新しいデータが得られた時に、目的変数の予測に有用な回帰係数の絶対値が大きい説明変数のみを選択できるため、安定して予測ができる。また、目的変数の予測に有用な説明変数のみを選択できるので、目的変数の予測誤差を小さくでき、結果としてユーザの入力負荷も減らすことができる。

（第５のアルゴリズム）
第５のアルゴリズムでは、第１ないし第４のアルゴリズムで述べた因子回帰分析に用いるデータに大量に欠損がある場合についても因子回帰分析が可能な方法について述べる。分析対象のデータがランダムに欠損している場合、尤度の最大化によってＥＭアルゴリズムにおけるｑ次元パラメータθ＝（θ_１，…，θ_ｑ）Ｔを推定できるが、通常の因子分析のＥＭアルゴリズムを用いると、推定の速度が極端に低速となり実用的でない。

そこで、第５のアルゴリズムでは、欠損値を潜在変数とみなさず、共通因子のみを潜在変数とみなした改良ＥＭアルゴリズムを構築することによって、高速にパラメータを推定できる。パラメータの推定値は、以下の式（２４）で示す完全情報罰則付き対数尤度関数を最大にすることにより得られる。

ただし、式（２４）の

は、完全体数尤度関数であり、式（２４）の左辺は、この左辺にデータｘ_ｎが与えられた時の当該左辺のｆ_ｎに関する事後期待値である。このｆ_ｎは潜在変数ベクトルである。

式（２４）については、以下の式（２５）、（２６）、（２７）が成り立つ。

また、式（２４）については、以下の式（２８）、（２９）が成り立つ。

式（２７）などのＭ_nついては、以下の式（３０）が成り立つ。

式（２４）に示した完全情報罰則付き対数尤度関数の最大化により、通常のＥＭアルゴリズムを用いた場合よりもサイズの小さい行列に基づいた計算ができるようになる。このため、因子回帰分析を行うためのデータに６０％以上の大量欠損が発生しても高速に欠損値を補完しながら因子回帰分析を実行できる。

このように、第５のアルゴリズムを用いれば、データに欠損がある場合に、改良ＥＭアルゴリズムを使うことで、欠損値を補完しながら因子回帰分析を実施できる。

（第１の実施形態）
本発明の第１の実施形態では、上記の第１ないし第３のアルゴリズム用いたデータ分析装置について説明する。図２は、本発明の第１の実施形態におけるデータ分析システムの構成例を示すブロック図である。
図２に示すように、このシステムは、ネットワーク１にデータ生成端末２、サーバ（データ分析装置）３、管理端末４が接続される。データ生成端末２は、分析するデータを生成する。サーバ３は、データ生成端末２で生成されたデータの格納および分析を行う。管理端末４は、分析されたデータを活用する。

図３は、本発明の第１の実施形態におけるデータ分析システムのサーバの機能構成例を示すブロック図である。
図３に示すように、サーバ３は、入力部９１、分析対象データ記憶部９２、分析部９３、分析結果データ記憶部９４、出力部９５を有する。入力部９１は、データ生成端末２からネットワーク１を介しての分析対象のデータを受け付ける。分析対象データ記憶部９２は、例えば不揮発性メモリなどの記憶媒体であり、分析対象データを格納する。分析部９３は、分析対象データ記憶部９２に記憶された分析対象のデータに対して、任意のタイミングで分析を実施する。分析結果データ記憶部９４は、例えば不揮発性メモリなどの記憶媒体であり、分析結果のデータを格納する。出力部９５は、分析結果のデータを管理端末４へ送信する。

図４は、本発明の第１の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図である。
図４に示すように、サーバ３の分析部９３は、相関確認部１０１、因子回帰分析実行部１０２、回帰分析実行部１０３、分析結果送信部１０４を有する。

相関確認部１０１は、説明変数および目的変数の間に多重共線性の問題があるか否かを確認する。因子回帰分析実行部１０２は、説明変数および目的変数の間に多重共線性の問題がある場合に因子回帰分析を行う。回帰分析実行部１０３は、説明変数および目的変数の間に多重共線性の問題がない場合に通常の回帰分析を行う。分析結果送信部１０４は、分析結果のデータを分析結果データ記憶部９４へ格納する。

図５は、本発明の第１の実施形態におけるデータ分析システムの第１の処理動作の手順の一例を示すフローチャートである。
実世界の情報やＷｅｂから収集した情報は、データ生成端末２を介して、分析対象の時データとしてサーバ３へ送信される（Ｓ１１）。サーバ３は、入力部９１が入力したデータを分析対象データ記憶部９２へ格納する（Ｓ１２）。

図６は、本発明の第１の実施形態におけるデータ分析システムの第２の処理動作の手順の一例を示すフローチャートである。
分析部９３は、任意のタイミングで回帰分析を開始する（Ｓ２１）。まず、分析部９３は、分析対象データ記憶部９２から回帰分析に必要なデータを読み込む（Ｓ２２）。相関確認部１０１は、説明変数および目的変数の間に強い相関（相関係数だと０．６または０．７以上）があるか否かを確認する（Ｓ２３）。

強い相関がある場合（Ｓ２４のＹｅｓ）、多重共線性の問題が発生するため、因子回帰分析実行部１０２は、第３のアルゴリズムで説明した、共通因子をまとめたものに対する回帰分析である因子回帰分析を行う（Ｓ２５）。この因子開始分析では、第２のアルゴリズムで説明したように、共通因子を潜在変数に含め、説明変数のとりうる値に確率分布を仮定した統計的モデルとしての因子回帰モデルを用いてもよい。

一方、強い相関がない場合（Ｓ２４のＮｏ）、各変数は独立因子とみなすことができるため、回帰分析実行部１０３は、通常の回帰分析を行う（Ｓ２６）。
分析結果送信部１０４は、因子回帰分析実行部１０２または回帰分析実行部１０３による分析結果のデータを、分析結果データ記憶部９４へ格納する（Ｓ２７）。

図７は、本発明の第１の実施形態におけるデータ分析システムの第３の処理動作の手順の一例を示すフローチャートである。
分析結果データ記憶部９４に格納されたデータは、任意のタイミングで、出力部９５とネットワーク１を介して、管理端末４へ送信される（Ｓ３１）。

以上のように第１の実施形態では、分析対象のデータが、説明変数および目的変数の間に相関があるデータであっても、高い精度で目的変数を予測可能な因子回帰分析を実行できる。

（第２の実施形態）
本発明の第２の実施形態では、本発明の第１の実施形態で説明したサーバ３の分析部９３の因子回帰分析実行部１０２および回帰分析実行部１０３により処理する説明変数の次元数を減らしたい場合に、目的変数を予測するために有効な説明変数のみを用いて安定した予測を実現するためのLassoタイプの正則化法に基づくスパース推定を行う。

図８は、本発明の第２の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図である。
図８に示すように、本発明の第２の実施形態におけるサーバ３の分析部９３は、第１の実施形態で説明した相関確認部１０１、因子回帰分析実行部１０２、回帰分析実行部１０３、分析結果送信部１０４に加え、説明変数の次元数上限判定部１７１、スパース推定因子回帰分析実行部１７２、およびスパース推定回帰分析実行部１７３を有する。

スパース推定因子回帰分析実行部１７２およびスパース推定回帰分析実行部１７３は、説明変数を減らすための第４のアルゴリズムを実現する。説明変数の次元数上限判定部１７１は、説明変数を減らす必要があるかの判断を行うために、説明変数の次元数に上限があるか否かを判定する。

ここで、本実施形態を利用するアプリケーションのニーズに合わせて、ユーザは、説明変数の次元数上限判定部１７１に、目的変数の予測にあたり許容できる数として、説明変数の数の上限ｎを設定する。
ここで設定する数は、目的変数の予測に必要な回帰式の説明変数の上限であり、導出した回帰式で目的変数の値を算出するために必要な入力の数となる。目安としては、株価予測のようなアプリケーションで回帰式の入力となる説明変数の次元数に上限がなければ「ｎ＝∞」の値が設定され、占いなどのユーザの手入力を前提とするようなアプリケーションでは、ユーザの入力負荷を考えると「ｎ＝１０」程度の値が設定される。

図９は、本発明の第２の実施形態におけるデータ分析システムの処理動作の手順の一例を示すフローチャートである。ここでは、説明変数の次元数の上限を設定した場合の処理動作について説明する。
まず、分析部９３は、分析対象データ記憶部９２から回帰分析に必要なデータを読み込む（Ｓ４１）。そして、分析部９３は、説明変数の次元数上限判定部１７１は、設定された数ｎを確認する（Ｓ４２）。このｎが∞の場合、つまり説明変数の上限がない場合は（Ｓ４３のＹｅｓ）、第１の実施形態で説明したＳ２３以降の処理がなされる。
一方、ｎが∞でない場合、つまり説明変数の上限がある場合は（Ｓ４３のＮｏ）、相関確認部１０１は、説明変数および目的変数の間に強い相関があるか否かを確認する。

強い相関がある場合（Ｓ４４のＹｅｓ）、多重共線性の問題が発生するため、分析部９３は、スパース推定因子回帰分析実行部１７２を動作させる（Ｓ４５）。強い相関がない場合（Ｓ４４のＮｏ）、分析部９３は、スパース推定回帰分析実行部１７３を動作させる（Ｓ４６）。

スパース推定因子回帰分析実行部１７２やスパース推定回帰分析実行部１７３におけるスパース推定では、目的変数の予測に有用な回帰係数の絶対値が大きい説明変数を選択した後、入力の上限ｎに合わせて、回帰係数の絶対値の大きい説明変数を大きい順に最大ｎ個まで選択する（Ｓ４７）。

そして、分析結果送信部１０４は、スパース推定因子回帰分析実行部１７２またはスパース推定回帰分析実行部１７３による分析結果のデータを、分析結果データ記憶部９４へ格納する（Ｓ４８）。

以上のように、本発明の第２の実施形態では、スパース推定（Lasso）を使って変数の次元数を減らすことで、少ない説明変数で安定した目的変数予測が可能となるだけでなく、ユーザの入力負荷を軽減できる。また、第２のアルゴリズムで説明したように、説明変数のとりうる値に確率分布を仮定した統計的モデルを用いることで、各説明変数の誤差分布が異なる場合でも、回帰係数の推定が可能となる。

（第３の実施形態）
本発明の第３の実施形態は、本発明の第１または第２の実施形態で説明したデータ分析装置において、第４および第５のアルゴリズムに基づく処理を実現するものである。以下では、本発明の第２の実施形態で説明したデータ分析装置において、第４および第５のアルゴリズムに基づく機能を追加した例について説明する。

図１０は、本発明の第３の実施形態におけるデータ分析システムのサーバの分析部の機能構成例を示すブロック図である。
図１０に示すように、本発明の第３の実施形態におけるサーバ３の分析部９３は、第２の実施形態で説明した相関確認部１０１、因子回帰分析実行部１０２、回帰分析実行部１０３、分析結果送信部１０４、説明変数の次元数上限判定部１７１、スパース推定因子回帰分析実行部１７２、およびスパース推定回帰分析実行部１７３に加え、分析対象のデータに欠損があるか否かを判定する欠損データ有無判定部１８１と、欠損があった場合に高速で欠損値補完を行う改良ＥＭアルゴリズム実行部１８２をさらに有する。

図１１は、本発明の第３の実施形態におけるデータ分析システムの処理動作の手順の一例を示すフローチャートである。
まず、サーバ３の分析部９３は、分析対象データ記憶部９２から回帰分析に必要なデータを読み込む（Ｓ５１）。
そして、欠損データ有無判定部１８１は、この読み込んだデータに欠損があるか否かを判定する（Ｓ５２）。

欠損がない場合は（Ｓ５３のＹｅｓ）、第２の実施形態で説明した、Ｓ４２以降の処理がなされる。

一方、欠損がある場合は（Ｓ５３のＮｏ）、改良ＥＭアルゴリズム実行部１８２は、改良ＥＭアルゴリズムを使って、分析対象のデータの欠損値補完を行う（Ｓ５４）。欠損値補完がなされた後は、第２の実施形態で説明した、Ｓ４２以降の処理がなされる。

分析対象のデータに欠損がある場合、因子分析が困難になる。そこで、第３の実施形態では、高速にＥＭアルゴリズムを実行する改良ＥＭアルゴリズム実行部８２により欠損部分を補完する。これにより、分析対象のデータに欠損があっても、第２の実施形態で説明した因子回帰分析、またはスパース推定因子回帰分析を実行することができるようになる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

また、各実施形態に記載した手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウエア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ等）等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段（実行プログラムのみならずテーブルやデータ構造も含む）を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスクや半導体メモリ等の記憶媒体を含むものである。

１…ネットワーク、２…データ生成端末、３…サーバ、４…管理端末、９１…入力部、９２…分析対象データ記憶部、９３…分析部、９４…分析結果データ記憶部、９５…出力部、１０１…相関確認部、１０２…因子回帰分析実行部、１０３…回帰分析実行部、１０４…分析結果送信部、１７１…説明変数の次元数上限判定部、１７２…スパース推定因子回帰分析実行部、１７３…スパース推定回帰分析実行部、１８１…欠損データ有無判定部、１８２…改良ＥＭアルゴリズム実行部。

Claims

分析対象データの欠損の有無を判定する欠損データ有無判定手段と、
前記欠損がある場合に、前記分析対象データの説明変数の共通因子のみを潜在変数とみなしたＥＭアルゴリズムである改良ＥＭアルゴリズムを実行することで前記欠損を補完する改良ＥＭアルゴリズム実行手段と、
前記欠損が補完された後に前記分析対象データの説明変数の次元数の上限数の有無を判定する次元数上限判定手段と、
前記分析対象データの目的変数と前記説明変数との間の相関が所定の条件を満たして高いか否かを判定する相関確認手段と、
前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子をまとめた前記分析対象データに対する因子回帰分析を行なう因子回帰分析実行手段と、
前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択して前記上限数にあわせて前記回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記因子回帰分析であるスパース推定因子回帰分析を行なうスパース推定因子回帰分析実行手段と
を備えたことを特徴とする、データ分析装置。
前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高くない場合に、前記分析対象データに対する回帰分析を行なう回帰分析実行手段と、
前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高くない場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択し、前記上限数にあわせて回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記回帰分析であるスパース推定回帰分析を行なうスパース推定回帰分析実行手段と
をさらに備えたことを特徴とする請求項１に記載のデータ分析装置。
前記因子回帰分析実行手段は、
前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子を前記潜在変数に含め、前記説明変数のとりうる値に確率分布を仮定した統計的モデルを用いて前記因子回帰分析を行ない、
前記スパース推定因子回帰分析実行手段は、
前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子を前記潜在変数に含め、前記説明変数のとりうる値に確率分布を仮定した統計的モデルを用いて前記スパース推定因子回帰分析を行なう
ことを特徴とする請求項１に記載のデータ分析装置。
データ分析装置に適用される方法であって、
分析対象データの欠損の有無を判定し、
前記欠損がある場合に、前記分析対象データの説明変数の共通因子のみを潜在変数とみなしたＥＭアルゴリズムである改良ＥＭアルゴリズムを実行することで前記欠損を補完し、
前記欠損が補完された後に前記分析対象データの説明変数の次元数の上限数の有無を判定し、
前記分析対象データの目的変数と前記説明変数との間の相関が所定の条件を満たして高いか否かを判定し、
前記説明変数に上限数がなく、かつ、前記相関が前記所定の条件を満たして高い場合に、前記共通因子をまとめた前記分析対象データに対する因子回帰分析を行ない、
前記説明変数に上限数があり、かつ、前記相関が前記所定の条件を満たして高い場合に、前記目的変数の予測に有用な回帰係数の絶対値が大きい前記説明変数を選択して前記上限数にあわせて前記回帰係数の絶対値が大きい説明変数を値の大きい順に前記上限数だけ選択した上での前記因子回帰分析であるスパース推定因子回帰分析を行なう
ことを特徴とするデータ分析方法。
請求項１に記載のデータ分析装置の一部分として動作するコンピュータに用いられるプログラムであって、
前記コンピュータを、
前記欠損データ有無判定手段、前記改良ＥＭアルゴリズム実行手段、前記次元数上限判定手段、前記相関確認手段、前記因子回帰分析実行手段、および前記スパース推定因子回帰分析実行手段
として機能させるためのデータ分析処理プログラム。