JP6075279B2 - Data analysis apparatus, method and program - Google Patents

Data analysis apparatus, method and program Download PDF

Info

Publication number
JP6075279B2
JP6075279B2 JP2013257489A JP2013257489A JP6075279B2 JP 6075279 B2 JP6075279 B2 JP 6075279B2 JP 2013257489 A JP2013257489 A JP 2013257489A JP 2013257489 A JP2013257489 A JP 2013257489A JP 6075279 B2 JP6075279 B2 JP 6075279B2
Authority
JP
Japan
Prior art keywords
data
observed
analysis
storage medium
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013257489A
Other languages
Japanese (ja)
Other versions
JP2015114916A (en
Inventor
美幸 今田
美幸 今田
吉田 学
学 吉田
真人 松尾
真人 松尾
裕 狩野
裕 狩野
慧 廣瀬
慧 廣瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Osaka University NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Osaka University NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013257489A priority Critical patent/JP6075279B2/en
Publication of JP2015114916A publication Critical patent/JP2015114916A/en
Application granted granted Critical
Publication of JP6075279B2 publication Critical patent/JP6075279B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Description

この発明は、収集されたデータを、潜在変数を仮定する統計的モデルを用いて分析するデータ分析装置方法およびプログラムに関する。 The present invention relates to a data analysis apparatus , method, and program for analyzing collected data using a statistical model that assumes latent variables.

近年、ソーシャルネットワークサービス(SNS)の利用履歴や、インターネットショッピングの購買履歴、携帯端末の位置情報を用いた滞在地履歴、プリペイドカードの利用により蓄積される購買履歴等のように、多種多量のデータが簡単に収集できるようになってきた。   In recent years, a large amount of data such as social network service (SNS) usage history, Internet shopping purchase history, location history using mobile terminal location information, purchase history accumulated by using prepaid cards, etc. Has become easy to collect.

反面、これらのデータは、ユーザやサービスプロバイダが自由に設定したものが多く、それを別の目的で分析する場合には、目的に合ったデータが必ずしもすべて揃っているとは限らない。このため、目的に合った分析を行うためにはデータ欠損の問題を解決しなければならない。   On the other hand, many of these data are freely set by users and service providers, and when analyzing them for another purpose, not all data suitable for the purpose is necessarily prepared. For this reason, in order to perform analysis suitable for the purpose, the problem of data loss must be solved.

目的とするデータを効率良く収集する手法の一つとして、アンケートがある。アンケートは、人々の意識や行動等の実態をとらえるための社会調査を行う際に有効である。社会調査には、国勢調査のような大量のデータをとり社会の全体像を把握することを目的とする統計的社会調査と、少人数へのインタビューや参与観察などの事例的社会調査の2つに大別できる。   One method for efficiently collecting the target data is a questionnaire. The questionnaire is effective when conducting social surveys to capture the actual situation of people's consciousness and behavior. There are two types of social surveys: statistical social surveys aimed at obtaining a large picture of society by taking a large amount of data, such as the national census, and case-based social surveys such as interviews with small groups and participation observations. Can be broadly divided.

このうち、統計的社会調査の手法としては、面接法、とめおき法、郵送法、集合法、電話法、電子法(ネット調査、Web調査等と呼ばれるもの)等があるが、いずれも予め定めた質問項目(アンケート)に対して、対象者の回答を集める方法である。特に電子法は、インターネットにつながる環境にあるすべての人が登録できるため、年齢、職業、居住地等、様々な属性の人の情報を収集できる。また、通常、会員は数万人以上の規模の会社が多いため、欲しいユーザ属性の条件を絞ったとしても容易に数千人のデータを収集できる。しかしながら、いずれの方法もすべての質問項目に対して全員から回答を得ることが難しい。   Among these, statistical social survey methods include the interview method, tome method, mail method, collective method, telephone method, and electronic method (what are called online surveys, web surveys, etc.). This is a method of collecting the responses of the target person to the question items (questionnaire). In particular, in the electronic law, since all people in an environment connected to the Internet can register, it is possible to collect information on people of various attributes such as age, occupation, and residence. In addition, since there are usually many companies with tens of thousands of members, it is possible to easily collect data of thousands even if the user attribute conditions are narrowed down. However, in either method, it is difficult to obtain answers from all of the questions.

設問数を減らし回答者負荷をできるだけ軽減することで高い精度の回答を得る手法として、回答者の意思により該当する設問に答えるか否かを決める選択回答がある。これは、問われている設問に答えたくない場合や、一つの設問に対し選択肢が複数ある場合に使われる。そのため収集した回答データに欠損が生じる。   As a method of obtaining a highly accurate answer by reducing the number of questions and reducing the respondent load as much as possible, there is a selection answer that determines whether or not to answer the corresponding question according to the intention of the respondent. This is used when you do not want to answer the question being asked, or when you have multiple options for a single question. As a result, the collected response data is deficient.

これまで、データに欠損があってもその変数がなぜ欠損したのかという欠損メカニズム(missing mechanism)は、Rubinの研究(例えば非特許文献1を参照)以来、以下の3通りに分けて考えられてきた(例えば非特許文献2を参照)。
(1)完全にランダムな欠損 Missing Completely At Random (MCAR)
どの値が欠損するかは完全にランダムである。
(2)ランダムな欠損 Missing At Random (MAR)
どの値が欠損するかはデータに依存してもよいが、欠損値には依存しない。
(3)ランダムでない欠損 Not Missing at Random(NMAR)
欠損するかどうかは、欠損値そのものの値や、観測していない他の変数にも依存する。
これらのどれを仮定できるかによって、データの解析方法が異なる。
So far, the missing mechanism of why the variable is missing even if the data is missing has been considered in the following three ways since Rubin's research (see Non-Patent Document 1, for example). (See Non-Patent Document 2, for example).
(1) Missing Completely At Random (MCAR)
Which values are missing is completely random.
(2) Missing At Random (MAR)
Which values are missing may depend on the data, but not on missing values.
(3) Non-random defects Not Missing at Random (NMAR)
Whether it is missing depends on the value of the missing value itself and other variables that have not been observed.
The data analysis method differs depending on which of these can be assumed.

欠損のメカニズムがMARあるいはMCARだと仮定すると、統計的モデルのパラメータ推定方法として、完全情報最尤法を適用できる。そのアルゴリズムとして、具体的には疑似ニュートン法や、潜在変数と欠損値両方を完全データに含めるEMアルゴリズム(例えば非特許文献3を参照)が挙げられる。
ところで、多くの統計モデルは潜在変数を仮定している。特にアンケートデータの解析では、隠れた因子を見出す因子分析モデルやそれを一般化した構造方程式モデリング、さらに時間の変化をモデリングできる隠れマルコフモデルなど、様々な潜在変数を含むモデルがある。
Assuming that the loss mechanism is MAR or MCAR, the full information maximum likelihood method can be applied as a parameter estimation method for statistical models. Specific examples of the algorithm include a pseudo-Newton method and an EM algorithm that includes both latent variables and missing values in complete data (see, for example, Non-Patent Document 3).
By the way, many statistical models assume latent variables. Especially in the analysis of questionnaire data, there are models including various latent variables, such as a factor analysis model that finds hidden factors, a structural equation modeling that generalizes them, and a hidden Markov model that can model changes in time.

なお、潜在変数とは、観測されない変数のことをいう。例えば、国、数、社、理、英の5教科のテストの点数のデータがあったとし、2因子モデルを当てはめる。このとき、2つの因子(たとえば、理系得点、文系得点)は潜在変数である。何故なら、理系得点、文系得点は観測できないからである。   The latent variable means a variable that is not observed. For example, assuming that there are test score data for five subjects: country, number, company, science, and English, a two-factor model is applied. At this time, two factors (for example, a science score and a literary score) are latent variables. This is because science scores and humanities scores cannot be observed.

これに対し、欠損値あるいは欠損とは、観測し得るはずの変数が観測できないことをいう。例えば、アンケートデータで「年収」という項目があったとする。年収は、答えたくない人もいるので、空欄にすることがよくある。このように、実際にはデータがあるはずなのに、何らかの理由で観測することができないことをいう。
すなわち、欠損値と潜在変数との違いは、欠損値は本来観測し得るが、潜在変数は決して観測されることはないという点である。
In contrast, missing values or missing values mean that variables that should be observable cannot be observed. For example, it is assumed that there is an item “annual income” in the questionnaire data. Some people do not want to answer their annual income, so it is often left blank. In this way, it means that data cannot be observed for some reason even though there should actually be data.
That is, the difference between missing values and latent variables is that missing values can be observed originally, but latent variables are never observed.

先ず、欠損のあるデータを用いて、潜在変数を含む統計的モデルを推定するEMアルゴリズムについて述べる。p次元観測変数をX=(X1,…,Xp)T、m次元潜在変数ベクトルをF=(F1,…,Fm)Tとする。いま、q次元パラメータθ=(θ1,…,θq)Tを最尤法によって推定することを考える。観測変数に欠損がある場合を、n番目の観測に対し、観測データをX[n]、欠損値をX_[n]と記述すると、完全データはXn=[X[n],X_[n]]と表される。このとき、EMアルゴリズムでは、完全対数尤度の観測データが与えられたもとでの条件付き期待値E[logf(xn,fn)|x[n]]を計算する必要がある。データが独立同分布に従うとすると、条件付き期待値は First, an EM algorithm for estimating a statistical model including latent variables using missing data will be described. Assume that the p-dimensional observation variable is X = (X1,..., Xp) T and the m-dimensional latent variable vector is F = (F1,..., Fm) T. Now, it is assumed that the q-dimensional parameter θ = (θ1,..., Θq) T is estimated by the maximum likelihood method. When the observation variable is missing, if the observation data is described as X [n] and the missing value as X_ [n] for the nth observation, the complete data is Xn = [X [n], X_ [n]. ]. At this time, in the EM algorithm, it is necessary to calculate the conditional expected value E [logf (xn, fn) | x [n]] with the observation data of the complete log likelihood being given. If the data follow an independent equidistribution, the conditional expectation is

で与えられる。ここで、f(xn,fn)は、観測データと潜在変数の同時分布、Nはサンプルサイズである。 Given in. Here, f (xn, fn) is the simultaneous distribution of the observation data and the latent variable, and N is the sample size.

しかしながら、大量欠損がある場合、この条件付き期待値を計算するコストが大きくなることが多い。例えば、潜在変数を含むモデルの中でよく用いられる手法として、観測変数が潜在変数の一次結合で表される因子分析モデルがある。この因子分析モデル式を図15の式(1)に示す。   However, when there is a large amount of defects, the cost of calculating this conditional expected value often increases. For example, as a technique often used in a model including a latent variable, there is a factor analysis model in which an observed variable is represented by a linear combination of latent variables. This factor analysis model equation is shown in equation (1) in FIG.

因子分析モデルでは、観測変数ベクトルと潜在変数ベクトルとの間に線形関係X−μ=ΛF+εが成り立つと仮定する(図16の式(2))。ただし、μ=(μ1,…,μp)T はp次元平均ベクトル、Λ=(λij)はp×mの因子負荷行列、ε=(ε1,…,εp)T はp次元独自因子ベクトルとする(図16の式(3))。 In the factor analysis model, it is assumed that a linear relationship X−μ = ΛF + ε holds between the observed variable vector and the latent variable vector (equation (2) in FIG. 16). Where μ = (μ1,..., Μp) T is a p-dimensional average vector, Λ = (λij) is a p × m factor loading matrix, and ε = (ε1,..., Εp) T is a p-dimensional unique factor vector. (Formula (3) in FIG. 16).

共通因子ベクトルと独自因子ベクトルに正規性を仮定する直交因子モデル(図17の式(4))に対し、観測変数ベクトルは多変量正規分布に従い、その共分散行列は、cov[X]=ΛΛT+Ψで与えられる(図17の式(5))。但し、Ψ=diag(ψ1,…,ψp)は独自分散を表す(図17の式(4))。いま、完全データx1,…,xNが与えられたとき、最尤法によってモデルを推定することを考える。そうすると、図18に示すように対数尤度関数は、 In contrast to the orthogonal factor model (Equation (4) in FIG. 17) assuming normality for the common factor vector and the unique factor vector, the observed variable vector follows a multivariate normal distribution, and its covariance matrix is cov [X] = ΛΛ. It is given by T + Ψ (equation (5) in FIG. 17). However, ψ = diag (ψ1,..., Ψp) represents the unique variance (formula (4) in FIG. 17). Now, when complete data x1,..., XN are given, it is assumed that the model is estimated by the maximum likelihood method. Then, as shown in FIG. 18, the log likelihood function is

で与えられる。ここで、Σ=ΛΛT+Ψである。 Given in. Here, Σ = ΛΛ T + ψ.

次に、観測変数に欠損がある場合を考える。図19はそのモデル推定を示すものである。図19の式(7)に示すようにデータを観測値と欠損値とに分け、観測変数の期待値及び共分散行列をそれぞれE(X[n])=μ[n] ,Cov(X[n])=Σ[n]と表すと、MARのもとでの尤度は、図19に示すように   Next, let us consider the case where the observed variable is missing. FIG. 19 shows the model estimation. As shown in the equation (7) of FIG. 19, the data is divided into observed values and missing values, and the expected values and covariance matrices of the observed variables are E (X [n]) = μ [n], Cov (X [ n]) = Σ [n], the likelihood under the MAR is as shown in FIG.

と記述できる。 Can be described.

このとき、対数尤度関数は図19に示すように
と表現される。
At this time, the log likelihood function is as shown in FIG.
It is expressed.

従来は、2〜3割の欠損で数100のサンプルに対する因子分析の問題に取り組んできた。その条件での因子分析の欠損値問題に対し、MARを仮定したときの最尤推定値を計算するアルゴリズムとして、これまで以下の方法が用いられてきた。
(A)オブザーベーションごとに観測変数の尤度を積み上げ、その値が最大になるようなパラメータを求める、完全情報最尤推定値を疑似ニュートン法によって計算する方法。
(B)共通因子と観測変数の欠損の両方を完全データに含めたEMアルゴリズムを使う方法(例えば非特許文献4を参照)。
なお、「完全データ」とは、欠損値や潜在変数など、観測されないデータが仮に取得されたとしたときのデータのことである。
In the past, we have addressed the problem of factor analysis for several hundred samples with 20-30% deficiencies. To solve the missing value problem of factor analysis under that condition, the following method has been used as an algorithm for calculating the maximum likelihood estimate when MAR is assumed.
(A) A method of calculating a complete information maximum likelihood estimated value by a pseudo-Newton method in which the likelihood of an observation variable is accumulated for each observation and a parameter that maximizes the value is obtained.
(B) A method using an EM algorithm in which both common factors and missing observation variables are included in complete data (for example, see Non-Patent Document 4).
“Complete data” refers to data when data that is not observed, such as missing values and latent variables, is temporarily acquired.

上記2つの方法のうち、(A)のニュートン法は、図20に示す手法により計算するが、観測変数の数が大きい場合にはパラメータ数が増加するために計算が遅くなり、不安定になることが知られている。例えば、欠損をランダムに発生させ、欠損率を90%、サンプル数を20,000とした時の計算時間は、既存のOpenMxという統計ツールを使って計算したところ、CPUの動作周波数が2.3GHz、メモリ容量が16GB、汎用のOS(Operating System)を備えたパーソナルコンピュータを使って1日以上を要した。また、初期値に大きく依存し、ある初期値に対してはパラメータの値が発散した。   Of the above two methods, the Newton method of (A) is calculated by the method shown in FIG. 20, but when the number of observation variables is large, the number of parameters increases and the calculation becomes slow and unstable. It is known. For example, the calculation time when a defect is randomly generated, the defect rate is 90%, and the number of samples is 20,000 is calculated using the existing statistical tool called OpenMx. The operating frequency of the CPU is 2.3 GHz and the memory capacity However, it took more than a day using a personal computer with a 16GB general-purpose OS (Operating System). Also, it greatly depends on the initial value, and the parameter value diverges for a certain initial value.

一方、(B)のEMアルゴリズムは、図21に示すように直接観測することのできない潜在変数(共通因子)と欠損値を完全データに含める。このとき、完全対数尤度関数は図21に記載した式(11)で与えられる。ここで、完全対数尤度の期待値を計算する上では図21の式(12)が計算できれば十分であるが、欠損数が大きいときに、計算が著しく遅くなる。   On the other hand, the EM algorithm of (B) includes latent variables (common factors) and missing values that cannot be directly observed as shown in FIG. 21 in complete data. At this time, the complete log likelihood function is given by equation (11) shown in FIG. Here, in order to calculate the expected value of the complete log likelihood, it is sufficient if the expression (12) of FIG. 21 can be calculated, but the calculation is significantly slowed when the number of missing data is large.

実際に、1回の反復に必要とされる行列演算の計算オーダは、図21に記載した式(13)に示すようにO(p2N)となる。ここで、O(X)とは、xの定数倍という意味である。それ故、pとNがともに大きい場合、計算量が大きくなる。例えば、先ほどのデータに対してEMアルゴリズムによりパラメータを推定するために、式Sxxの事後分布に関する条件付き期待値の計算にO(1002×20,000)程度の計算量が必要となるため、計算時間が数時間必要となる。 Actually, the calculation order of the matrix operation required for one iteration is O (p 2 N) as shown in the equation (13) described in FIG. Here, O (X) means a constant multiple of x. Therefore, when both p and N are large, the calculation amount becomes large. For example, in order to estimate the parameters by the EM algorithm for the previous data, the calculation time of O (100 2 × 20,000) is required to calculate the conditional expected value for the posterior distribution of the formula Sxx. Is required for several hours.

なお、「欠損率」とは、データを行列で表現した時、実際に観測された要素数と、仮に全てのデータが観測されたときの要素数との比を表す。欠損率が“1”のときは、全てのデータが欠損しており、“0”のときは、全てのデータが観測されている。   The “missing rate” represents the ratio between the number of elements actually observed when the data is expressed in a matrix and the number of elements when all the data is observed. When the defect rate is “1”, all data is missing, and when it is “0”, all data is observed.

このように、これらの手法はサンプルサイズがそれほど大きくなかった70〜80年代の頃に確立された手法であり、現在のwebで収集されるデータのように、「サンプルサイズが膨大、観測変数の数が多い、欠損が大量にある」という特徴のある収集データに対する統計的モデルによる分析手法は確立されてない。なお、サンプルサイズがそれほど大きくなかったいえるサイズの上限の目安は500程度、サンプルサイズが膨大といえるサンプルサイズの下限の目安は5000程度、観測変数の数が多いといえる下限の目安は50程度、欠損が大量といえる下限の目安は70%程度である。   As described above, these methods were established in the 70s and 80s when the sample size was not so large. Like the data collected on the current web, “the sample size is huge, A statistical model analysis method has not been established for collected data with the characteristic of “a large number and a large number of defects”. Note that the upper limit of the sample size that can be said to be not so large is about 500, the lower limit of the sample size that can be said to be huge is about 5000, the lower limit that can be said to have many observation variables is about 50, The approximate lower limit for a large number of defects is about 70%.

Rubin, D. B. “Inference and Missing Data”, Biometrika, Vol. 63, No.3, pp.581-592, 1976.Rubin, D. B. “Inference and Missing Data”, Biometrika, Vol. 63, No. 3, pp.581-592, 1976. 星野 崇宏,“調査観察データの統計科学―因果推論・選択バイアス・データ融合”, pp.27-28, 岩波書店 , 2009.Takahiro Hoshino, “Statistical Science of Survey Data—Causal Reasoning / Selection Bias / Data Fusion”, pp.27-28, Iwanami Shoten, 2009. Dempster, A. P., Laird, N. M., and Rubin, D. B.,“Maximum likelihood from incomplete data via the EM algorithm”, Journal of the Royal Statistical Society, Series B (Methodological), pp.1-38, 1977.Dempster, A. P., Laird, N. M., and Rubin, D. B., “Maximum likelihood from incomplete data via the EM algorithm”, Journal of the Royal Statistical Society, Series B (Methodological), pp. 1-38, 1977. M. Jamshidian and R. I. Jennrich , “An EM Algorithm for ML Factor Analysis with Missing Data”, Journal of the Royal Statistical Society, Series B (Methodological), Vol. 59, No. 3, pp.569-587, 1997.M. Jamshidian and R. I. Jennrich, “An EM Algorithm for ML Factor Analysis with Missing Data”, Journal of the Royal Statistical Society, Series B (Methodological), Vol. 59, No. 3, pp. 569-587, 1997.

以上述べたように、因子分析の欠損値問題に対しMARを仮定したときの最尤推定値を計算する従来のアルゴリズムである、完全情報最尤推定値を疑似ニュートン法によって計算する方法には、観測変数の数が大きい場合にはパラメータ数が増加するために計算が遅くなり、不安定になるという課題がある。また、共通因子と観測変数の欠損の両方を完全データに含めたEMアルゴリズムを使う方法では、直接観測することのできない潜在変数(共通因子)と欠損値を完全データに含めるため、欠損数が大きいときに計算が著しく遅くなるという課題がある。   As described above, a method for calculating the full information maximum likelihood estimate by the pseudo Newton method, which is a conventional algorithm for calculating the maximum likelihood estimate when MAR is assumed for the missing value problem of factor analysis, When the number of observation variables is large, the number of parameters increases, so that the calculation becomes slow and unstable. In addition, the method using the EM algorithm that includes both common factors and missing observation variables in the complete data includes latent variables (common factors) and missing values that cannot be observed directly in the complete data, so the number of missing data is large. There is a problem that the calculation is sometimes extremely slow.

この発明は上記事情に着目してなされたもので、その目的とするところは、欠損率が高く、かつ観測変数が多い場合の潜在変数を仮定した統計モデルにおけるパラメータ推定を高速に行えるようにするデータ分析装置方法およびプログラムを提供することにある。 The present invention has been made paying attention to the above circumstances, and the object thereof is to enable high-speed parameter estimation in a statistical model assuming latent variables when the loss rate is high and there are many observation variables. A data analysis apparatus , method, and program are provided.

上記目的を達成するためにこの発明は、以下のような各種態様を備える。
(1)観測された観測データを受け取って記憶媒体に格納する手段又は過程と、前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する分析手段又は過程とを具備し、
前記分析手段又は過程は、
観測変数の次元をp、因子数をmとし、p次元観測変数ベクトルをX=(x1,…,xp) T 、p次元平均ベクトルをμ=(μ1,…,μp) T 、m次元潜在変数ベクトルをF、p×m因子負荷行列をΛ=(λij)=(λ1,…,λp) T 、p次元独自因子ベクトルをε、サンプルサイズをN、iobs(n)をn(=1,…,N)番目のサンプルで観測される変数xiの添え字iとしたとき、X−μ=ΛF+εで表される因子分析モデルにおいて、
前記p次元平均ベクトルμ、前記p×m因子負荷行列Λ、及び独自分散を表すΨ=diag(ψ1,…,ψp)の各初期値の入力を受け付け、
EMアルゴリズムを用いて、観測される変数xiのみに基づいて構成される完全対数尤度が
として与えられたとき、完全対数尤度の条件付期待値Eを、欠損の有無を表す行列Mを用いて、
E[Fn|xn]=M -1 Λ T Ψ -1 xn,
E[FnFn T |xn]=M -1 +E[Fn|xn]E[Fn|xn] T
により計算し、かつ前記行列M=(mij)を、
M=Λ T Ψ -1 Λ+Im
により計算し、
さらに罰則項を加えて前記完全対数尤度の最大化処理を行い、
前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理の後に、パラメータが収束したか否かを判定し、
収束していないと判定された場合に、予め設定された反復回数に達するまで前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理を反復するようにしたものである。
In order to achieve the above object, the present invention comprises the following various aspects.
(1) In a statistical model that assumes latent variables when performing statistical analysis processing on observation data stored in the storage medium and means or process for receiving the observation data observed and storing it in the storage medium ; An analysis means or process for estimating parameters included in the statistical model by constructing likelihood using only the observed data and latent variables without including missing data that has not been observed ;
Said analysis means or process comprises:
The dimension of the observed variable is p, the number of factors is m, the p-dimensional observed variable vector is X = (x1, ..., xp) T , the p-dimensional average vector is μ = (μ1, ..., μp) T , and the m-dimensional latent variable The vector is F, the p × m factor loading matrix is Λ = (λij) = (λ1,..., Λp) T , the p-dimensional unique factor vector is ε, the sample size is N, and iobs (n) is n (= 1,. , N) In the factor analysis model represented by X−μ = ΛF + ε, where i is the subscript i of the variable xi observed in the th sample,
Accepting input of each initial value of the p-dimensional mean vector μ, the p × m factor loading matrix Λ, and Ψ = diag (ψ1,...
Using the EM algorithm, the complete log likelihood constructed based only on the observed variable xi is
Is given as a conditional expectation value E of the full log likelihood, using a matrix M representing the presence or absence of deficiency,
E [Fn | xn] = M -1 Λ T Ψ -1 xn,
E [FnFn T | xn] = M -1 + E [Fn | xn] E [Fn | xn] T
And the matrix M = (mij) is
M = Λ T Ψ -1 Λ + Im
Calculated by
In addition, a penalty term is added to maximize the logarithmic likelihood.
After the calculation process of the conditional expected value E and the maximization process of the complete log likelihood added with the penalty term, it is determined whether the parameter has converged,
When it has been determined that it has not converged, the process of calculating the conditional expected value E and the process of maximizing the full log likelihood added with the penalty term are repeated until a preset number of iterations is reached . Is.

(2)観測された観測データを受け取って記憶媒体に格納する手段又は過程と、前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する分析手段又は過程と、前記記憶媒体に格納された観測データのサンプル数を設定された閾値と比較することにより、閾値以上の観測データが格納されたか否かを判定する閾値判定手段又は過程と、前記パラメータの推定に使用する変数の数と要求誤差と欠損率との組み合わせに対して前記パラメータの推定に最低限必要なサンプル数を予め記憶したテーブルを参照することにより、前記記憶媒体に格納された観測データ中の変数の数と、前記記憶媒体に格納された観測データ及び判定された欠損データから求められる欠損率と、指定された要求誤差との組み合わせに対応する前記サンプル数を検索し、該サンプル数を前記閾値判定手段又は過程の前記閾値として設定する関係判定手段又は過程とを具備し、前記分析手段又は過程は、前記閾値判定手段又は過程により閾値以上の観測データが格納されたと判定された場合に、前記記憶媒体に格納された観測データに対し前記パラメータを推定する処理を実行するようにしたものである。 (2) In a statistical model that assumes latent variables when performing statistical analysis processing on observation data stored in the storage medium and means or process for receiving the observation data and storing it in the storage medium, Analyzing means or process for estimating parameters included in the statistical model by constructing likelihood using only the observed data and latent variables without including missing data that has not been observed; Threshold determination means or process for determining whether observation data equal to or greater than the threshold value is stored by comparing the number of stored observation data samples with a set threshold value, and the number of variables used to estimate the parameter By referring to a table in which the minimum number of samples necessary for estimation of the parameter is stored in advance for the combination of the required error and the defect rate. , Corresponding to the combination of the number of variables in the observation data stored in the storage medium, the loss rate obtained from the observation data stored in the storage medium and the determined missing data, and the specified required error A relationship determination unit or process for searching the number of samples and setting the number of samples as the threshold of the threshold determination unit or process, wherein the analysis unit or process is equal to or greater than a threshold by the threshold determination unit or process . If the observation data is determined to have been stored, to the observed data stored in the storage medium is obtained so as to perform a process for estimating the parameters.

この発明の各態様によれば、条件付き期待値を最大化するのではなく、観測されるデータと潜在変数のみの条件付き期待値を最大化するパラメータ推定方法を採用しているため、欠損する全てのデータをアルゴリズムの中で反復計算して推定せずに、潜在変数のみを推定するだけでよくなる。したがって、欠損率が高く、かつ観測変数が多い場合の潜在変数を仮定した統計モデルにおけるパラメータ推定を高速に行うことが可能となる。   According to each aspect of the present invention, since the parameter estimation method that maximizes the conditional expected value of only the observed data and the latent variable is employed instead of maximizing the conditional expected value, it is deficient. Instead of estimating all the data iteratively in the algorithm, it is only necessary to estimate the latent variables. Therefore, it is possible to perform parameter estimation in a statistical model assuming a latent variable when the loss rate is high and there are many observed variables at high speed.

この発明の第1の実施形態に係るデータ分析装置を含むシステム全体の構成を示す図。The figure which shows the structure of the whole system containing the data analyzer which concerns on 1st Embodiment of this invention. この発明の第1の実施形態に係るデータ分析装置の機能構成を示すブロック図。The block diagram which shows the function structure of the data analyzer which concerns on 1st Embodiment of this invention. データの収集から分析データの送信までの一連の動作のうち、サービスプロバイダ端末の動作を示すフローチャート。The flowchart which shows operation | movement of a service provider terminal among a series of operation | movement from collection of data to transmission of analysis data. データの収集から分析データの送信までの一連の動作のうち、ユーザ端末によるアンケート回答データの送信動作と分析サーバによるアンケート回答データの受信動作を示すフローチャート。The flowchart which shows the transmission operation | movement of the questionnaire response data by a user terminal, and the reception operation | movement of the questionnaire response data by an analysis server among a series of operation | movement from data collection to transmission of analysis data. データの収集から分析データの送信までの一連の動作のうち、分析サーバによる分析処理の手順と内容を示すフローチャート。The flowchart which shows the procedure and content of the analysis process by an analysis server among a series of operation | movement from collection of data to transmission of analysis data. 欠損の有無を表す0−1行列を示す図。The figure which shows 0-1 matrix showing the presence or absence of a defect | deletion. 図2に示したデータ分析装置の高速因子分析部による処理手順と処理内容を示すフローチャート。The flowchart which shows the process sequence and process content by the high-speed factor analysis part of the data analyzer shown in FIG. 図2に示したデータ分析装置による効果を説明するための図。The figure for demonstrating the effect by the data analyzer shown in FIG. この発明の第2の実施形態に係るデータ分析装置の機能構成を示すブロック図。The block diagram which shows the function structure of the data analyzer which concerns on 2nd Embodiment of this invention. 図9に示したデータ分析装置が備える、欠損率、変数の数、誤差及びサンプル数の関係を示すデータテーブルの一例を示す図。The figure which shows an example of the data table which shows the relationship of the defect rate, the number of variables, an error, and the number of samples with which the data analysis apparatus shown in FIG. 9 is provided. この発明の第3の実施形態に係るデータ分析装置の機能構成を示すブロック図。The block diagram which shows the function structure of the data analyzer which concerns on 3rd Embodiment of this invention. この発明の第4の実施形態に係るデータ分析装置の機能構成を示すブロック図。The block diagram which shows the function structure of the data analyzer which concerns on 4th Embodiment of this invention. この発明の第5の実施形態に係るデータ分析装置の機能構成を示すブロック図。The block diagram which shows the function structure of the data analyzer which concerns on 5th Embodiment of this invention. この発明の第6の実施形態に係るデータ分析装置の機能構成を示すブロック図。The block diagram which shows the function structure of the data analyzer which concerns on 6th Embodiment of this invention. 因子分析について説明するための図。The figure for demonstrating factor analysis. 因子分析モデルの説明に使用する図。The figure used for explanation of a factor analysis model. 最尤法によるモデルの推定方法の前半部分を説明するための図。The figure for demonstrating the first half part of the estimation method of the model by a maximum likelihood method. 最尤法によるモデルの推定方法の後半部分を説明するための図。The figure for demonstrating the second half part of the estimation method of the model by maximum likelihood method. 欠損がある場合の、最尤法によるモデルの推定方法を説明するための図。The figure for demonstrating the estimation method of the model by a maximum likelihood method when there exists a defect | deletion. ニュートン法による計算方法を説明するための図。The figure for demonstrating the calculation method by a Newton method. 既存のEMアルゴリズムを説明するための図。The figure for demonstrating the existing EM algorithm.

以下、図面を参照してこの発明に係わる実施形態を説明する。
[第1の実施形態]
この発明の第1の実施形態は、潜在変数を仮定した統計モデルにおいてパラメータを推定する際に、観測されなかった欠損データを完全データに含めず、観測されたデータのみを使って完全尤度を構成することによって、行列演算の計算量を大幅に減らして計算の高速化を実現するようにし、かつこのパラメータ推定方法を因子分析に適用したものである。
Embodiments according to the present invention will be described below with reference to the drawings.
[First Embodiment]
In the first embodiment of the present invention, when estimating a parameter in a statistical model assuming a latent variable, the missing data not observed is not included in the complete data, and the complete likelihood is calculated using only the observed data. By configuring, the calculation amount of the matrix operation is greatly reduced to achieve high-speed calculation, and this parameter estimation method is applied to factor analysis.

(構成)
図1は、この発明に係るデータ分析装置の第1の実施形態である分析サーバを備えたシステムの概略構成図である。同図に示すように第1の実施形態のシステムは、複数のユーザ端末UT1〜UTn、サービスプロバイダ端末SP及び分析サーバSVaを、通信ネットワークNWを介して相互に通信可能に接続したものである。
(Constitution)
FIG. 1 is a schematic configuration diagram of a system including an analysis server which is a first embodiment of a data analysis apparatus according to the present invention. As shown in the figure, the system of the first embodiment is configured such that a plurality of user terminals UT1 to UTn, a service provider terminal SP, and an analysis server SVa are communicably connected via a communication network NW.

ユーザ端末UT1〜UTnは、観測対象となる複数のユーザが使用するパーソナルコンピュータ、タブレット型端末、スマートホン又は携帯電話機からなり、Webブラウザ及びメーラを備えている。サービスプロバイダ端末SPは、サービスプロバイダの管理者が使用するパーソナルコンピュータからなり、ユーザ端末UT1〜UTnと同様にWebブラウザ及びメーラを備えている。なお、通信ネットワークは、例えばIP(Internet Protocol)網と、このIP網にアクセスするためのアクセス網からなる。   Each of the user terminals UT1 to UTn includes a personal computer, a tablet terminal, a smart phone, or a mobile phone used by a plurality of users to be observed, and includes a web browser and a mailer. The service provider terminal SP is composed of a personal computer used by the administrator of the service provider, and includes a Web browser and a mailer as with the user terminals UT1 to UTn. The communication network includes, for example, an IP (Internet Protocol) network and an access network for accessing the IP network.

ところで、分析サーバSVaはサーバコンピュータからなり、以下のように構成される。図2はその機能構成を示すブロック図である。
すなわち、分析サーバSVaは、通信インタフェースユニット1と、制御ユニット2aと、記憶ユニット3aを備えている。通信インタフェースユニット1は、上記ユーザ端末UT1〜UTn及びサービスプロバイダ端末SPとの間で、通信ネットワークNWで規定される通信プロトコルに従いデータ通信を行う。
Incidentally, the analysis server SVa is composed of a server computer, and is configured as follows. FIG. 2 is a block diagram showing the functional configuration.
That is, the analysis server SVa includes a communication interface unit 1, a control unit 2a, and a storage unit 3a. The communication interface unit 1 performs data communication with the user terminals UT1 to UTn and the service provider terminal SP according to a communication protocol defined by the communication network NW.

記憶ユニット3aは、記憶媒体としてHDD(Hard Disc Drive)又はSSD(Solid State Drive)等の随時書き込み及び読み出しが可能な不揮発性メモリを備えたもので、第1の実施形態を実現するために必要な記憶部として、収集データ記憶部31と、分析データ記憶部32を備えている。   The storage unit 3a includes a nonvolatile memory such as an HDD (Hard Disc Drive) or SSD (Solid State Drive) that can be written and read as needed as a storage medium, and is necessary for realizing the first embodiment. As a storage unit, a collected data storage unit 31 and an analysis data storage unit 32 are provided.

収集データ記憶部31は、上記ユーザ端末UT1〜UTnから収集したアンケートの回答データを蓄積するために用いられる。なお、アンケートの回答データ以外に、各ユーザの滞在地履歴や購買履歴、通信履歴等を蓄積するようにしてもよい。分析データ記憶部32は、後述する分析処理により得られた分析データを保存するために用いられる。   The collected data storage unit 31 is used to accumulate questionnaire response data collected from the user terminals UT1 to UTn. In addition to questionnaire response data, each user's place of stay history, purchase history, communication history, and the like may be stored. The analysis data storage unit 32 is used for storing analysis data obtained by an analysis process described later.

制御ユニット2は、CPU(Central Processing Unit)を備え、第1の実施形態を実現するために必要な制御及び処理機能として、収集データ管理部21と、サンプル数閾値判定部22と、高速因子分析部23と、分析データ表示制御部24を備えている。これらの機能はいずれも図示しないプログラムメモリに格納されたプログラムを上記CPUに実行させることにより実現される。   The control unit 2 includes a CPU (Central Processing Unit), and as a control and processing function necessary for realizing the first embodiment, a collected data management unit 21, a sample number threshold determination unit 22, and a fast factor analysis And an analysis data display control unit 24. All of these functions are realized by causing the CPU to execute a program stored in a program memory (not shown).

収集データ管理部21は、上記サービスプロバイダ端末SPから送られた調査項目を含むアンケートデータを通信インタフェースユニット1から収集対象の上記ユーザ端末UT1〜UTnへ送信し表示させる処理と、上記ユーザ端末UT1〜UTnから返送されたアンケートの回答データを通信インタフェースユニット1を介してそれぞれ受信し、この受信された収集データを上記収集データ記憶部31に格納する処理を行う。   The collected data management unit 21 transmits the questionnaire data including the survey items sent from the service provider terminal SP from the communication interface unit 1 to the user terminals UT1 to UTn to be collected and displays them, and the user terminals UT1 to UT1. The questionnaire response data returned from the UTn is received via the communication interface unit 1, and the received collected data is stored in the collected data storage unit 31.

サンプル数閾値判定部22は、上記収集データ記憶部31に予め設定した人数分の回答データが蓄積されたか否かを判定する処理を行う。高速因子分析部23は、上記収集データ記憶部31から回答データを読み出し、この読み出された回答データに対し、潜在変数を仮定した統計モデルにおいて、観測されなかった欠損データを完全データに含めず、観測されたデータのみを使って完全尤度を構成する手法を使用して、因子分析処理を実行する。そして、その分析結果を表すデータを分析データ記憶部32に格納する処理を行う。   The sample number threshold determination unit 22 performs a process of determining whether or not answer data for a preset number of people has been accumulated in the collected data storage unit 31. The fast factor analysis unit 23 reads the response data from the collected data storage unit 31 and does not include missing data that has not been observed in the complete data in the statistical model assuming a latent variable for the read response data. The factor analysis process is performed using a method of constructing the full likelihood using only the observed data. And the process which stores the data showing the analysis result in the analysis data memory | storage part 32 is performed.

分析データ表示制御部24は、サービスプロバイダ端末SPからの要求に応じて上記分析データ記憶部32から分析データを読み出し、要求元のサービスプロバイダ端末SPへ通信インタフェースユニット1から送信する処理と、上記分析データを配信先として予め設定されたユーザ端末UT1〜UTnへ上記通信インタフェースユニット1から送信する処理を行う。   The analysis data display control unit 24 reads the analysis data from the analysis data storage unit 32 in response to a request from the service provider terminal SP, and transmits the analysis data from the communication interface unit 1 to the requesting service provider terminal SP. A process of transmitting data from the communication interface unit 1 to the user terminals UT1 to UTn set in advance as distribution destinations is performed.

(動作)
次に、以上のように構成された分析サーバSVaを含むシステムの動作を説明する。図3乃至図5は、アンケートデータの作成からその回答データの収集、当該回答データの分析、分析結果を表すデータの送信までの一連の動作手順を示すフローチャートである。
(Operation)
Next, the operation of the system including the analysis server SVa configured as described above will be described. FIGS. 3 to 5 are flowcharts showing a series of operation procedures from the creation of questionnaire data to collection of the response data, analysis of the response data, and transmission of data representing the analysis result.

(1)アンケートの作成と配信
先ずサービスプロバイダ端末SPでは、図3に示すステップS11において、サービスプロバイダの管理者の入力操作に応じてアンケートデータが作成される。アンケートデータとしては、変数の多い任意又は選択的な回答項目を含むデータが作成される。具体的には、項目の種類と選択肢の種類を100以上と多めに設定し、任意回答および選択回答が可能な項目を含める。上記作成されたアンケートデータは分析サーバSVaへ送られる。
(1) Creation and Distribution of Questionnaire First, in the service provider terminal SP, in step S11 shown in FIG. 3, questionnaire data is created according to the input operation of the service provider administrator. As the questionnaire data, data including arbitrary or optional answer items with many variables is created. Specifically, the number of item types and choice types is set to a large value of 100 or more, and items that can be selected and selected are included. The created questionnaire data is sent to the analysis server SVa.

分析サーバSVaは、上記アンケートデータを通信インタフェースユニット1により受信すると、収集データ管理部21の制御の下、ステップS12により、図示しないユーザ情報記憶部に予め記憶されている収集対象のユーザ端末UT1〜UTnに向け、上記アンケートデータを配信する。配信方法としては、例えば電子メールが用いられる。   When the analysis server SVa receives the questionnaire data by the communication interface unit 1, under the control of the collection data management unit 21, the analysis server SVa collects user terminals UT <b> 1 to UT <b> 1 that are stored in advance in a user information storage unit (not shown). The questionnaire data is distributed to UTn. As a delivery method, e-mail is used, for example.

(2)アンケートに対する回答データの収集
ユーザ端末UT1〜UTnにおいて、上記配信されたアンケートデータに対しユーザが回答を入力すると、図4に示すステップS21において、上記入力された回答を返信するための回答データが作成される。このときユーザは、答えたくない項目には回答しなくてもよい。そして、ユーザが送信操作を行うと、ステップS22により、上記作成された回答データがユーザ端末UT1〜UTnから送信元の分析サーバSVaへ送信される。
(2) Collection of Answer Data for Questionnaire When a user inputs an answer to the distributed questionnaire data in the user terminals UT1 to UTn, an answer for returning the inputted answer in step S21 shown in FIG. Data is created. At this time, the user does not have to answer items that he does not want to answer. When the user performs a transmission operation, in step S22, the created answer data is transmitted from the user terminals UT1 to UTn to the analysis server SVa that is the transmission source.

分析サーバSVaは、上記ユーザ端末UT1〜UTnから回答データが返信されるごとに、収集データ管理部21がステップS23において、当該回答データを通信インタフェースユニット1を介して受信し、当該受信された回答データを収集データ記憶部31に格納する。このとき、収集データは例えばユーザIDとアンケートを識別するアンケートIDと関連付けられて記憶される。   Whenever the response data is returned from the user terminals UT1 to UTn, the analysis server SVa receives the response data via the communication interface unit 1 in step S23, and the received response is received. Data is stored in the collected data storage unit 31. At this time, the collected data is stored in association with, for example, a user ID and a questionnaire ID for identifying the questionnaire.

(3)収集データの分析
分析サーバSVaは、先ずサンプル数閾値判定部22が図5に示すステップS31により、上記収集データ記憶部31に格納された収集データが予め設定されたサンプル数の閾値に達したか否かを判定する。そして、収集データが閾値以上になったことがステップS32で確認されると、次にステップS33において高速因子分析部23が起動し、以後この高速因子分析部23において以下のような計算を実行する。
(3) Analysis of Collected Data The analysis server SVa first sets the collected data stored in the collected data storage unit 31 to a preset sample number threshold in step S31 shown in FIG. It is determined whether it has been reached. When it is confirmed in step S32 that the collected data is equal to or greater than the threshold value, the fast factor analysis unit 23 is started in step S33, and the following calculation is executed in the fast factor analysis unit 23 thereafter. .

すなわち、先に述べたように潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データにあえて完全データに含めず、観測されたデータのみを使って完全尤度を構成することによりパラメータ推定を行う。ここでは、欠損のあるデータを用いて、潜在変数を含む統計的モデルのパラメータ推定を行うEMアルゴリズムを例にとって述べる。p次元観測変数をX=(X1,…,Xp)T、m次元潜在変数ベクトルをF=(F1,…,Fm)Tとする。 In other words, in the statistical model that assumes latent variables as described above, parameter estimation is performed by constructing complete likelihood using only observed data, not including missing data in missing data. I do. Here, an EM algorithm for estimating parameters of a statistical model including latent variables using missing data will be described as an example. Assume that the p-dimensional observation variable is X = (X1,..., Xp) T and the m-dimensional latent variable vector is F = (F1,..., Fm) T.

いま、パラメータθを最尤法によって推定することを考える。観測変数に欠損がある場合を、n番目の観測に対し、観測データをX[n]、欠損値をX_[n]と記述すると、完全データはXn=[X[n],X_[n]]と表される。このとき、EMアルゴリズムでは、完全対数尤度の観測データが与えられたもとでの条件付き期待値E[logf(xn,fn)|x[n]]を計算する必要がある。データが独立同分布に従うとすると、条件付き期待値は   Now, consider estimating the parameter θ by the maximum likelihood method. When the observation variable is missing, if the observation data is described as X [n] and the missing value as X_ [n] for the nth observation, the complete data is Xn = [X [n], X_ [n]. ]. At this time, in the EM algorithm, it is necessary to calculate the conditional expected value E [logf (xn, fn) | x [n]] with the observation data of the complete log likelihood being given. If the data follow an independent equidistribution, the conditional expectation is

で与えられる。ここで、f(xn,fn)は、観測データと潜在変数の同時分布、Nはサンプルサイズである。 Given in. Here, f (xn, fn) is the simultaneous distribution of the observation data and the latent variable, and N is the sample size.

次に完全対数尤度を、
により算出する。
Next, the full log likelihood is
Calculated by

また、完全対数尤度関数の期待値を、
E[Fn|xn]=M-1ΛTΨ-1xn,
E[FnFnT|xn]=M-1+E[Fn|xn]E[Fn|xn]T
により計算される。但し、M=ΛT Ψ-1 Λ+Imとする。
また、この計算には
O(p0N)
を必要とする。尚、p0は欠損していない変数の数の平均を示す。
Also, the expected value of the complete log likelihood function is
E [Fn | xn] = M -1 Λ T Ψ -1 xn,
E [FnFn T | xn] = M -1 + E [Fn | xn] E [Fn | xn] T
Is calculated by However, M = Λ T Ψ −1 Λ + Im.
Also, for this calculation
O (p 0 N)
Need. Here, p 0 represents the average number of variables that are not missing.

図7は、上記完全対数尤度及び完全対数尤度関数の期待値を計算する処理の手順と処理内容を示すフローチャートである。同図において、高速因子分析部23は、ステップS41でi=1に初期設定した後、ステップS42により初期値としてμ0^,Λ0^,Ψ0^の入力を受け付ける。次に、ステップS43でiの値をインクリメントした後、ステップS44においてEステップを実行する。このEステップでは、共通因子の条件付期待値fn^を計算する。続いて、ステップS45においてMステップを実行する。このMステップでは、完全対数尤度の最大化処理が行われる。   FIG. 7 is a flowchart showing the procedure and processing contents of the process for calculating the expected value of the complete log likelihood and the complete log likelihood function. In the figure, the fast factor analysis unit 23 initially sets i = 1 in step S41, and then accepts inputs of μ0 ^, Λ0 ^, and Ψ0 ^ as initial values in step S42. Next, after incrementing the value of i in step S43, the E step is executed in step S44. In this E step, the conditional expected value fn ^ of the common factor is calculated. Subsequently, the M step is executed in step S45. In this M step, the process of maximizing the complete log likelihood is performed.

上記Eステップ及びMステップの処理が終了すると、ステップS46によりパラメータが収束したか否かを判定し、収束していればステップS47で解を表示するためにそのデータを分析データ記憶部32に格納した後、処理を終了する。一方、パラメータが収束していなければ、ステップS48により反復回数を判定し、iが上限値に達していなければステップS43に戻ってiの値をインクリメントした後、先に述べたステップS44及びS45の処理を実行する。これに対し、反復回数が上限値に達すると、ステップS49により収束しない旨のメッセージを分析データ記憶部32に格納する。   When the processing of the E step and M step is completed, it is determined whether or not the parameter has converged in step S46. If the parameter has converged, the data is stored in the analysis data storage unit 32 in order to display the solution in step S47. After that, the process ends. On the other hand, if the parameter has not converged, the number of iterations is determined in step S48, and if i has not reached the upper limit value, the process returns to step S43 to increment the value of i, and then the steps S44 and S45 described above are performed. Execute the process. On the other hand, when the number of iterations reaches the upper limit value, a message indicating that convergence is not performed is stored in the analysis data storage unit 32 in step S49.

以上述べた計算方法は、図20に示した既存のEMアルゴリズムにおいて、直接観測することのできない変数(共通因子)のみを潜在変数とみなす方法である。この場合完全対数尤度は、観測される変数のみに基づいて構成される。このため、完全対数尤度のデータが与えられたもとでの条件付き期待値を計算する際には、欠損値を完全データに入れなければ計算すべき行列のサイズが小さくなり、それゆえ行列演算も少なくてすむ。
ちなみに、1回の反復に必要とされる行列演算の計算オーダは、従来のEMアルゴリズムではO(p2N)が必要だったが、本実施形態に基づいたEMアルゴリズムを使うと上記したようにO(p0N)となる。これにより、計算速度は飛躍的に向上する。
The calculation method described above is a method in which only variables (common factors) that cannot be directly observed in the existing EM algorithm shown in FIG. 20 are regarded as latent variables. In this case, the complete log likelihood is constructed based only on the observed variables. For this reason, when calculating conditional expectation values with complete log-likelihood data given, the size of the matrix to be calculated is reduced unless missing values are included in the complete data, and therefore matrix operations are also performed. Less.
Incidentally, the calculation order of matrix operations required for one iteration required O (p 2 N) in the conventional EM algorithm, but as described above when the EM algorithm based on this embodiment is used. O (p 0 N). Thereby, the calculation speed is greatly improved.

(4)分析データの送信
上記因子分析処理により得られた分析結果を表すデータは、アンケートIDと関連付けて分析データ記憶部32に格納される。分析サーバSVaは、上記高速因子分析部23による上記分析処理が終了すると、続いて分析データ表示制御部24がステップS34において上記分析データ記憶部32から分析データ、つまり因子の分析値と誤差値を読み出す。そして、この読み出された因子の分析値と誤差値を、要求元のサービスプロバイダ端末SPへ通信インタフェースユニット1から送信する。また、分析データの配信先が予め設定されている場合には、当該ユーザ端末UT1〜UTnに向け上記通信インタフェースユニット1から上記分析データを送信する。
(4) Transmission of Analysis Data Data representing the analysis result obtained by the factor analysis process is stored in the analysis data storage unit 32 in association with the questionnaire ID. When the analysis processing by the high-speed factor analysis unit 23 is completed, the analysis server SVa subsequently sends the analysis data, that is, the analysis value and error value of the factor from the analysis data storage unit 32 in step S34. read out. Then, the analysis value and error value of the read factor are transmitted from the communication interface unit 1 to the requesting service provider terminal SP. When the distribution destination of the analysis data is set in advance, the analysis data is transmitted from the communication interface unit 1 toward the user terminals UT1 to UTn.

(第1の実施形態の効果)
以上詳述したように第1の実施形態では、条件付き期待値を最大化するのではなく、観測されるデータと潜在変数のみの条件付き期待値を最大化するパラメータ推定方法を採用している。このため、欠損する全てのデータをアルゴリズムの中で反復計算して推定せずに、潜在変数のみを推定するだけでよくなる。したがって、欠損が多くなっても高速に計算することが可能となる。ここで、高速に計算できるようになる欠損値の下限は50%程度である。
(Effects of the first embodiment)
As described above in detail, the first embodiment employs a parameter estimation method that maximizes the conditional expected value of only the observed data and the latent variable, instead of maximizing the conditional expected value. . For this reason, it is only necessary to estimate only the latent variables without estimating all the missing data by iterative calculation in the algorithm. Therefore, even if there are many defects, it is possible to calculate at high speed. Here, the lower limit of missing values that can be calculated at high speed is about 50%.

図6は、データ行列をX=(xij)とし、欠損の有無を表すため、0−1の行列M=(mij)を示したものである。なお、“0”はxijが観測されなかった場合、“1”はxijが観測された場合をそれぞれ示す。本実施形態では、「観測されないデータ」に欠損値を含まないため、図4の行列のうち“1”の部分だけを使ってパラメータの推定が行われる。このため、iが大きくかつ“0”が多い状況において、“0”へ代入する期待値の計算に要する時間が不要となり、その分だけ計算の高速化を実現できる。ちなみに、従来の方法では「観測されないデータ」に欠損値を含むため、“0”の部分に対応する欠損値x_[n]を推定しながらパラメータの推定を行っている。したがって、iが大きくかつ“0”が多い状況になると計算量がきわめて多くなり、計算処理に非常に長い時間が必要となる。   FIG. 6 shows a matrix M = (mij) of 0-1 so that the data matrix is X = (xij) and represents the presence or absence of a defect. “0” indicates that xij is not observed, and “1” indicates that xij is observed. In this embodiment, since “missing data” does not include missing values, parameter estimation is performed using only the “1” portion of the matrix in FIG. 4. For this reason, in a situation where i is large and “0” is large, the time required for calculating the expected value to be substituted for “0” is not required, and the calculation speed can be increased accordingly. Incidentally, in the conventional method, since “missing data” includes missing values, parameters are estimated while estimating missing values x_ [n] corresponding to “0”. Therefore, when i is large and “0” is large, the amount of calculation becomes extremely large, and a very long time is required for the calculation process.

また第1の実施形態では、上記アルゴリズムを適用して因数分析処理を行うことで、従来のEMアルゴリズムを使った場合よりも、計算速度を高速化することができる。具体的には、90%欠損、変数の50倍程度の回答者数、変数90、サンプル数5,000の条件の下で、先に(A)として記載した疑似ニュートン法を基準に、先に(B)として記載した従来のEMアルゴリズムを使用した場合より二桁程度高速に計算することが可能となる。   In the first embodiment, by performing the factor analysis process by applying the above algorithm, the calculation speed can be increased as compared with the case where the conventional EM algorithm is used. Specifically, under the conditions of 90% deficit, about 50 times the number of respondents, 90 variables, and 5,000 samples, based on the pseudo Newton method described earlier as (A), (B ) Can be calculated at about two orders of magnitude faster than when the conventional EM algorithm described as) is used.

図8は、第1の実施形態におけるアルゴリズムを使用した場合の欠損数に対する計算速度向上比の変化を、従来のEMアルゴリズムと疑似ニュートン法と対比して示したものである。同図から明らかなように、第1の実施形態によるアルゴリズムでは、欠損数が増えれば増えるほど速度向上比が高くなる。   FIG. 8 shows a change in the calculation speed improvement ratio with respect to the number of defects when the algorithm in the first embodiment is used in comparison with the conventional EM algorithm and the pseudo Newton method. As is apparent from the figure, in the algorithm according to the first embodiment, the speed improvement ratio increases as the number of defects increases.

[第2の実施形態]
この発明の第2の実施形態は、サービスプロバイダの管理者が欲しい因子分析結果をどの程度の誤差の範囲内で導出してほしいかを表す情報を設定すると、欠損率や変数の数から、必要なサンプル数を分析サーバが返送するようにしたものである。
[Second Embodiment]
In the second embodiment of the present invention, when information indicating how much error analysis result the factor analysis result desired by the service provider administrator wants to derive is set, it is necessary from the missing rate and the number of variables. The analysis server returns the correct number of samples.

(構成)
図9は、この発明に係るデータ分析装置の第2の実施形態である分析サーバSVbの機能構成を示すブロック図である。尚、同図において前記図2と同一部分には同一符号を付して詳しい説明は省略する。
(Constitution)
FIG. 9 is a block diagram showing a functional configuration of an analysis server SVb which is the second embodiment of the data analysis apparatus according to the present invention. In the figure, the same parts as those in FIG.

記憶ユニット3bには、収集データ記憶部31と、分析データ記憶部32に加え、設定誤差記憶部33が設けられている。設定誤差記憶部33は、サービスプロバイダがほしい分析結果に対して求める誤差を記憶するために使用される。   In addition to the collected data storage unit 31 and the analysis data storage unit 32, the storage unit 3b is provided with a setting error storage unit 33. The setting error storage unit 33 is used to store an error required for the analysis result desired by the service provider.

制御ユニット2bは、収集データ管理部21と、サンプル数閾値判定部22と、高速因子分析部23と、分析データ表示制御部24に加え、要求誤差設定部25と、欠損率判定部26と、変数の数確認部27と、関係判定部28をさらに備えている。   In addition to the collected data management unit 21, the sample number threshold determination unit 22, the fast factor analysis unit 23, and the analysis data display control unit 24, the control unit 2b includes a required error setting unit 25, a defect rate determination unit 26, A variable number confirmation unit 27 and a relationship determination unit 28 are further provided.

要求誤差設定部25は、サービスプロバイダ端末SPから送られた要求誤差を表す情報を通信インタフェースユニット1を介して受信し、この受信された要求誤差を表す情報を設定誤差記憶部33に記憶させる処理を行う。   The request error setting unit 25 receives information representing a request error transmitted from the service provider terminal SP via the communication interface unit 1 and stores the received information representing the request error in the setting error storage unit 33. I do.

欠損率判定部26は、収集データ記憶部31に記憶された収集データ中に、属性毎にデータ欠損がどの程度あるかを判定する処理を行う。変数の数確認部27は、収集データ記憶部31に記憶された収集データ中に、因子分析に使う変数の数がいくつあるかを確認する処理を行う。   The missing rate determination unit 26 performs a process of determining how much data is missing for each attribute in the collected data stored in the collected data storage unit 31. The variable number confirmation unit 27 performs a process of confirming how many variables are used in the factor analysis in the collected data stored in the collected data storage unit 31.

関係判定部28は、関係判定データテーブルを備えている。この関係判定テーブルには、変数の数、要求誤差及び欠損率のすべての組み合わせに対し予め設定された、因数分析に最低限必要なサンプル数が記憶されている。図10にその一例を示す。そして、この関係判定テーブルを参照することにより、上記変数の数確認部27により確認された変数の数と、上記欠損率判定部26により判定された欠損率と、上記設定誤差記憶部33に格納された要求誤差の組み合わせに対応する最低限必要なサンプル数を検索し、この検索された最低限必要なサンプル数をサンプル数閾値判定部22に与える処理を行う。   The relationship determination unit 28 includes a relationship determination data table. This relationship determination table stores the minimum number of samples necessary for factor analysis, which is set in advance for all combinations of the number of variables, required error, and loss rate. An example is shown in FIG. Then, by referring to this relationship determination table, the number of variables confirmed by the variable number confirmation unit 27, the loss rate determined by the loss rate determination unit 26, and the setting error storage unit 33 are stored. The minimum required number of samples corresponding to the combination of the required errors that have been searched is searched, and a process of giving the searched minimum required number of samples to the sample number threshold determination unit 22 is performed.

(動作)
次に、以上のように構成された分析サーバSVbによる収集データ分析動作を説明する。
サービスプロバイダ端末SPにおいて、その管理者が因子分析の結果に対して因子分析したい属性と、どの程度の誤差の範囲内で結果が欲しいかを表す要求誤差情報を入力したとする。そうすると、上記入力された要求誤差情報がサービスプロバイダ端末SPから分析サーバSVbへ送信される。
(Operation)
Next, the collected data analysis operation by the analysis server SVb configured as described above will be described.
In the service provider terminal SP, it is assumed that the manager inputs the attribute that the factor analysis is desired to be subjected to the factor analysis and the required error information indicating the error range within which the result is desired. Then, the input request error information is transmitted from the service provider terminal SP to the analysis server SVb.

分析サーバSVbは、上記サービスプロバイダサーバ端末SPから送信された要求誤差情報が通信ネットワークユニット1で受信されると、要求誤差設定部25が上記受信された要求誤差情報を設定誤差記憶部33に格納する。   In the analysis server SVb, when the request error information transmitted from the service provider server terminal SP is received by the communication network unit 1, the request error setting unit 25 stores the received request error information in the setting error storage unit 33. To do.

続いて分析サーバSVbは、欠損率判定部26により、サービスプロバイダが作成したアンケートのフォーマットデータをもとに、収集データ記憶部31に蓄積された収集データに、該当する属性にどの程度欠損が発生しているかを調べる。また、変数の数確認部27により、上記収集データ記憶部31に蓄積された収集データに、該当属性に対応する変数がいくつあるかをカウントする。   Subsequently, the analysis server SVb uses the loss rate determination unit 26 to determine how much deficiency occurs in the corresponding attribute in the collected data stored in the collected data storage unit 31 based on the questionnaire format data created by the service provider. Find out what you are doing. Further, the variable number confirmation unit 27 counts the number of variables corresponding to the corresponding attribute in the collected data accumulated in the collected data storage unit 31.

次に分析サーバSVbは、関係判定部28により、上記設定誤差記憶部33に記憶された要求誤差の値と、欠損率判定部26で判定された欠損率と、変数の数確認部27によりカウントされた変数の数をもとに関係判定データテーブルを検索し、当該テーブルから上記要求誤差の値、欠損率及び変数の数に対応する、因子分析に最低限必要なサンプル数を読み出す。そして、この読み出されたサンプル数をサンプル数閾値判定部22に閾値として設定する。   Next, the analysis server SVb counts the required error value stored in the setting error storage unit 33, the missing rate determined by the missing rate determination unit 26, and the variable number confirmation unit 27 by the relationship determination unit 28. The relationship determination data table is searched based on the number of variables thus obtained, and the minimum number of samples necessary for factor analysis corresponding to the required error value, missing rate, and number of variables is read from the table. Then, the read sample number is set as a threshold value in the sample number threshold value determination unit 22.

したがって、収集データの分析処理を行う際に、サンプル数閾値判定部22では、収集データ記憶部31に蓄積された収集データのサンプル数が、サンプル数閾値判定部22に設定されたサンプル数の設定値と比較される。そして、蓄積された収集データのサンプル数がサンプル数の設定値以上であれば、高速因子分析部23に対し収集データに対する因子分析処理の実行要求が送られ、これにより高速因子分析部23では第1の実施形態で述べた処理が実行される。   Therefore, when the collected data analysis process is performed, the sample number threshold determination unit 22 sets the number of samples of the collected data accumulated in the collected data storage unit 31 to the number of samples set in the sample number threshold determination unit 22. Compared to the value. If the number of samples of the collected data is equal to or greater than the set value of the number of samples, a request for execution of factor analysis processing on the collected data is sent to the fast factor analysis unit 23. The processing described in the first embodiment is executed.

これに対し、蓄積された収集データのサンプル数がサンプル数の設定値に満たない場合には、サンプル数閾値判定部22が、上記最低限必要なサンプル数から収集データ記憶部31に格納された収集データのサンプル数を引いた値を求める。そして、あと最低何サンプル必要かを表す情報を、収集データ管理部21からサービスプロバイダ端末SPに向け送信する。   On the other hand, when the number of collected data samples is less than the set number of samples, the sample number threshold value determination unit 22 is stored in the collected data storage unit 31 from the minimum necessary number of samples. The value obtained by subtracting the number of samples of collected data is obtained. Then, information indicating how many samples are required is transmitted from the collected data management unit 21 to the service provider terminal SP.

(第2の実施形態の効果)
以上述べたように第2の実施形態によれば、設定誤差記憶部33に記憶された要求誤差の値と、欠損率判定部26で判定された欠損率と、変数の数確認部27によりカウントされた変数の数をもとに、サービスプロバイダが要求した誤差内で因子分析を実施するために最低限必要なサンプル数をデータテーブルから読み出して、サンプル数閾値判定部22に設定することができる。したがって、サンプル数閾値判定部22には常に最適な閾値を設定することができる。
(Effect of 2nd Embodiment)
As described above, according to the second embodiment, the value of the required error stored in the setting error storage unit 33, the loss rate determined by the loss rate determination unit 26, and the variable number check unit 27 are counted. The minimum number of samples required to perform the factor analysis within the error requested by the service provider can be read from the data table and set in the sample number threshold determination unit 22 based on the number of variables that have been set. . Therefore, an optimal threshold value can always be set in the sample number threshold value determination unit 22.

[第3の実施形態]
この発明の第3の実施形態は、第2の実施形態における高速因子分析部23に代えて、高速構造方程式モデリング処理部231を設けたものである。
[Third Embodiment]
In the third embodiment of the present invention, a high-speed structural equation modeling processing unit 231 is provided in place of the high-speed factor analysis unit 23 in the second embodiment.

図11は、この発明の係るデータ分析装置の第3の実施形態である分析サーバSVcの機能構成を示すブロック図である。尚、同図において前記図9と同一部分には同一符号を付して詳しい説明は省略する。   FIG. 11 is a block diagram showing a functional configuration of an analysis server SVc which is the third embodiment of the data analysis apparatus according to the present invention. In the figure, the same parts as those in FIG.

制御ユニット2cは、高速因子分析部23に代えて、高速構造方程式モデリング処理部231を備えている。この高速構造方程式モデリング処理部231は、観測されなかった欠損データをあえて完全データに含めずに、観測されたデータのみを使って完全尤度を構成するEMアルゴリズムを用いて構造方程式モデリング処理を実行する。すなわち、条件付き期待値を最大化せずに、観測されるデータと潜在変数のみの条件付き期待値を最大化するパラメータ推定方法を適用して、構造方程式モデリング処理を実行する。   The control unit 2 c includes a high-speed structural equation modeling processing unit 231 instead of the high-speed factor analysis unit 23. The high-speed structural equation modeling processing unit 231 executes structural equation modeling processing using an EM algorithm that forms complete likelihood using only observed data, without including missing data in the complete data. To do. That is, the structural equation modeling process is executed by applying a parameter estimation method that maximizes the conditional expected value of only observed data and latent variables without maximizing the conditional expected value.

探索的因子分析と構造方程式モデリングの大きな違いは、探索的因子分析は観測データから見えない因子を見つける方法であるのに対し、構造方程式モデリングは因子と観測変数の間に複雑な関係性を仮定し、仮定したモデルが正しいかどうかを検証する手法である。   The major difference between exploratory factor analysis and structural equation modeling is that exploratory factor analysis is a way to find invisible factors from observed data, whereas structural equation modeling assumes complex relationships between factors and observed variables. This is a method for verifying whether the assumed model is correct.

構造方程式モデリングの中でよく用いられるモデルとしては、LISRELモデル(LInear Structural RELations model)がある。このLISRELモデルは、
y=(y1,…,yp)T
x=(x1,…,xq)T
を観測変数とし、かつ
η=(η1,…,ηm)T
ξ=(ξ1,…,ξt)T
を潜在変数としたとき、
y=Λyη+δy
x=Λxξ+δx
η=Bη+Γξ+δ
のように表される。尚、
η〜N(0,Ωη) δy〜N(0,Σy)
ξ〜N(0,Ωξ) δx〜N(0,Σx)
である。
As a model often used in structural equation modeling, there is a LISREL model (LInear Structural RELations model). This LISREL model is
y = (y1, ..., yp) T
x = (x1,..., xq) T
As an observation variable, and
η = (η1, ..., ηm) T
ξ = (ξ1, ..., ξt) T
Is a latent variable,
y = Λyη + δ y
x = Λxξ + δ x
η = Bη + Γξ + δ
It is expressed as still,
η to N (0, Ωη) δ y to N (0, Σy)
ξ to N (0, Ωξ) δ x to N (0, Σx)
It is.

このモデルに含まれるパラメータを、EMアルゴリズムによって推定することを考える。yn,xnから観測される変数を取り出し、それらの変数のみに基づく完全対数尤度関数を
のように構成することによって、2桁程度計算を高速化することが可能となる。すなわち、yn,xnから観測される変数を取り出し、その変数に対応するΣy,Λy,Σx,Λxを使用する。
Suppose that the parameters included in this model are estimated by the EM algorithm. Extract the observed variables from yn and xn and calculate the complete log-likelihood function based only on those variables.
With this configuration, it is possible to speed up the calculation by about two digits. That is, a variable observed from yn and xn is extracted, and Σy, Λy, Σx, and Λx corresponding to the variable are used.

[第4の実施形態]
この発明の第4の実施形態は、第2の実施形態における高速因子分析部23に代えて、高速罰則式最尤法処理部232を設けたものである。
[Fourth Embodiment]
In the fourth embodiment of the present invention, a fast penalty type maximum likelihood processing unit 232 is provided in place of the fast factor analysis unit 23 in the second embodiment.

図12は、この発明の係るデータ分析装置の第4の実施形態である分析サーバSVdの機能構成を示すブロック図である。尚、同図において前記図9と同一部分には同一符号を付して詳しい説明は省略する。   FIG. 12 is a block diagram showing a functional configuration of an analysis server SVd which is the fourth embodiment of the data analysis apparatus according to the present invention. In the figure, the same parts as those in FIG.

制御ユニット2dは、高速因子分析部23に代えて、高速罰則式最尤法処理部232を備えている。高速罰則式最尤法処理部232は、EMアルゴリズムの完全対数尤度については最尤法で用いた完全対数尤度をそのまま用い、さらに罰則項を加えて最大化するパラメータ推定方法を適用して、収集データの分析処理を行う。   The control unit 2 d includes a fast penalty type maximum likelihood processing unit 232 instead of the fast factor analysis unit 23. The high-speed penalty formula maximum likelihood processing unit 232 applies a parameter estimation method that uses the full log likelihood used in the maximum likelihood method as it is for the complete log likelihood of the EM algorithm and maximizes it by adding a penalty term. Analyzing collected data.

このような構成であるから、収集データの分析処理に際し高速罰則式最尤法処理部232では、EMアルゴリズムの完全対数尤度として最尤法で用いた完全対数尤度をそのまま用い、さらに罰則項を加えて最大化する処理が行われる。通常の最尤法では、サンプルサイズよりも収集データの次元が大きい場合の解析が不可能なことが多い。しかしながら、罰則付き最尤法を用いることにより、サンプルサイズよりも収集データの次元が大きい場合における解析が可能となる。さらに、大量に欠損があった場合においても、第1の実施形態と同様に、欠損する全てのデータをアルゴリズムの中で反復計算して推定せずに、潜在変数のみ推定するだけでよくなるため、高速に計算することができる。   With such a configuration, in the analysis processing of the collected data, the fast penalty type maximum likelihood processing unit 232 uses the complete log likelihood used in the maximum likelihood method as the complete log likelihood of the EM algorithm as it is, and further penal terms To maximize the process. The ordinary maximum likelihood method often cannot be analyzed when the dimension of collected data is larger than the sample size. However, by using the penalized maximum likelihood method, it is possible to analyze when the dimension of the collected data is larger than the sample size. Furthermore, even when there are a large amount of deficiencies, as in the first embodiment, it is only necessary to estimate the latent variables without estimating all the deficient data by iteratively calculating in the algorithm. It can be calculated at high speed.

[第5の実施形態]
この発明の第5の実施形態は、第2の実施形態における高速因子分析部23に代えて、高速主成分分析部233を設けたものである。
[Fifth Embodiment]
In the fifth embodiment of the present invention, a high-speed principal component analysis unit 233 is provided instead of the high-speed factor analysis unit 23 in the second embodiment.

図13は、この発明の係るデータ分析装置の第5の実施形態である分析サーバSVeの機能構成を示すブロック図である。尚、同図において前記図9と同一部分には同一符号を付して詳しい説明は省略する。   FIG. 13 is a block diagram showing a functional configuration of an analysis server SVe which is the fifth embodiment of the data analysis apparatus according to the present invention. In the figure, the same parts as those in FIG.

制御ユニット2eは、高速因子分析部23に代えて、高速主成分分析部233を備えている。高速主成分分析部233は、観測されなかった欠損データをあえて完全データに含めずに、観測されたデータのみを使って完全尤度を構成するEMアルゴリズムを用いて、確率構造の入った主成分分析を行う。   The control unit 2 e includes a high-speed principal component analysis unit 233 instead of the high-speed factor analysis unit 23. The fast principal component analysis unit 233 does not include missing data that has not been observed in the complete data, but uses the EM algorithm that constructs the complete likelihood using only the observed data. Perform analysis.

主成分分析は、高次元データを低次元に圧縮する方法として用いられているが、主成分分析は通常確率構造が入っていないために欠損値を埋めることができない。しかし第5の実施形態では、上記したように確率構造の入った主成分分析をEMアルゴリズムによって計算する方法を採用し、さらにこの方法を拡張して大量欠損時に欠損値を補完しないEMアルゴリズムを採用する。このようにすることで、大量に欠損があった場合においても、欠損する全てのデータをアルゴリズムの中で反復計算して推定せずに、潜在変数のみ推定するだけでよくなるため、2桁程度高速に主成分分析を行うことができる。   Principal component analysis is used as a method of compressing high-dimensional data to low dimensions. However, principal component analysis normally cannot fill in missing values because it does not include a probability structure. However, in the fifth embodiment, as described above, a method of calculating a principal component analysis including a probabilistic structure by an EM algorithm is adopted, and this method is further expanded to employ an EM algorithm that does not supplement missing values in the case of a large number of defects. To do. In this way, even if there are a large number of deficiencies, it is only necessary to estimate only the latent variables instead of estimating all the deficient data by iteratively calculating in the algorithm. Principal component analysis can be performed.

[第6の実施形態]
この発明の第6の実施形態は、第2の実施形態における高速因子分析部23に代えて、高速因子回帰モデル処理部234を設けたものである。
[Sixth Embodiment]
In the sixth embodiment of the present invention, a fast factor regression model processing unit 234 is provided in place of the fast factor analysis unit 23 in the second embodiment.

図14は、この発明の係るデータ分析装置の第6の実施形態である分析サーバSVfの機能構成を示すブロック図である。尚、同図において前記図9と同一部分には同一符号を付して詳しい説明は省略する。
制御ユニット2fは、高速因子分析部23に代えて、高速因子回帰モデル処理部234を備えている。この高速因子回帰モデル処理部234は、観測されなかった欠損データをあえて完全データに含めずに、観測されたデータのみを使って完全尤度を構成するパラメータ推定方法を因子回帰モデルに適用し、これにより似た説明変数を1つの因子にまとめて推定する。
FIG. 14 is a block diagram showing a functional configuration of an analysis server SVf which is a sixth embodiment of the data analysis apparatus according to the present invention. In the figure, the same parts as those in FIG.
The control unit 2 f includes a fast factor regression model processing unit 234 instead of the fast factor analysis unit 23. The fast factor regression model processing unit 234 applies a parameter estimation method for constructing a complete likelihood using only the observed data to the factor regression model without including the missing data not observed in the complete data. In this way, similar explanatory variables are collectively estimated as one factor.

この因子回帰モデルは、EMアルゴリズムによって推定することができるが、説明変数に大量に欠損があった場合に通常のEMアルゴリズムを適用すると計算時間がかかる。そこで、本実施形態のように欠損値を埋めないEMアルゴリズムを用いることにより、高速にパラメータを推定することができる。この方法は、説明変数の数が多く、説明変数が大量欠損しているときに特に有用である。   This factor regression model can be estimated by the EM algorithm, but it takes a long time to apply the normal EM algorithm when there are a large number of missing explanatory variables. Therefore, the parameters can be estimated at high speed by using an EM algorithm that does not fill in missing values as in this embodiment. This method is particularly useful when there are a large number of explanatory variables and a large number of explanatory variables are missing.

[その他の実施形態]
前記各実施形態では、収集データの収集・蓄積から分析結果の送信までの一連の分析処理をすべて分析サーバで実行する場合を例にとって説明したが、この一例の処理を複数の処理に分割し、この分割された複数の処理を複数のサーバで分散処理するようにしてもよい。
[Other Embodiments]
In each of the above-described embodiments, the case where a series of analysis processes from collection / accumulation of collected data to transmission of analysis results are all executed by the analysis server has been described as an example, but this example process is divided into a plurality of processes. The plurality of divided processes may be distributedly processed by a plurality of servers.

その他、分析サーバの構成、分析処理の手順と処理内容等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。   In addition, the configuration of the analysis server, the analysis processing procedure, the processing content, and the like can be variously modified and implemented without departing from the gist of the present invention.

要するにこの発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。   In short, the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the components without departing from the scope of the invention in the implementation stage. Moreover, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in each embodiment. Furthermore, you may combine suitably the component covering different embodiment.

SV…分析サーバ、SP…サービスプロバイダ端末、UT1〜UTn…ユーザ端末、NW…通信ネットワーク、1…通信インタフェースユニット、2a,2b,2c,2d,2e,2f…制御ユニット、3a,3b…記憶ユニット、21…収集データ管理部、22…サンプル数閾値判定部、23…高速因子分析部、24…分析データ表示制御部、25…要求誤差設定部、26…欠損率判定部、27…変数の数確認部、28…関係判定部、31…収集データ記憶部、32…分析データ記憶部、33…設定誤差記憶部、231…高速構造方程式モデリング処理部、232…高速罰則付最尤法処理部、233…高速主成分分析部、234…高速因子回帰モデル処理部。   SV ... analysis server, SP ... service provider terminal, UT1 to UTn ... user terminal, NW ... communication network, 1 ... communication interface unit, 2a, 2b, 2c, 2d, 2e, 2f ... control unit, 3a, 3b ... storage unit , 21 ... Collected data management unit, 22 ... Sample number threshold determination unit, 23 ... Fast factor analysis unit, 24 ... Analysis data display control unit, 25 ... Required error setting unit, 26 ... Loss rate determination unit, 27 ... Number of variables Confirmation unit 28 ... Relationship determination unit 31 ... Collected data storage unit 32 ... Analysis data storage unit 33 ... Setting error storage unit 231 ... High-speed structural equation modeling processing unit 232 ... Maximum likelihood processing unit with high-speed penalty 233: fast principal component analysis unit, 234: fast factor regression model processing unit.

Claims (5)

観測された観測データを受け取って記憶媒体に格納する手段と、
前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する分析手段と
を具備し、
前記分析手段は、
観測変数の次元をp、因子数をmとし、p次元観測変数ベクトルをX=(x1,…,xp) T 、p次元平均ベクトルをμ=(μ1,…,μp) T 、m次元潜在変数ベクトルをF、p×m因子負荷行列をΛ=(λij)=(λ1,…,λp) T 、p次元独自因子ベクトルをε、サンプルサイズをN、iobs(n)をn(=1,…,N)番目のサンプルで観測される変数xiの添え字iとしたとき、X−μ=ΛF+εで表される因子分析モデルにおいて、
前記p次元平均ベクトルμ、前記p×m因子負荷行列Λ、及び独自分散を表すΨ=diag(ψ1,…,ψp)の各初期値の入力を受け付け、
EMアルゴリズムを用いて、観測される変数xiのみに基づいて構成される完全対数尤度が
として与えられたとき、完全対数尤度の条件付期待値Eを、欠損の有無を表す行列Mを用いて、
E[Fn|xn]=M -1 Λ T Ψ -1 xn,
E[FnFn T |xn]=M -1 +E[Fn|xn]E[Fn|xn] T
により計算し、かつ前記行列M=(mij)を、
M=Λ T Ψ -1 Λ+Im
により計算し、
さらに罰則項を加えて前記完全対数尤度の最大化処理を行い、
前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理の後に、パラメータが収束したか否かを判定し、
収束していないと判定された場合に、予め設定された反復回数に達するまで前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理を反復する
ことを特徴とするデータ分析装置。
It means for storing in the storage medium receives the observed observed data,
When statistical analysis processing is performed on observation data stored in the storage medium, a statistical model that assumes latent variables does not include missing data that has not been observed, and uses only the observation data and latent variables. An analysis means for estimating a parameter included in the statistical model by configuring likelihood , and
The analysis means includes
The dimension of the observed variable is p, the number of factors is m, the p-dimensional observed variable vector is X = (x1, ..., xp) T , the p-dimensional average vector is μ = (μ1, ..., μp) T , and the m-dimensional latent variable The vector is F, the p × m factor loading matrix is Λ = (λij) = (λ1,..., Λp) T , the p-dimensional unique factor vector is ε, the sample size is N, and iobs (n) is n (= 1,. , N) In the factor analysis model represented by X−μ = ΛF + ε, where i is the subscript i of the variable xi observed in the th sample,
Accepting input of each initial value of the p-dimensional mean vector μ, the p × m factor loading matrix Λ, and Ψ = diag (ψ1,...
Using the EM algorithm, the complete log likelihood constructed based only on the observed variable xi is
Is given as a conditional expectation value E of the full log likelihood, using a matrix M representing the presence or absence of deficiency,
E [Fn | xn] = M -1 Λ T Ψ -1 xn,
E [FnFn T | xn] = M -1 + E [Fn | xn] E [Fn | xn] T
And the matrix M = (mij) is
M = Λ T Ψ -1 Λ + Im
Calculated by
In addition, a penalty term is added to maximize the logarithmic likelihood.
After the calculation process of the conditional expected value E and the maximization process of the complete log likelihood added with the penalty term, it is determined whether the parameter has converged,
When it is determined that the value has not converged, the process of calculating the conditional expected value E and the process of maximizing the complete log likelihood added with the penalty term are repeated until a preset number of iterations is reached. Data analysis device.
観測された観測データを受け取って記憶媒体に格納する手段と、
前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する分析手段と
前記記憶媒体に格納された観測データのサンプル数を設定された閾値と比較することにより、閾値以上の観測データが格納されたか否かを判定する閾値判定手段と、
前記パラメータの推定に使用する変数の数と要求誤差と欠損率との組み合わせに対して前記パラメータの推定に最低限必要なサンプル数を予め記憶したテーブルを備え、このテーブルを参照することにより、前記記憶媒体に格納された観測データ中の変数の数と、前記記憶媒体に格納された観測データ及び判定された欠損データから求められる欠損率と、指定された要求誤差との組み合わせに対応する前記サンプル数を検索し、該サンプル数を前記閾値判定手段の前記閾値として設定する関係判定手段と
を具備し、
前記分析手段は、前記閾値判定手段により閾値以上の観測データが格納されたと判定された場合に、前記記憶媒体に格納された観測データに対して前記パラメータを推定する処理を実行することを特徴とするデータ分析装置。
It means for storing in the storage medium receives the observed observed data,
When statistical analysis processing is performed on observation data stored in the storage medium, a statistical model that assumes latent variables does not include missing data that has not been observed, and uses only the observation data and latent variables. Analyzing means for estimating parameters included in the statistical model by configuring likelihood ;
Threshold determination means for determining whether observation data equal to or greater than the threshold is stored by comparing the number of samples of observation data stored in the storage medium with a set threshold;
A table in which the minimum number of samples necessary for the parameter estimation is stored in advance for the combination of the number of variables used for the parameter estimation, the required error, and the loss rate, and by referring to this table, The sample corresponding to a combination of the number of variables in the observation data stored in the storage medium, the missing rate obtained from the observation data stored in the storage medium and the determined missing data, and the specified required error A relationship determination unit that searches for a number and sets the number of samples as the threshold of the threshold determination unit ;
The analysis unit executes a process of estimating the parameter with respect to the observation data stored in the storage medium when the threshold determination unit determines that observation data equal to or greater than the threshold is stored. Data analysis equipment.
コンピュータ及び記憶媒体を備えたデータ分析装置が実行するデータ分析方法であって、
観測された観測データを受け取って前記記憶媒体に格納する過程と、
前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する分析過程と
を具備し、
前記分析過程では、
観測変数の次元をp、因子数をmとし、p次元観測変数ベクトルをX=(x1,…,xp) T 、p次元平均ベクトルをμ=(μ1,…,μp) T 、m次元潜在変数ベクトルをF、p×m因子負荷行列をΛ=(λij)=(λ1,…,λp) T 、p次元独自因子ベクトルをε、サンプルサイズをN、iobs(n)をn(=1,…,N)番目のサンプルで観測される変数xiの添え字iとしたとき、X−μ=ΛF+εで表される因子分析モデルにおいて、
前記p次元平均ベクトルμ、前記p×m因子負荷行列Λ、及び独自分散を表すΨ=diag(ψ1,…,ψp)の各初期値の入力を受け付け、
EMアルゴリズムを用いて、観測される変数xiのみに基づいて構成される完全対数尤度が
として与えられたとき、完全対数尤度の条件付期待値Eを、欠損の有無を表す行列Mを用いて、
E[Fn|xn]=M -1 Λ T Ψ -1 xn,
E[FnFn T |xn]=M -1 +E[Fn|xn]E[Fn|xn] T
により計算し、かつ前記行列M=(mij)を、
M=Λ T Ψ -1 Λ+Im
により計算し、
さらに罰則項を加えて前記完全対数尤度の最大化処理を行い、
前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理の後に、パラメータが収束したか否かを判定し、
収束していないと判定された場合に、予め設定された反復回数に達するまで前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理を反復する
ことを特徴とするデータ分析方法。
A data analysis method executed by a data analysis device including a computer and a storage medium,
A process of storing in the storage medium receiving the observed observed data,
When statistical analysis processing is performed on observation data stored in the storage medium, a statistical model that assumes latent variables does not include missing data that has not been observed, and uses only the observation data and latent variables. An analysis process for estimating a parameter included in the statistical model by configuring a likelihood , and
In the analysis process,
The dimension of the observed variable is p, the number of factors is m, the p-dimensional observed variable vector is X = (x1, ..., xp) T , the p-dimensional average vector is μ = (μ1, ..., μp) T , and the m-dimensional latent variable The vector is F, the p × m factor loading matrix is Λ = (λij) = (λ1,..., Λp) T , the p-dimensional unique factor vector is ε, the sample size is N, and iobs (n) is n (= 1,. , N) In the factor analysis model represented by X−μ = ΛF + ε, where i is the subscript i of the variable xi observed in the th sample,
Accepting input of each initial value of the p-dimensional mean vector μ, the p × m factor loading matrix Λ, and Ψ = diag (ψ1,...
Using the EM algorithm, the complete log likelihood constructed based only on the observed variable xi is
Is given as a conditional expectation value E of the full log likelihood, using a matrix M representing the presence or absence of deficiency,
E [Fn | xn] = M -1 Λ T Ψ -1 xn,
E [FnFn T | xn] = M -1 + E [Fn | xn] E [Fn | xn] T
And the matrix M = (mij) is
M = Λ T Ψ -1 Λ + Im
Calculated by
In addition, a penalty term is added to maximize the logarithmic likelihood.
After the calculation process of the conditional expected value E and the maximization process of the complete log likelihood added with the penalty term, it is determined whether the parameter has converged,
If it is determined that it has not converged, the calculation process of the conditional expected value E and the maximization process of the full log likelihood added with the penalty term are repeated until a preset number of iterations is reached. > A data analysis method characterized by
コンピュータ及び記憶媒体を備えたデータ分析装置が実行するデータ分析方法であって、
観測された観測データを受け取って前記記憶媒体に格納する過程と、
前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する分析過程と
前記記憶媒体に格納された観測データのサンプル数を設定された閾値と比較することにより、閾値以上の観測データが格納されたか否かを判定する閾値判定過程と、
前記パラメータの推定に使用する変数の数と要求誤差と欠損率との組み合わせに対して前記パラメータの推定に最低限必要なサンプル数を予め記憶したテーブルを参照することにより、前記記憶媒体に格納された観測データ中の変数の数と、前記記憶媒体に格納された観測データ及び判定された欠損データから求められる欠損率と、指定された要求誤差との組み合わせに対応する前記サンプル数を検索し、該サンプル数を前記閾値判定過程における前記閾値として設定する関係判定過程と
を具備し、
前記分析過程では、前記閾値判定過程により閾値以上の観測データが格納されたと判定された場合に、前記記憶媒体に格納された観測データに対して前記パラメータを推定する処理を実行することを特徴とするデータ分析方法。
A data analysis method executed by a data analysis device including a computer and a storage medium,
A process of storing in the storage medium receiving the observed observed data,
When statistical analysis processing is performed on observation data stored in the storage medium, a statistical model that assumes latent variables does not include missing data that has not been observed, and uses only the observation data and latent variables. An analysis process for estimating parameters included in the statistical model by configuring likelihood ;
A threshold determination step of determining whether observation data equal to or greater than the threshold is stored by comparing the number of observation data samples stored in the storage medium with a set threshold;
By referring to a table in which the minimum number of samples necessary for parameter estimation is stored in advance for the combination of the number of variables used for parameter estimation, the required error, and the defect rate, the parameter is stored in the storage medium. The number of variables in the observed data, the missing rate determined from the observed data stored in the storage medium and the determined missing data, and the number of samples corresponding to the specified required error are searched, A relationship determination step of setting the number of samples as the threshold in the threshold determination step ,
In the analysis process, when it is determined by the threshold determination process that observation data equal to or higher than the threshold is stored, a process for estimating the parameter is performed on the observation data stored in the storage medium, How to analyze data.
請求項3または4に記載の各過程の処理をコンピュータに実行させるためのプログラム。  The program for making a computer perform the process of each process of Claim 3 or 4.
JP2013257489A 2013-12-12 2013-12-12 Data analysis apparatus, method and program Active JP6075279B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013257489A JP6075279B2 (en) 2013-12-12 2013-12-12 Data analysis apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013257489A JP6075279B2 (en) 2013-12-12 2013-12-12 Data analysis apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2015114916A JP2015114916A (en) 2015-06-22
JP6075279B2 true JP6075279B2 (en) 2017-02-08

Family

ID=53528642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013257489A Active JP6075279B2 (en) 2013-12-12 2013-12-12 Data analysis apparatus, method and program

Country Status (1)

Country Link
JP (1) JP6075279B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6369995B2 (en) * 2015-09-11 2018-08-08 日本電信電話株式会社 Data analysis apparatus, data analysis method, and data analysis processing program
CN105824785A (en) * 2016-03-11 2016-08-03 中国石油大学(华东) Rapid abnormal point detection method based on penalized regression
CN105930303A (en) * 2016-04-11 2016-09-07 中国石油大学(华东) Robust estimation method for estimating equation containing non-ignorable missing data
JP2018067227A (en) * 2016-10-21 2018-04-26 日本電信電話株式会社 Data analyzing apparatus, data analyzing method, and data analyzing processing program
JP7101084B2 (en) * 2018-08-29 2022-07-14 株式会社東芝 Information processing equipment, information processing system and information processing method
CN113345525B (en) * 2021-06-03 2022-08-09 谱天(天津)生物科技有限公司 Analysis method for reducing influence of covariates on detection result in high-throughput detection

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5243888B2 (en) * 2008-08-18 2013-07-24 日本放送協会 Data classification apparatus and data classification program
JP2010079769A (en) * 2008-09-29 2010-04-08 Hitachi Ltd Potential data estimation device
JP5813498B2 (en) * 2011-12-22 2015-11-17 日本電信電話株式会社 Model learning device, related information extraction device, related information prediction device, model learning method, related information extraction method, related information prediction method, and program

Also Published As

Publication number Publication date
JP2015114916A (en) 2015-06-22

Similar Documents

Publication Publication Date Title
JP6075279B2 (en) Data analysis apparatus, method and program
Zihayat et al. A utility-based news recommendation system
US10614077B2 (en) Computer system for automated assessment at scale of topic-specific social media impact
US11551239B2 (en) Characterizing and modifying user experience of computing environments based on behavior logs
US11995113B2 (en) Systems and methods for analyzing computer input to provide next action
US10108919B2 (en) Multi-variable assessment systems and methods that evaluate and predict entrepreneurial behavior
US9082084B2 (en) Facilitating machine learning in an online social network
CN106095942B (en) Strong variable extracting method and device
US20140143332A1 (en) Discovering signature of electronic social networks
US11444909B2 (en) Latent user communities
US20190066020A1 (en) Multi-Variable Assessment Systems and Methods that Evaluate and Predict Entrepreneurial Behavior
Liu et al. An online learning approach to improving the quality of crowd-sourcing
CN110738527A (en) feature importance ranking method, device, equipment and storage medium
US11323564B2 (en) Case management virtual assistant to enable predictive outputs
Lymperopoulos Predicting the popularity growth of online content: Model and algorithm
US20220156296A1 (en) Transition-driven search
CN112989146A (en) Method, apparatus, device, medium, and program product for recommending resources to a target user
Costa et al. Here are the answers. What is your question? Bayesian collaborative tag-based recommendation of time-sensitive expertise in question-answering communities
US20200311747A1 (en) Identifying the primary objective in online parameter selection
JP7288637B1 (en) email subject rating system
Choi et al. New techniques for data preprocessing based on usage logs for efficient web user profiling at client side
Alpashkin et al. Usability Testing as an Important Factor in the Development of a Successful Software Product
CN116842399A (en) Model online method, device, equipment and medium
CN114637921A (en) Item recommendation method, device and equipment based on modeling accidental uncertainty
CN115687778A (en) Resource recommendation method, device, equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20151126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161226

R150 Certificate of patent or registration of utility model

Ref document number: 6075279

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250