JP2012194741A - Prediction device of missing value in matrix data, method for calculating missing value prediction, and missing value prediction program - Google Patents

Prediction device of missing value in matrix data, method for calculating missing value prediction, and missing value prediction program Download PDF

Info

Publication number
JP2012194741A
JP2012194741A JP2011057749A JP2011057749A JP2012194741A JP 2012194741 A JP2012194741 A JP 2012194741A JP 2011057749 A JP2011057749 A JP 2011057749A JP 2011057749 A JP2011057749 A JP 2011057749A JP 2012194741 A JP2012194741 A JP 2012194741A
Authority
JP
Japan
Prior art keywords
matrix
data
missing
missing value
domains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011057749A
Other languages
Japanese (ja)
Inventor
Yuki Kosaka
勇気 小阪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011057749A priority Critical patent/JP2012194741A/en
Publication of JP2012194741A publication Critical patent/JP2012194741A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To solve a problem that since a nonlinear relationship is inexpressible, it is difficult to determine a probability of a predicted value.SOLUTION: The missing value prediction device includes: input means for inputting a plurality of pieces of matrix data with different domains; parameter estimating means that learns a nonlinear relationship between lines and columns of the matrix data, models the plurality of pieces of input matrix data by a different parameter for each domain, models the parameter for each domain by a common parameter and an error term, and estimates a parameter of a model expressing the correlation among the domains by the error term; and prediction means for predicting missing values in the matrix data using the parameters estimated by the parameter estimation means and calculates a dispersion of prediction values.

Description

本発明は、行列形データの欠損値予測装置、欠損値予測計算方法および欠損値予測プログラムに係わり、特に、ドメインが異なる複数の行列形データの欠損値を予測し、予測値の分散を算出する、行列形データの欠損値予測装置、欠損値予測計算方法および欠損値予測プログラムに関する。   The present invention relates to a matrix data missing value prediction apparatus, a missing value prediction calculation method, and a missing value prediction program, and in particular, predicts missing values of a plurality of matrix data having different domains and calculates a variance of predicted values. The present invention relates to a missing value prediction apparatus for matrix data, a missing value prediction calculation method, and a missing value prediction program.

行列形データの欠損値予測は、顧客への商品の推薦や健康診断データの欠損値予測に応用することができる。   Matrix data missing value prediction can be applied to recommending products to customers and predicting missing values in health checkup data.

商品の推薦への応答では、ユーザ、商品、ユーザの商品に対する点数(嗜好情報)を複数入力して、ユーザが点数がつけていない商品の点数を予測する。予測した点数が高ければ、ユーザがその商品が好きであるとして、その商品を推薦する。この場合、ユーザがまだ点数をつけていない商品の点数が欠損値である。   In response to product recommendation, a plurality of scores (preference information) for the user, the product, and the user's product are input, and the score of the product that the user has not scored is predicted. If the predicted score is high, it is recommended that the user likes the product. In this case, the score of a product for which the user has not yet scored is a missing value.

健康診断データへの応用では、ユーザに保健指導をするかしないかを複数の検査項目の検査値を基準に決めるため、一部の検査項目に欠損値があると、欠損値があるユーザには保健指導をするかしないか決められない。この場合に、検査項目、ユーザ、ユーザの各検査項目の検査値を複数入力して、欠損した検査値を予測する。   In application to health checkup data, whether or not to provide health guidance to users is determined based on the test values of multiple test items. If some test items have missing values, I can't decide whether or not to give health guidance. In this case, a plurality of inspection values of inspection items, users, and user inspection items are input to predict missing inspection values.

商品の推薦での行列形データは、各行が各ユーザを表し、各列が各商品を表す。健康診断データの欠損値予測の行列形データは、各行が検査項目を表し、各列が各ユーザを表す。   In the matrix data for product recommendation, each row represents each user and each column represents each product. In the matrix data of missing value prediction of health check data, each row represents an inspection item and each column represents each user.

行列形データの欠損値予測技術の従来技術の例として、非特許文献1、2に記載されている欠損値予測技術がある。   Non-patent literatures 1 and 2 describe missing value prediction techniques as examples of conventional techniques for matrix value missing value prediction techniques.

例えば推薦技術への応用の場合、全ユーザと全商品を1つの行列形データで表現して、データを学習し、欠損値を予測する技術である。   For example, in the case of application to a recommendation technique, all users and all products are expressed by a single matrix data, data is learned, and missing values are predicted.

近年では、ドメインの異なる複数の行列形データを同時に学習することで、予測精度の向上を図る技術が開発されている。   In recent years, a technique for improving prediction accuracy by simultaneously learning a plurality of matrix data having different domains has been developed.

欠損値予測技術の他の例が、非特許文献3に記載されている。非特許文献3の技術は、非特許文献1、2とは異なり、全データを1つの行列形データとして扱わず、ドメインごとに行列形データを作成して、複数の行列形データを同時に学習し、ドメイン間の相関関係を考慮して、欠損値を予測する技術である。   Another example of the missing value prediction technique is described in Non-Patent Document 3. The technology of Non-Patent Document 3 is different from Non-Patent Documents 1 and 2, and does not treat all data as one matrix data, but creates matrix data for each domain and learns multiple matrix data simultaneously. This is a technique for predicting missing values in consideration of the correlation between domains.

商品推薦への応用の場合、行列形データの行を表す商品は、ドメインに分かれる。   In the case of application to product recommendation, products representing rows of matrix data are divided into domains.

例えば、商品が映画の場合は、ドメインは映画のジャンルを表し、ジャンルとして、Thriller、Action、Comedy、Romanceなどがある。   For example, when the product is a movie, the domain represents the genre of the movie, and the genre includes Thriller, Action, Comedy, Romance, and the like.

行がThrillerのジャンルの映画を表し、列がユーザを表す行列形データと、行がActionのジャンルの映画を表し、列がユーザを表す行列形データ、Comedy、Romanceのジャンルの映画についても同様の行列形データを作成し各ジャンルの行列形データを同時に学習し、予測する。   The same applies to matrix data in which rows represent Thriller genres, columns represent users, and rows represent Action genres, columns represent users, and movies in the Comedy and Romance genres. Create matrix data and learn and predict matrix data of each genre at the same time.

例えば、全ユーザの傾向として、Actionの映画に高い点数をつけた場合には、Thrillerのジャンルの映画にも高い点数をつける場合は、Thrillerのジャンルの映画の点数を予測する際に、予測するユーザのActionの映画に何点を付けているかを考慮して、予測する。   For example, as a tendency of all users, when a high score is given to a movie of Action, a high score is also given to a movie of the Thriller genre, when predicting the score of a movie of the Thriller genre Predict by considering how many points the user's Action movie has.

健康診断データのユーザの場合は、ドメインは、ユーザが加入する保険者を表し、保険者ごとに行列形データを作成して、複数の行列形データを同時に学習することにより、ある保険者に加入するユーザの検査値を予測する際に、他の保険者に加入するユーザの検査値を考慮して、予測することにより、予測精度が向上することが期待できる。   For users of health checkup data, the domain represents the insurer that the user subscribes to, and creates a matrix data for each insurer and joins an insurer by learning multiple matrix data simultaneously. When predicting the inspection value of the user who performs the prediction, it is expected that the prediction accuracy is improved by making a prediction in consideration of the inspection value of the user who joins another insurer.

また、同時に学習することで、各ドメイン間の相関関係を観察することができる。   Moreover, the correlation between each domain can be observed by learning simultaneously.

例えば、健康診断データへの応用、保険者は他の保険者と相関が強いか、弱いか知りたい。   For example, I want to know if the insurer has a strong or weak correlation with other insurers.

相関があるということは、データの傾向が似ているということなので、相関が強い保険者間では、データを共有したり、分析結果を参考にできる。   The fact that there is a correlation means that the data trends are similar, so that insurers with a strong correlation can share data and refer to the analysis results.

どの保険者のデータを参考にできるか選ぶ基準として、相関が使える。   Correlation can be used as a criterion for selecting which insurer's data can be referenced.

例えば、国保は40〜50才代が少なく、健保は60以上が少ない。   For example, National Health Insurance has few 40-50 generations, and Health Insurance has few 60 or more.

国保と健保の相関が強い場合、国保の40〜50代の傾向を知るのに、健保の40〜50才代の傾向を参考にできる。   When there is a strong correlation between National Health Insurance and Health Insurance, you can refer to the tendency of Health Insurance from 40 to 50 years old to know the tendency of National Health Insurance from 40 to 50s.

また、国保の40〜50才代の欠損値を予測するのに、健保の同年代のデータが予測に有用である可能性が高い。   Moreover, it is highly possible that the data of the same period of Kenpo is useful for prediction in predicting missing values in the 40-50s of National Health Insurance.

特許文献1には、コンテンツ提示装置及びコンテンツ提示方法の記載があり、コンテンツを選択した利用者に関連付けられている属性を抽出し、抽出した属性を有する利用者の集合であるコミュニティを形成し、利用者の所属するコミュニィティに基づいてコンテンツを提示することの記載がある(段落0068、0081、0118等)。   Patent Document 1 has a description of a content presentation device and a content presentation method, extracts attributes associated with a user who has selected content, forms a community that is a set of users having the extracted attributes, There is a description of presenting content based on the community to which the user belongs (paragraphs 0068, 0081, 0118, etc.).

特許文献2には、利用者対象推薦装置、利用者対象推薦方法およびプログラムの記載があり、複数の利用者が複数の利用対象のそれぞれを評価した評価値を、利用者および利用対象に対応づけて読出し、読みだされた評価値のなかで欠損している評価値を、利用者および利用対象を行及び列とした評価値の行列の特異値分解を用いて推定し、この推定値に基づいて、複数の利用対象のうち利用者へ推薦する利用対象を選択し、推定値の算出は行列の特異値単位の縮小推定により行うことの記載がある(段落0009−0012、0017、0034等)。   Patent Document 2 describes a user target recommendation device, a user target recommendation method, and a program, and a plurality of users associate evaluation values obtained by evaluating each of the plurality of use targets with the users and the use targets. Based on this estimated value, the estimated value missing in the read and read evaluation value is estimated using the singular value decomposition of the matrix of evaluation values with the user and usage target as rows and columns. In addition, there is a description that a usage target to be recommended to the user is selected from among a plurality of usage targets, and that the estimated value is calculated by reduction estimation of the singular value unit of the matrix (paragraphs 0009-0012, 0017, 0034, etc.) .

特許文献3には、予測装置の記載があり、未知の予測データを行列の欠落要素として持つように過去の履歴データおよび予測データを行列形式で構成し、構成されたデータ行列を特異値分解して行列の未知の予測データを表す欠陥要素を推定することにより予測データを出力することの記載がある(段落0043、0075)。   Patent Document 3 has a description of a prediction device, which configures past history data and prediction data in a matrix format so as to have unknown prediction data as a missing element of the matrix, and performs singular value decomposition on the configured data matrix. There is a description of outputting prediction data by estimating defect elements representing unknown prediction data of a matrix (paragraphs 0043 and 0075).

特許文献4には、易罹患性解析方法とソフトウェアの記載があり、疾患の判定に用いられる検査項目で煩雑に検査困難な要因を、被験者が測定可能な項目から推定し、その推定結果を用いて易罹患性を推定することの記載があり、また易罹患性は集団の分布をクラスタリングし、そのクラスタリングノード別に集計を行い、易罹患性を予め求め、その分布を事前確立分布として実際に得られた検査結果を前提条件として被験者の易罹患性の事後確立分布を推定することの記載がある(段落0009、0013)。   Patent Document 4 has a description of a susceptibility analysis method and software. Factors that are complicated and difficult to inspect for examination items used for disease determination are estimated from items that can be measured by the subject, and the estimation results are used. In addition, there is a description of estimating the susceptibility, and the susceptibility is obtained by clustering the population distribution, tabulating by clustering node, obtaining the susceptibility in advance, and actually obtaining the distribution as a pre-established distribution. There is a description of estimating the posterior probability distribution of the subject's susceptibility on the basis of the obtained test results (paragraphs 0009 and 0013).

特開2007−052561号公報JP 2007-052661 A 特開2010−061513号公報JP 2010-061513 A 特開2005−128808号公報JP 2005-128808 A 特開2004−305674号公報JP 2004-305664 A

筆者 Salakhutdinov, Ruslan and Mnih, Andriy,刊行物の題名 Probabilistic Matrix Factorization, NIPS 発行年月日 2007Author Salakhutdinov, Ruslan and Mnih, Andriy, Title of Publication Probabilistic Matrix Factorization, NIPS Publication Date 2007 筆者 Lawrence, Neil D. and Urtasun刊行物の題名Non-linear Matrix Factorization with Gaussian Processes, ICML 発行年月日 2009Author Title of Lawrence, Neil D. and Urtasun Publication Non-linear Matrix Factorization with Gaussian Processes, ICML Date of Publication 2009 筆者 Zhang, Cao and Yeung 刊行物の題名 Multi-Domain Collaborative Filtering ,UAI2010 発行年月日 2010Authors Zhang, Cao and Yeung Publication title Multi-Domain Collaborative Filtering, UAI2010 Publication date 2010

上記非特許文献3に開示された技術を例に、課題について説明する。   The problem will be described using the technique disclosed in Non-Patent Document 3 as an example.

第1の問題点は、線形なモデルという点である。   The first problem is that it is a linear model.

行列形データの行と列の非線形な関係をモデル化できず、線形な関係のみをモデル化する。   The nonlinear relationship between rows and columns of matrix data cannot be modeled, only the linear relationship is modeled.

例えば、商品推薦への応用の場合、従来技術ではユーザと商品の線形の関係を表現することはできるが、非線形な関係を表現できない。   For example, in the case of application to product recommendation, the conventional technology can express a linear relationship between a user and a product, but cannot express a non-linear relationship.

線形では表すことができない複雑な関係をモデル化することができれば、予測精度の向上が期待できる。   If complex relationships that cannot be expressed linearly can be modeled, the prediction accuracy can be improved.

第2の問題点は、従来手法は、予測値の確からしさを求めることが困難という点である。予測した結果がどのくらい信頼できるかを定量的に表すことは、実用上重要である。   The second problem is that it is difficult for the conventional method to obtain the accuracy of the predicted value. It is practically important to quantitatively represent how reliable the predicted result is.

例えば、商品推薦への応用の場合は、予測した商品の点数が高くても、信頼度合いが低ければ、そのユーザに推薦せず、予測した点数が高くて、かつ、信頼度合いが高い商品のみを推薦することができる。   For example, in the case of application to product recommendation, even if the score of a predicted product is high, if the degree of reliability is low, it is not recommended to the user, and only products with a high predicted score and high reliability are selected. Can be recommended.

実用上は、ユーザに推薦する商品の個数にも制限があるため、予測値の確からしさを求めることができれば、信頼度合いが高い順に商品を推薦するなどもできるようになる。
[発明の目的]
本発明の典型的な第1の目的は、行列形データの行と列の非線形な関係をモデル化することである。
In practice, since the number of products recommended to the user is limited, if the accuracy of the predicted value can be obtained, the products can be recommended in descending order of reliability.
[Object of invention]
A typical first object of the present invention is to model the non-linear relationship between rows and columns of matrix data.

例えば、商品推薦への応用の場合は、ユーザと商品の線形では表すことができない複雑な関係を非線形モデルで表現することで、予測精度の向上が期待できる。   For example, in the case of application to product recommendation, improvement of prediction accuracy can be expected by expressing a complicated relationship that cannot be expressed by the linear relationship between the user and the product using a nonlinear model.

本発明の典型的な第2の目的は、予測値の信頼度を出力することである。   A typical second object of the present invention is to output the reliability of the predicted value.

本発明の典型的な予測した結果がどのくらい信頼できる結果なのかを定量的に表す。   It represents quantitatively how reliable the typical predicted result of the present invention is.

第3の目的は、ドメイン間の相関を求めることである。   The third purpose is to obtain a correlation between domains.

非線形モデルに拡張したモデルにおいても、ドメイン間の相関を求める。   Even in a model extended to a nonlinear model, correlation between domains is obtained.

本発明に係わる行列形データの欠損値予測装置は、ドメインが異なる複数の行列形データを入力する入力手段と、
前記行列形データの行と列の非線形な関係を学習し、入力された前記複数の行列形データをドメインごとに別々のパラメータでモデル化し、各ドメインのパラメータを、共通のパラメータと誤差項によってモデル化し、ドメイン間の相関関係を誤差項により表現するモデルのパラメータを推定する、パラメータ推定手段と、
推定されたパラメータを用いて、前記行列形データの欠損値を予測し、予測値の分散を算出する予測手段と、を備えることを特徴とする。
An apparatus for predicting missing values of matrix data according to the present invention includes input means for inputting a plurality of matrix data having different domains,
Learn the non-linear relationship between the rows and columns of the matrix data, model the input matrix data with different parameters for each domain, and model the parameters of each domain with common parameters and error terms Parameter estimation means for estimating a parameter of a model that expresses a correlation between domains by an error term,
Prediction means for predicting a missing value of the matrix data using the estimated parameter and calculating a variance of the predicted value.

本発明に係わる行列形データの欠損値予測装置の欠損値予測方法は、入力されたドメインが異なる複数の行列形データの、該行列形データの行と列の非線形な関係を学習し、前記ドメインが異なる複数の行列形データをドメインごとに別々のパラメータでモデル化し、各ドメインのパラメータを、共通のパラメータと誤差項によってモデル化し、ドメイン間の相関関係を誤差項により表現する特徴を有するモデルのパラメータを推定し、
推定されたパラメータを用いて、行列形データの欠損値を予測し、予測値の分散を算出することを特徴とする。
According to the present invention, there is provided a missing value predicting method for a missing value predicting apparatus for a matrix type data, learning a non-linear relationship between rows and columns of the matrix type data of a plurality of inputted matrix types having different domains. Model with different parameters for each domain, parameters for each domain are modeled by common parameters and error terms, and correlation between domains is expressed by error terms. Estimate the parameters,
Using the estimated parameters, a missing value of matrix data is predicted, and a variance of predicted values is calculated.

本発明に係わるプログラムは、行列形データの欠損値予測装置として機能させるコンピュータに、
入力されたドメインが異なる複数の行列形データの、該行列形データの行と列の非線形な関係を学習し、前記ドメインが異なる複数の行列形データをドメインごとに別々のパラメータでモデル化し、各ドメインのパラメータを、共通のパラメータと誤差項によってモデル化し、ドメイン間の相関関係を誤差項により表現する特徴を有するモデルのパラメータを推定する手順と、
推定されたパラメータを用いて、行列形データの欠損値を予測し、予測値の分散を算出する手順と、
を実行させることを特徴とする。
A program according to the present invention allows a computer to function as a matrix-shaped data missing value prediction apparatus,
Learning a non-linear relationship between rows and columns of matrix-form data of a plurality of matrix-form data having different input domains, modeling a plurality of matrix-form data having different domains with different parameters for each domain, A step of modeling parameters of a domain by a common parameter and an error term, and estimating a parameter of a model having a feature that expresses a correlation between domains by an error term;
Using estimated parameters to predict missing values in matrix data and calculate the variance of the predicted values;
Is executed.

本発明に係わる典型的な第1の効果は、予測精度の向上である。行列形データの行と列の線形な関係だけでなく、非線形な関係をもモデル化することで、予測精度が向上する。   A typical first effect according to the present invention is an improvement in prediction accuracy. Prediction accuracy is improved by modeling not only the linear relationship between rows and columns of matrix data but also a nonlinear relationship.

本発明に係わる典型的な第2の効果は、予測値の信頼度として予測値の分散を算出し、出力することである。適用する非線形モデルは事後分布が求まるため、予測値の分散が算出できる。   A typical second effect according to the present invention is to calculate and output the variance of the predicted value as the reliability of the predicted value. Since the applied nonlinear model determines the posterior distribution, the variance of the predicted value can be calculated.

本発明に係わる典型的な第3の効果は、計算量の削減である。非線形に拡張したモデルによって、素朴にドメイン間の相関を計算すると、計算量が膨大になるため、実用困難である。入力された複数の行列形データをドメインごとに別々のパラメータでモデル化し、各ドメインのパラメータを共通のパラメータと誤差項によってモデル化し、ドメイン間の相関関係を誤差項によって表現することで計算量を削減できる。   A typical third effect related to the present invention is a reduction in calculation amount. If the correlation between domains is simply calculated using a non-linearly expanded model, the amount of calculation becomes enormous, which is difficult to put into practical use. Multiple input matrix data is modeled with different parameters for each domain, the parameters of each domain are modeled with common parameters and error terms, and the correlation between domains is expressed with error terms to reduce the amount of computation. Can be reduced.

本発明に係わる第1の実施の形態のブロック図である。It is a block diagram of a 1st embodiment concerning the present invention. 本発明に係わる第1の実施の形態のフローチャートである。It is a flowchart of 1st Embodiment concerning this invention. 本発明に係わる第2の実施の形態の入力データの例である。It is an example of the input data of 2nd Embodiment concerning this invention. 本発明に係わる第3の実施の形態の入力データの例である。It is an example of the input data of 3rd Embodiment concerning this invention. 本発明に係わる第3の実施の形態の分散共分散の例である。It is an example of the dispersion | distribution covariance of 3rd Embodiment concerning this invention. 本発明に係わるプログラムにより欠損値予測装置として動作するコンピュータの一例を示す図である。It is a figure which shows an example of the computer which operate | moves as a missing value prediction apparatus with the program concerning this invention.

次に、本発明の典型的な実施の形態について図面を参照して詳細に説明する。
(第1の実施形態)
図1は、本発明の一実施形態に係わる欠損値予測装置の構成図である。
Next, typical embodiments of the present invention will be described in detail with reference to the drawings.
(First embodiment)
FIG. 1 is a configuration diagram of a missing value prediction apparatus according to an embodiment of the present invention.

本実施形態の欠損値予測装置101の構成は、入力部102、パラメータ推定部103、欠損値予測部104、出力部105を備える。   The configuration of the missing value prediction apparatus 101 of this embodiment includes an input unit 102, a parameter estimation unit 103, a missing value prediction unit 104, and an output unit 105.

入力部102は、ドメインが異なる複数の行列形データを入力する。パラメータ推定部103は、モデルのパラメータを推定する。欠損値予測部104は、入力された行列形データの欠損値を予測する。出力部105は、予測した欠損値を出力する。入力部102はキーボードやネットワークと通信を行う受信部等で構成され、出力部105は液晶ディスプレイ等の表示装置やネットワークと通信を行う送信部等で構成される。   The input unit 102 inputs a plurality of matrix data having different domains. The parameter estimation unit 103 estimates model parameters. The missing value prediction unit 104 predicts missing values of the input matrix data. The output unit 105 outputs the predicted missing value. The input unit 102 includes a keyboard and a receiving unit that communicates with the network, and the output unit 105 includes a display unit such as a liquid crystal display and a transmitting unit that communicates with the network.

次に、上記構成例の動作について説明する。図2に、動作のフローチャートを示す。
(1)ステップS201
入力部102に、ドメインが異なる複数の行列形データを入力する。
Next, the operation of the above configuration example will be described. FIG. 2 shows a flowchart of the operation.
(1) Step S201
A plurality of matrix data having different domains are input to the input unit 102.

ドメインdの行列形データをY_dとする。ドメイン数をDとすると、入力データはY_d{d=1,2,..,D}である。行列形データY_dは、N×M_d次元の行列とする。行数を表すNは、ドメインで共通であり、列数を表すM_dは、ドメインごとに異なる。
(2)ステップS202
パラメータ推定部103では、モデルのパラメータを推定する。欠損値を含むドメインdの行列形データY_dを数1で示す。なお、「^」はべき乗を示し、{i,:}^{T}は{i,:}{T}を示す。
[数1]
Y_d_{i,:} = W_d X_d_{i,:}^{T} + ε

Y_d = N × M_d 行列 :入力データ
X_d = N × q 行列 : 低次元行列データ
W_d = M_d ×q 行列 :低次元行列データ
N:Y_dの行数
M_d:Y_dの列数
q:X_d、W_dの次元数
qは、ドメインで共通とする。
{i,:}は、行列のi行の全列を縦ベクトルにしたものを表す。
ここで、
ε 〜 N(0, σ_d I_(M_d) )
I_(M_d) = M_d × M_d 行列 :単位行列
σ_dは、正規分布の分散を表す。
行列形データY_dを数2で表す。
[数2]
P(Y_d | X_d、σ_d)= II^{M_d}_{i=1} N (Y_d_{:,i} | X_d X_d^{T}, σ_d^{2} I_N)

ここで、N()は多次元正規分布を表す。
推定するパラメータはX_dとσ_dである。
数1は、非特許文献2に記載のモデルと同じである。
数2のX_d X_d^{T}をマーセルカーネルKとすると、数2は非線形モデルとなる。
マーセルカーネルKの例として、
K(i,j)= exp(-1/2*γ* ( x(i,j)-x(j,i) )^2 ) , i=1,2,…,N ; j=1,2,…,N
とする。
γは、RBFカーネルのパラメータである。
Let Y_d be the matrix data of domain d. If the number of domains is D, the input data is Y_d {d = 1,2, .., D}. The matrix data Y_d is an N × M_d dimensional matrix. N representing the number of rows is common to the domains, and M_d representing the number of columns is different for each domain.
(2) Step S202
The parameter estimation unit 103 estimates model parameters. Matrix data Y_d of domain d including missing values is represented by Equation 1. “^” Indicates a power and {i,:} ^ {T} indicates {i ,:} {T} .
[Equation 1]
Y_d_ {i ,:} = W_d X_d_ {i,:} ^ {T} + ε

Y_d = N × M_d matrix: input data
X_d = N × q Matrix: Low-dimensional matrix data
W_d = M_d × q Matrix: Low-dimensional matrix data
N: Number of rows in Y_d
M_d: Number of columns in Y_d
q: Number of dimensions of X_d and W_d
q is common to the domains.
{i ,:} represents a matrix whose i columns are all vertical columns.
here,
ε to N (0, σ_d I_ (M_d))
I_ (M_d) = M_d × M_d matrix: The unit matrix σ_d represents the variance of the normal distribution.
Matrix data Y_d is expressed by Equation 2.
[Equation 2]
P (Y_d | X_d, σ_d) = II ^ {M_d} _ {i = 1} N (Y_d _ {:, i} | X_d X_d ^ {T}, σ_d ^ {2} I_N)

Here, N () represents a multidimensional normal distribution.
The parameters to be estimated are X_d and σ_d.
Equation 1 is the same as the model described in Non-Patent Document 2.
If X_d X_d ^ {T} in Equation 2 is the Mercer kernel K, Equation 2 becomes a nonlinear model.
As an example of Marcel kernel K,
K (i, j) = exp (-1 / 2 * γ * (x (i, j) -x (j, i)) ^ 2), i = 1,2,…, N; j = 1,2 ,…, N
And
γ is a parameter of the RBF kernel.

次に、ドメインごとに推定するパラメータであるX_dを行列Xとしてまとめる(数3)。
[数3]
X=[ X_1 , X_2 , .., X_D ]

ここで、X= N × Dq 行列となる。
D:ドメイン数を表す
次に、上記Xからi行目を抽出したベクトルを、X_i:とする。
X_i:は、Dq × 1 ベクトルである。本技術では、X_i:を数4で表す。
[数4]
X_i: = f(X’_i) + e

ここで、
X’は、N×q’全てのドメインに共通の低次元行列とする。
X’_i は、X’のi行列目から抽出する q’× 1ベクトルである。
q’は、X’行列の次元を表す。事前に与えられるとする。
f()はX’_iの関数とする。
ここで、
e 〜 N(0, Σ_Dq)
eは誤差項であり、 Dq ×1 ベクトルである。
eの分散共分散行列は、Dq×Dq行列であり、各ドメインの各次元間の相関を表す。
数4は、X_i:が、f(X’_i)と誤差項の和で表現することを示している。
Next, X_d, which is a parameter estimated for each domain, is collected as a matrix X (Equation 3).
[Equation 3]
X = [X_1, X_2, .., X_D]

Here, X = N × Dq matrix.
D: Represents the number of domains Next, a vector obtained by extracting the i-th row from X is X_i :.
X_i: is a Dq × 1 vector. In the present technology, X_i: is expressed by Formula 4.
[Equation 4]
X_i: = f (X'_i) + e

here,
X ′ is a low-dimensional matrix common to all N × q ′ domains.
X′_i is a q ′ × 1 vector extracted from the i-th matrix of X ′.
q ′ represents the dimension of the X ′ matrix. Suppose that it is given in advance.
f () is a function of X'_i.
here,
e to N (0, Σ_Dq)
e is the error term, a Dq × 1 vector.
The variance-covariance matrix of e is a Dq × Dq matrix and represents a correlation between dimensions of each domain.
Equation 4 indicates that X_i: is expressed by the sum of f (X′_i) and the error term.

本技術は、各ドメインのパラメータを1つの行列Xにまとめ、それを共通のパラメータX’と誤差項eによってモデル化し、ドメイン間の相関関係を誤差項の分散共分散行列Σ_Dqで表現する特徴を有する。   This technology collects the parameters of each domain into a single matrix X, models it with a common parameter X ′ and error term e, and expresses the correlation between the domains as a variance-covariance matrix Σ_Dq of error terms. Have.

数4は、誤差項eがDq間で独立ではなく、相関があると仮定しているため、X_i:は、Dq間で独立ではない。   Since Equation 4 assumes that the error term e is not independent between Dq and is correlated, X_i: is not independent between Dq.

素朴にDq間の相関関係を観察する場合は、数2と同様に、
p( vec(X) | vec(X’)、β) = N( vec(X) | 0 , vec(X’)vec(X’)^{T} + βI_DqN )
とすることにより、
「vec(X’)vec(X’)^{T} + βI_DqN」によって、DqN次元間の相関が求まるが、DqNは、次元が大きすぎるため、計算量が膨大になるため、実用困難である。ここで、N()は多次元正規分布を表す。vec(X)は行列Xの各列要素(例えば、i列目の場合X_(:,i)と表す)を縦に並べたベクトル[X_(:,1)^{T},X_(:,2)^{T}, …, X_(:,Dq)^{T} ]^{T}であり、サイズがDqN×1のベクトルである。Tは、転置を表す。また、vec(X’)は行列X’の各列要素を縦に並べたベクトル[X’_(:,1)^{T},X’_(:,2)^{T}, …, X’_(:,Dq)^{T} ]^{T}である。
When simply observing the correlation between Dq, as in Equation 2,
p (vec (X) | vec (X '), β) = N (vec (X) | 0, vec (X') vec (X ') ^ {T} + βI_DqN)
By
"Vec (X ') vec (X') ^ {T} + βI_DqN" gives correlation between DqN dimensions, but DqN is too difficult to put into practical use because the dimension is too large. . Here, N () represents a multidimensional normal distribution. vec (X) is a vector [X _ (:, 1) ^ {T}, X_ (:,) in which each column element of the matrix X (for example, X _ (:, i) for the i-th column) is arranged vertically. 2) ^ {T},…, X _ (:, Dq) ^ {T}] ^ {T}, a vector of size DqN × 1. T represents transposition. Vec (X ') is a vector [X' _ (:, 1) ^ {T}, X '_ (:, 2) ^ {T},…, X '_ (:, Dq) ^ {T}] ^ {T}.

計算量を削減しつつ、ドメイン間の相関関係を表現するために、変数変換により、ドメイン間の相関関係を表す誤差をX’から取り除き、X’はDq間で無相関化する。   In order to express the correlation between domains while reducing the amount of calculation, an error indicating the correlation between domains is removed from X ′ by variable transformation, and X ′ is decorrelated between Dq.

まず、eの分散共分散行列Cov(e)= Σ_Dq は、コレスキー分解によって、
cov(e) = L L^{T}
となる。Lは、Dq×Dqの下三角行列である。
First, the variance-covariance matrix Cov (e) = Σ_Dq of e is obtained by Cholesky decomposition,
cov (e) = LL ^ {T}
It becomes. L is a lower triangular matrix of Dq × Dq.

この結果、e = Le*となる。
ここで、
e* 〜 N(0, I_Dq )とする。
e* = Dq × 1 ベクトルであり、I_Dq = Dq × Dq の単位行列である。
e*の分散協分散行列は、
cov(e*)=I_Dqであり、無相関とする。
上記を用いると、数4は数5と表すことができる。
[数5]
X_i: = f(X’_i:) + e
= f(X’_i:) + Le*

次に、数5の両辺に、Lの逆行列L^{-1}をかけると、
[数6]
L^{-1}X_(i:) = L^{-1}f( X’_(i:)) + e*

となる。
As a result, e = Le *.
here,
e * to N (0, I_Dq).
e * = Dq × 1 vector, I_Dq = Dq × Dq identity matrix.
The covariance matrix of e * is
cov (e *) = I_Dq, which is uncorrelated.
Using the above, Equation 4 can be expressed as Equation 5.
[Equation 5]
X_i: = f (X'_i :) + e
= f (X'_i :) + Le *

Next, multiplying both sides of Equation 5 by the inverse matrix L ^ {-1} of L,
[Equation 6]
L ^ {-1} X_ (i :) = L ^ {-1} f (X '_ (i :)) + e *

It becomes.

次に、新たな変数として、数7によりX^{I}_(i:)を定義する。
[数7]
X^{I}_(i:) = L^{-1}f(X’_(i:)) + e*

ドメイン間の相関を表す誤差項であるeはドメイン間の相関を消したe*となり、X^{I}_(i:)は、Dq間では無相関となる。X^{I}は、Xと同じサイズの行列である。
Next, X ^ {I} _ (i :) is defined by Equation 7 as a new variable.
[Equation 7]
X ^ {I} _ (i :) = L ^ {-1} f (X '_ (i :)) + e *

The error term e indicating the correlation between domains is e * with the correlation between domains eliminated, and X ^ {I} _ (i :) is uncorrelated between Dq. X ^ {I} is a matrix of the same size as X.

次に、数5と数7より、
[数8]
X_i: = L X^{I}_i:

となる。数8は、Dq間で無相関のX^{I}_i:とDq間の相関関係が入るX_iの関係を表す。
Next, from Equation 5 and Equation 7,
[Equation 8]
X_i: = LX ^ {I} _i:

It becomes. Equation 8 represents the relationship between X ^ {I} _i: that is not correlated between Dq and X_i that has a correlation between Dq.

行列Xをvec(X)とすると、ドメイン間に共通の低次元ベクトルvec(X’)は次式で表される。
[数9]
p( vec(X) | vec(X’)) = ( L_{Dq} × I_{N} ) p( vec(X^{I}) | vec(X’) )

数9のp( vec(X_{I}) | vec(X’) ) は、Dq間で独立であり、数10と表すことができる。

Figure 2012194741
[数10]
p( X^{I} | X’ , β) = II^{Dq}_{i=0} p( X^I_(:,i) | X’ , βI_N)
= II^{Dq}_{i=0} N( X^I_(:,i) | 0, X’ X’^{T} , βI_N)

ここで、βはN()のパラメータ(分散)を表す。 When the matrix X is vec (X), a common low-dimensional vector vec (X ′) between the domains is expressed by the following equation.
[Equation 9]
p (vec (X) | vec (X ')) = (L_ {Dq} × I_ {N}) p (vec (X ^ {I}) | vec (X'))

P (vec (X_ {I}) | vec (X ′)) in Expression 9 is independent among Dq and can be expressed as Expression 10.

Figure 2012194741
[Equation 10]
p (X ^ {I} | X ', β) = II ^ {Dq} _ {i = 0} p (X ^ I _ (:, i) | X', βI_N)
= II ^ {Dq} _ {i = 0} N (X ^ I _ (:, i) | 0, X 'X' ^ {T}, βI_N)

Here, β represents a parameter (dispersion) of N ().

II^{N}としてNに独立にモデル化しない素朴な方法では、数10のX’ X’^{T}=N×Nの分散共分散行列を計算する代わりに、DqN×DqNの分散共分散行列を計算することになるため、計算量が膨大になり、実用上計算困難になる。   II ^ {N}, a simple method that does not model N independently, instead of computing the variance covariance matrix of X 'X' ^ {T} = N × N in Mathematical Formula 10, the variance covariance of DqN × DqN Since the variance matrix is calculated, the amount of calculation becomes enormous and it becomes practically difficult to calculate.

推定するパラメータは、[X_1,X_2,…,X_d,…,X_D], L , X’, [σ_1, σ_2,…, σ_d,…, σ_D] 、βである。q、q`は、あらかじめ入力されるパラメータとする。   The parameters to be estimated are [X_1, X_2,..., X_d,. q and q` are parameters input in advance.

推定したLを用いると、数11によりドメイン間の相関を表す、分散共分散行列が求まる。
[数11]
e = L L^{T} = Σ

Σは、分散共分散行列であり、Dq×Dqの大きさの行列である。
この行列がドメイン間の相関関係を表す。
When the estimated L is used, a variance-covariance matrix that represents the correlation between domains is obtained by Equation 11.
[Equation 11]
e = LL ^ {T} = Σ

Σ is a variance-covariance matrix and is a matrix having a size of Dq × Dq.
This matrix represents the correlation between domains.

分散共分散行列Dq×DqをD×Dに圧縮した例を図5に示す。
(3)ステップS203
欠陥予測部104において、欠損値を予測する。
ドメインdの、j行目、l列目の値を予測する場合、
[数13]
μ_d,j,l = ( K_d,index_l: , index_l : + σ_d^{2} I)^{-1} K_d,index_l,j y_d,index_l, l

index_l: は、l列目の中で値がある(欠損していない)行番号のインデックスの集合を表す。
[数14]
ξ_d,j,l = K_d,j,j + σ_d^{2} - K_d,index_l, j^{T} ( K_d,j:,j: + σ_d^{2} I)^{-1} K_d,index_l,j

数13は予測値であり、数14は分散を表す。
(4)ステップS204
出力部105は、入力した複数の行列形データに含まれる各欠損値の予測値μとその信頼度を表すξをそれぞれ出力する。
(第2の実施形態)
本発明の第2の実施の形態は、健康診断データの欠損値予測である。
An example in which the variance-covariance matrix Dq × Dq is compressed to D × D is shown in FIG.
(3) Step S203
In the defect prediction unit 104, a missing value is predicted.
When predicting the value of the j-th row and l-th column of domain d,
[Equation 13]
μ_d, j, l = (K_d, index_l:, index_l: + σ_d ^ {2} I) ^ {-1} K_d, index_l, j y_d, index_l, l

index_l: represents a set of indexes of row numbers having a value (not missing) in the l-th column.
[Equation 14]
ξ_d, j, l = K_d, j, j + σ_d ^ {2}-K_d, index_l, j ^ {T} (K_d, j:, j: + σ_d ^ {2} I) ^ {-1} K_d, index_l, j

Equation 13 is the predicted value, and Equation 14 represents the variance.
(4) Step S204
The output unit 105 outputs the predicted value μ of each missing value included in the plurality of input matrix data and ξ representing its reliability.
(Second Embodiment)
The second embodiment of the present invention is prediction of missing values of health check data.

複数の保険者{d=1,..,D}の各加入者{M_1,M_2,…,M_D}の健康診断結果として、検査項目{1,2,..,N}、加入者、検査値から構成される行列形データを保険者別に行列形にしたデータを入力データとして、ユーザの検査項目の欠損した検査値を予測する。   As the health check result of each subscriber {M_1, M_2, ..., M_D} of multiple insurers {d = 1, .., D}, test items {1,2, .., N}, subscribers, tests A test value in which a user's test item is missing is predicted by using, as input data, data obtained by making the matrix data composed of values into a matrix for each insurer.

図3に入力データ例を示す。例えば、加入者に保健指導をするかしないかを、複数の検査項目の検査値を基準に決めるため、一部の検査項目に欠損値があると、欠損値がある加入者には保健指導をするかしないか決められないことから、欠損値を予測した補間することで、欠損値がある加入者に対しても保健指導をするかしないか決めることができる。
(第3の実施形態)
本発明の第3の実施の形態は、商品推薦技術である。
FIG. 3 shows an example of input data. For example, to determine whether or not to give health guidance to subscribers based on the test values of multiple test items, if some test items have missing values, health guidance is given to subscribers with missing values. Since it is not possible to determine whether or not to perform, it is possible to determine whether or not to give health guidance to a subscriber who has a missing value by interpolating the predicted missing value.
(Third embodiment)
The third embodiment of the present invention is a product recommendation technique.

複数の商品のユーザの嗜好情報として、ユーザ、商品、その商品の嗜好度から構成される行列形データを商品のジャンル別{d=1,..,D}に行列形にしたデータを入力データとして、ユーザがまだ点数がつけられていない商品の嗜好度を予測する。   As input information of users of multiple products, input data that is a matrix form of {d = 1,.. As for a user, the preference degree of the goods to which the score is not attached yet is estimated.

予測した点数が高ければ、ユーザがその商品を好きであるとして、その商品を推薦する。   If the predicted score is high, it is recommended that the user likes the product.

図4に行列形データの例を示す。 図4では、Thriller、Action、Romanceのジャンルを例にした。   FIG. 4 shows an example of matrix data. In FIG. 4, the genre of Thriller, Action, and Romance is taken as an example.

分散共分散行列Dq×DqをD×Dに圧縮した例を図5に示す。ジャンル間の相関関係が観察できる。   An example in which the variance-covariance matrix Dq × Dq is compressed to D × D is shown in FIG. The correlation between genres can be observed.

例えば、図5の(1、2)要素は、ThrillerとActionの相関を表す。(1、3)要素は、ThrillerとRomanceの相関を表す。図5では、ThrillerとActionの相関は、ThrillerとRomanceの相関よりも高いことがわかる。   For example, the (1,2) element in FIG. 5 represents the correlation between Thriller and Action. The (1, 3) element represents the correlation between Thriller and Romance. FIG. 5 shows that the correlation between Thriller and Action is higher than the correlation between Thriller and Romance.

本実施形態の行列形データの欠損値予測装置はハードウェアで構成されるが、図1に示す構成部の全部又は一部をコンピュータを用いてソフトウェアで実現することもできる。図6は本発明に係わるプログラムにより欠損値予測装置として動作するコンピュータの一例を示す図である。   The matrix-shaped data missing value prediction apparatus according to the present embodiment is configured by hardware, but all or part of the components illustrated in FIG. 1 may be realized by software using a computer. FIG. 6 is a diagram showing an example of a computer that operates as a missing value predicting apparatus according to a program according to the present invention.

コンピュータをCPU304、ハードディスク等のディスク装置(ROM等の記憶手段であってもよい)305、キーボード等の入力部301、RAM等のメモリ303、液晶ディスプレイ等の表示部302で構成し、パラメータ推定部103、欠損値予測部104の動作をプログラムで記述し、このプログラムをハードディスク等のディスク装置305に記憶し、演算に必要な情報をRAM等のメモリ303に記憶し、CPU304で当該プログラムを動作させることで、本実施形態の欠損値予測装置の機能をプログラムで実現することができる。当該プログラムは、DVD、CD−ROM、USBメモリ等のコンピュータ読み取り可能な記録媒体に記録し、ハードディスクにインストールすることで、コンピュータに読み込むことができる。   The computer includes a CPU 304, a disk device such as a hard disk (may be a storage means such as a ROM) 305, an input unit 301 such as a keyboard, a memory 303 such as a RAM, and a display unit 302 such as a liquid crystal display. 103, the operation of the missing value prediction unit 104 is described by a program, this program is stored in a disk device 305 such as a hard disk, information necessary for the operation is stored in a memory 303 such as a RAM, and the CPU 304 operates the program. Thus, the function of the missing value prediction apparatus of the present embodiment can be realized by a program. The program can be read into a computer by recording it on a computer-readable recording medium such as a DVD, CD-ROM, or USB memory and installing it on a hard disk.

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下の構成には限られない。
(付記1)
ドメインが異なる複数の行列形データを入力する入力手段と、
前記行列形データの行と列の非線形な関係を学習し、入力された前記複数の行列形データをドメインごとに別々のパラメータでモデル化し、各ドメインのパラメータを、共通のパラメータと誤差項によってモデル化し、ドメイン間の相関関係を誤差項により表現するモデルのパラメータを推定する、パラメータ推定手段と、
推定されたパラメータを用いて、前記行列形データの欠損値を予測し、予測値の分散を算出する予測手段と、を備える、行列形データの欠損値予測装置。
(付記2)
複数の保険者の各加入者の健康診断結果である、検査項目、加入者、検査値から構成される行列形データを保険者別に行列形にしたデータを入力データとして、ユーザの検査項目の欠損した検査値を予測する、付記1に記載の欠損値予測装置。
(付記3)
複数の商品のユーザの嗜好情報である、ユーザ、商品、その商品の嗜好度から構成される行列形データを商品のジャンル別に行列形にしたデータを入力データとして、ユーザの嗜好情報が未登録の商品の嗜好度を予測する、付記1に記載の欠損値予測装置。
(付記4)
入力されたドメインが異なる複数の行列形データの、該行列形データの行と列の非線形な関係を学習し、前記ドメインが異なる複数の行列形データをドメインごとに別々のパラメータでモデル化し、各ドメインのパラメータを、共通のパラメータと誤差項によってモデル化し、ドメイン間の相関関係を誤差項により表現する特徴を有するモデルのパラメータを推定し、
推定されたパラメータを用いて、行列形データの欠損値を予測し、予測値の分散を算出する、行列形データの欠損値予測装置の欠損値予測方法。
(付記5)
複数の保険者の各加入者の健康診断結果である、検査項目、加入者、検査値から構成される行列形データを保険者別に行列形にしたデータを入力データとして、ユーザの検査項目の欠損した検査値を予測する、付記4に記載の欠損値予測方法。
(付記6)
複数の商品のユーザの嗜好情報である、ユーザ、商品、その商品の嗜好度から構成される行列形データを商品のジャンル別に行列形にしたデータを入力データとして、ユーザの嗜好情報が未登録の商品の嗜好度を予測する、付記4に記載の欠損値予測方法。
(付記7)
行列形データの欠損値予測装置として機能させるコンピュータに、
入力されたドメインが異なる複数の行列形データの、該行列形データの行と列の非線形な関係を学習し、前記ドメインが異なる複数の行列形データをドメインごとに別々のパラメータでモデル化し、各ドメインのパラメータを、共通のパラメータと誤差項によってモデル化し、ドメイン間の相関関係を誤差項により表現する特徴を有するモデルのパラメータを推定する手順と、
推定されたパラメータを用いて、行列形データの欠損値を予測し、予測値の分散を算出する手順と、
を実行させることを特徴とするコンピュータプログラム。
(付記8)
複数の保険者の各加入者の健康診断結果である、検査項目、加入者、検査値から構成される行列形データを保険者別に行列形にしたデータを入力データとして、ユーザの検査項目の欠損した検査値を予測する、付記7に記載のコンピュータプログラム。
(付記9)
複数の商品のユーザの嗜好情報である、ユーザ、商品、その商品の嗜好度から構成される行列形データを商品のジャンル別に行列形にしたデータを入力データとして、ユーザの嗜好情報が未登録の商品の嗜好度を予測する、付記7に記載のコンピュータプログラム。
A part or all of the above embodiment can be described as in the following supplementary notes, but is not limited to the following configuration.
(Appendix 1)
An input means for inputting a plurality of matrix data having different domains;
Learn the non-linear relationship between the rows and columns of the matrix data, model the input matrix data with different parameters for each domain, and model the parameters of each domain with common parameters and error terms Parameter estimation means for estimating a parameter of a model that expresses a correlation between domains by an error term,
A matrix data missing value prediction apparatus comprising: a predicting unit that predicts a missing value of the matrix data using an estimated parameter and calculates a variance of the predicted values.
(Appendix 2)
Missing user test items using input data that is a matrix form of insurers, consisting of test items, subscribers, and test values, which is the health check result of each insurer's health checkup The missing value prediction apparatus according to appendix 1, wherein the inspection value is predicted.
(Appendix 3)
User preference information is unregistered, using as input data data obtained by arranging the matrix data composed of users, products, and the degree of preference of the products, which are user preference information of multiple products, into a matrix for each product genre. The missing value prediction apparatus according to appendix 1, which predicts the preference level of a product.
(Appendix 4)
Learning a non-linear relationship between rows and columns of matrix-form data of a plurality of matrix-form data having different input domains, modeling a plurality of matrix-form data having different domains with different parameters for each domain, Model the parameters of the domain with common parameters and error terms, estimate the parameters of the model with the characteristics that express the correlation between domains with error terms,
A missing value prediction method for a missing value predictor for a matrix data, which predicts a missing value of matrix data using an estimated parameter and calculates a variance of the predicted values.
(Appendix 5)
Missing user test items using input data that is a matrix form of insurers, consisting of test items, subscribers, and test values, which is the health check result of each insurer's health checkup The missing value prediction method according to attachment 4, wherein the inspection value is predicted.
(Appendix 6)
User preference information is unregistered, using as input data data obtained by arranging the matrix data composed of users, products, and the degree of preference of the products, which are user preference information of multiple products, into a matrix for each product genre. The missing value prediction method according to attachment 4, wherein the preference level of the product is predicted.
(Appendix 7)
A computer that functions as a missing value prediction device for matrix data,
Learning a non-linear relationship between rows and columns of matrix-form data of a plurality of matrix-form data having different input domains, modeling a plurality of matrix-form data having different domains with different parameters for each domain, A step of modeling parameters of a domain by a common parameter and an error term, and estimating a parameter of a model having a feature that expresses a correlation between domains by an error term;
Using estimated parameters to predict missing values in matrix data and calculate the variance of the predicted values;
A computer program for executing
(Appendix 8)
Missing user test items using input data that is a matrix form of insurers, consisting of test items, subscribers, and test values, which is the health check result of each insurer's health checkup The computer program according to appendix 7, which predicts the inspection value obtained.
(Appendix 9)
User preference information is unregistered, using as input data data obtained by arranging the matrix data composed of users, products, and the degree of preference of the products, which are user preference information of multiple products, into a matrix for each product genre. The computer program according to appendix 7, which predicts the preference level of the product.

本発明は、ドメインが異なる複数の行列形データの欠損値を予測し、予測値の分散を算出する、行列形データの欠損値予測装置、欠損値予測計算方法および欠損値予測プログラムに用いることができ、顧客への商品の推薦や健康診断データの欠損値予測に応用することができる。   INDUSTRIAL APPLICABILITY The present invention is used for a matrix-shaped data missing value prediction device, a missing value prediction calculation method, and a missing value prediction program that predict missing values of a plurality of matrix-shaped data having different domains and calculate a variance of predicted values. It can be applied to recommending products to customers and predicting missing values in health checkup data.

101 欠損値予測装置
102 入力部
103 パラメータ推定部
104 欠損値予測部
105 出力部
DESCRIPTION OF SYMBOLS 101 Missing value prediction apparatus 102 Input part 103 Parameter estimation part 104 Missing value prediction part 105 Output part

Claims (9)

ドメインが異なる複数の行列形データを入力する入力手段と、
前記行列形データの行と列の非線形な関係を学習し、入力された前記複数の行列形データをドメインごとに別々のパラメータでモデル化し、各ドメインのパラメータを、共通のパラメータと誤差項によってモデル化し、ドメイン間の相関関係を誤差項により表現するモデルのパラメータを推定する、パラメータ推定手段と、
推定されたパラメータを用いて、前記行列形データの欠損値を予測し、予測値の分散を算出する予測手段と、を備える、行列形データの欠損値予測装置。
An input means for inputting a plurality of matrix data having different domains;
Learn the non-linear relationship between the rows and columns of the matrix data, model the input matrix data with different parameters for each domain, and model the parameters of each domain with common parameters and error terms Parameter estimation means for estimating a parameter of a model that expresses a correlation between domains by an error term,
A matrix data missing value prediction apparatus comprising: a predicting unit that predicts a missing value of the matrix data using an estimated parameter and calculates a variance of the predicted values.
複数の保険者の各加入者の健康診断結果である、検査項目、加入者、検査値から構成される行列形データを保険者別に行列形にしたデータを入力データとして、ユーザの検査項目の欠損した検査値を予測する、請求項1に記載の欠損値予測装置。   Missing user test items using input data that is a matrix form of insurers, consisting of test items, subscribers, and test values, which is the health check result of each insurer's health checkup The missing value prediction apparatus according to claim 1, wherein the inspection value is predicted. 複数の商品のユーザの嗜好情報である、ユーザ、商品、その商品の嗜好度から構成される行列形データを商品のジャンル別に行列形にしたデータを入力データとして、ユーザの嗜好情報が未登録の商品の嗜好度を予測する、請求項1に記載の欠損値予測装置。   User preference information is unregistered, using as input data data obtained by arranging the matrix data composed of users, products, and the degree of preference of the products, which are user preference information of multiple products, into a matrix for each product genre. The missing value prediction apparatus according to claim 1, wherein the preference level of a product is predicted. 入力されたドメインが異なる複数の行列形データの、該行列形データの行と列の非線形な関係を学習し、前記ドメインが異なる複数の行列形データをドメインごとに別々のパラメータでモデル化し、各ドメインのパラメータを、共通のパラメータと誤差項によってモデル化し、ドメイン間の相関関係を誤差項により表現する特徴を有するモデルのパラメータを推定し、
推定されたパラメータを用いて、行列形データの欠損値を予測し、予測値の分散を算出する、行列形データの欠損値予測装置の欠損値予測方法。
Learning a non-linear relationship between rows and columns of matrix-form data of a plurality of matrix-form data having different input domains, modeling a plurality of matrix-form data having different domains with different parameters for each domain, Model the parameters of the domain with common parameters and error terms, estimate the parameters of the model with the characteristics that express the correlation between domains with error terms,
A missing value prediction method for a missing value predictor for a matrix data, which predicts a missing value of matrix data using an estimated parameter and calculates a variance of the predicted values.
複数の保険者の各加入者の健康診断結果である、検査項目、加入者、検査値から構成される行列形データを保険者別に行列形にしたデータを入力データとして、ユーザの検査項目の欠損した検査値を予測する、請求項4に記載の欠損値予測方法。   Missing user test items using input data that is a matrix form of insurers, consisting of test items, subscribers, and test values, which is the health check result of each insurer's health checkup The missing value prediction method according to claim 4, wherein the inspection value is predicted. 複数の商品のユーザの嗜好情報である、ユーザ、商品、その商品の嗜好度から構成される行列形データを商品のジャンル別に行列形にしたデータを入力データとして、ユーザの嗜好情報が未登録の商品の嗜好度を予測する、請求項4に記載の欠損値予測方法。   User preference information is unregistered, using as input data data obtained by arranging the matrix data composed of users, products, and the degree of preference of the products, which are user preference information of multiple products, into a matrix for each product genre. The missing value prediction method according to claim 4, wherein the preference level of the product is predicted. 行列形データの欠損値予測装置として機能させるコンピュータに、
入力されたドメインが異なる複数の行列形データの、該行列形データの行と列の非線形な関係を学習し、前記ドメインが異なる複数の行列形データをドメインごとに別々のパラメータでモデル化し、各ドメインのパラメータを、共通のパラメータと誤差項によってモデル化し、ドメイン間の相関関係を誤差項により表現する特徴を有するモデルのパラメータを推定する手順と、
推定されたパラメータを用いて、行列形データの欠損値を予測し、予測値の分散を算出する手順と、
を実行させることを特徴とするコンピュータプログラム。
A computer that functions as a missing value prediction device for matrix data,
Learning a non-linear relationship between rows and columns of matrix-form data of a plurality of matrix-form data having different input domains, modeling a plurality of matrix-form data having different domains with different parameters for each domain, A step of modeling parameters of a domain by a common parameter and an error term, and estimating a parameter of a model having a feature that expresses a correlation between domains by an error term;
Using estimated parameters to predict missing values in matrix data and calculate the variance of the predicted values;
A computer program for executing
複数の保険者の各加入者の健康診断結果である、検査項目、加入者、検査値から構成される行列形データを保険者別に行列形にしたデータを入力データとして、ユーザの検査項目の欠損した検査値を予測する、請求項7に記載のコンピュータプログラム。   Missing user test items using input data that is a matrix form of insurers, consisting of test items, subscribers, and test values, which is the health check result of each insurer's health checkup The computer program according to claim 7, wherein the inspection value is predicted. 複数の商品のユーザの嗜好情報である、ユーザ、商品、その商品の嗜好度から構成される行列形データを商品のジャンル別に行列形にしたデータを入力データとして、ユーザの嗜好情報が未登録の商品の嗜好度を予測する、請求項7に記載のコンピュータプログラム。   User preference information is unregistered, using as input data data obtained by arranging the matrix data composed of users, products, and the degree of preference of the products, which are user preference information of multiple products, into a matrix for each product genre. The computer program according to claim 7, wherein a preference level of a product is predicted.
JP2011057749A 2011-03-16 2011-03-16 Prediction device of missing value in matrix data, method for calculating missing value prediction, and missing value prediction program Withdrawn JP2012194741A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011057749A JP2012194741A (en) 2011-03-16 2011-03-16 Prediction device of missing value in matrix data, method for calculating missing value prediction, and missing value prediction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011057749A JP2012194741A (en) 2011-03-16 2011-03-16 Prediction device of missing value in matrix data, method for calculating missing value prediction, and missing value prediction program

Publications (1)

Publication Number Publication Date
JP2012194741A true JP2012194741A (en) 2012-10-11

Family

ID=47086575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011057749A Withdrawn JP2012194741A (en) 2011-03-16 2011-03-16 Prediction device of missing value in matrix data, method for calculating missing value prediction, and missing value prediction program

Country Status (1)

Country Link
JP (1) JP2012194741A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016514321A (en) * 2013-03-13 2016-05-19 セールスフォース ドット コム インコーポレイティッド System, method and apparatus for performing data upload, processing and prediction query API publication
JP2018106453A (en) * 2016-12-27 2018-07-05 Kddi株式会社 Information processing device, information processing method, program, information processing system, and communication terminal
CN109933749A (en) * 2017-12-19 2019-06-25 北京京东尚科信息技术有限公司 Method and apparatus for generating information
CN113780666A (en) * 2021-09-15 2021-12-10 湖北天天数链技术有限公司 Missing value prediction method and device and readable storage medium
CN116010833A (en) * 2023-03-27 2023-04-25 中科航迈数控软件(深圳)有限公司 Numerical control machine tool health state evaluation method and device based on missing data completion

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016514321A (en) * 2013-03-13 2016-05-19 セールスフォース ドット コム インコーポレイティッド System, method and apparatus for performing data upload, processing and prediction query API publication
JP2019057286A (en) * 2013-03-13 2019-04-11 セールスフォース ドット コム インコーポレイティッド Systems, methods and apparatuses for implementing data upload, processing and predictive query api exposure
JP2018106453A (en) * 2016-12-27 2018-07-05 Kddi株式会社 Information processing device, information processing method, program, information processing system, and communication terminal
CN109933749A (en) * 2017-12-19 2019-06-25 北京京东尚科信息技术有限公司 Method and apparatus for generating information
CN109933749B (en) * 2017-12-19 2024-03-05 北京京东尚科信息技术有限公司 Method and device for generating information
CN113780666A (en) * 2021-09-15 2021-12-10 湖北天天数链技术有限公司 Missing value prediction method and device and readable storage medium
CN113780666B (en) * 2021-09-15 2024-03-22 湖北天天数链技术有限公司 Missing value prediction method and device and readable storage medium
CN116010833A (en) * 2023-03-27 2023-04-25 中科航迈数控软件(深圳)有限公司 Numerical control machine tool health state evaluation method and device based on missing data completion
CN116010833B (en) * 2023-03-27 2023-06-09 中科航迈数控软件(深圳)有限公司 Numerical control machine tool health state evaluation method and device based on missing data completion

Similar Documents

Publication Publication Date Title
Chen et al. Selecting critical features for data classification based on machine learning methods
Meng et al. Interpretability and fairness evaluation of deep learning models on MIMIC-IV dataset
Fründ et al. Sampling bias is a challenge for quantifying specialization and network structure: lessons from a quantitative niche model
Donkin et al. Drawing conclusions from choice response time models: A tutorial using the linear ballistic accumulator
Sánchez-González et al. Quality indicators for business process models from a gateway complexity perspective
Garamszegi Uncertainties due to within-species variation in comparative studies: measurement errors and statistical weights
Sim et al. Missing values and optimal selection of an imputation method and classification algorithm to improve the accuracy of ubiquitous computing applications
Arellano-Valle et al. Bayesian inference for skew-normal linear mixed models
Calabrese et al. Estimators of binary spatial autoregressive models: A Monte Carlo study
Schroeter et al. Estimating the domain of applicability for machine learning QSAR models: a study on aqueous solubility of drug discovery molecules
Villadsen et al. Are you 110% sure? Modeling of fractions and proportions in strategy and management research
JP2007034700A (en) Prediction program and prediction device
Kandler et al. Analysing cultural frequency data: Neutral theory and beyond
Dasu Data glitches: Monsters in your data
Beranger et al. New models for symbolic data analysis
JP2012194741A (en) Prediction device of missing value in matrix data, method for calculating missing value prediction, and missing value prediction program
Bellini Forward search outlier detection in data envelopment analysis
Truong et al. Hysteretic Poisson INGARCH model for integer-valued time series
Uddin et al. Are missing values important for earnings forecasts? A machine learning perspective
Kim et al. Effects on scale linking of different definitions of criterion functions for the IRT characteristic curve methods
Hecksteden et al. Dwarfs on the shoulders of giants: Bayesian analysis with informative priors in elite sports research and decision making
Paul et al. Hierarchical longitudinal models of relationships in social networks
Alibasa et al. Supporting mood introspection from digital footprints
Messner From black box to clear box: A hypothesis testing framework for scalar regression problems using deep artificial neural networks
KR20140141534A (en) Method and system for predicting sepsis risk

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140603