JP2018097497A - Analysis apparatus, analysis method, and program - Google Patents
Analysis apparatus, analysis method, and program Download PDFInfo
- Publication number
- JP2018097497A JP2018097497A JP2016239885A JP2016239885A JP2018097497A JP 2018097497 A JP2018097497 A JP 2018097497A JP 2016239885 A JP2016239885 A JP 2016239885A JP 2016239885 A JP2016239885 A JP 2016239885A JP 2018097497 A JP2018097497 A JP 2018097497A
- Authority
- JP
- Japan
- Prior art keywords
- tensor
- matrix
- factor
- value
- adjacency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
Description
本発明は、機械学習及びデータマイニングの解析分野に属し、特にテンソル分解の技術に関連するものである。 The present invention belongs to the field of machine learning and data mining analysis, and particularly relates to a tensor decomposition technique.
非負値テンソル補完法(NTC: Non-negative Tensor Completion)は、データに含まれる欠損値を観測値のテンソル分解によって推定復元する技術である(非特許文献1、非特許文献2)。NTCではテンソル分解に、特に非負値テンソル因子分解法(NTF: Non-negative Tensor Completion)を用いる(非特許文献3、非特許文献4)。NTFはデータの値が非負であることを利用し、データから本質的な少数の非負値からなる共起パターンを学習する技術である。非特許文献7により、一般化KLダイバージェンス(非特許文献5、非特許文献6)を用いたNTCが提案されている。
Non-negative tensor complementation (NTC) is a technique for estimating and restoring missing values included in data by tensor decomposition of observed values (
非特許文献7には、交通流のデータを観測位置、時刻、日付の属性からなる3階のテンソルとして扱い、一般化KLダイバージェンスを用いたNTCによる解析を行うことで、特定の観測地点が混雑する時刻と日時の共起パターンが抽出されることと欠損値推定の精度が改善されることが開示されている。 Non-Patent Document 7 treats traffic flow data as a third-floor tensor consisting of attributes of observation position, time, and date, and performs analysis by NTC using generalized KL divergence, thereby congesting specific observation points. It is disclosed that the co-occurrence pattern of time and date to be extracted is extracted and the accuracy of missing value estimation is improved.
しかし、従来のNTCはデータの属性に含まれる特徴量の関連性を考慮しないため、データ内の観測値が少数の場合に解析の精度が落ちるという課題がある。特徴量の関連性とは、例えば、観測位置間の距離や時刻間の経過時間、日付間の経過日数などの情報である。 However, since the conventional NTC does not consider the relevance of the feature amounts included in the data attributes, there is a problem that the accuracy of the analysis is lowered when the observation values in the data are small. The relationship between feature amounts is information such as the distance between observation positions, the elapsed time between times, and the number of days elapsed between dates.
本発明は上記の点に鑑みてなされたものであり、特徴量間の隣接関係を用いて非負値テンソル補完を行うことにより、解析の精度を向上させることを目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to improve the accuracy of analysis by performing non-negative tensor complementation using an adjacent relationship between feature quantities.
開示の技術によれば、 非負の要素からなるN階のテンソルX、前記テンソルXにおける各要素が欠損値であるか又は観測値であるかを表すマスクテンソルM、及び、モード毎の特徴量の隣接関係を表現する隣接グラフ行列W(n)とを受け付けるデータ入力部と、
前記データ入力部により受け付けた前記テンソルX、前記マスクテンソルM、及び前記隣接グラフ行列W(n)とに基づいて、前記テンソルXの推定値X^と前記テンソルXとの間の一般化KLダイバージェンスを用いたコスト関数の値と、隣接グラフ行列W(n)を用いた因子行列A(n)内の特徴量間の誤差に関する罰則項の値との和を最小化するように、モードnの各々についての前記因子行列A(n)を更新することを繰り返すパラメータ更新部と、
前記パラメータ更新部により更新された前記モードnの各々についての前記因子行列A(n)を出力するパラメータ出力部と、
を有する解析装置が提供される。
According to the disclosed technique, the N-th order tensor X composed of non-negative elements, the mask tensor M indicating whether each element in the tensor X is a missing value or an observed value, and the feature amount of each mode A data input unit that accepts an adjacency graph matrix W (n) representing the adjacency relationship;
The tensor X accepted by the data input unit, the mask tensor M, and the based on the adjacency graph matrix W (n), generalized KL divergence between the estimated value X ^ and the tensor X of the tensor X To minimize the sum of the value of the cost function using and the penalty term value for the error between the features in the factor matrix A (n) using the adjacency graph matrix W (n) A parameter updating unit that repeats updating the factor matrix A (n) for each;
A parameter output unit that outputs the factor matrix A (n) for each of the modes n updated by the parameter update unit;
Is provided.
開示の技術によれば、特徴量間の隣接関係を用いて非負値テンソル補完を行うことにより、解析の精度を向上させることが可能となる。 According to the disclosed technique, it is possible to improve the accuracy of analysis by performing non-negative tensor complementation using the adjacent relationship between feature quantities.
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。 Hereinafter, an embodiment (this embodiment) of the present invention will be described with reference to the drawings. The embodiment described below is merely an example, and the embodiment to which the present invention is applied is not limited to the following embodiment.
<本発明の実施の形態の概要>
本実施の形態では、特徴量間の隣接関係を用い、非特許文献8に記載されている正則化技術をNTCに適応し、特徴量の関連性(例:観測位置間の距離や時刻間の経過時間、日付間の経過日数などの情報)を考慮したNTCを実現している。特徴量間の隣接関係を用いることで、隣接関係にある特徴量に対応するパラメータが類似した推定値を持つようになり、欠損値の推定精度が向上する。
<Outline of Embodiment of the Present Invention>
In this embodiment, the adjacency relationship between feature amounts is used, and the regularization technique described in Non-Patent Document 8 is applied to NTC, and the relationship between feature amounts (eg, distance between observation positions and time intervals). NTC that takes into account information such as elapsed time and days elapsed between dates). By using the adjacency relationship between the feature quantities, the parameters corresponding to the feature quantities in the adjacency relation have similar estimated values, and the accuracy of estimating missing values is improved.
<本発明の実施の形態の原理>
まず、本実施の形態における原理を説明する。
<Principle of Embodiment of the Present Invention>
First, the principle in the present embodiment will be described.
一般化KLダイバージェンスを用いたNTCは、入力されたN階のテンソルX、Mと、因子行列の初期値A(n) (n=1、…、N)を用いて、以下の損失関数最小化問題を解くためにA(n) (n=1、…、N)の更新を繰り返し行うものである。なお、テンソルを示す記号には下線を付すこととする。 NTC using generalized KL divergence minimizes the following loss function using the input N-th order tensors X and M and the initial value of the factor matrix A (n) (n = 1, ..., N) In order to solve the problem, A (n) (n = 1,..., N) is repeatedly updated. The symbol indicating the tensor is underlined.
モード数がNで、各モードの特徴量の長さ(特徴数)がI1、…、INのN階非負テンソルを、 The number of modes is N, and the length (number of features) of the feature quantity of each mode is I 1 , ..., N N-order non-negative tensor of I N ,
次にモード毎の特徴量の隣接関係を表現する隣接グラフを定める。n番目のモードのための隣接グラフ行列をW(n)∈R+ In×Inとし、i番目とj番目の特徴量の類似度を要素wi,i' (n)∈R+で表す。つまりwi,i' (n)の値が大きいほど類似度が高い。 Next, an adjacency graph expressing the adjacency relationship of feature amounts for each mode is determined. The adjacency graph matrix for the n-th mode is W (n) ∈ R + In × In, and the similarity between the i-th and j-th feature quantities is represented by an element w i, i ′ (n) ∈ R + . That is, the greater the value of w i, i ′ (n) , the higher the similarity.
テンソル補完のモデルには、 観測値をK個の因子の線形和によって近似するCP分解を用いる。非負テンソル補完における因子数は全モードでK個とする。n番目のモードに対応するk番目の因子ベクトルと、因子ベクトルを列ベクトルにもつ因子行列を、 The tensor interpolation model uses CP decomposition that approximates the observed value by a linear sum of K factors. The number of factors in non-negative tensor interpolation is K in all modes. A factor matrix with the kth factor vector corresponding to the nth mode and the factor vector in the column vector,
XおよびA(n) (n=1、…、N)が非負の値のみを取ることを許容することが手法名の"非負値"の意味するところである。また属性の共起パターンは因子数であるK個分、因子行列A(n) (n=1、…、N)として抽出される。 Allowing X and A (n) (n = 1,..., N) to take only non-negative values is the meaning of the “non-negative value” in the method name. In addition, attribute co-occurrence patterns are extracted as a factor matrix A (n) (n = 1,..., N) for K factors.
要素毎の一般化KL(カルバックライブラー)ダイバージェンスは Generalized KL (Cullback Liver) divergence for each element
本実施の形態では、隣接グラフと一般化KLダイバージェンスを用いて、下記のように、因子行列A(n)内の特徴量間の誤差に関する罰則項Ω(A(n))を定める。 In the present embodiment, a penal term Ω (A (n) ) relating to an error between feature quantities in the factor matrix A (n) is determined using an adjacency graph and generalized KL divergence as follows.
次に、本実施の形態に係る解析装置100の構成について説明する。本実施の形態に係る解析装置100は、CPUと、RAMと、後述する解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。図1に示すように、この解析装置100は、機能的にはデータ入力部10と、演算部20とを備えている。
Next, the configuration of
データ入力部10は、テンソル形式のデータXとテンソル形式の欠損値指示データ(マスクテンソル)Mを入力する。Xの各モードの長さ(特徴数、要素数)をI1、…、INとし、Xの要素は非負(0以上)の値のみを許容する。Mは各モードの長さがI1、…、INの場合のみを許容し、Mの要素は0あるいは1のみに制限する。Mの値が0のXの要素は欠損値、1の要素は観測値として扱う。さらに行列形式のデータW(n) (n=1,…,N)を入力する。W(n)は長さIn×Inの行列であり、W(n)の要素は非負(0以上)の値のみを許容する。
The
また、データ入力部10は、パラメータの初期値として、因子行列の集合A = {A(1)、A(2)、…、 A(N)}を入力する。A(n)の要素は非負(0以上)の値のみを許容する。また、データ入力部10は、パラメータ更新繰り返しの演算回数Tを入力する。
Further, the
演算部20は、アンフォールド計算部26と、パラメータ更新部30と、パラメータ出力部38とを含んで構成されている。
The
アンフォールド計算部26は、モードnの各々について、テンソルXをモードnに対してアンフォールドしたnモードアンフォールドX (n)と、マスクテンソルMをモードnに対してアンフォールドしたnモードアンフォールドM (n)とを計算する。 For each mode n, the unfold calculation unit 26 n-mode unfold X (n) obtained by unfolding the tensor X with respect to the mode n, and n-mode unfold obtained by unfolding the mask tensor M with respect to the mode n. Calculate M (n) .
パラメータ更新部30は、因子行列更新部32と、繰り返し判定部36とを含んで構成されている。
The
パラメータ更新部30は、上記各部の処理によって、アンフォールド計算部26によって計算されたテンソルXのnモードアンフォールドX (n)、マスクテンソルMのnモードアンフォールドM (n)と、入力された隣接グラフ行列W(n)に基づいて、コスト関数fの値と、罰則項のモード毎の和との和を最小化するように、N個のモードの各々についての因子行列A(n)を更新することを繰り返す。なお、因子数Kは予め定められている。コスト関数fは、モードnの特徴数Inと同じ次元数を持ち、かつ、非負の要素からなるk番目の因子に対応する因子ベクトルak (n)からなるIn×Kの因子行列A(n)の因子ベクトルak (n)の要素を、モードnの各々について掛け合わせた積を、K個の因子の各々について足し合わせた値と、テンソルXの要素との距離を表す一般化KLダイバージェンスの和を用いて表される。
The
ここで、因子行列A(n)を更新する方法についてより詳しく説明する。 Here, a method for updating the factor matrix A (n) will be described in more detail.
因子行列の集合A = {A(1)、A(2)、…、 A(N)}の更新において、n=1、…、Nまで同様の処理が順番にT回行われる。 In updating the factor matrix set A = {A (1) , A (2) ,..., A (N) }, the same processing up to n = 1,.
A(n)を以下の計算法で更新する。推定値X^のnモードアンフォールドは、 A (n) is updated with the following calculation method. The n-mode unfold of the estimated value X ^ is
g(A(n))は因子ベクトルak (n)毎に分離可能であるから、因子ベクトルak (n)毎に更新を行うことで、上記の最小化問題の最適解を求める。ここで、グラフラプラシアンを
Since g (A (n)) can be separated for each factor vector a k (n), by performing the update for each factor vector a k (n), finding the optimal solution of the minimization problem. Where graph Laplacian
以上説明した方法に従って、因子行列更新部32は、まず、モードnの各々についての因子行列A(n)を初期化する。また、因子行列更新部32は、テンソルXのモードnの各々について、アンフォールド計算部26によって計算されたnモードアンフォールドX (n)とnモードアンフォールドM (n)と、隣接グラフ行列W(n)を用いて、コスト関数の値と、因子行列A(n)内の特徴量間の誤差に関する罰則項の値との和を最小化するように、上記(1)式に従って、因子行列A(n)を更新する。コスト関数の値は、因子行列A(n)と、モードn以外の各モードn´の因子行列A(n´)のクラーチ・ラオ積との積の要素と、テンソルXのnモードアンフォールドX (n)の要素との距離を表す一般化KLダイバージェンスの和を用いて表される。
In accordance with the method described above, the factor
繰り返し判定部36は、予め定められた条件を満たすまで、因子行列更新部32による因子行列A(n)の各々の更新を繰り返させる。本実施の形態では、予め定められた条件としては、最大パラメータ更新繰り返し演算回数Tの回数分繰り返すこととする。
The
パラメータ出力部38は、パラメータ更新部30の演算によって最終的に得られた因子行列の集合A = {A(1)、A(2)、…、 A(N)}を出力する。
The
本実施の形態に係る解析装置100は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、解析装置100が有する機能は、当該コンピュータに内蔵されるCPUやメモリ、ハードディスク等のハードウェア資源を用いて、解析装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。また、上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
The
<本発明の実施の形態に係る解析装置の動作>
図2に、本実施の形態に係る解析装置100における処理のアルゴリズムを示す。当該アルゴリズムに従って処理を行う解析装置100の動作について、図3のフロー(解析処理ルーチン)に沿って説明する。なお、図2には、図3のフローに対応するステップ番号も示されている。
<Operation of Analysis Device According to Embodiment of the Present Invention>
FIG. 2 shows a processing algorithm in the
データ入力部10においてテンソルX、マスクテンソルM、因子数K、隣接グラフ行列W(n)、各因子行列A(n)の初期値、及び最大パラメータ更新繰り返し演算回数Tを受け付けると、解析装置100は、図3に示す解析処理ルーチンを実行する。なお、データ入力部10が受け付けたデータは、コンピュータとしての解析装置100のメモリ等に格納され、処理のために適宜読み出される。
まず、ステップS100では、データ入力部10において受け付けた、各因子行列A(n)の初期値に基づいて、各因子行列A(n)を初期化する。また、tをt=1と初期化する。
When the
First, in step S100, accepts the
次に、ステップS102では、データ入力部10により受け付けたテンソルX及びマスクテンソルMとに基づいて、モードnの各々について、テンソルXのnモードアンフォールドX (n)と、マスクテンソルMのnモードアンフォールドM (n)とを計算する。
Next, in step S102, based on the tensor X and the mask tensor M received by the
ステップS104では、上記ステップS102で計算されたテンソルXのnモードアンフォールドX (n)と、マスクテンソルMのnモードアンフォールドM (n)と、因子行列A(n)、及び隣接グラフ行列W(n)に基づいて、コスト関数の値と罰則項の値との和を最小化するように、上記(1)式に基づき因子行列A(n)を更新する。 In step S104, the n-mode unfold X (n) of the tensor X calculated in step S102, the n-mode unfold M (n) of the mask tensor M , the factor matrix A (n) , and the adjacency graph matrix W Based on (n) , the factor matrix A (n) is updated based on the above equation (1) so as to minimize the sum of the value of the cost function and the value of the penalty term.
ステップS106では、全ての因子行列A(n)について上記ステップS104の処理を行ったか否かを判定する。t回目の上記ステップS104の処理を行っていない因子行列A(n)が存在する場合には、上記ステップS104へ戻り、当該因子行列A(n)について上記ステップS104の処理を行う。一方、全ての因子行列A(n)についてt回目の上記ステップS104の処理を行った場合には、ステップS108へ移行する。 In step S106, it is determined whether or not the processing in step S104 has been performed for all factor matrices A (n) . If the t-th process has not been performed in step S104 factor matrix A (n) is present, the process returns to step S104, it performs the process of step S104 for the factor matrix A (n). On the other hand, when the t-th process of step S104 is performed for all factor matrices A (n) , the process proceeds to step S108.
ステップS108では、繰り返し回数t=Tであるかを判定し、t=TであればステップS112へ移行し、t≠Tであれば、ステップS110へ移行してt=t+1とカウントアップし、ステップS104に戻って処理を繰り返す。
In step S108, it is determined whether the number of repetitions t = T. If t = T, the process proceeds to step S112. If t ≠ T, the process proceeds to step S110 and counts up to t =
ステップS112では、ステップS104で最終的に更新された因子行列の集合A = {A(1)、A(2)、…、 A(N)}を出力し、処理を終了する。 In step S112, the factor matrix set A = {A (1) , A (2) ,..., A (N) } finally updated in step S104 is output, and the process ends.
<実験例における効果の説明>
実験例では、デンマークのアーヘン市の419地点で計測された交通流データのケソン値推定実験(City pulse(http://www.ict-citypulse.eu/))を用いて提案手法の有効性を確認した。
<Explanation of effects in experimental examples>
In the experimental example, the effectiveness of the proposed method is demonstrated using the Queson value estimation experiment (City pulse (http://www.ict-citypulse.eu/)) of traffic flow data measured at 419 points in Aachen, Denmark. confirmed.
データの観測期間は2014年8月1日から9月31日までの61日間で、この期間中はデンマークの暦に祝日は存在しない。データは30 分毎に観測されるため、データが完全であれば、センサー毎に最大で2,928 点の観測値が存在する。センサー毎にデータの観測値を調べ、24時間データが完全に観測されていない場合には欠損とした。交通流データから、観測地点(441点)、時刻(30分毎の24時間)、日付(61日) をモードに持つ3階のテンソルXを作成した。 The observation period of data is 61 days from August 1 to September 31, 2014. During this period, there are no holidays in the Danish calendar. Since the data is observed every 30 minutes, there are a maximum of 2,928 observations for each sensor if the data is complete. The observation value of the data was examined for each sensor, and it was determined as missing if 24-hour data was not completely observed. From the traffic flow data, we created a third-floor tensor X with the observation point (441 points), time (24 hours every 30 minutes), and date (61 days) as modes.
観測地点のモードの隣接行列は、2つの観測地点の距離が100メートル以内かつ観測開始地点から終了地点までの角度の差が45度以下であればwi,i' (1)を1、そうでなければ0とした。時刻のモードの隣接行列は、2つの時刻が隣り合っていればwi,i' (2)を1、そうでなければ0とした。日付のモードの隣接行列は、2つの日付が隣り合っていればwi,i' (3)を1、そうでなければ0とした。 If the distance between the two observation points is less than 100 meters and the angle difference from the observation start point to the end point is 45 degrees or less, the adjacency matrix of the observation point mode is 1, so that w i, i ' (1) is 1. Otherwise it was set to 0. In the adjacency matrix of the time mode, w i, i ′ (2) is 1 if two times are adjacent, and 0 otherwise. The adjacency matrix of the date mode is set to 1 if w i, i ′ (3) is 1 if two dates are adjacent, and 0 otherwise.
データの欠損割合に対する、欠損値推定の精度の変化を確認するために、いずれの設定でも、 交通流データの実際の欠損値に加えて観測値をランダムに欠損させた。欠損の割合は10%、50%、70%、90%を用いた。各設定で5回の試行を行い、各試行で毎回ランダムに観測値を欠損させ、残った観測値の90%をトレーニングデータ、10%をテストデータとした。因子の数は5、10、20 とし、5-fold cross validation によって決定した。 In order to confirm the change in the accuracy of the missing value estimation with respect to the missing data rate, the observed values were randomly missing in addition to the actual missing values in the traffic flow data. Defect ratios of 10%, 50%, 70% and 90% were used. Five trials were performed for each setting, and observation values were randomly lost each time in each trial. 90% of the remaining observation values were used as training data and 10% were used as test data. The number of factors was 5, 10, and 20 and was determined by 5-fold cross validation.
結果を図4に示す。図4の表におけるProp.が提案手法の結果である。比較手法として、 一般化KLダイバージェンスを用いた非負テンソル補完(NTC (gKL))、ユークリッド距離を用いた非負テンソル補完(NTC (Eud))、テンソルをセンサーのモードに関してアンフォールドした行列に対する、一般化KL ダイバージェンスを用いた非負行列補完(NMC(gKL))、欠損値を0 として扱う非負値テンソル因子分解法(Non-negative Tensor Factorization with gKL:NTF )、交通流データの平均値を推定値としたもの(Mean) を採用した。 The results are shown in FIG. Prop. In the table of FIG. 4 is the result of the proposed method. Comparison methods include non-negative tensor completion using generalized KL divergence (NTC (gKL)), non-negative tensor completion using Euclidean distance (NTC (Eud)), and generalization for matrices in which tensors are unfolded with respect to sensor mode. Non-negative matrix interpolation (NMC (gKL)) using KL divergence, non-negative tensor factorization with gKL (NTF) treating missing values as 0, and average value of traffic flow data as estimated values The thing (Mean) was adopted.
欠損率が10%の場合には、提案手法とNMCが他の手法と比べて最も良い汎化性能を全指標で示した。一方、欠損率が30、 50、 70、 90%の場合にはNMCの汎化性能が劣化し、 提案手法の汎化性能が最良となった。以上から提案手法による効果が確認された。 When the defect rate was 10%, the proposed method and NMC showed the best generalization performance in all indicators compared with other methods. On the other hand, when the defect rate was 30, 50, 70, and 90%, the generalization performance of NMC deteriorated, and the generalization performance of the proposed method became the best. From the above, the effect of the proposed method was confirmed.
(実施の形態のまとめ)
以上、説明したように、本実施の形態によれば、非負の要素からなるN階のテンソルX、前記テンソルXにおける各要素が欠損値であるか又は観測値であるかを表すマスクテンソルM、及び、モード毎の特徴量の隣接関係を表現する隣接グラフ行列W(n)とを受け付けるデータ入力部と、前記データ入力部により受け付けた前記テンソルX、前記マスクテンソルM、及び前記隣接グラフ行列W(n)とに基づいて、前記テンソルXの推定値X^と前記テンソルXとの間の一般化KLダイバージェンスを用いたコスト関数の値と、隣接グラフ行列W(n)を用いた因子行列A(n)内の特徴量間の誤差に関する罰則項の値との和を最小化するように、モードnの各々についての前記因子行列A(n)を更新することを繰り返すパラメータ更新部と、前記パラメータ更新部により更新された前記モードnの各々についての前記因子行列A(n)を出力するパラメータ出力部と、を有する解析装置が提供される。
(Summary of embodiment)
As described above, according to the present embodiment, the N-order tensor X composed of non-negative elements, the mask tensor M representing whether each element in the tensor X is a missing value or an observed value, And a data input unit that receives an adjacency graph matrix W (n) that expresses the adjacency relationship of feature quantities for each mode, the tensor X received by the data input unit, the mask tensor M , and the adjacency graph matrix W based on the (n), and the value of the cost function using generalized KL divergence between the estimated value X ^ and the tensor X of the tensor X, factor matrix using the adjacency graph matrix W (n) a a parameter updating unit that repeats updating the factor matrix A (n) for each of the modes n so as to minimize the sum of the penalties term value regarding the error between the feature quantities in (n) ; Updated by parameter update unit A parameter output portion for outputting the factor matrix A (n) for each of the modes n, analyzer with is provided with.
前記罰則項は、例えば、前記隣接グラフ行列W(n) の要素と、前記因子行列A(n)の因子ベクトルの要素間の一般化KLダイバージェンスとの積の和からなる項である。 The penalty term is, for example, a term composed of a sum of products of elements of the adjacency graph matrix W (n) and generalized KL divergence between elements of the factor vector of the factor matrix A (n) .
前記パラメータ更新部は、例えば、前記隣接グラフ行列W(n)のグラフラプラシアンを用いた式により、前記因子行列A(n)の因子ベクトル毎に更新を行う。 The parameter updating unit performs updating for each factor vector of the factor matrix A (n) , for example, using an equation using a graph Laplacian of the adjacent graph matrix W (n) .
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the present embodiment has been described above, the present invention is not limited to the specific embodiment, and various modifications and changes can be made within the scope of the gist of the present invention described in the claims. Is possible.
10 データ入力部
20 演算部
26 アンフォールド計算部
30 パラメータ更新部
32 因子行列更新部
36 繰り返し判定部
38 パラメータ出力部
100 解析装置
DESCRIPTION OF
Claims (7)
前記データ入力部により受け付けた前記テンソルX、前記マスクテンソルM、及び前記隣接グラフ行列W(n)とに基づいて、前記テンソルXの推定値X^と前記テンソルXとの間の一般化KLダイバージェンスを用いたコスト関数の値と、隣接グラフ行列W(n)を用いた因子行列A(n)内の特徴量間の誤差に関する罰則項の値との和を最小化するように、モードnの各々についての前記因子行列A(n)を更新することを繰り返すパラメータ更新部と、
前記パラメータ更新部により更新された前記モードnの各々についての前記因子行列A(n)を出力するパラメータ出力部と、
を有する解析装置。 N-th order tensor X consisting of non-negative elements, mask tensor M indicating whether each element in the tensor X is a missing value or an observed value, and an adjacency graph representing the adjacency relationship of features for each mode A data input unit that accepts a matrix W (n) ;
The tensor X accepted by the data input unit, the mask tensor M, and the based on the adjacency graph matrix W (n), generalized KL divergence between the estimated value X ^ and the tensor X of the tensor X To minimize the sum of the value of the cost function using and the penalty term value for the error between the features in the factor matrix A (n) using the adjacency graph matrix W (n) A parameter updating unit that repeats updating the factor matrix A (n) for each;
A parameter output unit that outputs the factor matrix A (n) for each of the modes n updated by the parameter update unit;
Analyzing device.
請求項1に記載の解析装置。 The said penalty term is a term which consists of the sum of the product of the element of the said adjacency graph matrix W (n) and the generalized KL divergence between the elements of the factor vector of the said factor matrix A (n). Analysis device.
請求項1又は2に記載の解析装置。 The analysis apparatus according to claim 1, wherein the parameter update unit performs update for each factor vector of the factor matrix A (n) by an expression using a graph Laplacian of the adjacent graph matrix W (n) .
前記データ入力部が、非負の要素からなるN階のテンソルX、前記テンソルXにおける各要素が欠損値であるか又は観測値であるかを表すマスクテンソルM、及び、モード毎の特徴量の隣接関係を表現する隣接グラフ行列W(n)とを受け付け、
前記パラメータ更新部が、前記データ入力部により受け付けた前記テンソルX、前記マスクテンソルM、及び前記隣接グラフ行列W(n)とに基づいて、前記テンソルXの推定値X^と前記テンソルXとの間の一般化KLダイバージェンスを用いたコスト関数の値と、隣接グラフ行列W(n)を用いた因子行列A(n)内の特徴量間の誤差に関する罰則項の値との和を最小化するように、モードnの各々についての前記因子行列A(n)を更新することを繰り返し、
前記パラメータ出力部が、前記パラメータ更新部により更新された前記モードnの各々についての前記因子行列A(n)を出力する
解析方法。 An analysis method in an analysis apparatus including a data input unit, a parameter update unit, and a parameter output unit,
The data input unit is an N-th order tensor X composed of non-negative elements, a mask tensor M indicating whether each element in the tensor X is a missing value or an observed value, and adjacent feature quantities for each mode. Accepts an adjacency graph matrix W (n) representing the relationship,
The parameter updating unit, wherein said tensor X accepted by the data input unit, the mask tensor M, and based on the neighborhood graph matrix W (n), and the estimated values X ^ and the tensor X of the tensor X Minimize the sum of the cost function value using the generalized KL divergence between and the penalty term value for the error between feature quantities in the factor matrix A (n) using the adjacency graph matrix W (n) Repeating updating the factor matrix A (n) for each of the modes n,
An analysis method in which the parameter output unit outputs the factor matrix A (n) for each of the modes n updated by the parameter update unit.
請求項4に記載の解析方法。 The said penalty term is a term which consists of the sum of the product of the element of the said adjacent graph matrix W (n) and the generalized KL divergence between the elements of the factor vector of the said factor matrix A (n). Analysis method.
請求項4又は5に記載の解析方法。 The analysis method according to claim 4 or 5, wherein the parameter updating unit updates each factor vector of the factor matrix A (n) by an expression using a graph Laplacian of the adjacent graph matrix W (n) .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016239885A JP6689737B2 (en) | 2016-12-09 | 2016-12-09 | Analysis device, analysis method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016239885A JP6689737B2 (en) | 2016-12-09 | 2016-12-09 | Analysis device, analysis method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018097497A true JP2018097497A (en) | 2018-06-21 |
JP6689737B2 JP6689737B2 (en) | 2020-04-28 |
Family
ID=62632914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016239885A Active JP6689737B2 (en) | 2016-12-09 | 2016-12-09 | Analysis device, analysis method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6689737B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112590738B (en) * | 2020-12-23 | 2022-03-08 | 交控科技股份有限公司 | ATO (automatic train operation) parking control method compatible with different inter-vehicle generations |
-
2016
- 2016-12-09 JP JP2016239885A patent/JP6689737B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP6689737B2 (en) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Poyiadjis et al. | Particle approximations of the score and observed information matrix in state space models with application to parameter estimation | |
Sims et al. | Methods for inference in large multiple-equation Markov-switching models | |
WO2022105108A1 (en) | Network data classification method, apparatus, and device, and readable storage medium | |
Gao et al. | On the asymptotic normality of estimating the affine preferential attachment network models with random initial degrees | |
Vexler et al. | An empirical likelihood ratio based goodness-of-fit test for Inverse Gaussian distributions | |
US20230108193A1 (en) | Embedding constrained and unconstrained optimization programs as neural network layers | |
Sureau et al. | Deep learning for a space-variant deconvolution in galaxy surveys | |
Ris et al. | U-curve: A branch-and-bound optimization algorithm for U-shaped cost functions on Boolean lattices applied to the feature selection problem | |
Favaro et al. | On the stick-breaking representation for homogeneous NRMIs | |
Yu et al. | Modeling spatial extremes via ensemble-of-trees of pairwise copulas | |
Papastamoulis | Handling the label switching problem in latent class models via the ECR algorithm | |
CN112529069A (en) | Semi-supervised node classification method, system, computer equipment and storage medium | |
Jia et al. | Dual non-autonomous deep convolutional neural network for image denoising | |
Vrugt | Multi-criteria optimization using the AMALGAM software package: theory, concepts, and MATLAB implementation | |
JP6689737B2 (en) | Analysis device, analysis method, and program | |
JP6389836B2 (en) | Analysis apparatus, method, and program | |
JP6465440B2 (en) | Analysis apparatus, method, and program | |
Jose et al. | Error-Mitigation-Aided Optimization of Parameterized Quantum Circuits: Convergence Analysis | |
Mesa et al. | A distributed framework for the construction of transport maps | |
Chen et al. | Monte Carlo methods and their applications in Big Data analysis | |
JP2020009314A (en) | Data analysis device, method, and program | |
Tar et al. | Automated quantitative measurements and associated error covariances for planetary image analysis | |
Wei et al. | Dynamic generalized extreme value modeling via particle filters | |
JP5503577B2 (en) | Data polarity determination apparatus, method, and program | |
Petersen | Sparse learning in Gaussian chain graphs for state space models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200128 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200330 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200407 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200408 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6689737 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |