JP6316773B2 - Statistical data reconstruction device, statistical data reconstruction method, program - Google Patents
Statistical data reconstruction device, statistical data reconstruction method, program Download PDFInfo
- Publication number
- JP6316773B2 JP6316773B2 JP2015094798A JP2015094798A JP6316773B2 JP 6316773 B2 JP6316773 B2 JP 6316773B2 JP 2015094798 A JP2015094798 A JP 2015094798A JP 2015094798 A JP2015094798 A JP 2015094798A JP 6316773 B2 JP6316773 B2 JP 6316773B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- disturbance
- variance
- likelihood
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、元データに撹乱処理を施して生成した撹乱データから統計データを再構築する統計データ再構築装置、統計データ再構築方法、プログラムに関する。 The present invention relates to a statistical data reconstruction device, a statistical data reconstruction method, and a program for reconstructing statistical data from disturbance data generated by performing disturbance processing on original data.
従来、データベースにおける個別データを確率的手法により秘匿しつつクロス集計結果のみを再構築して得る技術として、例えば非特許文献1、2、3などが開示されている。
Conventionally, for example,
従来技術では、元データに何も仮定をおかず、秘匿されたデータ(以後、撹乱データと呼ぶ)からクロス集計表を推定(以後、再構築処理と呼ぶ)していたため、元データを精度よく再構築するためには、膨大なデータが必要となることが課題であった。 In the prior art, no assumptions are made on the original data, and the cross tabulation table is estimated (hereinafter referred to as reconstruction processing) from concealed data (hereinafter referred to as disturbance data). In order to construct it, it was a problem that a huge amount of data was required.
そこで本発明では、従来より少ないデータ数で精度よく統計データを再構築することができる統計データ再構築装置を提供することを目的とする。 Therefore, an object of the present invention is to provide a statistical data reconstruction apparatus that can reconstruct statistical data with a smaller number of data than before.
本発明は、元データに撹乱処理を施して生成した撹乱データから統計データを再構築する統計データ再構築装置であって、パラメータ初期化部と、Eステップ計算部と、Mステップ計算部と、統計データ再構築部を含む。 The present invention is a statistical data reconstruction device for reconstructing statistical data from disturbance data generated by performing disturbance processing on original data, a parameter initialization unit, an E step calculation unit, an M step calculation unit, Includes a statistical data reconstruction unit.
パラメータ初期化部は、撹乱処理前の元データが共分散行列の非対角要素0の有限個のガウス分布の線形和で記述できるものと仮定し、各ガウス分布の重み、平均、および分散を初期化する。Eステップ計算部は、元データに所定のノイズを付加して生成した所定個の撹乱データおよび所定個のノイズを付加したガウス分布の全ての組み合わせについて、分母に所定番目の撹乱データの確率密度を含み、分子にノイズを付加した所定番目のガウス分布における所定番目の撹乱データの確率密度を含む負担率を計算する処理を繰り返し実行する。Mステップ計算部は、負担率の平均値に基づいてガウス分布それぞれの重みを更新し、未知関数を撹乱データの確率密度の尤度を対数化した値とし、変数をガウス分布の平均とした偏微分を用いて、尤度が最大化する方向にガウス分布それぞれの平均を更新し、未知関数を撹乱データの確率密度の尤度を対数化した値とし、変数をガウス分布の分散とした偏微分を用いて、尤度が最大化する方向にガウス分布それぞれの分散を更新する処理を繰り返し実行する。統計データ再構築部は、負担率を計算する処理、重みと平均と分散を更新する処理を繰り返し実行することにより収束した平均、分散および重みを用いて統計データを再構築する。 The parameter initialization unit assumes that the original data before the disturbance processing can be described by a linear sum of a finite number of Gaussian distributions with non-diagonal elements 0 of the covariance matrix, and calculates the weight, average, and variance of each Gaussian distribution. initialize. The E step calculation unit calculates the probability density of the predetermined disturbance data in the denominator for all combinations of the predetermined number of disturbance data generated by adding the predetermined noise to the original data and the Gaussian distribution to which the predetermined number of noises are added. In addition, a process of calculating a burden rate including the probability density of the predetermined number of disturbance data in the predetermined number of Gaussian distribution in which noise is added to the numerator is repeatedly executed. The M step calculation unit updates the weight of each Gaussian distribution based on the average value of the burden rate, sets the unknown function as a logarithm value of the likelihood density of the disturbance data, and sets the variable as the average of the Gaussian distribution. Use differential to update the average of each Gaussian distribution in the direction that maximizes the likelihood, use the unknown function as the logarithm value of the likelihood density of the disturbance data, and the variable as the variance of the Gaussian distribution Is used to repeatedly execute the process of updating the variance of each Gaussian distribution in the direction in which the likelihood is maximized. The statistical data restructuring unit reconstructs statistical data using the average, variance, and weight converged by repeatedly executing the processing for calculating the burden rate and the processing for updating the weight, average, and variance.
本発明の統計データ再構築装置によれば、従来より少ないデータ数で精度よく統計データを再構築することができる。 According to the statistical data reconstruction apparatus of the present invention, statistical data can be accurately reconstructed with a smaller number of data than before.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
<記法>
以下の説明では、ベクトルをbold体で記述し、スカラ値をイタリック体(あるいはbold体以外の書体)で記述する。また、ベクトルのj番目の要素をa(j)と記述することにする。観測されている撹乱データの数をN、i番目(1≦i≦N)の撹乱データを実施例1において1次元のベクトルyi、実施例2、3においてd次元ベクトル(dは2以上の整数)
In the following description, a vector is described in bold type, and a scalar value is described in italic type (or typeface other than bold type). In addition, the j-th element of the vector is described as a (j). The number of observed disturbance data is N, and the i-th (1 ≦ i ≦ N) disturbance data is a one-dimensional vector y i in Example 1, d-dimensional vector in Examples 2 and 3 (d is 2 or more) integer)
<準備>
本発明の統計データ再構築装置は、元データに撹乱処理を施して生成した撹乱データから統計データを再構築する装置である。統計データの撹乱、再構築の処理は、大まかには以下の2ステップとなる。
撹乱:元データに撹乱処理を施し、撹乱データを作成する。
再構築:撹乱データに対し統計分析を行い、統計結果(統計データ)を得る。
<Preparation>
The statistical data reconstruction apparatus of the present invention is an apparatus for reconstructing statistical data from disturbance data generated by performing disturbance processing on original data. The statistical data disturbance and reconstruction process is roughly divided into the following two steps.
Disturbance: Disturbance processing is performed on the original data to create disturbance data.
Reconstruction: Statistical analysis is performed on disturbance data, and statistical results (statistical data) are obtained.
撹乱処理として、例えば非特許文献1にあるノイズ加算、非特許文献2にある維持置換撹乱がある。統計分析には、参考非特許文献1にあるクロス集計を推定する手法や、t検定を行う手法がある。本発明は、後者の再構築(統計分析)に属する発明である。
(参考非特許文献1:五十嵐大、千田浩司、高橋克巳、「多値属性に適用可能な効率的プライバシー保護クロス集計」、コンピュータセキュリティシンポジウム2008論文集、平成20年10月、第2008巻、pp.497-502)
Examples of the disturbance processing include noise addition in Non-Patent Document 1 and maintenance replacement disturbance in Non-Patent
(Reference Non-Patent Document 1: University of Igarashi, Koji Senda, Katsumi Takahashi, “Efficient Privacy Protection Cross Tabulation Applicable to Multi-valued Attributes”, Proceedings of Computer Security Symposium 2008, October 2008, Vol. 2008, pp .497-502)
以下の実施例では、撹乱処理として、非特許文献1の手法が用いられるものとする。すなわち実施例1においては、元データに対し、平均0、パラメータφの1次元ラプラス分布
以下、図1、図2を参照して実施例1の統計データ再構築装置の構成、および動作について説明する。図1は、本実施例の統計データ再構築装置1の構成を示すブロック図である。図2は、本実施例の統計データ再構築装置1の動作を示すフローチャートである。 Hereinafter, the configuration and operation of the statistical data reconstruction apparatus according to the first embodiment will be described with reference to FIGS. 1 and 2. FIG. 1 is a block diagram illustrating a configuration of a statistical data reconstruction apparatus 1 according to the present embodiment. FIG. 2 is a flowchart showing the operation of the statistical data reconstruction apparatus 1 of this embodiment.
図1に示すように本実施例の統計データ再構築装置1は、パラメータ初期化部11と、尤度最大化部12と、統計データ再構築部13を含む。尤度最大化部12は、Eステップ計算部121と、Mステップ計算部122を含む。
As shown in FIG. 1, the statistical data reconstruction device 1 according to the present exemplary embodiment includes a
パラメータ初期化部11は、撹乱処理前の元データが共分散行列の非対角要素0の有限個(K個、Kを自然数、kを1≦k≦Kを充たす自然数とする)のガウス分布の線形和、すなわち
以下のステップS121、S122において、尤度最大化部12は、以下の尤度最大化問題を解く。
なお、i番目の撹乱データの確率分布は、前述した二つの確率変数(式(1)、(3))の和で表現される。すなわち、i番目の撹乱データの確率分布を表す関数gは
上述の尤度最大化問題を解く方法として本実施例では、参考非特許文献2で利用されているような、一般化EMアルゴリズムを適用する。
(参考非特許文献2:Jeff A Bilmes, et al., "A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models," International Computer Science Institute, Vol. 4, No. 510, 1998, pp. 1-13)
In this embodiment, a generalized EM algorithm as used in
(Reference Non-Patent Document 2: Jeff A Bilmes, et al., "A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models," International Computer Science Institute, Vol. 4, No. 510 , 1998, pp. 1-13)
Eステップ計算部121は、元データxに所定のノイズ(ラプラスノイズ)を付加して生成した所定個(N個)の撹乱データおよび所定個(K個)のノイズを付加したガウス分布の全ての組み合わせ(i=1,...,N,l=1,...K)について、分母に所定番目(i番目)の撹乱データの確率密度、すなわち
次に、Mステップ計算部122は、負担率の平均値に基づいてガウス分布それぞれの重みを更新する。すなわちMステップ計算部122は、更新後の重みρl newを、
次に、統計データ再構築部13は、負担率を計算する処理、重みと平均と分散を更新する処理を交互に繰り返し実行することにより収束した平均、分散および重みを用いて統計データを再構築する(S13)。
Next, the statistical
このように、本実施例の統計データ再構築装置1によれば、従来より少ないデータ数で精度よく統計データを再構築することができる。 Thus, according to the statistical data reconstruction apparatus 1 of the present embodiment, statistical data can be reconstructed with high accuracy with a smaller number of data than before.
以下、図3、図4を参照して元データの次元をd次元(dは2以上の整数)に拡張した実施例2の統計データ再構築装置について説明する。図3は、本実施例の統計データ再構築装置2の構成を示すブロック図である。図4は、本実施例の統計データ再構築装置2の動作を示すフローチャートである。
Hereinafter, the statistical data reconstruction apparatus according to the second embodiment in which the dimension of the original data is expanded to the d dimension (d is an integer of 2 or more) will be described with reference to FIGS. FIG. 3 is a block diagram illustrating the configuration of the statistical
図3に示すように本実施例の統計データ再構築装置2は、パラメータ初期化部11と、尤度最大化部22と、統計データ再構築部13を含む。尤度最大化部22は、Eステップ計算部221と、Mステップ計算部222を含み、尤度最大化部22以外の構成要件は実施例1と共通する。本実施例において、尤度最大化部22は、以下の尤度最大化問題を解く。
ここで、
上述のように、本実施例の統計データ再構築装置2は、各次元ごとに偏微分を行い、各次元ごとに実施例1と同様の一般化EMアルゴリズムを適用するため、共分散が0(共分散行列の非対角要素0)という制約は課せられているものの、元データが複数の次元(d次元)である場合にも適用可能となるため、実施例1よりも幅広いデータ形式に対応できる。
As described above, the statistical
以下、上述の実施例において制約条件であった、共分散行列の非対角要素0という条件を外して、元データが一般的な多次元の混合ガウス分布の線形和で記述される場合にも対応できる実施例3の統計データ再構築装置について説明する。共分散行列の非対角要素が0でない場合、すなわち一般的な多次元の混合ガウス分布を考えた場合、gの計算に要する積分を解析的に計算することが困難になる。そこで、実施例2の統計データ再構築装置2の構成を一部変更することで共分散行列が一般的な場合の元データについても扱えるようにする。
Hereinafter, when the original data is described by a linear sum of a general multi-dimensional mixed Gaussian distribution by removing the condition of non-diagonal element 0 of the covariance matrix, which was a constraint condition in the above-described embodiment. A statistical data reconstruction apparatus according to the third embodiment that can be used will be described. When the off-diagonal elements of the covariance matrix are not 0, that is, when a general multidimensional mixed Gaussian distribution is considered, it is difficult to analytically calculate the integral required for calculating g. Therefore, by partially changing the configuration of the statistical
以下、図5、図6を参照して本実施例の統計データ再構築装置の構成、および動作について説明する。図5は、本実施例の統計データ再構築装置3の構成を示すブロック図である。図6は、本実施例の統計データ再構築装置3の動作を示すフローチャートである。
Hereinafter, the configuration and operation of the statistical data reconstruction apparatus of this embodiment will be described with reference to FIGS. FIG. 5 is a block diagram illustrating the configuration of the statistical
図5に示すように、本実施例の統計データ再構築装置3は、パラメータ初期化部31と、尤度最大化部32と、統計データ再構築部13を含む。尤度最大化部32は、Eステップ計算部321と、Mステップ計算部322を含み、統計データ再構築部13は実施例1、実施例2と共通する。
As shown in FIG. 5, the statistical
パラメータ初期化部31は、撹乱処理前の元データが有限個の多次元のガウス分布の線形和で記述できるものと仮定し、各ガウス分布の重み、平均、および分散を初期化する(S31)。ステップS31とステップS11では、元データに対する仮定が異なる。ただし、分散の初期化は共分散が0の状態で実行される必要があるため、ステップS31は、上述のステップS11と同様の方法で実行される。Eステップ計算部321は本実施例におけるEステップ(後述)を実行する(S321)。Mステップ計算部322は本実施例におけるMステップ(後述)を実行する(S322)。ステップS13は前述と同様である。
The
以下、図7、図8を参照して本実施例のEステップ計算部321の構成、および動作について説明する。図7は、本実施例のEステップ計算部321の構成を示すブロック図である。図8は、本実施例のEステップ計算部321の動作を示すフローチャートである。図7に示すように、本実施例のEステップ計算部321は、負担率計算部3211と、データ集合生成部3212と、主成分分析部3213を含む構成である。負担率計算部3211は、実施例2におけるステップS221と同様に負担率を計算する(S3211)。詳細には、負担率計算部3211は、負担率γ(i,l)を以下のように計算する(S3211)。
データ集合生成部3212は、所定番目(i番目)の撹乱データに対応する負担率γ(i,k),k=1,...,Kのうち、最も高い負担率に該当するガウス分布の番号(例えばk番目)に対応するデータ集合(例えばDk)に、当該所定番目(i番目)の撹乱データが含まれるように、全ての撹乱データに対応する所定個(K個)のデータ集合(D1,...,DK)を生成する(S3212)。
The data
主成分分析部3213は、K個のデータ集合それぞれに対し主成分分析を実行して、各データ集合内のデータが無相関になるように回転し、無相関なK個のデータ集合を生成する(S3213)。
The principal
図9を参照して主成分分析部3213の動作について補足する。図9は、本実施例の主成分分析部3213が実行するデータの回転について説明する図である。図9A、B、Cはx軸を次元:身長データ、y軸を次元:体重データとし、z軸にその度数を表現した場合のデータの分布を等高線で表現したグラフである。図9に示す身長と体重のように、元データが相関のある二つの次元からなる場合、図9Aに示すように、共分散行列の非対角要素が非ゼロとなり、後述するMステップ計算部322による解析が難しくなる。そこで、本実施例の主成分分析部3213は、主成分分析を実行し、例えば図9B、あるいは図9Cのようにデータ集合を回転して、各データ集合内のデータを無相関(共分散行列の非対角要素0)とする。
The operation of the principal
以下、図10、図11を参照して、本実施例のMステップ計算部322の構成、および動作について説明する。図10は、本実施例のMステップ計算部322の構成を示すブロック図である。図11は、本実施例のMステップ計算部322の動作を示すフローチャートである。図10に示すように、本実施例のMステップ計算部322は、パラメータ更新部3221と、逆回転部3222と、収束判定部3223を含む構成である。
Hereinafter, with reference to FIGS. 10 and 11, the configuration and operation of the M-
パラメータ更新部3221は、実施例2におけるステップS222と同様に重み、平均、分散を更新する(S3211)。詳細には、パラメータ更新部3221は、以下の式に従って重み、平均、分散を更新する(S3211)。
Nlについては、式(7)をそのまま用いる。逆回転部3222は、更新後の分散σl newの要素を対角要素として並べた対角行列Σnew、更新後の平均μl new、およびステップS3212で生成されたデータ集合に対し、主成分分析における回転と逆の回転を実行する(S3222)。収束判定部3223は、更新前の尤度Loldと更新後の尤度Lnewの変化が所定の閾値以下となる場合に収束と判定する(S3223)。
For N1 , Equation (7) is used as it is. The
本実施例の統計データ再構築装置3によれば、元データが一般的な多次元の混合ガウス分布の線形和で記述される場合であっても、従来より少ないデータ数で精度よく統計データを再構築することができる。
According to the statistical
本実施例の統計データ再構築装置3の工夫点は、元データに相関がある場合にも対応したことである。元データに相関がない場合は、実施例1に開示したように必要となる積分計算を解析的に解くことが可能であるが、元データに相関がある場合、解析的に積分計算を行うことが困難になる。そこで、ステップS3213に示したように、データを回転させて無相関化してしまうことで、元データに相関がある場合にも対応できるようにした。
The ingenuity of the statistical
非特許文献1、2、3では、再構築を行い得る統計値として、度数クロス集計表を取り扱っていたが、本発明では、元データの確率分布を統計量として得る再構築を実現した。元データの確率分布を得ることができれば、百分率のクロス集計表を得ることもでき、それからデータ数が得られている場合、度数クロス集計表を得ることもできる。よって、本発明では、確率分布を再構築するが、本質的には、度数クロス集計表を再構築することと変わらない。
In
以上に述べた実施例1、2、3の統計データ再構築装置に共通して、Kの値をいくつとするかが問題となる。Kは、赤池情報量基準やベイズ情報量基準を利用して決定すると良い。 In common with the statistical data reconstruction apparatuses of the first, second, and third embodiments described above, what is the value of K is a problem. K may be determined using the Akaike information criterion or Bayesian information criterion.
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。 In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (7)
前記撹乱処理前の元データが共分散行列の非対角要素0の有限個のガウス分布の線形和で記述できるものと仮定し、各ガウス分布の重み、平均、および分散を初期化するパラメータ初期化部と、
前記元データに所定のノイズを付加して生成した所定個の撹乱データおよび所定個の前記ノイズを付加したガウス分布の全ての組み合わせについて、分母に所定番目の前記撹乱データの確率密度を含み、分子に前記ノイズを付加した所定番目のガウス分布における所定番目の撹乱データの確率密度を含む負担率を計算する処理を繰り返し実行するEステップ計算部と、
前記負担率の平均値に基づいて前記ガウス分布それぞれの重みを更新し、未知関数を前記撹乱データの確率密度の尤度を対数化した値とし、変数を前記ガウス分布の平均とした偏微分を用いて、前記尤度が最大化する方向に前記ガウス分布それぞれの平均を更新し、未知関数を前記撹乱データの確率密度の尤度を対数化した値とし、変数を前記ガウス分布の分散とした偏微分を用いて、前記尤度が最大化する方向に前記ガウス分布それぞれの分散を更新する処理を繰り返し実行するMステップ計算部と、
前記負担率を計算する処理、前記重みと前記平均と前記分散を更新する処理を繰り返し実行することにより収束した平均、分散および重みを用いて前記統計データを再構築する統計データ再構築部と、
を含む統計データ再構築装置。 A statistical data reconstruction device that reconstructs statistical data from disturbance data generated by performing disturbance processing on original data,
Assuming that the original data before the disturbance processing can be described by a linear sum of a finite number of Gaussian distributions with non-diagonal elements 0 of the covariance matrix, the initial parameter values for initializing the weight, mean, and variance of each Gaussian distribution And
For all combinations of a predetermined number of disturbance data generated by adding predetermined noise to the original data and a Gaussian distribution to which a predetermined number of noises are added, the denominator includes the probability density of the predetermined number of the disturbance data, and the numerator An E step calculation unit that repeatedly executes a process of calculating a burden rate including the probability density of the predetermined number of disturbance data in the predetermined number of Gaussian distributions to which the noise is added;
The weight of each of the Gaussian distributions is updated based on the average value of the burden ratio, the unknown function is a value obtained by logarithmizing the likelihood density of the disturbance data, and the partial differentiation with the variable being the average of the Gaussian distribution. And updating the average of each of the Gaussian distributions in the direction in which the likelihood is maximized, the unknown function is a logarithm value of the likelihood density of the disturbance data, and the variable is the variance of the Gaussian distribution An M-step calculation unit that repeatedly executes a process of updating the variance of each of the Gaussian distributions in a direction in which the likelihood is maximized using partial differentiation;
A statistical data restructuring unit that reconstructs the statistical data using the average, variance, and weight converged by repeatedly executing the process of calculating the burden rate, the process of updating the weight, the average, and the variance;
Statistical data reconstruction device including
前記元データが複数の次元を有するデータであるものとし、
前記Eステップ計算部は、
各次元において前記負担率を計算し、
前記Mステップ計算部は、
各次元において前記重みと前記平均と前記分散を更新する
統計データ再構築装置。 The statistical data reconstruction device according to claim 1,
The original data is data having a plurality of dimensions,
The E step calculation unit
Calculate the burden rate in each dimension,
The M step calculator is
A statistical data reconstruction device that updates the weight, the average, and the variance in each dimension.
前記元データが複数の次元を有するデータであるものとし、
前記撹乱処理前の元データが有限個の多次元のガウス分布の線形和で記述できるものと仮定し、各ガウス分布の重み、平均、および分散を初期化するパラメータ初期化部と、
前記元データに所定のノイズを付加して生成した所定個の撹乱データおよび所定個の前記ノイズを付加したガウス分布の全ての組み合わせについて、分母に所定番目の前記撹乱データの確率密度を含み、分子に前記ノイズを付加した所定番目のガウス分布における所定番目の撹乱データの確率密度を含む負担率を各次元について計算する処理を、繰り返し実行する負担率計算部と、
前記所定番目の撹乱データに対応する負担率のうち、最も高い負担率に該当するガウス分布の番号に対応するデータ集合に、当該所定番目の撹乱データが含まれるように、全ての撹乱データに対応する所定個のデータ集合を生成するデータ集合生成部と、
前記データ集合それぞれに対し主成分分析を実行して、各データ集合内のデータが無相関になるように回転する主成分分析部と、
前記負担率の平均値に基づいて前記ガウス分布それぞれの重みを各次元について更新し、未知関数を前記撹乱データの確率密度の尤度を対数化した値とし、変数を前記ガウス分布の平均とした偏微分を用いて、前記尤度が最大化する方向に前記ガウス分布それぞれの平均を各次元について更新し、未知関数を前記撹乱データの確率密度の尤度を対数化した値とし、変数を前記ガウス分布の分散とした偏微分を用いて、前記尤度が最大化する方向に前記ガウス分布それぞれの分散を各次元について更新する処理を繰り返し実行するパラメータ更新部と、
更新後の分散の要素を対角要素として並べた対角行列、更新後の平均、および前記生成されたデータ集合に対し、前記主成分分析における回転と逆の回転を実行する逆回転部と、
更新前の尤度と更新後の尤度の変化が所定の閾値以下となる場合に収束と判定する収束判定部と、
前記収束した平均、分散および重みを用いて前記統計データを再構築する統計データ再構築部と、
を含む統計データ再構築装置。 A statistical data reconstruction device that reconstructs statistical data from disturbance data generated by performing disturbance processing on original data,
The original data is data having a plurality of dimensions,
Assuming that the original data before the disturbance processing can be described by a linear sum of a finite number of multidimensional Gaussian distributions, a parameter initialization unit that initializes the weight, average, and variance of each Gaussian distribution;
For all combinations of a predetermined number of disturbance data generated by adding predetermined noise to the original data and a Gaussian distribution to which a predetermined number of noises are added, the denominator includes the probability density of the predetermined number of the disturbance data, and the numerator A burden factor calculation unit that repeatedly executes a burden factor including a probability density of predetermined disturbance data in the predetermined Gaussian distribution with the noise added to each dimension, and
Corresponding to all disturbance data so that the predetermined disturbance data is included in the data set corresponding to the Gaussian distribution number corresponding to the highest burden ratio among the burden ratios corresponding to the predetermined disturbance data A data set generation unit that generates a predetermined number of data sets;
A principal component analysis unit that performs principal component analysis on each of the data sets and rotates the data in each data set to be uncorrelated;
The weight of each of the Gaussian distributions is updated for each dimension based on the average value of the burden ratio, the unknown function is a value obtained by logarithmizing the likelihood density of the disturbance data, and the variable is the average of the Gaussian distribution Using partial differentiation, the average of each of the Gaussian distributions is updated for each dimension in the direction in which the likelihood is maximized, the unknown function is a logarithm value of the likelihood density of the disturbance data, and the variable is A parameter updating unit that repeatedly performs a process of updating the variance of each of the Gaussian distributions for each dimension in a direction in which the likelihood is maximized, using a partial derivative that is a variance of a Gaussian distribution;
A diagonal matrix in which the elements of the updated variance are arranged as diagonal elements, an average after the update, and a reverse rotation unit that performs a rotation opposite to the rotation in the principal component analysis on the generated data set;
A convergence determination unit that determines convergence when the likelihood before update and the change in likelihood after update are equal to or less than a predetermined threshold;
A statistical data reconstruction unit that reconstructs the statistical data using the converged mean, variance and weight;
Statistical data reconstruction device including
前記撹乱処理前の元データが共分散行列の非対角要素0の有限個のガウス分布の線形和で記述できるものと仮定し、各ガウス分布の重み、平均、および分散を初期化するパラメータ初期化ステップと、
前記元データに所定のノイズを付加して生成した所定個の撹乱データおよび所定個の前記ノイズを付加したガウス分布の全ての組み合わせについて、分母に所定番目の前記撹乱データの確率密度を含み、分子に前記ノイズを付加した所定番目のガウス分布における所定番目の撹乱データの確率密度を含む負担率を計算する処理を繰り返し実行するEステップ計算ステップと、
前記負担率の平均値に基づいて前記ガウス分布それぞれの重みを更新し、未知関数を前記撹乱データの確率密度の尤度を対数化した値とし、変数を前記ガウス分布の平均とした偏微分を用いて、前記尤度が最大化する方向に前記ガウス分布それぞれの平均を更新し、未知関数を前記撹乱データの確率密度の尤度を対数化した値とし、変数を前記ガウス分布の分散とした偏微分を用いて、前記尤度が最大化する方向に前記ガウス分布それぞれの分散を更新する処理を繰り返し実行するMステップ計算ステップと、
前記負担率を計算する処理、前記重みと前記平均と前記分散を更新する処理を繰り返し実行することにより収束した平均、分散および重みを用いて前記統計データを再構築する統計データ再構築ステップと、
を含む統計データ再構築方法。 A statistical data reconstruction method executed by a statistical data reconstruction device that reconstructs statistical data from disturbance data generated by performing disturbance processing on original data,
Assuming that the original data before the disturbance processing can be described by a linear sum of a finite number of Gaussian distributions with non-diagonal elements 0 of the covariance matrix, the initial parameter values for initializing the weight, mean, and variance of each Gaussian distribution Step,
For all combinations of a predetermined number of disturbance data generated by adding predetermined noise to the original data and a Gaussian distribution to which a predetermined number of noises are added, the denominator includes the probability density of the predetermined number of the disturbance data, and the numerator An E step calculation step of repeatedly executing a process of calculating a burden rate including the probability density of the predetermined number of disturbance data in the predetermined number of Gaussian distributions to which the noise is added;
The weight of each of the Gaussian distributions is updated based on the average value of the burden ratio, the unknown function is a value obtained by logarithmizing the likelihood density of the disturbance data, and the partial differentiation with the variable being the average of the Gaussian distribution. And updating the average of each of the Gaussian distributions in the direction in which the likelihood is maximized, the unknown function is a logarithm value of the likelihood density of the disturbance data, and the variable is the variance of the Gaussian distribution An M-step calculation step of repeatedly executing a process of updating the variance of each of the Gaussian distributions in a direction in which the likelihood is maximized using partial differentiation;
A statistical data restructuring step of reconstructing the statistical data using the average, variance, and weight converged by repeatedly executing the process of calculating the burden rate, the process of updating the weight, the average, and the variance;
Statistical data reconstruction method including
前記元データが複数の次元を有するデータであるものとし、
前記Eステップ計算ステップは、
各次元において前記負担率を計算し、
前記Mステップ計算ステップは、
各次元において前記重みと前記平均と前記分散を更新する
統計データ再構築方法。 The statistical data reconstruction method according to claim 4,
The original data is data having a plurality of dimensions,
The E step calculation step includes:
Calculate the burden rate in each dimension,
The M step calculation step includes:
A statistical data reconstruction method for updating the weight, the average, and the variance in each dimension.
前記元データが複数の次元を有するデータであるものとし、
前記撹乱処理前の元データが有限個の多次元のガウス分布の線形和で記述できるものと仮定し、各ガウス分布の重み、平均、および分散を初期化するパラメータ初期化ステップと、
前記元データに所定のノイズを付加して生成した所定個の撹乱データおよび所定個の前記ノイズを付加したガウス分布の全ての組み合わせについて、分母に所定番目の前記撹乱データの確率密度を含み、分子に前記ノイズを付加した所定番目のガウス分布における所定番目の撹乱データの確率密度を含む負担率を各次元について計算する処理を、繰り返し実行する負担率計算ステップと、
前記所定番目の撹乱データに対応する負担率のうち、最も高い負担率に該当するガウス分布の番号に対応するデータ集合に、当該所定番目の撹乱データが含まれるように、全ての撹乱データに対応する所定個のデータ集合を生成するデータ集合生成ステップと、
前記データ集合それぞれに対し主成分分析を実行して、各データ集合内のデータが無相関になるように回転する主成分分析ステップと、
前記負担率の平均値に基づいて前記ガウス分布それぞれの重みを各次元について更新し、未知関数を前記撹乱データの確率密度の尤度を対数化した値とし、変数を前記ガウス分布の平均とした偏微分を用いて、前記尤度が最大化する方向に前記ガウス分布それぞれの平均を各次元について更新し、未知関数を前記撹乱データの確率密度の尤度を対数化した値とし、変数を前記ガウス分布の分散とした偏微分を用いて、前記尤度が最大化する方向に前記ガウス分布それぞれの分散を各次元について更新する処理を繰り返し実行するパラメータ更新ステップと、
更新後の分散の要素を対角要素として並べた対角行列、更新後の平均、および前記生成されたデータ集合に対し、前記主成分分析における回転と逆の回転を実行する逆回転ステップと、
更新前の尤度と更新後の尤度の変化が所定の閾値以下となる場合に収束と判定する収束判定ステップと、
前記収束した平均、分散および重みを用いて前記統計データを再構築する統計データ再構築ステップと、
を含む統計データ再構築方法。 A statistical data reconstruction method executed by a statistical data reconstruction device that reconstructs statistical data from disturbance data generated by performing disturbance processing on original data,
The original data is data having a plurality of dimensions,
Assuming that the original data before the disturbance processing can be described by a linear sum of a finite number of multi-dimensional Gaussian distributions, a parameter initialization step for initializing the weight, mean, and variance of each Gaussian distribution;
For all combinations of a predetermined number of disturbance data generated by adding predetermined noise to the original data and a Gaussian distribution to which a predetermined number of noises are added, the denominator includes the probability density of the predetermined number of the disturbance data, and the numerator A burden factor calculating step of repeatedly executing, for each dimension, a burden factor including the probability density of the predetermined disturbance data in the predetermined Gaussian distribution with the noise added thereto;
Corresponding to all disturbance data so that the predetermined disturbance data is included in the data set corresponding to the Gaussian distribution number corresponding to the highest burden ratio among the burden ratios corresponding to the predetermined disturbance data A data set generation step for generating a predetermined number of data sets;
Performing principal component analysis on each of the data sets, and rotating the principal component analysis steps so that the data in each data set is uncorrelated;
The weight of each of the Gaussian distributions is updated for each dimension based on the average value of the burden ratio, the unknown function is a value obtained by logarithmizing the likelihood density of the disturbance data, and the variable is the average of the Gaussian distribution Using partial differentiation, the average of each of the Gaussian distributions is updated for each dimension in the direction in which the likelihood is maximized, the unknown function is a logarithm value of the likelihood density of the disturbance data, and the variable is A parameter updating step that repeatedly executes a process of updating the variance of each of the Gaussian distributions for each dimension in a direction in which the likelihood is maximized, using partial differentiation as a variance of the Gaussian distribution,
A reverse rotation step of performing a rotation opposite to the rotation in the principal component analysis on the diagonal matrix in which the elements of the updated variance are arranged as diagonal elements, the average after the update, and the generated data set;
A convergence determination step for determining convergence when the likelihood before update and the change in likelihood after update are equal to or less than a predetermined threshold;
A statistical data reconstruction step of reconstructing the statistical data using the converged mean, variance and weight;
Statistical data reconstruction method including
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015094798A JP6316773B2 (en) | 2015-05-07 | 2015-05-07 | Statistical data reconstruction device, statistical data reconstruction method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015094798A JP6316773B2 (en) | 2015-05-07 | 2015-05-07 | Statistical data reconstruction device, statistical data reconstruction method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016212217A JP2016212217A (en) | 2016-12-15 |
JP6316773B2 true JP6316773B2 (en) | 2018-04-25 |
Family
ID=57552346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015094798A Active JP6316773B2 (en) | 2015-05-07 | 2015-05-07 | Statistical data reconstruction device, statistical data reconstruction method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6316773B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018164422A (en) * | 2017-03-28 | 2018-10-25 | 三栄源エフ・エフ・アイ株式会社 | Processed food product |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4977062B2 (en) * | 2008-02-29 | 2012-07-18 | 日本電信電話株式会社 | Reverberation apparatus and method, program and recording medium |
US8555400B2 (en) * | 2011-02-04 | 2013-10-08 | Palo Alto Research Center Incorporated | Privacy-preserving aggregation of Time-series data |
JP5821590B2 (en) * | 2011-12-06 | 2015-11-24 | 富士ゼロックス株式会社 | Image identification information addition program and image identification information addition device |
WO2014123581A1 (en) * | 2013-02-06 | 2014-08-14 | Thomson Licensing | Privacy protection against curious recommenders |
-
2015
- 2015-05-07 JP JP2015094798A patent/JP6316773B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016212217A (en) | 2016-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kakade et al. | Efficient learning of generalized linear and single index models with isotonic regression | |
US8255346B2 (en) | Methods and systems for variable group selection and temporal causal modeling | |
Newton et al. | Stochastic gradient descent: Recent trends | |
Babbush et al. | Exponential quantum speedup in simulating coupled classical oscillators | |
Hirose et al. | Variable selection via the weighted group lasso for factor analysis models | |
Hamilton et al. | Error-mitigated data-driven circuit learning on noisy quantum hardware | |
Yao et al. | Robust variable selection through MAVE | |
Gallagher et al. | On Weighted Portmanteau Tests for Time‐Series Goodness‐Of‐Fit | |
Lin et al. | Variable selection for non‐parametric quantile regression via smoothing spline analysis of variance | |
Nikolakakis et al. | Learning tree structures from noisy data | |
US11556849B2 (en) | Optimization apparatus, non-transitory computer-readable storage medium for storing optimization program, and optimization method | |
Zhao et al. | Group-theoretic error mitigation enabled by classical shadows and symmetries | |
Jose et al. | Error-mitigation-aided optimization of parameterized quantum circuits: Convergence analysis | |
JP6316773B2 (en) | Statistical data reconstruction device, statistical data reconstruction method, program | |
WO2019073913A1 (en) | Pseudo-data generating device, method and program | |
Zhang et al. | Estimating the conditional single-index error distribution with a partial linear mean regression | |
Fisher et al. | Three-way cross-fitting and pseudo-outcome regression for estimation of conditional effects and other linear functionals | |
Dunn et al. | Chapter 8: generalized linear models: Diagnostics | |
Nakano | Hybrid algorithm of ensemble transform and importance sampling for assimilation of non-Gaussian observations | |
JP5683425B2 (en) | Data disturbance / reconstruction system, data reconstruction device, data reconstruction method, data reconstruction program | |
Zhang et al. | Partially linear additive models with unknown link functions | |
Cui et al. | A novel curvelet thresholding denoising method based on chi-squared distribution | |
CN114997060A (en) | Time-varying reliability testing method for photonic crystal, computing equipment and storage medium | |
JP6486865B2 (en) | Data disturbance device, data disturbance method, data disturbance program | |
Chen et al. | Semi-naive Bayesian classification by weighted kernel density estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170623 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180327 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6316773 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |