JP2017126028A - Disturbance data reconstruction error estimation device, disturbance data reconstruction error estimation method and program - Google Patents

Disturbance data reconstruction error estimation device, disturbance data reconstruction error estimation method and program Download PDF

Info

Publication number
JP2017126028A
JP2017126028A JP2016006357A JP2016006357A JP2017126028A JP 2017126028 A JP2017126028 A JP 2017126028A JP 2016006357 A JP2016006357 A JP 2016006357A JP 2016006357 A JP2016006357 A JP 2016006357A JP 2017126028 A JP2017126028 A JP 2017126028A
Authority
JP
Japan
Prior art keywords
attribute
data
matrix
disturbance
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016006357A
Other languages
Japanese (ja)
Other versions
JP6532829B2 (en
Inventor
聡 長谷川
Satoshi Hasegawa
聡 長谷川
浩気 濱田
Hiroki Hamada
浩気 濱田
彰伍 正木
Shogo Masaki
彰伍 正木
亮 菊池
Akira Kikuchi
亮 菊池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016006357A priority Critical patent/JP6532829B2/en
Publication of JP2017126028A publication Critical patent/JP2017126028A/en
Application granted granted Critical
Publication of JP6532829B2 publication Critical patent/JP6532829B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a disturbance data reconstruction error estimation device for estimating an error Vbetween a probability density function representing generation distribution of source data and a histogram equivalent with a probability density function representing generation distribution of reconstruction source data without estimating the histogram equivalent with the probability density function representing the generation distribution of the reconstruction source data.SOLUTION: The disturbance data reconstruction error estimation device comprises: a transition probability matrix calculation part 110 for calculating a transition probability matrix Pwhile using a conditional probability Pwhich is defined in accordance with whether an attribute A(1≤j≤M) is a category attribute or a numerical attribute; and an error calculation part 120 for calculating variance (1≤m,n≤|A|, m=n) of xor covariance (1≤m,n≤|A| m≠n) of xand xas an error Vwhile using a number N of sample data items, a frequency Hx (x) (1≤i≤|A|) of xthat appears in the sample data, and the transition probability matrix P(1≤j≤M).SELECTED DRAWING: Figure 3

Description

本発明は、データベースにおける個別データを確率的手法により秘匿化したデータから個別データの統計値を推定する技術に関し、特に個別データと撹乱後再構築した個別データの誤差を推定するものに関する。   The present invention relates to a technique for estimating a statistical value of individual data from data obtained by concealing individual data in a database by a probabilistic technique, and more particularly to estimating an error between individual data and individual data reconstructed after disturbance.

データベース中の元データを確率的手法により秘匿化することを撹乱という。また、秘匿化したデータ(以下、撹乱データという)から元データの統計値(以下、再構築データという)を推定することを再構築という。つまり、撹乱とは撹乱データからなる秘匿データベースを作成することであり、再構築とはこの秘匿データベースに対し統計分析を行い、再構築データを得ることである。   Concealing the original data in the database using a probabilistic method is called disturbance. Estimating a statistical value of original data (hereinafter referred to as reconstructed data) from concealed data (hereinafter referred to as disturbance data) is referred to as reconstruction. That is, disturbance means creating a secret database composed of disturbance data, and reconstruction means performing statistical analysis on the secret database to obtain reconstructed data.

このような撹乱・再構築の技術として、維持置換撹乱(非特許文献1、非特許文献2、非特許文献4)、有界ラプラスノイズ加算(非特許文献3)がある。これらの技術における再構築処理では、撹乱データから再構築データを推定する際、様々な統計分析を可能にするために、元データの生成分布を表す確率密度関数の推定を行っている。確率密度関数を知ることはデータの生成規則を知ることと等価であり、あらゆる統計分析が可能となるからである。   As such disturbance / reconstruction techniques, there are maintenance replacement disturbance (Non-Patent Document 1, Non-Patent Document 2, Non-Patent Document 4), and bounded Laplace noise addition (Non-Patent Document 3). In the reconstruction processing in these techniques, when estimating the reconstruction data from the disturbance data, a probability density function representing the generation distribution of the original data is estimated in order to enable various statistical analyses. This is because knowing the probability density function is equivalent to knowing the data generation rules, and any statistical analysis is possible.

非特許文献4の技術では、確率密度関数をヒストグラムとして表現し、元データの生成分布の推定を行っている。以後、「確率密度関数の推定」と「ヒストグラムの推定」は等価なものとして取り扱う。   In the technique of Non-Patent Document 4, the probability density function is expressed as a histogram, and the generation distribution of the original data is estimated. Hereinafter, “estimation of probability density function” and “estimation of histogram” are treated as equivalent.

非特許文献2、非特許文献3に従い、従来提案されている攪乱方法について説明する。そのために、まず、属性、カテゴリ属性、数値属性について例をまじえながら説明する。   A conventionally proposed disturbance method will be described according to Non-Patent Document 2 and Non-Patent Document 3. For this purpose, first, the attributes, category attributes, and numerical attributes will be described with examples.

撹乱対象となるデータ、つまり元データの属性の数をMとする。また、属性はカテゴリ属性と数値属性が混在して含まれているものとする。カテゴリ属性の例としては、性別があり、その属性値の集合は{男性、女性}となる。数値属性の例としては、身長があり、その属性値の集合は{t|tは0cm〜200cm}となる。   Let M be the number of attributes of the data to be disturbed, that is, the original data. Further, it is assumed that the attributes include a mixture of category attributes and numerical attributes. Examples of category attributes include gender, and the set of attribute values is {male, female}. An example of a numerical attribute is height, and the set of attribute values is {t | t is 0 cm to 200 cm}.

j番目の属性(つまり、属性値の集合)をAと表し(1≦j≦M)、すべての属性の集合をA=A×…×Aとする。また、Aがカテゴリ属性の場合は集合Aの濃度、Aが数値属性の場合は数値属性の値の取り得る範囲(数値属性の値域)を分割する数(量子化する数)Kのことをそれぞれ|A|で表す。さらに、|A|=|A|×…×|A|とする。先ほどの身長の例では、その値域は{t|tは0cm〜200cm}であり、部分区間[0,20]、[20,40]、…[180,200]に分割(量子化)する場合、K=10となる。このとき、{[0,20]、[20,40]、…[180,200]}を値域とする数値属性のことを量子化数値属性という。 j th attribute (i.e., a set of attribute values) to represent and A j (1 ≦ j ≦ M), the set of all attributes and A = A 1 × ... × A M. In addition, when A j is a category attribute, the density of the set A j , and when A j is a numeric attribute, the number (quantization number) K j that divides the possible range (value range of the numeric attribute) of the numeric attribute value Is represented by | A j |. Furthermore, | A | = | A 1 | ×... × | A M | In the example of the height above, the range is {t | t is 0 cm to 200 cm}, and is divided (quantized) into partial sections [0, 20], [20, 40], ... [180, 200]. , K j = 10. At this time, a numerical attribute having a range of {[0, 20], [20, 40],... [180, 200]} is referred to as a quantized numerical attribute.

図1に、A、Aがそれぞれ性別、職業を表すカテゴリ属性である場合のA=A×Aのサンプルデータの例を示す。このとき、サンプルデータ数N=10、M=2、A={男性、女性}、A={研究員、開発者、医者}、A={(男性,研究員)、(男性,開発者)、(男性,医者)、(女性,研究員)、(女性,開発者)、(女性,医者)}、|A|=2、|A|=3、|A|=6となる。 FIG. 1 shows an example of sample data of A = A 1 × A 2 when A 1 and A 2 are category attributes representing gender and occupation, respectively. At this time, the number of sample data N = 10, M = 2, A 1 = {male, female}, A 2 = {researcher, developer, doctor}, A = {(male, researcher), (male, developer) , (Male, doctor), (female, researcher), (female, developer), (female, doctor)}, | A 1 | = 2, | A 2 | = 3, | A | = 6.

の要素は、{1、2、…、|A|}でナンバリングされているものとする。Aの要素である研究員、開発者、医者に対して、1、2、3を割り当てることとすると、これがAの要素をナンバリングした例となる。Aの要素についても、同様に{1、2、…、|A|}でナンバリングされているものとする。例えば、x=(男性,研究員)、x=(男性,開発者)、x=(男性,医者)、x=(女性,研究員)、x=(女性,開発者)、x=(女性,医者)がAの要素をナンバリングした例となる。また、xをi番目の属性値の組み合わせと呼ぶ。 The elements of A j are numbered {1, 2,..., | A j |}. Researcher is an element of A 2, the developer for the physician, when assigning a 1,2,3, the example which has numbering the elements of A 2. Similarly, the elements of A are also numbered by {1, 2,..., | A |}. For example, x 1 = (male, researcher), x 2 = (male, developer), x 3 = (male, doctor), x 4 = (female, researcher), x 5 = (female, developer), x 6 = This is an example in which (female, doctor) numbers the elements of A. Also referred to x i and the combination of the i-th attribute values.

次に、いくつかの記号について説明する。P(x)(ただし、xはAの要素)は元データの確率密度関数、P(y)(ただし、yはAの要素)は撹乱データの確率密度関数を表すものとする。P(x)、P(y)はいずれも定義域をA=A×…×A、値域を[0,1]とする関数である。なお、変数x、yはM次元列ベクトルとして扱うこととする。また、条件付き確率PY|X(y|x)は元データxがランダムに攪乱されて撹乱データyになる確率を表すものとする。 Next, some symbols will be described. P X (x) (where x is an element of A) is a probability density function of the original data, and P Y (y) (where y is an element of A) is the probability density function of the disturbance data. Each of P X (x) and P Y (y) is a function whose domain is A = A 1 ×... × A M and whose range is [0, 1]. Variables x and y are treated as M-dimensional column vectors. Also, the conditional probability P Y | X (y | x) represents the probability that the original data x is randomly disturbed to become disturbed data y.

元データのサンプルデータは、確率密度P(x)を持つ確率分布からN個サンプリングしたものとする。また、i番目の属性値の組み合わせx(1≦i≦|A|)に対し、P(x)はi番目の属性値の組み合わせxの度数をサンプルデータ数で割ったもの、H(x)はi番目の属性値の組み合わせxの度数を表す。したがって、P(x)=H(x)/Nとなる。図1の例を考えると、x=(男性,医者)に対し、P(x)=2/10、H(x)=2となる。 The sample data of the original data is sampled N times from a probability distribution having a probability density P X (x). Further, for the i-th attribute value combination x i (1 ≦ i ≦ | A |), P X (x i ) is obtained by dividing the frequency of the i-th attribute value combination x i by the number of sample data, H X (x i ) represents the frequency of the i-th attribute value combination x i . Therefore, P X (x i ) = H X (x i ) / N. Considering the example of FIG. 1, P x (x 3 ) = 2/10 and H x (x 3 ) = 2 for x 3 = (male, doctor).

撹乱データについても同様の記号を用いることにする。すなわち、i番目の属性値の組み合わせy(1≦i≦|A|)に対し、P(y)はi番目の属性値の組み合わせyの度数をサンプルデータ数で割ったもの、H(y)はi番目の属性値の組み合わせyの度数を表す。 Similar symbols are used for the disturbance data. That is, for the i-th attribute value combination y i (1 ≦ i ≦ | A |), P Y (y i ) is obtained by dividing the frequency of the i-th attribute value combination y i by the number of sample data, H Y (y i ) represents the frequency of the i-th attribute value combination y i .

最後に、攪乱方法について説明する。撹乱データの生成に際し、カテゴリ属性に対しては非特許文献2の維持置換撹乱、数値属性に対しては非特許文献3の有界ラプラスノイズ加算を用いる。   Finally, the disturbance method will be explained. When generating the disturbance data, the maintenance replacement disturbance described in Non-Patent Document 2 is used for the category attribute, and the bounded Laplace noise addition described in Non-Patent Document 3 is used for the numerical attribute.

(カテゴリ属性の撹乱方法)
カテゴリ属性に対しては、維持確率ρで属性値を維持し、1−ρの確率で属性値をランダムに変更することで、データを秘匿化する処理が行われる。すなわち、あるカテゴリ属性Aの属性値vが属性値vに変わる条件付き確率PY|X Aj(v|v)は、属性Aの維持確率ρを用いて

Figure 2017126028
と表される(jは1≦j≦Mを満たす整数)。先述の通り、|A|は集合Aの濃度を示す。 (Categorical attribute disturbance method)
For the category attribute, a process of concealing data is performed by maintaining the attribute value with a maintenance probability ρ and randomly changing the attribute value with a probability of 1−ρ. That is, the conditional probability P Y | X Aj (v | v) that the attribute value v of a certain category attribute A j changes to the attribute value v is obtained using the maintenance probability ρ j of the attribute A j.
Figure 2017126028
(J is an integer satisfying 1 ≦ j ≦ M). As described above, | A j | indicates the concentration of the set A j .

カテゴリ属性に対する撹乱では、この条件付き確率に従うランダムな処理が施される。また、属性Aの維持確率ρは公開されるものとする。 In the disturbance for the category attribute, random processing according to the conditional probability is performed. Further, the maintenance probability ρ j of the attribute A j is disclosed.

条件付き確率PY|X Aj(v|v)は、|A|×|A|の行列P(以下、Pを遷移確率行列という)で表すことができる。遷移確率行列Pは属性値vが属性値vに変わる確率を行列で表したものであり、式(2)のように表現される。なお、遷移確率行列Pの定義に際して、Aの要素のナンバリングを用いるとよい。

Figure 2017126028
The conditional probability P Y | X Aj (v | v) can be expressed by a matrix P j of | A j | × | A j | (hereinafter, P j is referred to as a transition probability matrix). The transition probability matrix P j is a matrix that represents the probability that the attribute value v changes to the attribute value v , and is expressed as in Expression (2). In defining the transition probability matrix P j , numbering of elements of A j may be used.
Figure 2017126028

(数値属性の撹乱方法)
数値属性に対しては、属性値に有界ラプラス分布に従うノイズを付与する(つまり、有界ラプラスノイズ加算する)ことで撹乱を行う。有界ラプラス分布とは、台の上限と下限が定まっているラプラス分布のことであり、この有界ラプラス分布に従うノイズを付与することで、元データを秘匿化する。ある数値属性Aの属性値vが属性値vに変わる条件付き確率密度PY|X Aj(v|v)は、属性Aの有界ラプラス分布のパラメータφを用いて

Figure 2017126028
となる(jは1≦j≦Mを満たす整数)。ここでγ(v)はラプラス分布を有界にしたことによって生じる有界ラプラス分布を調整するための関数、[a,b]は属性Aの値域(ただし、a,bはa≦bを満たす実数)である。 (Numerical attribute disturbance method)
For numerical attributes, disturbance is performed by adding noise according to the bounded Laplace distribution to the attribute value (that is, adding bounded Laplace noise). The bounded Laplace distribution is a Laplace distribution in which the upper and lower limits of the platform are fixed, and the original data is concealed by applying noise according to the bounded Laplace distribution. The conditional probability density P Y | X Aj (v | v) for changing the attribute value v of a numerical attribute A j to the attribute value v is obtained by using the parameter φ j of the bounded Laplace distribution of the attribute A j.
Figure 2017126028
(J is an integer satisfying 1 ≦ j ≦ M). Here, γ j (v) is a function for adjusting the bounded Laplace distribution generated by making the Laplace distribution bounded, and [a j , b j ] is the range of the attribute A j (where a j , b j Is a real number satisfying a j ≦ b j ).

数値属性に対する撹乱では、この条件付き確率密度に従うランダムな処理が施される。また、属性Aの有界ラプラス分布のパラメータφは公開されるものとする。 In the disturbance for the numerical attribute, random processing according to this conditional probability density is performed. The parameter phi j bounded Laplace distribution attribute A j shall be published.

非特許文献3に示す通り、区間[a,b]を適当な数K個の部分区間I,…,IKjに分割し、部分区間Iに含まれる属性値が部分区間Ik’に含まれる属性値に変わる確率PY|X Aj(Ik’|I)(以下、部分区間Iが部分区間Ik’に変わる条件付き確率という)を用いて量子化することにより、有界ラプラスノイズ加算についても遷移確率行列Pを定義することができる。

Figure 2017126028
ただし、|I|は区間の長さ、Δは部分区間Iに含まれる属性値vを部分区間Ik’に含まれる属性値にランダムに変えるランダム化アルゴリズムを表す。 As shown in Non-Patent Document 3, the section [a j , b j ] is divided into an appropriate number K j partial sections I 1 ,..., I Kj , and the attribute value included in the partial section I k is the partial section I. k 'probability changing the attribute value included in the P Y | X Aj (I k ' | I k) ( hereinafter, the subinterval I k is called the conditional probability turn into subintervals I k ') be quantized using Thus, the transition probability matrix P j can also be defined for the bounded Laplace noise addition.
Figure 2017126028
However, | I k | represents the length of the section, and Δ represents a randomization algorithm that randomly changes the attribute value v included in the partial section I k to the attribute value included in the partial section I k ′ .

つまり、遷移確率行列Pは、部分区間Iが部分区間Ik’に変わる条件付き確率PY|X Aj(Ik’|I)をk行k’列の要素とするK×K(=|A|×|A|)の行列となる。 That is, the transition probability matrix P j is subinterval I k is subinterval I k 'to change the conditional probability P Y | X Aj (I k ' | K j × a I k) as an element of the k-th row k 'column This is a matrix of K j (= | A j | × | A j |).

なお、区間[a,b]をK個の部分区間I,…,IKjに等分割する場合、遷移確率行列Pは、φ、a、b、Kを用いて計算できる。一般に、区間[a,b]の分割をI=[t,t]、I=[t,t]、…、IKj=[tKj−1,tKj](t(=a)<t<…<tKj(=b))とすると、遷移確率行列Pは、φ、t(=a)、t、…、tKj(=b)を用いて計算できる。以下、t、t、…、tKjを区間[a,b]の分割の分点という。 When the section [a j , b j ] is equally divided into K j partial sections I 1 ,..., I Kj , the transition probability matrix P j uses φ j , a j , b j , K j . Can be calculated. In general, the interval [a j , b j ] is divided into I 1 = [t 0 , t 1 ], I 2 = [t 1 , t 2 ],..., I Kj = [t Kj−1 , t Kj ] ( If t 0 (= a j ) <t 1 <... <t Kj (= b j )), the transition probability matrix P j is φ j , t 0 (= a j ), t 1 ,..., t Kj ( = B j ). Hereinafter, t 0 , t 1 ,..., T Kj are referred to as dividing points of the section [a j , b j ].

したがって、数値属性に対して量子化を行い条件付き確率PY|X Aj(Ik’|I)を定義することで、遷移確率行列を定義することが可能となり、カテゴリ属性、数値属性を共通の枠組みで扱えるようになる。 Therefore, it is possible to define the transition probability matrix by quantizing the numerical attribute and defining the conditional probability P Y | X Aj (I k ′ | I k ). It can be handled in a common framework.

そこで、以降、数値属性については、適当な部分区間I,…,IKjを用いて量子化がなされ、条件付き確率PY|X Aj(Ik’|I)が定義可能であるものとする。また、このように、区間[a,b]の分割I、I、…、IKjを用いて条件付き確率PY|X Aj(Ik’|I)が定義することにより量子化した有界ラプラスノイズ加算のことを量子化有界ラプラスノイズ加算という。 Therefore, the numerical attribute is quantized using an appropriate partial section I 1 ,..., I Kj and the conditional probability P Y | X Aj (I k ′ | I k ) can be defined. And Further, as described above, the conditional probability P Y | X Aj (I k ′ | I k ) is defined using the divisions I 1 , I 2 ,..., I Kj of the interval [a j , b j ]. Quantized bounded Laplace noise addition is called quantized bounded Laplace noise addition.

(複数属性の撹乱方法)
すべての属性A=A×…×Aの条件付き確率PY|X(y|x)は、属性ごとの条件付き確率の積となる(ただし、x、yは、元データのn番目の属性値の組み合わせ、撹乱データのm番目の属性値の組み合わせ(1≦n,m≦|A|)を表す)。

Figure 2017126028
(j)、y (j)はそれぞれM次元ベクトルx、yのj番目の要素(j番目の属性Aの属性値)を表す。属性がカテゴリ属性である場合は式(1)、数値属性である場合は式(3)を用いて式(4)を計算することができる。 (Multi-attribute disturbance method)
The conditional probabilities P Y | X (y m | x n ) of all attributes A = A 1 ×... × A M are the products of the conditional probabilities for each attribute (where x n and y m are elements) A combination of the nth attribute value of the data and a combination of the mth attribute value of the disturbance data (representing 1 ≦ n, m ≦ | A |)).
Figure 2017126028
x n (j), representing a y m (j) the j-th element of each of the M-dimensional vector x n, y m (attribute value of the j-th attribute A j). Formula (4) can be calculated using Formula (1) when the attribute is a category attribute, and Formula (3) when it is a numerical attribute.

この条件付き確率PY|X(y|x)も行列を用いて表現できる。Pをj番目の属性Aに対する遷移確率行列とすると、条件付き確率PY|X(y|x)の行列表現である遷移確率行列Pは式(5)のようにPのクロネッカー積として表現される。

Figure 2017126028
This conditional probability P Y | X (y m | x n ) can also be expressed using a matrix. When the P j and the transition probability matrix for the j-th attribute A j, the conditional probability P Y | X | transition probability matrix P matrix is a representation of (y m x n) is the P j by the equation (5) Expressed as Kronecker product.
Figure 2017126028

五十嵐大、千田浩司、高橋克巳、“多値属性に適用可能な効率的プライバシー保護クロス集計”、コンピュータセキュリティシンポジウム2008 論文集、2008年10月、第2008巻、pp.497-502Igarashi Univ., Koji Senda, Katsumi Takahashi, “Efficient Privacy Protection Cross Tabulation Applicable to Multi-valued Attributes”, Computer Security Symposium 2008 Proceedings, October 2008, Vol. 2008, pp.497-502 五十嵐大、千田浩司、高橋克巳、“k-匿名性の確率的指標への拡張とその適用例”、コンピュータセキュリティシンポジウム2009 論文集、2009年10月、第2009巻、pp.1-6Igarashi Univ., Koji Senda, Katsumi Takahashi, “Extension to k-anonymity probabilistic index and its application example”, Proceedings of Computer Security Symposium 2009, October 2009, Vol. 2009, pp.1-6 五十嵐大、長谷川聡、納竜也、菊池亮、千田浩司、“数値属性に適用可能な, ランダム化によりk-匿名性を保証するプライバシー保護クロス集計”、コンピュータセキュリティシンポジウム2012 論文集、2012年10月、pp.639-646Igarashi Univ., Satoshi Hasegawa, Tatsuya Naya, Ryo Kikuchi, Koji Chida, “Applicable to numeric attributes, privacy protection cross tabulation that guarantees k-anonymity by randomization”, Computer Security Symposium 2012 Proceedings, October 2012 , Pp.639-646 Rakesh Agrawal, Ramakrishnan Srikant, and Dilys Thomas, “Privacy Preserving OLAP”, In Proceedings of the 2005 ACM SIGMOD International Conference on Management of Data, 2005, pp.251-262Rakesh Agrawal, Ramakrishnan Srikant, and Dilys Thomas, “Privacy Preserving OLAP”, In Proceedings of the 2005 ACM SIGMOD International Conference on Management of Data, 2005, pp.251-262

元データの生成分布を表す確率密度関数P(x)と元データの生成分布を表す確率密度関数を再構築した結果である再構築元データの生成分布を表す確率密度関数P^(x)の間に生じる誤差がどの程度になるかについては、いったんP^(x)を求める必要があった。例えば、非特許文献4では、以下に示す尤度関数Lを最大化すること(以下、最尤推定法という)によりP^(x)を求めていた。具体的には、期待値最大化(Expectation Maximization)アルゴリズムを用いて、P^(x)をヒストグラムとして求めていた。

Figure 2017126028
Probability density function representing the generated distribution of the reconstructed original data is the probability density function P X (x) and a result of reconstructing the probability density function representing the generated distribution of the original data representing the generated distribution of the original data P ^ X (x It was necessary to obtain P ^ X (x) once as to how much the error generated during For example, in Non-Patent Document 4, P ^ X (x) is obtained by maximizing a likelihood function L shown below (hereinafter referred to as a maximum likelihood estimation method). Specifically, P ^ X (x) is obtained as a histogram using an Expectation Maximization algorithm.
Figure 2017126028

以下では、変数x、yを省略して、P^(x)、H(y)、PY|X(y|x)を単にP^、H、PY|Xと表すこともある。 In the following, variables x and y are omitted, and P ^ X (x), HY (y), and PY | X (y | x) are simply expressed as P ^ X , HY , PY | X. There is also.

期待値最大化アルゴリズムのような最尤推定法では撹乱処理とP^(と等価なヒストグラム)の推定処理の2つの処理を実行する必要がある。このため、PとP^の誤差(各確率密度関数と等価なヒストグラム間の誤差)の推定にはデータベースごとに数値実験を繰り返し行う必要があり、誤差の評価に非常にコストを費やしていた。 In the maximum likelihood estimation method such as the expected value maximization algorithm, it is necessary to execute two processes, a disturbance process and an estimation process of P ^ X (equivalent histogram). For this reason, it is necessary to repeatedly perform numerical experiments for each database in order to estimate the error between P X and P ^ X (the error between histograms equivalent to each probability density function), and the evaluation of the error is very costly. It was.

そこで本発明では、再構築元データの生成分布を表す確率密度関数P^と等価なヒストグラムの推定を行うことなく、元データの生成分布を表す確率密度関数P及び再構築元データの生成分布を表す確率密度関数P^と等価なヒストグラム間の誤差を推定する撹乱データ再構築誤差推定装置を提供することを目的とする。 Therefore, in the present invention, without performing the estimation of the probability density function P ^ X equivalent histogram representing the generated distribution of the reconstructed original data, generation of the probability density function P X and reconstruction based on data representing the generated distribution of the original data An object of the present invention is to provide a disturbance data reconstruction error estimation device that estimates an error between histograms equivalent to a probability density function P ^ X representing a distribution.

本発明の一態様は、Mを撹乱対象となるデータである元データの属性の数、Aをj番目の属性(ただし、jは1≦j≦Mなる整数)とし、属性Aに対する撹乱は、属性Aがカテゴリ属性である場合は維持確率をρとする維持置換撹乱、属性Aが数値属性(その値域を[a,b] (ただし、a,bはa≦bを満たす実数)とする)である場合は有界ラプラス分布のパラメータをφとする有界ラプラスノイズ加算を前記値域[a,b]の分割I=[t,t]、I=[t,t]、…、IKj=[tKj−1,tKj](ただし、t(=a)<t<…<tKj(=b)、以下、t、t、…、tKjを分点という)を用いて量子化した量子化有界ラプラスノイズ加算であるとし、|A|を|A|=|A|×…×|A|(ただし、属性Aが数値属性の場合は|A|=K)なる整数、x(1≦i≦|A|)を元データのi番目の属性値の組み合わせ、Nを元データのサンプルデータ数、H(x)を前記サンプルデータに出現するxの度数とし、前記サンプルデータ数N、前記度数H(x)から元データと再構築元データの誤差を推定する撹乱データ再構築誤差推定装置であって、属性Aがカテゴリ属性である場合は前記維持確率ρと前記|A|を用いて算出される属性値vが属性値vに変わる条件付き確率PY|X Aj(v|v)、属性Aが数値属性である場合は前記パラメータφと前記値域[a,b]と前記分点t、…、tKj−1を用いて算出される部分区間Iが部分区間Ik’に変わる条件付き確率PY|X Aj(Ik’|I)(1≦k,k’≦|K|)を用いて、遷移確率行列Pを計算する遷移確率行列計算部と、前記サンプルデータ数N、前記度数H(x)(1≦i≦|A|)、前記遷移確率行列P(1≦j≦M)を用いて、xの分散(1≦m,n≦|A|、m=n)またはxとxの共分散(1≦m,n≦|A|、m≠n)を前記誤差として計算する誤差計算部とを含む。 In one embodiment of the present invention, M is the number of attributes of original data that is data to be disturbed, A j is a j-th attribute (where j is an integer satisfying 1 ≦ j ≦ M), and disturbance for the attribute A j is performed . Indicates that the attribute A j is a category attribute, the maintenance replacement disturbance with a maintenance probability ρ j , the attribute A j is a numerical attribute (the value range is [a j , b j ] (where a j and b j are a j ≦ b j )), the bounded Laplace noise addition with the parameter of the bounded Laplace distribution as φ j is divided into the range [a j , b j ] I 1 = [t 0 , t 1 ], I 2 = [t 1 , t 2 ],..., I Kj = [t Kj−1 , t Kj ] (where t 0 (= a j ) <t 1 <... <t Kj (= b j), the following, t 0, t 1, ... , quantization bounded Laplace noise quantized using the called equinox) t Kj And a calculation, | A | a | A | = | A 1 | × ... × | A M | ( However, if the attribute A j is a number attribute | A j | = K j) comprising an integer, x i ( 1 ≦ i ≦ | A |) is a combination of the i-th attribute values of the original data, N is the number of sample data of the original data, and H X (x i ) is the frequency of x i appearing in the sample data, and the sample A disturbance data reconstruction error estimation device for estimating an error between the original data and the reconstructed original data from the number of data N and the frequency H X (x i ), and the maintenance probability ρ when the attribute A j is a category attribute j and the conditional probability P Y | X Aj (v | v) that the attribute value v calculated using | A j | changes to the attribute value v ′, and if the attribute A j is a numerical attribute, the parameter Using φ j , the range [a j , b j ] and the dividing points t 1 ,..., t Kj−1 Transition using the conditional probability P Y | X Aj (I k ′ | I k ) (1 ≦ k, k ′ ≦ | K j |) where the calculated sub-section I k is changed to the sub-section I k ′ A transition probability matrix calculator for calculating a probability matrix P j , the number of sample data N, the frequency H X (x i ) (1 ≦ i ≦ | A |), and the transition probability matrix P j (1 ≦ j ≦ M) ) using the variance of x m (1 ≦ m, n ≦ | a |, m = n) or the covariance of x m and x n (1 ≦ m, n ≦ | a |, m ≠ n) the And an error calculation unit for calculating as an error.

本発明によれば、Pと最尤推定法で求めたP^と等価なヒストグラム間の誤差を分散として定義することにより、誤差を解析的に求めることが可能となる。その結果、P^と等価なヒストグラムの推定を行うことなく誤差を推定することが可能となる。 According to the present invention, by defining the error between P ^ X equivalent histogram obtained in P X and maximum likelihood estimation method as a dispersion, it is possible to determine the error analytically. As a result, an error can be estimated without estimating a histogram equivalent to P ^ X.

サンプルデータの一例を示す図。The figure which shows an example of sample data. 実施例1の分散共分散計算アルゴリズムを示す図。FIG. 3 is a diagram illustrating a variance-covariance calculation algorithm according to the first embodiment. 実施例1の撹乱データ再構築誤差推定装置100の構成を示すブロック図。1 is a block diagram illustrating a configuration of a disturbance data reconstruction error estimation device 100 according to a first embodiment. 実施例1の撹乱データ再構築誤差推定装置100の動作を示すフローチャート。5 is a flowchart illustrating the operation of the disturbance data reconstruction error estimation device 100 according to the first embodiment. 実施例1の誤差計算部120の構成を示すブロック図。FIG. 3 is a block diagram illustrating a configuration of an error calculation unit 120 according to the first embodiment. 実施例1の誤差計算部120の動作を示すフローチャート。5 is a flowchart illustrating an operation of an error calculation unit 120 according to the first embodiment. 実施例2の分散共分散計算アルゴリズムを示す図。FIG. 10 is a diagram illustrating a variance-covariance calculation algorithm according to the second embodiment. 実施例2の撹乱データ再構築誤差推定装置200の構成を示すブロック図。The block diagram which shows the structure of the disturbance data reconstruction error estimation apparatus 200 of Example 2. FIG. 実施例2の誤差計算部220の構成を示すブロック図。FIG. 6 is a block diagram illustrating a configuration of an error calculation unit 220 according to the second embodiment. 実施例2の誤差計算部220の動作を示すフローチャート。9 is a flowchart illustrating the operation of an error calculation unit 220 according to the second embodiment. 実施例3(実施例1の変形例)の分散共分散計算アルゴリズムを示す図。The figure which shows the variance covariance calculation algorithm of Example 3 (modified example of Example 1). 実施例3(実施例2の変形例)の分散共分散計算アルゴリズムを示す図。The figure which shows the variance covariance calculation algorithm of Example 3 (modified example of Example 2). 実施例3(実施例1の変形例)の誤差計算部320の構成を示すブロック図。The block diagram which shows the structure of the error calculation part 320 of Example 3 (modified example of Example 1). 実施例3(実施例2の変形例)の誤差計算部325の構成を示すブロック図。The block diagram which shows the structure of the error calculation part 325 of Example 3 (modified example of Example 2).

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.

なお、数値属性Aについては、適当な部分区間I,…,IKjを用いて量子化がなされ、量子化有界ラプラスノイズ加算、条件付き確率PY|X Aj(Ik’|I)、遷移確率行列Pが定義されているものとする。先述の通り、P等の各確率密度関数は等価なヒストグラムと(同一視)して扱うこととし、Pに従って生成されるサンプルデータ数をNとする。また、x、yは、元データのi番目の属性値の組み合わせ、撹乱データのk番目の属性値の組み合わせ(1≦i,k≦|A|)を表すものとする。 The numerical attribute A j is quantized using an appropriate partial interval I 1 ,..., I Kj , quantized bounded Laplace noise addition, conditional probability P Y | X Aj (I k ′ | I k ), and a transition probability matrix P j is defined. As described above, each probability density function such as P X is treated as an equivalent histogram (identified), and the number of sample data generated according to P X is N. Also, x i and y k represent the combination of the i-th attribute value of the original data and the combination of the k-th attribute value of the disturbance data (1 ≦ i, k ≦ | A |).

P^を式(6)、(7)の最尤推定法により求めた場合のPとP^と等価なヒストグラム間の誤差(以下、元データと再構築元データの誤差という)をPとP^の分散・共分散として定義する。ここで、PとP^の分散・共分散とは、元データのi番目の属性値の組み合わせxを確率変数とみなして生成した|A|次元列ベクトル(x…x|A|に対して(i,j)要素をxとxの共分散(i=jのときはxの分散)とする|A|×|A|の分散共分散行列として定義されるものである。 The P ^ X Equation (6), an error (hereinafter, referred to as original data and the reconstruction of the original data errors) between P X and P ^ X equivalent histogram when determined by the maximum likelihood estimation method (7) It is defined as the covariance of P X and P ^ X. Here, P X and the P ^ X of covariance, the combination x i of the i-th attribute values of the original data was generated is regarded as a random variable | A | dimensional column vector (x 1 ... x | A | ) Is defined as a covariance matrix of | A | × | A |, where (i, j) elements for T are covariances of x i and x j (the variance of x i when i = j). Is.

このように定義することにより、PとP^と等価なヒストグラム間の誤差を解析的に求めることができる(参考非特許文献5)。
(参考非特許文献5) Xumeng Cao and James C. Spall, “Relative Performance of Expected and Observed Fisher Information in Covariance Estimation for Maximum Likelihood Estimates”, In American Control Conference (ACC), 2012, IEEE, June 2012, pp.1871-1876.
具体的には、i番目の属性値の組み合わせx(1≦i≦|A|)の度数H(x)をサンプルデータ数Nで割ったものP(x)を用いてPを扱うことにより、PとP^の分散・共分散はフィッシャー情報行列を用いて算出できる。PとP^の分散共分散行列をV、フィッシャー情報行列をIとすると、V、Iは|A|×|A|の行列となり、

Figure 2017126028
が成立する。 By defining in this way, an error between histograms equivalent to P X and P ^ X can be analytically obtained (reference non-patent document 5).
(Reference Non-Patent Document 5) Xumeng Cao and James C. Spall, “Relative Performance of Expected and Observed Fisher Information in Covariance Estimation for Maximum Likelihood Estimates”, In American Control Conference (ACC), 2012, IEEE, June 2012, pp. 1871-1876.
Specifically, the frequency P x (x i ) obtained by dividing the frequency H x (x i ) of the i-th attribute value combination x i (1 ≦ i ≦ | A |) by the number N of sample data is used. by treating X, covariance of P X and P ^ X can be calculated using the Fisher information matrix. If the variance-covariance matrix of P X and P ^ X is V and the Fisher information matrix is I, V and I are | A | × | A |
Figure 2017126028
Is established.

フィッシャー情報行列Iの逆行列として分散共分散行列Vを求め、分散共分散行列Vの各要素Vij(VijはVのi行j列の要素を表す)にアクセスすることで、分散、共分散を得ることができる。Vijは、xの分散(i=jのとき)またはxとxの共分散(i≠jのとき)を表す。 By obtaining a variance covariance matrix V as an inverse matrix of the Fisher information matrix I and accessing each element V ij of the variance covariance matrix V (V ij represents an element of i rows and j columns of V), Dispersion can be obtained. V ij represents the variance of x i (when i = j) or the covariance of x i and x j (when i ≠ j).

以下、フィッシャー情報行列Iの算出方法について説明する。フィッシャー情報行列Iは式(6)、式(7)のヘッセ行列Hの期待値(式(9))で定義される。

Figure 2017126028
Hereinafter, a calculation method of the Fisher information matrix I will be described. The Fisher information matrix I is defined by the expected value (Expression (9)) of the Hessian matrix H of Expressions (6) and (7).
Figure 2017126028

ヘッセ行列Hの各値Hij(行列Hのi行j列の要素)は、式(10)で算出できる。なお、Lは式(7)の尤度関数である。

Figure 2017126028
ここで、P(y)は撹乱データの確率密度関数であり、
Figure 2017126028
である。P(x)はi番目の属性値の組み合わせxの度数H(x)をサンプルデータ数Nで割ったものを用いる。 Each value H ij of Hesse matrix H (element of i rows and j columns of matrix H) can be calculated by equation (10). Note that L is a likelihood function of Expression (7).
Figure 2017126028
Where P Y (y k ) is the probability density function of the disturbance data,
Figure 2017126028
It is. P X (x i) is used after divided frequency H X combination x i of i-th attribute values (x i) in the sample data number N.

したがって、フィッシャー情報行列Iのi行j列の要素Iijは、

Figure 2017126028
である。 Therefore, the element I ij of i row j column of the Fisher information matrix I is
Figure 2017126028
It is.

以上述べたことをまとめると、図2に示す分散共分散計算アルゴリズムとなる。攪乱を特徴付ける各パラメータ(各属性Aの条件付き確率PY|X Ajのパラメータと元データの確率密度関数Pに従い生成したサンプルデータの各度数H(x)とサンプルデータ数N)が入力となる。つまり、jを1≦j≦Mを満たす整数として、Aがカテゴリ属性の場合はρ、|A|、Aが数値属性の場合はφ、a、b、t、…、tKj−1、iを1≦i≦|A|を満たす整数として、サンプルデータ数N、当該サンプルデータに出現するxの度数H(x)が入力となる。また、m、nは生成したい誤差(分散または共分散)を指定するための1≦m,n≦|A|なる整数である。 In summary, the variance-covariance calculation algorithm shown in FIG. 2 is obtained. Each parameter characterizing the disturbance (conditional probability P Y | X Aj of each attribute A j and each frequency H X (x i ) of the sample data generated according to the parameter of the parameter A Y and the probability density function P X of the original data N) Is the input. That is, if j is an integer satisfying 1 ≦ j ≦ M, ρ j , | A j | when A j is a category attribute, and φ j , a j , b j , t 1 when A j is a numerical attribute, ..., t Kj-1 , i is an integer satisfying 1 ≦ i ≦ | A |, and the number N of sample data and the frequency H X (x i ) of x i appearing in the sample data are input. M and n are integers of 1 ≦ m and n ≦ | A | for designating an error (variance or covariance) to be generated.

S110では、属性Aの遷移確率行列Pを計算する。S121では、式(11)を用いて撹乱データの確率密度関数P(y)を計算する。S122では、式(12)を用いてフィッシャー情報行列Iの各要素Iijを計算する。S123では、分散共分散行列Vをフィッシャー情報行列Iの逆行列として計算する。S124では、求めたい誤差Vmn、つまり、|A|次元列ベクトル(x…x|A|の第m要素xと第n要素xの共分散(分散)を出力する。 In S110, a transition probability matrix Pj of attribute Aj is calculated. In S121, the probability density function P Y (y k ) of the disturbance data is calculated using Expression (11). In S122, each element Iij of the Fisher information matrix I is calculated using Expression (12). In S123, the variance-covariance matrix V is calculated as an inverse matrix of the Fisher information matrix I. In S124, the error V mn to be obtained, i.e., | A | outputs the covariance of the m elements x m and the n element x n of the T (dispersion) dimensional column vector (x 1 ... x | | A ).

以下、図3〜図4を参照して実施例1の撹乱データ再構築誤差推定装置100について説明する。図3は、実施例1の撹乱データ再構築誤差推定装置100の構成を示すブロック図である。図4は、実施例1の撹乱データ再構築誤差推定装置100の動作を示すフローチャートである。図3に示すように撹乱データ再構築誤差推定装置100は、遷移確率行列計算部110と、誤差計算部120を含む。   Hereinafter, the disturbance data reconstruction error estimation apparatus 100 according to the first embodiment will be described with reference to FIGS. FIG. 3 is a block diagram illustrating the configuration of the disturbance data reconstruction error estimation apparatus 100 according to the first embodiment. FIG. 4 is a flowchart illustrating the operation of the disturbance data reconstruction error estimation device 100 according to the first embodiment. As shown in FIG. 3, the disturbance data reconstruction error estimation device 100 includes a transition probability matrix calculation unit 110 and an error calculation unit 120.

遷移確率行列計算部110は、属性Aがカテゴリ属性である場合は維持確率ρ及び濃度|A|、属性Aが数値属性である場合は有界ラプラス分布のパラメータφ、値域[a,b]、分点t、…、tKj−1を用いて、各属性Aの遷移確率行列Pを計算する(S110)。カテゴリ属性の場合は式(1)を用いて計算できる。また、数値属性の場合は、式(3)を用いて(その具体的な方法については非特許文献3に記載の方法にて)計算できる。誤差計算部120は、各属性Aの遷移確率行列P、元データのサンプルデータに対するi番目の属性値の組み合わせxの度数H(x)、サンプルデータ数Nを用いて、誤差Vmnを計算する(S120)。 When the attribute A j is a category attribute, the transition probability matrix calculation unit 110 performs the maintenance probability ρ j and the concentration | A j |, and when the attribute A j is a numerical attribute, the bounded Laplace distribution parameter φ j , the range [ a j, b j], equinox t 1, ..., using a t Kj-1, calculates the transition probability matrix P j for each attribute a j (S110). In the case of a category attribute, it can be calculated using equation (1). In the case of a numerical attribute, calculation can be performed using Equation (3) (the specific method is described in Non-Patent Document 3). Error calculator 120 uses the frequency H X (x i), the sample data number N of combinations x i of the i-th attribute value of the transition probability matrix P j, the original data sample data for each attribute A j, the error V mn is calculated (S120).

以下、図5〜図6を参照して実施例1の誤差計算部120について説明する。図5は、実施例1の誤差計算部120の構成を示すブロック図である。図6は、実施例1の誤差計算部120の動作を示すフローチャートである。図5に示すように誤差計算部120は、撹乱データ確率密度関数計算部121と、フィッシャー情報行列計算部122と、分散共分散行列計算部123と、出力結果生成部124とを含む。   Hereinafter, the error calculation unit 120 according to the first embodiment will be described with reference to FIGS. FIG. 5 is a block diagram illustrating a configuration of the error calculation unit 120 according to the first embodiment. FIG. 6 is a flowchart illustrating the operation of the error calculation unit 120 according to the first embodiment. As shown in FIG. 5, the error calculation unit 120 includes a disturbance data probability density function calculation unit 121, a Fisher information matrix calculation unit 122, a variance covariance matrix calculation unit 123, and an output result generation unit 124.

撹乱データ確率密度関数計算部121は、遷移確率行列計算部110が計算した遷移確率行列P(1≦j≦M)と撹乱データ再構築誤差推定装置100への入力であるサンプルデータ数Nと度数H(x)(1≦i≦|A|)を用いて式(11)により確率密度関数P(y)(1≦k≦|A|)を計算する(S121)。フィッシャー情報行列計算部122は、遷移確率行列計算部110が計算した遷移確率行列P(1≦j≦M)と撹乱データ確率密度関数計算部121が計算した確率密度関数P(y)(1≦k≦|A|)とサンプルデータ数Nを用いて式(12)によりフィッシャー情報行列Iの各要素Iij(1≦i,j≦|A|)を計算する(S122)。分散共分散行列計算部123は、フィッシャー情報行列計算部122が計算したフィッシャー情報行列Iの逆行列を分散共分散行列Vとして計算する(S123)。逆行列はガウス消去法などを用いて求めればよい。出力結果生成部124は、撹乱データ再構築誤差推定装置100への入力であるm、n(1≦m,n≦|A|)に対して分散共分散行列Vのm行n列の要素Vmnを抽出し、出力する(S124)。Vmnはxとxの共分散(分散)である。 The disturbance data probability density function calculation unit 121 includes the transition probability matrix P j (1 ≦ j ≦ M) calculated by the transition probability matrix calculation unit 110 and the number N of sample data that is input to the disturbance data reconstruction error estimation device 100. Using the frequency H X (x i ) (1 ≦ i ≦ | A |), the probability density function P Y (y k ) (1 ≦ k ≦ | A |) is calculated by equation (11) (S121). The Fisher information matrix calculation unit 122 includes a transition probability matrix P j (1 ≦ j ≦ M) calculated by the transition probability matrix calculation unit 110 and a probability density function P Y (y k ) calculated by the disturbance data probability density function calculation unit 121. Each element I ij (1 ≦ i, j ≦ | A |) of the Fischer information matrix I is calculated by Equation (12) using (1 ≦ k ≦ | A |) and the number of sample data N (S122). The variance-covariance matrix calculation unit 123 calculates an inverse matrix of the Fisher information matrix I calculated by the Fisher information matrix calculation unit 122 as a variance-covariance matrix V (S123). The inverse matrix may be obtained using a Gaussian elimination method or the like. The output result generation unit 124 is an element V of m rows and n columns of the variance-covariance matrix V with respect to m and n (1 ≦ m, n ≦ | A |) that are inputs to the disturbance data reconstruction error estimation device 100. mn is extracted and output (S124). V mn is the covariance of x m and x n (dispersion).

実施例1の発明では、Pと最尤推定法で求めたP^と等価なヒストグラム間の誤差を分散・共分散として定義し、分散共分散行列を計算することにより、P^を推定することなく、誤差を推定できるようになる。これにより、従来は困難であった、元データの生成分布を表す確率密度関数Pと再構築元データの生成分布を表す確率密度関数P^の間に生じる誤差を指定した範囲に収めるような、撹乱再構築処理を行うことが可能になる。 In the invention of Example 1, by defining the error between P ^ X equivalent histogram obtained in P X and maximum likelihood estimation method as covariance, calculating the variance-covariance matrix, the P ^ X The error can be estimated without estimation. Thus, conventionally it has been difficult, to fit in the specified range errors caused during the probability density function P ^ X representing the generated distribution of the probability density function P X and reconstruction based on data representing the generated distribution of the original data It is possible to perform a disturbance reconstruction process.

実施例1では、フィッシャー情報行列Iを用いて分散・共分散を計算した。この方法では分散または共分散の値を1つ求めるためにも、Iの逆行列を計算する必要があり、空間計算量がO(|A|)、時間計算量がO(|A|)必要となる。属性の数Mが増えるほど指数的に|A|が増えるため、計算がたちまち困難になる。 In Example 1, the variance / covariance was calculated using the Fisher information matrix I. In this method, in order to obtain one variance or covariance value, it is necessary to calculate an inverse matrix of I, the spatial complexity is O (| A | 2 ), and the time complexity is O (| A | 3 ) Required. Since | A | increases exponentially as the number M of attributes increases, the calculation becomes difficult.

そこで、実施例2では、空間計算量、時間計算量ともに効率良く計算するために、各属性Aの遷移確率行列Pのクロネッカー積を用いた遷移確率行列Pの表現に基づいて分散・共分散を計算する方法について説明する。 Therefore, in the second embodiment, in order to efficiently calculate both the space calculation amount and the time calculation amount, the distribution / cooperation is based on the expression of the transition probability matrix P using the Kronecker product of the transition probability matrix P j of each attribute A j. A method for calculating the variance will be described.

式(12)と式(5)を用いて、式(8)を変形すると、

Figure 2017126028
ここで、1はすべての要素が1である|A|次元列ベクトル、pはP(y)を第k要素としてもつ|A|次元列ベクトル、./は要素ごとの除算(element-wise division)、diag(λ)はλ=(λ,…,λを対角成分とする対角行列を表す。 Using equation (12) and equation (5) to transform equation (8),
Figure 2017126028
Where 1 all elements are 1 | A | dimensional column vector, p y has a k-th element P Y (y k) | A | dimensional column vector. / Represents an element-wise division, and diag (λ) represents a diagonal matrix having λ = (λ 1 ,..., Λ L ) T as a diagonal component.

式(13)は、|A|×|A|のフィッシャー情報行列Iの逆行列を計算する必要がないことを示しており、|A|×|A|の行列Pの逆行列を計算すればよいことを示している。そのため、空間計算量はO(|A|)またはmax1≦j≦MO(|A) となる。 Equation (13) shows that it is not necessary to calculate the inverse matrix of the Fisher information matrix I of | A | × | A |, and the inverse matrix of the matrix P j of | A j | × | A j | It shows that it only has to be calculated. Therefore, the amount of space calculation is O (| A |) or max 1 ≦ j ≦ MO (| A j | 2 ).

例えば、Vmnを求める場合は、以下のようにすればよい。

Figure 2017126028
ここで、idx(m,j)、idx(n,j)は、m番目の属性値の組み合わせxの属性Aの要素に対応する遷移確率行列Pの列番号、n番目の属性値の組み合わせxの属性Aの要素に対応する遷移確率行列Pの列番号を表し、P −1[:,idx(m,j)]、P −1[:,idx(n,j)]は、行列P −1の第idx(m,j)列のベクトル、行列P −1の第idx(n,j)列のベクトルを表す。*は、ベクトル同士の要素積を表す。なお、Q、Qはいずれも|A|×1の行列(つまり、|A|次元列ベクトル)となっている。 For example, when V mn is obtained, the following may be performed.
Figure 2017126028
Here, idx (m, j), idx (n, j) is, m-th attribute value combination x m attribute A j transition probability matrix P j column numbers that correspond to elements of, n th attribute values Represents the column number of the transition probability matrix P j corresponding to the element of the attribute A j of the combination x n of P j −1 [:, idx (m, j)], P j −1 [:, idx (n, j)] represents the idx (m matrices P j -1, j) column vector, the vector of the idx (n, j) column of the matrix P j -1. * Represents an element product between vectors. Note that Q 1 and Q 2 are both | A | × 1 matrices (that is, | A | dimensional column vectors).

図1の例を考えると、idx(2,2)は、2番目の属性値の組み合わせx=(男性,開発者)の属性Aの要素である“開発者”に対応する遷移確率行列Pの列番号を示す。ここで、Aの要素のナンバリングを研究員、開発者、医者に対して、1、2、3とすると、idx(2,2)=2となる。 Considering the example of FIG. 1, idx (2, 2) is a transition probability matrix corresponding to “developer” which is an element of attribute A 2 of the second attribute value combination x 2 = (male, developer). indicate the column number of the P 2. Here, researcher of the numbering of the A 2 element, the developer, to the doctor, and the 1, 2, 3, and idx (2,2) = 2.

この場合、時間計算量はO(|A|)またはmax1≦j≦MO(|A)ですむ。 In this case, the time calculation amount may be O (| A |) or max 1 ≦ j ≦ MO (| A j | 3 ).

式(14)に基づく分散共分散計算アルゴリズムを図7に示す。入力は図2の分散共分散計算アルゴリズムと同じである。   A variance-covariance calculation algorithm based on Expression (14) is shown in FIG. The input is the same as the variance-covariance calculation algorithm of FIG.

S110、S121では、実施例1同様、遷移確率行列P、確率密度関数P(y)を計算する。S222では、遷移確率行列Pの逆行列P −1を計算する。S223では、式(14)を用いて求めたい誤差Vmnを計算する。 In S110 and S121, the transition probability matrix P j and the probability density function P Y (y k ) are calculated as in the first embodiment. In S222, an inverse matrix P j −1 of the transition probability matrix P j is calculated. In S223, the error V mn to be obtained is calculated using equation (14).

以下、図8を参照して実施例2の撹乱データ再構築誤差推定装置200について説明する。図8は、実施例2の撹乱データ再構築誤差推定装置200の構成を示すブロック図である。図8に示すように撹乱データ再構築誤差推定装置200は、遷移確率行列計算部110と、誤差計算部220を含む。   Hereinafter, the disturbance data reconstruction error estimation apparatus 200 according to the second embodiment will be described with reference to FIG. FIG. 8 is a block diagram illustrating a configuration of the disturbance data reconstruction error estimation apparatus 200 according to the second embodiment. As shown in FIG. 8, the disturbance data reconstruction error estimation device 200 includes a transition probability matrix calculation unit 110 and an error calculation unit 220.

遷移確率行列計算部110は、実施例1のものと同じである。誤差計算部220は、各属性Aの遷移確率行列P、元データのサンプルデータに対するi番目の属性値の組み合わせxの度数H(x)、サンプルデータ数Nを用いて、誤差Vmnを計算する。誤差Vmnの計算手順が実施例1の誤差計算部110と相違する。 The transition probability matrix calculation unit 110 is the same as that in the first embodiment. Error calculator 220 uses the frequency H X (x i), the sample data number N of combinations x i of the i-th attribute value of the transition probability matrix P j, the original data sample data for each attribute A j, the error V mn is calculated. The calculation procedure of the error V mn is different from the error calculation unit 110 of the first embodiment.

以下、図9〜図10を参照して実施例2の誤差計算部220について説明する。図9は、実施例2の誤差計算部220の構成を示すブロック図である。図10は、実施例2の誤差計算部220の動作を示すフローチャートである。図9に示すように誤差計算部220は、撹乱データ確率密度関数計算部121と、遷移確率行列逆行列計算部222と、分散共分散計算部223とを含む。   Hereinafter, the error calculation unit 220 according to the second embodiment will be described with reference to FIGS. 9 to 10. FIG. 9 is a block diagram illustrating a configuration of the error calculation unit 220 according to the second embodiment. FIG. 10 is a flowchart illustrating the operation of the error calculation unit 220 according to the second embodiment. As shown in FIG. 9, the error calculation unit 220 includes a disturbance data probability density function calculation unit 121, a transition probability matrix inverse matrix calculation unit 222, and a variance covariance calculation unit 223.

撹乱データ確率密度関数計算部121は、実施例1同様、式(11)により確率密度関数P(y)(1≦k≦|A|)を計算する(S121)。遷移確率行列逆行列計算部222は、遷移確率行列計算部110が計算した遷移確率行列P(1≦j≦M)について逆行列P −1を計算する(S223)。逆行列はガウス消去法などを用いて求めればよい。分散共分散計算部223は、遷移確率行列逆行列計算部222が計算した遷移確率行列の逆行列P −1(1≦j≦M)と撹乱データ確率密度関数計算部121が計算した確率密度関数P(y)(1≦k≦|A|)を用いて式(14)により誤差Vmnを計算する(S223)。Vmnはxとxの共分散(分散)である。 The disturbance data probability density function calculation unit 121 calculates the probability density function P Y (y k ) (1 ≦ k ≦ | A |) according to the equation (11) as in the first embodiment (S121). The transition probability matrix inverse matrix calculation unit 222 calculates the inverse matrix P j −1 for the transition probability matrix P j (1 ≦ j ≦ M) calculated by the transition probability matrix calculation unit 110 (S223). The inverse matrix may be obtained using a Gaussian elimination method or the like. The variance covariance calculation unit 223 includes the inverse matrix P j −1 (1 ≦ j ≦ M) of the transition probability matrix calculated by the transition probability matrix inverse matrix calculation unit 222 and the probability density calculated by the disturbance data probability density function calculation unit 121. Using the function P Y (y k ) (1 ≦ k ≦ | A |), the error V mn is calculated by the equation (14) (S223). V mn is the covariance of x m and x n (dispersion).

実施例2の発明では、|A|×|A|のフィッシャー情報行列Iの逆行列を計算する代わりに、|A|×|A|の遷移確率行列P(1≦j≦M)の逆行列を計算することにより、分散・共分散を計算する。つまり、分散・共分散の計算に必要な逆行列の計算をより小さいサイズの行列に還元して扱っている。これにより、実施例1に比して空間計算量、時間計算量とも抑えることが可能になる。具体的には、空間計算量をO(|A|)またはmax1≦j≦MO(|A)に、時間計算量をO(|A|)またはmax1≦j≦MO(|A)に抑えることができる。 In the invention of the second embodiment, instead of calculating the inverse matrix of the Fisher information matrix I of | A | × | A |, the transition probability matrix P j (1 ≦ j ≦ M) of | A j | × | A j | The variance / covariance is calculated by calculating the inverse matrix of. That is, the inverse matrix necessary for the calculation of variance / covariance is reduced to a smaller matrix. Thereby, it is possible to suppress both the space calculation amount and the time calculation amount as compared with the first embodiment. Specifically, the space calculation amount is O (| A |) or max 1 ≦ j ≦ M O (| A j | 2 ), and the time calculation amount is O (| A |) or max 1 ≦ j ≦ M O. (| A j | 3 ).

実施例1、2では、撹乱データの確率密度関数P(y)の算出に式(11)を用いた。式(11)の計算ではH(x)を必要とする。 In Examples 1 and 2, Equation (11) was used to calculate the probability density function P Y (y k ) of the disturbance data. The calculation of Expression (11) requires H X (x i ).

実施例3では、元データのサンプルデータに対するi番目の属性値の組み合わせxの度数H(x)を必要としない方法について説明する。 In Example 3, a method will be described which does not require the frequency H X combination x i of the i-th attribute value of sample data of the original data (x i).

実際に撹乱されたデータを用いて、P(y)を求める。つまり、N個のサンプルデータを撹乱後観測された撹乱データyの度数H(y)をNで割る。すなわち、

Figure 2017126028
とすることでP(y)を近似的に求めることができる。 P Y (y k ) is obtained using actually disturbed data. That is, the frequency H Y (y k ) of the disturbance data y k observed after disturbance of N sample data is divided by N. That is,
Figure 2017126028
By doing so, P Y (y k ) can be obtained approximately.

式(15)を用いてP(y)を計算する実施例1、実施例2の分散共分散計算アルゴリズムの変形例を図11、図12に示す。また、実施例1の誤差計算部120、実施例2の誤差計算部220の変形例である実施例3の誤差計算部320、誤差計算部325をそれぞれ図13、図14に示す。誤差計算部120と誤差計算部320の相違点、誤差計算部220と誤差計算部325の相違点は、撹乱データ確率密度関数計算部121の代わりに撹乱データ確率密度関数計算部321を用いている点である。撹乱データ確率密度関数計算部321はH(y)及びNを入力として式(15)に基づいて確率密度関数P(y)(1≦k≦|A|)を計算する。 FIG. 11 and FIG. 12 show modified examples of the variance-covariance calculation algorithm of Example 1 and Example 2 that calculate P Y (y k ) using Expression (15). Further, an error calculation unit 320 and an error calculation unit 325 of Example 3 which are modifications of the error calculation unit 120 of Example 1 and the error calculation unit 220 of Example 2 are shown in FIGS. 13 and 14, respectively. The difference between the error calculation unit 120 and the error calculation unit 320 and the difference between the error calculation unit 220 and the error calculation unit 325 use a disturbance data probability density function calculation unit 321 instead of the disturbance data probability density function calculation unit 121. Is a point. The disturbance data probability density function calculation unit 321 calculates the probability density function P Y (y k ) (1 ≦ k ≦ | A |) based on the equation (15) with H Y (y k ) and N as inputs.

実施例3の発明では、H(x)の代わりにH(y)を用いてP(y)を近似的に計算する。これにより、式(11)を用いることなく、簡便に分散・共分散を計算することが可能となる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
In the invention of Embodiment 3, P Y (y k ) is approximately calculated using H Y (y k ) instead of H X (x i ). Thereby, it is possible to easily calculate the variance / covariance without using the equation (11).
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。   The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。   In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。   As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

Claims (8)

Mを撹乱対象となるデータである元データの属性の数、Aをj番目の属性(ただし、jは1≦j≦Mなる整数)とし、
属性Aに対する撹乱は、属性Aがカテゴリ属性である場合は維持確率をρとする維持置換撹乱、属性Aが数値属性(その値域を[a,b] (ただし、a,bはa≦bを満たす実数)とする)である場合は有界ラプラス分布のパラメータをφとする有界ラプラスノイズ加算を前記値域[a,b]の分割I=[t,t]、I=[t,t]、…、IKj=[tKj−1,tKj](ただし、t(=a)<t<…<tKj(=b)、以下、t、t、…、tKjを分点という)を用いて量子化した量子化有界ラプラスノイズ加算であるとし、
|A|を|A|=|A|×…×|A|(ただし、属性Aが数値属性の場合は|A|=K)なる整数、x(1≦i≦|A|)を元データのi番目の属性値の組み合わせ、Nを元データのサンプルデータ数、H(x)を前記サンプルデータに出現するxの度数とし、
前記サンプルデータ数N、前記度数H(x)から元データと再構築元データの誤差を推定する撹乱データ再構築誤差推定装置であって、
属性Aがカテゴリ属性である場合は前記維持確率ρと前記|A|を用いて算出される属性値vが属性値vに変わる条件付き確率PY|X Aj(v|v)、属性Aが数値属性である場合は前記パラメータφと前記値域[a,b]と前記分点t、…、tKj−1を用いて算出される部分区間Iが部分区間Ik’に変わる条件付き確率PY|X Aj(Ik’|I)(1≦k,k’≦|K|)を用いて、遷移確率行列Pを計算する遷移確率行列計算部と、
前記サンプルデータ数N、前記度数H(x)(1≦i≦|A|)、前記遷移確率行列P(1≦j≦M)を用いて、xの分散(1≦m,n≦|A|、m=n)またはxとxの共分散(1≦m,n≦|A|、m≠n)を前記誤差として計算する誤差計算部と
を含む撹乱データ再構築誤差推定装置。
M is the number of attributes of the original data that is the disturbance target data, A j is the jth attribute (where j is an integer 1 ≦ j ≦ M),
Disturbance for the attribute A j, if the attribute A j is the category attribute maintained substituted disturbance to maintain probability and [rho j, attribute A j is a numeric attribute (the value range [a j, b j] (but, a j , B j is a real number satisfying a j ≦ b j )), the bounded Laplace noise addition with the parameter of the bounded Laplace distribution as φ j is the division I 1 of the range [a j , b j ] = [T 0 , t 1 ], I 2 = [t 1 , t 2 ],..., I Kj = [t Kj−1 , t Kj ] (where t 0 (= a j ) <t 1 <... < Quantized bounded Laplace noise addition quantized using t Kj (= b j ), hereinafter referred to as t 0 , t 1 ,.
| A | is an integer of | A | = | A 1 | ×... || A M | (where, if attribute A j is a numerical attribute, | A j | = K j ), x i (1 ≦ i ≦ | A |) is the combination of the i-th attribute value of the original data, N is the number of sample data of the original data, and H X (x i ) is the frequency of x i appearing in the sample data,
A disturbance data reconstruction error estimation device for estimating an error between the original data and the reconstructed original data from the sample data number N and the frequency H X (x i ),
When the attribute A j is a category attribute, the conditional probability P Y | X Aj (v | v where the attribute value v calculated using the maintenance probability ρ j and the | A j | is changed to the attribute value v ′. ), When the attribute A j is a numerical attribute, the partial interval I k calculated using the parameter φ j , the range [a j , b j ], and the dividing points t 1 ,..., T Kj−1 is Transition probability for calculating the transition probability matrix P j using the conditional probability P Y | X Aj (I k ′ | I k ) (1 ≦ k, k ′ ≦ | K j |) that changes to the partial interval I k ′ A matrix calculator,
Using the sample data number N, the frequency H X (x i ) (1 ≦ i ≦ | A |), and the transition probability matrix P j (1 ≦ j ≦ M), the variance of x m (1 ≦ m, n ≦ | a |, m = n) or x m and x n covariance (1 ≦ m, n ≦ | a |, disturbance data reconstruction including the error calculator for calculating a m ≠ n) as the error Error estimation device.
請求項1に記載の撹乱データ再構築誤差推定装置であって、
(1≦k≦|A|)を撹乱データのk番目の属性値の組み合わせとし、
前記誤差計算部は、
前記サンプルデータ数N、前記度数H(x)(1≦i≦|A|)、前記遷移確率行列P(1≦j≦M)を用いて、撹乱データの確率密度関数P(y)(1≦k≦|A|)を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列P(1≦j≦M)、前記確率密度関数P(y)(1≦k≦|A|)、前記サンプルデータ数Nを用いてフィッシャー情報行列Iを計算するフィッシャー情報行列計算部と、
前記フィッシャー情報行列Iの逆行列を分散共分散行列Vとして計算する分散共分散行列計算部と、
前記分散共分散行列Vのm行n列の要素Vmn(1≦m,n≦|A|)を前記xの分散(1≦m,n≦|A|、m=n)または前記xとxの共分散(1≦m,n≦|A|、m≠n)として出力する出力結果生成部と
を含む撹乱データ再構築誤差推定装置。
The disturbance data reconstruction error estimation device according to claim 1,
Let y k (1 ≦ k ≦ | A |) be the combination of the k th attribute value of the disturbance data,
The error calculator is
Using the sample data number N, the frequency H X (x i ) (1 ≦ i ≦ | A |), and the transition probability matrix P j (1 ≦ j ≦ M), the probability density function P Y ( y k ) (1 ≦ k ≦ | A |), a disturbance data probability density function calculation unit;
Fisher calculating a Fisher information matrix I using the transition probability matrix P j (1 ≦ j ≦ M), the probability density function P Y (y k ) (1 ≦ k ≦ | A |), and the number N of sample data. An information matrix calculator,
A variance-covariance matrix calculator that calculates an inverse matrix of the Fisher information matrix I as a variance-covariance matrix V;
Element V mn (1 ≦ m, n ≦ | A |) of m rows and n columns of the covariance matrix V of the x m of the dispersion (1 ≦ m, n ≦ | A |, m = n) or the x A disturbance data reconstruction error estimation device including an output result generation unit that outputs m and xn as covariance (1 ≦ m, n ≦ | A |, m ≠ n).
請求項1に記載の撹乱データ再構築誤差推定装置であって、
(1≦k≦|A|)を撹乱データのk番目の属性値の組み合わせとし、
前記誤差計算部は、
前記サンプルデータ数N、前記度数H(x)(1≦i≦|A|)、前記遷移確率行列P(1≦j≦M)を用いて、撹乱データの確率密度関数P(y)(1≦k≦|A|)を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列P(1≦j≦M)の逆行列P −1を計算する遷移確率行列逆行列計算部と、
前記確率密度関数P(y)(1≦k≦|A|)と前記逆行列P −1(1≦j≦M)を用いて、前記xの分散(1≦m,n≦|A|、m=n)または前記xとxの共分散(1≦m,n≦|A|、m≠n)を計算する分散共分散計算部と
を含む撹乱データ再構築誤差推定装置。
The disturbance data reconstruction error estimation device according to claim 1,
Let y k (1 ≦ k ≦ | A |) be the combination of the k th attribute value of the disturbance data,
The error calculator is
Using the sample data number N, the frequency H X (x i ) (1 ≦ i ≦ | A |), and the transition probability matrix P j (1 ≦ j ≦ M), the probability density function P Y ( y k ) (1 ≦ k ≦ | A |), a disturbance data probability density function calculation unit;
A transition probability matrix inverse matrix calculator that calculates an inverse matrix P j −1 of the transition probability matrix P j (1 ≦ j ≦ M);
Using the probability density function P Y (y k ) (1 ≦ k ≦ | A |) and the inverse matrix P j −1 (1 ≦ j ≦ M), the variance of x m (1 ≦ m, n ≦ | a |, m = n) or the x m and x covariance n (1 ≦ m, n ≦ | a |, m ≠ n) disturbance data reconstruction error estimation and a variance-covariance calculation unit for calculating the apparatus.
Mを撹乱対象となるデータである元データの属性の数、Aをj番目の属性(ただし、jは1≦j≦Mなる整数)とし、
属性Aに対する撹乱は、属性Aがカテゴリ属性である場合は維持確率をρとする維持置換撹乱、属性Aが数値属性(その値域を[a,b] (ただし、a,bはa≦bを満たす実数)とする)である場合は有界ラプラス分布のパラメータをφとする有界ラプラスノイズ加算を前記値域[a,b]の分割I=[t,t]、I=[t,t]、…、IKj=[tKj−1,tKj](ただし、t(=a)<t<…<tKj(=b)、以下、t、t、…、tKjを分点という)を用いて量子化した量子化有界ラプラスノイズ加算であるとし、
|A|を|A|=|A|×…×|A|(ただし、属性Aが数値属性の場合は|A|=K)なる整数、y(1≦k≦|A|)を撹乱データのk番目の属性値の組み合わせ、Nを元データのサンプルデータ数、H(y)を前記サンプルデータを撹乱した撹乱データに出現するyの度数とし、
前記サンプルデータ数N、前記度数H(y)から元データと再構築元データの誤差を推定する撹乱データ再構築誤差推定装置であって、
属性Aがカテゴリ属性である場合は前記維持確率ρと前記|A|を用いて算出される属性値vが属性値vに変わる条件付き確率PY|X Aj(v|v)、属性Aが数値属性である場合は前記パラメータφと前記値域[a,b]と前記分点t、…、tKj−1を用いて算出される部分区間Iが部分区間Ik’に変わる条件付き確率PY|X Aj(Ik’|I)(1≦k,k’≦|K|)を用いて、遷移確率行列Pを計算する遷移確率行列計算部と、
前記サンプルデータ数N、前記度数H(y)(1≦k≦|A|)、前記遷移確率行列P(1≦j≦M)を用いて、xの分散(1≦m,n≦|A|、m=n)またはxとxの共分散(1≦m,n≦|A|、m≠n)を前記誤差として計算する誤差計算部と
を含む撹乱データ再構築誤差推定装置。
M is the number of attributes of the original data that is the disturbance target data, A j is the jth attribute (where j is an integer 1 ≦ j ≦ M),
Disturbance for the attribute A j, if the attribute A j is the category attribute maintained substituted disturbance to maintain probability and [rho j, attribute A j is a numeric attribute (the value range [a j, b j] (but, a j , B j is a real number satisfying a j ≦ b j )), the bounded Laplace noise addition with the parameter of the bounded Laplace distribution as φ j is the division I 1 of the range [a j , b j ] = [T 0 , t 1 ], I 2 = [t 1 , t 2 ],..., I Kj = [t Kj−1 , t Kj ] (where t 0 (= a j ) <t 1 <... < Quantized bounded Laplace noise addition quantized using t Kj (= b j ), hereinafter referred to as t 0 , t 1 ,.
| A | is an integer of | A | = | A 1 | ×... || A M | (where, if attribute A j is a numerical attribute, | A j | = K j ), y k (1 ≦ k ≦ | A |) is a combination of the k-th attribute values of the disturbance data, N is the number of sample data of the original data, and H Y (y k ) is the frequency of y k appearing in the disturbance data obtained by disturbing the sample data,
A disturbance data reconstruction error estimation device for estimating an error between original data and reconstructed original data from the number of sample data N and the frequency H Y (y k ),
When the attribute A j is a category attribute, the conditional probability P Y | X Aj (v | v where the attribute value v calculated using the maintenance probability ρ j and the | A j | is changed to the attribute value v ′. ), When the attribute A j is a numerical attribute, the partial interval I k calculated using the parameter φ j , the range [a j , b j ], and the dividing points t 1 ,..., T Kj−1 is Transition probability for calculating the transition probability matrix P j using the conditional probability P Y | X Aj (I k ′ | I k ) (1 ≦ k, k ′ ≦ | K j |) that changes to the partial interval I k ′ A matrix calculator,
Using the sample data number N, the frequency H Y (y k ) (1 ≦ k ≦ | A |), and the transition probability matrix P j (1 ≦ j ≦ M), the variance of x m (1 ≦ m, n ≦ | a |, m = n) or x m and x n covariance (1 ≦ m, n ≦ | a |, disturbance data reconstruction including the error calculator for calculating a m ≠ n) as the error Error estimation device.
請求項4に記載の撹乱データ再構築誤差推定装置であって、
前記誤差計算部は、
前記サンプルデータ数N、前記度数H(y)(1≦k≦|A|)を用いて、撹乱データの確率密度関数P(y)(1≦k≦|A|)を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列P(1≦j≦M)、前記確率密度関数P(y)(1≦k≦|A|)、前記サンプルデータ数Nを用いてフィッシャー情報行列Iを計算するフィッシャー情報行列計算部と、
前記フィッシャー情報行列Iの逆行列を分散共分散行列Vとして計算する分散共分散行列計算部と、
前記分散共分散行列Vのm行n列の要素Vmn(1≦m,n≦|A|)を前記xの分散(1≦m,n≦|A|、m=n)または前記xとxの共分散(1≦m,n≦|A|、m≠n)として出力する出力結果生成部と
を含む撹乱データ再構築誤差推定装置。
The disturbance data reconstruction error estimation device according to claim 4,
The error calculator is
The probability density function P Y (y k ) (1 ≦ k ≦ | A |) of the disturbance data is calculated using the sample data number N and the frequency H Y (y k ) (1 ≦ k ≦ | A |). A disturbance data probability density function calculation unit,
Fisher calculating a Fisher information matrix I using the transition probability matrix P j (1 ≦ j ≦ M), the probability density function P Y (y k ) (1 ≦ k ≦ | A |), and the number N of sample data. An information matrix calculator,
A variance-covariance matrix calculator that calculates an inverse matrix of the Fisher information matrix I as a variance-covariance matrix V;
Element V mn (1 ≦ m, n ≦ | A |) of m rows and n columns of the covariance matrix V of the x m of the dispersion (1 ≦ m, n ≦ | A |, m = n) or the x A disturbance data reconstruction error estimation device including an output result generation unit that outputs m and xn as covariance (1 ≦ m, n ≦ | A |, m ≠ n).
請求項4に記載の撹乱データ再構築誤差推定装置であって、
前記誤差計算部は、
前記サンプルデータ数N、前記度数H(y)(1≦k≦|A|)を用いて、撹乱データの確率密度関数P(y)(1≦k≦|A|)を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列P(1≦j≦M)の逆行列P −1を計算する遷移確率行列逆行列計算部と、
前記確率密度関数P(y)(1≦k≦|A|)と前記逆行列P −1(1≦j≦M)を用いて、前記xの分散(1≦m,n≦|A|、m=n)または前記xとxの共分散(1≦m,n≦|A|、m≠n)を計算する分散共分散計算部と
を含む撹乱データ再構築誤差推定装置。
The disturbance data reconstruction error estimation device according to claim 4,
The error calculator is
The probability density function P Y (y k ) (1 ≦ k ≦ | A |) of the disturbance data is calculated using the sample data number N and the frequency H Y (y k ) (1 ≦ k ≦ | A |). A disturbance data probability density function calculation unit,
A transition probability matrix inverse matrix calculator that calculates an inverse matrix P j −1 of the transition probability matrix P j (1 ≦ j ≦ M);
Using the probability density function P Y (y k ) (1 ≦ k ≦ | A |) and the inverse matrix P j −1 (1 ≦ j ≦ M), the variance of x m (1 ≦ m, n ≦ | a |, m = n) or the x m and x covariance n (1 ≦ m, n ≦ | a |, m ≠ n) disturbance data reconstruction error estimation and a variance-covariance calculation unit for calculating the apparatus.
Mを撹乱対象となるデータである元データの属性の数、Aをj番目の属性(ただし、jは1≦j≦Mなる整数)とし、
属性Aに対する撹乱は、属性Aがカテゴリ属性である場合は維持確率をρとする維持置換撹乱、属性Aが数値属性(その値域を[a,b] (ただし、a,bはa≦bを満たす実数)とする)である場合は有界ラプラス分布のパラメータをφとする有界ラプラスノイズ加算を前記値域[a,b]の分割I=[t,t]、I=[t,t]、…、IKj=[tKj−1,tKj](ただし、t(=a)<t<…<tKj(=b)、以下、t、t、…、tKjを分点という)を用いて量子化した量子化有界ラプラスノイズ加算であるとし、
|A|を|A|=|A|×…×|A|(ただし、属性Aが数値属性の場合は|A|=K)なる整数、x(1≦i≦|A|)を元データのi番目の属性値の組み合わせ、Nを元データのサンプルデータ数、H(x)を前記サンプルデータに出現するxの度数とし、
前記サンプルデータ数N、前記度数H(x)から元データと再構築元データの誤差を推定する撹乱データ再構築誤差推定方法であって、
属性Aがカテゴリ属性である場合は前記維持確率ρと前記|A|を用いて算出される属性値vが属性値vに変わる条件付き確率PY|X Aj(v|v)、属性Aが数値属性である場合は前記パラメータφと前記値域[a,b]と前記分点t、…、tKj−1を用いて算出される部分区間Iが部分区間Ik’に変わる条件付き確率PY|X Aj(Ik’|I)(1≦k,k’≦|K|)を用いて、遷移確率行列Pを計算する遷移確率行列計算ステップと、
前記サンプルデータ数N、前記度数H(x)(1≦i≦|A|)、前記遷移確率行列P(1≦j≦M)を用いて、xの分散(1≦m,n≦|A|、m=n)またはxとxの共分散(1≦m,n≦|A|、m≠n)を前記誤差として計算する誤差計算ステップと
を実行する撹乱データ再構築誤差推定方法。
M is the number of attributes of the original data that is the disturbance target data, A j is the jth attribute (where j is an integer 1 ≦ j ≦ M),
Disturbance for the attribute A j, if the attribute A j is the category attribute maintained substituted disturbance to maintain probability and [rho j, attribute A j is a numeric attribute (the value range [a j, b j] (but, a j , B j is a real number satisfying a j ≦ b j )), the bounded Laplace noise addition with the parameter of the bounded Laplace distribution as φ j is the division I 1 of the range [a j , b j ] = [T 0 , t 1 ], I 2 = [t 1 , t 2 ],..., I Kj = [t Kj−1 , t Kj ] (where t 0 (= a j ) <t 1 <... < Quantized bounded Laplace noise addition quantized using t Kj (= b j ), hereinafter referred to as t 0 , t 1 ,.
| A | is an integer of | A | = | A 1 | ×... || A M | (where, if attribute A j is a numerical attribute, | A j | = K j ), x i (1 ≦ i ≦ | A |) is the combination of the i-th attribute value of the original data, N is the number of sample data of the original data, and H X (x i ) is the frequency of x i appearing in the sample data,
A disturbance data reconstruction error estimation method for estimating an error between the original data and the reconstructed original data from the sample data number N and the frequency H X (x i ),
When the attribute A j is a category attribute, the conditional probability P Y | X Aj (v | v where the attribute value v calculated using the maintenance probability ρ j and the | A j | is changed to the attribute value v ′. ), When the attribute A j is a numerical attribute, the partial interval I k calculated using the parameter φ j , the range [a j , b j ], and the dividing points t 1 ,..., T Kj−1 is Transition probability for calculating the transition probability matrix P j using the conditional probability P Y | X Aj (I k ′ | I k ) (1 ≦ k, k ′ ≦ | K j |) that changes to the partial interval I k ′ Matrix calculation step;
Using the sample data number N, the frequency H X (x i ) (1 ≦ i ≦ | A |), and the transition probability matrix P j (1 ≦ j ≦ M), the variance of x m (1 ≦ m, n ≦ | a |, m = n) or x covariance of m and x n (1 ≦ m, n ≦ | a |, re disturbance data to perform the error calculation step of calculating the m ≠ n) as the error Construction error estimation method.
請求項1ないし6のいずれか1項に記載の撹乱データ再構築誤差推定装置としてコンピュータを機能させるためのプログラム。   The program for functioning a computer as a disturbance data reconstruction error estimation apparatus of any one of Claim 1 thru | or 6.
JP2016006357A 2016-01-15 2016-01-15 Disturbance data reconstruction error estimation device, disturbance data reconstruction error estimation method, program Active JP6532829B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016006357A JP6532829B2 (en) 2016-01-15 2016-01-15 Disturbance data reconstruction error estimation device, disturbance data reconstruction error estimation method, program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016006357A JP6532829B2 (en) 2016-01-15 2016-01-15 Disturbance data reconstruction error estimation device, disturbance data reconstruction error estimation method, program

Publications (2)

Publication Number Publication Date
JP2017126028A true JP2017126028A (en) 2017-07-20
JP6532829B2 JP6532829B2 (en) 2019-06-19

Family

ID=59363964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016006357A Active JP6532829B2 (en) 2016-01-15 2016-01-15 Disturbance data reconstruction error estimation device, disturbance data reconstruction error estimation method, program

Country Status (1)

Country Link
JP (1) JP6532829B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019073912A1 (en) * 2017-10-13 2019-04-18 日本電信電話株式会社 Pseudo-data generating device, method and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015230358A (en) * 2014-06-04 2015-12-21 日本電信電話株式会社 Derangement restructuring system, derangement device, restructuring device, derangement restructuring method, and program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015230358A (en) * 2014-06-04 2015-12-21 日本電信電話株式会社 Derangement restructuring system, derangement device, restructuring device, derangement restructuring method, and program

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
坂野 鋭: "相関保存Pk匿名化法", 2015年 暗号と情報セキュリティシンポジウム, vol. 3B1−1, JPN6018044620, 20 January 2015 (2015-01-20), JP, pages 1 - 6, ISSN: 0004036768 *
長谷川 聡 ほか: "多変量解析のための処理効率の良い再構築法", コンピュータセキュリティシンポジウム2015 論文集, vol. Vol.2015 No.3,2B3−2, JPN6018044625, 14 October 2015 (2015-10-14), JP, pages 560 - 567, ISSN: 0004036769 *
長谷川 聡: "有限混合モデルを用いた新たな再構築法", 情報処理学会 研究報告 インターネットと運用技術(IOT), vol. Vol.2015-IOT-29 No.27, JPN6018044621, 14 May 2015 (2015-05-14), JP, pages 1 - 7, ISSN: 0004036770 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019073912A1 (en) * 2017-10-13 2019-04-18 日本電信電話株式会社 Pseudo-data generating device, method and program
JPWO2019073912A1 (en) * 2017-10-13 2020-10-22 日本電信電話株式会社 Pseudo data generator, its method, and program

Also Published As

Publication number Publication date
JP6532829B2 (en) 2019-06-19

Similar Documents

Publication Publication Date Title
Sirimongkolkasem et al. On regularisation methods for analysis of high dimensional data
Kharin Robustness in statistical forecasting
Su et al. Stochastic gradient boosting frequency-severity model of insurance claims
Caprara et al. Solving the temporal knapsack problem via recursive Dantzig–Wolfe reformulation
Clark et al. Investigating Growth-at-Risk Using a Multicountry Non-parametric Quantile Factor Model
Abushal et al. Statistical inferences of Burr XII lifetime models under joint Type-1 competing risks samples
Tong et al. Learning fractional white noises in neural stochastic differential equations
JP2017126028A (en) Disturbance data reconstruction error estimation device, disturbance data reconstruction error estimation method and program
Hong Inference in semiparametric conditional moment models with partial identification
US20210287573A1 (en) Secret batch approximation system, secure computation device, secret batch approximation method, and program
Nakano Hybrid algorithm of ensemble transform and importance sampling for assimilation of non-Gaussian observations
Drechsler et al. 30 years of synthetic data
JP6812569B2 (en) Pseudo data generator, its method, and program
JP2018055057A (en) Data disturbing device, method and program
Pircalabelu et al. Mixed scale joint graphical lasso
Cuevas et al. Otsu and Kapur segmentation based on harmony search optimization
Kayanan et al. Performance of LASSO and Elastic net estimators in Misspecified Linear Regression Model
Chang et al. A hybrid data-driven-physics-constrained Gaussian process regression framework with deep kernel for uncertainty quantification
JP6505574B2 (en) Disturbance data reconstruction device, disturbance data reconstruction method, program
Kuzina et al. Discouraging posterior collapse in hierarchical Variational Autoencoders using context
McElroy et al. Maximum entropy extreme‐value seasonal adjustment
JP6316773B2 (en) Statistical data reconstruction device, statistical data reconstruction method, program
JP7290169B2 (en) Discrimination Estimation Risk Evaluation Device, Discrimination Estimation Risk Evaluation Method, and Program
Zhang et al. On the use of a new probabilistic model and machine learning methods with applications to reliability and music engineering
Segal et al. P-splines with an 1 penalty for repeated measures

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190522

R150 Certificate of patent or registration of utility model

Ref document number: 6532829

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150