JP6532829B2

JP6532829B2 - 撹乱データ再構築誤差推定装置、撹乱データ再構築誤差推定方法、プログラム

Info

Publication number: JP6532829B2
Application number: JP2016006357A
Authority: JP
Inventors: 長谷川　聡; 聡長谷川; 浩気濱田; 彰伍正木; 亮菊池
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-01-15
Filing date: 2016-01-15
Publication date: 2019-06-19
Anticipated expiration: 2036-01-15
Also published as: JP2017126028A

Description

本発明は、データベースにおける個別データを確率的手法により秘匿化したデータから個別データの統計値を推定する技術に関し、特に個別データと撹乱後再構築した個別データの誤差を推定するものに関する。

データベース中の元データを確率的手法により秘匿化することを撹乱という。また、秘匿化したデータ（以下、撹乱データという）から元データの統計値（以下、再構築データという）を推定することを再構築という。つまり、撹乱とは撹乱データからなる秘匿データベースを作成することであり、再構築とはこの秘匿データベースに対し統計分析を行い、再構築データを得ることである。

このような撹乱・再構築の技術として、維持置換撹乱（非特許文献１、非特許文献２、非特許文献４）、有界ラプラスノイズ加算（非特許文献３）がある。これらの技術における再構築処理では、撹乱データから再構築データを推定する際、様々な統計分析を可能にするために、元データの生成分布を表す確率密度関数の推定を行っている。確率密度関数を知ることはデータの生成規則を知ることと等価であり、あらゆる統計分析が可能となるからである。

非特許文献４の技術では、確率密度関数をヒストグラムとして表現し、元データの生成分布の推定を行っている。以後、「確率密度関数の推定」と「ヒストグラムの推定」は等価なものとして取り扱う。

非特許文献２、非特許文献３に従い、従来提案されている攪乱方法について説明する。そのために、まず、属性、カテゴリ属性、数値属性について例をまじえながら説明する。

撹乱対象となるデータ、つまり元データの属性の数をＭとする。また、属性はカテゴリ属性と数値属性が混在して含まれているものとする。カテゴリ属性の例としては、性別があり、その属性値の集合は｛男性、女性｝となる。数値属性の例としては、身長があり、その属性値の集合は｛ｔ｜ｔは０ｃｍ〜２００ｃｍ｝となる。

ｊ番目の属性（つまり、属性値の集合）をＡ_ｊと表し（１≦ｊ≦Ｍ）、すべての属性の集合をＡ＝Ａ_１×…×Ａ_Ｍとする。また、Ａ_ｊがカテゴリ属性の場合は集合Ａ_ｊの濃度、Ａ_ｊが数値属性の場合は数値属性の値の取り得る範囲（数値属性の値域）を分割する数（量子化する数）Ｋ_ｊのことをそれぞれ｜Ａ_ｊ｜で表す。さらに、｜Ａ｜＝｜Ａ_１｜×…×｜Ａ_Ｍ｜とする。先ほどの身長の例では、その値域は｛ｔ｜ｔは０ｃｍ〜２００ｃｍ｝であり、部分区間［０，２０］、［２０，４０］、…［１８０，２００］に分割（量子化）する場合、Ｋ_ｊ＝１０となる。このとき、｛［０，２０］、［２０，４０］、…［１８０，２００］｝を値域とする数値属性のことを量子化数値属性という。

図１に、Ａ_１、Ａ_２がそれぞれ性別、職業を表すカテゴリ属性である場合のＡ＝Ａ_１×Ａ_２のサンプルデータの例を示す。このとき、サンプルデータ数Ｎ＝１０、Ｍ＝２、Ａ_１＝｛男性、女性｝、Ａ_２＝｛研究員、開発者、医者｝、Ａ＝｛（男性，研究員）、（男性，開発者）、（男性，医者）、（女性，研究員）、（女性，開発者）、（女性，医者）｝、｜Ａ_１｜＝２、｜Ａ_２｜＝３、｜Ａ｜＝６となる。

Ａ_ｊの要素は、｛１、２、…、｜Ａ_ｊ｜｝でナンバリングされているものとする。Ａ_２の要素である研究員、開発者、医者に対して、１、２、３を割り当てることとすると、これがＡ_２の要素をナンバリングした例となる。Ａの要素についても、同様に｛１、２、…、｜Ａ｜｝でナンバリングされているものとする。例えば、ｘ_１＝（男性，研究員）、ｘ_２＝（男性，開発者）、ｘ_３＝（男性，医者）、ｘ_４＝（女性，研究員）、ｘ_５＝（女性，開発者）、ｘ_６＝（女性，医者）がＡの要素をナンバリングした例となる。また、ｘ_ｉをｉ番目の属性値の組み合わせと呼ぶ。

次に、いくつかの記号について説明する。Ｐ_Ｘ（ｘ）（ただし、ｘはＡの要素）は元データの確率密度関数、Ｐ_Ｙ（ｙ）（ただし、ｙはＡの要素）は撹乱データの確率密度関数を表すものとする。Ｐ_Ｘ（ｘ）、Ｐ_Ｙ（ｙ）はいずれも定義域をＡ＝Ａ_１×…×Ａ_Ｍ、値域を[０，１]とする関数である。なお、変数ｘ、ｙはＭ次元列ベクトルとして扱うこととする。また、条件付き確率Ｐ_Ｙ｜Ｘ（ｙ｜ｘ）は元データｘがランダムに攪乱されて撹乱データｙになる確率を表すものとする。

元データのサンプルデータは、確率密度Ｐ_Ｘ（ｘ）を持つ確率分布からＮ個サンプリングしたものとする。また、ｉ番目の属性値の組み合わせｘ_ｉ（１≦ｉ≦｜Ａ｜）に対し、Ｐ_Ｘ（ｘ_ｉ）はｉ番目の属性値の組み合わせｘ_ｉの度数をサンプルデータ数で割ったもの、Ｈ_Ｘ（ｘ_ｉ）はｉ番目の属性値の組み合わせｘ_ｉの度数を表す。したがって、Ｐ_Ｘ（ｘ_ｉ）＝Ｈ_Ｘ（ｘ_ｉ）／Ｎとなる。図１の例を考えると、ｘ_３＝（男性，医者）に対し、Ｐ_Ｘ（ｘ_３）＝２／１０、Ｈ_Ｘ（ｘ_３）＝２となる。

撹乱データについても同様の記号を用いることにする。すなわち、ｉ番目の属性値の組み合わせｙ_ｉ（１≦ｉ≦｜Ａ｜）に対し、Ｐ_Ｙ（ｙ_ｉ）はｉ番目の属性値の組み合わせｙ_ｉの度数をサンプルデータ数で割ったもの、Ｈ_Ｙ（ｙ_ｉ）はｉ番目の属性値の組み合わせｙ_ｉの度数を表す。

最後に、攪乱方法について説明する。撹乱データの生成に際し、カテゴリ属性に対しては非特許文献２の維持置換撹乱、数値属性に対しては非特許文献３の有界ラプラスノイズ加算を用いる。

（カテゴリ属性の撹乱方法）
カテゴリ属性に対しては、維持確率ρで属性値を維持し、１−ρの確率で属性値をランダムに変更することで、データを秘匿化する処理が行われる。すなわち、あるカテゴリ属性Ａ_ｊの属性値ｖが属性値ｖ^’に変わる条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（ｖ^’｜ｖ）は、属性Ａ_ｊの維持確率ρ_ｊを用いて

と表される（ｊは１≦ｊ≦Ｍを満たす整数）。先述の通り、｜Ａ_ｊ｜は集合Ａ_ｊの濃度を示す。

カテゴリ属性に対する撹乱では、この条件付き確率に従うランダムな処理が施される。また、属性Ａ_ｊの維持確率ρ_ｊは公開されるものとする。

条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（ｖ^’｜ｖ）は、｜Ａ_ｊ｜×｜Ａ_ｊ｜の行列Ｐ_ｊ（以下、Ｐ_ｊを遷移確率行列という）で表すことができる。遷移確率行列Ｐ_ｊは属性値ｖが属性値ｖ^’に変わる確率を行列で表したものであり、式（２）のように表現される。なお、遷移確率行列Ｐ_ｊの定義に際して、Ａ_ｊの要素のナンバリングを用いるとよい。

（数値属性の撹乱方法）
数値属性に対しては、属性値に有界ラプラス分布に従うノイズを付与する（つまり、有界ラプラスノイズ加算する）ことで撹乱を行う。有界ラプラス分布とは、台の上限と下限が定まっているラプラス分布のことであり、この有界ラプラス分布に従うノイズを付与することで、元データを秘匿化する。ある数値属性Ａ_ｊの属性値ｖが属性値ｖ^’に変わる条件付き確率密度Ｐ_Ｙ｜Ｘ ^Ａｊ（ｖ^’｜ｖ）は、属性Ａ_ｊの有界ラプラス分布のパラメータφ_ｊを用いて

となる（ｊは１≦ｊ≦Ｍを満たす整数）。ここでγ_ｊ（ｖ）はラプラス分布を有界にしたことによって生じる有界ラプラス分布を調整するための関数、[ａ_ｊ，ｂ_ｊ]は属性Ａ_ｊの値域（ただし、ａ_ｊ，ｂ_ｊはａ_ｊ≦ｂ_ｊを満たす実数）である。

数値属性に対する撹乱では、この条件付き確率密度に従うランダムな処理が施される。また、属性Ａ_ｊの有界ラプラス分布のパラメータφ_ｊは公開されるものとする。

非特許文献３に示す通り、区間[ａ_ｊ，ｂ_ｊ]を適当な数Ｋ_ｊ個の部分区間Ｉ_１,…,Ｉ_Ｋｊに分割し、部分区間Ｉ_ｋに含まれる属性値が部分区間Ｉ_ｋ’に含まれる属性値に変わる確率Ｐ_Ｙ｜Ｘ ^Ａｊ（Ｉ_ｋ’｜Ｉ_ｋ）（以下、部分区間Ｉ_ｋが部分区間Ｉ_ｋ’に変わる条件付き確率という）を用いて量子化することにより、有界ラプラスノイズ加算についても遷移確率行列Ｐ_ｊを定義することができる。

ただし、｜Ｉ_ｋ｜は区間の長さ、Δは部分区間Ｉ_ｋに含まれる属性値ｖを部分区間Ｉ_ｋ’に含まれる属性値にランダムに変えるランダム化アルゴリズムを表す。

つまり、遷移確率行列Ｐ_ｊは、部分区間Ｉ_ｋが部分区間Ｉ_ｋ’に変わる条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（Ｉ_ｋ’｜Ｉ_ｋ）をｋ行ｋ’列の要素とするＫ_ｊ×Ｋ_ｊ（＝｜Ａ_ｊ｜×｜Ａ_ｊ｜）の行列となる。

なお、区間[ａ_ｊ，ｂ_ｊ]をＫ_ｊ個の部分区間Ｉ_１,…,Ｉ_Ｋｊに等分割する場合、遷移確率行列Ｐ_ｊは、φ_ｊ、ａ_ｊ、ｂ_ｊ、Ｋ_ｊを用いて計算できる。一般に、区間[ａ_ｊ，ｂ_ｊ]の分割をＩ_１＝［ｔ_０，ｔ_１］、Ｉ_２＝［ｔ_１，ｔ_２］、…、Ｉ_Ｋｊ＝［ｔ_Ｋｊ−１，ｔ_Ｋｊ］（ｔ_０（＝ａ_ｊ）＜ｔ_１＜…＜ｔ_Ｋｊ（＝ｂ_ｊ））とすると、遷移確率行列Ｐ_ｊは、φ_ｊ、ｔ_０（＝ａ_ｊ）、ｔ_１、…、ｔ_Ｋｊ（＝ｂ_ｊ）を用いて計算できる。以下、ｔ_０、ｔ_１、…、ｔ_Ｋｊを区間[ａ_ｊ，ｂ_ｊ]の分割の分点という。

したがって、数値属性に対して量子化を行い条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（Ｉ_ｋ’｜Ｉ_ｋ）を定義することで、遷移確率行列を定義することが可能となり、カテゴリ属性、数値属性を共通の枠組みで扱えるようになる。

そこで、以降、数値属性については、適当な部分区間Ｉ_１,…,Ｉ_Ｋｊを用いて量子化がなされ、条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（Ｉ_ｋ’｜Ｉ_ｋ）が定義可能であるものとする。また、このように、区間[ａ_ｊ，ｂ_ｊ]の分割Ｉ_１、Ｉ_２、…、Ｉ_Ｋｊを用いて条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（Ｉ_ｋ’｜Ｉ_ｋ）が定義することにより量子化した有界ラプラスノイズ加算のことを量子化有界ラプラスノイズ加算という。

（複数属性の撹乱方法）
すべての属性Ａ＝Ａ_１×…×Ａ_Ｍの条件付き確率Ｐ_Ｙ｜Ｘ（ｙ_ｍ｜ｘ_ｎ）は、属性ごとの条件付き確率の積となる（ただし、ｘ_ｎ、ｙ_ｍは、元データのｎ番目の属性値の組み合わせ、撹乱データのｍ番目の属性値の組み合わせ（１≦ｎ，ｍ≦｜Ａ｜）を表す）。

ｘ_ｎ ^（ｊ）、ｙ_ｍ ^（ｊ）はそれぞれＭ次元ベクトルｘ_ｎ、ｙ_ｍのｊ番目の要素（ｊ番目の属性Ａ_ｊの属性値）を表す。属性がカテゴリ属性である場合は式（１）、数値属性である場合は式（３）を用いて式（４）を計算することができる。

この条件付き確率Ｐ_Ｙ｜Ｘ（ｙ_ｍ｜ｘ_ｎ）も行列を用いて表現できる。Ｐ_ｊをｊ番目の属性Ａ_ｊに対する遷移確率行列とすると、条件付き確率Ｐ_Ｙ｜Ｘ（ｙ_ｍ｜ｘ_ｎ）の行列表現である遷移確率行列Ｐは式（５）のようにＰ_ｊのクロネッカー積として表現される。

五十嵐大、千田浩司、高橋克巳、"多値属性に適用可能な効率的プライバシー保護クロス集計"、コンピュータセキュリティシンポジウム２００８論文集、2008年10月、第2008巻、pp.497-502 五十嵐大、千田浩司、高橋克巳、"k-匿名性の確率的指標への拡張とその適用例"、コンピュータセキュリティシンポジウム２００９論文集、2009年10月、第2009巻、pp.1-6 五十嵐大、長谷川聡、納竜也、菊池亮、千田浩司、"数値属性に適用可能な, ランダム化によりk-匿名性を保証するプライバシー保護クロス集計"、コンピュータセキュリティシンポジウム２０１２論文集、2012年10月、pp.639-646 Rakesh Agrawal, Ramakrishnan Srikant, and Dilys Thomas, "Privacy Preserving OLAP", In Proceedings of the 2005 ACM SIGMOD International Conference on Management of Data, 2005, pp.251-262

元データの生成分布を表す確率密度関数Ｐ_Ｘ（ｘ）と元データの生成分布を表す確率密度関数を再構築した結果である再構築元データの生成分布を表す確率密度関数Ｐ＾_Ｘ（ｘ）の間に生じる誤差がどの程度になるかについては、いったんＰ＾_Ｘ（ｘ）を求める必要があった。例えば、非特許文献４では、以下に示す尤度関数Ｌを最大化すること（以下、最尤推定法という）によりＰ＾_Ｘ（ｘ）を求めていた。具体的には、期待値最大化（Expectation Maximization）アルゴリズムを用いて、Ｐ＾_Ｘ（ｘ）をヒストグラムとして求めていた。

以下では、変数ｘ、ｙを省略して、Ｐ＾_Ｘ（ｘ）、Ｈ_Ｙ（ｙ）、Ｐ_Ｙ｜Ｘ（ｙ｜ｘ）を単にＰ＾_Ｘ、Ｈ_Ｙ、Ｐ_Ｙ｜Ｘと表すこともある。

期待値最大化アルゴリズムのような最尤推定法では撹乱処理とＰ＾_Ｘ（と等価なヒストグラム）の推定処理の２つの処理を実行する必要がある。このため、Ｐ_ＸとＰ＾_Ｘの誤差（各確率密度関数と等価なヒストグラム間の誤差）の推定にはデータベースごとに数値実験を繰り返し行う必要があり、誤差の評価に非常にコストを費やしていた。

そこで本発明では、再構築元データの生成分布を表す確率密度関数Ｐ＾_Ｘと等価なヒストグラムの推定を行うことなく、元データの生成分布を表す確率密度関数Ｐ_Ｘ及び再構築元データの生成分布を表す確率密度関数Ｐ＾_Ｘと等価なヒストグラム間の誤差を推定する撹乱データ再構築誤差推定装置を提供することを目的とする。

本発明の一態様は、Ｍを撹乱対象となるデータである元データの属性の数、Ａ_ｊをｊ番目の属性（ただし、ｊは１≦ｊ≦Ｍなる整数）とし、属性Ａ_ｊに対する撹乱は、属性Ａ_ｊがカテゴリ属性である場合は維持確率をρ_ｊとする維持置換撹乱、属性Ａ_ｊが数値属性（その値域を[ａ_ｊ，ｂ_ｊ] （ただし、ａ_ｊ，ｂ_ｊはａ_ｊ≦ｂ_ｊを満たす実数）とする）である場合は有界ラプラス分布のパラメータをφ_ｊとする有界ラプラスノイズ加算を前記値域[ａ_ｊ，ｂ_ｊ]の分割Ｉ_１＝［ｔ_０，ｔ_１］、Ｉ_２＝［ｔ_１，ｔ_２］、…、Ｉ_Ｋｊ＝［ｔ_Ｋｊ−１，ｔ_Ｋｊ］（ただし、ｔ_０（＝ａ_ｊ）＜ｔ_１＜…＜ｔ_Ｋｊ（＝ｂ_ｊ）、以下、ｔ_０、ｔ_１、…、ｔ_Ｋｊを分点という）を用いて量子化した量子化有界ラプラスノイズ加算であるとし、｜Ａ｜を｜Ａ｜＝｜Ａ_１｜×…×｜Ａ_Ｍ｜（ただし、属性Ａ_ｊが数値属性の場合は｜Ａ_ｊ｜＝Ｋ_ｊ）なる整数、ｘ_ｉ（１≦ｉ≦｜Ａ｜）を元データのｉ番目の属性値の組み合わせ、Ｎを元データのサンプルデータ数、Ｈ_Ｘ（ｘ_ｉ）を前記サンプルデータに出現するｘ_ｉの度数とし、前記サンプルデータ数Ｎ、前記度数Ｈ_Ｘ（ｘ_ｉ）から元データと再構築元データの誤差を推定する撹乱データ再構築誤差推定装置であって、属性Ａ_ｊがカテゴリ属性である場合は前記維持確率ρ_ｊと前記｜Ａ_ｊ｜を用いて算出される属性値ｖが属性値ｖ^’に変わる条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（ｖ^’｜ｖ）、属性Ａ_ｊが数値属性である場合は前記パラメータφ_ｊと前記値域[ａ_ｊ，ｂ_ｊ]と前記分点ｔ_１、…、ｔ_Ｋｊ−１を用いて算出される部分区間Ｉ_ｋが部分区間Ｉ_ｋ’に変わる条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（Ｉ_ｋ’｜Ｉ_ｋ）（１≦ｋ，ｋ’≦｜Ｋ_ｊ｜）を用いて、遷移確率行列Ｐ_ｊを計算する遷移確率行列計算部と、前記サンプルデータ数Ｎ、前記度数Ｈ_Ｘ（ｘ_ｉ）（１≦ｉ≦｜Ａ｜）、前記遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）を用いて、ｘ_ｍの分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ＝ｎ）またはｘ_ｍとｘ_ｎの共分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ≠ｎ）を前記誤差として計算する誤差計算部とを含む。

本発明によれば、Ｐ_Ｘと最尤推定法で求めたＰ＾_Ｘと等価なヒストグラム間の誤差を分散として定義することにより、誤差を解析的に求めることが可能となる。その結果、Ｐ＾_Ｘと等価なヒストグラムの推定を行うことなく誤差を推定することが可能となる。

サンプルデータの一例を示す図。実施例１の分散共分散計算アルゴリズムを示す図。実施例１の撹乱データ再構築誤差推定装置１００の構成を示すブロック図。実施例１の撹乱データ再構築誤差推定装置１００の動作を示すフローチャート。実施例１の誤差計算部１２０の構成を示すブロック図。実施例１の誤差計算部１２０の動作を示すフローチャート。実施例２の分散共分散計算アルゴリズムを示す図。実施例２の撹乱データ再構築誤差推定装置２００の構成を示すブロック図。実施例２の誤差計算部２２０の構成を示すブロック図。実施例２の誤差計算部２２０の動作を示すフローチャート。実施例３（実施例１の変形例）の分散共分散計算アルゴリズムを示す図。実施例３（実施例２の変形例）の分散共分散計算アルゴリズムを示す図。実施例３（実施例１の変形例）の誤差計算部３２０の構成を示すブロック図。実施例３（実施例２の変形例）の誤差計算部３２５の構成を示すブロック図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

なお、数値属性Ａ_ｊについては、適当な部分区間Ｉ_１,…,Ｉ_Ｋｊを用いて量子化がなされ、量子化有界ラプラスノイズ加算、条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（Ｉ_ｋ’｜Ｉ_ｋ）、遷移確率行列Ｐ_ｊが定義されているものとする。先述の通り、Ｐ_Ｘ等の各確率密度関数は等価なヒストグラムと（同一視）して扱うこととし、Ｐ_Ｘに従って生成されるサンプルデータ数をＮとする。また、ｘ_ｉ、ｙ_ｋは、元データのｉ番目の属性値の組み合わせ、撹乱データのｋ番目の属性値の組み合わせ（１≦ｉ，ｋ≦｜Ａ｜）を表すものとする。

Ｐ＾_Ｘを式（６）、（７）の最尤推定法により求めた場合のＰ_ＸとＰ＾_Ｘと等価なヒストグラム間の誤差（以下、元データと再構築元データの誤差という）をＰ_ＸとＰ＾_Ｘの分散・共分散として定義する。ここで、Ｐ_ＸとＰ＾_Ｘの分散・共分散とは、元データのｉ番目の属性値の組み合わせｘ_ｉを確率変数とみなして生成した｜Ａ｜次元列ベクトル（ｘ_１…ｘ_｜Ａ｜）^Ｔに対して（ｉ，ｊ）要素をｘ_ｉとｘ_ｊの共分散（ｉ＝ｊのときはｘ_ｉの分散）とする｜Ａ｜×｜Ａ｜の分散共分散行列として定義されるものである。

このように定義することにより、Ｐ_ＸとＰ＾_Ｘと等価なヒストグラム間の誤差を解析的に求めることができる（参考非特許文献５）。
（参考非特許文献５） Xumeng Cao and James C. Spall, “Relative Performance of Expected and Observed Fisher Information in Covariance Estimation for Maximum Likelihood Estimates”, In American Control Conference (ACC), 2012, IEEE, June 2012, pp.1871-1876.
具体的には、ｉ番目の属性値の組み合わせｘ_ｉ（１≦ｉ≦｜Ａ｜）の度数Ｈ_Ｘ（ｘ_ｉ）をサンプルデータ数Ｎで割ったものＰ_Ｘ（ｘ_ｉ）を用いてＰ_Ｘを扱うことにより、Ｐ_ＸとＰ＾_Ｘの分散・共分散はフィッシャー情報行列を用いて算出できる。Ｐ_ＸとＰ＾_Ｘの分散共分散行列をＶ、フィッシャー情報行列をＩとすると、Ｖ、Ｉは｜Ａ｜×｜Ａ｜の行列となり、

が成立する。

フィッシャー情報行列Ｉの逆行列として分散共分散行列Ｖを求め、分散共分散行列Ｖの各要素Ｖ_ｉｊ（Ｖ_ｉｊはＶのｉ行ｊ列の要素を表す）にアクセスすることで、分散、共分散を得ることができる。Ｖ_ｉｊは、ｘ_ｉの分散（ｉ＝ｊのとき）またはｘ_ｉとｘ_ｊの共分散（ｉ≠ｊのとき）を表す。

以下、フィッシャー情報行列Ｉの算出方法について説明する。フィッシャー情報行列Ｉは式（６）、式（７）のヘッセ行列Ｈの期待値（式（９））で定義される。

ヘッセ行列Ｈの各値Ｈ_ｉｊ（行列Ｈのｉ行ｊ列の要素）は、式（１０）で算出できる。なお、Ｌは式（７）の尤度関数である。

ここで、Ｐ_Ｙ（ｙ_ｋ）は撹乱データの確率密度関数であり、

である。Ｐ_Ｘ（ｘ_ｉ）はｉ番目の属性値の組み合わせｘ_ｉの度数Ｈ_Ｘ（ｘ_ｉ）をサンプルデータ数Ｎで割ったものを用いる。

したがって、フィッシャー情報行列Ｉのｉ行ｊ列の要素Ｉ_ｉｊは、

である。

以上述べたことをまとめると、図２に示す分散共分散計算アルゴリズムとなる。攪乱を特徴付ける各パラメータ（各属性Ａ_ｊの条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊのパラメータと元データの確率密度関数Ｐ_Ｘに従い生成したサンプルデータの各度数Ｈ_Ｘ（ｘ_ｉ）とサンプルデータ数Ｎ）が入力となる。つまり、ｊを１≦ｊ≦Ｍを満たす整数として、Ａ_ｊがカテゴリ属性の場合はρ_ｊ、｜Ａ_ｊ｜、Ａ_ｊが数値属性の場合はφ_ｊ、ａ_ｊ、ｂ_ｊ、ｔ_１、…、ｔ_Ｋｊ−１、ｉを１≦ｉ≦｜Ａ｜を満たす整数として、サンプルデータ数Ｎ、当該サンプルデータに出現するｘ_ｉの度数Ｈ_Ｘ（ｘ_ｉ）が入力となる。また、ｍ、ｎは生成したい誤差（分散または共分散）を指定するための１≦ｍ，ｎ≦｜Ａ｜なる整数である。

Ｓ１１０では、属性Ａ_ｊの遷移確率行列Ｐ_ｊを計算する。Ｓ１２１では、式（１１）を用いて撹乱データの確率密度関数Ｐ_Ｙ（ｙ_ｋ）を計算する。Ｓ１２２では、式（１２）を用いてフィッシャー情報行列Ｉの各要素Ｉ_ｉｊを計算する。Ｓ１２３では、分散共分散行列Ｖをフィッシャー情報行列Ｉの逆行列として計算する。Ｓ１２４では、求めたい誤差Ｖ_ｍｎ、つまり、｜Ａ｜次元列ベクトル（ｘ_１…ｘ_｜Ａ｜）^Ｔの第ｍ要素ｘ_ｍと第ｎ要素ｘ_ｎの共分散（分散）を出力する。

以下、図３〜図４を参照して実施例１の撹乱データ再構築誤差推定装置１００について説明する。図３は、実施例１の撹乱データ再構築誤差推定装置１００の構成を示すブロック図である。図４は、実施例１の撹乱データ再構築誤差推定装置１００の動作を示すフローチャートである。図３に示すように撹乱データ再構築誤差推定装置１００は、遷移確率行列計算部１１０と、誤差計算部１２０を含む。

遷移確率行列計算部１１０は、属性Ａ_ｊがカテゴリ属性である場合は維持確率ρ_ｊ及び濃度｜Ａ_ｊ｜、属性Ａ_ｊが数値属性である場合は有界ラプラス分布のパラメータφ_ｊ、値域[ａ_ｊ，ｂ_ｊ]、分点ｔ_１、…、ｔ_Ｋｊ−１を用いて、各属性Ａ_ｊの遷移確率行列Ｐ_ｊを計算する（Ｓ１１０）。カテゴリ属性の場合は式（１）を用いて計算できる。また、数値属性の場合は、式（３）を用いて（その具体的な方法については非特許文献３に記載の方法にて）計算できる。誤差計算部１２０は、各属性Ａ_ｊの遷移確率行列Ｐ_ｊ、元データのサンプルデータに対するｉ番目の属性値の組み合わせｘ_ｉの度数Ｈ_Ｘ（ｘ_ｉ）、サンプルデータ数Ｎを用いて、誤差Ｖ_ｍｎを計算する（Ｓ１２０）。

以下、図５〜図６を参照して実施例１の誤差計算部１２０について説明する。図５は、実施例１の誤差計算部１２０の構成を示すブロック図である。図６は、実施例１の誤差計算部１２０の動作を示すフローチャートである。図５に示すように誤差計算部１２０は、撹乱データ確率密度関数計算部１２１と、フィッシャー情報行列計算部１２２と、分散共分散行列計算部１２３と、出力結果生成部１２４とを含む。

撹乱データ確率密度関数計算部１２１は、遷移確率行列計算部１１０が計算した遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）と撹乱データ再構築誤差推定装置１００への入力であるサンプルデータ数Ｎと度数Ｈ_Ｘ（ｘ_ｉ）（１≦ｉ≦｜Ａ｜）を用いて式（１１）により確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）を計算する（Ｓ１２１）。フィッシャー情報行列計算部１２２は、遷移確率行列計算部１１０が計算した遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）と撹乱データ確率密度関数計算部１２１が計算した確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）とサンプルデータ数Ｎを用いて式（１２）によりフィッシャー情報行列Ｉの各要素Ｉ_ｉｊ（１≦ｉ，ｊ≦｜Ａ｜）を計算する（Ｓ１２２）。分散共分散行列計算部１２３は、フィッシャー情報行列計算部１２２が計算したフィッシャー情報行列Ｉの逆行列を分散共分散行列Ｖとして計算する（Ｓ１２３）。逆行列はガウス消去法などを用いて求めればよい。出力結果生成部１２４は、撹乱データ再構築誤差推定装置１００への入力であるｍ、ｎ（１≦ｍ，ｎ≦｜Ａ｜）に対して分散共分散行列Ｖのｍ行ｎ列の要素Ｖ_ｍｎを抽出し、出力する（Ｓ１２４）。Ｖ_ｍｎはｘ_ｍとｘ_ｎの共分散（分散）である。

実施例１の発明では、Ｐ_Ｘと最尤推定法で求めたＰ＾_Ｘと等価なヒストグラム間の誤差を分散・共分散として定義し、分散共分散行列を計算することにより、Ｐ＾_Ｘを推定することなく、誤差を推定できるようになる。これにより、従来は困難であった、元データの生成分布を表す確率密度関数Ｐ_Ｘと再構築元データの生成分布を表す確率密度関数Ｐ＾_Ｘの間に生じる誤差を指定した範囲に収めるような、撹乱再構築処理を行うことが可能になる。

実施例１では、フィッシャー情報行列Ｉを用いて分散・共分散を計算した。この方法では分散または共分散の値を１つ求めるためにも、Ｉの逆行列を計算する必要があり、空間計算量がＯ（｜Ａ｜^２）、時間計算量がＯ（｜Ａ｜^３）必要となる。属性の数Ｍが増えるほど指数的に｜Ａ｜が増えるため、計算がたちまち困難になる。

そこで、実施例２では、空間計算量、時間計算量ともに効率良く計算するために、各属性Ａ_ｊの遷移確率行列Ｐ_ｊのクロネッカー積を用いた遷移確率行列Ｐの表現に基づいて分散・共分散を計算する方法について説明する。

式（１２）と式（５）を用いて、式（８）を変形すると、

ここで、１はすべての要素が１である｜Ａ｜次元列ベクトル、ｐ_ｙはＰ_Ｙ（ｙ_ｋ）を第ｋ要素としてもつ｜Ａ｜次元列ベクトル、．／は要素ごとの除算（element-wise division）、ｄｉａｇ（λ）はλ＝（λ_１，…，λ_Ｌ）^Ｔを対角成分とする対角行列を表す。

式（１３）は、｜Ａ｜×｜Ａ｜のフィッシャー情報行列Ｉの逆行列を計算する必要がないことを示しており、｜Ａ_ｊ｜×｜Ａ_ｊ｜の行列Ｐ_ｊの逆行列を計算すればよいことを示している。そのため、空間計算量はＯ（｜Ａ｜）またはｍａｘ_{１≦ｊ≦Ｍ}Ｏ（｜Ａ_ｊ｜^２）となる。

例えば、Ｖ_ｍｎを求める場合は、以下のようにすればよい。

ここで、ｉｄｘ（ｍ,ｊ）、ｉｄｘ（ｎ,ｊ）は、ｍ番目の属性値の組み合わせｘ_ｍの属性Ａ_ｊの要素に対応する遷移確率行列Ｐ_ｊの列番号、ｎ番目の属性値の組み合わせｘ_ｎの属性Ａ_ｊの要素に対応する遷移確率行列Ｐ_ｊの列番号を表し、Ｐ_ｊ ^−１［：，ｉｄｘ（ｍ,ｊ）］、Ｐ_ｊ ^−１［：，ｉｄｘ（ｎ,ｊ）］は、行列Ｐ_ｊ ^−１の第ｉｄｘ（ｍ,ｊ）列のベクトル、行列Ｐ_ｊ ^−１の第ｉｄｘ（ｎ,ｊ）列のベクトルを表す。＊は、ベクトル同士の要素積を表す。なお、Ｑ_１、Ｑ_２はいずれも｜Ａ｜×１の行列（つまり、｜Ａ｜次元列ベクトル）となっている。

図１の例を考えると、ｉｄｘ（２,２）は、２番目の属性値の組み合わせｘ_２＝（男性，開発者）の属性Ａ_２の要素である“開発者”に対応する遷移確率行列Ｐ_２の列番号を示す。ここで、Ａ_２の要素のナンバリングを研究員、開発者、医者に対して、１、２、３とすると、ｉｄｘ（２,２）＝２となる。

この場合、時間計算量はＯ（｜Ａ｜）またはｍａｘ_{１≦ｊ≦Ｍ}Ｏ（｜Ａ_ｊ｜^３）ですむ。

式（１４）に基づく分散共分散計算アルゴリズムを図７に示す。入力は図２の分散共分散計算アルゴリズムと同じである。

Ｓ１１０、Ｓ１２１では、実施例１同様、遷移確率行列Ｐ_ｊ、確率密度関数Ｐ_Ｙ（ｙ_ｋ）を計算する。Ｓ２２２では、遷移確率行列Ｐ_ｊの逆行列Ｐ_ｊ ^−１を計算する。Ｓ２２３では、式（１４）を用いて求めたい誤差Ｖ_ｍｎを計算する。

以下、図８を参照して実施例２の撹乱データ再構築誤差推定装置２００について説明する。図８は、実施例２の撹乱データ再構築誤差推定装置２００の構成を示すブロック図である。図８に示すように撹乱データ再構築誤差推定装置２００は、遷移確率行列計算部１１０と、誤差計算部２２０を含む。

遷移確率行列計算部１１０は、実施例１のものと同じである。誤差計算部２２０は、各属性Ａ_ｊの遷移確率行列Ｐ_ｊ、元データのサンプルデータに対するｉ番目の属性値の組み合わせｘ_ｉの度数Ｈ_Ｘ（ｘ_ｉ）、サンプルデータ数Ｎを用いて、誤差Ｖ_ｍｎを計算する。誤差Ｖ_ｍｎの計算手順が実施例１の誤差計算部１１０と相違する。

以下、図９〜図１０を参照して実施例２の誤差計算部２２０について説明する。図９は、実施例２の誤差計算部２２０の構成を示すブロック図である。図１０は、実施例２の誤差計算部２２０の動作を示すフローチャートである。図９に示すように誤差計算部２２０は、撹乱データ確率密度関数計算部１２１と、遷移確率行列逆行列計算部２２２と、分散共分散計算部２２３とを含む。

撹乱データ確率密度関数計算部１２１は、実施例１同様、式（１１）により確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）を計算する（Ｓ１２１）。遷移確率行列逆行列計算部２２２は、遷移確率行列計算部１１０が計算した遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）について逆行列Ｐ_ｊ ^−１を計算する（Ｓ２２３）。逆行列はガウス消去法などを用いて求めればよい。分散共分散計算部２２３は、遷移確率行列逆行列計算部２２２が計算した遷移確率行列の逆行列Ｐ_ｊ ^−１（１≦ｊ≦Ｍ）と撹乱データ確率密度関数計算部１２１が計算した確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）を用いて式（１４）により誤差Ｖ_ｍｎを計算する（Ｓ２２３）。Ｖ_ｍｎはｘ_ｍとｘ_ｎの共分散（分散）である。

実施例２の発明では、｜Ａ｜×｜Ａ｜のフィッシャー情報行列Ｉの逆行列を計算する代わりに、｜Ａ_ｊ｜×｜Ａ_ｊ｜の遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）の逆行列を計算することにより、分散・共分散を計算する。つまり、分散・共分散の計算に必要な逆行列の計算をより小さいサイズの行列に還元して扱っている。これにより、実施例１に比して空間計算量、時間計算量とも抑えることが可能になる。具体的には、空間計算量をＯ（｜Ａ｜）またはｍａｘ_{１≦ｊ≦Ｍ}Ｏ（｜Ａ_ｊ｜^２）に、時間計算量をＯ（｜Ａ｜）またはｍａｘ_{１≦ｊ≦Ｍ}Ｏ（｜Ａ_ｊ｜^３）に抑えることができる。

実施例１、２では、撹乱データの確率密度関数Ｐ_Ｙ（ｙ_ｋ）の算出に式（１１）を用いた。式（１１）の計算ではＨ_Ｘ（ｘ_ｉ）を必要とする。

実施例３では、元データのサンプルデータに対するｉ番目の属性値の組み合わせｘ_ｉの度数Ｈ_Ｘ（ｘ_ｉ）を必要としない方法について説明する。

実際に撹乱されたデータを用いて、Ｐ_Ｙ（ｙ_ｋ）を求める。つまり、Ｎ個のサンプルデータを撹乱後観測された撹乱データｙ_ｋの度数Ｈ_Ｙ（ｙ_ｋ）をＮで割る。すなわち、

とすることでＰ_Ｙ（ｙ_ｋ）を近似的に求めることができる。

式（１５）を用いてＰ_Ｙ（ｙ_ｋ）を計算する実施例１、実施例２の分散共分散計算アルゴリズムの変形例を図１１、図１２に示す。また、実施例１の誤差計算部１２０、実施例２の誤差計算部２２０の変形例である実施例３の誤差計算部３２０、誤差計算部３２５をそれぞれ図１３、図１４に示す。誤差計算部１２０と誤差計算部３２０の相違点、誤差計算部２２０と誤差計算部３２５の相違点は、撹乱データ確率密度関数計算部１２１の代わりに撹乱データ確率密度関数計算部３２１を用いている点である。撹乱データ確率密度関数計算部３２１はＨ_Ｙ（ｙ_ｋ）及びＮを入力として式（１５）に基づいて確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）を計算する。

実施例３の発明では、Ｈ_Ｘ（ｘ_ｉ）の代わりにＨ_Ｙ（ｙ_ｋ）を用いてＰ_Ｙ（ｙ_ｋ）を近似的に計算する。これにより、式（１１）を用いることなく、簡便に分散・共分散を計算することが可能となる。
＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｍを撹乱対象となるデータである元データの属性の数、Ａ_ｊをｊ番目の属性（ただし、ｊは１≦ｊ≦Ｍなる整数）とし、
属性Ａ_ｊに対する撹乱は、属性Ａ_ｊがカテゴリ属性である場合は維持確率をρ_ｊとする維持置換撹乱、属性Ａ_ｊが数値属性（その値域を[ａ_ｊ，ｂ_ｊ] （ただし、ａ_ｊ，ｂ_ｊはａ_ｊ≦ｂ_ｊを満たす実数）とする）である場合は有界ラプラス分布のパラメータをφ_ｊとする有界ラプラスノイズ加算を前記値域[ａ_ｊ，ｂ_ｊ]の分割Ｉ_１＝［ｔ_０，ｔ_１］、Ｉ_２＝［ｔ_１，ｔ_２］、…、Ｉ_Ｋｊ＝［ｔ_Ｋｊ−１，ｔ_Ｋｊ］（ただし、ｔ_０（＝ａ_ｊ）＜ｔ_１＜…＜ｔ_Ｋｊ（＝ｂ_ｊ）、以下、ｔ_０、ｔ_１、…、ｔ_Ｋｊを分点という）を用いて量子化した量子化有界ラプラスノイズ加算であるとし、
｜Ａ｜を｜Ａ｜＝｜Ａ_１｜×…×｜Ａ_Ｍ｜（ただし、属性Ａ_ｊが数値属性の場合は｜Ａ_ｊ｜＝Ｋ_ｊ）なる整数、ｘ_ｉ（１≦ｉ≦｜Ａ｜）を元データのｉ番目の属性値の組み合わせ、Ｎを元データのサンプルデータ数、Ｈ_Ｘ（ｘ_ｉ）を前記サンプルデータに出現するｘ_ｉの度数とし、
前記サンプルデータ数Ｎ、前記度数Ｈ_Ｘ（ｘ_ｉ）から元データと再構築元データの誤差を推定する撹乱データ再構築誤差推定装置であって、
属性Ａ_ｊがカテゴリ属性である場合は前記維持確率ρ_ｊと前記｜Ａ_ｊ｜を用いて算出される属性値ｖが属性値ｖ^’に変わる条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（ｖ^’｜ｖ）、属性Ａ_ｊが数値属性である場合は前記パラメータφ_ｊと前記値域[ａ_ｊ，ｂ_ｊ]と前記分点ｔ_１、…、ｔ_Ｋｊ−１を用いて算出される部分区間Ｉ_ｋが部分区間Ｉ_ｋ’に変わる条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（Ｉ_ｋ’｜Ｉ_ｋ）（１≦ｋ，ｋ’≦｜Ｋ_ｊ｜）を用いて、遷移確率行列Ｐ_ｊを計算する遷移確率行列計算部と、
前記サンプルデータ数Ｎ、前記度数Ｈ_Ｘ（ｘ_ｉ）（１≦ｉ≦｜Ａ｜）、前記遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）を用いて、ｘ_ｍの分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ＝ｎ）またはｘ_ｍとｘ_ｎの共分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ≠ｎ）を前記誤差として計算する誤差計算部と
を含む撹乱データ再構築誤差推定装置。
請求項１に記載の撹乱データ再構築誤差推定装置であって、
ｙ_ｋ（１≦ｋ≦｜Ａ｜）を撹乱データのｋ番目の属性値の組み合わせとし、
前記誤差計算部は、
前記サンプルデータ数Ｎ、前記度数Ｈ_Ｘ（ｘ_ｉ）（１≦ｉ≦｜Ａ｜）、前記遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）を用いて、撹乱データの確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）、前記確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）、前記サンプルデータ数Ｎを用いてフィッシャー情報行列Ｉを計算するフィッシャー情報行列計算部と、
前記フィッシャー情報行列Ｉの逆行列を分散共分散行列Ｖとして計算する分散共分散行列計算部と、
前記分散共分散行列Ｖのｍ行ｎ列の要素Ｖ_ｍｎ（１≦ｍ，ｎ≦｜Ａ｜）を前記ｘ_ｍの分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ＝ｎ）または前記ｘ_ｍとｘ_ｎの共分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ≠ｎ）として出力する出力結果生成部と
を含む撹乱データ再構築誤差推定装置。
請求項１に記載の撹乱データ再構築誤差推定装置であって、
ｙ_ｋ（１≦ｋ≦｜Ａ｜）を撹乱データのｋ番目の属性値の組み合わせとし、
前記誤差計算部は、
前記サンプルデータ数Ｎ、前記度数Ｈ_Ｘ（ｘ_ｉ）（１≦ｉ≦｜Ａ｜）、前記遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）を用いて、撹乱データの確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）の逆行列Ｐ_ｊ ^−１を計算する遷移確率行列逆行列計算部と、
前記確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）と前記逆行列Ｐ_ｊ ^−１（１≦ｊ≦Ｍ）を用いて、前記ｘ_ｍの分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ＝ｎ）または前記ｘ_ｍとｘ_ｎの共分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ≠ｎ）を計算する分散共分散計算部と
を含む撹乱データ再構築誤差推定装置。
Ｍを撹乱対象となるデータである元データの属性の数、Ａ_ｊをｊ番目の属性（ただし、ｊは１≦ｊ≦Ｍなる整数）とし、
属性Ａ_ｊに対する撹乱は、属性Ａ_ｊがカテゴリ属性である場合は維持確率をρ_ｊとする維持置換撹乱、属性Ａ_ｊが数値属性（その値域を[ａ_ｊ，ｂ_ｊ] （ただし、ａ_ｊ，ｂ_ｊはａ_ｊ≦ｂ_ｊを満たす実数）とする）である場合は有界ラプラス分布のパラメータをφ_ｊとする有界ラプラスノイズ加算を前記値域[ａ_ｊ，ｂ_ｊ]の分割Ｉ_１＝［ｔ_０，ｔ_１］、Ｉ_２＝［ｔ_１，ｔ_２］、…、Ｉ_Ｋｊ＝［ｔ_Ｋｊ−１，ｔ_Ｋｊ］（ただし、ｔ_０（＝ａ_ｊ）＜ｔ_１＜…＜ｔ_Ｋｊ（＝ｂ_ｊ）、以下、ｔ_０、ｔ_１、…、ｔ_Ｋｊを分点という）を用いて量子化した量子化有界ラプラスノイズ加算であるとし、
｜Ａ｜を｜Ａ｜＝｜Ａ_１｜×…×｜Ａ_Ｍ｜（ただし、属性Ａ_ｊが数値属性の場合は｜Ａ_ｊ｜＝Ｋ_ｊ）なる整数、ｙ_ｋ（１≦ｋ≦｜Ａ｜）を撹乱データのｋ番目の属性値の組み合わせ、Ｎを元データのサンプルデータ数、Ｈ_Ｙ（ｙ_ｋ）を前記サンプルデータを撹乱した撹乱データに出現するｙ_ｋの度数とし、
前記サンプルデータ数Ｎ、前記度数Ｈ_Ｙ（ｙ_ｋ）から元データと再構築元データの誤差を推定する撹乱データ再構築誤差推定装置であって、
属性Ａ_ｊがカテゴリ属性である場合は前記維持確率ρ_ｊと前記｜Ａ_ｊ｜を用いて算出される属性値ｖが属性値ｖ^’に変わる条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（ｖ^’｜ｖ）、属性Ａ_ｊが数値属性である場合は前記パラメータφ_ｊと前記値域[ａ_ｊ，ｂ_ｊ]と前記分点ｔ_１、…、ｔ_Ｋｊ−１を用いて算出される部分区間Ｉ_ｋが部分区間Ｉ_ｋ’に変わる条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（Ｉ_ｋ’｜Ｉ_ｋ）（１≦ｋ，ｋ’≦｜Ｋ_ｊ｜）を用いて、遷移確率行列Ｐ_ｊを計算する遷移確率行列計算部と、
前記サンプルデータ数Ｎ、前記度数Ｈ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）、前記遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）を用いて、ｘ_ｍの分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ＝ｎ）またはｘ_ｍとｘ_ｎの共分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ≠ｎ）を前記誤差として計算する誤差計算部と
を含む撹乱データ再構築誤差推定装置。
請求項４に記載の撹乱データ再構築誤差推定装置であって、
前記誤差計算部は、
前記サンプルデータ数Ｎ、前記度数Ｈ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）を用いて、撹乱データの確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）、前記確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）、前記サンプルデータ数Ｎを用いてフィッシャー情報行列Ｉを計算するフィッシャー情報行列計算部と、
前記フィッシャー情報行列Ｉの逆行列を分散共分散行列Ｖとして計算する分散共分散行列計算部と、
前記分散共分散行列Ｖのｍ行ｎ列の要素Ｖ_ｍｎ（１≦ｍ，ｎ≦｜Ａ｜）を前記ｘ_ｍの分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ＝ｎ）または前記ｘ_ｍとｘ_ｎの共分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ≠ｎ）として出力する出力結果生成部と
を含む撹乱データ再構築誤差推定装置。
請求項４に記載の撹乱データ再構築誤差推定装置であって、
前記誤差計算部は、
前記サンプルデータ数Ｎ、前記度数Ｈ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）を用いて、撹乱データの確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）の逆行列Ｐ_ｊ ^−１を計算する遷移確率行列逆行列計算部と、
前記確率密度関数Ｐ_Ｙ（ｙ_ｋ）（１≦ｋ≦｜Ａ｜）と前記逆行列Ｐ_ｊ ^−１（１≦ｊ≦Ｍ）を用いて、前記ｘ_ｍの分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ＝ｎ）または前記ｘ_ｍとｘ_ｎの共分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ≠ｎ）を計算する分散共分散計算部と
を含む撹乱データ再構築誤差推定装置。
Ｍを撹乱対象となるデータである元データの属性の数、Ａ_ｊをｊ番目の属性（ただし、ｊは１≦ｊ≦Ｍなる整数）とし、
属性Ａ_ｊに対する撹乱は、属性Ａ_ｊがカテゴリ属性である場合は維持確率をρ_ｊとする維持置換撹乱、属性Ａ_ｊが数値属性（その値域を[ａ_ｊ，ｂ_ｊ] （ただし、ａ_ｊ，ｂ_ｊはａ_ｊ≦ｂ_ｊを満たす実数）とする）である場合は有界ラプラス分布のパラメータをφ_ｊとする有界ラプラスノイズ加算を前記値域[ａ_ｊ，ｂ_ｊ]の分割Ｉ_１＝［ｔ_０，ｔ_１］、Ｉ_２＝［ｔ_１，ｔ_２］、…、Ｉ_Ｋｊ＝［ｔ_Ｋｊ−１，ｔ_Ｋｊ］（ただし、ｔ_０（＝ａ_ｊ）＜ｔ_１＜…＜ｔ_Ｋｊ（＝ｂ_ｊ）、以下、ｔ_０、ｔ_１、…、ｔ_Ｋｊを分点という）を用いて量子化した量子化有界ラプラスノイズ加算であるとし、
｜Ａ｜を｜Ａ｜＝｜Ａ_１｜×…×｜Ａ_Ｍ｜（ただし、属性Ａ_ｊが数値属性の場合は｜Ａ_ｊ｜＝Ｋ_ｊ）なる整数、ｘ_ｉ（１≦ｉ≦｜Ａ｜）を元データのｉ番目の属性値の組み合わせ、Ｎを元データのサンプルデータ数、Ｈ_Ｘ（ｘ_ｉ）を前記サンプルデータに出現するｘ_ｉの度数とし、
撹乱データ再構築誤差推定装置が、前記サンプルデータ数Ｎ、前記度数Ｈ_Ｘ（ｘ_ｉ）から元データと再構築元データの誤差を推定する撹乱データ再構築誤差推定方法であって、
前記撹乱データ再構築誤差推定装置が、属性Ａ_ｊがカテゴリ属性である場合は前記維持確率ρ_ｊと前記｜Ａ_ｊ｜を用いて算出される属性値ｖが属性値ｖ^’に変わる条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（ｖ^’｜ｖ）、属性Ａ_ｊが数値属性である場合は前記パラメータφ_ｊと前記値域[ａ_ｊ，ｂ_ｊ]と前記分点ｔ_１、…、ｔ_Ｋｊ−１を用いて算出される部分区間Ｉ_ｋが部分区間Ｉ_ｋ’に変わる条件付き確率Ｐ_Ｙ｜Ｘ ^Ａｊ（Ｉ_ｋ’｜Ｉ_ｋ）（１≦ｋ，ｋ’≦｜Ｋ_ｊ｜）を用いて、遷移確率行列Ｐ_ｊを計算する遷移確率行列計算ステップと、
前記撹乱データ再構築誤差推定装置が、前記サンプルデータ数Ｎ、前記度数Ｈ_Ｘ（ｘ_ｉ）（１≦ｉ≦｜Ａ｜）、前記遷移確率行列Ｐ_ｊ（１≦ｊ≦Ｍ）を用いて、ｘ_ｍの分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ＝ｎ）またはｘ_ｍとｘ_ｎの共分散（１≦ｍ，ｎ≦｜Ａ｜、ｍ≠ｎ）を前記誤差として計算する誤差計算ステップと
を実行する撹乱データ再構築誤差推定方法。
請求項１ないし６のいずれか１項に記載の撹乱データ再構築誤差推定装置としてコンピュータを機能させるためのプログラム。