JP6532829B2 - 撹乱データ再構築誤差推定装置、撹乱データ再構築誤差推定方法、プログラム - Google Patents
撹乱データ再構築誤差推定装置、撹乱データ再構築誤差推定方法、プログラム Download PDFInfo
- Publication number
- JP6532829B2 JP6532829B2 JP2016006357A JP2016006357A JP6532829B2 JP 6532829 B2 JP6532829 B2 JP 6532829B2 JP 2016006357 A JP2016006357 A JP 2016006357A JP 2016006357 A JP2016006357 A JP 2016006357A JP 6532829 B2 JP6532829 B2 JP 6532829B2
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- data
- matrix
- disturbance
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
カテゴリ属性に対しては、維持確率ρで属性値を維持し、1−ρの確率で属性値をランダムに変更することで、データを秘匿化する処理が行われる。すなわち、あるカテゴリ属性Ajの属性値vが属性値v’に変わる条件付き確率PY|X Aj(v’|v)は、属性Ajの維持確率ρjを用いて
数値属性に対しては、属性値に有界ラプラス分布に従うノイズを付与する(つまり、有界ラプラスノイズ加算する)ことで撹乱を行う。有界ラプラス分布とは、台の上限と下限が定まっているラプラス分布のことであり、この有界ラプラス分布に従うノイズを付与することで、元データを秘匿化する。ある数値属性Ajの属性値vが属性値v’に変わる条件付き確率密度PY|X Aj(v’|v)は、属性Ajの有界ラプラス分布のパラメータφjを用いて
すべての属性A=A1×…×AMの条件付き確率PY|X(ym|xn)は、属性ごとの条件付き確率の積となる(ただし、xn、ymは、元データのn番目の属性値の組み合わせ、撹乱データのm番目の属性値の組み合わせ(1≦n,m≦|A|)を表す)。
(参考非特許文献5) Xumeng Cao and James C. Spall, “Relative Performance of Expected and Observed Fisher Information in Covariance Estimation for Maximum Likelihood Estimates”, In American Control Conference (ACC), 2012, IEEE, June 2012, pp.1871-1876.
具体的には、i番目の属性値の組み合わせxi(1≦i≦|A|)の度数HX(xi)をサンプルデータ数Nで割ったものPX(xi)を用いてPXを扱うことにより、PXとP^Xの分散・共分散はフィッシャー情報行列を用いて算出できる。PXとP^Xの分散共分散行列をV、フィッシャー情報行列をIとすると、V、Iは|A|×|A|の行列となり、
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (8)
- Mを撹乱対象となるデータである元データの属性の数、Ajをj番目の属性(ただし、jは1≦j≦Mなる整数)とし、
属性Ajに対する撹乱は、属性Ajがカテゴリ属性である場合は維持確率をρjとする維持置換撹乱、属性Ajが数値属性(その値域を[aj,bj] (ただし、aj,bjはaj≦bjを満たす実数)とする)である場合は有界ラプラス分布のパラメータをφjとする有界ラプラスノイズ加算を前記値域[aj,bj]の分割I1=[t0,t1]、I2=[t1,t2]、…、IKj=[tKj−1,tKj](ただし、t0(=aj)<t1<…<tKj(=bj)、以下、t0、t1、…、tKjを分点という)を用いて量子化した量子化有界ラプラスノイズ加算であるとし、
|A|を|A|=|A1|×…×|AM|(ただし、属性Ajが数値属性の場合は|Aj|=Kj)なる整数、xi(1≦i≦|A|)を元データのi番目の属性値の組み合わせ、Nを元データのサンプルデータ数、HX(xi)を前記サンプルデータに出現するxiの度数とし、
前記サンプルデータ数N、前記度数HX(xi)から元データと再構築元データの誤差を推定する撹乱データ再構築誤差推定装置であって、
属性Ajがカテゴリ属性である場合は前記維持確率ρjと前記|Aj|を用いて算出される属性値vが属性値v’に変わる条件付き確率PY|X Aj(v’|v)、属性Ajが数値属性である場合は前記パラメータφjと前記値域[aj,bj]と前記分点t1、…、tKj−1を用いて算出される部分区間Ikが部分区間Ik’に変わる条件付き確率PY|X Aj(Ik’|Ik)(1≦k,k’≦|Kj|)を用いて、遷移確率行列Pjを計算する遷移確率行列計算部と、
前記サンプルデータ数N、前記度数HX(xi)(1≦i≦|A|)、前記遷移確率行列Pj(1≦j≦M)を用いて、xmの分散(1≦m,n≦|A|、m=n)またはxmとxnの共分散(1≦m,n≦|A|、m≠n)を前記誤差として計算する誤差計算部と
を含む撹乱データ再構築誤差推定装置。 - 請求項1に記載の撹乱データ再構築誤差推定装置であって、
yk(1≦k≦|A|)を撹乱データのk番目の属性値の組み合わせとし、
前記誤差計算部は、
前記サンプルデータ数N、前記度数HX(xi)(1≦i≦|A|)、前記遷移確率行列Pj(1≦j≦M)を用いて、撹乱データの確率密度関数PY(yk)(1≦k≦|A|)を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列Pj(1≦j≦M)、前記確率密度関数PY(yk)(1≦k≦|A|)、前記サンプルデータ数Nを用いてフィッシャー情報行列Iを計算するフィッシャー情報行列計算部と、
前記フィッシャー情報行列Iの逆行列を分散共分散行列Vとして計算する分散共分散行列計算部と、
前記分散共分散行列Vのm行n列の要素Vmn(1≦m,n≦|A|)を前記xmの分散(1≦m,n≦|A|、m=n)または前記xmとxnの共分散(1≦m,n≦|A|、m≠n)として出力する出力結果生成部と
を含む撹乱データ再構築誤差推定装置。 - 請求項1に記載の撹乱データ再構築誤差推定装置であって、
yk(1≦k≦|A|)を撹乱データのk番目の属性値の組み合わせとし、
前記誤差計算部は、
前記サンプルデータ数N、前記度数HX(xi)(1≦i≦|A|)、前記遷移確率行列Pj(1≦j≦M)を用いて、撹乱データの確率密度関数PY(yk)(1≦k≦|A|)を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列Pj(1≦j≦M)の逆行列Pj −1を計算する遷移確率行列逆行列計算部と、
前記確率密度関数PY(yk)(1≦k≦|A|)と前記逆行列Pj −1(1≦j≦M)を用いて、前記xmの分散(1≦m,n≦|A|、m=n)または前記xmとxnの共分散(1≦m,n≦|A|、m≠n)を計算する分散共分散計算部と
を含む撹乱データ再構築誤差推定装置。 - Mを撹乱対象となるデータである元データの属性の数、Ajをj番目の属性(ただし、jは1≦j≦Mなる整数)とし、
属性Ajに対する撹乱は、属性Ajがカテゴリ属性である場合は維持確率をρjとする維持置換撹乱、属性Ajが数値属性(その値域を[aj,bj] (ただし、aj,bjはaj≦bjを満たす実数)とする)である場合は有界ラプラス分布のパラメータをφjとする有界ラプラスノイズ加算を前記値域[aj,bj]の分割I1=[t0,t1]、I2=[t1,t2]、…、IKj=[tKj−1,tKj](ただし、t0(=aj)<t1<…<tKj(=bj)、以下、t0、t1、…、tKjを分点という)を用いて量子化した量子化有界ラプラスノイズ加算であるとし、
|A|を|A|=|A1|×…×|AM|(ただし、属性Ajが数値属性の場合は|Aj|=Kj)なる整数、yk(1≦k≦|A|)を撹乱データのk番目の属性値の組み合わせ、Nを元データのサンプルデータ数、HY(yk)を前記サンプルデータを撹乱した撹乱データに出現するykの度数とし、
前記サンプルデータ数N、前記度数HY(yk)から元データと再構築元データの誤差を推定する撹乱データ再構築誤差推定装置であって、
属性Ajがカテゴリ属性である場合は前記維持確率ρjと前記|Aj|を用いて算出される属性値vが属性値v’に変わる条件付き確率PY|X Aj(v’|v)、属性Ajが数値属性である場合は前記パラメータφjと前記値域[aj,bj]と前記分点t1、…、tKj−1を用いて算出される部分区間Ikが部分区間Ik’に変わる条件付き確率PY|X Aj(Ik’|Ik)(1≦k,k’≦|Kj|)を用いて、遷移確率行列Pjを計算する遷移確率行列計算部と、
前記サンプルデータ数N、前記度数HY(yk)(1≦k≦|A|)、前記遷移確率行列Pj(1≦j≦M)を用いて、xmの分散(1≦m,n≦|A|、m=n)またはxmとxnの共分散(1≦m,n≦|A|、m≠n)を前記誤差として計算する誤差計算部と
を含む撹乱データ再構築誤差推定装置。 - 請求項4に記載の撹乱データ再構築誤差推定装置であって、
前記誤差計算部は、
前記サンプルデータ数N、前記度数HY(yk)(1≦k≦|A|)を用いて、撹乱データの確率密度関数PY(yk)(1≦k≦|A|)を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列Pj(1≦j≦M)、前記確率密度関数PY(yk)(1≦k≦|A|)、前記サンプルデータ数Nを用いてフィッシャー情報行列Iを計算するフィッシャー情報行列計算部と、
前記フィッシャー情報行列Iの逆行列を分散共分散行列Vとして計算する分散共分散行列計算部と、
前記分散共分散行列Vのm行n列の要素Vmn(1≦m,n≦|A|)を前記xmの分散(1≦m,n≦|A|、m=n)または前記xmとxnの共分散(1≦m,n≦|A|、m≠n)として出力する出力結果生成部と
を含む撹乱データ再構築誤差推定装置。 - 請求項4に記載の撹乱データ再構築誤差推定装置であって、
前記誤差計算部は、
前記サンプルデータ数N、前記度数HY(yk)(1≦k≦|A|)を用いて、撹乱データの確率密度関数PY(yk)(1≦k≦|A|)を計算する撹乱データ確率密度関数計算部と、
前記遷移確率行列Pj(1≦j≦M)の逆行列Pj −1を計算する遷移確率行列逆行列計算部と、
前記確率密度関数PY(yk)(1≦k≦|A|)と前記逆行列Pj −1(1≦j≦M)を用いて、前記xmの分散(1≦m,n≦|A|、m=n)または前記xmとxnの共分散(1≦m,n≦|A|、m≠n)を計算する分散共分散計算部と
を含む撹乱データ再構築誤差推定装置。 - Mを撹乱対象となるデータである元データの属性の数、Ajをj番目の属性(ただし、jは1≦j≦Mなる整数)とし、
属性Ajに対する撹乱は、属性Ajがカテゴリ属性である場合は維持確率をρjとする維持置換撹乱、属性Ajが数値属性(その値域を[aj,bj] (ただし、aj,bjはaj≦bjを満たす実数)とする)である場合は有界ラプラス分布のパラメータをφjとする有界ラプラスノイズ加算を前記値域[aj,bj]の分割I1=[t0,t1]、I2=[t1,t2]、…、IKj=[tKj−1,tKj](ただし、t0(=aj)<t1<…<tKj(=bj)、以下、t0、t1、…、tKjを分点という)を用いて量子化した量子化有界ラプラスノイズ加算であるとし、
|A|を|A|=|A1|×…×|AM|(ただし、属性Ajが数値属性の場合は|Aj|=Kj)なる整数、xi(1≦i≦|A|)を元データのi番目の属性値の組み合わせ、Nを元データのサンプルデータ数、HX(xi)を前記サンプルデータに出現するxiの度数とし、
撹乱データ再構築誤差推定装置が、前記サンプルデータ数N、前記度数HX(xi)から元データと再構築元データの誤差を推定する撹乱データ再構築誤差推定方法であって、
前記撹乱データ再構築誤差推定装置が、属性Ajがカテゴリ属性である場合は前記維持確率ρjと前記|Aj|を用いて算出される属性値vが属性値v’に変わる条件付き確率PY|X Aj(v’|v)、属性Ajが数値属性である場合は前記パラメータφjと前記値域[aj,bj]と前記分点t1、…、tKj−1を用いて算出される部分区間Ikが部分区間Ik’に変わる条件付き確率PY|X Aj(Ik’|Ik)(1≦k,k’≦|Kj|)を用いて、遷移確率行列Pjを計算する遷移確率行列計算ステップと、
前記撹乱データ再構築誤差推定装置が、前記サンプルデータ数N、前記度数HX(xi)(1≦i≦|A|)、前記遷移確率行列Pj(1≦j≦M)を用いて、xmの分散(1≦m,n≦|A|、m=n)またはxmとxnの共分散(1≦m,n≦|A|、m≠n)を前記誤差として計算する誤差計算ステップと
を実行する撹乱データ再構築誤差推定方法。 - 請求項1ないし6のいずれか1項に記載の撹乱データ再構築誤差推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016006357A JP6532829B2 (ja) | 2016-01-15 | 2016-01-15 | 撹乱データ再構築誤差推定装置、撹乱データ再構築誤差推定方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016006357A JP6532829B2 (ja) | 2016-01-15 | 2016-01-15 | 撹乱データ再構築誤差推定装置、撹乱データ再構築誤差推定方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017126028A JP2017126028A (ja) | 2017-07-20 |
JP6532829B2 true JP6532829B2 (ja) | 2019-06-19 |
Family
ID=59363964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016006357A Active JP6532829B2 (ja) | 2016-01-15 | 2016-01-15 | 撹乱データ再構築誤差推定装置、撹乱データ再構築誤差推定方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6532829B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019073912A1 (ja) * | 2017-10-13 | 2019-04-18 | 日本電信電話株式会社 | 擬似データ生成装置、その方法、およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6158137B2 (ja) * | 2014-06-04 | 2017-07-05 | 日本電信電話株式会社 | 撹乱再構築システム、撹乱装置、再構築装置、撹乱再構築方法及びプログラム |
-
2016
- 2016-01-15 JP JP2016006357A patent/JP6532829B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017126028A (ja) | 2017-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vink et al. | Predictive mean matching imputation of semicontinuous variables | |
Dieker et al. | Exact simulation of Brown-Resnick random fields at a finite number of locations | |
Seddon et al. | Quantifying magic for multi-qubit operations | |
Oliva et al. | Multilevel thresholding segmentation based on harmony search optimization | |
CN107122327B (zh) | 一种利用训练数据训练模型的方法和训练系统 | |
Masters et al. | Towards a homomorphic machine learning big data pipeline for the financial services sector | |
JP6311851B2 (ja) | 共クラスタリングシステム、方法およびプログラム | |
Hirose et al. | Variable selection via the weighted group lasso for factor analysis models | |
Barrientos et al. | A Feasibility Study of Differentially Private Summary Statistics and Regression Analyses with Evaluations on Administrative and Survey Data | |
JP6532849B2 (ja) | データ撹乱装置、方法及びプログラム | |
JP6532829B2 (ja) | 撹乱データ再構築誤差推定装置、撹乱データ再構築誤差推定方法、プログラム | |
JP7505570B2 (ja) | 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム | |
Bienvenüe et al. | Likelihood inference for multivariate extreme value distributions whose spectral vectors have known conditional distributions | |
Jimenez et al. | An approximate innovation method for the estimation of diffusion processes from discrete data | |
Kumar et al. | Numerical characterization of support recovery in sparse regression with correlated design | |
JP6549076B2 (ja) | 匿名化テーブル生成装置、匿名化テーブル生成方法、プログラム | |
Nakano | Hybrid algorithm of ensemble transform and importance sampling for assimilation of non-Gaussian observations | |
Perry et al. | A prediction interval estimator for the original response when using Box–Cox transformations | |
Cuevas et al. | Otsu and Kapur segmentation based on harmony search optimization | |
JP6021178B2 (ja) | ノイズ加算装置、ノイズ加算方法、およびプログラム | |
JP6505574B2 (ja) | 撹乱データ再構築装置、撹乱データ再構築方法、プログラム | |
Zhang et al. | Partially linear additive models with unknown link functions | |
McElroy et al. | Maximum entropy extreme‐value seasonal adjustment | |
JP6316773B2 (ja) | 統計データ再構築装置、統計データ再構築方法、プログラム | |
JP2017212669A (ja) | データ撹乱装置、データ撹乱方法、データ撹乱プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190522 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6532829 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |