JP6486865B2 - データ撹乱装置、データ撹乱方法、データ撹乱プログラム - Google Patents
データ撹乱装置、データ撹乱方法、データ撹乱プログラム Download PDFInfo
- Publication number
- JP6486865B2 JP6486865B2 JP2016106001A JP2016106001A JP6486865B2 JP 6486865 B2 JP6486865 B2 JP 6486865B2 JP 2016106001 A JP2016106001 A JP 2016106001A JP 2016106001 A JP2016106001 A JP 2016106001A JP 6486865 B2 JP6486865 B2 JP 6486865B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- matrix
- disturbance
- normalized
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Complex Calculations (AREA)
Description
S=UΛUT
の関係が成り立つ。S、U、ΛはM×Mの行列である。なお、対角行列Λは、値の大きい固有値から順番に並べた構成とすればよい。そして、行列Bを
B=X’UΛ−1/2
のように求めればよい。なお、「Λ−1/2」は対角行列Λの対角要素の平方根を取った行列の逆行列である。行列BはN×Mの行列となる。
Y’=WC’Λ1/2UT
のように正規化撹乱データY’を求めればよい。ここで、「Λ1/2」は対角行列Λの対角要素の平方根を取った行列である。なお、正規化撹乱データY’はN×Mの行列となる。
変形例1のデータ撹乱装置の構成例は図1、データ撹乱方法の処理フローは図3に示す。実施例1では、データ白色化部120は、正規化元データX’の共分散行列Sの固有値のすべてを対角成分として持つ対角行列Λと対角行列Λに対応する固有ベクトルからなる行列Uを求め、正規化元データX’を白色化した行列Bを求めた(S120)。変形例1では、データ撹乱装置100はデータ白色化部120の代わりにデータ白色化部122を備え、パラメータ生成部170と固有値数決定部180も備える。また、LをM以下の整数とする。
B=X’UΛ−1/2
のように求めるので、行列BはN×Lの行列となる。同様に行列CもN×Lの行列となる。
E(L)=e1(L)+e2(L)
である。
B=X’UΛ−1/2
のように求める。
変形例1のデータ撹乱装置では、Lを決める「あらかじめ定めた方法」として誤差の合計E(L)が最小となるLを探す処理を実行した。しかし、元データXのそれぞれの属性の特性がある程度分かっている場合、Lの数をあらかじめ定めておくことも可能である。このようにすれば、E(L)が最小となるLを選択できないかもしれないが、図3のステップS180の処理が不要になり、かつ、少なくともすべての固有値を処理に用いる実施例1よりは統計的な特性を維持できる。そこで、変形例2のデータ撹乱装置では、「あらかじめ定めた方法」として、事前に誤差の合計E(L)が最小になると予測されるLを決めておく。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
120,122 データ白色化部 130 独立成分分析部
140 ノイズ付与部 150 正規化撹乱データ生成部
160 撹乱データ生成部 170 パラメータ生成部
180 固有値数決定部 190 記録部
Claims (8)
- Xを数値で表現される2つ以上の属性で構成された個別データを2つ以上有する元データとし、
前記元データXの各属性を線形変換によって正規化し、正規化元データX’を得るデータ正規化部と、
前記正規化元データX’の共分散行列Sの固有値を対角成分に持つ対角行列Λと対角行列Λに対応する固有ベクトルからなる行列Uを求め、前記正規化元データX’を白色化した行列Bを求めるデータ白色化部と、
前記行列Bを独立成分分析することによって、属性間が独立である行列Cと正規直交行列Wを求める独立成分分析部と、
行列Cの要素ごとに、行列Cの列ごとに対応付けされた分布で乱数を生成し、乱数を用いて要素を撹乱させて、撹乱行列C’を求めるノイズ付与部と、
前記撹乱行列C’、前記正規直交行列W、前記対角行列Λ、前記行列Uを用いて正規化された撹乱データである正規化撹乱データY’を求める正規化撹乱データ生成部と、
前記正規化撹乱データY’に対して前記線形変換の逆変換を行って撹乱データYを求める撹乱データ生成部と
を備えたデータ撹乱装置。 - 請求項1記載のデータ撹乱装置であって、
Mを前記個別データを構成する属性の数であって2以上の整数、jを1以上M以下の整数、φjを行列Cのj番目の列に対応付けされた分布のパラメータ、Tを行列の転地を示す記号とし、
前記行列Bは、B=X’UΛ−1/2 であり、
前記行列Cの列ごとに対応付けされた分布は、前記パラメータφjによって決まる有界ラプラス分布であり、
前記正規化撹乱データY’は、Y’=WC’Λ1/2UT である
ことを特徴とするデータ撹乱装置。 - 請求項2記載のデータ撹乱装置であって、
LをM以下の整数とし、
前記対角行列Λは、あらかじめ定めた方法で決まったL個の値の大きい固有値からなるL×Lの対角行列である
ことを特徴とするデータ撹乱装置。 - 請求項3記載のデータ撹乱装置であって、
さらに、固有値数決定部も備え、
前記固有値数決定部は、前記あらかじめ定めた方法として、前記Lを、
値の大きさがL+1番目からM番目までの固有値の二乗の和に基づく元データの要素あたりの誤差と、L個の有界ラプラス分布の分散の合計に基づく元データの要素あたりの誤差の合計が小さくなるように決める
ことを特徴とするデータ撹乱装置。 - データ正規化部、データ白色化部、独立成分分析部、ノイズ付与部、正規化撹乱データ生成部、撹乱データ生成部を備えるデータ撹乱装置によって実行されるデータ撹乱方法であって、
Xを数値で表現される2つ以上の属性で構成された個別データを2つ以上有する元データとし、
前記データ正規化部が、前記元データXの各属性を線形変換によって正規化し、正規化元データX’を得るデータ正規化ステップと、
前記データ白色化部が、前記正規化元データX’の共分散行列Sの固有値を対角成分に持つ対角行列Λと対角行列Λに対応する固有ベクトルからなる行列Uを求め、前記正規化元データX’を白色化した行列Bを求めるデータ白色化ステップと、
前記独立成分分析部が、前記行列Bを独立成分分析することによって、属性間が独立である行列Cと正規直交行列Wを求める独立成分分析ステップと、
前記ノイズ付与部が、行列Cの要素ごとに、行列Cの列ごとに対応付けされた分布で乱数を生成し、乱数を用いて要素を撹乱させて、撹乱行列C’を求めるノイズ付与ステップと、
前記正規化撹乱データ生成部が、前記撹乱行列C’、前記正規直交行列W、前記対角行列Λ、前記行列Uを用いて正規化された撹乱データである正規化撹乱データY’を求める正規化撹乱データ生成ステップと、
前記撹乱データ生成部が、前記正規化撹乱データY’に対して前記線形変換の逆変換を行って撹乱データYを求める撹乱データ生成ステップと
を実行するデータ撹乱方法。 - 請求項5記載のデータ撹乱方法であって、
Mを前記個別データを構成する属性の数であって2以上の整数、jを1以上M以下の整数、φjを行列Cのj番目の列に対応付けされた分布のパラメータ、Tを行列の転地を示す記号とし、
前記行列Bは、B=X’UΛ−1/2 であり、
前記行列Cの列ごとに対応付けされた分布は、前記パラメータφjによって決まる有界ラプラス分布であり、
前記正規化撹乱データY’は、Y’=WC’Λ1/2UT である
ことを特徴とするデータ撹乱方法。 - 請求項6記載のデータ撹乱方法であって、
LをM以下の整数とし、
対角行列Λは、あらかじめ定めた方法で決まったL個の値の大きい固有値からなるL×Lの対角行列である
ことを特徴とするデータ撹乱方法。 - 請求項1から4のいずれかに記載のデータ撹乱装置としてコンピュータを機能させるデータ撹乱プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016106001A JP6486865B2 (ja) | 2016-05-27 | 2016-05-27 | データ撹乱装置、データ撹乱方法、データ撹乱プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016106001A JP6486865B2 (ja) | 2016-05-27 | 2016-05-27 | データ撹乱装置、データ撹乱方法、データ撹乱プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017212669A JP2017212669A (ja) | 2017-11-30 |
JP6486865B2 true JP6486865B2 (ja) | 2019-03-20 |
Family
ID=60474864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016106001A Active JP6486865B2 (ja) | 2016-05-27 | 2016-05-27 | データ撹乱装置、データ撹乱方法、データ撹乱プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6486865B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7509227B2 (ja) | 2020-10-16 | 2024-07-02 | 日本電信電話株式会社 | データ集約装置、データ集約システム、データ集約方法、及びプログラム |
-
2016
- 2016-05-27 JP JP2016106001A patent/JP6486865B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017212669A (ja) | 2017-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yates et al. | Cross validation for model selection: a review with examples from ecology | |
Carley et al. | Response surface methodology | |
Gutman et al. | Estimation of causal effects of binary treatments in unconfounded studies | |
Lam | High‐dimensional covariance matrix estimation | |
CN109726758A (zh) | 一种基于差分隐私的数据融合发布算法 | |
Park et al. | Model selection and diagnostics for joint modeling of survival and longitudinal data with crossing hazard rate functions | |
Gallagher et al. | On Weighted Portmanteau Tests for Time‐Series Goodness‐Of‐Fit | |
Stein et al. | What about interpolation? a radial basis function approach to classifier prediction modeling in xcsf | |
Li | Linear operator‐based statistical analysis: A useful paradigm for big data | |
JP2016018379A (ja) | プライバシー保護装置、方法及びプログラム | |
JP6445415B2 (ja) | 匿名化装置、匿名化方法、プログラム | |
JP6486865B2 (ja) | データ撹乱装置、データ撹乱方法、データ撹乱プログラム | |
Bienvenüe et al. | Likelihood inference for multivariate extreme value distributions whose spectral vectors have known conditional distributions | |
KR20200122195A (ko) | 비정형 트랜잭션 비식별 데이터의 품질 측정 방법 및 장치 | |
JP2020140423A (ja) | クラスタリング装置、クラスタリング方法及びクラスタリングプログラム | |
WO2019073913A1 (ja) | 擬似データ生成装置、その方法、及びプログラム | |
JP6532849B2 (ja) | データ撹乱装置、方法及びプログラム | |
JP6412767B2 (ja) | 雑音発生装置、雑音発生方法及びプログラム | |
JP6549076B2 (ja) | 匿名化テーブル生成装置、匿名化テーブル生成方法、プログラム | |
Hewage et al. | Optimizing the trade-off between classification accuracy and data privacy in the area of data stream mining | |
Zhu et al. | A hybrid model for nonlinear regression with missing data using quasilinear kernel | |
JP6021178B2 (ja) | ノイズ加算装置、ノイズ加算方法、およびプログラム | |
JP6532829B2 (ja) | 撹乱データ再構築誤差推定装置、撹乱データ再構築誤差推定方法、プログラム | |
Kenett et al. | Experimental Learning: Generate high information quality by comparing alternative experimental designs. | |
Zhang et al. | Partially linear additive models with unknown link functions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180628 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6486865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |