JP5945490B2 - データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム - Google Patents
データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム Download PDFInfo
- Publication number
- JP5945490B2 JP5945490B2 JP2012224743A JP2012224743A JP5945490B2 JP 5945490 B2 JP5945490 B2 JP 5945490B2 JP 2012224743 A JP2012224743 A JP 2012224743A JP 2012224743 A JP2012224743 A JP 2012224743A JP 5945490 B2 JP5945490 B2 JP 5945490B2
- Authority
- JP
- Japan
- Prior art keywords
- disturbance
- parameter
- database
- parameter determination
- attribute value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Pk−匿名性は、データベースの各レコードと、その各レコードに対応する個人とを1/k以上の確率で結びつけることができないという性質である。
第一実施形態のデータベース撹乱システムは、図1に例示するように、撹乱装置1及び集計装置2を備えている。
撹乱装置1は、データベース記憶部11と、撹乱部12と、パラメータ決定部13とを例えば備えている。この例では、撹乱部12は、並替部14を備える。パラメータ決定部13が、特許請求の範囲のデータベース撹乱パラメータ決定装置に対応している。
データベース記憶部11には、撹乱の対象となるデータベースが記憶されている。データベース記憶部11に記憶されたデータベースについての情報は、撹乱部12に送信される。
データベースは、図7に例示するように、複数のレコードから構成されている。
各属性値は、第一実施形態では、n次元実数ベクトルの部分集合Vに含まれるベクトルであり、いわゆる数値属性値である。nは、1以上の整数である。n=1であり属性が例えば「中間テストの点数」や「期末テストの点数」である場合には、属性値は0から100までの何れかの整数である。
1.「確率密度関数fに従う値」について
(1)確率密度関数fの定義域及び属性値が1次元の場合
(i)累積分布関数F(x)=∫−∞ xf(x’)dx’を求める。
(ii)累積分布関数F(x)の逆関数F−1を求める。
(iii)区間[0,1]上の一様乱数rを生成する。
(iv)F−1(r)を「確率密度関数fに従う値」として出力する。
累積分布関数F(x)や逆関数F−1が数式で得られる場合にはその数式に基づいてF−1(r)を計算してもよいし、そうでない場合には数値計算によってF−1(r)を計算してもよい。
i=0,…,n−1のそれぞれに対して、以下の(i)(ii)を行う。
(i)x0からxi−1までを固定し、xi+1からxn−1までを積分し、xiだけを変数として残した確率密度関数fiを求める。
(ii)確率密度関数fiの定義域は1次元なので、上記「(1)確率密度関数fの定義域及び属性値が1次元の場合」で示した方法と同様の方法により、「確率密度関数fiに従う値」を計算する。
i=0,…,n−1のそれぞれに対して「確率密度関数fiに従う値」を計算することにより、n個の「確率密度関数fiに従う値」が得られる。
2.「ラプラス分布に従う値」について
(1)ラプラス分布の定義域及び属性値が1次元の場合
(i)区間[0,1]上の一様乱数r、区間(0,1)上の一様乱数bを生成する。
(ii)(−1)bσlogr+μを「ラプラス分布に従う値」として出力する。
(i)上記「(1)ラプラス分布の定義域及び属性値が1次元の場合」で示した方法と同様の方法により、n個の「ラプラス分布に従う値」であるx0,x1,…,xn−1を計算する。
(ii)これらのx0,x1,…,xn−1を「ラプラス分布に従う値」として出力する。
パラメータ決定部13は、k’がk以上であれば、σmax=σとする(ステップS04)。すなわち、σの値を、変数σmaxに代入する。その後、ステップS06に進む。
パラメータ決定部13は、区間[0,σmax]で、上記式(7)を評価式とする二分法によりkが所望の値になるまで反復計算して最適なσを求める(ステップS06)。
したがって、このようにして撹乱されたデータベースは、Pk−匿名性という明確な基準で匿名性が保障される。また、撹乱前のデータベース及び撹乱後のデータベースを用いずに匿名性を保障することができる。
〔参考文献1〕
五十嵐大,外2名,「多値属性に適用可能な効率的プライバシー保護クロス集計」,コンピュータセキュリティシンポジウム2008
第一実施形態は、データベースの全ての属性値がいわゆる数値属性値である場合のデータベース撹乱システムであった。これに対して、第二実施形態は、データベースの属性値がいわゆるカテゴリ属性値を含む場合のデータベース撹乱システムである。第二実施形態で撹乱の対象となるデータベースの例を図8に示す。
カテゴリ属性値とは、例えば性別等の属性値であり、数値属性値とは異なり属性値の取り得る値がいくつかに制限されている属性値のことである。
第二実施形態の撹乱部12は、図2のステップS1に代えて、図3のステップS10,S1,S11の処理を行う。
属性値がカテゴリ属性値である場合には、撹乱部12は、その属性値を所定の確率で他のカテゴリ属性値に置換する(ステップS11)。具体的には、いわゆる維持確率ρの維持−置換撹乱を行う。
パラメータ決定部13は、上記式(9)によりk’を計算する(ステップS02)。
パラメータ決定部13は、計算されたk’と所望のkとを比較する(ステップS03)。
パラメータ決定部13は、k’がk以上であれば、σmax=σとする(ステップS04)。すなわち、σの値を、変数σmaxに代入する。その後、ステップS06に進む。
パラメータ決定部13は、区間[0,σmax]で、上記式(10)を評価式とする二分法によりkが所望の値になるまで反復計算して最適なσを求める(ステップS06)。
このようにして撹乱されたデータベースは、第一実施形態と同様に、いわゆるPk−匿名性を満たす。ここでは、その証明を省略する。
パラメータ決定部13は、二分法によらなくても、パラメータを決定することができる。パラメータ決定部13は、例えば以下のようにしてパラメータσを決定することができる。
maxu,v∈V(||u-v||1)をmと表記し、c=(k-1)/(|R|-1)とおけば、上記式(4)は、
c≦exp(-2m/σ)
ln c≦-2m/σ
σ≦-2m/ln c
と変形することができる。したがって、パラメータ決定部13は、数値計算である二分法を用いなくても例えば下記の式によりσを計算することができる。
撹乱部12が撹乱装置1に備えられ、集計部21が集計装置2に備えられていれば、他の各部はデータベース撹乱システムを構成する装置の何れに備えられていてもよい。
データベース撹乱装置の各部間のデータの送受信は直接行われてもよいし、図示していない記憶部を介して行われてもよい。データベース撹乱システムの各装置間のデータの送受信は直接行われてもよいし、他の装置を経由して行われてもよい。
その他、この発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
なお、確率密度関数Aa(p)v,v’は、例えば、下記式により定義される分散2σ2のラプラス分布による区間[α,β]の有界ノイズ関数、又は、分散σ2の正規分布による区間[α,β]の有界ノイズ関数であってもよい。
α,βはα<βの関係を満たす任意の実数である。例えば、定義域Vaの区間を[α,β]とする。
11 データベース記憶部
12 撹乱部
13 パラメータ決定部
14 並替部
21 集計部
2 集計装置
Claims (6)
- テーブルは複数のレコードを含み、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|R|をレコードの数とし、ess inf・を・の本質的下限として、上記テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることにより上記テーブルの撹乱を行うデータベース撹乱装置に用いられる、上記パラメータpを決定するデータベース撹乱パラメータ決定装置において、
下記式を満たすパラメータpを決定するパラメータ決定部
を含むデータベース撹乱パラメータ決定装置。 - テーブルは複数のレコードを含み、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|R|をレコードの数とし、ess inf・を・の本質的下限として、上記テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpにより定まる確率密度関数Aa(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることにより上記テーブルの撹乱を行うデータベース撹乱装置に用いられる、上記パラメータpを決定するデータベース撹乱パラメータ決定方法において、
パラメータ決定部が、下記式を満たすパラメータpを決定するパラメータ決定ステップ、
を含むデータベース撹乱パラメータ決定方法。 - 請求項1から3のデータベース撹乱パラメータ決定装置と、
上記データベース撹乱装置と、
を含むデータベース撹乱システム。 - 請求項1から3の何れかのデータベース撹乱パラメータ決定装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012224743A JP5945490B2 (ja) | 2011-10-11 | 2012-10-10 | データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011223909 | 2011-10-11 | ||
JP2011223909 | 2011-10-11 | ||
JP2012224743A JP5945490B2 (ja) | 2011-10-11 | 2012-10-10 | データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013101324A JP2013101324A (ja) | 2013-05-23 |
JP5945490B2 true JP5945490B2 (ja) | 2016-07-05 |
Family
ID=48621957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012224743A Active JP5945490B2 (ja) | 2011-10-11 | 2012-10-10 | データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5945490B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7010365B2 (ja) * | 2018-03-19 | 2022-01-26 | 日本電信電話株式会社 | パラメータ設定装置、演算装置、それらの方法、およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7698250B2 (en) * | 2005-12-16 | 2010-04-13 | Microsoft Corporation | Differential data privacy |
US20090182797A1 (en) * | 2008-01-10 | 2009-07-16 | Microsoft Corporation | Consistent contingency table release |
US9305180B2 (en) * | 2008-05-12 | 2016-04-05 | New BIS Luxco S.à r.l | Data obfuscation system, method, and computer implementation of data obfuscation for secret databases |
US8627483B2 (en) * | 2008-12-18 | 2014-01-07 | Accenture Global Services Limited | Data anonymization based on guessing anonymity |
JP5411715B2 (ja) * | 2010-01-14 | 2014-02-12 | 日本電信電話株式会社 | 疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体 |
JP5651568B2 (ja) * | 2011-10-11 | 2015-01-14 | 日本電信電話株式会社 | データベース撹乱装置、システム、方法及びプログラム |
-
2012
- 2012-10-10 JP JP2012224743A patent/JP5945490B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013101324A (ja) | 2013-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108768665B (zh) | 区块链生成方法、装置、计算机设备以及存储介质 | |
Ponomareva et al. | How to dp-fy ml: A practical guide to machine learning with differential privacy | |
US10872166B2 (en) | Systems and methods for secure prediction using an encrypted query executed based on encrypted data | |
US20210360322A1 (en) | Methods and apparatus to categorize media impressions by age | |
EP3713191B1 (en) | Identifying legitimate websites to remove false positives from domain discovery analysis | |
JP5475610B2 (ja) | 撹乱装置、撹乱方法及びプログラム | |
US20180225581A1 (en) | Prediction system, method, and program | |
US10462107B2 (en) | Computer-implemented system and method for analyzing data quality | |
EP3832559A1 (en) | Controlling access to de-identified data sets based on a risk of re-identification | |
US20230214863A1 (en) | Methods and apparatus to correct age misattribution | |
CN114270391A (zh) | 量化隐私影响 | |
US20190318104A1 (en) | Data analysis server, data analysis system, and data analysis method | |
US20230351052A1 (en) | Data integrity | |
US20140366140A1 (en) | Estimating a quantity of exploitable security vulnerabilities in a release of an application | |
JP5651568B2 (ja) | データベース撹乱装置、システム、方法及びプログラム | |
US20230153662A1 (en) | Bayesian modeling for risk assessment based on integrating information from dynamic data sources | |
JP5945490B2 (ja) | データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム | |
US10467206B2 (en) | Data sampling in a storage system | |
US10380157B2 (en) | Ranking proximity of data sources with authoritative entities in social networks | |
US20230196136A1 (en) | Machine learning model predictions via augmenting time series observations | |
JP6556681B2 (ja) | 匿名化テーブル生成装置、匿名化テーブル生成方法、プログラム | |
US20220138603A1 (en) | Integration device, integration method, and integration program | |
JP2020109592A (ja) | 情報処理システム、情報処理装置、情報処理方法およびプログラム | |
US20220147651A1 (en) | Data management method, non-transitory computer readable medium, and data management system | |
JP5475608B2 (ja) | 撹乱システム、撹乱装置、撹乱方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151215 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160308 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160530 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5945490 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |