JP5945490B2 - データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム - Google Patents

データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム Download PDF

Info

Publication number
JP5945490B2
JP5945490B2 JP2012224743A JP2012224743A JP5945490B2 JP 5945490 B2 JP5945490 B2 JP 5945490B2 JP 2012224743 A JP2012224743 A JP 2012224743A JP 2012224743 A JP2012224743 A JP 2012224743A JP 5945490 B2 JP5945490 B2 JP 5945490B2
Authority
JP
Japan
Prior art keywords
disturbance
parameter
database
parameter determination
attribute value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012224743A
Other languages
English (en)
Other versions
JP2013101324A (ja
Inventor
大 五十嵐
大 五十嵐
亮 菊池
亮 菊池
千田 浩司
浩司 千田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012224743A priority Critical patent/JP5945490B2/ja
Publication of JP2013101324A publication Critical patent/JP2013101324A/ja
Application granted granted Critical
Publication of JP5945490B2 publication Critical patent/JP5945490B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、プライバシーを保護しながらデータマイニングを行う技術に関する。
いわゆるPk−匿名性を満たすデータベース撹乱技術及びそのデータベース撹乱技術で用いられるパラメータ決定技術が、特許文献1で提案されている(例えば、特許文献1参照。)。
Pk−匿名性は、データベースの各レコードと、その各レコードに対応する個人とを1/k以上の確率で結びつけることができないという性質である。
特開2011−100116号公報
しかしながら、特許文献1の技術は属性値がいわゆるカテゴリ属性値であることを想定しており、属性値がいわゆる数値属性値である場合には非特許文献1の技術を適用することができない。
この発明の課題は、属性値が数値属性値である場合にも適用することができる、Pk−匿名性を満たすデータベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システムを提供することである。
この発明の一態様によるデータベース撹乱装置は、テーブルは複数のレコードを含み、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|R|をレコードの数とし、ess inf・を・の本質的下限として、テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’として、所定のパラメータpにより定まる確率密度関数A(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることによりテーブルの撹乱を行うデータベース撹乱装置に用いられる、パラメータpを決定するデータベース撹乱パラメータ決定装置であって、下記式を満たすパラメータpを決定するパラメータ決定部を含む。
Figure 0005945490
属性値が数値属性値である場合にも適用することができる。
第一実施形態のデータベース撹乱システムを説明するためのブロック図。 第一実施形態のデータベース撹乱システムを説明するための流れ図。 第二実施形態のデータベース撹乱システムを説明するための流れ図。 データベース撹乱システムの変形例を説明するためのブロック図。 データベース撹乱システムの変形例を説明するためのブロック図。 データベース撹乱システムの変形例を説明するためのブロック図。 第一実施形態で撹乱の対象となるデータベースの例を説明するための図。 第二実施形態で撹乱の対象となるデータベースの例を説明するための図。 第一実施形態のパラメータの決定方法を説明するための流れ図。 第二実施形態のパラメータの決定方法を説明するための流れ図。 第二実施形態のパラメータの決定方法を説明するための流れ図。
以下、図面を参照して、この発明の実施形態を説明する。
[第一実施形態]
第一実施形態のデータベース撹乱システムは、図1に例示するように、撹乱装置1及び集計装置2を備えている。
撹乱装置1は、データベース記憶部11と、撹乱部12と、パラメータ決定部13とを例えば備えている。この例では、撹乱部12は、並替部14を備える。パラメータ決定部13が、特許請求の範囲のデータベース撹乱パラメータ決定装置に対応している。
集計装置2は、集計部21を例えば備えている。
データベース記憶部11には、撹乱の対象となるデータベースが記憶されている。データベース記憶部11に記憶されたデータベースについての情報は、撹乱部12に送信される。
データベースは、図7に例示するように、複数のレコードから構成されている。
各レコードは、レコード識別子と少なくとも1つの属性値とから構成されている。レコード識別子は、個人を識別する識別子であり、いわゆるレコードIDである。レコード識別子は、例えば氏名や氏名に対応するID番号である。
各属性値は、第一実施形態では、n次元実数ベクトルの部分集合Vに含まれるベクトルであり、いわゆる数値属性値である。nは、1以上の整数である。n=1であり属性が例えば「中間テストの点数」や「期末テストの点数」である場合には、属性値は0から100までの何れかの整数である。
撹乱部12は、データベース記憶部11から読み込んだデータベースに含まれる一部又は全部の属性値のそれぞれについて、所定のパラメータpにより定まる確率密度関数A(p)v,v’に基づく撹乱を行うことによりデータベースの撹乱を行う(ステップS1)。撹乱されたデータベースは、並替部14に送信される。撹乱の対象となる属性値が複数ある場合には、それらの複数の属性値を独立に撹乱してもよいし、従属に撹乱してもよい。
確率密度関数A(p)v,v’に基づく撹乱とは、例えばデータベース記憶部11から読み込んだデータベースに含まれる一部又は全部の属性値のそれぞれについて、確率密度関数A(p)v,v’に従う値を加算することや、後述する維持確率ρの維持−置換撹乱を行うことを意味する。
確率密度関数A(p)v,v’は、例えば下記式により定義される平均μであり分散2σのラプラス分布である。この場合、所定のパラメータpは、σである。
Figure 0005945490

||・||は・のいわゆるL1ノルムである。
例えば、μ=0とする。この場合、撹乱部12が用いるラプラス分布は以下のようになる。
Figure 0005945490
以下、「ラプラス分布に従う値」について説明する。まず、ラプラス分布を含む一般の確率密度関数fに従う値について説明する。ここでは表記の簡略化のために、確率密度関数fと書く。確率密度関数fは上記確率密度関数A(p)v,v’と同じと考えてよい。
1.「確率密度関数fに従う値」について
(1)確率密度関数fの定義域及び属性値が1次元の場合
(i)累積分布関数F(x)=∫−∞ f(x’)dx’を求める。
(ii)累積分布関数F(x)の逆関数F−1を求める。
(iii)区間[0,1]上の一様乱数rを生成する。
(iv)F−1(r)を「確率密度関数fに従う値」として出力する。
累積分布関数F(x)や逆関数F−1が数式で得られる場合にはその数式に基づいてF−1(r)を計算してもよいし、そうでない場合には数値計算によってF−1(r)を計算してもよい。
(2)確率密度関数fの定義域及び属性値がn次元の場合
i=0,…,n−1のそれぞれに対して、以下の(i)(ii)を行う。
(i)xからxi−1までを固定し、xi+1からxn−1までを積分し、xだけを変数として残した確率密度関数fを求める。
Figure 0005945490

(ii)確率密度関数fの定義域は1次元なので、上記「(1)確率密度関数fの定義域及び属性値が1次元の場合」で示した方法と同様の方法により、「確率密度関数fに従う値」を計算する。
i=0,…,n−1のそれぞれに対して「確率密度関数fに従う値」を計算することにより、n個の「確率密度関数fに従う値」が得られる。
上記の方法を、確率密度関数がラプラス分布の場合に当てはめると以下のようになる。
2.「ラプラス分布に従う値」について
(1)ラプラス分布の定義域及び属性値が1次元の場合
(i)区間[0,1]上の一様乱数r、区間(0,1)上の一様乱数bを生成する。
(ii)(−1)σlogr+μを「ラプラス分布に従う値」として出力する。
(2)ラプラス分布の定義域及び属性値がn次元の場合
(i)上記「(1)ラプラス分布の定義域及び属性値が1次元の場合」で示した方法と同様の方法により、n個の「ラプラス分布に従う値」であるx,x,…,xn−1を計算する。
(ii)これらのx,x,…,xn−1を「ラプラス分布に従う値」として出力する。
並替部14は、撹乱部12により撹乱されたデータベースに含まれるレコードの順序を並び替える(ステップS2)。レコードが並び替えられたデータベースは、集計装置2に送信される。
並び替えの対象となるのは、データベースに含まれる全部又は一部のレコードである。レコードの並び替えは、一様ランダムに行われてもよいし、ランダムに行われてもよいし、一部又は全部の属性値についての昇順、降順等の所定の並替規則に基づいて行われてもよい。
パラメータ決定部13は、撹乱部2のステップS0の処理の前に、パラメータpを決定する(ステップS0)。決定されたパラメータpは、撹乱部2に送信される。
例えば、確率密度関数A(p)v,v’が一般の確率密度関数であり、属性値の数が1である場合には、パラメータ決定部13は、パラメータpを以下の式(1)を満たすように決定する。kはセキュリティパラメータであり、|R|はデータベースのレコードの数であり、ess inf・は・の本質的下限である。撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’とする。
Figure 0005945490
関数f(x)の定義域をχとすると、関数f(x)の本質的下限ess inf f(x)は、具体的には以下のように書ける。μ({f<b})を、関数f(x)<bとなる領域の測度(例えば、面積又は体積)とする。下記式のRは実数を意味する。
Figure 0005945490
例えば、確率密度関数A(p)v,v’が一般の確率密度関数であり、属性値の数が1以上である場合には、パラメータ決定部13は、パラメータpを以下の式(2)を満たすように決定する。属性aに対応する確率密度関数をA(p)v,v’として、撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’とする。
Figure 0005945490
例えば、確率密度関数A(p)v,v’が平均μであり分散2σのラプラス分布であり、属性値の種類の数が1である場合には、パラメータ決定部13は、パラメータであるσを下記式(3)又は(4)を満たすよう定める。
Figure 0005945490
属性値の種類の数が1以上である場合には、パラメータ決定部13は、パラメータであるσを下記式(5)又は(6)を満たすように定める。
Figure 0005945490
パラメータ決定部13は、例えばいわゆる二分法により、上記式(1)から(6)の何れかを満たすパラメータp又はσを決定する。以下、図9を参照して、確率密度関数A(p)v,v’が平均μであり分散2σのラプラス分布であり、属性値の種類の数が1である場合を例に挙げて、二分法を用いてこの場合のパラメータであるσを決定する方法を説明する。
まず、パラメータ決定部13は、σ=1とする(ステップS01)。
パラメータ決定部13は、下記式(7)によりk’を計算する(ステップS02)。下記式(7)は、上記式(4)に対応するものである。
Figure 0005945490
パラメータ決定部13は、計算されたk’と所望のkとを比較する(ステップS03)。
パラメータ決定部13は、k’がk以上であれば、σmax=σとする(ステップS04)。すなわち、σの値を、変数σmaxに代入する。その後、ステップS06に進む。
パラメータ決定部13は、k’がk以上でなければ、σ=2σとする(ステップS05)。すなわち、現在のσの値を2倍した値を新たなσの値とする。その後、ステップS02に進む。
パラメータ決定部13は、区間[0,σmax]で、上記式(7)を評価式とする二分法によりkが所望の値になるまで反復計算して最適なσを求める(ステップS06)。
このようにして撹乱されたデータベースは、いわゆるPk−匿名性を満たす。ここでは、その証明を省略する。Pk−匿名性は、データベースの各レコードと、その各レコードに対応する個人とを1/k以上の確率で結びつけることができないという性質である。
したがって、このようにして撹乱されたデータベースは、Pk−匿名性という明確な基準で匿名性が保障される。また、撹乱前のデータベース及び撹乱後のデータベースを用いずに匿名性を保障することができる。
集計部21は、撹乱装置1により撹乱されたデータベースを用いて集計処理を行う(ステップS3)。集計部21は、例えば、参考文献1に記載された反復ベイズ手法等を用いて、クロス集計等の集計結果を推定する。
〔参考文献1〕
五十嵐大,外2名,「多値属性に適用可能な効率的プライバシー保護クロス集計」,コンピュータセキュリティシンポジウム2008
[第二実施形態]
第一実施形態は、データベースの全ての属性値がいわゆる数値属性値である場合のデータベース撹乱システムであった。これに対して、第二実施形態は、データベースの属性値がいわゆるカテゴリ属性値を含む場合のデータベース撹乱システムである。第二実施形態で撹乱の対象となるデータベースの例を図8に示す。
カテゴリ属性値とは、例えば性別等の属性値であり、数値属性値とは異なり属性値の取り得る値がいくつかに制限されている属性値のことである。
以下、第一実施形態と異なる部分を中心に説明する。第一実施形態と同様の部分については説明を省略する。
第二実施形態の撹乱部12は、図2のステップS1に代えて、図3のステップS10,S1,S11の処理を行う。
撹乱部12は、まず、データベース記憶部11から読み込んだデータベースに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値がカテゴリ属性値であるか判定する(ステップS10)。
属性値がカテゴリ属性値でない場合には、すなわち数値属性値である場合には、撹乱部12は、第一実施形態と同様の方法によりラプラス分布に従う値の加算を行う(ステップS1)。
属性値がカテゴリ属性値である場合には、撹乱部12は、その属性値を所定の確率で他のカテゴリ属性値に置換する(ステップS11)。具体的には、いわゆる維持確率ρの維持−置換撹乱を行う。
維持確率ρの維持−置換撹乱は、維持確率ρが予め定められているとして、維持確率ρでその属性値を変更せずに維持し、1−ρの確率でその属性値を他のカテゴリ属性値に置換する撹乱方法である。他のカテゴリ属性値に置換するとは、例えば属性が性別であり属性値が「男」である場合には、その属性値「男」を属性値「女」に置換することを意味する。維持確率ρの維持−置換撹乱の詳細については、特許文献1を参照のこと。
確率密度関数A(p)v,v’が平均μ分散2σのラプラス分布であり、属性の種類の数が2以上である場合には、パラメータ決定部13は、パラメータであるσ及び維持確率ρは下記式(8)を満たすように決定する。|V|は、属性aのカテゴリ属性値の取り得る値の数である。
Figure 0005945490

kという1つのパラメータからσ及びρの2つのパラメータを決定する場合には、σ=f(ρ)というρからσが定まる関数、又は、ρ=g(σ)というσからρが定まる関数を予め定めておいて、σ及びρを1つのパラメータに基づくものと見なしてσ及びρを決定する。
まず、例えばσ=f(ρ)=tan((π/4)(1−ρ))とした場合の説明をする。この場合のkの評価式は、以下のようになる。
Figure 0005945490
その後、パラメータ決定部13は、求まったρに基づいて、σ=f(ρ)=tan((π/4)(1−ρ))を計算する(ステップS08)。
つぎに、例えばρ=g(σ)=fL0,1/2(σ)とした場合を説明する。fL0,1/2(σ)は、以下のように定義される。
Figure 0005945490
この場合のkの評価式は、以下のようになる。
Figure 0005945490

すなわち、パラメータ決定部13は、σ=1とする(ステップS01)。
パラメータ決定部13は、上記式(9)によりk’を計算する(ステップS02)。
パラメータ決定部13は、計算されたk’と所望のkとを比較する(ステップS03)。
パラメータ決定部13は、k’がk以上であれば、σmax=σとする(ステップS04)。すなわち、σの値を、変数σmaxに代入する。その後、ステップS06に進む。
パラメータ決定部13は、k’がk以上でなければ、σ=2σとする(ステップS05)。すなわち、現在のσの値を2倍した値を新たなσの値とする。その後、ステップS02に進む。
パラメータ決定部13は、区間[0,σmax]で、上記式(10)を評価式とする二分法によりkが所望の値になるまで反復計算して最適なσを求める(ステップS06)。
その後、パラメータ決定部13は、求まったσに基づいて、ρ=g(σ)=fL0,1/2(σ)を計算する(ステップS09)。
このようにして撹乱されたデータベースは、第一実施形態と同様に、いわゆるPk−匿名性を満たす。ここでは、その証明を省略する。
したがって、このようにして撹乱されたデータベースは、第一実施形態と同様に、Pk−匿名性という明確な基準で匿名性が保障される。また、撹乱前のデータベース及び撹乱後のデータベースを用いずに匿名性を保障することができる。
[変形例等]
パラメータ決定部13は、二分法によらなくても、パラメータを決定することができる。パラメータ決定部13は、例えば以下のようにしてパラメータσを決定することができる。
maxu,v∈V(||u-v||1)をmと表記し、c=(k-1)/(|R|-1)とおけば、上記式(4)は、
c≦exp(-2m/σ)
ln c≦-2m/σ
σ≦-2m/ln c
と変形することができる。したがって、パラメータ決定部13は、数値計算である二分法を用いなくても例えば下記の式によりσを計算することができる。
Figure 0005945490
パラメータ決定部13は、同様にして、属性値の種類の数が1以上である場合には、下記式によりσを計算することができる。
Figure 0005945490
並替部14の処理は行わなくてもよい。この場合、データベースのレコードの並び替えは行われず、撹乱部12により撹乱されたデータベースが集計装置2に送信される。集計装置2は、受信した並び替えが行われていないデータベースに基づいて集計処理を行う。
撹乱部12が撹乱装置1に備えられ、集計部21が集計装置2に備えられていれば、他の各部はデータベース撹乱システムを構成する装置の何れに備えられていてもよい。
例えば、図4に例示するように、パラメータ決定部13が集計装置2に備えられていてもよい。この場合、パラメータ決定部13により決定されたパラメータは、撹乱装置1に送信される。
また、例えば、図5に示すように、データベース撹乱システムが、撹乱装置1、集計装置2及び撹乱データサーバ装置3から構成されている場合には、パラメータ決定部13が撹乱データサーバ装置3に備えられていてもよい。この場合、パラメータ決定部13により決定されたパラメータは撹乱装置1に送信され、撹乱装置1により撹乱されたデータベースは撹乱データサーバ装置3を経由して集計装置2に送信される。具体的には、撹乱データサーバ装置3のデータ送受信部31が、撹乱装置1により撹乱されたデータベースを受信して、集計装置2に送信する。
また、図6に例示するように、データベース撹乱システムに、撹乱装置1及び集計装置2のそれぞれが複数備えられていてもよい。
データベース撹乱装置の各部間のデータの送受信は直接行われてもよいし、図示していない記憶部を介して行われてもよい。データベース撹乱システムの各装置間のデータの送受信は直接行われてもよいし、他の装置を経由して行われてもよい。
その他、この発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき各部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各部がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
[追加の変形例]
なお、確率密度関数A(p)v,v’は、例えば、下記式により定義される分散2σのラプラス分布による区間[α,β]の有界ノイズ関数、又は、分散σの正規分布による区間[α,β]の有界ノイズ関数であってもよい。
Figure 0005945490

α,βはα<βの関係を満たす任意の実数である。例えば、定義域Vの区間を[α,β]とする。
ラプラス分布及び正規分布等の確率密度関数f(x)による区間[α,β]の有界ノイズ関数とは、γをγ∈[α,β]として、あるγに応じて定まるδγに対して、γ+xが区間[α,β]に属するxに対しては(すなわち、区間[α−γ,β−γ]のxに対しては)fγ(x)=f(x)/δγ、γ+xが区間[α,β]に属しないxに対しては(すなわち、区間[α−γ,β−γ]の範囲外のxに対しては)fγ(x)=0となる確率密度関数fγのことである。確率密度関数fγに従う値のことを、確率密度関数f(x)による有界ノイズと表現してもよい。
確率密度関数A(p)v,v’が、分散2σのラプラス分布による区間[α,β]の有界ノイズ関数である場合には、パラメータ決定部13は、確率密度関数A(p)v,v’が分散2σのラプラス分布である場合と同様にして、パラメータであるσを定める。すなわち、この場合、パラメータ決定部13は、パラメータであるσを上記式(3)から(10)を満たすよう定める。
また、確率密度関数A(p)v,v’が、分散σの正規分布による区間[α,β]の有界ノイズ関数であり、属性値の種類の数が1である場合には、パラメータ決定部13は、下記式を満たすパラメータσを決定する。
Figure 0005945490
また、確率密度関数A(p)v,v’が、分散σの正規分布による区間[α,β]の有界ノイズ関数であり、属性値の種類の数が1以上である場合には、パラメータ決定部13は、下記式を満たすパラメータσを決定する。
Figure 0005945490
さらに、第二実施形態において、確率密度関数A(p)v,v’が、分散σの正規分布による区間[α,β]の有界ノイズ関数であり、属性値の種類の数が1以上である場合には、パラメータ決定部13は、上記式(8)から(10)に代えて、それぞれ下記式(8’)から(10’)を満たすパラメータを決定してもよい。
Figure 0005945490
Figure 0005945490

Figure 0005945490

1 撹乱装置
11 データベース記憶部
12 撹乱部
13 パラメータ決定部
14 並替部
21 集計部
2 集計装置

Claims (6)

  1. テーブルは複数のレコードを含み、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|R|をレコードの数とし、ess inf・を・の本質的下限として、上記テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’として、所定のパラメータpにより定まる確率密度関数A(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることにより上記テーブルの撹乱を行うデータベース撹乱装置に用いられる、上記パラメータpを決定するデータベース撹乱パラメータ決定装置において、
    下記式を満たすパラメータpを決定するパラメータ決定部
    Figure 0005945490

    を含むデータベース撹乱パラメータ決定装置。
  2. 請求項1のデータベース撹乱パラメータ決定装置において、
    α,βをα<βの関係を満たす任意の実数とし、上記定義域Vは区間[α,β]であるとして、
    上記確率密度関数A(p)v,v’は、下記式により定義される分散2σのラプラス分布又はそのラプラス分布による区間[α,β]の有界ノイズ関数であるとし、上記パラメータpは上記σであるとし、||・||を・のL1ノルムとして、
    Figure 0005945490

    上記パラメータ決定部は、下記式を満たすパラメータσを決定する、
    Figure 0005945490

    データベース撹乱パラメータ決定装置。
  3. 請求項1のデータベース撹乱パラメータ決定装置において、
    α,βをα<βの関係を満たす任意の実数とし、上記定義域Vは区間[α,β]であるとして、
    上記確率密度関数A(p)v,v’は、分散σの正規分布による区間[α,β]の有界ノイズ関数であるとし、上記パラメータpは上記σであるとし、||・||を・のL1ノルムとして、
    上記パラメータ決定部は、下記式を満たすパラメータσを決定する、
    Figure 0005945490

    データベース撹乱パラメータ決定装置。
  4. テーブルは複数のレコードを含み、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|R|をレコードの数とし、ess inf・を・の本質的下限として、上記テーブルに含まれる一部又は全部の属性値のそれぞれについて、そのそれぞれの属性値vの属性をaとし、撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’として、所定のパラメータpにより定まる確率密度関数A(p)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることにより上記テーブルの撹乱を行うデータベース撹乱装置に用いられる、上記パラメータpを決定するデータベース撹乱パラメータ決定方法において、
    パラメータ決定部が、下記式を満たすパラメータpを決定するパラメータ決定ステップ、
    Figure 0005945490

    を含むデータベース撹乱パラメータ決定方法。
  5. 請求項1からのデータベース撹乱パラメータ決定装置と、
    上記データベース撹乱装置と、
    を含むデータベース撹乱システム。
  6. 請求項1からの何れかのデータベース撹乱パラメータ決定装置の各部としてコンピュータを機能させるためのプログラム。
JP2012224743A 2011-10-11 2012-10-10 データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム Active JP5945490B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012224743A JP5945490B2 (ja) 2011-10-11 2012-10-10 データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011223909 2011-10-11
JP2011223909 2011-10-11
JP2012224743A JP5945490B2 (ja) 2011-10-11 2012-10-10 データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム

Publications (2)

Publication Number Publication Date
JP2013101324A JP2013101324A (ja) 2013-05-23
JP5945490B2 true JP5945490B2 (ja) 2016-07-05

Family

ID=48621957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012224743A Active JP5945490B2 (ja) 2011-10-11 2012-10-10 データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム

Country Status (1)

Country Link
JP (1) JP5945490B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7010365B2 (ja) * 2018-03-19 2022-01-26 日本電信電話株式会社 パラメータ設定装置、演算装置、それらの方法、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698250B2 (en) * 2005-12-16 2010-04-13 Microsoft Corporation Differential data privacy
US20090182797A1 (en) * 2008-01-10 2009-07-16 Microsoft Corporation Consistent contingency table release
US9305180B2 (en) * 2008-05-12 2016-04-05 New BIS Luxco S.à r.l Data obfuscation system, method, and computer implementation of data obfuscation for secret databases
US8627483B2 (en) * 2008-12-18 2014-01-07 Accenture Global Services Limited Data anonymization based on guessing anonymity
JP5411715B2 (ja) * 2010-01-14 2014-02-12 日本電信電話株式会社 疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体
JP5651568B2 (ja) * 2011-10-11 2015-01-14 日本電信電話株式会社 データベース撹乱装置、システム、方法及びプログラム

Also Published As

Publication number Publication date
JP2013101324A (ja) 2013-05-23

Similar Documents

Publication Publication Date Title
CN108768665B (zh) 区块链生成方法、装置、计算机设备以及存储介质
Ponomareva et al. How to dp-fy ml: A practical guide to machine learning with differential privacy
US10872166B2 (en) Systems and methods for secure prediction using an encrypted query executed based on encrypted data
US20210360322A1 (en) Methods and apparatus to categorize media impressions by age
EP3713191B1 (en) Identifying legitimate websites to remove false positives from domain discovery analysis
JP5475610B2 (ja) 撹乱装置、撹乱方法及びプログラム
US20180225581A1 (en) Prediction system, method, and program
US10462107B2 (en) Computer-implemented system and method for analyzing data quality
EP3832559A1 (en) Controlling access to de-identified data sets based on a risk of re-identification
US20230214863A1 (en) Methods and apparatus to correct age misattribution
CN114270391A (zh) 量化隐私影响
US20190318104A1 (en) Data analysis server, data analysis system, and data analysis method
US20230351052A1 (en) Data integrity
US20140366140A1 (en) Estimating a quantity of exploitable security vulnerabilities in a release of an application
JP5651568B2 (ja) データベース撹乱装置、システム、方法及びプログラム
US20230153662A1 (en) Bayesian modeling for risk assessment based on integrating information from dynamic data sources
JP5945490B2 (ja) データベース撹乱パラメータ決定装置、方法及びプログラム並びにデータベース撹乱システム
US10467206B2 (en) Data sampling in a storage system
US10380157B2 (en) Ranking proximity of data sources with authoritative entities in social networks
US20230196136A1 (en) Machine learning model predictions via augmenting time series observations
JP6556681B2 (ja) 匿名化テーブル生成装置、匿名化テーブル生成方法、プログラム
US20220138603A1 (en) Integration device, integration method, and integration program
JP2020109592A (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム
US20220147651A1 (en) Data management method, non-transitory computer readable medium, and data management system
JP5475608B2 (ja) 撹乱システム、撹乱装置、撹乱方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160308

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160530

R150 Certificate of patent or registration of utility model

Ref document number: 5945490

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150