JP6310345B2 - プライバシー保護装置、プライバシー保護方法及びデータベース作成方法 - Google Patents

プライバシー保護装置、プライバシー保護方法及びデータベース作成方法 Download PDF

Info

Publication number
JP6310345B2
JP6310345B2 JP2014134321A JP2014134321A JP6310345B2 JP 6310345 B2 JP6310345 B2 JP 6310345B2 JP 2014134321 A JP2014134321 A JP 2014134321A JP 2014134321 A JP2014134321 A JP 2014134321A JP 6310345 B2 JP6310345 B2 JP 6310345B2
Authority
JP
Japan
Prior art keywords
data
privacy protection
protection device
conversion
aggregated data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014134321A
Other languages
English (en)
Other versions
JP2016012074A (ja
Inventor
寺田 雅之
雅之 寺田
亮平 鈴木
亮平 鈴木
岡島 一郎
一郎 岡島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2014134321A priority Critical patent/JP6310345B2/ja
Publication of JP2016012074A publication Critical patent/JP2016012074A/ja
Application granted granted Critical
Publication of JP6310345B2 publication Critical patent/JP6310345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、プライバシー保護装置、プライバシー保護方法及びデータベース作成方法に関する。
1または複数の属性を有するレコードの集合から構成されるデータベースにおいて、ある属性または属性の組み合わせに該当するレコードの個数を数え上げた値の集合を集計データと呼ぶ。この集計データは、様々な統計分析における基礎データとして広く用いられている。集計データは、例えば、国勢調査の結果に基づく各種の地域別人口、パーソントリップ調査結果に基づき出発地及び到着地の組ごとに移動人数を集計したOD(origin-destination)表等の各種の公的統計、並びに、携帯電話の運用データから日本全国の属性別人口を時間帯別に推計したモバイル空間統計等に用いられている。
近年、情報セキュリティ分野及びデータベース処理分野等において、プライバシーを保護しつつ有用なデータを公開するための様々な新しい基準及び手法が提案されている。これらの技術は、プライバシー保護データ公開(PPDP;privacy-preserving data publishing)技術等と呼ばれている。しかし、これらのPPDP技術は、それぞれ攻撃者が持つ目的、能力及び背景知識に関する前提が異なり、その安全性について一概に議論することが困難であることから、実際のデータ活用に適用することは容易ではない。すなわち、これらの技術を実際に適用する上では、扱うデータの性質及び応用ごとに、「どのプライバシー保護基準に基づいて、どの手法によりプライバシーを保護するべきか」を適切に判断することが求められるが、この判断をすべてのデータ活用において行うことは現実的にはできない。
そこで、Dworkらによって2006年に提案された差分プライバシー基準(differential privacy)が着目されている(特許文献1、非特許文献1,2参照)。この差分プライバシー基準は、「加工データを作成する上での元データとなるデータベースに、ある人が含まれるか否かの、加工データからの判別困難性」を安全性の根拠とするプライバシー保護基準である。差分プライバシー基準は、他の多くのプライバシー保護基準とは異なり、任意の背景知識を持つ攻撃者及び未知の攻撃に対して数学的な安全性が与えられているという優れた性質を有する。差分プライバシー基準を満たす手段は「メカニズム(mechanism)」と呼ばれる。代表的な差分プライバシー基準のメカニズムとしてラプラス(Laplace)メカニズムが挙げられる。ラプラスメカニズムは「問い合わせ結果に対してラプラスノイズを加える」という簡単な手段によって実現することができる。
理論的には、ラプラスメカニズムを用いることにより、差分プライバシー基準を満たす集計データを簡単に作成することができる。ただし、ラプラスメカニズムを直接適用した方法では、複数のセルの値の部分和を取った際の誤差が大きくなり、集計データの有用性が劣化する。そこで、Xiaoらは、部分和精度を改善するために離散ウェーブレット(Wavelet)変換とその概念的な拡張であるNominalウェーブレット変換とを用いる方式を提案している(非特許文献3,4参照)。
特開2012−133320号公報
Cynthia Dwork. Differential Privacy. In Michele Bugliesi, BartPreneel, Vladimiro Sassone, and Ingo Wegener, editors, Proc. 33rd intl. conf.Automata, Languages and Programming - Volume Part II, Vol.4052 of Lecture Notesin Computer Science, pp.1-12. Springer, 2006. Cynthia Dwork. Differential privacy: a survey of results. In Proc.5th intl. conf. Theory and applications of models of computation, pp.1-19.Springer-Verlag, April 2008. Xiaokui Xiao, Guozhang Wang, and Johannes Gehrke. Differentialprivacy via wavelet transforms. In Proc. 26th intl. conf. Data Engineering(ICDE 2010), pp.225-236. IEEE, 2010. Xiaokui Xiao, Guozhang Wang, Johannes Gehrke, and Thomas Jefferson.Differential Privacy via Wavelet Transforms. IEEE Trans. Knowledge and DataEngineering, Vol.23, No.8, pp.1200-1214, August 2011.
しかしながら、ラプラスメカニズム及びXiaoらの手法が適用された集計データは、実際の集計データではあり得ない多くの負の値を含み得る。すなわち、集計データが本来備えるべき非負制約を逸脱することがある。この負の値は、データの利用者にとって不自然に感じられるだけでなく、分析プログラムの予期せぬ異常動作を引き起こす可能性があり、集計データの利用に著しい困難が生じるおそれがある。
これに対し、ラプラスメカニズムの適用後に負の値をゼロの値に校正することにより、見かけ上は非負制約を満たす集計データを生成できる。しかし、この方法ではセルの値の平均及び部分和に過大なバイアスが発生する。つまり、セルの値の平均及び部分和の期待値が元の集計データのセルの値及び部分和に対して大きく上振れする。このため、生成された集計データは実用に耐え難い。
本発明は、上記問題点に鑑みてなされたものであり、差分プライバシー基準を満たすとともに、部分和精度の改善及び非負制約の充足を併せて実現する集計データを提供可能なプライバシー保護装置、プライバシー保護方法及びデータベース作成方法を提供することを目的とする。
本発明の一態様に係るプライバシー保護装置は、複数のデータを含む第1集計データを入力し、第2集計データを出力するプライバシー保護装置である。このプライバシー保護装置は、第1集計データの入力を受け付ける入力手段と、入力手段によって受け付けられた第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換手段と、第1変換手段によって生成された第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第2系列データを生成する乱数付与手段と、第2集計データの各要素が負の値とならないように、乱数付与手段によって生成された第2系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第3系列データを生成する精緻化手段と、精緻化手段によって生成された第3系列データに、第1線形変換の逆変換である第2線形変換を適用することによって第2集計データを生成する第2変換手段と、第2変換手段によって生成された第2集計データを出力する出力手段と、を備える。
このプライバシー保護装置では、第1集計データに乱数が直接付与されるのではなく、第1集計データに適切な第1線形変換を施すことによって生成された第1系列データに対して乱数が付与されて、第2系列データが生成される。このため、適切な強度の乱数の付与によって、第2集計データが差分プライバシー基準を満たすようにすることができる。そして、第2系列データを木構造で表現した場合の木の低い階層の要素に付与された乱数は、部分和計算の際にキャンセルされる。これにより、第2集計データの部分和精度の劣化を抑制できる。また、第2集計データの各要素が負の値とならないように、第2系列データに含まれる要素の各々が予め定められた条件で補正されることによって、第2集計データが非負制約を満たすようにすることができる。その結果、差分プライバシー基準を満たすとともに、部分和精度の改善及び非負制約の充足を併せて実現する第2集計データを提供することが可能となる。
本発明の別の態様に係るプライバシー保護装置は、複数のデータを含む第1集計データを入力し、第2集計データを出力するプライバシー保護装置である。このプライバシー保護装置は、第1集計データの入力を受け付ける入力手段と、入力手段によって受け付けられた第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換手段と、第1変換手段によって生成された第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、第2集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、第2集計データを生成する高速変換手段と、高速変換手段によって生成された第2集計データを出力する出力手段と、を備える。
このプライバシー保護装置によれば、第1集計データに乱数が直接付与されるのではなく、第1集計データに適切な第1線形変換を施すことによって生成された第1系列データに含まれる要素の各々に対して乱数が付与されるとともに、第2集計データの各要素が負の値とならないように、乱数が付与された各要素が予め定められた条件で補正される。このため、適切な強度の乱数の付与によって、第2集計データが差分プライバシー基準を満たすようにすることができる。そして、第1系列データに乱数を付与したデータを木構造で表現した場合の木の低い階層の要素に付与された乱数は、部分和計算の際にキャンセルされる。これにより、第2集計データの部分和精度の劣化を抑制できる。また、第2集計データの各要素が負の値とならないように、乱数が付与された各要素が予め定められた条件で補正されることによって、第2集計データが非負制約を満たすようにすることができる。その結果、差分プライバシー基準を満たすとともに、部分和精度の改善及び非負制約の充足を併せて実現する第2集計データを提供することが可能となる。また、第1系列データに対し、乱数の付与と精緻化処理とが並行して実施される。このため、計算量を大幅に削減することができ、第2集計データの提供を高速化することが可能となる。
第1線形変換は、Haar関数を母ウェーブレットとするHaarウェーブレット変換であってもよい。この場合、第1線形変換を適用することによって生成された第1系列データの各要素が木構造で表現でき、かつ、第1系列データの各要素の値が、木における子孫の部分和にのみ影響を与える。このため、木構造で表現した要素について、木の上位階層から順に木を辿って各要素に対して非負制約を満たすように精緻化を施していくだけで、木の最下位の階層まで辿り終わったときに全ての要素が非負制約を満たすことが保証される。これにより、精緻化処理における計算の単純化が可能となる。
乱数は、ラプラス分布に従う乱数であるラプラス乱数または幾何分布に従う乱数である幾何乱数であってもよい。この場合、第2集計データが差分プライバシー基準を満たすことが保証される。
精緻化処理は、第2系列データをウェーブレット係数の系列として見た場合に、ウェーブレット係数における近似係数ベクトルの各要素が負の値とならないように、ウェーブレット係数における詳細係数ベクトルの各要素の値を補正する処理を含んでもよい。この場合、全ての詳細係数ベクトルの各要素の値を補正することにより、非負制約を満たす第3系列データの生成を簡単化でき、非負制約を満たす第2集計データの提供を簡単化することが可能となる。
第1変換手段は、第1集計データを疎データ形式で表現し、第1集計データに含まれるデータのうち、ゼロ以外の値を有するデータに第1線形変換を適用することによって第1系列データを生成してもよい。この場合、ゼロの値を有するデータへの第1線形変換の適用が省略されるので、第1線形変換における計算量の削減が可能となる。
ところで、本発明は、上記のようにプライバシー保護装置の発明として記述できる他に、以下のようにプライバシー保護方法及びデータベース作成方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
すなわち、本発明のさらに別の態様に係るプライバシー保護方法は、複数のデータを含む第1集計データを入力し、第2集計データを出力するプライバシー保護装置が行うプライバシー保護方法である。このプライバシー保護方法は、第1集計データの入力を受け付ける入力ステップと、入力ステップにおいて受け付けられた第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換ステップと、第1変換ステップにおいて生成された第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第2系列データを生成する乱数付与ステップと、第2集計データの各要素が負の値とならないように、乱数付与ステップにおいて生成された第2系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第3系列データを生成する精緻化ステップと、精緻化ステップにおいて生成された第3系列データに、第1線形変換の逆変換である第2線形変換を適用することによって第2集計データを生成する第2変換ステップと、第2変換ステップにおいて生成された第2集計データを出力する出力ステップと、を備える。
本発明のさらに別の態様に係るプライバシー保護方法は、複数のデータを含む第1集計データを入力し、第2集計データを出力するプライバシー保護装置が行うプライバシー保護方法である。このプライバシー保護方法は、第1集計データの入力を受け付ける入力ステップと、入力ステップにおいて受け付けられた第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換ステップと、第1変換ステップにおいて生成された第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、第2集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、第2集計データを生成する高速変換ステップと、高速変換ステップにおいて生成された第2集計データを出力する出力ステップと、を備える。
本発明のさらに別の態様に係るデータベース作成方法は、プライバシーが保護された集計データを備えるデータベース作成方法である。このデータベース作成方法は、複数のデータを含む第1集計データの入力を受け付ける入力ステップと、入力ステップにおいて受け付けられた第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換ステップと、第1変換ステップにおいて生成された第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第2系列データを生成する乱数付与ステップと、第2集計データの各要素が負の値とならないように、乱数付与ステップにおいて生成された第2系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第3系列データを生成する精緻化ステップと、精緻化ステップにおいて生成された第3系列データに、第1線形変換の逆変換である第2線形変換を適用することによって第2集計データを生成する第2変換ステップと、第2変換ステップにおいて生成された第2集計データをデータベースに出力する出力ステップと、を備える。
本発明のさらに別の態様に係るデータベース作成方法は、プライバシーが保護された集計データを備えるデータベース作成方法である。複数のデータを含む第1集計データの入力を受け付ける入力ステップと、入力ステップにおいて受け付けられた第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換ステップと、第1変換ステップにおいて生成された第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、第2集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、第2集計データを生成する高速変換ステップと、高速変換ステップにおいて生成された第2集計データを出力する出力ステップと、を備える。
本発明によれば、差分プライバシー基準を満たすとともに、部分和精度の改善及び非負制約の充足を併せて実現する集計データを提供することができる。
第1実施形態に係るプライバシー保護装置の構成を概略的に示す図である。 図1のプライバシー保護装置のハードウェア構成図である。 図1の第1変換部による第1系列データの生成処理を説明するための図である。 図1の乱数付与部による第2系列データの生成処理を説明するための図である。 図1の精緻化部による精緻化処理を説明するための図である。 図1のプライバシー保護装置によって実行されるプライバシー保護方法の一連の処理を示すフローチャートである。 第2実施形態に係るプライバシー保護装置の構成を概略的に示す図である。 図7のプライバシー保護装置によって実行されるプライバシー保護方法の一連の処理を示すフローチャートである。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。
[第1実施形態]
図1は、第1実施形態に係るプライバシー保護装置の構成を概略的に示す図である。図1に示されるように、プライバシー保護装置10は、複数のデータ(以下、「要素」という。)を含む第1集計データVを入力し、第2集計データVを出力する装置であり、例えば、サーバ装置等の情報処理装置によって構成されている。プライバシー保護装置10は、集計データを公開するにあたって、データベースに含まれる人々のプライバシーに関する情報(個人情報)の漏洩を防止するためのプライバシー保護処理を第1集計データVに施す。例えば、プライバシー保護装置10は、携帯電話ネットワークの情報を用いた人口動態の推計等の統計データの提供及び開示におけるプライバシーを保護する。
第1集計データVは、プライバシー保護装置10によるプライバシー保護処理の処理対象であり、1または複数の属性を有するレコードの集合から構成されるデータベースにおいて、ある属性または属性の組み合わせに該当するレコードの個数を数え上げた値の集合である。第1集計データVは、例えば、人々に関係するデータベースから作成される。第2集計データVは、プライバシー保護装置10によって第1集計データVにプライバシー保護処理が施された集計データであり、差分プライバシー基準を満たし、かつ、非負制約を満たすプライバシー保護済み集計データである。ここで、第1集計データVをV=(v,v,・・・,v)とし、第2集計データVをV=(v ,v ,・・・,v )とする。また、nは、第1集計データVの論理的な空間のサイズであって、n=2(kは自然数)であるとする。なお、説明の便宜上、一次元のデータ系列を対象にしているが、多次元のデータ系列であってもよい。例えば、ウェーブレット変換の標準分解(standard decomposition)の適用等によって、容易に多次元のデータ系列に拡張できる。
プライバシー保護装置10は、機能的には、入力部11(入力手段)と、第1変換部12(第1変換手段)と、乱数付与部13(乱数付与手段)と、精緻化部14(精緻化手段)と、第2変換部15(第2変換手段)と、出力部16(出力手段)と、を備える。プライバシー保護装置10は、図2に示されるハードウェアによって構成される。
図2は、プライバシー保護装置10のハードウェア構成図である。図2に示されるように、プライバシー保護装置10は、物理的には、1又は複数のCPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、データ送受信デバイスである通信モジュール104、ハードディスク装置等の補助記憶装置105、キーボード等のユーザの入力を受け付ける入力装置106、並びに、ディスプレイ等の出力装置107等のハードウェアを備えるコンピュータとして構成される。図1におけるプライバシー保護装置10の各機能は、CPU101、RAM102等のハードウェア上に1又は複数の所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで通信モジュール104、入力装置106及び出力装置107を動作させるとともに、RAM102及び補助記憶装置105におけるデータの読み出し及び書き込みを行うことで実現される。
図1に戻って、プライバシー保護装置10の機能構成について詳細に説明する。入力部11は、第1集計データVの入力を受け付ける入力手段として機能する。入力部11は、プライバシー保護装置10の外部から第1集計データVを受信し、受信した第1集計データVを第1変換部12に出力する。
第1変換部12は、入力部11によって受け付けられた第1集計データVに第1線形変換を適用することによって第1系列データWを生成する第1変換手段として機能する。ここで、第1線形変換は、第1線形変換を適用することによって生成された第1系列データWの各要素が木構造で表現でき、かつ、第1系列データWの各要素の値が、木における子孫の部分和にのみ影響を与えるという条件を満たす。このような第1線形変換として、例えば、Haarウェーブレット変換、Nominalウェーブレット変換、フーリエ(Fourier)変換、和差分解等が用いられる。
第1線形変換としてHaarウェーブレット変換を用いて説明を行う。Haarウェーブレット変換Ηは、階段関数の一種であるHaar関数を母ウェーブレットとした離散ウェーブレット変換の一種である。このHaarウェーブレット変換Ηは、逆変換関数であるHaarウェーブレット逆変換Η−1を有し、任意の第1集計データVについて、V=Η−1(Η(V))が成立する。第1変換部12は、第1線形変換を用いて、長さnのベクトル列である第1集計データVを、同じ長さnのベクトル列である第1系列データW=(w,w,・・・,w)に変換する。Haarウェーブレット変換Ηは、Haar分解Ηを再帰的にk回適用することによって成される。このHaar分解Ηは、以下の式(1)〜(3)に示されるように、長さ2(=q)のベクトル列Y=(y,y,・・・,y)を、長さ2p−1のベクトル列cA,cDに分解する。
Figure 0006310345

Figure 0006310345

Figure 0006310345
ベクトル列cAは、ベクトル列Yにおいて隣り合う2つの値の平均のベクトルであり、ベクトル列cDは、ベクトル列Yにおいて隣り合う2つの値の差分のベクトルである。ベクトル列cAを近似係数ベクトル、ベクトル列cDを詳細係数ベクトルと呼ぶ。生成された近似係数ベクトルcAに再びHaar分解Ηを施すと、長さ2p−2の近似係数ベクトルと長さ2p−2の詳細係数ベクトルとの組が得られる。このように、第1変換部12は、式(4)及び(5)に示されるように、第1集計データVを初期入力として、このHaar分解Ηを再帰的にk回繰り返すことによって、最終的には1個の近似係数ベクトルとk個の詳細係数ベクトルとを得る。
Figure 0006310345

Figure 0006310345
ここで、iは2〜kの整数値を取る。近似係数ベクトルcA及び詳細係数ベクトルcDは、i回目のHaar分解Ηによって得られた出力であり、これをレベルiの係数ベクトルと呼ぶ。そして、第1変換部12は、以下の式(6)に示されるように連接を行うことによって、ウェーブレット係数系列である第1系列データWを構成する。
Figure 0006310345
なお、レベルkの近似係数ベクトルcAの長さは1であり、レベルiの詳細係数ベクトルcDの長さは2k−iであることから、以下の式(7)に示されるように、第1系列データWの長さは、第1集計データVの長さと等しくなる。
Figure 0006310345
図3は、第1変換部12による第1系列データWの生成処理を説明するための図である。図3に示される例では、第1集計データV=(v,v,v,v,v,v,v,v)である。第1変換部12は、この第1集計データVを初期入力としてHaar分解Ηを適用することによって、式(8)に示されるレベル1の近似係数ベクトルcA及び詳細係数ベクトルcDを得る。
Figure 0006310345
そして、第1変換部12は、レベル1の近似係数ベクトルcAを入力としてHaar分解Ηを適用することによって、式(9)に示されるレベル2の近似係数ベクトルcA及び詳細係数ベクトルcDを得て、さらにレベル2の近似係数ベクトルcAを入力としてHaar分解Ηを適用することによって、式(10)に示されるレベル3の近似係数ベクトルcA及び詳細係数ベクトルcDを得る。
Figure 0006310345

Figure 0006310345
そして、第1変換部12は、式(6)に示されるように、近似係数ベクトルcA及び詳細係数ベクトルcD,cD,cDを連接することによって、第1系列データWを生成する。なお、レベルiの近似係数ベクトルcAの第x番目の係数をcAi,xと表現し、レベルiの詳細係数ベクトルcDの第x番目の係数(以下、要素という。)をcDi,xと表現する。
乱数付与部13は、第1変換部12によって生成された第1系列データWに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第2系列データWを生成する乱数付与手段として機能する。ここで、第2系列データWは差分プライバシー基準を満たす。また、乱数は、加算により差分プライバシー基準を満たすことができる乱数である。このような乱数として、例えば、ラプラス分布に従う乱数であるラプラスノイズ(ラプラス乱数)、幾何分布に従う乱数である幾何ノイズ(幾何乱数)等が用いられる。ラプラスノイズを付与することにより差分プライバシー基準を満たす手段はラプラスメカニズムと呼ばれ、幾何ノイズを付与することにより差分プライバシー基準を満たす手段は幾何メカニズムと呼ばれる。
乱数としてラプラスノイズを用いて説明を行う。ここで、ラプラスノイズとは、0を平均としたラプラス分布から独立に抽出された乱数である。以下の説明では、平均0、スケールλのラプラス分布に従って発生させたラプラスノイズをLap(λ)とする。ラプラスメカニズムで用いられるラプラスノイズのスケールλは、差分プライバシー基準におけるプライバシー強度εと、問い合わせの種類ごとに定まる大域的感度(GS;global sensitivity)と、によって与えられる。具体的には、ε−差分プライバシー基準を満たすための問い合わせfに対応するラプラスメカニズムΚは、問い合わせfの感度GSを用いて、式(11)で定義される。
Figure 0006310345
乱数付与部13は、第1変換部12によって生成された第1系列データWの各要素に対して、ラプラスメカニズムを適用し、差分プライバシー基準を満たす第2系列データWを生成する。ここで、ラプラスメカニズムによって付与されるラプラスノイズのスケールλは、Haarウェーブレット変換におけるレベルによって異なる。具体的には、乱数付与部13は、スケールλ=2(1+k)/εとして、第1系列データWに含まれるレベルiの要素にそれぞれLap(λ/2)を加えることによって、ノイズ付きウェーブレット係数系列である第2系列データWを生成する。
なお、Haarウェーブレット変換の定義により、第1集計データVの要素vが1変化すると、レベルiの要素は、1/2変化する。つまり、第1系列データWに含まれる各要素の感度GSは1/2であるので、各要素単体については、ラプラスノイズLap(λ/2)が付加されることによって、λ−差分プライバシー基準が満たされる。ただし、データベース中の1つのデータの変化は、第1集計データVにおける2つの要素vj1,vj2にそれぞれ変化をもたらし得る。例えば、2つの要素vj1,vj2の一方の値が1増加し、他方の値が1減少し得る。この2つの要素vj1,vj2の変化はそれぞれ、第1系列データWにおいてk個の詳細係数ベクトルcDの値と1個の近似係数ベクトルcAの値に影響を及ぼす。つまり、2つの要素vj1,vj2の変化は最大で2(1+k)個の係数ベクトルに影響を及ぼし得る。従って、差分プライバシーの直列合成則によって、第2系列データW全体では、1/λ×2(1+k)=2(1+k)/λ=εとなり、ε−差分プライバシー基準が満たされる。
図4は、乱数付与部13による第2系列データWの生成処理を説明するための図である。図4に示される例では、乱数付与部13は、第1系列データWに含まれるレベル1の要素cD1,1、要素cD1,2、要素cD1,3及び要素cD1,4にそれぞれLap(λ/2)を加える。また、乱数付与部13は、第1系列データWに含まれるレベル2の要素cD2,1及び要素cD2,2にそれぞれLap(λ/4)を加える。さらに、乱数付与部13は、第1系列データWに含まれるレベル3の要素cA3,1及び要素cD3,1にそれぞれLap(λ/8)を加える。このようにして、乱数付与部13は、第2系列データWを生成する。
精緻化部14は、第2集計データVの各要素が負の値とならないように、つまり、第2集計データVの各要素がゼロ以上の値となるように、乱数付与部13によって生成された第2系列データWに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第3系列データWを生成する精緻化手段として機能する。ここで、第3系列データWは、非負制約を満たす。精緻化処理は、第2系列データWにおける非負制約の逸脱を解消するための処理である。精緻化部14は、例えば、第2系列データW=(cA |cD |cDk−1 |・・・|cD )に含まれるウェーブレット係数をそれぞれ検証し、非負制約を逸脱させるような要素が存在した場合に、その要素を補正する。そして、精緻化部14は、レベルkからレベル1までの全ての要素について検証及び補正を行うことにより、非負制約を満たすことが保証された精緻化済みウェーブレット係数系列である第3系列データW=(cA |cD |cDk−1 |・・・|cD )を得る。
具体的に説明すると、精緻化部14は、レベルiの精緻化済み近似係数ベクトルcA の全要素が負値を取ることがないように、レベルi+1のノイズ付き詳細係数ベクトルcDi+1 の各要素の値を精緻化する。なお、精緻化部14の説明において、iは0からkまでの整数値を取ることとする。このとき、第2集計データV=cA となる。まず、精緻化部14は、i=kにおいて、レベルkの精緻化済み近似係数ベクトルcA が非負制約を満たすように、以下の式(12)を実行する。
Figure 0006310345
i<kにおいては、レベルiの精緻化済み近似係数ベクトルcA の各要素cAi,x は、1レベル上のレベルi+1の精緻化済み近似係数ベクトルcAi+1 の要素cAi+1,ceil(x/2) と精緻化済み詳細係数ベクトルcDi+1 の要素cDi+1,ceil(x/2) とを用いて、式(13)に示されるように再帰的に定義される。
Figure 0006310345
ここで、ceil(x)は、天井関数であり、xを下回らない最小の整数(つまり、小数点以下の切り上げ)を表す。g(x)は符号関数であり、以下の式(14)に示される値を取る。
Figure 0006310345
すなわち、式(13)によれば、以下の式(15)を満たすことができるならば、式(16)が成立する。
Figure 0006310345

Figure 0006310345
そして、第2集計データV=cA であるので、レベルkの精緻化済み近似係数ベクトルcA が0以上であり、かつ、第3系列データWの全要素について式(15)が成立する場合、第2集計データVは非負制約を逸脱しない。
図5は、精緻化部14による精緻化処理を説明するための図である。図5に示される例では、レベル2の精緻化済み近似係数ベクトルcA の各要素は、第1要素cA2,1 =cA3,1 +cD3,1 、第2要素cA2,2 =cA3,1 −cD3,1 で算出される。このとき、レベル3のノイズ付き詳細係数ベクトルcD の第1要素cD3,1 の大きさが、レベル3の精緻化済み近似係数ベクトルcA の第1要素cA3,1 よりも大きい、つまり、|cD3,1 |>cA3,1 であり、要素cD3,1 を補正せずに要素cD3,1 とした場合、第1要素cA2,1 及び第2要素cA2,2 のいずれかが負の値となる。
第1要素cA2,1 及び第2要素cA2,2 は式(9)と同様にして得られるので、第2集計データVのv 〜v の平均及びv 〜v の平均のいずれかが負の値となる。つまり、第2集計データVは非負制約を逸脱していることになる。そこで、精緻化部14は、|cD3,1 |>cA3,1 の場合、|cD3,1 |=cA3,1 となるように、要素cD3,1 を補正して要素cD3,1 とする。精緻化部14は、同様の処理を、レベル2のノイズ付き詳細係数ベクトルcD の各要素、及び、レベル1のノイズ付き詳細係数ベクトルcD の各要素に対して順に行う。つまり、精緻化部14は、第2系列データWをウェーブレット係数の系列として見た場合に、ウェーブレット係数におけるレベルiの精緻化済み近似係数ベクトルcA の各要素cAi,x が負の値とならないように、1つ上のレベルi+1のノイズ付き詳細係数ベクトルcDi+1 の各要素cDi+1,x の値を補正して、レベルi+1の精緻化済み詳細係数ベクトルcDi+1 の各要素cDi+1,x とする。
このため、精緻化部14は、レベルi(i=1〜k)の精緻化済み詳細係数ベクトルcD の各要素cDi,x を式(17)を用いて算出する。
Figure 0006310345
このように、精緻化部14は、iについてkから1まで降順に、要素番号x=1〜2k−iの要素cAi,x 及び要素cDi,x を式(12)、式(13)及び式(17)を用いて順に算出する。そして、精緻化部14は、第2集計データVが非負制約を逸脱しないような第3系列データW=(cA |cD |cDk−1 |・・・|cD )を得る。
第2変換部15は、精緻化部14によって生成された第3系列データWに、第1線形変換の逆変換である第2線形変換を適用することによって第2集計データVを生成する第2変換手段として機能する。第1線形変換としてHaarウェーブレット変換Ηを用いた場合、第2変換部15は、第2線形変換としてHaarウェーブレット逆変換Η−1を用いる。そして、第2変換部15は、精緻化済みのウェーブレット係数系列である第3系列データWに第2線形変換を適用することによって、第2集計データVを生成する。つまり、第2変換部15は、V=Η−1(W)の計算を実施する。
上記計算は一般的に知られているが、一例として、第2変換部15は、第3系列データWを入力として、iについてkから0まで再帰的に式(13)を用いて精緻化済み近似係数ベクトルcA を算出する。第2集計データV=cA あるので、第2変換部15は、レベル0の精緻化済み近似係数ベクトルcA を得ることによって、第2集計データVを得る。
出力部16は、第2変換部15によって生成された第2集計データVを出力する出力手段として機能する。出力部16は、第2変換部15から第2集計データVを受信し、受信した第2集計データVをプライバシー保護装置10の外部に出力する。出力部16は、例えば、第2集計データVを公開用のデータベースに出力し、プライバシーが保護された集計データを備えるデータベースを作成する。
次に、図6を参照して、プライバシー保護装置10によって実行されるプライバシー保護方法を説明する。図6は、プライバシー保護装置10によって実行されるプライバシー保護方法の一連の処理を示すフローチャートである。図6に示される処理は、例えば、プライバシー保護装置10の外部から第1集計データVが入力されることにより開始される。
まず、入力部11によって、プライバシー保護装置10の外部から第1集計データVが受信され、受信された第1集計データVが第1変換部12に出力される(ステップS11,入力ステップ)。そして、ステップS11において受け付けられた第1集計データVに、第1変換部12によって第1線形変換が適用されることによって第1系列データWが生成される(ステップS12,第1変換ステップ)。ここで、第1線形変換としては、例えば、Haarウェーブレット変換、Nominalウェーブレット変換、フーリエ変換、和差分解等が用いられる。
続いて、ステップS12において生成された第1系列データWに含まれる要素の各々に対して、予め定められた強度の乱数が乱数付与部13によって付与されることによって第2系列データWが生成される(ステップS13,乱数付与ステップ)。ここで、乱数としては、例えば、ラプラスノイズ、幾何ノイズ等が用いられる。そして、第2集計データVの各要素が負の値とならないように、ステップS13において生成された第2系列データWに含まれる要素の各々を、予め定められた条件で補正する精緻化処理が精緻化部14によって実施される。これによって、第3系列データWが生成される(ステップS14,精緻化ステップ)。
続いて、ステップS14において生成された第3系列データWに、第2変換部15によって第1線形変換の逆変換である第2線形変換が適用されることによって第2集計データVが生成される(ステップS15,第2変換ステップ)。そして、ステップS15において生成された第2集計データVが、出力部16によってプライバシー保護装置10の外部に出力される(ステップS16,出力ステップ)。これにより、プライバシー保護方法の一連の処理が終了される。なお、ステップS16において、第2集計データVは公開用のデータベースに出力されることにより、プライバシーが保護された集計データを備えるデータベースが作成されてもよい。この場合、上述のプライバシー保護方法は、データベース作成方法ともいえる。
次に、プライバシー保護装置10及びプライバシー保護装置10が行うプライバシー保護方法の作用効果について説明する。
(差分プライバシー基準の充足)
乱数付与部13によって、第1系列データWにラプラスメカニズムが適用されることにより、ε−差分プライバシー基準を満たす第2系列データWが生成される。第2系列データWが生成された後の工程(精緻化処理及び第2変換処理)においては、第2系列データWそのものを除いて第1集計データVに関する知識が用いられていない。このため、事後処理則の適用条件を満たすので、第2集計データVもε−差分プライバシー基準を満たす。したがって、第2集計データVは、ε=1/λ×2(1+logn)=2(1+logn)/λのε−差分プライバシー基準を満たす。なお、スケールλは、ラプラスメカニズムにおけるスケールである。
(非負制約の充足)
精緻化部14によって、レベルkの精緻化済み近似係数ベクトルcA が式(12)を満たし、かつ、第3系列データWの全要素が式(15)を満たすように、第2系列データWに含まれる要素の各々が補正される。そして、第2集計データV=cA であることから、第2集計データVは非負制約を逸脱しないことが保証される。
(部分和の平均の保存)
ラプラスメカニズムの適用において、レベルkの近似係数ベクトルcA及び詳細係数ベクトルcDにそれぞれラプラスノイズが付与されるが、ラプラスノイズの平均は0であるので、以下の式(18)が成立する。
Figure 0006310345
ここで、E(w)は要素wの期待値を示す。また、i≦k−1において、以下の式(19)が成立する。
Figure 0006310345
そして、式(13)及び式(19)により、以下の式(20)が成立する。
Figure 0006310345
したがって、ラプラスメカニズムの適用においても、各要素の期待値は保存される。
精緻化処理においては、式(12)により、レベルkの精緻化済み近似係数ベクトルcA の要素cAk,1 に正のバイアスが発生する可能性があり、その確率は以下の式(21)に示される。
Figure 0006310345
この確率は、人為的に作成されたものでない一般的な集計データにおいては、ほぼ無視され得る。また、レベルiの精緻化済み詳細係数ベクトルcD の精緻化は、レベルi−1の精緻化済み近似係数ベクトルcAi−1 の期待値に影響を与えないので、要素cAk,1 に正のバイアスが発生する可能性を無視できれば、第2集計データV(=cA )の任意の要素について、その期待値は第1集計データVの対応する要素に等しい。
なお、ウェーブレット変換の性質によれば、ウェーブレット変換及び逆変換の工程では、各要素またはその部分和の平均の期待値が保存されることは明らかである。
このため、第1集計データVの各要素の総和がスケールλに対して極端に小さくない、つまり式(21)に示される確率が無視され得るなら、第2集計データVの任意の要素またはその部分和の平均の期待値は、第1集計データVの対応する要素またはその部分和の平均と等しい。すなわち、過大及び過小のいずれのバイアスも発生することはない。
(部分和精度の劣化抑制)
Haarウェーブレット変換の性質により、第2集計データVを2個の要素ごとのブロックに分割したとき、x番目のブロックの部分和は、2×cAp,x で与えられる。ラプラスメカニズムによって与えられるラプラスノイズは互いに独立であるので、要素cAp,x が精緻化の影響を受けなかったとき、要素cAp,x のラプラスノイズの分散は、精緻化済み近似係数ベクトルcA 及び精緻化済み詳細係数ベクトルcD ,cDk−1 ,・・・,cDp+1 にそれぞれ与えられたラプラスノイズの分散の総和になる。一方、要素cAp,x が精緻化の影響を受けるときには、第1集計データVの分布に依存するので、その定量的な分散を解析的に示すことは難しい。しかし、人口分布等の「自然な」集計データ、すなわちロングテイル性を有し、ゼロ値及び小さい値を有する要素が連続するような第1集計データVにおいて、精緻化はそれらの値が大きく上振れまたは下振れすることを防ぐ効果を奏する。このため、条件によってはラプラスノイズがより小さくなるという定性的な傾向がある。このように、第2集計データVを2個の要素ごとのブロックに分割したとき、その部分和に含まれるラプラスノイズの分散は、以下の式(22)に示される値と同程度かそれよりも小さくなる。すなわち、ブロックの部分和のラプラスノイズは、ブロック長が長いほど小さくなる。
Figure 0006310345
(計算量)
なお、プライバシー保護装置10のプライバシー保護方法の各処理(第1変換処理、乱数付与処理、精緻化処理及び第2変換処理)の計算量はいずれもO(n)であるので、全体の計算量もO(n)となる。この計算量は、単純なラプラスメカニズム及びXiaoらの方法と同じである。ここで、nは、ゼロの値を有する要素も含む第1集計データVの論理的な要素の空間のサイズである。
以上詳述したように、プライバシー保護装置10では、第1集計データVに乱数が直接付与されるのではなく、第1集計データVに適切な第1線形変換を施すことによって生成された第1系列データWに対して乱数が付与されて、第2系列データWが生成される。このため、適切な強度の乱数の付与によって、第2集計データVが差分プライバシー基準を満たすようにすることができる。そして、第2系列データWを木構造で表現した場合の木の低い階層の要素に付与された乱数は、部分和計算の際にキャンセルされる。これにより、第2集計データVの部分和精度の劣化を抑制できる。また、第2集計データVの各要素が負の値とならないように、第2系列データWに含まれる要素の各々が予め定められた条件で補正されることによって、第2集計データVが非負制約を満たすようにすることができる。その結果、比較的簡単な構成で、差分プライバシー基準を満たすとともに、部分和精度の改善及び非負制約の充足を併せて実現する第2集計データVを提供することが可能となる。
第1変換部12は、第1線形変換としてHaar関数を母ウェーブレットとするHaarウェーブレット変換を用いる。このHaarウェーブレット変換は、Haarウェーブレット変換を適用することによって生成された第1系列データWの各要素が木構造で表現でき、かつ、第1系列データWの各要素の値が、木における子孫の部分和にのみ影響を与える。このため、木構造で表現した要素について、木の上位階層から順に木を辿って各要素に対して非負制約を満たすように精緻化を施していくだけで、木の最下位の階層まで辿り終わったときに全ての要素が非負制約を満たすことが保証される。これにより、精緻化処理における計算の単純化が可能となる。
乱数付与部13は、ラプラスノイズまたは幾何ノイズを第1系列データWに付与する。このため、第2集計データVが差分プライバシー基準を満たすことが保証される。
精緻化部14は、第2系列データWをウェーブレット係数の系列として見た場合に、ウェーブレット係数におけるレベルiのノイズ付き近似係数ベクトルcA の各要素cAi,x が負の値とならないように、1レベル上のレベルi+1のノイズ付き詳細係数ベクトルcDi+1 の各要素cDi+1,x の値を補正する。このため、全てのノイズ付き詳細係数ベクトルcDの各要素の値を補正することにより、非負制約を満たす第3系列データWの生成を簡単化でき、非負制約を満たす第2集計データVの提供を簡単化することが可能となる。
[第2実施形態]
図7は、第2実施形態に係るプライバシー保護装置の構成を概略的に示す図である。図7に示されるように、プライバシー保護装置10Aは、複数の要素を含む第1集計データVを入力し、第2集計データVを出力する装置であり、第1変換部12に代えて第1変換部12A(第1変換手段)を備える点、乱数付与部13、精緻化部14及び第2変換部15に代えて高速変換部17(高速変換手段)を備える点でプライバシー保護装置10と相違する。ここで、第1集計データVをV=(v,v,・・・,v)とし、第2集計データVを、V=(v ,v ,・・・,v )とする。また、n=2(kは自然数)であるとする。なお、説明の便宜上、一次元のデータ系列を対象にしているが、多次元のデータ系列であってもよい。
第1変換部12Aは、第1線形変換の実装形態において第1変換部12と相違する。つまり、第1変換部12Aは、第1集計データVを疎データ形式(sparse data format)で表現し、第1集計データVに含まれる要素のうち、非ゼロの値(つまり、ゼロ以外の値)を有する要素に第1線形変換を適用することによって第1系列データWを生成する。ここで、第1線形変換は、第1実施形態と同様、第1線形変換を適用することによって生成された第1系列データWの各要素が木構造で表現でき、かつ、第1系列データWの各要素の値が、木における子孫の部分和にのみ影響を与えるという条件を満たす線形変換であればよい。第1変換部12Aは、例えば、COO(Coordinate)形式、ゼロ値を取る要素を陽に表現しない形式等、疎行列を効率良く表現できる疎データ形式で、第1集計データV及び第1系列データWを表現する。
第1線形変換としてHaarウェーブレット変換を用い、第1集計データV及び第1系列データWをCOO形式で表現する場合について説明を行う。第1変換部12Aは、第1集計データVをCOO形式(j,v)(x={1,・・・,n})の集合の形式で表現し、非ゼロの値を有する要素に対してのみ、以下の式(23)及び式(24)を計算する。
Figure 0006310345

Figure 0006310345
ここで、ceil(x)は、天井関数であり、xを下回らない最小の整数(つまり、小数点以下の切り上げ)を表す。g(x)は符号関数であり、上述の式(14)に示される値を取る。なお、近似係数ベクトルcA及び詳細係数ベクトルcDは、それぞれCOO形式で保持され、その初期値はいずれもcA=cD={0}n/2とする。そして、第1変換部12Aは、レベル1の近似係数ベクトルcA及び詳細係数ベクトルcDからレベルkの近似係数ベクトルcA及び詳細係数ベクトルcDまで再帰的に算出し、式(6)に示される連接を行うことによって、第1系列データWを生成する。
高速変換部17は、第1変換部12Aによって生成された第1系列データWに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、第2集計データVの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、第2集計データVを生成する高速変換手段として機能する。高速変換部17は、例えば、第1系列データWに含まれる要素の各々に対して、ラプラスノイズの付与と精緻化処理とを並行して行う処理を再帰降下で実行する。
具体的に説明すると、高速変換部17は、まず、第1系列データWにラプラスメカニズムを適用することにより、レベルkのノイズ付き近似係数ベクトルcA の要素cAk,1 及びノイズ付き詳細係数ベクトルcD の要素cDk,1 をそれぞれ計算する。続いて、高速変換部17は、以下の式(25)及び式(26)を用いて、レベルkの精緻化済み近似係数ベクトルcA の要素cAk,1 及び精緻化済み詳細係数ベクトルcD の要素cDk,1 を順に計算する。
Figure 0006310345

Figure 0006310345
続いて、高速変換部17は、iについてkから2まで降順に下記の手順(a)〜(c)を実行する。このとき、高速変換部17は、各レベルiの精緻化済み近似係数ベクトルcA の要素のうち非ゼロの要素ついて下記の処理を実行する。まず、手順(a)では、高速変換部17は、レベルiの精緻化済み近似係数ベクトルcA 及び精緻化済み詳細係数ベクトルcD を用いて、式(27)及び式(28)を実行することにより、レベルi−1の精緻化済み近似係数ベクトルcAi−1 を算出する。
Figure 0006310345

Figure 0006310345
手順(b)では、高速変換部17は、ラプラスメカニズムを適用することにより、レベルi−1のノイズ付き詳細係数ベクトルcDi−1 の各要素cDi−1,2x−1 及びcDi−1,2x をそれぞれ計算する。
手順(c)では、高速変換部17は、以下の式(29)及び式(30)を用いて、レベルi−1の精緻化済み詳細係数ベクトルcDi−1 の各要素cDi−1,2x−1 及びcDi−1,2x をそれぞれ計算する。
Figure 0006310345

Figure 0006310345
そして、高速変換部17は、式(6)に示されるように、精緻化済み近似係数ベクトルcA 及び精緻化済み詳細係数ベクトルcD ,cDk−1 ,・・・,cD を連接することによって、第2集計データVが非負制約を逸脱しないような第3系列データWを得る。なお、高速変換部17は、i=1まで上記手順(a)を実行することにより、つまり、式(29)及び式(30)においてi=1とすることにより、以下の式(31)及び式(32)を得る。
Figure 0006310345

Figure 0006310345
具体的には、高速変換部17は、i=2の計算途中で算出されるレベル1の精緻化済み近似係数ベクトルcA 及び精緻化済み詳細係数ベクトルcD を用いて、レベル1の精緻化済み近似係数ベクトルcA の要素cA1,x ≠0を満たすxの集合ついて式(31)及び式(32)を実行することにより、第2集計データVを生成する。すなわち、第2集計データV=cA であるので、高速変換部17は、レベル0の精緻化済み近似係数ベクトルcA を得ることによって、第2集計データVを得る。
次に、図8を参照して、プライバシー保護装置10Aによって実行されるプライバシー保護方法を説明する。図8は、プライバシー保護装置10Aによって実行されるプライバシー保護方法の一連の処理を示すフローチャートである。図8に示される処理は、例えば、プライバシー保護装置10Aの外部から第1集計データVが入力されることにより開始される。
まず、入力部11によって、プライバシー保護装置10Aの外部から第1集計データVが受信され、受信された第1集計データVが第1変換部12Aに出力される(ステップS21,入力ステップ)。そして、ステップS21において受け付けられた第1集計データVに、第1変換部12Aによって第1線形変換が適用されることによって第1系列データWが生成される(ステップS22,第1変換ステップ)。このとき、第1集計データVはCOO形式等の疎データ形式で表現され、第1集計データVに含まれる要素のうち、非ゼロの値を有する要素に第1線形変換が適用されることによって第1系列データWが生成される。第1線形変換としては、例えば、Haarウェーブレット変換、Nominalウェーブレット変換、フーリエ変換、和差分解等が用いられる。
続いて、ステップS22において生成された第1系列データWに含まれる要素の各々に対して、予め定められた強度の乱数が高速変換部17によって付与されるとともに、第2集計データVの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理が高速変換部17によって実施される(ステップS23,高速変換ステップ)。ここで、乱数として、例えば、ラプラスノイズ、幾何ノイズ等が用いられる。このとき、第3系列データWが生成されるが、さらに、レベル0まで精緻化処理を行うことにより第2集計データVが生成される。
そして、ステップS23において生成された第2集計データVが、出力部16によってプライバシー保護装置10Aの外部に出力される(ステップS24,出力ステップ)。これにより、プライバシー保護方法の一連の処理が終了される。なお、ステップS24において、第2集計データVは公開用のデータベースに出力されることにより、プライバシーが保護された集計データを備えるデータベースが作成されてもよい。この場合、上述のプライバシー保護方法は、データベース作成方法ともいえる。
このプライバシー保護装置10Aにおいても、上記第1実施形態のプライバシー保護装置10と同様の効果が奏される。また、ウェーブレット変換については、単純に実装すると計算量がO(n)となるが、プライバシー保護装置10Aでは、第1集計データV及び第1系列データWの表現形式を変更することにより、第1線形変換における計算量の削減が可能となる。つまり、非ゼロの値を有する要素あたり高々logn回の計算によって第1系列データWが得られるので、第1線形変換における計算量をO(mlogn)に削減することができる。ここで、mは第1集計データVにおける非ゼロの値を有する要素の数である。
つまり、プライバシー保護装置10Aでは、第1集計データVを疎データ形式で表現し、第1集計データVに含まれる要素のうち、ゼロでない値を有する要素にのみ第1線形変換を適用することによって第1系列データを生成している。このため、ゼロの値を有する要素への第1線形変換の適用が省略されるので、第1線形変換における計算量の削減が可能となる。
また、乱数付与においては、第1系列データWのゼロの値を有する要素に対しても乱数を付与する必要があるので、第1変換部12Aと同様のアプローチでは計算量を削減することはできない。そこで、ほとんどの乱数は精緻化処理において「捨てられて」しまうことに着目する。すなわち、精緻化処理でレベルiのノイズ付き詳細係数ベクトルcD の要素cDi,x に精緻化が適用される場合、つまり、cDi,x ≠cDi,x となる場合、レベルi−1の精緻化済み近似係数ベクトルcAi−1 の要素cAi−1,2x−1 及び要素cAi−1,2x のいずれかは必ずゼロの値をとる。このため、ゼロの値をとる方の要素の部分木に含まれる2i−1個のラプラスノイズが出力値に影響する可能性はなくなる。
したがって、プライバシー保護装置10Aでは、高速変換部17によって、ラプラスメカニズムの適用及び精緻化が、非ゼロの値を有する要素cAi,x の部分木についてのみ再帰降下で順に実施される。これにより、無駄なラプラスノイズを発生させることなく、差分プライバシー基準を満たすことができる。そして、高速変換部17において、レベル1の精緻化済み近似係数ベクトルcA 及び精緻化済み詳細係数ベクトルcD を用いて、レベル0の精緻化済み近似係数ベクトルcA を導出するのに要する計算量は、O(m)である。ここで、mは第2集計データVにおける非ゼロの値を有する要素の数である。また、2≦i≦kにおいて、レベルiの精緻化済み近似係数ベクトルcA 及び精緻化済み詳細係数ベクトルcD を用いて、レベルi−1の精緻化済み近似係数ベクトルcAi−1 を導出するのに要する計算量は、O(m)を上回ることはない。したがって、高速変換部17における計算量は、高々O(mlogn)となる。
このように、プライバシー保護装置10における計算量がO(n)であるのに対して、プライバシー保護装置10Aにおける計算量はO(mlogn)または(mlogn)である。一般的に大規模な集計データでは、m≒m≪nとなることが多いので、プライバシー保護装置10Aでは、プライバシー保護装置10、単純なラプラスメカニズム、及び、Xiaoらの方法等と比較して、計算量を大幅に削減することができる。したがって、プライバシー保護装置10Aによれば、プライバシー保護装置10と等価な第2集計データVが得られるとともに、その計算量を削減することが可能となる。その結果、第2集計データVの提供を高速化することが可能となる。
なお、本発明は、上述した実施形態に限定されるものではない。例えば、プライバシー保護装置10は、第1変換部12に代えて第1変換部12Aを備えてもよく、プライバシー保護装置10Aは、第1変換部12Aに代えて第1変換部12を備えてもよい。
また、プライバシー保護装置10Aの高速変換部17は、第2集計データVに代えて、第3系列データWを出力してもよい。この場合、プライバシー保護装置10Aは第2変換部15をさらに備えてもよく、第2変換部15は第3系列データWに改めて第2線形変換を適用して、第2集計データVを生成してもよい。
また、上記第1実施形態及び第2実施形態では、第1線形変換としてHaarウェーブレット変換が用いられる場合について説明したが、第1系列データWの各要素が木構造で表現でき、かつ、第1系列データWの各要素の値が、木における子孫の部分和にのみ影響を与えるという条件を満たす他の線形変換が用いられてもよい。このような第1線形変換を適用することによって生成された第1系列データWでは、木の上位階層から順に木を辿って各要素に対して非負制約を満たすように精緻化を施していくだけで、木の最下位の階層まで辿り終わったときに全ての要素が非負制約を満たすことが保証される。このため、精緻化処理における計算が単純化される。このような第1線形変換としては、Haarウェーブレット変換の他、Nominalウェーブレット変換、和差分解等がある。
その一例として、第1線形変換として和差分解が用いられる場合について説明する。この場合、Haarウェーブレット変換が用いられる場合と比較して、第1変換部12及び第2変換部15における計算方法と、乱数付与部13により付与される乱数の強度と、が異なる。
和差分解は、式(1)〜式(3)に代えて以下の式(33)〜(35)に示されるように、長さ2(=q)のベクトル列Y=(y,y,・・・,y)を、長さ2p−1の近似係数ベクトルcA,詳細係数ベクトルcDに分解する。
Figure 0006310345

Figure 0006310345

Figure 0006310345
また、第1線形変換として和差分解が用いられる場合、第2線形変換において、式(13)に代えて以下の式(36)が用いられる。
Figure 0006310345
このとき、乱数付与部13は、第1系列データWに含まれる要素のレベルによらず、全ての要素に対してLap(GS/ε)のラプラスノイズを付与することにより、差分プライバシー基準を満たす第2系列データWを生成する。なお、第1線形変換として和差分解が用いられる場合の計算量は、O(mlogn)またはO(mlogn)となる。
10,10A…プライバシー保護装置、11…入力部(入力手段)、12,12A…第1変換部(第1変換手段)、13…乱数付与部(乱数付与手段)、14…精緻化部(精緻化手段)、15…第2変換部(第2変換手段)、16…出力部(出力手段)、17…高速変換部(高速変換手段)、V…第1集計データ、V…第2集計データ、W…第1系列データ、W…第2系列データ、W…第3系列データ。

Claims (10)

  1. 複数のデータを含む第1集計データを入力し、第2集計データを出力するプライバシー保護装置であって、
    前記第1集計データの入力を受け付ける入力手段と、
    前記入力手段によって受け付けられた前記第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換手段と、
    前記第1変換手段によって生成された前記第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第2系列データを生成する乱数付与手段と、
    前記第2集計データの各要素が負の値とならないように、前記乱数付与手段によって生成された前記第2系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第3系列データを生成する精緻化手段と、
    前記精緻化手段によって生成された前記第3系列データに、前記第1線形変換の逆変換である第2線形変換を適用することによって前記第2集計データを生成する第2変換手段と、
    前記第2変換手段によって生成された前記第2集計データを出力する出力手段と、
    を備える、プライバシー保護装置。
  2. 複数のデータを含む第1集計データを入力し、第2集計データを出力するプライバシー保護装置であって、
    前記第1集計データの入力を受け付ける入力手段と、
    前記入力手段によって受け付けられた前記第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換手段と、
    前記第1変換手段によって生成された前記第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、前記第2集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、前記第2集計データを生成する高速変換手段と、
    前記高速変換手段によって生成された前記第2集計データを出力する出力手段と、
    を備える、プライバシー保護装置。
  3. 前記第1線形変換は、Haar関数を母ウェーブレットとするHaarウェーブレット変換である、請求項1または請求項2に記載のプライバシー保護装置。
  4. 前記乱数は、ラプラス分布に従う乱数であるラプラス乱数または幾何分布に従う乱数である幾何乱数である、請求項1〜請求項3のいずれか一項に記載のプライバシー保護装置。
  5. 前記精緻化処理は、前記第2系列データをウェーブレット係数の系列として見た場合に、前記ウェーブレット係数における近似係数ベクトルの各要素が負の値とならないように、前記ウェーブレット係数における詳細係数ベクトルの各要素の値を補正する処理を含む、請求項1に記載のプライバシー保護装置。
  6. 前記第1変換手段は、前記第1集計データを疎データ形式で表現し、前記第1集計データに含まれるデータのうち、ゼロ以外の値を有するデータに前記第1線形変換を適用することによって前記第1系列データを生成する、請求項1〜請求項5のいずれか一項に記載のプライバシー保護装置。
  7. 複数のデータを含む第1集計データを入力し、第2集計データを出力するプライバシー保護装置が行うプライバシー保護方法であって、
    前記プライバシー保護装置の入力手段が、前記第1集計データの入力を受け付ける入力ステップと、
    前記プライバシー保護装置の第1変換手段が、前記入力ステップにおいて受け付けられた前記第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換ステップと、
    前記プライバシー保護装置の乱数付与手段が、前記第1変換ステップにおいて生成された前記第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第2系列データを生成する乱数付与ステップと、
    前記プライバシー保護装置の精緻化手段が、前記第2集計データの各要素が負の値とならないように、前記乱数付与ステップにおいて生成された前記第2系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第3系列データを生成する精緻化ステップと、
    前記プライバシー保護装置の第2変換手段が、前記精緻化ステップにおいて生成された前記第3系列データに、前記第1線形変換の逆変換である第2線形変換を適用することによって前記第2集計データを生成する第2変換ステップと、
    前記プライバシー保護装置の出力手段が、前記第2変換ステップにおいて生成された前記第2集計データを出力する出力ステップと、
    を備える、プライバシー保護方法。
  8. 複数のデータを含む第1集計データを入力し、第2集計データを出力するプライバシー保護装置が行うプライバシー保護方法であって、
    前記プライバシー保護装置の入力手段が、前記第1集計データの入力を受け付ける入力ステップと、
    前記プライバシー保護装置の第1変換手段が、前記入力ステップにおいて受け付けられた前記第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換ステップと、
    前記プライバシー保護装置の高速変換手段が、前記第1変換ステップにおいて生成された前記第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、前記第2集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、前記第2集計データを生成する高速変換ステップと、
    前記プライバシー保護装置の出力手段が、前記高速変換ステップにおいて生成された前記第2集計データを出力する出力ステップと、
    を備える、プライバシー保護方法。
  9. プライバシーが保護された集計データを備えるデータベース作成方法であって、
    プライバシー保護装置の入力手段が、複数のデータを含む第1集計データの入力を受け付ける入力ステップと、
    前記プライバシー保護装置の第1変換手段が、前記入力ステップにおいて受け付けられた前記第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換ステップと、
    前記プライバシー保護装置の乱数付与手段が、前記第1変換ステップにおいて生成された前記第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第2系列データを生成する乱数付与ステップと、
    前記プライバシー保護装置の精緻化手段が、第2集計データの各要素が負の値とならないように、前記乱数付与ステップにおいて生成された前記第2系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第3系列データを生成する精緻化ステップと、
    前記プライバシー保護装置の第2変換手段が、前記精緻化ステップにおいて生成された前記第3系列データに、前記第1線形変換の逆変換である第2線形変換を適用することによって前記第2集計データを生成する第2変換ステップと、
    前記プライバシー保護装置の出力手段が、前記第2変換ステップにおいて生成された前記第2集計データを前記データベースに出力する出力ステップと、
    を備える、データベース作成方法。
  10. プライバシーが保護された集計データを備えるデータベース作成方法であって、
    プライバシー保護装置の入力手段が、複数のデータを含む第1集計データの入力を受け付ける入力ステップと、
    前記プライバシー保護装置の第1変換手段が、前記入力ステップにおいて受け付けられた前記第1集計データに第1線形変換を適用することによって第1系列データを生成する第1変換ステップと、
    前記プライバシー保護装置の高速変換手段が、前記第1変換ステップにおいて生成された前記第1系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、第2集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、前記第2集計データを生成する高速変換ステップと、
    前記プライバシー保護装置の出力手段が、前記高速変換ステップにおいて生成された前記第2集計データを出力する出力ステップと、
    を備える、データベース作成方法。
JP2014134321A 2014-06-30 2014-06-30 プライバシー保護装置、プライバシー保護方法及びデータベース作成方法 Active JP6310345B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014134321A JP6310345B2 (ja) 2014-06-30 2014-06-30 プライバシー保護装置、プライバシー保護方法及びデータベース作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014134321A JP6310345B2 (ja) 2014-06-30 2014-06-30 プライバシー保護装置、プライバシー保護方法及びデータベース作成方法

Publications (2)

Publication Number Publication Date
JP2016012074A JP2016012074A (ja) 2016-01-21
JP6310345B2 true JP6310345B2 (ja) 2018-04-11

Family

ID=55228813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014134321A Active JP6310345B2 (ja) 2014-06-30 2014-06-30 プライバシー保護装置、プライバシー保護方法及びデータベース作成方法

Country Status (1)

Country Link
JP (1) JP6310345B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6835559B2 (ja) * 2016-12-09 2021-02-24 国立大学法人電気通信大学 プライバシ保護データ提供システム
US11163895B2 (en) 2016-12-19 2021-11-02 Mitsubishi Electric Corporation Concealment device, data analysis device, and computer readable medium
KR101935528B1 (ko) 2017-11-28 2019-01-04 서강대학교 산학협력단 차분 프라이버시를 적용한 교통량 배포 시스템 및 방법
US20220058290A1 (en) * 2018-12-20 2022-02-24 Nippon Telegraph And Telephone Corporation Analysis query response system, analysis query execution apparatus, analysis query verification apparatus, analysis query response method, and program
CN109857780B (zh) * 2019-01-17 2023-04-28 西北大学 一种针对统计查询攻击的线性-正交数据发布方法
KR102456177B1 (ko) * 2021-01-11 2022-10-19 연세대학교 산학협력단 차등 프라이버시를 이용한 합성 데이터를 생성하는 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090182797A1 (en) * 2008-01-10 2009-07-16 Microsoft Corporation Consistent contingency table release
US8555400B2 (en) * 2011-02-04 2013-10-08 Palo Alto Research Center Incorporated Privacy-preserving aggregation of Time-series data

Also Published As

Publication number Publication date
JP2016012074A (ja) 2016-01-21

Similar Documents

Publication Publication Date Title
JP6310345B2 (ja) プライバシー保護装置、プライバシー保護方法及びデータベース作成方法
US10567494B2 (en) Data processing system, computing node, and data processing method
Fried et al. qTorch: The quantum tensor contraction handler
Soize Construction of probability distributions in high dimension using the maximum entropy principle: Applications to stochastic processes, random fields and random matrices
JP2015064876A (ja) 二分木を用いてモデル化される工業製品を設計するためのコンピュータ実装方法
CN112131515A (zh) 将高阶多项式转换成二次多项式的方法和计算机可读介质
US20220058450A1 (en) Tabular convolution and acceleration
JP2015114871A (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
CN113094746A (zh) 基于本地化差分隐私的高维数据发布方法及相关设备
Huai et al. Zerobn: Learning compact neural networks for latency-critical edge systems
JP2022068327A (ja) ノードグループ化方法、装置及び電子機器
JPWO2008081932A1 (ja) 文字列照合用有限オートマトン生成システム、その生成方法、及び生成プログラム
JP6532849B2 (ja) データ撹乱装置、方法及びプログラム
Myoupo et al. Parallel dynamic programming for solving the optimal search binary tree problem on CGM
CN109952742B (zh) 图结构处理方法、系统、网络设备及存储介质
US20200133995A1 (en) Solving lattice problems using annealing
JP5416614B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
CN111194448A (zh) 伪数据生成装置及其方法和程序
JP5555238B2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
JP6158137B2 (ja) 撹乱再構築システム、撹乱装置、再構築装置、撹乱再構築方法及びプログラム
US20220147595A1 (en) Faster matrix multiplication via sparse decomposition
Jorgensen et al. Dual pairs of operators, harmonic analysis of singular non-atomic measures and Krein-Feller diffusion
Sun et al. Solving detachability problem for the polynomial ring by signature-based Gröbner basis algorithms
JP4304937B2 (ja) ヤコビ群要素加算装置
Ruffa et al. Parallelized solution of banded linear systems with an introduction to p-adic computation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180316

R150 Certificate of patent or registration of utility model

Ref document number: 6310345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250