JP6310345B2

JP6310345B2 - プライバシー保護装置、プライバシー保護方法及びデータベース作成方法

Info

Publication number: JP6310345B2
Application number: JP2014134321A
Authority: JP
Inventors: 寺田　雅之; 雅之寺田; 亮平鈴木; 岡島　一郎; 一郎岡島
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-06-30
Filing date: 2014-06-30
Publication date: 2018-04-11
Anticipated expiration: 2034-06-30
Also published as: JP2016012074A

Description

本発明は、プライバシー保護装置、プライバシー保護方法及びデータベース作成方法に関する。

１または複数の属性を有するレコードの集合から構成されるデータベースにおいて、ある属性または属性の組み合わせに該当するレコードの個数を数え上げた値の集合を集計データと呼ぶ。この集計データは、様々な統計分析における基礎データとして広く用いられている。集計データは、例えば、国勢調査の結果に基づく各種の地域別人口、パーソントリップ調査結果に基づき出発地及び到着地の組ごとに移動人数を集計したＯＤ（origin-destination）表等の各種の公的統計、並びに、携帯電話の運用データから日本全国の属性別人口を時間帯別に推計したモバイル空間統計等に用いられている。

近年、情報セキュリティ分野及びデータベース処理分野等において、プライバシーを保護しつつ有用なデータを公開するための様々な新しい基準及び手法が提案されている。これらの技術は、プライバシー保護データ公開（ＰＰＤＰ；privacy-preserving data publishing）技術等と呼ばれている。しかし、これらのＰＰＤＰ技術は、それぞれ攻撃者が持つ目的、能力及び背景知識に関する前提が異なり、その安全性について一概に議論することが困難であることから、実際のデータ活用に適用することは容易ではない。すなわち、これらの技術を実際に適用する上では、扱うデータの性質及び応用ごとに、「どのプライバシー保護基準に基づいて、どの手法によりプライバシーを保護するべきか」を適切に判断することが求められるが、この判断をすべてのデータ活用において行うことは現実的にはできない。

そこで、Ｄｗｏｒｋらによって２００６年に提案された差分プライバシー基準（differential privacy）が着目されている（特許文献１、非特許文献１，２参照）。この差分プライバシー基準は、「加工データを作成する上での元データとなるデータベースに、ある人が含まれるか否かの、加工データからの判別困難性」を安全性の根拠とするプライバシー保護基準である。差分プライバシー基準は、他の多くのプライバシー保護基準とは異なり、任意の背景知識を持つ攻撃者及び未知の攻撃に対して数学的な安全性が与えられているという優れた性質を有する。差分プライバシー基準を満たす手段は「メカニズム（mechanism）」と呼ばれる。代表的な差分プライバシー基準のメカニズムとしてラプラス（Laplace）メカニズムが挙げられる。ラプラスメカニズムは「問い合わせ結果に対してラプラスノイズを加える」という簡単な手段によって実現することができる。

理論的には、ラプラスメカニズムを用いることにより、差分プライバシー基準を満たす集計データを簡単に作成することができる。ただし、ラプラスメカニズムを直接適用した方法では、複数のセルの値の部分和を取った際の誤差が大きくなり、集計データの有用性が劣化する。そこで、Ｘｉａｏらは、部分和精度を改善するために離散ウェーブレット（Wavelet）変換とその概念的な拡張であるＮｏｍｉｎａｌウェーブレット変換とを用いる方式を提案している（非特許文献３，４参照）。

特開２０１２−１３３３２０号公報

Cynthia Dwork. Differential Privacy. In Michele Bugliesi, BartPreneel, Vladimiro Sassone, and Ingo Wegener, editors, Proc. 33rd intl. conf.Automata, Languages and Programming - Volume Part II, Vol.4052 of Lecture Notesin Computer Science, pp.1-12. Springer, 2006. Cynthia Dwork. Differential privacy: a survey of results. In Proc.5th intl. conf. Theory and applications of models of computation, pp.1-19.Springer-Verlag, April 2008. Xiaokui Xiao, Guozhang Wang, and Johannes Gehrke. Differentialprivacy via wavelet transforms. In Proc. 26th intl. conf. Data Engineering(ICDE 2010), pp.225-236. IEEE, 2010. Xiaokui Xiao, Guozhang Wang, Johannes Gehrke, and Thomas Jefferson.Differential Privacy via Wavelet Transforms. IEEE Trans. Knowledge and DataEngineering, Vol.23, No.8, pp.1200-1214, August 2011.

しかしながら、ラプラスメカニズム及びＸｉａｏらの手法が適用された集計データは、実際の集計データではあり得ない多くの負の値を含み得る。すなわち、集計データが本来備えるべき非負制約を逸脱することがある。この負の値は、データの利用者にとって不自然に感じられるだけでなく、分析プログラムの予期せぬ異常動作を引き起こす可能性があり、集計データの利用に著しい困難が生じるおそれがある。

これに対し、ラプラスメカニズムの適用後に負の値をゼロの値に校正することにより、見かけ上は非負制約を満たす集計データを生成できる。しかし、この方法ではセルの値の平均及び部分和に過大なバイアスが発生する。つまり、セルの値の平均及び部分和の期待値が元の集計データのセルの値及び部分和に対して大きく上振れする。このため、生成された集計データは実用に耐え難い。

本発明は、上記問題点に鑑みてなされたものであり、差分プライバシー基準を満たすとともに、部分和精度の改善及び非負制約の充足を併せて実現する集計データを提供可能なプライバシー保護装置、プライバシー保護方法及びデータベース作成方法を提供することを目的とする。

本発明の一態様に係るプライバシー保護装置は、複数のデータを含む第１集計データを入力し、第２集計データを出力するプライバシー保護装置である。このプライバシー保護装置は、第１集計データの入力を受け付ける入力手段と、入力手段によって受け付けられた第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換手段と、第１変換手段によって生成された第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第２系列データを生成する乱数付与手段と、第２集計データの各要素が負の値とならないように、乱数付与手段によって生成された第２系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第３系列データを生成する精緻化手段と、精緻化手段によって生成された第３系列データに、第１線形変換の逆変換である第２線形変換を適用することによって第２集計データを生成する第２変換手段と、第２変換手段によって生成された第２集計データを出力する出力手段と、を備える。

このプライバシー保護装置では、第１集計データに乱数が直接付与されるのではなく、第１集計データに適切な第１線形変換を施すことによって生成された第１系列データに対して乱数が付与されて、第２系列データが生成される。このため、適切な強度の乱数の付与によって、第２集計データが差分プライバシー基準を満たすようにすることができる。そして、第２系列データを木構造で表現した場合の木の低い階層の要素に付与された乱数は、部分和計算の際にキャンセルされる。これにより、第２集計データの部分和精度の劣化を抑制できる。また、第２集計データの各要素が負の値とならないように、第２系列データに含まれる要素の各々が予め定められた条件で補正されることによって、第２集計データが非負制約を満たすようにすることができる。その結果、差分プライバシー基準を満たすとともに、部分和精度の改善及び非負制約の充足を併せて実現する第２集計データを提供することが可能となる。

本発明の別の態様に係るプライバシー保護装置は、複数のデータを含む第１集計データを入力し、第２集計データを出力するプライバシー保護装置である。このプライバシー保護装置は、第１集計データの入力を受け付ける入力手段と、入力手段によって受け付けられた第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換手段と、第１変換手段によって生成された第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、第２集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、第２集計データを生成する高速変換手段と、高速変換手段によって生成された第２集計データを出力する出力手段と、を備える。

このプライバシー保護装置によれば、第１集計データに乱数が直接付与されるのではなく、第１集計データに適切な第１線形変換を施すことによって生成された第１系列データに含まれる要素の各々に対して乱数が付与されるとともに、第２集計データの各要素が負の値とならないように、乱数が付与された各要素が予め定められた条件で補正される。このため、適切な強度の乱数の付与によって、第２集計データが差分プライバシー基準を満たすようにすることができる。そして、第１系列データに乱数を付与したデータを木構造で表現した場合の木の低い階層の要素に付与された乱数は、部分和計算の際にキャンセルされる。これにより、第２集計データの部分和精度の劣化を抑制できる。また、第２集計データの各要素が負の値とならないように、乱数が付与された各要素が予め定められた条件で補正されることによって、第２集計データが非負制約を満たすようにすることができる。その結果、差分プライバシー基準を満たすとともに、部分和精度の改善及び非負制約の充足を併せて実現する第２集計データを提供することが可能となる。また、第１系列データに対し、乱数の付与と精緻化処理とが並行して実施される。このため、計算量を大幅に削減することができ、第２集計データの提供を高速化することが可能となる。

第１線形変換は、Ｈａａｒ関数を母ウェーブレットとするＨａａｒウェーブレット変換であってもよい。この場合、第１線形変換を適用することによって生成された第１系列データの各要素が木構造で表現でき、かつ、第１系列データの各要素の値が、木における子孫の部分和にのみ影響を与える。このため、木構造で表現した要素について、木の上位階層から順に木を辿って各要素に対して非負制約を満たすように精緻化を施していくだけで、木の最下位の階層まで辿り終わったときに全ての要素が非負制約を満たすことが保証される。これにより、精緻化処理における計算の単純化が可能となる。

乱数は、ラプラス分布に従う乱数であるラプラス乱数または幾何分布に従う乱数である幾何乱数であってもよい。この場合、第２集計データが差分プライバシー基準を満たすことが保証される。

精緻化処理は、第２系列データをウェーブレット係数の系列として見た場合に、ウェーブレット係数における近似係数ベクトルの各要素が負の値とならないように、ウェーブレット係数における詳細係数ベクトルの各要素の値を補正する処理を含んでもよい。この場合、全ての詳細係数ベクトルの各要素の値を補正することにより、非負制約を満たす第３系列データの生成を簡単化でき、非負制約を満たす第２集計データの提供を簡単化することが可能となる。

第１変換手段は、第１集計データを疎データ形式で表現し、第１集計データに含まれるデータのうち、ゼロ以外の値を有するデータに第１線形変換を適用することによって第１系列データを生成してもよい。この場合、ゼロの値を有するデータへの第１線形変換の適用が省略されるので、第１線形変換における計算量の削減が可能となる。

ところで、本発明は、上記のようにプライバシー保護装置の発明として記述できる他に、以下のようにプライバシー保護方法及びデータベース作成方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。

すなわち、本発明のさらに別の態様に係るプライバシー保護方法は、複数のデータを含む第１集計データを入力し、第２集計データを出力するプライバシー保護装置が行うプライバシー保護方法である。このプライバシー保護方法は、第１集計データの入力を受け付ける入力ステップと、入力ステップにおいて受け付けられた第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換ステップと、第１変換ステップにおいて生成された第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第２系列データを生成する乱数付与ステップと、第２集計データの各要素が負の値とならないように、乱数付与ステップにおいて生成された第２系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第３系列データを生成する精緻化ステップと、精緻化ステップにおいて生成された第３系列データに、第１線形変換の逆変換である第２線形変換を適用することによって第２集計データを生成する第２変換ステップと、第２変換ステップにおいて生成された第２集計データを出力する出力ステップと、を備える。

本発明のさらに別の態様に係るプライバシー保護方法は、複数のデータを含む第１集計データを入力し、第２集計データを出力するプライバシー保護装置が行うプライバシー保護方法である。このプライバシー保護方法は、第１集計データの入力を受け付ける入力ステップと、入力ステップにおいて受け付けられた第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換ステップと、第１変換ステップにおいて生成された第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、第２集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、第２集計データを生成する高速変換ステップと、高速変換ステップにおいて生成された第２集計データを出力する出力ステップと、を備える。

本発明のさらに別の態様に係るデータベース作成方法は、プライバシーが保護された集計データを備えるデータベース作成方法である。このデータベース作成方法は、複数のデータを含む第１集計データの入力を受け付ける入力ステップと、入力ステップにおいて受け付けられた第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換ステップと、第１変換ステップにおいて生成された第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第２系列データを生成する乱数付与ステップと、第２集計データの各要素が負の値とならないように、乱数付与ステップにおいて生成された第２系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第３系列データを生成する精緻化ステップと、精緻化ステップにおいて生成された第３系列データに、第１線形変換の逆変換である第２線形変換を適用することによって第２集計データを生成する第２変換ステップと、第２変換ステップにおいて生成された第２集計データをデータベースに出力する出力ステップと、を備える。

本発明のさらに別の態様に係るデータベース作成方法は、プライバシーが保護された集計データを備えるデータベース作成方法である。複数のデータを含む第１集計データの入力を受け付ける入力ステップと、入力ステップにおいて受け付けられた第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換ステップと、第１変換ステップにおいて生成された第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、第２集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、第２集計データを生成する高速変換ステップと、高速変換ステップにおいて生成された第２集計データを出力する出力ステップと、を備える。

本発明によれば、差分プライバシー基準を満たすとともに、部分和精度の改善及び非負制約の充足を併せて実現する集計データを提供することができる。

第１実施形態に係るプライバシー保護装置の構成を概略的に示す図である。図１のプライバシー保護装置のハードウェア構成図である。図１の第１変換部による第１系列データの生成処理を説明するための図である。図１の乱数付与部による第２系列データの生成処理を説明するための図である。図１の精緻化部による精緻化処理を説明するための図である。図１のプライバシー保護装置によって実行されるプライバシー保護方法の一連の処理を示すフローチャートである。第２実施形態に係るプライバシー保護装置の構成を概略的に示す図である。図７のプライバシー保護装置によって実行されるプライバシー保護方法の一連の処理を示すフローチャートである。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。

［第１実施形態］
図１は、第１実施形態に係るプライバシー保護装置の構成を概略的に示す図である。図１に示されるように、プライバシー保護装置１０は、複数のデータ（以下、「要素」という。）を含む第１集計データＶを入力し、第２集計データＶ^＋を出力する装置であり、例えば、サーバ装置等の情報処理装置によって構成されている。プライバシー保護装置１０は、集計データを公開するにあたって、データベースに含まれる人々のプライバシーに関する情報（個人情報）の漏洩を防止するためのプライバシー保護処理を第１集計データＶに施す。例えば、プライバシー保護装置１０は、携帯電話ネットワークの情報を用いた人口動態の推計等の統計データの提供及び開示におけるプライバシーを保護する。

第１集計データＶは、プライバシー保護装置１０によるプライバシー保護処理の処理対象であり、１または複数の属性を有するレコードの集合から構成されるデータベースにおいて、ある属性または属性の組み合わせに該当するレコードの個数を数え上げた値の集合である。第１集計データＶは、例えば、人々に関係するデータベースから作成される。第２集計データＶ^＋は、プライバシー保護装置１０によって第１集計データＶにプライバシー保護処理が施された集計データであり、差分プライバシー基準を満たし、かつ、非負制約を満たすプライバシー保護済み集計データである。ここで、第１集計データＶをＶ＝（ｖ_１，ｖ_２，・・・，ｖ_ｎ）とし、第２集計データＶ^＋をＶ^＋＝（ｖ_１ ^＋，ｖ_２ ^＋，・・・，ｖ_ｎ ^＋）とする。また、ｎは、第１集計データＶの論理的な空間のサイズであって、ｎ＝２^ｋ（ｋは自然数）であるとする。なお、説明の便宜上、一次元のデータ系列を対象にしているが、多次元のデータ系列であってもよい。例えば、ウェーブレット変換の標準分解（standard decomposition）の適用等によって、容易に多次元のデータ系列に拡張できる。

プライバシー保護装置１０は、機能的には、入力部１１（入力手段）と、第１変換部１２（第１変換手段）と、乱数付与部１３（乱数付与手段）と、精緻化部１４（精緻化手段）と、第２変換部１５（第２変換手段）と、出力部１６（出力手段）と、を備える。プライバシー保護装置１０は、図２に示されるハードウェアによって構成される。

図２は、プライバシー保護装置１０のハードウェア構成図である。図２に示されるように、プライバシー保護装置１０は、物理的には、１又は複数のＣＰＵ（Central Processing Unit）１０１、主記憶装置であるＲＡＭ（RandomAccess Memory）１０２及びＲＯＭ（Read Only Memory)１０３、データ送受信デバイスである通信モジュール１０４、ハードディスク装置等の補助記憶装置１０５、キーボード等のユーザの入力を受け付ける入力装置１０６、並びに、ディスプレイ等の出力装置１０７等のハードウェアを備えるコンピュータとして構成される。図１におけるプライバシー保護装置１０の各機能は、ＣＰＵ１０１、ＲＡＭ１０２等のハードウェア上に１又は複数の所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで通信モジュール１０４、入力装置１０６及び出力装置１０７を動作させるとともに、ＲＡＭ１０２及び補助記憶装置１０５におけるデータの読み出し及び書き込みを行うことで実現される。

図１に戻って、プライバシー保護装置１０の機能構成について詳細に説明する。入力部１１は、第１集計データＶの入力を受け付ける入力手段として機能する。入力部１１は、プライバシー保護装置１０の外部から第１集計データＶを受信し、受信した第１集計データＶを第１変換部１２に出力する。

第１変換部１２は、入力部１１によって受け付けられた第１集計データＶに第１線形変換を適用することによって第１系列データＷを生成する第１変換手段として機能する。ここで、第１線形変換は、第１線形変換を適用することによって生成された第１系列データＷの各要素が木構造で表現でき、かつ、第１系列データＷの各要素の値が、木における子孫の部分和にのみ影響を与えるという条件を満たす。このような第１線形変換として、例えば、Ｈａａｒウェーブレット変換、Ｎｏｍｉｎａｌウェーブレット変換、フーリエ（Fourier）変換、和差分解等が用いられる。

第１線形変換としてＨａａｒウェーブレット変換を用いて説明を行う。Ｈａａｒウェーブレット変換Ηは、階段関数の一種であるＨａａｒ関数を母ウェーブレットとした離散ウェーブレット変換の一種である。このＨａａｒウェーブレット変換Ηは、逆変換関数であるＨａａｒウェーブレット逆変換Η^−１を有し、任意の第１集計データＶについて、Ｖ＝Η^−１（Η（Ｖ））が成立する。第１変換部１２は、第１線形変換を用いて、長さｎのベクトル列である第１集計データＶを、同じ長さｎのベクトル列である第１系列データＷ＝（ｗ_１，ｗ_２，・・・，ｗ_ｎ）に変換する。Ｈａａｒウェーブレット変換Ηは、Ｈａａｒ分解Η_１を再帰的にｋ回適用することによって成される。このＨａａｒ分解Η_１は、以下の式（１）〜（３）に示されるように、長さ２^ｐ（＝ｑ）のベクトル列Ｙ＝（ｙ_１，ｙ_２，・・・，ｙ_ｑ）を、長さ２^ｐ−１のベクトル列ｃＡ，ｃＤに分解する。

ベクトル列ｃＡは、ベクトル列Ｙにおいて隣り合う２つの値の平均のベクトルであり、ベクトル列ｃＤは、ベクトル列Ｙにおいて隣り合う２つの値の差分のベクトルである。ベクトル列ｃＡを近似係数ベクトル、ベクトル列ｃＤを詳細係数ベクトルと呼ぶ。生成された近似係数ベクトルｃＡに再びＨａａｒ分解Η_１を施すと、長さ２^ｐ−２の近似係数ベクトルと長さ２^ｐ−２の詳細係数ベクトルとの組が得られる。このように、第１変換部１２は、式（４）及び（５）に示されるように、第１集計データＶを初期入力として、このＨａａｒ分解Η_１を再帰的にｋ回繰り返すことによって、最終的には１個の近似係数ベクトルとｋ個の詳細係数ベクトルとを得る。

ここで、ｉは２〜ｋの整数値を取る。近似係数ベクトルｃＡ_ｉ及び詳細係数ベクトルｃＤ_ｉは、ｉ回目のＨａａｒ分解Η_１によって得られた出力であり、これをレベルｉの係数ベクトルと呼ぶ。そして、第１変換部１２は、以下の式（６）に示されるように連接を行うことによって、ウェーブレット係数系列である第１系列データＷを構成する。

なお、レベルｋの近似係数ベクトルｃＡ_ｋの長さは１であり、レベルｉの詳細係数ベクトルｃＤ_ｉの長さは２^ｋ−ｉであることから、以下の式（７）に示されるように、第１系列データＷの長さは、第１集計データＶの長さと等しくなる。

図３は、第１変換部１２による第１系列データＷの生成処理を説明するための図である。図３に示される例では、第１集計データＶ＝（ｖ_１，ｖ_２，ｖ_３，ｖ_４，ｖ_５，ｖ_６，ｖ_７，ｖ_８）である。第１変換部１２は、この第１集計データＶを初期入力としてＨａａｒ分解Η_１を適用することによって、式（８）に示されるレベル１の近似係数ベクトルｃＡ_１及び詳細係数ベクトルｃＤ_１を得る。

そして、第１変換部１２は、レベル１の近似係数ベクトルｃＡ_１を入力としてＨａａｒ分解Η_１を適用することによって、式（９）に示されるレベル２の近似係数ベクトルｃＡ_２及び詳細係数ベクトルｃＤ_２を得て、さらにレベル２の近似係数ベクトルｃＡ_２を入力としてＨａａｒ分解Η_１を適用することによって、式（１０）に示されるレベル３の近似係数ベクトルｃＡ_３及び詳細係数ベクトルｃＤ_３を得る。

そして、第１変換部１２は、式（６）に示されるように、近似係数ベクトルｃＡ_３及び詳細係数ベクトルｃＤ_３，ｃＤ_２，ｃＤ_１を連接することによって、第１系列データＷを生成する。なお、レベルｉの近似係数ベクトルｃＡ_ｉの第ｘ番目の係数をｃＡ_ｉ，ｘと表現し、レベルｉの詳細係数ベクトルｃＤ_ｉの第ｘ番目の係数（以下、要素という。）をｃＤ_ｉ，ｘと表現する。

乱数付与部１３は、第１変換部１２によって生成された第１系列データＷに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第２系列データＷ^＊を生成する乱数付与手段として機能する。ここで、第２系列データＷ^＊は差分プライバシー基準を満たす。また、乱数は、加算により差分プライバシー基準を満たすことができる乱数である。このような乱数として、例えば、ラプラス分布に従う乱数であるラプラスノイズ（ラプラス乱数）、幾何分布に従う乱数である幾何ノイズ（幾何乱数）等が用いられる。ラプラスノイズを付与することにより差分プライバシー基準を満たす手段はラプラスメカニズムと呼ばれ、幾何ノイズを付与することにより差分プライバシー基準を満たす手段は幾何メカニズムと呼ばれる。

乱数としてラプラスノイズを用いて説明を行う。ここで、ラプラスノイズとは、０を平均としたラプラス分布から独立に抽出された乱数である。以下の説明では、平均０、スケールλのラプラス分布に従って発生させたラプラスノイズをＬａｐ（λ）とする。ラプラスメカニズムで用いられるラプラスノイズのスケールλは、差分プライバシー基準におけるプライバシー強度εと、問い合わせの種類ごとに定まる大域的感度（ＧＳ；global sensitivity）と、によって与えられる。具体的には、ε−差分プライバシー基準を満たすための問い合わせｆに対応するラプラスメカニズムΚ_ｆは、問い合わせｆの感度ＧＳ_ｆを用いて、式（１１）で定義される。

乱数付与部１３は、第１変換部１２によって生成された第１系列データＷの各要素に対して、ラプラスメカニズムを適用し、差分プライバシー基準を満たす第２系列データＷ^＊を生成する。ここで、ラプラスメカニズムによって付与されるラプラスノイズのスケールλは、Ｈａａｒウェーブレット変換におけるレベルによって異なる。具体的には、乱数付与部１３は、スケールλ＝２（１＋ｋ）／εとして、第１系列データＷに含まれるレベルｉの要素にそれぞれＬａｐ（λ／２^ｉ）を加えることによって、ノイズ付きウェーブレット係数系列である第２系列データＷ^＊を生成する。

なお、Ｈａａｒウェーブレット変換の定義により、第１集計データＶの要素ｖ_ｊが１変化すると、レベルｉの要素は、１／２^ｉ変化する。つまり、第１系列データＷに含まれる各要素の感度ＧＳは１／２^ｉであるので、各要素単体については、ラプラスノイズＬａｐ（λ／２^ｉ）が付加されることによって、λ−差分プライバシー基準が満たされる。ただし、データベース中の１つのデータの変化は、第１集計データＶにおける２つの要素ｖ_ｊ１，ｖ_ｊ２にそれぞれ変化をもたらし得る。例えば、２つの要素ｖ_ｊ１，ｖ_ｊ２の一方の値が１増加し、他方の値が１減少し得る。この２つの要素ｖ_ｊ１，ｖ_ｊ２の変化はそれぞれ、第１系列データＷにおいてｋ個の詳細係数ベクトルｃＤの値と１個の近似係数ベクトルｃＡの値に影響を及ぼす。つまり、２つの要素ｖ_ｊ１，ｖ_ｊ２の変化は最大で２（１＋ｋ）個の係数ベクトルに影響を及ぼし得る。従って、差分プライバシーの直列合成則によって、第２系列データＷ^＊全体では、１／λ×２（１＋ｋ）＝２（１＋ｋ）／λ＝εとなり、ε−差分プライバシー基準が満たされる。

図４は、乱数付与部１３による第２系列データＷ^＊の生成処理を説明するための図である。図４に示される例では、乱数付与部１３は、第１系列データＷに含まれるレベル１の要素ｃＤ_１，１、要素ｃＤ_１，２、要素ｃＤ_１，３及び要素ｃＤ_１，４にそれぞれＬａｐ（λ／２）を加える。また、乱数付与部１３は、第１系列データＷに含まれるレベル２の要素ｃＤ_２，１及び要素ｃＤ_２，２にそれぞれＬａｐ（λ／４）を加える。さらに、乱数付与部１３は、第１系列データＷに含まれるレベル３の要素ｃＡ_３，１及び要素ｃＤ_３，１にそれぞれＬａｐ（λ／８）を加える。このようにして、乱数付与部１３は、第２系列データＷ^＊を生成する。

精緻化部１４は、第２集計データＶ^＋の各要素が負の値とならないように、つまり、第２集計データＶ^＋の各要素がゼロ以上の値となるように、乱数付与部１３によって生成された第２系列データＷ^＊に含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第３系列データＷ^＋を生成する精緻化手段として機能する。ここで、第３系列データＷ^＋は、非負制約を満たす。精緻化処理は、第２系列データＷ^＊における非負制約の逸脱を解消するための処理である。精緻化部１４は、例えば、第２系列データＷ^＊＝（ｃＡ_ｋ ^＊｜ｃＤ_ｋ ^＊｜ｃＤ_ｋ−１ ^＊｜・・・｜ｃＤ_１ ^＊）に含まれるウェーブレット係数をそれぞれ検証し、非負制約を逸脱させるような要素が存在した場合に、その要素を補正する。そして、精緻化部１４は、レベルｋからレベル１までの全ての要素について検証及び補正を行うことにより、非負制約を満たすことが保証された精緻化済みウェーブレット係数系列である第３系列データＷ^＋＝（ｃＡ_ｋ ^＋｜ｃＤ_ｋ ^＋｜ｃＤ_ｋ−１ ^＋｜・・・｜ｃＤ_１ ^＋）を得る。

具体的に説明すると、精緻化部１４は、レベルｉの精緻化済み近似係数ベクトルｃＡ_ｉ ^＋の全要素が負値を取ることがないように、レベルｉ＋１のノイズ付き詳細係数ベクトルｃＤ_ｉ＋１ ^＊の各要素の値を精緻化する。なお、精緻化部１４の説明において、ｉは０からｋまでの整数値を取ることとする。このとき、第２集計データＶ^＋＝ｃＡ_０ ^＋となる。まず、精緻化部１４は、ｉ＝ｋにおいて、レベルｋの精緻化済み近似係数ベクトルｃＡ_ｋ ^＋が非負制約を満たすように、以下の式（１２）を実行する。

ｉ＜ｋにおいては、レベルｉの精緻化済み近似係数ベクトルｃＡ_ｉ ^＋の各要素ｃＡ_ｉ，ｘ ^＋は、１レベル上のレベルｉ＋１の精緻化済み近似係数ベクトルｃＡ_ｉ＋１ ^＋の要素ｃＡ_{ｉ＋１，ｃｅｉｌ（ｘ／２）} ^＋と精緻化済み詳細係数ベクトルｃＤ_ｉ＋１ ^＋の要素ｃＤ_{ｉ＋１，ｃｅｉｌ（ｘ／２）} ^＋とを用いて、式（１３）に示されるように再帰的に定義される。

ここで、ｃｅｉｌ（ｘ）は、天井関数であり、ｘを下回らない最小の整数（つまり、小数点以下の切り上げ）を表す。ｇ（ｘ）は符号関数であり、以下の式（１４）に示される値を取る。

すなわち、式（１３）によれば、以下の式（１５）を満たすことができるならば、式（１６）が成立する。

そして、第２集計データＶ^＋＝ｃＡ_０ ^＋であるので、レベルｋの精緻化済み近似係数ベクトルｃＡ_ｋ ^＋が０以上であり、かつ、第３系列データＷ^＋の全要素について式（１５）が成立する場合、第２集計データＶ^＋は非負制約を逸脱しない。

図５は、精緻化部１４による精緻化処理を説明するための図である。図５に示される例では、レベル２の精緻化済み近似係数ベクトルｃＡ_２ ^＋の各要素は、第１要素ｃＡ_２，１ ^＋＝ｃＡ_３，１ ^＋＋ｃＤ_３，１ ^＋、第２要素ｃＡ_２，２ ^＋＝ｃＡ_３，１ ^＋−ｃＤ_３，１ ^＋で算出される。このとき、レベル３のノイズ付き詳細係数ベクトルｃＤ_３ ^＊の第１要素ｃＤ_３，１ ^＊の大きさが、レベル３の精緻化済み近似係数ベクトルｃＡ_３ ^＋の第１要素ｃＡ_３，１ ^＋よりも大きい、つまり、｜ｃＤ_３，１ ^＊｜＞ｃＡ_３，１ ^＋であり、要素ｃＤ_３，１ ^＊を補正せずに要素ｃＤ_３，１ ^＋とした場合、第１要素ｃＡ_２，１ ^＋及び第２要素ｃＡ_２，２ ^＋のいずれかが負の値となる。

第１要素ｃＡ_２，１ ^＋及び第２要素ｃＡ_２，２ ^＋は式（９）と同様にして得られるので、第２集計データＶ^＋のｖ_１ ^＋〜ｖ_４ ^＋の平均及びｖ_５ ^＋〜ｖ_８ ^＋の平均のいずれかが負の値となる。つまり、第２集計データＶ^＋は非負制約を逸脱していることになる。そこで、精緻化部１４は、｜ｃＤ_３，１ ^＊｜＞ｃＡ_３，１ ^＋の場合、｜ｃＤ_３，１ ^＊｜＝ｃＡ_３，１ ^＋となるように、要素ｃＤ_３，１ ^＊を補正して要素ｃＤ_３，１ ^＋とする。精緻化部１４は、同様の処理を、レベル２のノイズ付き詳細係数ベクトルｃＤ_２ ^＊の各要素、及び、レベル１のノイズ付き詳細係数ベクトルｃＤ_１ ^＊の各要素に対して順に行う。つまり、精緻化部１４は、第２系列データＷ^＊をウェーブレット係数の系列として見た場合に、ウェーブレット係数におけるレベルｉの精緻化済み近似係数ベクトルｃＡ_ｉ ^＋の各要素ｃＡ_ｉ，ｘ ^＋が負の値とならないように、１つ上のレベルｉ＋１のノイズ付き詳細係数ベクトルｃＤ_ｉ＋１ ^＊の各要素ｃＤ_{ｉ＋１，ｘ} ^＊の値を補正して、レベルｉ＋１の精緻化済み詳細係数ベクトルｃＤ_ｉ＋１ ^＋の各要素ｃＤ_{ｉ＋１，ｘ} ^＋とする。

このため、精緻化部１４は、レベルｉ（ｉ＝１〜ｋ）の精緻化済み詳細係数ベクトルｃＤ_ｉ ^＋の各要素ｃＤ_ｉ，ｘ ^＋を式（１７）を用いて算出する。

このように、精緻化部１４は、ｉについてｋから１まで降順に、要素番号ｘ＝１〜２^ｋ−ｉの要素ｃＡ_ｉ，ｘ ^＋及び要素ｃＤ_ｉ，ｘ ^＋を式（１２）、式（１３）及び式（１７）を用いて順に算出する。そして、精緻化部１４は、第２集計データＶ^＋が非負制約を逸脱しないような第３系列データＷ^＋＝（ｃＡ_ｋ ^＋｜ｃＤ_ｋ ^＋｜ｃＤ_ｋ−１ ^＋｜・・・｜ｃＤ_１ ^＋）を得る。

第２変換部１５は、精緻化部１４によって生成された第３系列データＷ^＋に、第１線形変換の逆変換である第２線形変換を適用することによって第２集計データＶ^＋を生成する第２変換手段として機能する。第１線形変換としてＨａａｒウェーブレット変換Ηを用いた場合、第２変換部１５は、第２線形変換としてＨａａｒウェーブレット逆変換Η^−１を用いる。そして、第２変換部１５は、精緻化済みのウェーブレット係数系列である第３系列データＷ^＋に第２線形変換を適用することによって、第２集計データＶ^＋を生成する。つまり、第２変換部１５は、Ｖ^＋＝Η^−１（Ｗ^＋）の計算を実施する。

上記計算は一般的に知られているが、一例として、第２変換部１５は、第３系列データＷ^＋を入力として、ｉについてｋから０まで再帰的に式（１３）を用いて精緻化済み近似係数ベクトルｃＡ_ｉ ^＋を算出する。第２集計データＶ^＋＝ｃＡ_０ ^＋あるので、第２変換部１５は、レベル０の精緻化済み近似係数ベクトルｃＡ_０ ^＋を得ることによって、第２集計データＶ^＋を得る。

出力部１６は、第２変換部１５によって生成された第２集計データＶ^＋を出力する出力手段として機能する。出力部１６は、第２変換部１５から第２集計データＶ^＋を受信し、受信した第２集計データＶ^＋をプライバシー保護装置１０の外部に出力する。出力部１６は、例えば、第２集計データＶ^＋を公開用のデータベースに出力し、プライバシーが保護された集計データを備えるデータベースを作成する。

次に、図６を参照して、プライバシー保護装置１０によって実行されるプライバシー保護方法を説明する。図６は、プライバシー保護装置１０によって実行されるプライバシー保護方法の一連の処理を示すフローチャートである。図６に示される処理は、例えば、プライバシー保護装置１０の外部から第１集計データＶが入力されることにより開始される。

まず、入力部１１によって、プライバシー保護装置１０の外部から第１集計データＶが受信され、受信された第１集計データＶが第１変換部１２に出力される（ステップＳ１１，入力ステップ）。そして、ステップＳ１１において受け付けられた第１集計データＶに、第１変換部１２によって第１線形変換が適用されることによって第１系列データＷが生成される（ステップＳ１２，第１変換ステップ）。ここで、第１線形変換としては、例えば、Ｈａａｒウェーブレット変換、Ｎｏｍｉｎａｌウェーブレット変換、フーリエ変換、和差分解等が用いられる。

続いて、ステップＳ１２において生成された第１系列データＷに含まれる要素の各々に対して、予め定められた強度の乱数が乱数付与部１３によって付与されることによって第２系列データＷ^＊が生成される（ステップＳ１３，乱数付与ステップ）。ここで、乱数としては、例えば、ラプラスノイズ、幾何ノイズ等が用いられる。そして、第２集計データＶ^＋の各要素が負の値とならないように、ステップＳ１３において生成された第２系列データＷ^＊に含まれる要素の各々を、予め定められた条件で補正する精緻化処理が精緻化部１４によって実施される。これによって、第３系列データＷ^＋が生成される（ステップＳ１４，精緻化ステップ）。

続いて、ステップＳ１４において生成された第３系列データＷ^＋に、第２変換部１５によって第１線形変換の逆変換である第２線形変換が適用されることによって第２集計データＶ^＋が生成される（ステップＳ１５，第２変換ステップ）。そして、ステップＳ１５において生成された第２集計データＶ^＋が、出力部１６によってプライバシー保護装置１０の外部に出力される（ステップＳ１６，出力ステップ）。これにより、プライバシー保護方法の一連の処理が終了される。なお、ステップＳ１６において、第２集計データＶ^＋は公開用のデータベースに出力されることにより、プライバシーが保護された集計データを備えるデータベースが作成されてもよい。この場合、上述のプライバシー保護方法は、データベース作成方法ともいえる。

次に、プライバシー保護装置１０及びプライバシー保護装置１０が行うプライバシー保護方法の作用効果について説明する。

（差分プライバシー基準の充足）
乱数付与部１３によって、第１系列データＷにラプラスメカニズムが適用されることにより、ε−差分プライバシー基準を満たす第２系列データＷ^＊が生成される。第２系列データＷ^＊が生成された後の工程（精緻化処理及び第２変換処理）においては、第２系列データＷ^＊そのものを除いて第１集計データＶに関する知識が用いられていない。このため、事後処理則の適用条件を満たすので、第２集計データＶ^＋もε−差分プライバシー基準を満たす。したがって、第２集計データＶ^＋は、ε＝１／λ×２（１＋ｌｏｇ_２ｎ）＝２（１＋ｌｏｇ_２ｎ）／λのε−差分プライバシー基準を満たす。なお、スケールλは、ラプラスメカニズムにおけるスケールである。

（非負制約の充足）
精緻化部１４によって、レベルｋの精緻化済み近似係数ベクトルｃＡ_ｋ ^＋が式（１２）を満たし、かつ、第３系列データＷ^＋の全要素が式（１５）を満たすように、第２系列データＷ^＊に含まれる要素の各々が補正される。そして、第２集計データＶ^＋＝ｃＡ_０ ^＋であることから、第２集計データＶ^＋は非負制約を逸脱しないことが保証される。

（部分和の平均の保存）
ラプラスメカニズムの適用において、レベルｋの近似係数ベクトルｃＡ_ｋ及び詳細係数ベクトルｃＤ_ｋにそれぞれラプラスノイズが付与されるが、ラプラスノイズの平均は０であるので、以下の式（１８）が成立する。

ここで、Ｅ（ｗ^＊）は要素ｗ^＊の期待値を示す。また、ｉ≦ｋ−１において、以下の式（１９）が成立する。

そして、式（１３）及び式（１９）により、以下の式（２０）が成立する。

したがって、ラプラスメカニズムの適用においても、各要素の期待値は保存される。

精緻化処理においては、式（１２）により、レベルｋの精緻化済み近似係数ベクトルｃＡ_ｋ ^＋の要素ｃＡ_ｋ，１ ^＋に正のバイアスが発生する可能性があり、その確率は以下の式（２１）に示される。

この確率は、人為的に作成されたものでない一般的な集計データにおいては、ほぼ無視され得る。また、レベルｉの精緻化済み詳細係数ベクトルｃＤ_ｉ ^＋の精緻化は、レベルｉ−１の精緻化済み近似係数ベクトルｃＡ_ｉ−１ ^＋の期待値に影響を与えないので、要素ｃＡ_ｋ，１ ^＋に正のバイアスが発生する可能性を無視できれば、第２集計データＶ^＋（＝ｃＡ_０ ^＋）の任意の要素について、その期待値は第１集計データＶの対応する要素に等しい。

なお、ウェーブレット変換の性質によれば、ウェーブレット変換及び逆変換の工程では、各要素またはその部分和の平均の期待値が保存されることは明らかである。

このため、第１集計データＶの各要素の総和がスケールλに対して極端に小さくない、つまり式（２１）に示される確率が無視され得るなら、第２集計データＶ^＋の任意の要素またはその部分和の平均の期待値は、第１集計データＶの対応する要素またはその部分和の平均と等しい。すなわち、過大及び過小のいずれのバイアスも発生することはない。

（部分和精度の劣化抑制）
Ｈａａｒウェーブレット変換の性質により、第２集計データＶ^＋を２^ｐ個の要素ごとのブロックに分割したとき、ｘ番目のブロックの部分和は、２^ｐ×ｃＡ_ｐ，ｘ ^＋で与えられる。ラプラスメカニズムによって与えられるラプラスノイズは互いに独立であるので、要素ｃＡ_ｐ，ｘ ^＋が精緻化の影響を受けなかったとき、要素ｃＡ_ｐ，ｘ ^＋のラプラスノイズの分散は、精緻化済み近似係数ベクトルｃＡ_ｋ ^＋及び精緻化済み詳細係数ベクトルｃＤ_ｋ ^＋，ｃＤ_ｋ−１ ^＋，・・・，ｃＤ_ｐ＋１ ^＋にそれぞれ与えられたラプラスノイズの分散の総和になる。一方、要素ｃＡ_ｐ，ｘ ^＋が精緻化の影響を受けるときには、第１集計データＶの分布に依存するので、その定量的な分散を解析的に示すことは難しい。しかし、人口分布等の「自然な」集計データ、すなわちロングテイル性を有し、ゼロ値及び小さい値を有する要素が連続するような第１集計データＶにおいて、精緻化はそれらの値が大きく上振れまたは下振れすることを防ぐ効果を奏する。このため、条件によってはラプラスノイズがより小さくなるという定性的な傾向がある。このように、第２集計データＶ^＋を２^ｐ個の要素ごとのブロックに分割したとき、その部分和に含まれるラプラスノイズの分散は、以下の式（２２）に示される値と同程度かそれよりも小さくなる。すなわち、ブロックの部分和のラプラスノイズは、ブロック長が長いほど小さくなる。

（計算量）
なお、プライバシー保護装置１０のプライバシー保護方法の各処理（第１変換処理、乱数付与処理、精緻化処理及び第２変換処理）の計算量はいずれもＯ（ｎ）であるので、全体の計算量もＯ（ｎ）となる。この計算量は、単純なラプラスメカニズム及びＸｉａｏらの方法と同じである。ここで、ｎは、ゼロの値を有する要素も含む第１集計データＶの論理的な要素の空間のサイズである。

以上詳述したように、プライバシー保護装置１０では、第１集計データＶに乱数が直接付与されるのではなく、第１集計データＶに適切な第１線形変換を施すことによって生成された第１系列データＷに対して乱数が付与されて、第２系列データＷ^＊が生成される。このため、適切な強度の乱数の付与によって、第２集計データＶ^＋が差分プライバシー基準を満たすようにすることができる。そして、第２系列データＷ^＊を木構造で表現した場合の木の低い階層の要素に付与された乱数は、部分和計算の際にキャンセルされる。これにより、第２集計データＶ^＋の部分和精度の劣化を抑制できる。また、第２集計データＶ^＋の各要素が負の値とならないように、第２系列データＷ^＊に含まれる要素の各々が予め定められた条件で補正されることによって、第２集計データＶ^＋が非負制約を満たすようにすることができる。その結果、比較的簡単な構成で、差分プライバシー基準を満たすとともに、部分和精度の改善及び非負制約の充足を併せて実現する第２集計データＶ^＋を提供することが可能となる。

第１変換部１２は、第１線形変換としてＨａａｒ関数を母ウェーブレットとするＨａａｒウェーブレット変換を用いる。このＨａａｒウェーブレット変換は、Ｈａａｒウェーブレット変換を適用することによって生成された第１系列データＷの各要素が木構造で表現でき、かつ、第１系列データＷの各要素の値が、木における子孫の部分和にのみ影響を与える。このため、木構造で表現した要素について、木の上位階層から順に木を辿って各要素に対して非負制約を満たすように精緻化を施していくだけで、木の最下位の階層まで辿り終わったときに全ての要素が非負制約を満たすことが保証される。これにより、精緻化処理における計算の単純化が可能となる。

乱数付与部１３は、ラプラスノイズまたは幾何ノイズを第１系列データＷに付与する。このため、第２集計データＶ^＋が差分プライバシー基準を満たすことが保証される。

精緻化部１４は、第２系列データＷ^＊をウェーブレット係数の系列として見た場合に、ウェーブレット係数におけるレベルｉのノイズ付き近似係数ベクトルｃＡ_ｉ ^＊の各要素ｃＡ_ｉ，ｘ ^＊が負の値とならないように、１レベル上のレベルｉ＋１のノイズ付き詳細係数ベクトルｃＤ_ｉ＋１ ^＊の各要素ｃＤ_{ｉ＋１，ｘ} ^＊の値を補正する。このため、全てのノイズ付き詳細係数ベクトルｃＤ^＊の各要素の値を補正することにより、非負制約を満たす第３系列データＷ^＋の生成を簡単化でき、非負制約を満たす第２集計データＶ^＋の提供を簡単化することが可能となる。

［第２実施形態］
図７は、第２実施形態に係るプライバシー保護装置の構成を概略的に示す図である。図７に示されるように、プライバシー保護装置１０Ａは、複数の要素を含む第１集計データＶを入力し、第２集計データＶ^＋を出力する装置であり、第１変換部１２に代えて第１変換部１２Ａ（第１変換手段）を備える点、乱数付与部１３、精緻化部１４及び第２変換部１５に代えて高速変換部１７（高速変換手段）を備える点でプライバシー保護装置１０と相違する。ここで、第１集計データＶをＶ＝（ｖ_１，ｖ_２，・・・，ｖ_ｎ）とし、第２集計データＶ^＋を、Ｖ^＋＝（ｖ_１ ^＋，ｖ_２ ^＋，・・・，ｖ_ｎ ^＋）とする。また、ｎ＝２^ｋ（ｋは自然数）であるとする。なお、説明の便宜上、一次元のデータ系列を対象にしているが、多次元のデータ系列であってもよい。

第１変換部１２Ａは、第１線形変換の実装形態において第１変換部１２と相違する。つまり、第１変換部１２Ａは、第１集計データＶを疎データ形式（sparse data format）で表現し、第１集計データＶに含まれる要素のうち、非ゼロの値（つまり、ゼロ以外の値）を有する要素に第１線形変換を適用することによって第１系列データＷを生成する。ここで、第１線形変換は、第１実施形態と同様、第１線形変換を適用することによって生成された第１系列データＷの各要素が木構造で表現でき、かつ、第１系列データＷの各要素の値が、木における子孫の部分和にのみ影響を与えるという条件を満たす線形変換であればよい。第１変換部１２Ａは、例えば、ＣＯＯ（Coordinate）形式、ゼロ値を取る要素を陽に表現しない形式等、疎行列を効率良く表現できる疎データ形式で、第１集計データＶ及び第１系列データＷを表現する。

第１線形変換としてＨａａｒウェーブレット変換を用い、第１集計データＶ及び第１系列データＷをＣＯＯ形式で表現する場合について説明を行う。第１変換部１２Ａは、第１集計データＶをＣＯＯ形式（ｊ，ｖ_ｘ）（ｘ＝｛１，・・・，ｎ｝）の集合の形式で表現し、非ゼロの値を有する要素に対してのみ、以下の式（２３）及び式（２４）を計算する。

ここで、ｃｅｉｌ（ｘ）は、天井関数であり、ｘを下回らない最小の整数（つまり、小数点以下の切り上げ）を表す。ｇ（ｘ）は符号関数であり、上述の式（１４）に示される値を取る。なお、近似係数ベクトルｃＡ及び詳細係数ベクトルｃＤは、それぞれＣＯＯ形式で保持され、その初期値はいずれもｃＡ＝ｃＤ＝｛０｝^ｎ／２とする。そして、第１変換部１２Ａは、レベル１の近似係数ベクトルｃＡ_１及び詳細係数ベクトルｃＤ_１からレベルｋの近似係数ベクトルｃＡ_ｋ及び詳細係数ベクトルｃＤ_ｋまで再帰的に算出し、式（６）に示される連接を行うことによって、第１系列データＷを生成する。

高速変換部１７は、第１変換部１２Ａによって生成された第１系列データＷに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、第２集計データＶ^＋の各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、第２集計データＶ^＋を生成する高速変換手段として機能する。高速変換部１７は、例えば、第１系列データＷに含まれる要素の各々に対して、ラプラスノイズの付与と精緻化処理とを並行して行う処理を再帰降下で実行する。

具体的に説明すると、高速変換部１７は、まず、第１系列データＷにラプラスメカニズムを適用することにより、レベルｋのノイズ付き近似係数ベクトルｃＡ_ｋ ^＊の要素ｃＡ_ｋ，１ ^＊及びノイズ付き詳細係数ベクトルｃＤ_ｋ ^＊の要素ｃＤ_ｋ，１ ^＊をそれぞれ計算する。続いて、高速変換部１７は、以下の式（２５）及び式（２６）を用いて、レベルｋの精緻化済み近似係数ベクトルｃＡ_ｋ ^＋の要素ｃＡ_ｋ，１ ^＋及び精緻化済み詳細係数ベクトルｃＤ_ｋ ^＋の要素ｃＤ_ｋ，１ ^＋を順に計算する。

続いて、高速変換部１７は、ｉについてｋから２まで降順に下記の手順（ａ）〜（ｃ）を実行する。このとき、高速変換部１７は、各レベルｉの精緻化済み近似係数ベクトルｃＡ_ｉ ^＋の要素のうち非ゼロの要素ついて下記の処理を実行する。まず、手順（ａ）では、高速変換部１７は、レベルｉの精緻化済み近似係数ベクトルｃＡ_ｉ ^＋及び精緻化済み詳細係数ベクトルｃＤ_ｉ ^＋を用いて、式（２７）及び式（２８）を実行することにより、レベルｉ−１の精緻化済み近似係数ベクトルｃＡ_ｉ−１ ^＋を算出する。

手順（ｂ）では、高速変換部１７は、ラプラスメカニズムを適用することにより、レベルｉ−１のノイズ付き詳細係数ベクトルｃＤ_ｉ−１ ^＊の各要素ｃＤ_{ｉ−１，２ｘ−１} ^＊及びｃＤ_{ｉ−１，２ｘ} ^＊をそれぞれ計算する。

手順（ｃ）では、高速変換部１７は、以下の式（２９）及び式（３０）を用いて、レベルｉ−１の精緻化済み詳細係数ベクトルｃＤ_ｉ−１ ^＋の各要素ｃＤ_{ｉ−１，２ｘ−１} ^＋及びｃＤ_{ｉ−１，２ｘ} ^＋をそれぞれ計算する。

そして、高速変換部１７は、式（６）に示されるように、精緻化済み近似係数ベクトルｃＡ_ｋ ^＋及び精緻化済み詳細係数ベクトルｃＤ_ｋ ^＋，ｃＤ_ｋ−１ ^＋，・・・，ｃＤ_１ ^＋を連接することによって、第２集計データＶ^＋が非負制約を逸脱しないような第３系列データＷ^＋を得る。なお、高速変換部１７は、ｉ＝１まで上記手順（ａ）を実行することにより、つまり、式（２９）及び式（３０）においてｉ＝１とすることにより、以下の式（３１）及び式（３２）を得る。

具体的には、高速変換部１７は、ｉ＝２の計算途中で算出されるレベル１の精緻化済み近似係数ベクトルｃＡ_１ ^＋及び精緻化済み詳細係数ベクトルｃＤ_１ ^＋を用いて、レベル１の精緻化済み近似係数ベクトルｃＡ_１ ^＋の要素ｃＡ_１，ｘ ^＋≠０を満たすｘの集合ついて式（３１）及び式（３２）を実行することにより、第２集計データＶ^＋を生成する。すなわち、第２集計データＶ^＋＝ｃＡ_０ ^＋であるので、高速変換部１７は、レベル０の精緻化済み近似係数ベクトルｃＡ_０ ^＋を得ることによって、第２集計データＶ^＋を得る。

次に、図８を参照して、プライバシー保護装置１０Ａによって実行されるプライバシー保護方法を説明する。図８は、プライバシー保護装置１０Ａによって実行されるプライバシー保護方法の一連の処理を示すフローチャートである。図８に示される処理は、例えば、プライバシー保護装置１０Ａの外部から第１集計データＶが入力されることにより開始される。

まず、入力部１１によって、プライバシー保護装置１０Ａの外部から第１集計データＶが受信され、受信された第１集計データＶが第１変換部１２Ａに出力される（ステップＳ２１，入力ステップ）。そして、ステップＳ２１において受け付けられた第１集計データＶに、第１変換部１２Ａによって第１線形変換が適用されることによって第１系列データＷが生成される（ステップＳ２２，第１変換ステップ）。このとき、第１集計データＶはＣＯＯ形式等の疎データ形式で表現され、第１集計データＶに含まれる要素のうち、非ゼロの値を有する要素に第１線形変換が適用されることによって第１系列データＷが生成される。第１線形変換としては、例えば、Ｈａａｒウェーブレット変換、Ｎｏｍｉｎａｌウェーブレット変換、フーリエ変換、和差分解等が用いられる。

続いて、ステップＳ２２において生成された第１系列データＷに含まれる要素の各々に対して、予め定められた強度の乱数が高速変換部１７によって付与されるとともに、第２集計データＶ^＋の各要素が負の値とならないように、予め定められた条件で補正する精緻化処理が高速変換部１７によって実施される（ステップＳ２３，高速変換ステップ）。ここで、乱数として、例えば、ラプラスノイズ、幾何ノイズ等が用いられる。このとき、第３系列データＷ^＋が生成されるが、さらに、レベル０まで精緻化処理を行うことにより第２集計データＶ^＋が生成される。

そして、ステップＳ２３において生成された第２集計データＶ^＋が、出力部１６によってプライバシー保護装置１０Ａの外部に出力される（ステップＳ２４，出力ステップ）。これにより、プライバシー保護方法の一連の処理が終了される。なお、ステップＳ２４において、第２集計データＶ^＋は公開用のデータベースに出力されることにより、プライバシーが保護された集計データを備えるデータベースが作成されてもよい。この場合、上述のプライバシー保護方法は、データベース作成方法ともいえる。

このプライバシー保護装置１０Ａにおいても、上記第１実施形態のプライバシー保護装置１０と同様の効果が奏される。また、ウェーブレット変換については、単純に実装すると計算量がＯ（ｎ）となるが、プライバシー保護装置１０Ａでは、第１集計データＶ及び第１系列データＷの表現形式を変更することにより、第１線形変換における計算量の削減が可能となる。つまり、非ゼロの値を有する要素あたり高々ｌｏｇ_２ｎ回の計算によって第１系列データＷが得られるので、第１線形変換における計算量をＯ（ｍｌｏｇｎ）に削減することができる。ここで、ｍは第１集計データＶにおける非ゼロの値を有する要素の数である。

つまり、プライバシー保護装置１０Ａでは、第１集計データＶを疎データ形式で表現し、第１集計データＶに含まれる要素のうち、ゼロでない値を有する要素にのみ第１線形変換を適用することによって第１系列データを生成している。このため、ゼロの値を有する要素への第１線形変換の適用が省略されるので、第１線形変換における計算量の削減が可能となる。

また、乱数付与においては、第１系列データＷのゼロの値を有する要素に対しても乱数を付与する必要があるので、第１変換部１２Ａと同様のアプローチでは計算量を削減することはできない。そこで、ほとんどの乱数は精緻化処理において「捨てられて」しまうことに着目する。すなわち、精緻化処理でレベルｉのノイズ付き詳細係数ベクトルｃＤ_ｉ ^＊の要素ｃＤ_ｉ，ｘ ^＊に精緻化が適用される場合、つまり、ｃＤ_ｉ，ｘ ^＋≠ｃＤ_ｉ，ｘ ^＊となる場合、レベルｉ−１の精緻化済み近似係数ベクトルｃＡ_ｉ−１ ^＋の要素ｃＡ_{ｉ−１，２ｘ−１} ^＋及び要素ｃＡ_{ｉ−１，２ｘ} ^＋のいずれかは必ずゼロの値をとる。このため、ゼロの値をとる方の要素の部分木に含まれる２^ｉ−１個のラプラスノイズが出力値に影響する可能性はなくなる。

したがって、プライバシー保護装置１０Ａでは、高速変換部１７によって、ラプラスメカニズムの適用及び精緻化が、非ゼロの値を有する要素ｃＡ_ｉ，ｘ ^＋の部分木についてのみ再帰降下で順に実施される。これにより、無駄なラプラスノイズを発生させることなく、差分プライバシー基準を満たすことができる。そして、高速変換部１７において、レベル１の精緻化済み近似係数ベクトルｃＡ_１ ^＋及び精緻化済み詳細係数ベクトルｃＤ_１ ^＋を用いて、レベル０の精緻化済み近似係数ベクトルｃＡ_０ ^＋を導出するのに要する計算量は、Ｏ（ｍ^＋）である。ここで、ｍ^＋は第２集計データＶ^＋における非ゼロの値を有する要素の数である。また、２≦ｉ≦ｋにおいて、レベルｉの精緻化済み近似係数ベクトルｃＡ_ｉ ^＋及び精緻化済み詳細係数ベクトルｃＤ_ｉ ^＋を用いて、レベルｉ−１の精緻化済み近似係数ベクトルｃＡ_ｉ−１ ^＋を導出するのに要する計算量は、Ｏ（ｍ^＋）を上回ることはない。したがって、高速変換部１７における計算量は、高々Ｏ（ｍ^＋ｌｏｇｎ）となる。

このように、プライバシー保護装置１０における計算量がＯ（ｎ）であるのに対して、プライバシー保護装置１０Ａにおける計算量はＯ（ｍｌｏｇｎ）または（ｍ^＋ｌｏｇｎ）である。一般的に大規模な集計データでは、ｍ≒ｍ^＋≪ｎとなることが多いので、プライバシー保護装置１０Ａでは、プライバシー保護装置１０、単純なラプラスメカニズム、及び、Ｘｉａｏらの方法等と比較して、計算量を大幅に削減することができる。したがって、プライバシー保護装置１０Ａによれば、プライバシー保護装置１０と等価な第２集計データＶ^＋が得られるとともに、その計算量を削減することが可能となる。その結果、第２集計データＶ^＋の提供を高速化することが可能となる。

なお、本発明は、上述した実施形態に限定されるものではない。例えば、プライバシー保護装置１０は、第１変換部１２に代えて第１変換部１２Ａを備えてもよく、プライバシー保護装置１０Ａは、第１変換部１２Ａに代えて第１変換部１２を備えてもよい。

また、プライバシー保護装置１０Ａの高速変換部１７は、第２集計データＶ^＋に代えて、第３系列データＷ^＋を出力してもよい。この場合、プライバシー保護装置１０Ａは第２変換部１５をさらに備えてもよく、第２変換部１５は第３系列データＷ^＋に改めて第２線形変換を適用して、第２集計データＶ^＋を生成してもよい。

また、上記第１実施形態及び第２実施形態では、第１線形変換としてＨａａｒウェーブレット変換が用いられる場合について説明したが、第１系列データＷの各要素が木構造で表現でき、かつ、第１系列データＷの各要素の値が、木における子孫の部分和にのみ影響を与えるという条件を満たす他の線形変換が用いられてもよい。このような第１線形変換を適用することによって生成された第１系列データＷでは、木の上位階層から順に木を辿って各要素に対して非負制約を満たすように精緻化を施していくだけで、木の最下位の階層まで辿り終わったときに全ての要素が非負制約を満たすことが保証される。このため、精緻化処理における計算が単純化される。このような第１線形変換としては、Ｈａａｒウェーブレット変換の他、Ｎｏｍｉｎａｌウェーブレット変換、和差分解等がある。

その一例として、第１線形変換として和差分解が用いられる場合について説明する。この場合、Ｈａａｒウェーブレット変換が用いられる場合と比較して、第１変換部１２及び第２変換部１５における計算方法と、乱数付与部１３により付与される乱数の強度と、が異なる。

和差分解は、式（１）〜式（３）に代えて以下の式（３３）〜（３５）に示されるように、長さ２^ｐ（＝ｑ）のベクトル列Ｙ＝（ｙ_１，ｙ_２，・・・，ｙ_ｑ）を、長さ２^ｐ−１の近似係数ベクトルｃＡ，詳細係数ベクトルｃＤに分解する。

また、第１線形変換として和差分解が用いられる場合、第２線形変換において、式（１３）に代えて以下の式（３６）が用いられる。

このとき、乱数付与部１３は、第１系列データＷに含まれる要素のレベルによらず、全ての要素に対してＬａｐ（ＧＳ／ε）のラプラスノイズを付与することにより、差分プライバシー基準を満たす第２系列データＷ^＊を生成する。なお、第１線形変換として和差分解が用いられる場合の計算量は、Ｏ（ｍｌｏｇｎ）またはＯ（ｍ^＋ｌｏｇｎ）となる。

１０，１０Ａ…プライバシー保護装置、１１…入力部（入力手段）、１２，１２Ａ…第１変換部（第１変換手段）、１３…乱数付与部（乱数付与手段）、１４…精緻化部（精緻化手段）、１５…第２変換部（第２変換手段）、１６…出力部（出力手段）、１７…高速変換部（高速変換手段）、Ｖ…第１集計データ、Ｖ^＋…第２集計データ、Ｗ…第１系列データ、Ｗ^＊…第２系列データ、Ｗ^＋…第３系列データ。

Claims

複数のデータを含む第１集計データを入力し、第２集計データを出力するプライバシー保護装置であって、
前記第１集計データの入力を受け付ける入力手段と、
前記入力手段によって受け付けられた前記第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換手段と、
前記第１変換手段によって生成された前記第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第２系列データを生成する乱数付与手段と、
前記第２集計データの各要素が負の値とならないように、前記乱数付与手段によって生成された前記第２系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第３系列データを生成する精緻化手段と、
前記精緻化手段によって生成された前記第３系列データに、前記第１線形変換の逆変換である第２線形変換を適用することによって前記第２集計データを生成する第２変換手段と、
前記第２変換手段によって生成された前記第２集計データを出力する出力手段と、
を備える、プライバシー保護装置。
複数のデータを含む第１集計データを入力し、第２集計データを出力するプライバシー保護装置であって、
前記第１集計データの入力を受け付ける入力手段と、
前記入力手段によって受け付けられた前記第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換手段と、
前記第１変換手段によって生成された前記第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、前記第２集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、前記第２集計データを生成する高速変換手段と、
前記高速変換手段によって生成された前記第２集計データを出力する出力手段と、
を備える、プライバシー保護装置。
前記第１線形変換は、Ｈａａｒ関数を母ウェーブレットとするＨａａｒウェーブレット変換である、請求項１または請求項２に記載のプライバシー保護装置。
前記乱数は、ラプラス分布に従う乱数であるラプラス乱数または幾何分布に従う乱数である幾何乱数である、請求項１〜請求項３のいずれか一項に記載のプライバシー保護装置。
前記精緻化処理は、前記第２系列データをウェーブレット係数の系列として見た場合に、前記ウェーブレット係数における近似係数ベクトルの各要素が負の値とならないように、前記ウェーブレット係数における詳細係数ベクトルの各要素の値を補正する処理を含む、請求項１に記載のプライバシー保護装置。
前記第１変換手段は、前記第１集計データを疎データ形式で表現し、前記第１集計データに含まれるデータのうち、ゼロ以外の値を有するデータに前記第１線形変換を適用することによって前記第１系列データを生成する、請求項１〜請求項５のいずれか一項に記載のプライバシー保護装置。
複数のデータを含む第１集計データを入力し、第２集計データを出力するプライバシー保護装置が行うプライバシー保護方法であって、
前記プライバシー保護装置の入力手段が、前記第１集計データの入力を受け付ける入力ステップと、
前記プライバシー保護装置の第１変換手段が、前記入力ステップにおいて受け付けられた前記第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換ステップと、
前記プライバシー保護装置の乱数付与手段が、前記第１変換ステップにおいて生成された前記第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第２系列データを生成する乱数付与ステップと、
前記プライバシー保護装置の精緻化手段が、前記第２集計データの各要素が負の値とならないように、前記乱数付与ステップにおいて生成された前記第２系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第３系列データを生成する精緻化ステップと、
前記プライバシー保護装置の第２変換手段が、前記精緻化ステップにおいて生成された前記第３系列データに、前記第１線形変換の逆変換である第２線形変換を適用することによって前記第２集計データを生成する第２変換ステップと、
前記プライバシー保護装置の出力手段が、前記第２変換ステップにおいて生成された前記第２集計データを出力する出力ステップと、
を備える、プライバシー保護方法。
複数のデータを含む第１集計データを入力し、第２集計データを出力するプライバシー保護装置が行うプライバシー保護方法であって、
前記プライバシー保護装置の入力手段が、前記第１集計データの入力を受け付ける入力ステップと、
前記プライバシー保護装置の第１変換手段が、前記入力ステップにおいて受け付けられた前記第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換ステップと、
前記プライバシー保護装置の高速変換手段が、前記第１変換ステップにおいて生成された前記第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、前記第２集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、前記第２集計データを生成する高速変換ステップと、
前記プライバシー保護装置の出力手段が、前記高速変換ステップにおいて生成された前記第２集計データを出力する出力ステップと、
を備える、プライバシー保護方法。
プライバシーが保護された集計データを備えるデータベース作成方法であって、
プライバシー保護装置の入力手段が、複数のデータを含む第１集計データの入力を受け付ける入力ステップと、
前記プライバシー保護装置の第１変換手段が、前記入力ステップにおいて受け付けられた前記第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換ステップと、
前記プライバシー保護装置の乱数付与手段が、前記第１変換ステップにおいて生成された前記第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与することによって第２系列データを生成する乱数付与ステップと、
前記プライバシー保護装置の精緻化手段が、第２集計データの各要素が負の値とならないように、前記乱数付与ステップにおいて生成された前記第２系列データに含まれる要素の各々を予め定められた条件で補正する精緻化処理を実施することによって第３系列データを生成する精緻化ステップと、
前記プライバシー保護装置の第２変換手段が、前記精緻化ステップにおいて生成された前記第３系列データに、前記第１線形変換の逆変換である第２線形変換を適用することによって前記第２集計データを生成する第２変換ステップと、
前記プライバシー保護装置の出力手段が、前記第２変換ステップにおいて生成された前記第２集計データを前記データベースに出力する出力ステップと、
を備える、データベース作成方法。
プライバシーが保護された集計データを備えるデータベース作成方法であって、
プライバシー保護装置の入力手段が、複数のデータを含む第１集計データの入力を受け付ける入力ステップと、
前記プライバシー保護装置の第１変換手段が、前記入力ステップにおいて受け付けられた前記第１集計データに第１線形変換を適用することによって第１系列データを生成する第１変換ステップと、
前記プライバシー保護装置の高速変換手段が、前記第１変換ステップにおいて生成された前記第１系列データに含まれる要素の各々に対して、予め定められた強度の乱数を付与するとともに、第２集計データの各要素が負の値とならないように、予め定められた条件で補正する精緻化処理を実施することによって、前記第２集計データを生成する高速変換ステップと、
前記プライバシー保護装置の出力手段が、前記高速変換ステップにおいて生成された前記第２集計データを出力する出力ステップと、
を備える、データベース作成方法。