JP7464555B2 - データ提供装置、集計システム及びデータ提供プログラム - Google Patents

データ提供装置、集計システム及びデータ提供プログラム Download PDF

Info

Publication number
JP7464555B2
JP7464555B2 JP2021040227A JP2021040227A JP7464555B2 JP 7464555 B2 JP7464555 B2 JP 7464555B2 JP 2021040227 A JP2021040227 A JP 2021040227A JP 2021040227 A JP2021040227 A JP 2021040227A JP 7464555 B2 JP7464555 B2 JP 7464555B2
Authority
JP
Japan
Prior art keywords
data
values
accumulation
distribution
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021040227A
Other languages
English (en)
Other versions
JP2022139721A (ja
Inventor
晋作 清本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2021040227A priority Critical patent/JP7464555B2/ja
Publication of JP2022139721A publication Critical patent/JP2022139721A/ja
Application granted granted Critical
Publication of JP7464555B2 publication Critical patent/JP7464555B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)

Description

本発明は、分散されたデータの差分プライバシを実現するシステムに関する。
従来、個人情報を収集し解析結果を提供する際に、個々のデータを復元できないように解析結果を加工する差分プライバシの実現が求められている。さらに、解析を行う集積ノード(アグリゲータ)に対しても個人情報を秘匿できる分散差分プライバシに関する技術が提案されている(例えば、非特許文献1参照)。
Vibhor Rastogi and Suman Nath, "Differentially Private Aggregation of Distributed Time-Series with Transformation and Encryption," Proceedings of the 2010 ACM SIGMOD International Conference on Management of data, June 2010, pp. 735-746
しかしながら、従来の手法では、個人情報を収集するアグリゲータは、集計値を計算するために、秘匿されたデータを用いた秘密計算を行う必要があった。
本発明は、差分プライバシを保ったまま、アグリゲータが容易に集計値を計算できるデータ提供装置、集計システム及びデータ提供プログラムを提供することを目的とする。
本発明に係るデータ提供装置は、複数のノードに分散された数値を集計する集積ノードに対して、当該数値を提供するノードとしての装置であって、プライバシを保護すべき前記数値をx個に分割した値それぞれにノイズを加算し、x回に分けて前記集積ノードに送信するデータ送信部を備え、前記集積ノードにおいて、前記複数のノードの全てから受信した値の累計処理をx回実行させることでノイズ付きの集計値を算出させる。
前記データ送信部は、前記数値をx個に等分してもよい。
前記ノイズは、0をピークとした正負対称な第1の分布に従った値であってもよい。
前記第1の分布は、ラプラス分布であってもよい。
前記データ送信部は、総計が0となるx個の乱数を生成し、前記分割した値それぞれに前記ノイズと共に加算してもよい。
前記乱数は、0をピークとした正負対称な第2の分布に従った値であってもよい。
前記第2の分布は、ラプラス分布であってもよい。
前記データ提供装置は、前記集積ノードから、前記累計処理の度に、計算結果のハッシュ値を受信する結果取得部を備えてもよい。
本発明に係る集計システムは、前記複数のデータ提供装置と、前記複数のデータ提供装置からそれぞれ値を受信し、前記累計処理を実行する前記集積ノードとしての集積装置と、を備える。
前記集積装置は、受信したデータの記憶容量が所定以下に制限されてもよい。
本発明に係るデータ提供プログラムは、前記データ提供装置としてコンピュータを機能させるためのものである。
本発明によれば、差分プライバシを保ったまま、アグリゲータが容易に集計値を計算できる。
実施形態における集計システムの全体構成を示す図である。 実施形態におけるデータ提供装置の機能構成を示す図である。 実施形態における集積装置の機能構成を示す図である。 実施形態における集計システムによる利用者への情報提供の流れを示す図である。 実施形態における集積装置におけるデータ集計の流れを例示するフローチャートである。
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態における集計システム1の全体構成を示す図である。
集計システム1は、複数(N個)のデータ提供装置10と、集積装置20とを備える。
データ提供装置10は、分散データが保持されたデータベース(DB)を含むノードであり、集積装置20(アグリゲータ)は、これら複数のデータ提供装置10からそれぞれ分散データ(数値)を受信し、利用者からの要求に応じて集計値を提供する集積ノードである。
図2は、本実施形態におけるデータ提供装置10の機能構成を示す図である。
データ提供装置10は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部11及び記憶部12の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部11は、データ提供装置10の全体を制御する部分であり、記憶部12に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部11は、CPUであってよい。
記憶部12は、ハードウェア群をデータ提供装置10として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスクドライブ(HDD)等であってよい。具体的には、記憶部12は、本実施形態の各機能を制御部11に実行させるためのプログラム(データ提供プログラム)の他、複数のデータ提供装置10に分散されたデータを保持するデータベース、集積装置20から受信した検証用のデータ等を記憶する。
制御部11は、データ送信部111と、結果受信部112とを備える。
データ送信部111は、データ提供装置10がデータベースに保持しているプライバシを保護すべき数値を、複数(x個)に分割(例えば、等分割)した値それぞれにノイズを加算し、x回に分けて集積装置20に送信する。
集積装置20は、複数のデータ提供装置10の全てから受信した値の累計処理をx回実行することで、ノイズ付きの集計値(総計)を算出できる。
ここで、加算されるノイズは、0をピークとした正負対称な第1の分布に従った値であることが好ましい。第1の分布は、例えば、ラプラス分布又は正規分布等である。
また、データ送信部111は、総計が0となる、あるいは確率的にほぼ0に近くなるx個の乱数を生成し、分割した値それぞれにノイズと共に加算してもよい。
このとき、乱数は、0をピークとした正負対称な第2の分布に従った値であることが好ましい。第2の分布は、例えば、ラプラス分布又は正規分布等である。
結果受信部112は、集積装置20から、累計処理が行われる度に、計算結果のハッシュ値を受信し、この集積装置20が正しく集計値を算出したか否かを後で再計算によって検証できるように保存する。
図3は、本実施形態における集積装置20の機能構成を示す図である。
集積装置20は、データ提供装置10と同様に、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部21及び記憶部22の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部21は、集積装置20の全体を制御する部分であり、記憶部22に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部21は、CPUであってよい。
記憶部22は、ハードウェア群を集積装置20として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスクドライブ(HDD)等であってよい。具体的には、記憶部22は、本実施形態の各機能を制御部21に実行させるためのプログラムの他、複数のデータ提供装置10から受信したデータの集計値等を記憶する。
制御部21は、データ受信部211と、累計処理部212と、結果送信部213と、要求処理部214とを備える。
データ受信部211は、複数のデータ提供装置10のそれぞれから、x個に分割されノイズ(及び乱数)が加算された数値データを、x回に分けて受信する。
ここで、受信したデータは、ストレージ(記憶部22)に一時保存されてもよいが、この受信したデータの記憶容量は所定以下に制限され、全てのデータを保存しておくことはできない。
累計処理部212は、複数のデータ提供装置10の全てから受信した値を累計する。累計処理部212は、この累計処理をx回実行することで、複数のデータ提供装置10が保持している全ての数値のノイズ付きの集計値(総計)を算出する。
結果送信部213は、累計処理部212が累計処理を実行する度に、計x回、その時点での計算結果のハッシュ値を算出し、全てのデータ提供装置10へ送信する。
要求処理部214は、利用者の端末から総計又は平均値等の集計値のリクエストを受信すると、累計処理部212により算出された総計に基づいて、要求された集計値をノイズ付きで計算して要求元へ提供する。
図4は、本実施形態における集計システム1による利用者への情報提供の流れを示す図である。
n個のデータ提供装置10(DB~DB)は、それぞれ数値データDを保持しており、Dをxで割り(D/x)、x回に分割して集積装置20(集積ノード)へ送信する。
このとき、j(1≦j≦x)回目の送信データには、乱数Rijと、1/xの大きさとなったデータの差分プライバシを満足するノイズ(noise/x)とが加算される。
全ノード(DB~DB)が1回目の送信を終えると、集積ノードでは、累積値として((D+D+…+D)/x)+(sum(noise/x))+R11+R21+…+Rn1が得られる。
このとき、x分割されたデータの和に対して、ノイズの和sum(noise/x)によって差分プライバシが確保され、かつ、乱数によって各値もマスクされている。
この1回目の累計処理により得られた値に対して、ハッシュ値が計算され、全てのノード(DB~DB)に返送され、各ノードは、送信したデータと共にこのハッシュ値を保管する。
次に、集積ノードは、この累計値に対して、さらに2回目のデータを累計し、1回目と同様にハッシュ値を計算して全てのノード(DB~DB)に返送する。x回目の累計値は、(D+D+…+D)+sum(noise)となり、乱数がキャンセルされ、ノイズによって差分プライバシを満たした累計値が得られる。
そして、集積ノードは、利用者からの要求に応じて、この累計値又はnで割った平均値等、差分プライバシを保った集計結果を提供する。
図5は、本実施形態における集積装置20におけるデータ集計の流れを例示するフローチャートである。
ステップS1において、累計処理部212は、集計結果である累計値を0に初期化する。
ステップS2において、データ受信部211は、n個のデータ提供装置10のいずれかから、分割されノイズが加算された数値データを受信する。
ステップS3において、データ受信部211は、全て(n個)のデータ提供装置10から数値データを受信したか否かを判定する。この判定がYESの場合、処理はステップS4に移り、判定がNOの場合、処理はステップS2に戻る。
ステップS4において、累計処理部212は、受信したn個の数値データを累計値に加算する。なお、累計処理部212は、ステップS2で数値データを1件受信する度に累計値に加算してもよい。
ステップS5において、結果送信部213は、累計値のハッシュ値を計算し、全て(n個)のデータ提供装置10へ送信する。
ステップS6において、累計処理部212は、データ提供装置10それぞれからx回ずつ数値データを受信したか否かを判定する。この判定がYESの場合、処理は終了し、判定がNOの場合、処理はステップS2に戻る。
本実施形態によれば、集計システム1は、分散データを保持している各ノード(データ提供装置10)がデータをx分割し、それぞれにノイズを加算し、x回に分けてアグリゲータ(集積装置20)に送信する。
したがって、データ提供装置10は、加算されたノイズにより差分プライバシを保ったまま、アグリゲータにデータを送信し、アグリゲータは、受信した数値データを累計することで、処理の重い秘密計算をすることなく、容易に集計値を計算できる。
また、集計システム1は、データを分割することにより、差分プライバシを満足するノイズの幅を小さくでき、この結果、集計値におけるノイズの幅も抑制できるため、誤差の小さい有用な情報を提供できる。
データ提供装置10は、数値データをx等分することで、分割処理を容易にし、また、適切な大きさ(1/x)のノイズを容易に加算することができる。
データ提供装置10は、0をピークとした正負対称な第1の確率分布に従った値をノイズとして加算することにより、確率的に元の値からの誤差を小さく、また、x個を総和したときのノイズの総和も確率的に小さくすることができる。この結果、集計システム1は、集計値として有用なデータを提供することができる。
具体的には、データ提供装置10は、ノイズの確率分布をラプラス分布又は正規分布とすることで、安全性及び有用性の点で適切なノイズを加算できる。
データ提供装置10は、総計が0となるx個の乱数を生成し、分割した値それぞれにノイズと共に加算する。
これにより、集積装置20に送信されるデータが秘匿されると共に、加算された乱数をキャンセルするためには、x個全てを足す必要があるため、集積装置20に確実に計算を実行させることができる。
データ提供装置10は、0をピークとした正負対称な第2の確率分布に従った値を乱数として加算することにより、確率的に元の値からの誤差を小さくできる。
具体的には、データ提供装置10は、乱数の確率分布をラプラス分布又は正規分布とすることで、安全性及び有用性の点で適切な乱数を加算できる。
データ提供装置10は、累計処理の度に、計算結果のハッシュ値を集積装置20から受信して保存しておく。
これにより、例えば、別の集積ノードに代えた場合の計算結果のハッシュ値と比較することにより、集積装置20が正しく計算を実行していることを確認することができる。
集積装置20において、累計値以外、受信した数値データを保存できない、あるいは一部のみしか保存できないように、ストレージサイズを制限することにより、元データを復元されるリスクをさらに低減でき、安全性が向上する。
なお、本実施形態により、例えば、プライバシを確保したデータ解析を容易にできることから、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、持続可能な産業化を推進するとともに、イノベーションの拡大を図る」に貢献することが可能となる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
集計システム1による集計方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 集計システム
10 データ提供装置
11 制御部
12 記憶部
20 集積装置
21 制御部
22 記憶部
111 データ送信部
112 結果受信部
211 データ受信部
212 累計処理部
213 結果送信部
214 要求処理部

Claims (9)

  1. 複数のノードに分散された数値を集計する集積ノードとしての集積装置と、当該集積装置に対して当該数値を提供するノードとしての複数のデータ提供装置と、を備えた集計システムであって、
    前記データ提供装置は、前記数値をx個に按分、当該按分した値それぞれに対して差分プライバシを満たす大きさの分布に従ったノイズを生成し、当該ノイズを加算したx個の値をx回に分けて前記集積装置に送信するデータ送信部を備え、
    前記集積装置は
    全ての前記データ提供装置から、それぞれ前記x個の値をx回に分けて受信するデータ受信部と、
    受信した値の累計処理をx回実行ることでノイズ付きの集計値を算出累計処理部と、を備える集計システム
  2. 前記データ送信部は、前記数値をxで割った値にx個の前記ノイズをそれぞれ加算して前記x個の値を算出する請求項1に記載の集計システム
  3. 前記ノイズは、0をピークとした正負対称な第1の分布に従った値である請求項1又は請求項2に記載の集計システム
  4. 前記第1の分布は、ラプラス分布である請求項3に記載の集計システム
  5. 前記データ送信部は、総計が0となるx個の乱数を生成し、前記按分した値それぞれに前記ノイズと共に加算する請求項1又は請求項2に記載の集計システム
  6. 前記乱数は、0をピークとした正負対称な第2の分布に従った値である請求項5に記載の集計システム
  7. 前記第2の分布は、ラプラス分布である請求項6に記載の集計システム
  8. 前記集積装置は、前記累計処理の度に計算結果のハッシュ値を算出し、全ての前記データ提供装置へ送信する結果送信部を備え、
    前記データ提供装置は、前記集積装置から、前記計算結果のハッシュ値を受信する結果受信部を備える請求項1から請求項7のいずれかに記載の集計システム
  9. 前記集積装置は、受信したデータの記憶容量が所定以下に制限される請求項1から請求項8のいずれかに記載の集計システム。
JP2021040227A 2021-03-12 2021-03-12 データ提供装置、集計システム及びデータ提供プログラム Active JP7464555B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021040227A JP7464555B2 (ja) 2021-03-12 2021-03-12 データ提供装置、集計システム及びデータ提供プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021040227A JP7464555B2 (ja) 2021-03-12 2021-03-12 データ提供装置、集計システム及びデータ提供プログラム

Publications (2)

Publication Number Publication Date
JP2022139721A JP2022139721A (ja) 2022-09-26
JP7464555B2 true JP7464555B2 (ja) 2024-04-09

Family

ID=83399680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021040227A Active JP7464555B2 (ja) 2021-03-12 2021-03-12 データ提供装置、集計システム及びデータ提供プログラム

Country Status (1)

Country Link
JP (1) JP7464555B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012165374A (ja) 2011-02-04 2012-08-30 Palo Alto Research Center Inc 時系列データのプライバシー保護アグリゲーション
JP2015158935A (ja) 2013-10-23 2015-09-03 株式会社インテック データ秘匿型統計処理システム、統計処理結果提供サーバ装置及びデータ入力装置、並びに、これらのためのプログラム及び方法
WO2019181594A1 (ja) 2018-03-19 2019-09-26 日本電信電話株式会社 パラメータ設定装置、演算装置、それらの方法、プログラム、および記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012165374A (ja) 2011-02-04 2012-08-30 Palo Alto Research Center Inc 時系列データのプライバシー保護アグリゲーション
JP2015158935A (ja) 2013-10-23 2015-09-03 株式会社インテック データ秘匿型統計処理システム、統計処理結果提供サーバ装置及びデータ入力装置、並びに、これらのためのプログラム及び方法
WO2019181594A1 (ja) 2018-03-19 2019-09-26 日本電信電話株式会社 パラメータ設定装置、演算装置、それらの方法、プログラム、および記録媒体

Also Published As

Publication number Publication date
JP2022139721A (ja) 2022-09-26

Similar Documents

Publication Publication Date Title
Gorenflo et al. FastFabric: Scaling hyperledger fabric to 20 000 transactions per second
US10348586B2 (en) Parallel computatonal framework and application server for determining path connectivity
US20170293865A1 (en) Real-time updates to item recommendation models based on matrix factorization
Juneja et al. Simulating heavy tailed processes using delayed hazard rate twisting
US7562071B2 (en) Exponential noise distribution to optimize database privacy and output utility
JP5952724B2 (ja) 人流調査支援システム及び方法
US11288094B2 (en) Systems and methods for caching task execution
US11087026B2 (en) Data protection based on earth mover's distance
Kumar et al. Customization of recommendation system using collaborative filtering algorithm on cloud using mahout
CN110597841B (zh) 一种基于区块链网络的应用评论信息处理方法及装置
CN111629051A (zh) 一种用于工业互联网标识解析系统的性能优化方法及装置
US20220207180A1 (en) Privacy preserving data collection and analysis
CN110569271B (zh) 用于抽取特征的数据处理方法和系统
AU2022204007A1 (en) Summary chains in distributed systems
Papadopoulos et al. Authenticated multistep nearest neighbor search
CN109525933B (zh) 位置隐私保护方法及装置
JP7270714B2 (ja) 利益分配のための方法、コンピューティングデバイス、及びシステム
Madan et al. Adaptive privacy preservation approach for big data publishing in cloud using k-anonymization
JP7464555B2 (ja) データ提供装置、集計システム及びデータ提供プログラム
US20090177522A1 (en) Contact stream optimization
Iskander et al. Balancing performance, accuracy, and precision for secure cloud transactions
Phansalkar et al. Tunable consistency guarantees of selective data consistency model
JP6505722B2 (ja) 特許資産を用いるテクノロジーセクター規模の報告
CN110489460B (zh) 一种快速统计的优化方法及系统
Shi et al. Audience size forecasting: Fast and smart budget planning for media buyers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240328

R150 Certificate of patent or registration of utility model

Ref document number: 7464555

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150