JP2012133320A - 複数データベースのための差分プライバシー集合分類器 - Google Patents

複数データベースのための差分プライバシー集合分類器 Download PDF

Info

Publication number
JP2012133320A
JP2012133320A JP2011219252A JP2011219252A JP2012133320A JP 2012133320 A JP2012133320 A JP 2012133320A JP 2011219252 A JP2011219252 A JP 2011219252A JP 2011219252 A JP2011219252 A JP 2011219252A JP 2012133320 A JP2012133320 A JP 2012133320A
Authority
JP
Japan
Prior art keywords
classifier
database
databases
noise value
privacy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011219252A
Other languages
English (en)
Other versions
JP2012133320A5 (ja
Inventor
Shantanu Rane
シャンタヌ・ラーネ
A Pathak Manas
マナス・エイ・パサク
Bhiksha Ramakrishnan
ビクシャ・ラマクリシュナン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2012133320A publication Critical patent/JP2012133320A/ja
Publication of JP2012133320A5 publication Critical patent/JP2012133320A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】1組のデータベースのための差分プライバシー集合分類器を求めるためのシステムを提供する。
【解決手段】1組のデータベース110内の各データベース120、130は分類器121、131及び雑音値122、132に関連付けられる。該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが該データベースの差分データプライバシーを保証するように、データベース毎にローカルに求められる。差分プライバシー集合分類器は、1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて変更された、該1組のデータベースの分類器の組み合わせであり、各データベースの差分データプライバシーを保護する。
【選択図】図1

Description

この発明は包括的には差分データプライバシー(differential data privacy)に関し、より詳細には、複数データベースのための差分プライバシー集合分類器(differentially private aggregate classifier)を求めることに関する。
データ収集は種々の学問、産業、商業及び政治目的のための情報を提供する。たとえば、データ収集は社会学研究、市場調査及び国勢調査において必要である。収集されたデータの有用性を最大にするために、全てのデータを蓄積し、如何なるプライバシーコントロールも用いることなく、解析のために利用されるようにすることができる。当然、大部分の人々及び組織(「プライバシー当事者」)は、データが容易に交換され、許可されない人がアクセスできるときに特に、全てのデータを開示することを好まない。プライバシーを保証することは、プライバシー当事者がデータを快く提供できるようにし、かつ不正行為、個人情報盗難、脅迫、及び十分なプライバシー保護を用いることなくデータを共有することから生じる可能性がある他の問題を軽減することができる。
プライバシーを保護するための方法は、収集されたデータに関して実行されたクエリ(問合せ)の集合的結果を計算し、関与しているプライバシー当事者の入力を開示することなく、そのような集合的結果を開示することである。たとえば、医療データベースにクエリして、データベース内の何人がHIV陽性であるかを判断することができる。HIV陽性の個人の名前を開示することなく、HIV陽性の全人数を開示することができる。このようにして、当事者のプライバシーを明示的に或る程度まで保護しながら、有用なデータが抽出される。
しかしながら、敵対者は種々の技法を適用して、医療データベースからHIV陽性である可能性が高い1組の個人を予測するか、又はその範囲を絞ることができる。たとえば、敵対者は、HIVを有しかつジョンスミスという名前でない人の数を尋ねる別のクエリを実行する可能性がある。その後、その敵対者は、第1のクエリ出力から第2のクエリ出力を引くことができ、それにより、プライバシー当事者の名前に関してデータベースに直に尋ねることなく、ジョンスミスのHIV状態を突き止めることができる。機密に関わるデータの場合、検証可能なプライバシー保証を提供することが有用である。たとえば、最初に知られていたこと以外に、いかなる特定のプライバシー当事者に関しても何も探り出すことができないことを検証可能に保証することが有用であろう。
クエリ出力に雑音を付加することによって、当事者のプライバシーを高めることができる。上記の例を用いるとき、HIV陽性当事者の開示される数に或る乱数を付加することができる。その雑音は開示された出力の精度を低下させることになるが、それに応じてプライバシーに関する利益があるので、この損失を正当化することができる。
クエリ結果に雑音を付加して当事者のプライバシーを保護するという概念は一般的に知られている。1つの方法は、付加された雑音を用いて個々のデータインスタンスのプライバシーを保護するために差分プライバシー分類器を用いる。或るデータベース内の任意の個々のデータインスタンスの存否に関わらず、分類器が特定の出力を生成する確率が概ね同じであるなら、そのデータベースに関して評価される分類器は、差分プライバシーを満たすと言われる。
しかしながら、従来の差分プライバシー分類器は、データベース毎にローカルに求められ、その分類器を複数のデータベースにわたって用いる必要があるとき、プライバシーを提供できない。したがって、1組のデータベースに対して、各データベースの差分データプライバシーを保護するそのような分類器を求める必要がある。
差分プライバシーが、分類器の出力が個々のデータインスタンスについての情報を含まないという統計的保証を提供する。しかしながら、マルチパーティーの応用例では、分類器を求めるためのデータがいくつかのデータベースにわたって分散され、従来の差分プライバシー法は、複数の寄与しているパーティーのための差分データプライバシーを保護しない。
これは、従来の方法が本来、分類器がデータベースの全データへのアクセスに基づいて求められ、データに関して計算された雑音値によって分類器を変更して、そのデータに専用の差分プライバシー分類器を生成するように設計されるためである。しかしながら、マルチパーティーの応用例では、セキュリティ制約に起因して、多くの場合に、異なるデータベースのデータにアクセスすることはできない。
この発明の実施の形態は、1組のデータベースについて、データベースのデータへのアクセスを許可することなく、1組のデータベース内の個々のデータベースの分類器及び雑音値から、各データベースの差分データプライバシーを保護する差分プライバシー集合分類器を求めることができるという認識に基づいている。
しかしながら、マルチパーティーの応用例では、分類器に雑音値を付加することはもはや簡単ではない。これは、雑音を付加した結果として各データベースの差分データプライバシーが達成されるという保証がないためである。たとえば、全ての分類器及び雑音値の集合は、論理的手法と見なされることになり、組み合わせられたデータに対する差分プライバシーを満たさない。
この発明の実施の形態は、1組のデータベース内の最も小さなデータベースに対応する雑音値によって変更される各データベースの分類器の集合として、差分プライバシー集合分類器を求めることができるという別の認識に基づいている。最も小さなデータベースは、最も少ないエントリ数を有し、各エントリのデータ構造は全てのデータベースにわたって同じである。この認識が正しいことの裏付けは、付録において提供される。
したがって、この発明の1つの実施の形態は、1組のデータベースのための差分プライバシー集合分類器を求めるための方法であって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが前記データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は各前記データベースの前記差分データプライバシーを保護し、該方法は、各前記データベースの前記分類器を組み合わせて集合分類器を求めるステップと、前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて前記集合分類器を変更するステップとを含み、前記最も小さなデータベースは最も少ないエントリ数を有し、各エントリのデータ構造は全てのデータベースについて同じである、方法を開示する。
さらに、この発明の種々の実施の形態は、暗号プロトコルを用いてセキュア(安全)に差分プライバシー集合分類器を求める。それらの実施の形態は、各データベースのデータがいかなる他のパーティーとも共有されないこと、及び差分プライバシー集合分類器をリバースエンジニアリングによって解析していかなるデータベースのいかなる個々のデータも突き止めることができないことを保証する。
別の実施の形態は、1組のデータベースのための差分プライバシー集合分類器を求めるためのシステムであって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが該データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は各前記データベースの前記差分データプライバシーを保護し、該システムは、前記分類器を組み合わせて集合分類器を求める手段と、前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて前記集合分類器を変更して、前記差分プライバシー集合分類器を生成する手段とを備える、システムを開示する。
さらに別の実施の形態は、1組のデータベースのための差分プライバシー集合分類器を格納するコンピューター読み取り可能な記憶媒体であって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが前記データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は、前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて変更された、該1組のデータベースの前記分類器の組み合わせである、コンピューター読み取り可能な記憶媒体を開示する。
この発明の実施の形態は、差分プライバシー集合分類器を求め、複数データベースの差分プライバシーを保証する。この発明は、マルチパーティー差分プライバシーを達成するのに、最も小さなデータベースのサイズに基づいて確率的成分を選択すれば十分であるという認識に基づいている。いくつかの実施の形態は、この認識のために、SMC法を介して雑音値の選択をセキュアに実行することができることをさらに認めている。
しかしながら、従来の方法とは異なり、それらの実施の形態は分類器を構成するのにSMCを使用しない。それゆえ、この発明の実施の形態は、組み合わせられたデータにおいて分類器を計算する任意のSMC法よりもはるかに簡単である。
この発明による差分プライバシー集合分類器を求めるための方法のブロック図である。 取り得る雑音値の指数分布のグラフである。 取り得る雑音値の正規分布のグラフである。 取り得る雑音値の混成分布のグラフである。 この発明の一実施の形態による、差分プライバシー集合分類器をセキュアに求めるための方法のブロック図である。
定義
この発明の実施の形態を説明する際に、全体を通して(上記の説明も含む)以下の定義が適用可能である。
「コンピューター」は、構造化された入力を受け取り、構造化された入力を所定の規則に従って処理し、処理結果を出力として生成することができる任意の装置を指している。コンピューターの例には、コンピューター;汎用コンピューター;スーパーコンピューター;メインフレーム;スーパーミニコンピューター;ミニコンピューター;ワークステーション;マイクロコンピューター;サーバー;双方向テレビ;コンピューター及び双方向テレビの種々の組み合わせ;並びにコンピューター及び/又はソフトウエアをエミュレートする専用ハードウエアが含まれる。コンピューターは単一のプロセッサ又は複数のプロセッサを有することができ、それらのプロセッサは並列に、かつ/又は非並列に動作することができる。また、コンピューターは、コンピューター間で情報を送信又は受信するためのネットワークを介して共に接続される2つ以上のコンピューターも指している。そのようなコンピューターの例には、ネットワークによってリンクされるコンピューターを介して情報を処理するための分散コンピューターシステムが含まれる。
「中央演算装置(CPU)」又は「プロセッサ」は、ソフトウエア命令を読み出し、実行するコンピューター、又はコンピューターの構成要素を指している。
「メモリ」又は「コンピューター可読媒体」は、コンピューターによってアクセス可能なデータを格納するための任意の記憶装置を指している。その例には、磁気ハードディスク;フロッピィディスク;CD−ROM又はDVDのような光ディスク;磁気テープ;メモリチップ;電子メールを送受信する際に、又はネットワークにアクセスする際に用いられるような、コンピューター可読電子データを搬送するために用いられる搬送波、並びにコンピューターメモリ、たとえば、ランダムアクセスメモリ(RAM)が含まれる。
「ソフトウエア」は、コンピューターを動作させるための所定の規則を指している。ソフトウエアの例には、ソフトウエア;コードセグメント;命令;コンピュータープログラム;及びプログラムされたロジックが含まれる。インテリジェントシステムのソフトウエアは、自己学習できる場合もある。
「モジュール」又は「ユニット」は、タスク又はタスクの一部を実行するコンピューター内の基本構成要素を指している。それはソフトウエア又はハードウエアのいずれかによって実装することができる。
図1に示されるように、この発明の実施の形態は、1組のデータベース110のための差分プライバシー集合分類器170であって、該1組のデータベース内の各データベースの差分データプライバシーを保護するような差分プライバシー集合分類器170を求めるためのシステム及び方法100を開示する。この発明の実施の形態は、当該技術分野において既知であるように、メモリ及び入力/出力インターフェースを含むプロセッサ101によって実施することができる。
1組のデータベース110内の各データベース120〜130は、分類器、たとえば、分類器121及び131、並びに雑音値、たとえば、雑音値122及び132に関連付けられる。たとえば、データベースはD、…、Dと表される。ただし、D=(x,y)|は1組のエントリxと、対応する2値ラベルyとを含む。分類器及び雑音値の組み合わせがデータベースの差分データプライバシー125又は135を保証するように、分類器及び雑音値はデータベース毎にローカルに求められる。「ローカルに求められる」は、分類器及び雑音値が、方法100の実行前に、又は実行と同時にデータベースの各所有者によって独立して求められることを意味する。
通常、差分プライバシーを保証するために、雑音値はデータベースのサイズ123又は133に依拠してデータベースの全データエントリにわたって求められる。本明細書において用いられるときに、「データベースのサイズ」は、エントリの数に基づいている。エントリは任意のデータ構造を有することができる。しかしながら、各エントリのデータ構造は全てのデータベースにわたって同じである。エントリの例は、フィールド、表内の行、表自体、ファイル、又は別のデータベースである。
この発明の実施の形態は、データベースの和集合D∪D…∪Dからの差分プライバシー集合分類器を、1組のデータベース内の最も小さなデータベースに対応する雑音値によって変更される各データベースの分類器の集合として求めることができるという認識に基づいている。最も小さなデータベースは最も少ないエントリ数を有し、各エントリのデータ構造は全てのデータベースについて同じである。この認識が正しいことの裏付けは、付録Aにおいて提供される。
したがって、一実施の形態は、各データベースの分類器を組み合わせて、集合分類器145を求める(140)。さらに、それらの実施の形態は、最も小さなデータベースに対応する雑音値155を求める(150)。次に、雑音値155を用いて集合分類器145を変更し(160)、差分プライバシー集合分類器170を生成する。差分プライバシー集合分類器は公開され、たとえば、メモリ175に格納されるか、又はインターネット上で配布される。
差分プライバシー
差分プライバシーモデルの定義によれば、1つの要素だけ異なる任意の2つのデータベースD及びD’、すなわち、隣接するデータベースが与えられたとすると、関数MがデータベースDにおいて応答Sを生成する確率が、関数MがデータベースD’において同じ応答Sを生成する確率と同様である場合には、ランダム化クエリ関数Mによって定義される分類器は差分プライバシーを有する。個々のエントリの存在又は不在時に、クエリ出力が高い確率で概ね同じであるので、出力からいかなる個々のエントリについてもほとんど何も突き止めることはできない。
全ての隣接するデータベースD及びD’の場合に、かつ任意のS∈range(M)の場合に、以下の式が成り立つ場合には、明確な確率密度Pを有するランダム化関数Mは、ε差分プライバシーを満たす。
Figure 2012133320
したがって、差分プライバシー分類器は、アプリオリの背景知識以外に、学習アルゴリズムの出力から確信を持って個々のエントリについてのさらに詳しい事柄を得ることができないことを保証する。差分プライバシーは、特定の1組の攻撃及び敵対的挙動に対して「その場限りの(ad hoc)」保証を与える大部分の他のモデルとは対照的に、「全てに通じる(ad omina)」保証を与える。多数のエントリにわたって差分プライバシー分類器を評価しても、敵対者は、そのデータの厳密な形を突き止めることはできない。
図2A〜図2Cは、横軸に沿って雑音値を、縦軸においてそのような雑音値に関連付けられた確率を示す。したがって、高い確率を有する雑音値が、選択される可能性が高い。それらの分布は全て、絶対値が大きくなると、所与の雑音値の確率が小さくなるという有益な特徴を共有する。過度に高い雑音値の確率が起こる可能性は小さいので、この特徴によれば、雑音を含む出力を有用にすることができる。
図2Aは、雑音値の指数分布210を示す。図2Bは、雑音値の正規分布220を示す。図2Cは、雑音値の混成分布230を示す。図2Cの混成分布は、最も確からしい雑音値を含む分布の部分、すなわち、より高い確率を有する部分を正規分布が定義し、最も確からしくない雑音値を含む分布の部分、すなわち、より大きな絶対雑音値に対応する低い確率を有する部分を指数分布が定義するような、正規分布及び指数分布である。
図2A〜図2Cにおいて各分布を計算する際に、差分直径240及びプライバシーパラメーターεを用いることができる。大きな差分直径値は分布を広くし、より高い雑音値が用いられる確率を高める。逆に、小さな差分直径は、大きな雑音値が選択される可能性を小さくする。プライバシーパラメーターが分布関数の分母にあるとき、小さい値のプライバシーパラメーターεが強いプライバシーに対応し、その逆も成り立つ。上記の例示的な式は満足できるものであり、それを用いて無限の様々な分布を構成することができ、それらの分布は差分直径測定値及びプライバシーパラメーターを利用して、満足できる雑音分布を作り出すのに成功する。たとえば、図2A〜図2Cにおいて示される分布に対して無数の小さな変更を加えることができる。
通常、それらの分類器は、分類器の重みに雑音値を加算することによって、差分プライバシーを有するように設計される。ただし、雑音値は上記の分布から選択される。さらに、分布のパラメーターは、イプシロンεによって表される所望のプライバシー度に依存し、それは通常、データベースのサイズに、かつ分類器の関数のタイプ、たとえば、平均関数、最大関数又は対数関数に依存する。一実施の形態では、雑音値はラプラス分布を有する。
個々のデータベースにおいて分類器をローカルに求める
各データベース所有者Pが、そのデータベース(x,y)|を用いて、重みwを有する分類器を求める。ただし、jはデータベースのインデックスである。一実施の形態は、分類器のために、正則化ロジスティック回帰関数l(エル)を用いる。たとえば、分類器wは、以下の目的関数を最小にすることによって求めることができる。
Figure 2012133320
ただし、λ>0は正則化パラメーターであり、Tは転置演算子である。しかしながら、それらの分類器は個々のデータベース毎にローカルに求められ、データ又は情報は共有されない。
差分プライバシー集合分類器の例
この発明の一実施の形態は、以下の式に従って、差分プライバシー集合分類器w170を定義する。
Figure 2012133320
ただし、Kは1組のデータベース内のデータベースの数であり、jはデータベースのインデックスであり、ηはパラメーター2/(n(1)ελ)を用いてスケーリングされるラプラス(Lap)分布からサンプリングされるd次元確率変数であり、n(1)は最も小さなデータベースに対応する雑音値、すなわち、n(1)=minであり、λはラプラス分布のパラメーターであり、εは差分プライバシーパラメーターである。
差分プライバシー集合分類器wは、パーティーがそのプライバシーを保持できるようにしながら、全てのデータの和集合において分類器を直にトレーニングすることによって、十分に制限された過剰リスクのみを受ける。雑音値ηは、分類器wが差分プライバシーを満たすことを、すなわち、分類器から個々のデータインスタンスを判別できないことを保証する。
上記の雑音値ηの定義は直観的ではなく、この発明によれば、ローカルにトレーニングされた分類器を集めることによって構成された差分プライバシー集合分類器が、最も少ない数のエントリを有する個々の分類器の性能によって制限されることが証明された。
ローカルにトレーニングされた分類器を集めても、差分プライバシーを保証する正しい雑音値
Figure 2012133320
を与えないので、この発明のいくつかの実施の形態は、データベースPの所有者は、単にそのような分類器wを取り込み、雑音ベクトルを用いてそれらの分類器を摂動させて、摂動した分類器を公開することはできないという認識に基づいている。また、個々のデータベース所有者は、他の全ての分類器に対して差分プライバシーを課すために、それらの分類器に単に雑音を加算することはできないので、個々の分類器、又は各データベース内のエントリの数が暴かれないように、実際の平均化演算を実行しなければならない。したがって、いくつかの実施の形態は、プロセッサとインタラクトして平均化を実行するために、セキュアマルチパーティー計算(SMC)法を用いる。その方法の結果として、データベース所有者のそれぞれが所望の差分プライバシー分類器wの加法的持分(additive share)を得るようになり、差分プライバシー集合分類器を得るために、これら持分を加算しなければならないようになっている。
セキュアマルチパーティー計算(SMC)法
それらの実施の形態は、非対称鍵加法的準同型暗号化を用いる。そのような暗号化の所望の特性は、暗号文要素において実行される演算が同じ平文要素における既知の演算に写像することである。加法的準同型暗号化関数の場合、ξ(・)は、任意のa及びbに対して、ξ(a)ξ(b)=ξ(a+b)、ξ(a)=ξ(ab)であることを意味する。
加法的準同型暗号化は強秘匿性であり、すなわち、同じ平文を繰返し暗号化しても、結果として、異なる暗号文が生成される。SMC法の場合、暗号鍵は、公開されていると考えられ、解読鍵は、指定されたデータベース所有者によって非公開で所有される。
図3は、SMC法を用いて、差分プライバシー集合分類器170を求めるための方法300のブロック図を示す。その方法はプロセッサ301によって実行することができる。
最も小さなデータベースの不明瞭化インデックスを求める
プロセッサは、データベースのインデックスの置換から生じる置換済みインデックス320に基づいて最も小さなデータベースの不明瞭化インデックス315を求める(310)。たとえば、各データベース所有者、すなわち、パーティーPが、n=a+bを計算する。ただし、a及びbはデータベース長nの加法的持分を表す整数であり、j=1、2、…、Kである。加法的持分のK長ベクトルはそれぞれa及びbと定義される。
パーティーPは、インデックスベクトル(1,2,…,K)に関する置換πに互いに合意する。この置換はプロセッサには未知である。その後、各パーティーPは、その持分aを代表するパーティー
Figure 2012133320
に送信し、置換に従ってインデックスが変更されている自身の持分bをプロセッサに送信する。したがって、そのステップの後に、そのパーティーは、π(a)によって与えられる置換済み加法的持分を有し、一方、プロセッサは、置換済み加法的持分π(b)を有する。
パーティーPは鍵対(pk,sk)を生成する。ただし、pkは準同型暗号化のための公開鍵であり、skはパーティーにのみ知られており、プロセッサには知られていない秘密解読鍵である。aの要素単位の暗号化はξ(a)と定義される。パーティーは、プロセッサに、ξ(π(a))=π(ξ(a))を送信する。
プロセッサは、ランダムベクトルr=(r,r,…,r)を生成する。ただし、要素rは無作為に均等に選択される整数であり、同程度に正又は負である可能性がある。その後、プロセッサは、ξ(π(a))ξ(r)=ξ(π(a)+r)を計算する。ベクトル表記では、プロセッサはξ(π(a)+r)を計算する。
同様に、受信された加法的持分と同じ順序において同じ乱数整数を減算することによって、プロセッサはπ(b)−rを得て、無作為に置換πを選択し、信号
Figure 2012133320
及び信号π(b)−r)を得る。プロセッサは信号ξ(π(b)+r))を個々のパーティーに順に、たとえば、第1のパーティーPに第1の要素を、第2のパーティーPに第2の要素を、第KのパーティーPに第Kの要素を送信する。
各パーティーは、プロセッサから受信された信号を解読する。すなわち、パーティーP、P、…、Pはそれぞれ、ベクトルπ(a)+r)の要素を有し、一方、プロセッサはベクトルπ(b)−r)を有する。πはプロセッサには未知であり、πはパーティーには未知であるので、両方のベクトル内のインデックスは不明瞭化される。
Figure 2012133320
かつ
Figure 2012133320
である場合には、以下の式が成り立つ。
Figure 2012133320
(i,j)対毎に(ただし、i、j∈{1、2、…、K})、セキュアな億万長者プロトコルを実施することによって、これらの比較を解くことができる。全ての比較が行われたとき、プロセッサは、
Figure 2012133320
が成り立つようなインデックス
Figure 2012133320
325を求める。しかしながら、最も小さなデータセットに対応する真のインデックスは不明瞭化される。
最も小さなデータベースの雑音値の第1の加法的持分をオブリビアスに(obliviously:気付かずに)選択する
不明瞭化インデックス315に基づいて、プロセッサは、全ての雑音値の加法的持分340から、最も小さなデータベースに関連付けられた雑音値の第1の加法的持分335をオブリビアスに選択する(330)。最も小さなデータベースに関連付けられた雑音値の第2の加法的持分360が1つ又は複数のデータベースによって格納される。
たとえば、プロセッサは、
Figure 2012133320
であり、かつ他の全ての要素が0であるような、長さKのインジケーターベクトルuを構成する。その後、プロセッサは、インジケーターベクトルを置換して、置換済みベクトルπ −1(u)を生成する。ただし、π −1はπを反転する。次に、プロセッサは、加法的準同型関数ζ(・)のための鍵対(pk’,sk’)を生成し、パーティーPにζ(π −1(u))=π −1(ζ(u))を送信する。ただし、暗号鍵pk’だけが、パーティーPが利用できるように公開される。
パーティーは、置換済みベクトルπ −1 −1(ζ(u)))=ζ(v)を互いに入手する。ただし、π −1は、パーティーPによって当初に適用された置換πを反転し、vは基底ベクトルである。ここで両方の置換が除去されたので、インジケーターベクトルv内の0以外の要素のインデックスは、最も小さなデータベースの真のインデックスに対応する。しかしながら、パーティーPはζ(・)を解読することができないので、パーティーはこのインデックスを見つけ出すことはできない。
j=1、…、Kについて、パーティーPは雑音値ηを選択する。一実施の形態では、雑音値は、パラメーター2/(nελ)を有するラプラス(Lap)分布からサンプリングされるd次元雑音ベクトルである。別の実施の形態では、異なる分布から雑音ベクトルが選択される。さらに別の実施の形態では、雑音ベクトルは予め決定される。その後、パーティーはd次元ベクトルΨを入手する。ただし、i=1、…、dについて、以下の式が成り立つ。
Figure 2012133320
全てのパーティーPが、i=1、…、dについて、以下の式が成り立つようなd次元雑音ベクトルΨを計算する。
Figure 2012133320
構成によって、上記の式は、他の全てのデータベースのための雑音値を拒否しながら、最も小さなデータベースのための雑音値のみを選択する。これは、vが最も小さなデータベースに対応するインデックスにおいて値1を有する要素を有し、他の全ての場所において0を有するためである。
パーティーのうちの1つ、たとえば、Pが、d次元乱数整数雑音ベクトルSを生成し、それにより、全てのi=1、…、dについて第1の加法的持分335ψ(i)ζ(s(i))を生成し、第1の加法的持分をプロセッサに送信する。また、パーティーPは、たとえば、w−Ksを計算することによって、雑音値の第2の加法的持分360を格納する。ただし、wはそのパーティーの分類器である。付加的に又は代替的に、第2の加法的持分は複数のデータベースによって格納される。
プロセッサは、i=1、…、dについて、ψ(i)ξ(s(i))を解読して、η(i)+s(i)を入手する。したがって、プロセッサは、最も小さなデータベースに関連付けられた雑音値の第1の加法的持分をK(η+s)として格納し、選択されたパーティーPが雑音値の第2の加法的持分及び分類器をw−Ksとして格納し、他の全てのパーティーP(j=2、…、K)が分類器wを格納する。
分類器、第1の加法的持分及び第2の加法的持分をオブリビアスに組み合わせる
種々の実施の形態において、プロセッサ、及びデータベースを所有するK個のパーティーは、K+1人の関係者のそれぞれが差分プライバシー集合分類器Kwの加法的持分を入手するように、セキュアな関数評価プロトコルを実行する。いくつかの実施の形態では、加法的持分は、計算上セキュアなプロトコルを用いて生成される。他の実施の形態では、加法的持分は、無条件にセキュアなプロトコルを用いて生成される。結果として生成されるK+1個の持分は、差分プライバシー集合分類器を形成し、公開され、たとえば、メモリ175に格納される。
付録A
マルチパーティー環境における差分プライバシーのための理論的証明
最も小さなデータベースのサイズに基づいて確率的成分を選択すれば十分である。以下において、これが事実であるという理論的証明が与えられる。
差分プライバシーの証明
この発明における摂動集合分類器は差分プライバシーを満たすことを示す。正則化回帰分類器の感度に関する以下の限界を用いる。
定理1 半径1の球体内に存在するn個のデータインスタンスの集合を与えるとき、正則化ロジスティック回帰関数の感度は高くても2/(nλ)である。w及びwが正則化パラメーターλを用いてサイズnの隣接するデータベースにおいてトレーニングされた関数(分類器)であるとすると、以下の式が成り立つ。
Figure 2012133320
この限界は、Kamalika Chaudhuri及びClaire Monteleoni「Privacy-preserving logistic regression」(Neural Information Processing Systems, pages 289-296, 2008)によって証明されており、その文献は参照により本明細書に援用される。この発明における摂動関数又は分類器が差分プライバシーを満たすことを示すために、以下のように進める。
定理2 分類器wはε差分プライバシーを保護する。任意の2つの隣接するデータベースD及びD’について、以下の式が成り立つ。
Figure 2012133320
証明 トレーニングデータベースDの1つのインスタンスが変更され、結果として隣接するデータベースD’が生成される場合について考える。これは、 1つのパーティーのトレーニングデータベース内の1つの要素の変更、それにより、対応する学習されたベクトルw 内の変更を意味するであろう。その変更がパーティーPのデータベース内にあると仮定すると、学習されたベクトルの変更はw内に入るだけである。新たな分類器をwj’によって表すものとする。定理1において、wの感度を||w−wj’ ||≦2/(nελ)と制限する。トレーニングデータベースD及びD’のいずれかを用いて同じベクトルwを学習することを考えるとき、関数感度の定義によって、以下の式が得られる。
Figure 2012133320
同様に、exp(−ε)によって、その比の下限を設定することができる。
過剰誤差の解析
予想されるように、摂動雑音項を付加することによって、関数評価において誤差が導入される。分類器として用いられる関数の場合、この誤差は過剰誤差又は過剰リスクと呼ばれる。それは、差分プライバシーに対して支払われる対価である。差分プライバシー分類器が有用であるためには、過剰リスクは小さいことが望ましい。言い換えると、雑音を付加することによって、分類性能をあまりにも劣化させないことが望ましい。
上記の検討において、トレーニングデータ全体においてトレーニングされた非プライバシー非摂動分類器wに対して、この発明における(差分プライバシーを満たす)摂動集合分類器wを用いるときに、どの程度の誤差が導入されるかを考える。また、(非プライバシー)非摂動集合分類器wに対して、どの程度の誤差が導入されるかも考える。
最初に、集合分類器wと、トレーニングデータ全体にわたってトレーニングされた分類器wとの間の差のl(エル)ノルムに関する限界を確立する。その限界を証明するために、以下の補助定理を適用する。
補助定理1 G(w)及びg(w)をwの2つの区別可能な凸関数とする。
Figure 2012133320
とすると、||w−w||≦g/Gである。ただし、任意の単位ベクトルv∈Rについて、g=max||∇g(w)||及びG=minminG(w)vである。
補助定理1は、Kamalika Chaudhuri及びClaire Monteleoni「Privacy-preserving logistic regression」(Neural Information Processing Systems, pages 289-296, 2008)から得られたものであり、その文献は参照により本明細書に援用される。最初に、非プライバシー非摂動集合分類器wと、データベース全体において調整された非プライバシー分類器wとの間の過剰リスクを制限する以下の定理を考える。
定理3 集合分類器w、トレーニングデータ全体にわたってトレーニングされた分類器wが与えられ、n(1)が最も小さなトレーニングデータベースのサイズであるとすると、以下の式が成り立つ。
Figure 2012133320
証明:
2つの区別可能な凸関数g(w)及びG(w)を最小にすることに関して、個々の分類器w及びトレーニングデータ全体にわたってトレーニングされた分類器wを推定するという問題を定式化する。
Figure 2012133320
補助定理6.2におけるg及びGに関する限界を代入すると、以下の式が成り立つ。
Figure 2012133320
三角不等式を適用すると、以下の式が成り立つ。
Figure 2012133320
ただし、n(1)=minである。
その限界は、最も小さなデータベース内のインスタンスの数に反比例する。これは、データベースが異なるサイズからなるとき、wはwとは大きくことなることを示す。n(1)が取り得る最も大きな値はn/Kであり、その場合、全てのパーティーが等しい量のトレーニングデータを有し、wはwに最も近くなるであろう。K=1の場合の1つのパーティーの事例では、その限界は、差のノルムの上限が0に設定されることを示し、それは、集合分類器wがwと同じであるときに有効なサニティーチェックである。
この結果を用いて、以下の定理において、非摂動分類器wの経験的リスクを上回る摂動集合分類器w=w+ηの経験的リスクに関する限界を確立する。
定理4 全てのデータインスタンスxが、少なくとも1−δの確率で単位球内に存在する場合には、トレーニングデータ全体にわたってトレーニングされた分類器wを上回る摂動集合分類器wの経験的正則化過剰リスクは以下の通りである。
Figure 2012133320
証明:或る
Figure 2012133320
について、関数Jのテイラー級数展開を用いて、以下の式が得られる。
Figure 2012133320
定義により、∇J(w)=0である。
両辺のl(エル)ノルムを取り、コーシー−シュワルツ不等式を適用すると、以下の式が得られる。
Figure 2012133320
ロジスティック回帰のための正則化損失関数の第二勾配は以下の通りである。
Figure 2012133320
ロジスティック関数項は常に1未満であり、かつ全てのxが単位球内に存在するので、||∇J(w) ||≦λ+1である。これを式8に代入し、
Figure 2012133320
の場合に、J(w)≦J(w)であるという事実を用いるとき、以下の式が成り立つ。
Figure 2012133320
分類器wは、雑音項η:Lap(2/(n(1)ελ))を有する摂動集合分類器であり、すなわち、w=w+ηである。少なくとも1−δの確率で||η||を制限するために、Kamalika Chaudhuri及びClaire Monteleoni「Privacy-preserving logistic regression」(Neural Information Processing Systems, pages 289-296, 2008)からの以下の補助定理を適用し、その文献は参照により本明細書に援用される。
補助定理2 少なくとも1−δの確率を有するd次元の確率変数η:Lap(β)、すなわち、
Figure 2012133320
が与えられたとすると、その確率変数のl(エル)ノルムは以下のように制限される。
Figure 2012133320
これを式9に代入すると、以下の式が得られる。
Figure 2012133320
最後の項においてコーシー−シュワルツ不等式を用いると、以下の式が得られる。
Figure 2012133320
その限界は、2つの要因:集合及び摂動による誤差を示唆する。εの値が小さいほど、同じ意味で、差分プライバシーの定義が厳しいほど、その限界は増大し、プライバシーと有用性との間に明らかなトレードオフがあることを示す。また、その限界はn(1) に反比例し、それは、パーティーが異なるサイズのトレーニングデータベースを有するときに、過剰リスクが増加することを意味する。
極端な事例ε→∞では、無限小の分散のラプラシアン分布からサンプリングされる摂動項ηを加算しており、結果として、その摂動分類器は、差分プライバシーのあまり厳密でない定義を満たす非摂動集合分類器wを用いるのと概ね同じである。そのようなε値の場合、この発明の限界は以下のようになる。
Figure 2012133320
定理3の解析と同じように、集合分類器を用いる際の過剰誤差は最も小さなデータベースn(1)のサイズに反比例し、1パーティーの事例K=1では、集合分類器wがwと同じであるので、その限界は0になる。
上記の定理は所与のトレーニングデータベースを上回る経験的過剰リスクに関する限界を与えるが、wを上回るwの真の過剰リスクに関する限界について考えることが重要である。分類器wの真のリスクを
Figure 2012133320
によって表し、同様に、分類器wの真のリスクを
Figure 2012133320
によって表すことにする。
定理5 全てのトレーニングデータインスタンスxが、少なくとも1−δの確率で単位球内に存在する場合には、トレーニングデータ全体にわたってトレーニングされた分類器wを上回る摂動集合分類器wの真の過剰リスクは以下の通りである。
Figure 2012133320
証明:
を真のリスク
Figure 2012133320
を最小にする分類器とする。項を並べ替えることによって、以下の式が得られる。
Figure 2012133320
さらに進むために、最初に、分類器のための正則化経験的リスクに関する限界の表現としての任意の分類器の真の過剰リスクと、正則化経験的リスクを最小にする分類器の真の過剰リスクとの間の限界を必要とする。少なくとも1−δの確率で、以下の式が成り立つ。
Figure 2012133320
定理4からの限界を代入すると、以下の式が得られる。
Figure 2012133320
この限界を式10に代入することによって、分類器wを上回る分類器wの真の過剰リスクに関する限界が与えられる。

Claims (15)

  1. 1組のデータベースのための差分プライバシー集合分類器を求めるための方法であって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが前記データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は各前記データベースの前記差分データプライバシーを保護し、該方法は、
    前記分類器を組み合わせて集合分類器を求めるステップと、
    前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて前記集合分類器を変更して前記差分プライバシー集合分類器を生成するステップとを含み、該方法の該ステップはプロセッサによって実行される、方法。
  2. 前記最も小さなデータベースは最も少ない数のエントリを有し、前記エントリのデータ構造は全てのデータベースについて同一である、請求項1に記載の方法。
  3. 前記データベースのインデックスの置換から生じる前記最も小さなデータベースの不明瞭化インデックスを求めるステップと、
    全ての雑音値の加法的持分から、前記不明瞭化インデックスに基づいて、前記最も小さなデータベースに関連付けられた雑音値の第1の加法的持分をオブリビアスに選択するステップであって、第2の加法的持分が1つ又は複数のデータベース内に格納されるものと、
    各前記分類器、前記雑音値の前記第1の加法的持分及び前記第2の加法的持分をオブリビアスに組み合わせることによって前記差分プライバシー集合分類器を求めるステップとをさらに含む、請求項1に記載の方法。
  4. 前記雑音値はラプラス分布に従って分布する、請求項1に記載の方法。
  5. 前記データベース毎の前記雑音値は前記データベースのサイズに基づいて求められる、請求項1に記載の方法。
  6. 前記分類器は2値ロジスティック回帰分類器である、請求項1に記載の方法。
  7. 前記分類器は、2値ロジスティック回帰分類器の組み合わせから構成されるマルチクラス分類器である、請求項6に記載の方法。
  8. 前記差分プライバシー分類器を求めることは、暗号プロトコルによって実行される、請求項3に記載の方法。
  9. 前記差分プライバシー分類器を求めることは、秘密共有プロトコルによって実行される、請求項3に記載の方法。
  10. 1組のデータベースのための差分プライバシー集合分類器を求めるためのシステムであって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが該データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は各前記データベースの前記差分データプライバシーを保護し、該システムは、
    前記分類器を組み合わせて集合分類器を求める手段と、
    前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて前記集合分類器を変更して、前記差分プライバシー集合分類器を生成する手段とを備える、システム。
  11. 前記最も小さなデータベースは最も少ない数のエントリを有し、前記エントリのデータ構造は全てのデータベースについて同一である、請求項10に記載のシステム。
  12. 前記データベースのインデックスの置換から生じる前記最も小さなデータベースの不明瞭化インデックスを求める手段と、
    全ての雑音値の加法的持分から、前記不明瞭化インデックスに基づいて、前記最も小さなデータベースに関連付けられた雑音値の第1の加法的持分をオブリビアスに選択する手段であって、第2の加法的持分が1つ又は複数のデータベース内に格納されるものと、
    各前記分類器、前記雑音値の前記第1の加法的持分及び前記第2の加法的持分をオブリビアスに組み合わせることによって前記差分プライバシー集合分類器を求める手段とをさらに備える、請求項10に記載のシステム。
  13. 前記雑音値はラプラス分布に従って分布する、請求項10に記載のシステム。
  14. 前記データベース毎の前記雑音値は前記データベースのサイズに基づいて求められる、請求項10に記載のシステム。
  15. 1組のデータベースのための差分プライバシー集合分類器を格納するコンピューター読み取り可能な記憶媒体であって、該1組のデータベース内の各データベースは分類器及び雑音値に関連付けられ、該分類器及び該雑音値は、該分類器及び該雑音値の組み合わせが前記データベースの差分データプライバシーを保証するように、前記データベース毎にローカルに求められ、前記差分プライバシー集合分類器は、前記1組のデータベース内の最も小さなデータベースに対応する雑音値を用いて変更された、該1組のデータベースの前記分類器の組み合わせである、コンピューター読み取り可能な記憶媒体。
JP2011219252A 2010-12-03 2011-10-03 複数データベースのための差分プライバシー集合分類器 Pending JP2012133320A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/960,221 US8375030B2 (en) 2010-12-03 2010-12-03 Differentially private aggregate classifier for multiple databases
US12/960,221 2010-12-03

Publications (2)

Publication Number Publication Date
JP2012133320A true JP2012133320A (ja) 2012-07-12
JP2012133320A5 JP2012133320A5 (ja) 2014-09-18

Family

ID=46163251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011219252A Pending JP2012133320A (ja) 2010-12-03 2011-10-03 複数データベースのための差分プライバシー集合分類器

Country Status (2)

Country Link
US (1) US8375030B2 (ja)
JP (1) JP2012133320A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016203752A1 (ja) * 2015-06-15 2016-12-22 日本電気株式会社 情報処理装置、情報処理方法、及び、記憶媒体
WO2018116366A1 (ja) * 2016-12-19 2018-06-28 三菱電機株式会社 秘匿化装置、データ分析装置、秘匿化方法、データ分析方法、秘匿化プログラム及びデータ分析プログラム
US10936757B2 (en) 2016-05-27 2021-03-02 Mitsubishi Electric Corporation Registration destination determination device, searchable encryption system, destination determination method, and computer readable medium
JP7439305B2 (ja) 2020-06-23 2024-02-27 グーグル エルエルシー 差分プライベートな頻度の重複排除
JP7442696B2 (ja) 2020-10-01 2024-03-04 エヌイーシー ラボラトリーズ アメリカ インク 投票に基づく差分プライベート連合学習のためのアプローチ

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8555400B2 (en) * 2011-02-04 2013-10-08 Palo Alto Research Center Incorporated Privacy-preserving aggregation of Time-series data
US8627107B1 (en) * 2011-09-29 2014-01-07 Todd Michael Kennedy System and method of securing private health information
US8893292B2 (en) * 2012-11-14 2014-11-18 Mitsubishi Electric Research Laboratories, Inc. Privacy preserving statistical analysis for distributed databases
US20150286827A1 (en) * 2012-12-03 2015-10-08 Nadia Fawaz Method and apparatus for nearly optimal private convolution
US9672364B2 (en) 2013-03-15 2017-06-06 Microsoft Technology Licensing, Llc Differentially private linear queries on histograms
US9672469B2 (en) * 2013-09-18 2017-06-06 Acxiom Corporation Apparatus and method to increase accuracy in individual attributes derived from anonymous aggregate data
US9246978B2 (en) * 2013-11-11 2016-01-26 Mitsubishi Electric Research Laboratories, Inc. Method for determining hidden states of systems using privacy-preserving distributed data analytics
US10320752B2 (en) 2014-10-24 2019-06-11 National Ict Australia Limited Gradients over distributed datasets
US9471810B2 (en) 2015-03-09 2016-10-18 Mitsubishi Electric Research Laboratories, Inc. Method and system for determining hidden states of a machine using privacy-preserving distributed data analytics and a semi-trusted server and a third-party
US10489605B2 (en) 2015-11-02 2019-11-26 LeapYear Technologies, Inc. Differentially private density plots
US10726153B2 (en) 2015-11-02 2020-07-28 LeapYear Technologies, Inc. Differentially private machine learning using a random forest classifier
US20170124152A1 (en) * 2015-11-02 2017-05-04 LeapYear Technologies, Inc. Differentially private processing and database storage
US10467234B2 (en) 2015-11-02 2019-11-05 LeapYear Technologies, Inc. Differentially private database queries involving rank statistics
US10586068B2 (en) 2015-11-02 2020-03-10 LeapYear Technologies, Inc. Differentially private processing and database storage
US10108818B2 (en) * 2015-12-10 2018-10-23 Neustar, Inc. Privacy-aware query management system
US11194864B2 (en) 2016-05-10 2021-12-07 Aircloak Gmbh Systems and methods for anonymized statistical database queries
US11194823B2 (en) 2016-05-10 2021-12-07 Aircloak Gmbh Systems and methods for anonymized statistical database queries using noise elements
US10229282B2 (en) 2016-06-12 2019-03-12 Apple Inc. Efficient implementation for differential privacy using cryptographic functions
US9645998B1 (en) 2016-06-12 2017-05-09 Apple Inc. Learning new words
US9705908B1 (en) * 2016-06-12 2017-07-11 Apple Inc. Emoji frequency detection and deep link frequency
US10778633B2 (en) 2016-09-23 2020-09-15 Apple Inc. Differential privacy for message text content mining
US10223547B2 (en) * 2016-10-11 2019-03-05 Palo Alto Research Center Incorporated Method for differentially private aggregation in a star topology under a realistic adversarial model
US11496286B2 (en) 2017-01-08 2022-11-08 Apple Inc. Differential privacy with cloud data
US10380366B2 (en) * 2017-04-25 2019-08-13 Sap Se Tracking privacy budget with distributed ledger
US10599868B2 (en) 2017-06-04 2020-03-24 Apple Inc. User experience using privatized crowdsourced data
US10726139B2 (en) 2017-06-04 2020-07-28 Apple Inc. Differential privacy using a multibit histogram
CN107689950B (zh) * 2017-06-23 2019-01-29 平安科技(深圳)有限公司 数据发布方法、装置、服务器和存储介质
DE112018002942T5 (de) * 2017-07-06 2020-03-05 Robert Bosch Gmbh Verfahren und System zur datenschutzwahrenden Social-Media-Werbung
GB2565541A (en) * 2017-08-11 2019-02-20 Infosum Ltd Systems and methods for compiling a database
US11113413B2 (en) 2017-08-25 2021-09-07 Immuta, Inc. Calculating differentially private queries using local sensitivity on time variant databases
CN108197492B (zh) * 2017-12-29 2021-06-01 南京邮电大学 一种基于差分隐私预算分配的数据查询方法及系统
US11055432B2 (en) 2018-04-14 2021-07-06 LeapYear Technologies, Inc. Budget tracking in a differentially private database system
WO2019211111A1 (en) * 2018-04-30 2019-11-07 Koninklijke Philips N.V. Improved record finding using multi-party computation
JP6845344B2 (ja) 2018-06-05 2021-03-17 グーグル エルエルシーGoogle LLC データ漏洩リスクの評価
US11537742B2 (en) * 2018-08-28 2022-12-27 Koninklijke Philips N.V. Sampling from a remote dataset with a private criterion
US10430605B1 (en) * 2018-11-29 2019-10-01 LeapYear Technologies, Inc. Differentially private database permissions system
US11755769B2 (en) 2019-02-01 2023-09-12 Snowflake Inc. Differentially private query budget refunding
CN109885769A (zh) * 2019-02-22 2019-06-14 内蒙古大学 一种基于差分隐私算法的主动推荐系统及装置
US11409904B2 (en) * 2019-04-18 2022-08-09 Microsoft Technology Licensing, Llc User interface for building a data privacy pipeline and contractual agreement to share data
US11403299B2 (en) 2019-04-18 2022-08-02 Microsoft Technology Licensing, Llc Constraint manager for collaborative intelligence and constraint computing
US11356456B2 (en) 2019-04-18 2022-06-07 Microsoft Technology Licensing, Llc Multi-participant and cross-environment pipelines
US11455410B2 (en) * 2019-04-18 2022-09-27 Microsoft Technology Licensing, Llc Data privacy pipeline providing collaborative intelligence and constraint computing
US11409897B2 (en) 2019-04-18 2022-08-09 Microsoft Technology Licensing, Llc Constraint querying for collaborative intelligence and constraint computing
US10642847B1 (en) 2019-05-09 2020-05-05 LeapYear Technologies, Inc. Differentially private budget tracking using Renyi divergence
US11526800B2 (en) 2019-05-17 2022-12-13 International Business Machines Corporation Determining value of corpora for machine learning using coresets
US11238167B2 (en) * 2019-06-14 2022-02-01 Sap Se Secure sublinear time differentially private median computation
US11593360B2 (en) * 2019-08-29 2023-02-28 Goldman Sachs & Co. LLC Empirically providing data privacy with reduced noise
US11328084B2 (en) 2020-02-11 2022-05-10 LeapYear Technologies, Inc. Adaptive differentially private count
US11960624B2 (en) 2020-02-21 2024-04-16 Immuta, Inc. Systems and methods to enhance privacy through decision tree based suppression rules on relational databases
US11783077B2 (en) * 2020-06-19 2023-10-10 Immuta, Inc. Systems and methods for privacy-enhancing modification of a database query
US11775681B2 (en) 2020-09-01 2023-10-03 Microsoft Technology Licensing, Llc Enforcement flow for pipelines that include entitlements
US11361106B2 (en) 2020-09-01 2022-06-14 Microsoft Technology Licensing, Llc Chaining, triggering, and enforcing entitlements
US20220114525A1 (en) * 2020-10-12 2022-04-14 Microsoft Technology Licensing, Llc Peer group benchmark generation and presentation
US11017322B1 (en) 2021-01-28 2021-05-25 Alipay Labs (singapore) Pte. Ltd. Method and system for federated learning
US20220247548A1 (en) * 2021-02-01 2022-08-04 Sap Se Efficient distributed privacy-preserving computations
US11922145B2 (en) * 2022-03-01 2024-03-05 Microsoft Technology Licensing, Llc Initiating data privacy pipelines using reusable templates
US11868497B1 (en) 2023-04-07 2024-01-09 Lemon Inc. Fast convolution algorithm for composition determination
US11809588B1 (en) 2023-04-07 2023-11-07 Lemon Inc. Protecting membership in multi-identification secure computation and communication
US11886617B1 (en) 2023-04-07 2024-01-30 Lemon Inc. Protecting membership and data in a secure multi-party computation and/or communication
US11836263B1 (en) * 2023-04-07 2023-12-05 Lemon Inc. Secure multi-party computation and communication
US11811920B1 (en) 2023-04-07 2023-11-07 Lemon Inc. Secure computation and communication
US11829512B1 (en) 2023-04-07 2023-11-28 Lemon Inc. Protecting membership in a secure multi-party computation and/or communication
US11874950B1 (en) 2023-04-07 2024-01-16 Lemon Inc. Protecting membership for secure computation and communication

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080172233A1 (en) * 2007-01-16 2008-07-17 Paris Smaragdis System and Method for Recognizing Speech Securely
JP2011100116A (ja) * 2009-10-07 2011-05-19 Nippon Telegr & Teleph Corp <Ntt> 撹乱装置、撹乱方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080172233A1 (en) * 2007-01-16 2008-07-17 Paris Smaragdis System and Method for Recognizing Speech Securely
JP2011100116A (ja) * 2009-10-07 2011-05-19 Nippon Telegr & Teleph Corp <Ntt> 撹乱装置、撹乱方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6014037356; M. A. Pathak: Privacy Preserving Techniques for Speech Processing , 20101201 *
JPN6014037359; G. Jagannathan et al.: 'A Practical Differentially Private Random Decision Tree Classifier' Proceedings of 2009 IEEE International Conference on Data Mining Workshops (ICDMW 2009) , 200912, pp. 114-121, IEEE *
JPN6014037364; M. A. Pathak et al.: Multiparty Differential Privacy via Aggregation of Locally Trained Classifiers TR2010-042, 201012, Mitsubishi Electric Research Laboratories *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016203752A1 (ja) * 2015-06-15 2016-12-22 日本電気株式会社 情報処理装置、情報処理方法、及び、記憶媒体
US10936757B2 (en) 2016-05-27 2021-03-02 Mitsubishi Electric Corporation Registration destination determination device, searchable encryption system, destination determination method, and computer readable medium
WO2018116366A1 (ja) * 2016-12-19 2018-06-28 三菱電機株式会社 秘匿化装置、データ分析装置、秘匿化方法、データ分析方法、秘匿化プログラム及びデータ分析プログラム
JP6501989B2 (ja) * 2016-12-19 2019-04-17 三菱電機株式会社 秘匿化装置、データ分析装置、秘匿化方法、データ分析方法、秘匿化プログラム及びデータ分析プログラム
US11163895B2 (en) 2016-12-19 2021-11-02 Mitsubishi Electric Corporation Concealment device, data analysis device, and computer readable medium
JP7439305B2 (ja) 2020-06-23 2024-02-27 グーグル エルエルシー 差分プライベートな頻度の重複排除
JP7442696B2 (ja) 2020-10-01 2024-03-04 エヌイーシー ラボラトリーズ アメリカ インク 投票に基づく差分プライベート連合学習のためのアプローチ

Also Published As

Publication number Publication date
US8375030B2 (en) 2013-02-12
US20120143922A1 (en) 2012-06-07

Similar Documents

Publication Publication Date Title
JP2012133320A (ja) 複数データベースのための差分プライバシー集合分類器
Vijayakumar et al. RETRACTED ARTICLE: E-Health Cloud Security Using Timing Enabled Proxy Re-Encryption
Zyskind et al. Decentralizing privacy: Using blockchain to protect personal data
Dhinakaran et al. Protection of data privacy from vulnerability using two-fish technique with Apriori algorithm in data mining
EP2602755A1 (en) Privacy-preserving collaborative filtering
KR101745765B1 (ko) 디지털 자산들의 값을 결정하고 사용하기 위한 방법 및 장치
Wang et al. A theoretical analysis of noisy sparse subspace clustering on dimensionality-reduced data
Li et al. Exploring privacy preservation in outsourced k-nearest neighbors with multiple data owners
CN109344640B (zh) 一种基于同态加密和多项式计算的子图匹配方法
Wang et al. Locally private high-dimensional crowdsourced data release based on copula functions
Jarin et al. Pricure: privacy-preserving collaborative inference in a multi-party setting
Pramod Privacy-preserving techniques in recommender systems: state-of-the-art review and future research agenda
Huang et al. An improved federated learning approach enhanced internet of health things framework for private decentralized distributed data
Himthani et al. Big data privacy and challenges for machine learning
Mireshghallah et al. A principled approach to learning stochastic representations for privacy in deep neural inference
Heydari et al. Uncertainty-aware authentication model for fog computing in IoT
Wang et al. Efficient location-based skyline queries with secure r-tree over encrypted data
Rannenberg et al. Study on the technical evaluation of de-identification procedures for personal data in the automotive sector
Bonchi et al. Privacy in spatiotemporal data mining
Vidhya et al. Fusion-based advanced encryption algorithm for enhancing the security of Big Data in Cloud
Liu et al. Privacy-preserving multi-task learning
Sharma et al. A review on client-server attacks and defenses in federated learning
El Haourani et al. Big Data security and privacy techniques
Sheikhalishahi et al. On the Comparison of Classifiers' Construction over Private Inputs
JP2018042045A (ja) 照合システムと方法とプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140806

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140806

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20140806

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150217