JP2016535898A

JP2016535898A - 結託および合成を考慮した効用対応プライバシー保護写像のための方法および装置

Info

Publication number: JP2016535898A
Application number: JP2016536078A
Authority: JP
Inventors: ファワズナディア; マクドウミカカーキアバサリ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-08-19
Filing date: 2013-11-21
Publication date: 2016-11-17
Also published as: KR20160044485A; EP3036678A1; WO2015026385A1; CN105612529A

Abstract

本実施形態は、いくつかの効用を得ることを期待して、彼のプライベートデータと相関関係がある、いくつかのパブリックデータを分析者に公開することを願うユーザによって直面されるプライバシー効用トレードオフに焦点を当てる。多数のデータが１又は複数の分析者に公開されるとき、我々は分散化された様式でプライバシー保護写像を設計する。特に、各プライバシー保護写像は、公開されるデータのそれぞれからの推論に対して別個に保護するように設計される。分散化は、多くの変数を有する１つの大きな最適化問題を、より少ない変数を有するいくつかのより小さい最適化に分解することによって、設計を単純にする。

Description

本発明は、プライバシーを保護するための方法および装置に関し、より詳細には、結託（collusion）または合成を考慮したユーザデータのプライバシーを保護するための方法および装置に関する。

関連出願の相互参照
本出願は、あらゆる目的で参照によりその全体が本明細書に組み込まれる、２０１３年８月１９日に出願された米国特許仮出願第６１／８６７，５４４号明細書、名称「ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＵｔｉｌｉｔｙ−ＡｗａｒｅＰｒｉｖａｃｙＰｒｅｓｅｒｖｉｎｇＭａｐｐｉｎｇｉｎＶｉｅｗｏｆＣｏｌｌｕｓｉｏｎａｎｄＣｏｍｐｏｓｉｔｉｏｎ」の出願日の利益を主張する。

本出願は、２０１２年８月２０日に出願された米国特許仮出願第６１／６９１，０９０号明細書、名称「ＡＦｒａｍｅｗｏｒｋｆｏｒＰｒｉｖａｃｙａｇａｉｎｓｔＳｔａｔｉｓｔｉｃａｌＩｎｆｅｒｅｎｃｅ」（以下、「Ｆａｗａｚ」）に関連付けられる。この仮出願は、明示的に参照によりその全体が本明細書に組み込まれる。

加えて、本出願は、以下の出願、（１）代理人整理番号第ＰＵ１３０１２０号、名称「ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＵｔｉｌｉｔｙ−ＡｗａｒｅＰｒｉｖａｃｙＰｒｅｓｅｒｖｉｎｇＭａｐｐｉｎｇａｇａｉｎｓｔＩｎｆｅｒｅｎｃｅＡｔｔａｃｋｓ」、および（２）代理人整理番号第ＰＵ１３０１２２号、名称「ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＵｔｉｌｉｔｙ−ＡｗａｒｅＰｒｉｖａｃｙＰｒｅｓｅｒｖｉｎｇＭａｐｐｉｎｇｔｈｒｏｕｇｈＡｄｄｉｔｉｖｅＮｏｉｓｅ」に関連付けられ、これらは、同一譲受人に譲渡され、それら全体が参照により組み込まれ、本明細書と共に出願される。

ビッグデータの時代において、ユーザデータの収集およびマイニングは、多数の民間および公共機関により、急速に成長している一般的行為となっている。たとえば、技術会社は、ユーザデータを利用してそれらの顧客に個別化されたサービスを提供し、政府機関は、データに依拠して、様々な課題、たとえば、国家安全保障、国民健康、予算および基金配分に取り組み、または医療機関は、データを分析して病気の発端および潜在的治療法を発見する。場合によっては、ユーザのデータの収集、分析または第三者との共有は、ユーザの同意または認識なしに行われる。他の場合、データは、見返りにサービスを得るために、ユーザによって特定の分析者に自発的に公開され、たとえば、推奨を得るために製品評価が公開される。ユーザのデータにアクセスすることを許可することからユーザが得るこのサービスまたは他の利益は、効用（utility）と呼ばれることがある。いずれの場合も、プライバシーリスクが生じ、その理由は、収集されたデータの一部は、センシティブ（sensitive）であるとユーザがみなすことがある（たとえば、政治的意見、健康状態、所得レベル）、または、一見無害に見えることがある（たとえば、製品評価）が、それが相関付けられたよりセンシティブなデータの推定につながるからである。後者の脅威は、推論攻撃、すなわち、プライベートデータを、それの公然と公開されるデータ（released data）との相関を利用することによって推論する技法を指す。

本原理は、ユーザに関するユーザデータを処理するための方法であって、プライベートデータ、第１のパブリックデータ、および第２のパブリックデータを含む上記ユーザデータにアクセスするステップであって、上記第１のパブリックデータは、第１のカテゴリのデータに対応し、上記第２のパブリックデータは、第２のカテゴリのデータに対応する、ステップと、上記プライベートデータと第１の公開されるデータおよび第２の公開されるデータとの間の第１の情報漏出境界を決定するステップと、上記第１の情報漏出境界に応じて、上記プライベートデータと上記第１の公開されるデータとの間の第２の情報漏出境界、および上記プライベートデータと上記第２の公開されるデータとの間の第３の情報漏出境界を決定するステップと、上記第２の境界に応じて上記第１の公開されるデータに上記第１のカテゴリのデータを写像する第１のプライバシー保護写像、および上記第３の境界に応じて上記第２の公開されるデータに上記第２のカテゴリのデータを写像する第２のプライバシー保護写像を決定するステップと、上記第１の公開されるデータおよび上記第２の公開されるデータを形成するために、それぞれ、上記第１のプライバシー保護写像および上記第２のプライバシー保護写像に基づいて、上記ユーザに関する上記第１のパブリックデータおよび上記第２のパブリックデータを修正するステップと、後述されるように、上記修正された第１のパブリックデータおよび第２のパブリックデータを、サービスプロバイダとデータ収集エージェンシとの少なくとも一方へ公開するステップと、を含む、上記方法を提供する。本原理はまた、これらのステップを実施するための装置を提供する。

本原理はまた、ユーザに関するユーザデータを処理するための方法であって、プライベートデータ、第１のパブリックデータ、および第２のパブリックデータを含む上記ユーザデータにアクセスするステップであって、上記第１のパブリックデータは、第１のカテゴリのデータに対応し、上記第２のパブリックデータは、第２のカテゴリのデータに対応する、ステップと、上記プライベートデータと第１の公開されるデータおよび第２の公開されるデータとの間の第１の情報漏出境界を決定するステップと、上記第１の情報漏出境界に応じて、上記プライベートデータと上記第１の公開されるデータとの間の第２の情報漏出境界、および上記プライベートデータと上記第２の公開されるデータとの間の第３の情報漏出境界を決定するステップであって、上記第２の境界および上記第３の境界のそれぞれは、上記第１の境界と実質的に等しい、ステップと、上記第２の境界に応じて上記第１の公開されるデータに上記第１のカテゴリのデータを写像する第１のプライバシー保護写像、および上記第３の境界に応じて上記第２の公開されるデータに上記第２のカテゴリのデータを写像する第２のプライバシー保護写像を決定するステップと、上記第１の公開されるデータおよび上記第２の公開されるデータを形成するために、それぞれ、上記第１のプライバシー保護写像および上記第２のプライバシー保護写像に基づいて、上記ユーザに関する上記第１のパブリックデータおよび上記第２のパブリックデータを修正するステップと、後述されるように、上記修正された第１のパブリックデータおよび第２のパブリックデータを、サービスプロバイダとデータ収集エージェンシとの少なくとも一方へ公開するステップと、を含む、上記方法を提供する。本原理はまた、これらのステップを実行するための装置を提供する。

本原理はまた、上述された上記方法による、ユーザに関するユーザデータを処理するための命令を格納したコンピュータ可読記憶媒体を提供する。

結託および合成を示す図例である。本原理の実施形態による、プライバシーを保護するための例示的方法を示すフロー図である。本原理の実施形態による、プライバシーを保護するための別の例示的方法を示すフロー図である。本原理の実施形態による、例示的プライバシーエージェントを示すブロック図である。本原理の実施形態による、複数のプライバシーエージェントを有する例示的システムを示すブロック図である。

差分プライバシーが生じるデータベースおよび暗号文において、焦点はアルゴリズムに関するものとなっている。特に、研究者は、推論アルゴリズム、転送、およびデータ問合わせのためのプライバシー保護機構を設計するために差分プライバシーを使用している。より最近の研究は、統計的推論と差分プライバシーとの関係に焦点を当てている。差分プライバシーは情報漏出の制限を保証しないことが示されている。差分プライバシーに類似する他のフレームワーク、たとえば、Pufferfishフレームワーク（たとえば、Ｄ．ＫｉｆｅｒａｎｄＡ．Ｍａｃｈａｎａｖａｊｊｈａｌａによる記事、”Ａｒｉｇｏｒｏｕｓａｎｄｃｕｓｔｏｍｉｚａｂｌｅｆｒａｍｅｗｏｒｋｆｏｒｐｒｉｖａｃｙ，” ｉｎＡＣＭＰＯＤＳ，２０１２を参照）が存在するが、これは効用保護に焦点を当てていない。

多くのアプローチは、情報理論的技法に依拠して、プライバシー精度トレードオフをモデリングおよび分析する。これらの情報理論的モデルのほとんどは、主にデータベースのエントリの全部または一部についての集団的プライバシーに焦点を当てており、出力公開後のデータベースエントリごとの平均残余不確実性または入力変数ごとの曖昧度に対する漸近的保証を提供する。対照的に、本出願で検討されるフレームワークは、公開された出力を観測することによって分析者が達成する情報漏出に対する境界の観点でプライバシーを提供する。

我々は、Ｆａｗａｚに説明された設定を検討し、この設定では、ユーザが、相関付けられた２種類のデータを有し、すなわち、ユーザがプライベートのままにしたい一部のデータと、ユーザが分析者に積極的に公開し、そこからユーザがある種の効用を得られ得る、たとえば、メディア選好をサービスプロバイダに公開して、より精密なコンテンツ推奨を受け取る、一部の非プライベートデータとを有する。

本出願で使用されるとき、分析者という用語は、たとえば、サービスプロバイダのシステムの一部であってよく、ユーザへの効用を提供するためにデータを表向き使用する、公開されるデータの受信者を指す。多くの場合、分析者は、公開されるデータの正当な受信者である。しかしながら、分析者が、公開されるデータを不法に利用し、ユーザのプライベートデータに関するある種の情報を推論する可能性もあり得る。これは、プライバシーと効用の必要条件の間の緊張をもたらす。効用を保持しながら推論脅威を低減するために、ユーザは、効用制約下で設計された「プライバシー保護写像（privacy preserving mapping）」と呼ばれる条件付き確率的写像によって生成されたデータの「歪められたバージョン」を公開することができる。

本出願において、我々は、ユーザがプライベートのままにしたいデータを「プライベートデータ」と呼び、ユーザが積極的に公開しようとするデータを「パブリックデータ」と呼び、ユーザが実際に公開するデータを「公開されるデータ（released data）」と呼ぶ。たとえば、ユーザは、ユーザの政治的意見をプライベートに維持したいことがあり、修正を伴うユーザのＴＶ評価を積極的に公開する（たとえば、番組に関するユーザの実際の評価は４であるが、ユーザは評価を３として公開する）。この場合、ユーザの政治的意見はこのユーザのプライベートデータとみなされ、ＴＶ評価はパブリックデータとみなされ、公開された修正されたＴＶ評価は公開されるデータとみなされる。別のユーザが政治的意見とＴＶ評価の両方を修正なしに積極的に公開しようとすることもあり、したがって、この他のユーザの場合、政治的意見とＴＶ評価のみが考慮されるとき、プライベートデータ、パブリックデータ、および公開されるデータの間の区別がないことに留意されたい。多くの人々が政治的意見およびＴＶ評価を公開する場合、分析者は、政治的意見とＴＶ評価との間の相関を得ることができ、したがって、それをプライベートに維持したいユーザの政治的意見を推論できることがある。

プライベートデータに関して、これは、公然と公開されるべきでないことをユーザが示すのみならず、ユーザが公開することになる他のデータから推論されたくもないデータを指す。パブリックデータは、場合によってはプライベートデータの推論を防止するために歪められた方法で、プライバシーエージェントが公開することをユーザが許可するデータである。

一実施形態では、パブリックデータは、ユーザにサービスを提供するためにサービスプロバイダがユーザに要求するデータである。しかしながら、ユーザは、それをサービスプロバイダに公開する前に、それを歪める（すなわち修正する）。別の実施形態では、パブリックデータは、公開がプライベートデータの推論を防止する形態をとる限りはユーザがそれを公開するのを気にしないという意味で「パブリック」であるとユーザが示すデータである。

上述されたように、特定のカテゴリのデータがプライベートデータとみなされるかそれともパブリックデータとみなされるかは、特定のユーザの視点に基づく。表記を簡単にするために、我々は、特定のカテゴリのデータを、現在のユーザの視点から、プライベートデータまたはパブリックデータと呼ぶ。たとえば、自身の政治的意見をプライベートに維持したい現在のユーザに関するプライバシー保護写像を設計しようとするとき、我々は、現在のユーザと、自身の政治的意見を積極的に公開しようとする別のユーザとの両方に関して、政治的意見をプライベートデータと呼ぶ。

本原理では、我々は、公開されるデータとパブリックデータとの間の歪みを、効用の測度として使用する。歪みがより大きいとき、公開されるデータは、よりいっそうパブリックデータとは異なり、よりプライバシーが保護されるが、歪められたデータから得られる効用は、ユーザにとって、より小さくなり得る。他方で、歪みがより小さいとき、公開されるデータは、パブリックデータのより精密な表現となり、ユーザは、より大きい効用、たとえば、より精密なコンテンツ推奨を受け取る可能性がある。

一実施形態では、統計的推論に対してプライバシーを保護するために、我々は、歪み制約を受けるプライベートデータと公開されるデータとの間の相互情報量として定義される情報漏出を最小化する最適化問題を解くことにより、プライバシー効用トレードオフをモデリングし、プライバシー保護写像を設計する。

Ｆａｗａｚでは、プライバシー保護写像を求めることは、プライベートデータと公開されるデータとをリンクする事前同時分布（prior joint distribution）が知られていて最適化問題に対する入力として提供され得るという基本的仮定に依拠する。実際には、真の事前分布は知られていなくてよく、いくつかの事前統計値が、観測され得るサンプルデータのセットから推定されてよい。たとえば、事前同時分布は、プライバシーの懸念を持たず、異なるカテゴリのデータを公然と公開するユーザのセットから推定されてよく、それらのデータは、彼らのプライバシーを懸念するユーザによってプライベートデータまたはパブリックデータとみなされ得る。あるいは、プライベートデータが観測できないとき、公開されるべきパブリックデータの周辺分布、または単純にその２次統計値が、彼らのパブリックデータのみを公開するユーザのセットから推定され得る。このサンプルのセットに基づいて推定された統計値は、次いで、彼らのプライバシーを懸念する新しいユーザに適用されるプライバシー保護写像機構を設計するために使用される。実際には、たとえば、観測可能サンプルが少数のため、または観測可能データの不完全性のため、推定された事前統計値と真の事前統計値との間の不一致が存在することもある。

問題を定式化するために、パブリックデータは、確率分布Ｐ_xを有する確率変数

によって示される。Ｘは、確率変数

によって示されるプライベートデータと相関付けられる。ＳとＸの相関は、同時分布Ｐ_S,Xによって定義される。確率変数

によって示される公開されるデータは、Ｘの歪められたバージョンである。Ｙは、ＸをカーネルＰ_Y|Xに通すことによって実現される。本出願では、用語「カーネル」は、データＸをデータＹに確率的に写像する条件付き確率を指す。すなわち、カーネルＰ_Y|Xは、我々が設計するのを望むプライバシー保護写像である。Ｙは、Ｘのみの確率的関数であるので、本出願では、我々は、Ｓ→Ｘ→Ｙがマルコフ連鎖を形成すると仮定する。したがって、Ｐ_Y|Xを定義すると、同時分布Ｐ_S,X,Y＝Ｐ_Y|XＰ_S,X、特に同時分布Ｐ_S,Yが得られる。

以下では、我々は、まずプライバシー概念を定義し、次いで精度概念を定義する。
定義１．Ｓ→Ｘ→Ｙを仮定する。カーネルＰ_Y|Xは、同時分布Ｐ_S,X,Y＝Ｐ_Y|XＰ_S,Xから得られる分布Ｐ_S,Yが以下の式を満たす場合、ε−発散プライベートと呼ばれる。

上式において、Ｄ（．）はＫ−Ｌ発散であり、

は確率変数の期待値であり、Ｈ（．）はエントロピーであり、ε∈［０，１］は漏出係数と呼ばれ、相互情報量Ｉ（Ｓ；Ｙ）は情報漏出を表す。

我々は、ε＝０の場合に、機構が完全プライバシーを有すると言う。極値の場合、ε＝０は、公開された確率変数Ｙがプライベート確率変数Ｓから独立していることを暗示し、ε＝１は、ＳがＹから完全に復元可能である（ＳはＹの確定関数である）ことを暗示する。Ｙは、完全にＳから独立して完全プライバシーを有する（ε＝０）と仮定することができるが、これは、低い精度レベルをもたらす可能性があることに留意されたい。我々は、精度を以下のように定義する。

定義２．

を歪み測度とする。カーネルＰ_Y|Xは、

であるならば、Ｄ−精度があると呼ばれる。

任意の歪み測定基準、たとえば、ＸおよびＹがバイナリベクトルである場合にハミング距離、ＸおよびＹが実ベクトルの場合にユークリッドノルム、または、ユーザがＸの代わりにＹの公開から得る効用の変動をモデリングするさらに複雑な測定基準が使用されてもよいことに留意されたい。後者は、たとえば、ユーザの真の選好Ｘの代わりにユーザの歪められたメディア選好Ｙの公開に基づいてユーザに推奨されるコンテンツの品質の差を表すことができる。

プライバシー保護写像の漏出係数εと歪みレベルＤとの間にトレードオフがある。一実施形態では、我々の目的は、効用制約が与えられたとして、推論され得るプライベート情報の量を制限することである。プライベートデータと公開されるデータとの間の情報漏出によって推論が測定され、パブリックデータと公開されるデータとの間の歪みによって効用が示されるとき、目的は、歪み制約が与えられたとして、最大情報漏出Ｉ（Ｓ；Ｙ）を最小化する確率写像Ｐ_Y|Xを求めるように数学的に定式化することができ、最大値は、以下のようにプライバシーエージェントで入手可能な分布Ｐ_S,Xの統計的知識の不確実性において得られる：

確率分布Ｐ_S,Yは、同時分布Ｐ_S,X,Y＝Ｐ_Y|XＰ_S,X＝Ｐ_Y|XＰ_S|XＰ_Xから得ることができる。

以下で、我々は、最大相関と呼ばれる統計的推論のいくつかの技法に基づいて、歪み制約を受けるプライバシーを達成する（すなわち情報漏出を最小化する）方式を提案する。我々は、この理論を使用して、同時確率測度Ｐ_S,Xの完全な知識なしにプライバシー保護写像をどのように設計できるかを示す。特に、我々は、情報漏出に関する可分結果（separability result）を証明し、より詳細には、カーネルＰ_Y|Xによって決定されるＩ（Ｓ；Ｙ）倍の最大相関係数の観点での情報漏出の上限境界（upper bound）を提供する。これは、同時確率測度Ｐ_S,Xの完全な知識なしに最適写像を定式化することを可能にする。

次に、我々は、分離結果（decoupling result）を記述する際に使用される定義を提供する。

定義３．所与の同時分布Ｐ_X,Yについて、

として、式中、ｒ（ｙ）は、Ｙに対するｐ（ｙ｜ｘ）ｒ（ｘ）の限界測度である。

発散に関するデータ処理不等式により、Ｓ^*（Ｘ；Ｙ）≦１であることに留意されたい。以下は、Ｖ．Ａｎａｎｔｈａｒａｍ，Ａ．Ｇｏｈａｒｉ，Ｓ．Ｋａｍａｔｈ，ａｎｄＣ．Ｎａｉｒによる記事、”Ｏｎｍａｘｉｍａｌｃｏｒｒｅｌａｔｉｏｎ，ｈｙｐｅｒｃｏｎｔｒａｃｔｉｖｉｔｙ，ａｎｄｔｈｅｄａｔａｐｒｏｃｅｓｓｉｎｇｉｎｅｑｕａｌｉｔｙｓｔｕｄｉｅｄｂｙＥｒｋｉｐａｎｄＣｏｖｅｒ，” ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１３０４．６１３３，２０１３（以下、「Ａｎａｎｔｈａｒａｍ」）による結果である。

定理１．Ｓ→Ｘ→Ｙがマルコフ連鎖を形成する場合、以下の境界が成立し：
Ｉ（Ｓ；Ｙ）≦Ｓ^*（Ｘ；Ｙ）Ｉ（Ｓ；Ｘ）（６）
境界は、Ｓを変化させるときにタイト（tight）である。換言すると、Ｉ（Ｓ；Ｘ）≠０を仮定して、

が得られる。

定理１は、ＹおよびＳの依存関係を２つの項に分離し、１つはＳおよびＸを関係付け、１つはＸおよびＹを関係付ける。したがって、ＸおよびＹを関係付ける項を最小化することによって、Ｐ_S,Xを知らなくても、情報漏出に上限境界を付けることができる。我々の問題におけるこの結果の適用は、以下のようになる。

我々が、Ｐ_S,Xが既知でなく、あるΔ∈［０，Ｈ（Ｓ）］についてＩ（Ｓ；Ｘ）≦Δである状況にあると仮定する。Ｉ（Ｓ；Ｘ）は、我々が制御を有しないＳに関するＸに埋め込まれた固有情報である。Δの値は、我々が求める写像に影響しないが、Δの値は、この写像からもたらされる（漏出係数の観点で）プライバシー保証であると我々が考えるものに影響する。Δ境界がタイトである場合、プライバシー保証がタイトとなる。Δ境界がタイトでない場合、我々は、目的の漏出係数に実際に必要であるよりも大きい歪みを受けることがあるが、これは、プライバシー保証に影響しない。

定理１を使用すると、

が得られる。

したがって、最適化問題は、以下の目的関数を最小化するＰ_Y|Xを求めることとなる：

この最適化問題をより詳細に検討するために、我々は、最大相関文献のいくつかの結果を吟味する。最大相関（またはＲｅｎｙｉ相関）は、情報理論とコンピュータサイエンスの両方で用途を有する２つの確率変数の間の相関の測度である。以下では、我々は、最大相関を定義し、そのＳ^*（Ｘ；Ｙ）との関係を提供する。

定義４．２つの確率変数ＸおよびＹが与えられたとして、（Ｘ，Ｙ）の最大相関は、

となり、式中、τは、

かつ

となるような、実数値の確率変数ｆ（ｘ）およびｇ（ｙ）の対の集合である。

この測度は、最初にＨｉｒｓｃｈｆｅｌｄ（Ｈ．Ｏ．Ｈｉｒｓｃｈｆｅｌｄ，”Ａｃｏｎｎｅｃｔｉｏｎｂｅｔｗｅｅｎｃｏｒｒｅｌａｔｉｏｎａｎｄｃｏｎｔｉｎｇｅｎｃｙ，” ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣａｍｂｒｉｄｇｅＰｈｉｌｏｓｏｐｈｉｃａｌＳｏｃｉｅｔｙ，ｖｏｌ．３１）およびＧｅｂｅｌｅｉｎ（Ｈ．Ｇｅｂｅｌｅｉｎ，”ＤａｓｓｔａｔｉｓｔｉｓｃｈｅＰｒｏｂｌｅｍｄｅｒＫｏｒｒｅｌａｔｉｏｎａｌｓＶａｒｉａｔｉｏｎｓ− ｕｎｄＥｉｇｅｎｗｅｒｔ−ｐｒｏｂｌｅｍｕｎｄｓｅｉｎＺｕｓａｍｍｅｎｈａｎｇｍｉｔｄｅｒＡｕｓｇｌｅｉｃｈｕｎｇｓｒｅｃｈｎｕｎｇ，” Ｚｅｉｔｓｃｈｒｉｆｔｆｕｒａｎｇｅｗ．Ｍａｔｈ．ｕｎｄＭｅｃｈ．２１，ｐｐ．３６４−３７９（１９４１））によって導入され、次いで、Ｒｅｎｙｉ（Ａ．Ｒｅｎｙｉ，”Ｏｎｍｅａｓｕｒｅｓｏｆｄｅｐｅｎｄｅｎｃｅ，” ＡｃｔａＭａｔｈｅｍａｔｉｃａＨｕｎｇａｒｉｃａ，ｖｏｌ．１０，Ｎｏ．３）によって研究された。最近、ＡｎａｎｔｈａｒａｍらおよびＫａｍａｔｈら（Ｓ．ＫａｍａｔｈａｎｄＶ．Ａｎａｎｔｈａｒａｍ，”Ｎｏｎ−ｉｎｔｅｒａｃｔｉｖｅｓｉｍｕｌａｔｉｏｎｏｆｊｏｉｎｔｄｉｓｔｒｉｂｕｔｉｏｎｓ：Ｔｈｅｈｉｒｓｃｈｆｅｌｄ−ｇｅｂｅｌｅｉｎ−ｒｅｎｙｉｍａｘｉｍａｌｃｏｒｒｅｌａｔｉｏｎａｎｄｔｈｅｈｙｐｅｒｃｏｎｔｒａｃｔｉｖｉｔｙｒｉｂｂｏｎ，” ｉｎＣｏｍｍｕｎｉｃａｔｉｏｎ，Ｃｏｎｔｒｏｌ，ａｎｄＣｏｍｐｕｔｉｎｇ（Ａｌｌｅｒｔｏｎ），２０１２５０ｔｈＡｎｎｕａｌＡｌｌｅｒｔｏｎＣｏｎｆｅｒｅｎｃｅｏｎ（以下、「Ｋａｍａｔｈ」））が、最大相関を研究し、この量の幾何学的解釈を提供した。以下は、Ｒ．ＡｈｌｓｗｅｄｅａｎｄＰ．Ｇａｃｓによる記事、”Ｓｐｒｅａｄｉｎｇｏｆｓｅｔｓｉｎｐｒｏｄｕｃｔｓｐａｃｅｓａｎｄｈｙｐｅｒｃｏｎｔｒａｃｔｉｏｎｏｆｔｈｅｍａｒｋｏｖｏｐｅｒａｔｏｒ，” ＴｈｅＡｎｎａｌｓｏｆＰｒｏｂａｂｉｌｉｔｙ（以下、Ａｈｌｓｗｅｄｅ）の結果である：

（８）に（１０）を代入すると、プライバシー保護写像は、

の解である。

エントリ

を有するマトリックスＱの２番目に大きい特異値によって最大相関ρ_m（Ｘ；Ｙ）が特徴付けられることが、Ｈ．Ｓ．Ｗｉｔｓｅｎｈａｕｓｅｎの記事、”Ｏｎｓｅｑｕｅｎｃｅｓｏｆｐａｉｒｓｏｆｄｅｐｅｎｄｅｎｔｒａｎｄｏｍｖａｒｉａｂｌｅｓ，” ＳＩＡＭＪｏｕｒｎａｌｏｎＡｐｐｌｉｅｄＭａｔｈｅｍａｔｉｃｓ，ｖｏｌ．２８，ｎｏ．１に示されている。最適化問題は、マトリックスの特異値を求めるためのべき乗法アルゴリズムまたはランチョスアルゴリズムによって解くことができる。

上記では、我々は、定理１における可分結果を使用してプライバシー保護写像がどのように設計され得るかを論じている。上記に論じられた方法は、１または複数の分析者に対する複数のデータの公開が行われるときに生じるプライバシー保護写像機構の設計における新しい課題に対処するために使用され得る技法のうちのいくつかである。本出願では、我々は、結託または合成を考慮したプライバシー写像機構を提供する。

以下では、我々は、結託および合成に照らして課題を定義する。

結託：プライベートデータＳは、２つのパブリックデータＸ₁およびＸ₂と相関付けられる。２つのプライバシー保護写像がこれらのパブリックデータ上に適用されて、２つの公開されるデータＹ₁およびＹ₂がそれぞれ得られ、次いで、それらは２つの分析者に公開される。我々は、分析者がＹ₁およびＹ₂を共有するとき、Ｓにおける累積的プライバシー保証を分析することを望む。本出願では、我々は、Ｙ₁およびＹ₂を共有する分析者を結託エンティティとも呼ぶ。

我々は、２つのプライバシー保護写像が分散化された様式で設計される場合に焦点を当てる。すなわち、各プライバシー保護写像は、公開されるデータのそれぞれからのＳの推論に対して別個に保護するように設計される。分散化は、多くの変数を有する１つの大きな最適化（結合設計）を、より少ない変数を有するいくつかのより小さい最適化に分解することによって、設計を単純にする。

合成：プライベートデータＳは、同時確率分布Ｐ（Ｓ；Ｘ₁；Ｘ₂）を介してパブリックデータＸ₁およびＸ₂と相関付けられる。我々は、別個に２つのプライバシー保護写像を設計することができ、一方の写像はＸ₁をＹ₁に変換し、他方の写像はＸ₂をＹ₂に変換することを仮定する。分析者は、対（Ｘ₁，Ｘ₂）を要求する。我々は、これら２つの別個のプライバシー写像を再使用して、やはりあるレベルのプライバシーを保証する、対（Ｘ₁，Ｘ₂）に対するプライバシー保護写像を生成することを望む。

図１は、以下の結託および合成の例を提供する。
−例１：単一のプライベートデータおよび複数のパブリックデータが考慮されるときの結託
−例２：複数のプライベートデータおよび複数のパブリックデータが考慮されるときの結託
−例３：単一のプライベートデータおよび複数のパブリックデータが考慮されるときの合成
−例４：複数のプライベートデータおよび複数のパブリックデータが考慮されるときの合成

例１では、プライベートデータＳが、２つのパブリックデータＸ₁およびＸ₂と相関付けられる。この例では、我々は、政治的意見をプライベートデータＳ、ＴＶ評価をパブリックデータＸ₁、スナック評価をパブリックデータＸ₂とみなす。２つのプライバシー保護写像がこれらのパブリックデータ上に適用されて、２つのエンティティに提供される２つの公開されるデータＹ₁およびＹ₂がそれぞれ得られる。たとえば、歪められたＴＶ評価（Ｙ₁）がネットフリックス（Netflix）に提供され、歪められたスナック評価（Ｙ₂）がクラフトフーズ（Kraft Foods）に提供される。プライバシー保護写像は、分散化された様式で設計される。プライバシー保護写像方式のそれぞれは、Ｓを対応する分析者から保護するように設計される。ネットフリックスが情報（Ｙ₁）をクラフト（Ｙ₂）と交換する場合、ユーザのプライベートデータ（Ｓ）は、それらがＹ₁またはＹ₂のみに依存する場合よりも精度良く回復され得る。我々は、分析者がＹ₁およびＹ₂を共有するときにプライバシー保証を分析することを望む。この例では、ネットフリックスは、ＴＶ評価に関する情報の正当な受信者であるが、スナック評価についてはそうでなく、クラフトフーズは、スナック評価に関する情報の正当な受信者であるが、ＴＶ評価についてはそうでない。しかしながら、それらは、ユーザのプライベートデータに関してより多く推論するために情報を共有し得る。

例２では、プライベートデータＳ₁がパブリックデータＸ₁と相関付けられ、プライベートデータＳ₂がパブリックデータＸ₂と相関付けられる。この例では、我々は、所得をプライベートデータＳ₁、性別をプライベートデータＳ₂、ＴＶ評価をパブリックデータＸ₁、スナック評価をパブリックデータＸ₂とみなす。２つのプライバシー保護写像がこれらのパブリックデータ上に適用されて、２つの分析者に提供される２つの公開されるデータＹ₁およびＹ₂がそれぞれ得られる。

例３では、プライベートデータＳが、同時確率分布

を介してパブリックデータＸ₁およびＸ₂と相関付けられる。この例では、我々は、政治的意見をプライベートデータＳ、Ｆｏｘニュースに関するＴＶ評価をパブリックデータＸ₁、ＡＢＣニュースに関するＴＶ評価をパブリックデータＸ₂とみなす。分析者、たとえば、コムキャスト（Comcast）は、Ｘ₁とＸ₂の両方を要求する。やはり、プライバシー保護写像が別個に設計され、我々は、プライバシーエージェントがＳ₁およびＳ₂両方に関するその情報Ｙ₁およびＹ₂を組み合わせるときにプライバシー保証を分析したい。この例では、コムキャストは、ＦｏｘニュースおよびＡＢＣニュースの両方のＴＶ評価の正当な受信者である。

例４では、プライベートデータＳ₁およびＳ₂が、同時確率分布

を介してパブリックデータＸ₁およびＸ₂と相関付けられる。この例では、我々は、所得をプライベートデータＳ₁、性別をプライベートデータＳ₂、ＴＶ評価をパブリックデータＸ₁、スナック評価をパブリックデータＸ₂とみなす。

上述されたように、結託または合成があるときに複数の確率変数（たとえば、Ｘ₁およびＸ₂）が用いられる。しかしながら、プライバシー写像の解を提供する最適化問題の複雑さはベクトルのサイズＸに比例するため、大きいサイズＸ（複数の変数を有する大きいベクトル）の写像は、小さいサイズＸ（場合によっては１つの変数または小さいベクトル）の写像よりも設計するのが困難である。

一実施形態では、我々は、多数の変数を有する１つの大きな最適化をより少ない変数を有するいくつかのより小さい最適化に分解することによって、最適化問題の設計を単純にする。

結託と合成の両方の問題を以下の設定で捉えることができる。

プライベート確率変数ＳがＸ₁およびＸ₂と相関付けられると仮定する。Ｘ₁およびＸ₂の歪められたバージョンがそれぞれＹ₁およびＹ₂で示される。我々は、歪み制約が与えられたとして、２つの別個のプライバシー保護写像Ｐ（Ｙ₁｜Ｘ₁）およびＰ（Ｙ₂｜Ｘ₂）をＸ₁およびＸ₂に対して行ってＹ₁およびＹ₂をそれぞれ得る。個々の情報漏出は、Ｉ（Ｓ；Ｙ₁）およびＩ（Ｓ；Ｙ₂）である。結託エンティティによって、または合成を介したプライバシーエージェントによって、Ｙ₁およびＹ₂が対（Ｙ₁，Ｙ₂）として一緒に組み合わされると仮定する。

本原理では、我々は、複数の公開においてどのようにプライバシー保証が組み合わさるかの問題、すなわち、合成または結託を介して、複数の公開されるデータが組み合わされるときに、結果の累積的情報漏出を得る問題に対処する。プライバシー保証の組合せのルールは、プライベートデータのそれらによる推論を改善するために個々にそれらに公開されるデータを共有する結託エンティティの課題に対処するのに役立つ。組合せルールはまた、複数のデータのための結合設計を個々のデータのためのいくつかのより単純な設計問題に分解することを可能にすることによって、プライバシー保護写像機構の設計に役立つ。

プライバシー保護方式の組合せが、いくつかの既存の研究で研究されている。これらの研究の焦点は、結託または合成の存在下の差分プライバシーに当てられる。しかしながら、本原理は、情報理論的プライバシー測定基準のもとで結託または合成の存在下のプライバシーを考慮する。

以下では、我々は、まず、同じプライベートデータに公開が関係付けられた場合（たとえば、例１および例３）を論じ、次に、異なるが相関付けられたプライベートデータに公開が関係付けられた場合（たとえば、例２および例４）に分析を拡張する。

単一プライベートデータ、複数パブリックデータ
プライベート確率変数ＳがＸ₁およびＸ₂と相関付けられると仮定する。Ｘ₁およびＸ₂の歪められたバージョンがそれぞれＹ₁およびＹ₂で示される。我々は、２つの別個のプライバシー保護写像をＸ₁およびＸ₂に対して行ってＹ₁およびＹ₂をそれぞれ得る。所与の歪み制約と共に

および

が設計され、個々の情報漏出はそれぞれＩ（Ｓ；Ｙ₁）およびＩ（Ｓ；Ｙ₂）である。結託エンティティによって、または合成を介したプライバシーエージェントによって、２つの公開されるデータＹ₁およびＹ₂が対（Ｙ₁，Ｙ₂）として一緒に組み合わされると仮定する。我々は、情報のこの組合せのもとで、結果の累積的情報漏出Ｉ（Ｓ；Ｙ₁，Ｙ₂）を分析したい。

補助定理１．Ｙ₁、Ｙ₂、およびＳが任意の順序のマルコフ連鎖を形成すると仮定する。プライバシー保護写像がそれぞれＹ₁およびＹ₂によりＩ（Ｙ₁；Ｓ）およびＩ（Ｙ₂；Ｓ）ビットを漏出する場合、対Ｙ₁およびＹ₂により最大でＩ（Ｙ₁；Ｓ）＋Ｉ（Ｙ₂；Ｓ）ビットの情報が漏出される。換言すると、Ｉ（Ｙ₁，Ｙ₂；Ｓ）≦Ｉ（Ｙ₁；Ｓ）＋Ｉ（Ｙ₂；Ｓ）である。さらに、Ｓ→Ｙ₁→Ｙ₂である場合、Ｉ（Ｓ；Ｙ₁，Ｙ₂）≦Ｉ（Ｙ₁；Ｓ）である。Ｓ→Ｙ₂→Ｙ₁である場合、Ｉ（Ｓ；Ｙ₁，Ｙ₂）≦Ｉ（Ｙ₂；Ｓ）である。

証明：３つの確率変数がマルコフ連鎖Ａ→Ｂ→Ｃを形成する場合、我々は、Ｉ（Ａ；Ｂ）≧Ｉ（Ａ；Ｂ｜Ｃ）、Ｉ（Ｂ；Ｃ）≧Ｉ（Ｂ；Ｃ｜Ａ）、およびＩ（Ａ；Ｃ｜Ｂ）＝０を有することに留意されたい。証明は、この事実から得られる。□

補助定理１は、写像が設計されるときにＰ_S,Xに関するどのくらいの知識が入手可能であるかに関わらず適用される。補助定理１における境界は、Ｐ_S,Xが知られているときに成立する。また、定理１における可分結果に基づく方法を使用してプライバシー保護写像が設計される場合に成立する。

Ｙ₁とＹ₂を一緒に使用することがＳの完全な回復をもたらし得ることに留意されたい。たとえば、Ｓ、Ｙ₁、およびＹ₂を、

および

であるような３つの

確率変数とする。その場合、Ｉ（Ｙ₁；Ｓ）＝Ｉ（Ｙ₂；Ｓ）＝０が得られる一方、Ｉ（Ｙ₁，Ｙ₂；Ｓ）＝１ビットであり、Ｓは（Ｙ₁，Ｙ₂）から完全に回復可能である。別の例は、Ｙ₁＝Ｓ＋Ｎであり、ここでＮは何らかのノイズであり、Ｙ₂＝Ｓ−Ｎである場合である。我々は、Ｙ₁とＹ₂を足すことによりＳを完全に回復することができる。

図２は、本原理の実施形態による、結託または合成を考慮したプライバシーを保護するための例示的方法２００を示す。方法２００は、ステップ２０５から開始する。ステップ２１０で、それは、単一のプライベートデータＳならびにパブリックデータＸ₁およびＸ₂に基づいて統計情報を収集する。ステップ２２０で、それは、公開されるデータＹ₁およびＹ₂の結託または合成を考慮して、プライベートデータＳに対する累積的プライバシー保証を判断する。すなわち、それは、Ｉ（Ｓ；Ｙ₁，Ｙ₂）についての漏出係数εを判断する。

補助定理１に従って、プライバシー保護写像がパブリックデータＸ₁およびＸ₂について分散化された様式で設計される。ステップ２３０で、それは、Ｉ（Ｓ；Ｙ₁）についての漏出係数ε₁を与えられたとして、パブリックデータＸ₁についてのプライバシー保護写像

を決定する。同様に、ステップ２３５で、それは、Ｉ（Ｓ；Ｙ₂）についての漏出係数ε₂を与えられたとして、パブリックデータＸ₂についてのプライバシー保護写像

を決定する。

一実施形態では、我々は、ε＝ε₁＋ε₂、たとえば、ε₁＝ε₂＝ε／２を設定してよい。ステップ２３０および２３５で設計されたプライバシー保護写像によると、
Ｉ（Ｓ；Ｙ₁）≦ε₁Ｈ（Ｓ），Ｉ（Ｓ；Ｙ₂）≦ε₂Ｈ（Ｓ）
補助定理１を使用して、
Ｉ（Ｙ₁，Ｙ₂；Ｓ）≦Ｉ（Ｙ₁；Ｓ）＋Ｉ（Ｙ₂；Ｓ）≦ε₁Ｈ（Ｓ）＋ε₂Ｈ（Ｓ）≦εＨ（Ｓ）
が得られる。

ステップ２４０および２４５で、我々は、それぞれプライバシー保護写像

および

によってデータＸ₁およびＸ₂を歪める。ステップ２５０および２５５で、歪められたデータはそれぞれＹ₁およびＹ₂として公開される。

前述されたように、公開されるデータＹ₁（Ｙ₂ではない）の正当な受信者が、Ｙ₂に関する情報を、公開されるデータＹ₂（Ｙ₁ではない）の正当な受信者と交換するときに、結託が生じ得る。他方で、合成に関しては、両方の公開されるデータは、同じ受信者によって正当に受け取られ、また受信者が、両方の公開されるデータからの情報を組み合わせてユーザに関するより多くの情報を推論するときに、合成が生じる。

次に、我々は、最大相関に関する結果を使用して、対Ｙ₁およびＹ₂により漏出される情報の累積量の上限境界を付ける。

定理４．

および

が別個に設計され、すなわち、

であり、λ＝ｍａｘ｛Ｓ^*（Ｘ₁；Ｙ₁），Ｓ^*（Ｘ₂；Ｙ₂）｝とする。Ｉ（Ｙ₁；Ｙ₂）≧λＩ（Ｘ₁；Ｘ₂）である場合、
Ｉ（Ｓ；Ｙ₁，Ｙ₂）≦Ｉ（Ｓ；Ｘ₁，Ｘ₂）ｍａｘ｛Ｓ^*（Ｘ₁；Ｙ₁），Ｓ^*（Ｘ₂；Ｙ₂）｝（１９）
が得られる。

証明：定理を証明するために、我々は以下を与える。

命題４．

であり、λ＝ｍａｘ｛Ｓ^*（Ｘ₁；Ｙ₁），Ｓ^*（Ｘ₂；Ｙ₂）｝とする。Ｉ（Ｙ₁；Ｙ₂）≧λＩ（Ｘ₁；Ｘ₂）である場合、
Ｓ^*（Ｘ₁，Ｘ₂；Ｙ₁，Ｙ₂）≦ｍａｘ｛Ｓ^*（Ｘ₁；Ｙ₁），Ｓ^*（Ｘ₂；Ｙ₂）｝（２０）
が得られる。

さらに、Ｘ₁とＸ₂が独立している（または同等に（Ｘ₁，Ｙ₁）と（Ｘ₂，Ｙ₂）が独立している）場合、
Ｓ^*（Ｘ₁，Ｘ₂；Ｙ₁，Ｙ₂）＝ｍａｘ｛Ｓ^*（Ｘ₁；Ｙ₁），Ｓ^*（Ｘ₂；Ｙ₂）｝
が得られる。

まず、我々は、この命題を証明する。独立が成立する特定の場合はＡｎａｎｔｈａｒａｍで既に証明されており、一般的場合の証明は、Ｉ（Ｙ₁；Ｙ₂）≧λＩ（Ｘ₁；Ｘ₂）のみが、Ａｎａｎｔｈａｒａｍで述べられたように不等式（２０）を得るために必要とされる不等式であることに留意することによって（Ａｎａｎｔｈａｒａｍ，１０頁、パートＣ参照）、Ｓ^*（Ｘ；Ｙ）のテンソル化の証明の同じラインに従う。

定理４の証明に戻る。定理１を使用して、マルコフ連鎖Ｓ→（Ｘ₁，Ｘ₂）→（Ｙ₁，Ｙ₂）が得られるので、
Ｉ（Ｓ；Ｙ₁，Ｙ₂）≦Ｉ（Ｓ；Ｘ₁，Ｘ₂）Ｓ^*（Ｘ₁，Ｘ₂；Ｙ₁，Ｙ₂）
を得る。

ここで、命題４を使用して証明を終了する。□
したがって、両方の写像が小さい最大相関によって別個に設計される場合、我々は、やはり、対Ｙ₁およびＹ₂によって漏出される情報の蓄積量を境界付けることができる。
系１．上限境界（１９）の初項、すなわち、Ｉ（Ｘ₁，Ｘ₂；Ｓ）は、以下のように境界付けられ得る。

Ｘ₁、Ｘ₂、およびＳが任意の順序のマルコフ連鎖を形成する場合、Ｉ（Ｘ₁，Ｘ₂；Ｓ）≦Ｉ（Ｘ；Ｓ）＋Ｉ（Ｘ；Ｓ）である。さらに、Ｓ→Ｘ₁→Ｘ₂である場合、Ｉ（Ｓ；Ｘ₁，Ｘ₂）≦Ｉ（Ｘ₁；Ｓ）である。Ｓ→Ｘ₂→Ｘ₁である場合、Ｉ（Ｓ；Ｘ₁，Ｘ₂）≦Ｉ（Ｘ₂；Ｓ）である。

証明：証明は、補助定理１のそれと同様である。

Ｉ（Ｓ；Ｙ₁）、Ｉ（Ｓ；Ｙ₂）およびＩ（Ｓ；Ｙ₁，Ｙ₂）は、Ｈ（Ｓ）以下であることに留意されたい。

Ｓ^*（Ｘ₁；Ｙ₁）＜ε，Ｓ^*（Ｘ₂；Ｙ₂）＜ε
を選択した場合、
Ｉ（Ｓ；Ｙ₁，Ｙ₂）≦（Ｓ；Ｘ₁，Ｘ₂）ｍａｘ｛Ｓ^*（Ｘ₁；Ｙ₁），Ｓ^*（Ｘ₂；Ｙ₂）｝≦Ｈ（Ｓ）ｍａｘ｛Ｓ^*（Ｘ₁；Ｙ₁），Ｓ^*（Ｘ₂；Ｙ₂）｝＜εＨ（Ｓ）
が得られる。

図３は、本原理の実施形態による、結託または合成を考慮してプライバシーを保護するための例示的方法３００を示す。方法３００は、Ｓ^*（Ｘ₁；Ｙ₁）＜ε（３３０）およびＳ^*（Ｘ₂；Ｙ₂）＜ε（３３５）を除いて、方法２００と同様である。方法２００は、補助定理１で述べられたいくつかのマルコフ連鎖仮定のもとで作用するのに対し、方法３００は、より一般的に作用することに留意されたい。

複数のプライベートデータ、複数のパブリックデータ
我々は、それぞれＸ₁およびＸ₂と相関付けられる２つのプライベート確率変数Ｓ₁およびＳ₂を有すると仮定する。我々は、Ｘ₁およびＸ₂を歪めてＹ₁およびＹ₂をそれぞれ得る。分析者は、Ｙ₁およびＹ₂にアクセスし、（Ｓ₁，Ｓ₂）を発見することを望む。
定理５．

および

が別個に設計され、すなわち、

であり、λ＝ｍａｘ｛Ｓ^*（Ｘ₁；Ｙ₁），Ｓ^*（Ｘ₂；Ｙ₂）｝とする。Ｉ（Ｙ₁；Ｙ₂）≧λＩ（Ｘ₁；Ｘ₂）である場合、我々は、
Ｉ（Ｓ１，Ｓ２；Ｙ₁，Ｙ₂）≦Ｉ（Ｓ１，Ｓ２；Ｘ₁，Ｘ₂）ｍａｘ｛Ｓ^*（Ｘ₁；Ｙ₁），Ｓ^*（Ｘ₂；Ｙ₂）｝（２１）
を得る。

証明：定理４の証明と同様である。□
したがって、対Ｙ₁およびＹ₂の累積的情報漏出は、（２１）によって境界付けられる。特に、Ｘ₁とＸ₂が独立である場合、この境界が成立する。

図２では、我々は、結託または合成を考慮して、単一のプライベートデータおよび２つのパブリックデータを考慮に入れるプライバシー保護写像を決定する方法２００を論じる。２つのプライベートデータがある場合、方法２００は、いくつかの修正と共に適用され得る。具体的には、ステップ２１０で、我々は、Ｓ₁、Ｓ₂、Ｘ₁、およびＸ₂に基づいて統計情報を収集する。ステップ２３０で、我々は、Ｉ（Ｓ₁；Ｙ₁）についての漏出係数ε₁を与えられたとして、パブリックデータＸ₁についてのプライバシー保護写像

を設計する。ステップ２３５で、我々は、Ｉ（Ｓ₂；Ｙ₂）についての漏出係数ε₂を与えられたとして、パブリックデータＸ₂についてのプライバシー保護写像

を設計する。

同様に、図３では、我々は、結託または合成を考慮して、単一のプライベートデータおよび２つのパブリックデータを考慮に入れるプライバシー保護写像を決定する方法３００を論じる。２つのプライベートデータがある場合、方法３００は、いくつかの修正と共に適用され得る。具体的には、ステップ３１０で、我々は、Ｓ₁、Ｓ₂、Ｘ₁、およびＸ₂に基づいて統計情報を収集する。ステップ３３０で、我々は、Ｉ（Ｓ₁；Ｙ₁）についての漏出係数εを与えられたとして、パブリックデータＸ₁についてのプライバシー保護写像

を設計する。ステップ３３５で、我々は、Ｉ（Ｓ₂；Ｙ₂）についての漏出係数εを与えられたとして、パブリックデータＸ₂についてのプライバシー保護写像

を設計する。

上記では、我々は、２つのプライベートデータまたは２つのパブリックデータに関して論じている。本原理は、２つよりも多いプライベートまたはパブリックデータがあるときにも適用され得る。

プライバシーエージェントは、プライバシーサービスをユーザに提供するエンティティである。プライバシーエージェントは、以下の任意のものを行うことができる：
− ユーザから、どんなデータをユーザがプライベートであるとみなすか、どんなデータをユーザがパブリックであるとみなすか、およびユーザが求めるプライバシーのレベルを受け取る；
− プライバシー保護写像を計算する；
− ユーザのためのプライバシー保護写像を実装する（すなわち、写像によりユーザのデータを歪める）；および
− 歪められたデータを、たとえば、サービスプロバイダまたはデータ収集エージェンシに公開する。

本原理は、ユーザデータのプライバシーを保護するプライバシーエージェントにおいて使用され得る。図４は、プライバシーエージェントが使用され得る例示的システム４００のブロック図を示す。パブリックユーザ４１０は、彼らのプライベートデータ（Ｓ）および／またはパブリックデータ（Ｘ）を公開する。前述されたように、パブリックユーザは、パブリックデータをそのままで公開する、すなわちＹ＝Ｘである。パブリックユーザによって公開された情報は、プライバシーエージェントに有用な統計情報となる。

プライバシーエージェント４８０は、統計収集モジュール４２０、プライバシー保護写像判断モジュール４３０、およびプライバシー保護モジュール４４０を含む。統計収集モジュール４２０は、同時分布Ｐ_S,X、限界確率測度Ｐ_x、ならびに／またはパブリックデータの平均および共分散を収集するために使用され得る。統計収集モジュール４２０は、ｂｌｕｅｋａｉ．ｃｏｍなどのデータアグリゲータから統計値を受け取ってもよい。入手可能な統計情報に応じて、プライバシー保護写像判断モジュール４３０は、いくつかのプライバシー保護写像機構を設計する。プライバシー保護モジュール４４０は、条件付き確率によって、プライベートユーザ４６０のパブリックデータをそれが公開される前に歪める。パブリックデータが多次元であるとき、たとえば、ＸがＸ₁とＸ₂の両方を含むとき、プライバシー保護モジュールは、合成の観点から、Ｘ₁およびＸ₂に対する別個のプライバシー保護写像をそれぞれ設計することができる。結託があるとき、各結託エンティティは、システム４００を使用して別個のプライバシー保護写像を設計することができる。

プライバシーエージェントは、データ収集モジュールに収集され統計値を計算することを許可された、データ全体の知識なしに作用するための統計値のみを必要とすることに留意されたい。したがって、別の実施形態では、データ収集モジュールは、データを収集し次いで統計値を計算する独立したモジュールであってもよく、プライバシーエージェントの一部である必要はない。データ収集モジュールは、プライバシーエージェントと統計値を共有する。

プライバシーエージェントは、ユーザとユーザデータの受信者（たとえばサービスプロバイダ）との間に存在する。たとえば、プライバシーエージェントは、ユーザデバイス、たとえば、コンピュータまたはセットトップボックス（ＳＴＢ）に配置されてよい。別の例では、プライバシーエージェントは別個のエンティティであってよい。

プライバシーエージェントのすべてのモジュールは、１つのデバイスに配置されてもよく、または異なるデバイスにわたって分散されてもよく、たとえば、統計収集モジュール４２０は、統計値をモジュール４３０に単に公開するデータアグリゲータに配置されてもよく、プライバシー保護写像判断モジュール４３０は、「プライバシーサービスプロバイダ」に、またはモジュール４２０に接続されたユーザデバイス上のユーザ端に配置されてもよく、プライバシー保護モジュール４４０は、ユーザ間の媒介として働くプライバシーサービスプロバイダ、およびユーザがデータを公開したい先のサービスプロバイダ、またはユーザデバイス上のユーザ端に配置されてもよい。

プライベートユーザ４６０が受け取るサービスを公開されるデータに基づいて改善するために、プライバシーエージェントは、公開されるデータを、サービスプロバイダ、たとえば、コムキャストまたはネットフリックスに提供することができ、たとえば、推奨システムが、その公開された映画ランキングに基づいてユーザに映画の推奨を提供する。

図５では、我々は、システム内に複数のプライバシーエージェントがあることを示す。異なる変形形態では、プライバシーエージェントはプライバシーシステムが作用するための必要条件でないので、それはすべての場所にある必要がない。たとえば、プライバシーエージェントは、ユーザデバイスもしくはサービスプロバイダのみ、または両方にあってもよい。図５では、我々は、ネットフリックスとフェイスブック（Facebook）の両方に対して同じプライバシーエージェント「Ｃ」を示す。別の実施形態では、フェイスブックとネットフリックスにおけるプライバシーエージェントは、同じにすることができるが必ずしも同じでなくてよい。

本明細書に説明される実装形態は、たとえば、方法もしくはプロセス、装置、ソフトウェアプログラム、データストリーム、または信号において実装されてよい。単一形態の実装形態の文脈でのみ論じられた（たとえば、方法としてのみ論じられた）場合でも、論じられた特徴の実装形態は、他の形態（たとえば、装置またはプログラム）で実装されてもよい。装置は、たとえば、適切なハードウェア、ソフトウェア、およびファームウェアで実装されてよい。方法は、たとえばコンピュータ、マイクロプロセッサ、集積回路、またはプログラマブル論理デバイスを含む、一般に処理デバイスを指すたとえばプロセッサなどの、たとえば装置において実装されてよい。プロセッサはまた、エンドユーザ間の情報の通信を促進する、たとえば、コンピュータ、セルフォン、ポータブル／パーソナルディジタルアシスタント（「ＰＤＡ」）、および他のデバイスなどの、通信デバイスを含む。

本原理の「一実施形態」または「実施形態」または「一実装形態」または「実装形態」、およびそれらの他の変形形態への参照は、その実施形態に関連して説明される特定の特徴、構造、および特性などが本原理の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書を通して様々な箇所で出現する表現「一実施形態では」または「実施形態では」または「一実装形態では」または「実装形態では」、および任意の他の変形形態の出現は、必ずしもすべて同じ実施形態を参照するものではない。

加えて、本出願またはその特許請求の範囲は、様々な情報片を「決定すること」を参照することがある。情報を決定することは、たとえば、情報を推定すること、情報を計算すること、情報を予測すること、またはメモリから情報を取り出すことのうちの１または複数を含み得る。

さらに、本出願またはその特許請求の範囲は、様々な情報片に「アクセスすること」を参照することがある。情報にアクセスすることは、たとえば、情報を受け取ること、（たとえばメモリから）情報を取り出すこと、情報を記憶すること、情報を処理すること、情報を送信すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を決定すること、情報を予測すること、または情報を推定することのうちの１または複数を含み得る。

加えて、本出願またはその特許請求の範囲は、様々な情報片を「受け取る」ことを参照することがある。受け取ることは、「アクセスすること」と同様に広義の用語になるように意図されている。情報を受け取ることは、たとえば、情報にアクセスすること、または（たとえばメモリから）情報を取り出すことのうちの１または複数を含み得る。さらに、「受け取ること」は、通常は、何らかの形で、たとえば、情報を記憶すること、情報を処理すること、情報を送信すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を決定すること、情報を予測すること、または情報を推定することなどの動作の際に行われる。

当業者には明らかなように、実装形態は、たとえば、記憶または送信され得る情報を搬送するようにフォーマットされた様々な信号を生成し得る。情報は、たとえば、方法を実施するための命令、または説明された実装形態の１つによって生成されたデータを含み得る。たとえば、信号は、説明された実施形態のビットストリームを搬送するようにフォーマット化されてよい。そのような信号は、たとえば、電磁波として（たとえば、スペクトルの無線周波数部分を使用する）、またはベースバンド信号としてフォーマットされてよい。フォーマッティングは、たとえば、データストリームを符号化し、符号化されたデータストリームを用いて搬送波を変調することを含むことができる。信号が搬送する情報は、たとえば、アナログまたはディジタル情報であってよい。信号は、知られている様々な異なる有線またはワイヤレスリンクを介して送信されてよい。信号は、プロセッサ可読媒体に記憶されてよい。

Claims

ユーザに関するユーザデータを処理するための方法であって、
プライベートデータ、第１のパブリックデータ、および第２のパブリックデータを含む前記ユーザデータにアクセスするステップであって、前記第１のパブリックデータは、第１のカテゴリのデータに対応し、前記第２のパブリックデータは、第２のカテゴリのデータに対応する、前記ステップと、
前記プライベートデータと第１の公開されるデータおよび第２の公開されるデータとの間の第１の情報漏出境界を決定するステップ（２２０、３２０）と、
前記第１の境界に応じて、前記プライベートデータと前記第１の公開されるデータとの間の第２の情報漏出境界、および前記プライベートデータと前記第２の公開されるデータとの間の第３の情報漏出境界を決定するステップと、
前記第２の境界に応じて前記第１の公開されるデータに前記第１のカテゴリのデータを写像する第１のプライバシー保護写像、および前記第３の境界に応じて前記第２の公開されるデータに前記第２のカテゴリのデータを写像する第２のプライバシー保護写像を決定するステップ（２３０、２３５、３３０、３３５）と、
前記第１および第２の公開されるデータを形成するために、それぞれ、前記第１および第２のプライバシー保護写像に基づいて、前記ユーザに関する前記第１および第２のパブリックデータを修正するステップ（２４０、２４５、３４０、３４５）と、
前記修正された第１および第２のパブリックデータを、サービスプロバイダとデータ収集エージェンシとの少なくとも一方へ公開するステップ（２５０、２５５、３５０、３５５）と、
を含む、前記方法。
前記第２の境界及び前記第３の境界の組み合わせは、前記第１の境界に実質的に対応する、請求項１に記載の方法。
前記第２の境界及び前記第３の境界の各々は、前記第１の境界と実質的に等しい、請求項１に記載の方法。
前記公開するステップは、前記修正された第１のパブリックデータを第１の受信者に公開し、前記修正された第２のパブリックデータを第２の受信者に公開し、前記第１および第２の受信者は、前記修正された第１および第２のパブリックデータについての情報を交換するように構成される、請求項１に記載の方法。
前記公開するステップは、前記修正された第１および第２のパブリックデータを同一の受信者に公開する、請求項１に記載の方法。
結託又は合成がサービスプロバイダとデータ収集エージェンシとの少なくとも一方に生じたかを決定するステップをさらに含む、請求項１に記載の方法。
前記第１および第２のプライバシー保護写像を決定するステップは、最大相関技術に基づく、請求項１に記載の方法。
前記プライベートデータは、第１のプライベートデータおよび第２のプライベートデータを含み、前記第２の情報漏出境界を決定するステップは、前記第１のプライベートデータと前記第１のパブリックデータとの間の前記第２の境界、および前記第２のプライベートデータと前記第２のパブリックデータとの間の前記第３の境界を決定する、請求項１に記載の方法。
ユーザに関するユーザデータを処理するための装置であって、
プライベートデータ、第１のパブリックデータ、および第２のパブリックデータを含む前記ユーザデータにアクセスするように構成されたプロセッサであって、前記第１のパブリックデータは、第１のカテゴリのデータに対応し、前記第２のパブリックデータは、第２のカテゴリのデータに対応する、前記プロセッサと、
前記プライベートデータと第１の公開されるデータおよび第２の公開されるデータとの間の第１の情報漏出境界を決定し、
前記第１の境界に応じて、前記プライベートデータと前記第１の公開されるデータとの間の第２の情報漏出境界、および前記プライベートデータと前記第２の公開されるデータとの間の第３の情報漏出境界を決定し、
前記第２の境界に応じて前記第１の公開されるデータに前記第１のカテゴリのデータを写像する第１のプライバシー保護写像、および前記第３の境界に応じて前記第２の公開されるデータに前記第２のカテゴリのデータを写像する第２のプライバシー保護写像を決定する
ように構成されたプライバシー保護写像判断モジュール（４３０）と、
前記第１および第２の公開されるデータを形成するために、それぞれ、前記第１および第２のプライバシー保護写像に基づいて、前記ユーザに関する前記第１および第２のパブリックデータを修正し、
前記修正された第１および第２のパブリックデータを、サービスプロバイダとデータ収集エージェンシとの少なくとも一方へ公開する
ように構成されたプライバシー保護モジュール（４４０）と、
を含む、前記装置。
前記第２の境界及び前記第３の境界の組み合わせは、前記第１の境界に実質的に対応する、請求項９に記載の装置。
前記第２の境界及び前記第３の境界の各々は、前記第１の境界と実質的に等しい、請求項９に記載の装置。
前記プライバシー保護モジュール（４４０）は、前記修正された第１のパブリックデータを第１の受信者に公開し、前記修正された第２のパブリックデータを第２の受信者に公開し、前記第１および第２の受信者は、前記修正された第１および第２のパブリックデータについての情報を交換するように構成される、請求項９に記載の装置。
前記プライバシー保護モジュール（４４０）は、前記修正された第１および第２の公開されるデータを同一の受信者に公開する、請求項９に記載の装置。
前記プライバシー保護写像判断モジュール（４３０）は、結託又は合成がサービスプロバイダとデータ収集エージェンシとの少なくとも一方に生じたかを決定するようにさらに構成される、請求項９に記載の装置。
前記プライバシー保護写像判断モジュール（４３０）は、最大相関技術に基づく前記第１および第２のプライバシー保護写像を決定する、請求項９に記載の装置。
前記プライベートデータは、第１のプライベートデータおよび第２のプライベートデータを含み、前記プライバシー保護写像判断モジュール（４３０）は、前記第１のプライベートデータと前記第１のパブリックデータとの間の前記第２の情報漏出境界、および前記第２のプライベートデータと前記第２のパブリックデータとの間の前記第３の情報漏出境界を決定する、請求項９に記載の装置。
請求項１から８のいずれかに記載の方法による、ユーザに関するユーザデータを処理するための命令を格納したコンピュータ可読記憶媒体。