JP2016511891A

JP2016511891A - 大規模データへの妨害攻撃に対するプライバシー

Info

Publication number: JP2016511891A
Application number: JP2015557000A
Authority: JP
Inventors: ファワーズナディア; サラマティアンサルマン; デュパンカルモンフラビオ; サンディルヤバミディパティスブラマニヤ; カルヴァーリョオリヴェイラペドロ; アンタフトニーナ; クベトンブラニスラヴ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-02-08
Filing date: 2014-02-04
Publication date: 2016-04-21
Also published as: CN106134142A; CN105474599A; KR20150115778A; US20160006700A1; WO2014124175A1; US20150379275A1; EP2954660A1; KR20150115772A; WO2014123893A1; JP2016508006A; EP2954658A1

Abstract

ユーザが、自身の個人データと相関する、自身についてのいくつかのデータを公に開示することを所望するときに、個人データを保護する方法である。特に、その方法および装置は、同様の属性を有する結合された公開データに対応して、複数の公開データを結合して、複数のデータクラスタにすることを教示する。そして、生成されたクラスタは処理されて個人データを予測し、この予測は、ある確率を有する。その確率が予め定められた閾値を超過したことに応答して、公開データの少なくとも１つは、変更され、または削除される。

Description

本発明は、概して、プライバシー保護のための方法および装置に関し、より詳細には、ユーザによって生成された大量の公開データポイントを考慮したプライバシー保護マッピングメカニズムを生成するための方法および装置に関する。

関連出願
本願は、米国特許商標庁に２０１３年２月８日に出願され、出願番号６１／７６２４８０が付与された仮出願から生じる優先権および全ての利益を主張するものである。

ビッグデータの時代において、ユーザデータの収集およびマイニングは、急速に成長し、多くの民間機関および公的機関における常識となった。例えば、テクノロジー会社は、ユーザデータを利用して、自社の顧客に個人的なサービスを提供し、政府機関は、データを頼りにして、様々な問題、例えば、国家安全保証、国民の健康、予算、および資金割り当て、に取り組み、医療機関は、データを分析して、原因および病気への潜在的治療法を発見する。場合によっては、ユーザの承諾または認識なしに、第三者とのユーザデータの収集、分析、または共有が実行される。他の場合には、見返りとして、例えば、お勧めを受けるためにリリースされる製品の評価などのサービスを受けるために、データが、ユーザによって自発的に特定の分析者に公開される。このサービス、またはユーザのデータへのアクセスを許可することからユーザが得る他の利益は、有用であると言われる場合がある。いずれの場合においても、収集されたデータのいくつか、例えば、政治的意見、健康状態、収入レベルは、ユーザにとってデリケートなものであると認識される場合があり、または、例えば、製品の評価は、一見、無害であると認識されるかもしれないが、これと相関するよりデリケートなデータの推論へ結びつくため、プライバシーに関わるリスクが発生する。後者の脅威は推論攻撃と言われ、公に開示されたデータとの相関を利用することによって個人データを推論する技術である。

近年、オンラインプライバシーの悪用についての多くの危険性が表面化しており、これには、個人情報の盗難、評判の損失、仕事の損失、差別、嫌がらせ、いじめ、ストーキング、さらに、自殺さえも含まれる。同時期において、不法なデータ収集を主張する、ユーザの同意なしにデータを共有する、ユーザへの通知なしにプライバシー設定を変更する、ユーザのブラウジング行動を追跡することについてユーザを誤解させる、ユーザの削除行為が実行されない、並びに、ユーザのデータが何について使用されるのかについて、および誰にそのデータにアクセスさせるのかについて、ユーザに適切に通知しない、というオンラインソーシャルネットワーク（ＯＳＮ）プロバイダに対する非難は、ありふれたものとなってきた。ＯＳＮに関する負債は、潜在的には、数億ドルになるかもしれない。

インターネットでのプライバシーの管理についての主要な問題の一つは、公開データと個人データの両方の同時管理にある。多くのユーザは、自身の映画視聴履歴または自身の性別のような、自身に関するいくつかのデータを公開しようとする。そのようなデータは有用なサービスを可能にするし、そのような属性は、個人的なものであるとはほとんど考えられないため、ユーザはそのようにするのである。しかしながら、ユーザは、収入レベル、政治的所属、または健康状態のような、個人的なものであると認識する他のデータも持っている。この出願において、我々は、ユーザが自身の公開データを公開することができるが、公開情報からユーザの個人データを知りうる推論攻撃から防御することが可能な方法に焦点を当てている。我々の解決方法は、プライバシー保護マッピングから成り、プライバシー保護マッピングは、ユーザに、自身の公開データを公開する前に、どのようにして公開データを歪ませるかを通知し、推論攻撃がユーザの個人データを成功裡に知ることができないようにする。同時に、その歪みは限定的なものであり、（お勧めのような）オリジナルのサービスが有用であり続けられるようにする。

映画の好み、またはショッピングの習慣のような、公然と公開されたデータの分析の利益が得られることは、ユーザにとって望ましいことである。しかしながら、もし第三者が、この公開データを分析して、政治的所属や収入レベルのような個人データを推論することができるならば、好ましくない。公開情報のいくつかを公開して利益を得ることができるが、個人情報を推論する第三者の能力を制御できることは、ユーザまたはサービスにとって好ましいであろう。この制御メカニズムの難しい側面は、非常に大量の公開データが、しばしば、ユーザによって公開されるが、個人データが公開されるのを避けるために、このデータの全てをコンピュータで分析することは禁止されているということである。よって、上記の困難を克服し、ユーザに、個人データが安全である体験をさせることが好ましい。

本発明の一態様によれば、装置が開示される。例示の実施形態によれば、上記装置は、複数のユーザデータを記憶するメモリであって、上記ユーザデータは、複数の公開データを含む、メモリと、上記複数のユーザデータを、複数のデータクラスタにグループ化するプロセッサであって、上記複数のデータクラスタのそれぞれは、上記ユーザデータのうちの少なくとも２つから成り、上記プロセッサはさらに、上記複数のデータクラスタの分析に応じて、統計値を決定するように動作し、上記統計値は、個人データのインスタンスの確率を表し、上記プロセッサはさらに、上記ユーザデータのうちの少なくとも１つを変更して、複数の変更済みユーザデータを生成するように動作する、プロセッサと、上記複数の変更済みユーザデータを送信する送信機と、を備える。

本発明の他の態様によれば、個人データを保護する方法が開示される。例示の実施形態によれば、上記方法は、上記ユーザデータにアクセスするステップであって、上記ユーザデータは、複数の公開データを含む、ステップと、上記ユーザデータを、複数のクラスタにクラスタ化するステップと、上記データのクラスタを処理して個人データを推論するステップであって、上記処理は、上記個人データの確率を決定する、ステップと、を含む。

本発明の他の態様によれば、個人データを保護する第２の方法が開示される。例示の実施形態によれば、上記方法は、複数の公開データをコンパイルするステップであって、前記複数の公開データのそれぞれは、複数の特徴から成る、ステップと、複数のデータクラスタを生成するステップであって、前記データクラスタは、前記複数の公開データのうちの少なくとも２つから成り、前記複数の公開データのうちの前記少なくとも２つは、それぞれ、前記複数の特徴のうちの少なくとも１つを有する、ステップと、前記複数のデータクラスタを処理して個人データの確率を決定するステップと、前記確率が予め定められた値を超過することに応じて、前記複数の公開データのうちの少なくとも１つを変更して、変更済み公開データを生成するステップと、を含む。

添付図面と併せて以下の本発明の実施形態の記載を参照することで、上述された点、並びに、本発明の他の特徴および利点、並びにそれらを達成する方法がより明らかとなり、本発明は、より理解されるであろう。
本原理の実施形態に係るプライバシーを保護する例示の方法を図示するフロー図である。個人データと公開データとの間における結合分布が分かるときの、本原理の実施形態に係るプライバシーを保護する例示の方法を図示するフロー図である。個人データと公開データとの間における結合分布が分からず、公開データの周辺確率測定値も分からないときの、本原理の実施形態に係るプライバシーを保護する例示の方法を図示するフロー図である。個人データと公開データとの間における結合分布は分からないが、公開データの周辺確率測定値は分かるときの、本原理の実施形態に係るプライバシーを保護する例示の方法を図示するフロー図である。本原理の実施形態に係る例示のプライバシーエージェントを図示するブロック図である。本原理の実施形態に係る、複数のプライバシーエージェントを有する例示のシステムを図示するブロック図である。本原理の実施形態に係るプライバシーを保護する例示の方法を図示するフロー図である。本原理の実施形態に係るプライバシーを保護する第２の例示の方法を図示するフロー図である。

本明細書に記載された適例は、本発明の好ましい実施形態を示しており、そのような適例は、いかなる方法によっても本発明の範囲を制限するように解釈されるべきではない。

図面、特に図１を参照すると、本発明を実施するための例示の方法１００の図が示されている。

図１は、本原理に係る、プライバシーを保護するために、公開しようとする公開データを歪ませるための例示の方法１００を示す。方法１００は、１０５において開始する。ステップ１１０において、例えば、自身の公開データまたは個人データのプライバシーについて懸念を持っていないユーザからの公開されたデータに基づいて、統計情報を収集する。これらのユーザを“パブリックユーザ（public users）”といい、公開しようとする公開データを歪ませることを所望するユーザを“プライベートユーザ（private users）”という。

統計値は、ウェブ上をクローリングし、異なるデータベースにアクセスすることによって収集されうるか、またはデータアグリゲータによって提供されうる。いずれの統計情報を集められるか、ということは、パブリックユーザが公開するものに依存する。例えば、パブリックユーザが個人データおよび公開データの両方を公開する場合、結合分布P_S,Xの推定値が取得されうる。他の例では、パブリックユーザが公開データのみを公開する場合、周辺確率測定値P_Xの推定値が取得されうるが、結合分布P_S,Xは取得されない。他の例では、公開データの意味および違いを捉えることのみが可能である。最悪の場合、公開データまたは個人データについて情報を全く得られない場合がある。

ステップ１２０において、本方法は、利用制約が与えられる統計情報に基づいてプライバシー保護マッピングを決定する。前述されたように、プライバシー保護マッピングメカニズムの解決方法は、利用可能な統計情報に依存する。

ステップ１３０において、例えば、現在のプライベートユーザの公開データは、ステップ１４０においてサービスプロバイダまたはデータ収集エージェントに公開される前に、決定されたプライバシー保護マッピングに従って歪ませられる。プライベートユーザに対して値X=xが与えられ、値Y=yは、分布P_Y|X=xに従ってサンプリングされる。真（true）xの代わりに、この値yが公開される。公開されたyを生成するためのプライバシーマッピングの使用は、プライベートユーザの公開データの値S=sを知ることを必要としないことに注意されたい。方法１００は、ステップ１９９において終了する。

図２〜４は、異なる統計情報が利用可能であるとき、プライバシーを保護するためのさらに詳細な例示の方法を示す。特に、図２は、結合分布P_S,Xが分かるときの例示の方法２００を示し、図３は、周辺確率測定値P_xが分かるが、結合分布P_S,Xが分からないときの例示の方法３００を示し、図４は、周辺確率測定値P_xも結合分布P_S,Xも分からないときの例示の方法４００を示す。方法２００、３００、および４００は、以下においてさらに詳細に論じられる。

方法２００は、２０５において開始する。ステップ２１０において、公開されたデータに基づいて、結合分布P_S,Xを推定する。ステップ２２０において、本方法は、最適化問題を定式化するために使用される。ステップ２３０において、ベースとされるプライバシー保護マッピングが、例えば、凸問題として、決定される。ステップ２４０において、ステップ２５０において公開される前に、決定されたプライバシー保護マッピングに従って、現在のユーザの公開データを歪ませる。方法２００は、ステップ２９９において終了する。

方法３００は、３０５において開始する。ステップ３１０において、最大相関を介して最適化問題が定式化される。ステップ３２０において、ベースとされるプライバシー保護マッピングが、例えば、べき乗法またはランチョス法を使用して決定される。ステップ３３０において、ステップ３４０において公開される前に、決定されたプライバシー保護マッピングに従って、現在のユーザの公開データを歪ませる。方法３００は、ステップ３９９において終了する。

方法４００は、４０５において開始する。ステップ４１０において、公開されたデータに基づいて、分布P_Xを推定する。ステップ４２０において、最大相関を介して最適化問題が定式化される。プライバシー保護マッピングが、例えば、べき乗法またはランチョス法を使用して決定される。ステップ４４０において、ステップ４５０において公開される前に、決定されたプライバシー保護マッピングに従って、現在のユーザの公開データを歪ませる。方法４００は、ステップ４９９において終了する。

プライバシーエージェントは、プライバシーサービスをユーザに提供するエンティティである。プライバシーエージェントは、以下のいずれかを実行しうる。
−ユーザがどのようなデータをプライベートであると考えるか、どのようなデータをパブリックであると考えるか、および所望するプライバシーのレベル、をユーザから受信する。
−プライバシー保護マッピングを計算する。
−そのユーザについてのプライバシー保護マッピングを実行する（すなわち、当該マッピングに従ってユーザのデータを歪ませる）。
−歪ませたデータを、例えば、サービスプロバイダまたはデータ収集エージェントに公開する。

本原理は、ユーザデータのプライバシーを保護するプライバシーエージェントにおいて使用されることができる。図５は、プライバシーエージェントが使用されうる例示のシステム５００のブロック図を図示する。パブリックユーザ５１０は、自身の個人データ（Ｓ）および／または公開データ（Ｘ）を公開する。前述したように、パブリックユーザは、公開データをそのまま、つまり、Ｙ＝Ａ、として公開しうる。パブリックユーザによって公開される情報は、プライバシーエージェントにとって有用な統計情報になる。

プライバシーエージェント５８０は、統計値収集モジュール５２０、プライバシー保護マッピング決定モジュール５３０、およびプライバシー保護モジュール５４０を含む。統計値収集モジュール５２０は、結合分布P_S,X、周辺確率測定値P_X、および／または、公開データの平均および共分散を収集するために使用されうる。統計値収集モジュール５２０は、bluekai.comのようなデータアグリゲータから統計値を受信するようになっていてもよい。利用可能な統計情報に依存して、プライバシー保護マッピング決定モジュール５３０は、プライバシー保護マッピングメカニズムP_Y|Xを設計する。プライバシー保護モジュール５４０は、条件付確率P_Y|Xに従って、プライベートユーザ５６０の公開データを、公開する前に、歪ませる。ある実施形態において、統計値収集モジュール５２０、プライバシー保護マッピング決定モジュール５３０、およびプライバシー保護モジュール５４０は、それぞれ、方法１００におけるステップ１１０、１２０、および１３０を実行するために使用されうる。

プライバシーエージェントは、統計値のみを必要とし、データ収集モジュール中で収集されたデータ全体についての知識無しで動作することに留意されたい。このように、他の実施形態においては、データ収集モジュールは、データを収集する独立したモジュールであってよく、そして、統計値を計算し、およびプライバシーエージェントの一部である必要はない。データ収集モジュールは、プライバシーエージェントと統計値を共有する。

プライバシーエージェントは、ユーザとユーザデータの受信者（例えば、サービスプロバイダ）との間に位置する。例えば、プライバシーエージェントは、ユーザデバイス、例えばコンピュータ、またはセットトップボックス（ＳＴＢ）に位置されうる。他の例においては、プライバシーエージェントは、別々のエンティティであってよい。

プライバシーエージェントの全てのモジュールは、１つのデバイスに位置されてもよいし、または異なるデバイス、例えば、統計値収集モジュール５２０に配置されてもよく、モジュール５３０、つまりプライバシー保護マッピング決定モジュール５３０に統計値を公開するだけのデータアグリゲータに位置されてもよいし、“プライバシーサービスプロバイダ”または、モジュール５２０に接続されたユーザデバイス上のユーザエンドに位置されてもよいし、およびプライバシー保護モジュール５４０は、ユーザと、ユーザがデータを公開したいサービスプロバイダとの間の中間者として動作するプライバシーサービスプロバイダに、またはユーザデバイス上のユーザエンドに位置されてもよい。

プライバシーエージェントは、公開されたデータに基づいて、受信されたサービスをプライベートユーザ５６０について改善するために、サービスプロバイダ、例えば、ComcastやNetflixに、公開されたデータを提供してもよく、たとえば、リコメンデーションシステムは、ユーザの公開された映画ランキングに基づいて、ユーザに映画のお勧めを提供する。

図６において、システム中に複数のプライバシーエージェントが存在することを示す。異なる変形形態において、至る所にプライバシーエージェントが存在する必要はなく、なぜならば、プライバシーシステムにとって動作するための要件ではないからである。例えば、ユーザデバイスにおいて、もしくはサービスプロバイダにおいて、またはその両方において、プライバシーエージェントのみが存在しうる。図６において、ＮｅｔｆｌｉｘとＦａｃｅｂｏｏｋの両方について同一のプライバシーエージェント“Ｃ”を示す。他の実施形態において、ＮｅｔｆｌｉｘおよびＦａｃｅｂｏｏｋにおけるプライバシーエージェントは、必須ではないが、同一であってよい。

プライバシー保護マッピングを凸最適化の解決方法として捉えることは、プライベート属性ＡおよびデータＢと紐付いている事前分布 p_A、Bが分かり、アルゴリズムへの入力として供給されうる、という基本的仮説に依存する。実際には、正確な事前分布は分からなくてもよく、むしろ観察可能なサンプルデータのセット、例えば、プライバシーに対する懸念を持たず、ユーザの属性ＡおよびユーザのオリジナルデータＢの両方を公に開示するユーザのセットから推測されうる。プライベートでないユーザからのこのサンプルのセットに基づいて推定される事前分布は、自身のプライバシーについて懸念を持つ新しいユーザに適用されることになるプライバシー保護メカニズムを設計するために使用される。実際には、例えば、観察可能なサンプルが少数であるために、または観察可能なデータが不完全であるために、推定される事前分布と、正確な事前分布との間で、不整合が存在しうる。

ここで、図７に戻り、大規模データを考慮したプライバシー保護のための方法７００。ユーザデータの基礎となるアルファベットのサイズが非常に大きいとき、例えば、大量の利用可能な公開データアイテムのために、発生するスケーラビリティの問題。これを扱うために、問題の次元を制限する量子化のアプローチを示す。この制限に対処するために、本方法は、非常に少数のセットの変数を最適化することで、おおよそ問題に対処することを示す。本方法は、３つのステップが関係する。第１に、アルファベットＢを、代表的な例または代表的なクラスタであるＣに変える。第２に、プライバシー保護マッピングは、このクラスタを使用して生成される。最後に、ｂの代表的な例であるＣについて、学習されたマッピングに基づいて、入力されたアルファベットＢから＾Ｃへの全ての例ｂは。

まず、方法７００は、ステップ７０５において開始する。次に、全ての利用可能な公開データは、全ての利用可能なソースから収集されて、寄せ集められる（７１０）。そして、オリジナルのデータは、特徴付けられ（７１５）、限定された数の変数またはクラスタにクラスタ化されうる（７２０）。このデータは、プライバシーマッピングのために、統計的に同一であろうデータの特徴に基づいて、クラスタ化されうる。例えば、政治的所属を示しうる映画は、ともにクラスタ化されて、変数の数を減少させうる。分析は、各クラスタ上で実行されて、後のコンピュータ分析のために、重み値などを提供しうる。この量子化スキームの利点は、基礎となる特徴アルファベットのサイズが二次であるのを、クラスタの数が二次であるように、最適化された変数の数を減少させることと、このようにして、最適化を、観察可能なデータサンプルの数から独立したものとすることととによる、計算上の効率である。現実世界のいくつかの例によれば、これは、大きさのオーダーが次元単位で減少することにつながりうる。

そして、本方法は、どのように、クラスタによって定義される空間でデータを歪ませるかを決定するために用いられる。データは、１つまたは複数のクラスタの値を変更すること、または公開前にクラスタの値を消去することによって、歪ませることができる。プライバシー保護マッピング７２５は、歪み制限を条件としてプライバシー漏洩を最小にする凸ソルバ（convex solver）を使用して計算される。量子化によって導入されるさらなる歪みは、いずれも、サンプルデータポイントと、最も近いクラスタ中心との間の最大距離を有して線形的に増加しうる。

データを歪ませることは、個人データポイントが、特定の閾値確率を超えて推論されることができなくなるまで、繰り返し実行されうる。例えば、個人の政治的所属を７０％だけ確認することは、統計的には望ましくない場合がある。このように、クラスタポイントまたはデータポイントは、政治的所属を推論する能力が７０％未満の確実性となるまで、歪ませてもよい。これらのクラスタは、推論確率を決定するために、事前データと比較されてもよい。

そして、プライバシーマッピングに従って、公開データまたは保護データとして、データが公開される（７３０）。７００の方法は、７３５にて終了する。ユーザは、プライバシーマッピングの結果を通知されてもよく、プライバシーマッピングを使用するか、または歪み無しのデータを公開するか、の選択権を与えられてもよい。

ここで、図８に戻り、不整合な事前分布を考慮したプライバシーマッピングを決定する方法８００が示されている。第１の問題は、この方法が、事前分布と言われる、個人データと公開データとの間の結合確率分布を知ることに依存することである。しばしば、正確な事前分布は利用可能でなく、その代わりに、個人データおよび公開データのサンプルの制限されたセットのみが観察可能な場合がある。これは、不整合な事前分布の問題につながる。この方法は、この問題に対応するものであり、不整合な事前分布に直面しても、歪みを提供してプライバシーをもたらそうとする。我々の最初の貢献は、観察可能なデータサンプルのセットで開始する辺りに位置し、我々は、事前分布の改善された推定値を見出し、この推定値に基づいてプライバシー保護マッピングが得られる。我々は、この処理がプライバシーの所与のレベルを保証するために招く、任意のさらなる歪みに対するいくつかの限度を開発する。より正確には、我々の推定と事前分布との間がＬ１ノルム距離で個人情報の漏洩が対数線形的に増加すること、我々の推定と事前分布との間がＬ１ノルム距離で歪み率が線形的に増加すること、および、サンプルサイズが増加するにつれて、我々の推定と事前分布との間のＬ１ノルム距離が減少すること、を示す。

まず、８００の方法は、ステップ８０５において開始する。本方法は、最初に、個人データおよび公開データの両方を発行する非プライベートユーザのデータから事前分布を推定する。この情報は、公に利用可能なソースから入手することが可能であり、調査におけるユーザ入力などから生成することが可能である。このデータは、獲得されうるサンプルが十分でない場合や、間違った入力に起因する不完全なデータを提供するユーザが存在する場合に、不十分となることがある。大量のユーザデータが獲得される場合、この問題は、補填されうる。しかしながら、これらの欠点は、正確な事前分布と推定された事前分布との間の不整合につながりうる。このように、推定された事前分布は、複雑なソルバが適用されたとき、完全に信頼できる結果を提供しない可能性がある。

次に、公開データは、ユーザで収集される（８１５）。このデータは、ユーザデータを、推定された事前データと比較することで、量子化される（８２０）。そして、ユーザの個人データは、比較の結果および代表的な事前データの決定として推論される。そして、プライバシー保護マッピングが決定される（８２５）。このプライバシー保護マッピングに従ってデータを歪ませ、そして、公開データまたは保護データとして公に開示される（８３０）。本方法は、８３５で終了する。

本明細書にて説明したように、本発明は、公開データのプライバシー保護マッピングを可能にするための構成およびプロトコルを提供する。本発明は、好ましい形態として記載されているが、本開示の意図および範囲内においてさらに変更されうる。よって、本願は、その基本原理を用いた本発明のあらゆる変形形態、使用、または適用物をカバーすることが意図される。また、本願は、本発明の属する本技術分野における既知または慣行の範囲内から派生し、添付の請求の範囲の構成の範囲内に属する、本開示からのそれらのような発展形をカバーすることが意図される。

Claims

ユーザデータを処理する方法であって、
前記ユーザデータにアクセスするステップであって、前記ユーザデータは、複数の公開データを含む、ステップと、
前記ユーザデータを、複数のクラスタにクラスタ化するステップと、
前記データのクラスタを処理して個人データを推論するステップであって、前記処理は、前記個人データの確率を決定する、ステップと、
を含む、前記方法。
前記クラスタのうちの１つを変更して、変更済みクラスタを生成するステップであって、前記変更済みクラスタは、前記確率が低減するように変更される、ステップをさらに含む、請求項１に記載の方法。
ネットワークを介して前記変更済みクラスタを送信するステップをさらに含む、請求項２に記載の方法。
前記処理することは、前記複数のクラスタを、複数の保存済みクラスタと比較するステップを有する、請求項１に記載の方法。
前記比較するステップは、データの前記複数の保存済みクラスタと、前記複数のクラスタと、の結合分布を決定する、請求項４に記載の方法。
前記個人データの前記確率に応じて前記ユーザデータを変更して、変更済みユーザデータを生成するステップと、ネットワークを介して前記変更済みユーザデータを送信するステップと、を含む、請求項１に記載の方法。
前記クラスタ化は、前記複数の公開細目を削減することを、複数の代表的公開クラスタに関連付け、前記複数の代表的公開クラスタをプライバシーマッピングして、複数の変更済み代表的公開クラスタを生成する、請求項１に記載の方法。
ユーザに関するユーザデータを処理する装置であって、
複数のユーザデータを記憶するメモリであて、前記ユーザデータは、複数の公開データを含む、メモリと、
前記複数のユーザデータを、複数のデータクラスタにグループ化するプロセッサであって、前記複数のデータクラスタのそれぞれは、前記ユーザデータのうちの少なくとも２つから成り、前記プロセッサはさらに、前記複数のデータクラスタの分析に応じて、統計値を決定するように動作し、前記統計値は、個人データのインスタンスの確率を表し、前記プロセッサはさらに、前記ユーザデータのうちの少なくとも１つを変更して、複数の変更済みユーザデータを生成するように動作する、プロセッサと、
前記複数の変更済みユーザデータを送信する送信機と、
を備える、前記装置。
前記ユーザデータのうちの少なくとも１つを変更することは、前記個人データの前記インスタンスの前記確率を低減することになる、請求項８に記載の装置。
前記複数の変更済みユーザデータは、ネットワークを介して送信される、請求項８に記載の装置。
前記プロセッサはさらに、前記複数のデータクラスタを、複数の保存済みデータクラスタと比較するように動作する、請求項８に記載の装置。
前記プロセッサは、データの前記複数の保存済みクラスタと、前記複数のクラスタと、の結合分布を決定するように動作する、請求項１１に記載の措置。
前記プロセッサはさらに、予め定められた閾値よりも大きい値を有する、前記個人データの前記インスタンスの前記確率に対応して、第２の前記ユーザデータを変更するように動作する、請求項８に記載の装置。
前記グループ化することは、前記複数の公開細目を削減することを、複数の代表的公開クラスタに変えること、前記複数の代表的公開クラスタをプライバシーマッピングして、複数の変更済み代表的公開クラスタを生成することを含む、請求項８に記載の装置。
ユーザデータを処理する方法であって、
複数の公開データをコンパイルするステップであって、前記複数の公開データのそれぞれは、複数の特徴から成る、ステップと、
複数のデータクラスタを生成するステップであって、前記データクラスタは、前記複数の公開データのうちの少なくとも２つから成り、前記複数の公開データのうちの前記少なくとも２つは、それぞれ、前記複数の特徴のうちの少なくとも１つを有する、ステップと、
前記複数のデータクラスタを処理して個人データの確率を決定するステップと、
前記確率が予め定められた値を超過することに応じて、前記複数の公開データのうちの少なくとも１つを変更して、変更済み公開データを生成するステップと、
を含む、前記方法。
前記複数の公開データのうちの少なくとも１つを削除して変更済みクラスタを生成するステップであって、前記変更済みクラスタは、前記確率が低減されるように変更される、ステップをさらに含む、請求項１５に記載の方法。
前記変更済み公開データを、ネットワークを介して送信するステップをさらに含む、請求項１５に記載の方法。
前記公開データを前記送信することに応じて、お勧めを受信するステップをさらに含む、請求項１７に記載の方法。
前記処理することは、前記複数のクラスタを、複数の保存済みクラスタを比較するステップを有する、請求項１５に記載の方法。
前記比較するステップは、データの前記複数の保存済みクラスタと、前記複数のクラスタと、の結合分散を決定する、請求項１９に記載の方法。
前記生成するステップはさらに、
前記複数の公開データを、複数の代表的公開クラスタに変えるステップと、
前記複数の代表的公開クラスタをプライバシーマッピングして、複数の変更済み代表的公開クラスタを生成するステップと、
前記変更済み公開データを、ネットワークを介して送信するステップと、
を含む、請求項１５に記載の方法。
請求項１から７に従って、ユーザに関するユーザデータのプライバシーを改善する、記憶される命令を有するコンピュータ可読記憶媒体。