JP2016511891A - 大規模データへの妨害攻撃に対するプライバシー - Google Patents

大規模データへの妨害攻撃に対するプライバシー Download PDF

Info

Publication number
JP2016511891A
JP2016511891A JP2015557000A JP2015557000A JP2016511891A JP 2016511891 A JP2016511891 A JP 2016511891A JP 2015557000 A JP2015557000 A JP 2015557000A JP 2015557000 A JP2015557000 A JP 2015557000A JP 2016511891 A JP2016511891 A JP 2016511891A
Authority
JP
Japan
Prior art keywords
data
clusters
public
user
user data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015557000A
Other languages
English (en)
Inventor
ファワーズ ナディア
ファワーズ ナディア
サラマティアン サルマン
サラマティアン サルマン
デュ パン カルモン フラビオ
デュ パン カルモン フラビオ
サンディルヤ バミディパティ スブラマニヤ
サンディルヤ バミディパティ スブラマニヤ
カルヴァーリョ オリヴェイラ ペドロ
カルヴァーリョ オリヴェイラ ペドロ
アン タフト ニーナ
アン タフト ニーナ
クベトン ブラニスラヴ
クベトン ブラニスラヴ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2016511891A publication Critical patent/JP2016511891A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Storage Device Security (AREA)

Abstract

ユーザが、自身の個人データと相関する、自身についてのいくつかのデータを公に開示することを所望するときに、個人データを保護する方法である。特に、その方法および装置は、同様の属性を有する結合された公開データに対応して、複数の公開データを結合して、複数のデータクラスタにすることを教示する。そして、生成されたクラスタは処理されて個人データを予測し、この予測は、ある確率を有する。その確率が予め定められた閾値を超過したことに応答して、公開データの少なくとも1つは、変更され、または削除される。

Description

本発明は、概して、プライバシー保護のための方法および装置に関し、より 詳細には、ユーザによって生成された大量の公開データポイントを考慮したプライバシー保護マッピングメカニズムを生成するための方法および装置に関する。
関連出願
本願は、米国特許商標庁に2013年2月8日に出願され、出願番号61/762480が付与された仮出願から生じる優先権および全ての利益を主張するものである。
ビッグデータの時代において、ユーザデータの収集およびマイニングは、急速に成長し、多くの民間機関および公的機関における常識となった。例えば、テクノロジー会社は、ユーザデータを利用して、自社の顧客に個人的なサービスを提供し、政府機関は、データを頼りにして、様々な問題、例えば、国家安全保証、国民の健康、予算、および資金割り当て、に取り組み、医療機関は、データを分析して、原因および病気への潜在的治療法を発見する。場合によっては、ユーザの承諾または認識なしに、第三者とのユーザデータの収集、分析、または共有が実行される。他の場合には、見返りとして、例えば、お勧めを受けるためにリリースされる製品の評価などのサービスを受けるために、データが、ユーザによって自発的に特定の分析者に公開される。このサービス、またはユーザのデータへのアクセスを許可することからユーザが得る他の利益は、有用であると言われる場合がある。いずれの場合においても、収集されたデータのいくつか、例えば、政治的意見、健康状態、収入レベルは、ユーザにとってデリケートなものであると認識される場合があり、または、例えば、製品の評価は、一見、無害であると認識されるかもしれないが、これと相関するよりデリケートなデータの推論へ結びつくため、プライバシーに関わるリスクが発生する。後者の脅威は推論攻撃と言われ、公に開示されたデータとの相関を利用することによって個人データを推論する技術である。
近年、オンラインプライバシーの悪用についての多くの危険性が表面化しており、これには、個人情報の盗難、評判の損失、仕事の損失、差別、嫌がらせ、いじめ、ストーキング、さらに、自殺さえも含まれる。同時期において、不法なデータ収集を主張する、ユーザの同意なしにデータを共有する、ユーザへの通知なしにプライバシー設定を変更する、ユーザのブラウジング行動を追跡することについてユーザを誤解させる、ユーザの削除行為が実行されない、並びに、ユーザのデータが何について使用されるのかについて、および誰にそのデータにアクセスさせるのかについて、ユーザに適切に通知しない、というオンラインソーシャルネットワーク(OSN)プロバイダに対する非難は、ありふれたものとなってきた。OSNに関する負債は、潜在的には、数億ドルになるかもしれない。
インターネットでのプライバシーの管理についての主要な問題の一つは、公開データと個人データの両方の同時管理にある。多くのユーザは、自身の映画視聴履歴または自身の性別のような、自身に関するいくつかのデータを公開しようとする。そのようなデータは有用なサービスを可能にするし、そのような属性は、個人的なものであるとはほとんど考えられないため、ユーザはそのようにするのである。しかしながら、ユーザは、収入レベル、政治的所属、または健康状態のような、個人的なものであると認識する他のデータも持っている。この出願において、我々は、ユーザが自身の公開データを公開することができるが、公開情報からユーザの個人データを知りうる推論攻撃から防御することが可能な方法に焦点を当てている。我々の解決方法は、プライバシー保護マッピングから成り、プライバシー保護マッピングは、ユーザに、自身の公開データを公開する前に、どのようにして公開データを歪ませるかを通知し、推論攻撃がユーザの個人データを成功裡に知ることができないようにする。同時に、その歪みは限定的なものであり、(お勧めのような)オリジナルのサービスが有用であり続けられるようにする。
映画の好み、またはショッピングの習慣のような、公然と公開されたデータの分析の利益が得られることは、ユーザにとって望ましいことである。しかしながら、もし第三者が、この公開データを分析して、政治的所属や収入レベルのような個人データを推論することができるならば、好ましくない。公開情報のいくつかを公開して利益を得ることができるが、個人情報を推論する第三者の能力を制御できることは、ユーザまたはサービスにとって好ましいであろう。この制御メカニズムの難しい側面は、非常に大量の公開データが、しばしば、ユーザによって公開されるが、個人データが公開されるのを避けるために、このデータの全てをコンピュータで分析することは禁止されているということである。よって、上記の困難を克服し、ユーザに、個人データが安全である体験をさせることが好ましい。
本発明の一態様によれば、装置が開示される。例示の実施形態によれば、上記装置は、複数のユーザデータを記憶するメモリであって、上記ユーザデータは、複数の公開データを含む、メモリと、上記複数のユーザデータを、複数のデータクラスタにグループ化するプロセッサであって、上記複数のデータクラスタのそれぞれは、上記ユーザデータのうちの少なくとも2つから成り、上記プロセッサはさらに、上記複数のデータクラスタの分析に応じて、統計値を決定するように動作し、上記統計値は、個人データのインスタンスの確率を表し、上記プロセッサはさらに、上記ユーザデータのうちの少なくとも1つを変更して、複数の変更済みユーザデータを生成するように動作する、プロセッサと、上記複数の変更済みユーザデータを送信する送信機と、を備える。
本発明の他の態様によれば、個人データを保護する方法が開示される。例示の実施形態によれば、上記方法は、上記ユーザデータにアクセスするステップであって、上記ユーザデータは、複数の公開データを含む、ステップと、上記ユーザデータを、複数のクラスタにクラスタ化するステップと、上記データのクラスタを処理して個人データを推論するステップであって、上記処理は、上記個人データの確率を決定する、ステップと、を含む。
本発明の他の態様によれば、個人データを保護する第2の方法が開示される。例示の実施形態によれば、上記方法は、複数の公開データをコンパイルするステップであって、前記複数の公開データのそれぞれは、複数の特徴から成る、ステップと、複数のデータクラスタを生成するステップであって、前記データクラスタは、前記複数の公開データのうちの少なくとも2つから成り、前記複数の公開データのうちの前記少なくとも2つは、それぞれ、前記複数の特徴のうちの少なくとも1つを有する、ステップと、前記複数のデータクラスタを処理して個人データの確率を決定するステップと、前記確率が予め定められた値を超過することに応じて、前記複数の公開データのうちの少なくとも1つを変更して、変更済み公開データを生成するステップと、を含む。
添付図面と併せて以下の本発明の実施形態の記載を参照することで、上述された点、並びに、本発明の他の特徴および利点、並びにそれらを達成する方法がより明らかとなり、本発明は、より理解されるであろう。
本原理の実施形態に係るプライバシーを保護する例示の方法を図示するフロー図である。 個人データと公開データとの間における結合分布が分かるときの、本原理の実施形態に係るプライバシーを保護する例示の方法を図示するフロー図である。 個人データと公開データとの間における結合分布が分からず、公開データの周辺確率測定値も分からないときの、本原理の実施形態に係るプライバシーを保護する例示の方法を図示するフロー図である。 個人データと公開データとの間における結合分布は分からないが、公開データの周辺確率測定値は分かるときの、本原理の実施形態に係るプライバシーを保護する例示の方法を図示するフロー図である。 本原理の実施形態に係る例示のプライバシーエージェントを図示するブロック図である。 本原理の実施形態に係る、複数のプライバシーエージェントを有する例示のシステムを図示するブロック図である。 本原理の実施形態に係るプライバシーを保護する例示の方法を図示するフロー図である。 本原理の実施形態に係るプライバシーを保護する第2の例示の方法を図示するフロー図である。
本明細書に記載された適例は、本発明の好ましい実施形態を示しており、そのような適例は、いかなる方法によっても本発明の範囲を制限するように解釈されるべきではない。
図面、特に図1を参照すると、本発明を実施するための例示の方法100の図が示されている。
図1は、本原理に係る、プライバシーを保護するために、公開しようとする公開データを歪ませるための例示の方法100を示す。方法100は、105において開始する。ステップ110において、例えば、自身の公開データまたは個人データのプライバシーについて懸念を持っていないユーザからの公開されたデータに基づいて、統計情報を収集する。これらのユーザを“パブリックユーザ(public users)”といい、公開しようとする公開データを歪ませることを所望するユーザを“プライベートユーザ(private users)”という。
統計値は、ウェブ上をクローリングし、異なるデータベースにアクセスすることによって収集されうるか、またはデータアグリゲータによって提供されうる。いずれの統計情報を集められるか、ということは、パブリックユーザが公開するものに依存する。例えば、パブリックユーザが個人データおよび公開データの両方を公開する場合、結合分布PS,Xの推定値が取得されうる。他の例では、パブリックユーザが公開データのみを公開する場合、周辺確率測定値PXの推定値が取得されうるが、結合分布PS,Xは取得されない。他の例では、公開データの意味および違いを捉えることのみが可能である。最悪の場合、公開データまたは個人データについて情報を全く得られない場合がある。
ステップ120において、本方法は、利用制約が与えられる統計情報に基づいてプライバシー保護マッピングを決定する。前述されたように、プライバシー保護マッピングメカニズムの解決方法は、利用可能な統計情報に依存する。
ステップ130において、例えば、現在のプライベートユーザの公開データは、ステップ140においてサービスプロバイダまたはデータ収集エージェントに公開される前に、決定されたプライバシー保護マッピングに従って歪ませられる。プライベートユーザに対して値X=xが与えられ、値Y=yは、分布PY|X=xに従ってサンプリングされる。真(true)xの代わりに、この値yが公開される。公開されたyを生成するためのプライバシーマッピングの使用は、プライベートユーザの公開データの値S=sを知ることを必要としないことに注意されたい。方法100は、ステップ199において終了する。
図2〜4は、異なる統計情報が利用可能であるとき、プライバシーを保護するためのさらに詳細な例示の方法を示す。特に、図2は、結合分布PS,Xが分かるときの例示の方法200を示し、図3は、周辺確率測定値Pxが分かるが、結合分布PS,Xが分からないときの例示の方法300を示し、図4は、周辺確率測定値Pxも結合分布PS,Xも分からないときの例示の方法400を示す。方法200、300、および400は、以下においてさらに詳細に論じられる。
方法200は、205において開始する。ステップ210において、公開されたデータに基づいて、結合分布PS,Xを推定する。ステップ220において、本方法は、最適化問題を定式化するために使用される。ステップ230において、ベースとされるプライバシー保護マッピングが、例えば、凸問題として、決定される。ステップ240において、ステップ250において公開される前に、決定されたプライバシー保護マッピングに従って、現在のユーザの公開データを歪ませる。方法200は、ステップ299において終了する。
方法300は、305において開始する。ステップ310において、最大相関を介して最適化問題が定式化される。ステップ320において、ベースとされるプライバシー保護マッピングが、例えば、べき乗法またはランチョス法を使用して決定される。ステップ330において、ステップ340において公開される前に、決定されたプライバシー保護マッピングに従って、現在のユーザの公開データを歪ませる。方法300は、ステップ399において終了する。
方法400は、405において開始する。ステップ410において、公開されたデータに基づいて、分布PXを推定する。ステップ420において、最大相関を介して最適化問題が定式化される。プライバシー保護マッピングが、例えば、べき乗法またはランチョス法を使用して決定される。ステップ440において、ステップ450において公開される前に、決定されたプライバシー保護マッピングに従って、現在のユーザの公開データを歪ませる。方法400は、ステップ499において終了する。
プライバシーエージェントは、プライバシーサービスをユーザに提供するエンティティである。プライバシーエージェントは、以下のいずれかを実行しうる。
−ユーザがどのようなデータをプライベートであると考えるか、どのようなデータをパブリックであると考えるか、および所望するプライバシーのレベル、をユーザから受信する。
−プライバシー保護マッピングを計算する。
−そのユーザについてのプライバシー保護マッピングを実行する(すなわち、当該マッピングに従ってユーザのデータを歪ませる)。
−歪ませたデータを、例えば、サービスプロバイダまたはデータ収集エージェントに公開する。
本原理は、ユーザデータのプライバシーを保護するプライバシーエージェントにおいて使用されることができる。図5は、プライバシーエージェントが使用されうる例示のシステム500のブロック図を図示する。パブリックユーザ510は、自身の個人データ(S)および/または公開データ(X)を公開する。前述したように、パブリックユーザは、公開データをそのまま、つまり、Y=A、として公開しうる。パブリックユーザによって公開される情報は、プライバシーエージェントにとって有用な統計情報になる。
プライバシーエージェント580は、統計値収集モジュール520、プライバシー保護マッピング決定モジュール530、およびプライバシー保護モジュール540を含む。統計値収集モジュール520は、結合分布PS,X、周辺確率測定値PX、および/または、公開データの平均および共分散を収集するために使用されうる。統計値収集モジュール520は、bluekai.comのようなデータアグリゲータから統計値を受信するようになっていてもよい。利用可能な統計情報に依存して、プライバシー保護マッピング決定モジュール530は、プライバシー保護マッピングメカニズムPY|Xを設計する。プライバシー保護モジュール540は、条件付確率PY|Xに従って、プライベートユーザ560の公開データを、公開する前に、歪ませる。ある実施形態において、統計値収集モジュール520、プライバシー保護マッピング決定モジュール530、およびプライバシー保護モジュール540は、それぞれ、方法100におけるステップ110、120、および130を実行するために使用されうる。
プライバシーエージェントは、統計値のみを必要とし、データ収集モジュール中で収集されたデータ全体についての知識無しで動作することに留意されたい。このように、他の実施形態においては、データ収集モジュールは、データを収集する独立したモジュールであってよく、そして、統計値を計算し、およびプライバシーエージェントの一部である必要はない。データ収集モジュールは、プライバシーエージェントと統計値を共有する。
プライバシーエージェントは、ユーザとユーザデータの受信者(例えば、サービスプロバイダ)との間に位置する。例えば、プライバシーエージェントは、ユーザデバイス、例えばコンピュータ、またはセットトップボックス(STB)に位置されうる。他の例においては、プライバシーエージェントは、別々のエンティティであってよい。
プライバシーエージェントの全てのモジュールは、1つのデバイスに位置されてもよいし、または異なるデバイス、例えば、統計値収集モジュール520に配置されてもよく、モジュール530、つまりプライバシー保護マッピング決定モジュール530に統計値を公開するだけのデータアグリゲータに位置されてもよいし、“プライバシーサービスプロバイダ”または、モジュール520に接続されたユーザデバイス上のユーザエンドに位置されてもよいし、およびプライバシー保護モジュール540は、ユーザと、ユーザがデータを公開したいサービスプロバイダとの間の中間者として動作するプライバシーサービスプロバイダに、またはユーザデバイス上のユーザエンドに位置されてもよい。
プライバシーエージェントは、公開されたデータに基づいて、受信されたサービスをプライベートユーザ560について改善するために、サービスプロバイダ、例えば、ComcastやNetflixに、公開されたデータを提供してもよく、たとえば、リコメンデーションシステムは、ユーザの公開された映画ランキングに基づいて、ユーザに映画のお勧めを提供する。
図6において、システム中に複数のプライバシーエージェントが存在することを示す。異なる変形形態において、至る所にプライバシーエージェントが存在する必要はなく、なぜならば、プライバシーシステムにとって動作するための要件ではないからである。例えば、ユーザデバイスにおいて、もしくはサービスプロバイダにおいて、またはその両方において、プライバシーエージェントのみが存在しうる。図6において、NetflixとFacebookの両方について同一のプライバシーエージェント“C”を示す。他の実施形態において、NetflixおよびFacebookにおけるプライバシーエージェントは、必須ではないが、同一であってよい。
プライバシー保護マッピングを凸最適化の解決方法として捉えることは、プライベート属性AおよびデータBと紐付いている事前分布 pA、Bが分かり、アルゴリズムへの入力として供給されうる、という基本的仮説に依存する。実際には、正確な事前分布は分からなくてもよく、むしろ観察可能なサンプルデータのセット、例えば、プライバシーに対する懸念を持たず、ユーザの属性AおよびユーザのオリジナルデータBの両方を公に開示するユーザのセットから推測されうる。プライベートでないユーザからのこのサンプルのセットに基づいて推定される事前分布は、自身のプライバシーについて懸念を持つ新しいユーザに適用されることになるプライバシー保護メカニズムを設計するために使用される。実際には、例えば、観察可能なサンプルが少数であるために、または観察可能なデータが不完全であるために、推定される事前分布と、正確な事前分布との間で、不整合が存在しうる。
ここで、図7に戻り、大規模データを考慮したプライバシー保護のための方法700。ユーザデータの基礎となるアルファベットのサイズが非常に大きいとき、例えば、大量の利用可能な公開データアイテムのために、発生するスケーラビリティの問題。これを扱うために、問題の次元を制限する量子化のアプローチを示す。この制限に対処するために、本方法は、非常に少数のセットの変数を最適化することで、おおよそ問題に対処することを示す。本方法は、3つのステップが関係する。第1に、アルファベットBを、代表的な例または代表的なクラスタであるCに変える。第2に、プライバシー保護マッピングは、このクラスタを使用して生成される。最後に、bの代表的な例であるCについて、学習されたマッピングに基づいて、入力されたアルファベットBから^Cへの全ての例bは。
まず、方法700は、ステップ705において開始する。次に、全ての利用可能な公開データは、全ての利用可能なソースから収集されて、寄せ集められる(710)。そして、オリジナルのデータは、特徴付けられ(715)、限定された数の変数またはクラスタにクラスタ化されうる(720)。このデータは、プライバシーマッピングのために、統計的に同一であろうデータの特徴に基づいて、クラスタ化されうる。例えば、政治的所属を示しうる映画は、ともにクラスタ化されて、変数の数を減少させうる。分析は、各クラスタ上で実行されて、後のコンピュータ分析のために、重み値などを提供しうる。この量子化スキームの利点は、基礎となる特徴アルファベットのサイズが二次であるのを、クラスタの数が二次であるように、最適化された変数の数を減少させることと、このようにして、最適化を、観察可能なデータサンプルの数から独立したものとすることととによる、計算上の効率である。現実世界のいくつかの例によれば、これは、大きさのオーダーが次元単位で減少することにつながりうる。
そして、本方法は、どのように、クラスタによって定義される空間でデータを歪ませるかを決定するために用いられる。データは、1つまたは複数のクラスタの値を変更すること、または公開前にクラスタの値を消去することによって、歪ませることができる。プライバシー保護マッピング725は、歪み制限を条件としてプライバシー漏洩を最小にする凸ソルバ(convex solver)を使用して計算される。量子化によって導入されるさらなる歪みは、いずれも、サンプルデータポイントと、最も近いクラスタ中心との間の最大距離を有して線形的に増加しうる。
データを歪ませることは、個人データポイントが、特定の閾値確率を超えて推論されることができなくなるまで、繰り返し実行されうる。例えば、個人の政治的所属を70%だけ確認することは、統計的には望ましくない場合がある。このように、クラスタポイントまたはデータポイントは、政治的所属を推論する能力が70%未満の確実性となるまで、歪ませてもよい。これらのクラスタは、推論確率を決定するために、事前データと比較されてもよい。
そして、プライバシーマッピングに従って、公開データまたは保護データとして、データが公開される(730)。700の方法は、735にて終了する。ユーザは、プライバシーマッピングの結果を通知されてもよく、プライバシーマッピングを使用するか、または歪み無しのデータを公開するか、の選択権を与えられてもよい。
ここで、図8に戻り、不整合な事前分布を考慮したプライバシーマッピングを決定する方法800が示されている。第1の問題は、この方法が、事前分布と言われる、個人データと公開データとの間の結合確率分布を知ることに依存することである。しばしば、正確な事前分布は利用可能でなく、その代わりに、個人データおよび公開データのサンプルの制限されたセットのみが観察可能な場合がある。これは、不整合な事前分布の問題につながる。この方法は、この問題に対応するものであり、不整合な事前分布に直面しても、歪みを提供してプライバシーをもたらそうとする。我々の最初の貢献は、観察可能なデータサンプルのセットで開始する辺りに位置し、我々は、事前分布の改善された推定値を見出し、この推定値に基づいてプライバシー保護マッピングが得られる。我々は、この処理がプライバシーの所与のレベルを保証するために招く、任意のさらなる歪みに対するいくつかの限度を開発する。より正確には、我々の推定と事前分布との間がL1ノルム距離で個人情報の漏洩が対数線形的に増加すること、我々の推定と事前分布との間がL1ノルム距離で歪み率が線形的に増加すること、および、サンプルサイズが増加するにつれて、我々の推定と事前分布との間のL1ノルム距離が減少すること、を示す。
まず、800の方法は、ステップ805において開始する。本方法は、最初に、個人データおよび公開データの両方を発行する非プライベートユーザのデータから事前分布を推定する。この情報は、公に利用可能なソースから入手することが可能であり、調査におけるユーザ入力などから生成することが可能である。このデータは、獲得されうるサンプルが十分でない場合や、間違った入力に起因する不完全なデータを提供するユーザが存在する場合に、不十分となることがある。大量のユーザデータが獲得される場合、この問題は、補填されうる。しかしながら、これらの欠点は、正確な事前分布と推定された事前分布との間の不整合につながりうる。このように、推定された事前分布は、複雑なソルバが適用されたとき、完全に信頼できる結果を提供しない可能性がある。
次に、公開データは、ユーザで収集される(815)。このデータは、ユーザデータを、推定された事前データと比較することで、量子化される(820)。そして、ユーザの個人データは、比較の結果および代表的な事前データの決定として推論される。そして、プライバシー保護マッピングが決定される(825)。このプライバシー保護マッピングに従ってデータを歪ませ、そして、公開データまたは保護データとして公に開示される(830)。本方法は、835で終了する。
本明細書にて説明したように、本発明は、公開データのプライバシー保護マッピングを可能にするための構成およびプロトコルを提供する。本発明は、好ましい形態として記載されているが、本開示の意図および範囲内においてさらに変更されうる。よって、本願は、その基本原理を用いた本発明のあらゆる変形形態、使用、または適用物をカバーすることが意図される。また、本願は、本発明の属する本技術分野における既知または慣行の範囲内から派生し、添付の請求の範囲の構成の範囲内に属する、本開示からのそれらのような発展形をカバーすることが意図される。

Claims (22)

  1. ユーザデータを処理する方法であって、
    前記ユーザデータにアクセスするステップであって、前記ユーザデータは、複数の公開データを含む、ステップと、
    前記ユーザデータを、複数のクラスタにクラスタ化するステップと、
    前記データのクラスタを処理して個人データを推論するステップであって、前記処理は、前記個人データの確率を決定する、ステップと、
    を含む、前記方法。
  2. 前記クラスタのうちの1つを変更して、変更済みクラスタを生成するステップであって、前記変更済みクラスタは、前記確率が低減するように変更される、ステップをさらに含む、請求項1に記載の方法。
  3. ネットワークを介して前記変更済みクラスタを送信するステップをさらに含む、請求項2に記載の方法。
  4. 前記処理することは、前記複数のクラスタを、複数の保存済みクラスタと比較するステップを有する、請求項1に記載の方法。
  5. 前記比較するステップは、データの前記複数の保存済みクラスタと、前記複数のクラスタと、の結合分布を決定する、請求項4に記載の方法。
  6. 前記個人データの前記確率に応じて前記ユーザデータを変更して、変更済みユーザデータを生成するステップと、ネットワークを介して前記変更済みユーザデータを送信するステップと、を含む、請求項1に記載の方法。
  7. 前記クラスタ化は、前記複数の公開細目を削減することを、複数の代表的公開クラスタに関連付け、前記複数の代表的公開クラスタをプライバシーマッピングして、複数の変更済み代表的公開クラスタを生成する、請求項1に記載の方法。
  8. ユーザに関するユーザデータを処理する装置であって、
    複数のユーザデータを記憶するメモリであて、前記ユーザデータは、複数の公開データを含む、メモリと、
    前記複数のユーザデータを、複数のデータクラスタにグループ化するプロセッサであって、前記複数のデータクラスタのそれぞれは、前記ユーザデータのうちの少なくとも2つから成り、前記プロセッサはさらに、前記複数のデータクラスタの分析に応じて、統計値を決定するように動作し、前記統計値は、個人データのインスタンスの確率を表し、前記プロセッサはさらに、前記ユーザデータのうちの少なくとも1つを変更して、複数の変更済みユーザデータを生成するように動作する、プロセッサと、
    前記複数の変更済みユーザデータを送信する送信機と、
    を備える、前記装置。
  9. 前記ユーザデータのうちの少なくとも1つを変更することは、前記個人データの前記インスタンスの前記確率を低減することになる、請求項8に記載の装置。
  10. 前記複数の変更済みユーザデータは、ネットワークを介して送信される、請求項8に記載の装置。
  11. 前記プロセッサはさらに、前記複数のデータクラスタを、複数の保存済みデータクラスタと比較するように動作する、請求項8に記載の装置。
  12. 前記プロセッサは、データの前記複数の保存済みクラスタと、前記複数のクラスタと、の結合分布を決定するように動作する、請求項11に記載の措置。
  13. 前記プロセッサはさらに、予め定められた閾値よりも大きい値を有する、前記個人データの前記インスタンスの前記確率に対応して、第2の前記ユーザデータを変更するように動作する、請求項8に記載の装置。
  14. 前記グループ化することは、前記複数の公開細目を削減することを、複数の代表的公開クラスタに変えること、前記複数の代表的公開クラスタをプライバシーマッピングして、複数の変更済み代表的公開クラスタを生成することを含む、請求項8に記載の装置。
  15. ユーザデータを処理する方法であって、
    複数の公開データをコンパイルするステップであって、前記複数の公開データのそれぞれは、複数の特徴から成る、ステップと、
    複数のデータクラスタを生成するステップであって、前記データクラスタは、前記複数の公開データのうちの少なくとも2つから成り、前記複数の公開データのうちの前記少なくとも2つは、それぞれ、前記複数の特徴のうちの少なくとも1つを有する、ステップと、
    前記複数のデータクラスタを処理して個人データの確率を決定するステップと、
    前記確率が予め定められた値を超過することに応じて、前記複数の公開データのうちの少なくとも1つを変更して、変更済み公開データを生成するステップと、
    を含む、前記方法。
  16. 前記複数の公開データのうちの少なくとも1つを削除して変更済みクラスタを生成するステップであって、前記変更済みクラスタは、前記確率が低減されるように変更される、ステップをさらに含む、請求項15に記載の方法。
  17. 前記変更済み公開データを、ネットワークを介して送信するステップをさらに含む、請求項15に記載の方法。
  18. 前記公開データを前記送信することに応じて、お勧めを受信するステップをさらに含む、請求項17に記載の方法。
  19. 前記処理することは、前記複数のクラスタを、複数の保存済みクラスタを比較するステップを有する、請求項15に記載の方法。
  20. 前記比較するステップは、データの前記複数の保存済みクラスタと、前記複数のクラスタと、の結合分散を決定する、請求項19に記載の方法。
  21. 前記生成するステップはさらに、
    前記複数の公開データを、複数の代表的公開クラスタに変えるステップと、
    前記複数の代表的公開クラスタをプライバシーマッピングして、複数の変更済み代表的公開クラスタを生成するステップと、
    前記変更済み公開データを、ネットワークを介して送信するステップと、
    を含む、請求項15に記載の方法。
  22. 請求項1から7に従って、ユーザに関するユーザデータのプライバシーを改善する、記憶される命令を有するコンピュータ可読記憶媒体。
JP2015557000A 2013-02-08 2014-02-04 大規模データへの妨害攻撃に対するプライバシー Pending JP2016511891A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361762480P 2013-02-08 2013-02-08
US61/762,480 2013-02-08
PCT/US2014/014653 WO2014123893A1 (en) 2013-02-08 2014-02-04 Privacy against interference attack for large data

Publications (1)

Publication Number Publication Date
JP2016511891A true JP2016511891A (ja) 2016-04-21

Family

ID=50185038

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015557000A Pending JP2016511891A (ja) 2013-02-08 2014-02-04 大規模データへの妨害攻撃に対するプライバシー
JP2015557077A Pending JP2016508006A (ja) 2013-02-08 2014-02-06 不適合のプライアに対する干渉攻撃に対するプライバシ

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2015557077A Pending JP2016508006A (ja) 2013-02-08 2014-02-06 不適合のプライアに対する干渉攻撃に対するプライバシ

Country Status (6)

Country Link
US (2) US20150379275A1 (ja)
EP (2) EP2954660A1 (ja)
JP (2) JP2016511891A (ja)
KR (2) KR20150115778A (ja)
CN (2) CN106134142A (ja)
WO (2) WO2014123893A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9244956B2 (en) 2011-06-14 2016-01-26 Microsoft Technology Licensing, Llc Recommending data enrichments
US9147195B2 (en) * 2011-06-14 2015-09-29 Microsoft Technology Licensing, Llc Data custodian and curation system
WO2014031551A1 (en) * 2012-08-20 2014-02-27 Thomson Licensing A method and apparatus for privacy-preserving data mapping under a privacy-accuracy trade-off
US10332015B2 (en) * 2015-10-16 2019-06-25 Adobe Inc. Particle thompson sampling for online matrix factorization recommendation
US11087024B2 (en) * 2016-01-29 2021-08-10 Samsung Electronics Co., Ltd. System and method to enable privacy-preserving real time services against inference attacks
US10216959B2 (en) 2016-08-01 2019-02-26 Mitsubishi Electric Research Laboratories, Inc Method and systems using privacy-preserving analytics for aggregate data
CN107563217A (zh) * 2017-08-17 2018-01-09 北京交通大学 一种保护用户隐私信息的推荐方法和装置
CN107590400A (zh) * 2017-08-17 2018-01-16 北京交通大学 一种保护用户隐私兴趣偏好的推荐方法和可读介质
US11132453B2 (en) 2017-12-18 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. Data-driven privacy-preserving communication
CN108628994A (zh) * 2018-04-28 2018-10-09 广东亿迅科技有限公司 一种舆情数据处理系统
KR102201684B1 (ko) * 2018-10-12 2021-01-12 주식회사 바이오크 바이오메디컬 데이터의 전송 방법
CN109583224B (zh) * 2018-10-16 2023-03-31 蚂蚁金服(杭州)网络技术有限公司 一种用户隐私数据处理方法、装置、设备及系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002254564A1 (en) * 2001-04-10 2002-10-28 Latanya Sweeney Systems and methods for deidentifying entries in a data source
US7162522B2 (en) * 2001-11-02 2007-01-09 Xerox Corporation User profile classification by web usage analysis
US7472105B2 (en) * 2004-10-19 2008-12-30 Palo Alto Research Center Incorporated System and method for providing private inference control
US8504481B2 (en) * 2008-07-22 2013-08-06 New Jersey Institute Of Technology System and method for protecting user privacy using social inference protection techniques
US8209342B2 (en) * 2008-10-31 2012-06-26 At&T Intellectual Property I, Lp Systems and associated computer program products that disguise partitioned data structures using transformations having targeted distributions
US9141692B2 (en) * 2009-03-05 2015-09-22 International Business Machines Corporation Inferring sensitive information from tags
US8639649B2 (en) * 2010-03-23 2014-01-28 Microsoft Corporation Probabilistic inference in differentially private systems
CN102480481B (zh) * 2010-11-26 2015-01-07 腾讯科技(深圳)有限公司 一种提高产品用户数据安全性的方法及装置
US9292880B1 (en) * 2011-04-22 2016-03-22 Groupon, Inc. Circle model powered suggestions and activities
US9361320B1 (en) * 2011-09-30 2016-06-07 Emc Corporation Modeling big data
US9622255B2 (en) * 2012-06-29 2017-04-11 Cable Television Laboratories, Inc. Network traffic prioritization
WO2014031551A1 (en) * 2012-08-20 2014-02-27 Thomson Licensing A method and apparatus for privacy-preserving data mapping under a privacy-accuracy trade-off
CN103294967B (zh) * 2013-05-10 2016-06-29 中国地质大学(武汉) 大数据挖掘下的用户隐私保护方法及系统
US20150339493A1 (en) * 2013-08-07 2015-11-26 Thomson Licensing Privacy protection against curious recommenders
CN103488957A (zh) * 2013-09-17 2014-01-01 北京邮电大学 一种关联隐私的保护方法
CN103476040B (zh) * 2013-09-24 2016-04-27 重庆邮电大学 带有隐私保护的分布式压缩感知数据融合方法

Also Published As

Publication number Publication date
CN106134142A (zh) 2016-11-16
CN105474599A (zh) 2016-04-06
KR20150115778A (ko) 2015-10-14
US20160006700A1 (en) 2016-01-07
WO2014124175A1 (en) 2014-08-14
US20150379275A1 (en) 2015-12-31
EP2954660A1 (en) 2015-12-16
KR20150115772A (ko) 2015-10-14
WO2014123893A1 (en) 2014-08-14
JP2016508006A (ja) 2016-03-10
EP2954658A1 (en) 2015-12-16

Similar Documents

Publication Publication Date Title
JP2016511891A (ja) 大規模データへの妨害攻撃に対するプライバシー
Lin et al. Using gans for sharing networked time series data: Challenges, initial promise, and open questions
US20200389495A1 (en) Secure policy-controlled processing and auditing on regulated data sets
JP6814017B2 (ja) 匿名化のために属性を自動的に識別するコンピュータ実装システムおよび方法
JP2016531513A (ja) 付加ノイズを用いる効用対応プライバシー保護写像のための方法および装置
JP2016535898A (ja) 結託および合成を考慮した効用対応プライバシー保護写像のための方法および装置
Iordanou et al. Beyond content analysis: Detecting targeted ads via distributed counting
Silva et al. Privacy in the cloud: A survey of existing solutions and research challenges
Osia et al. Privacy-preserving deep inference for rich user data on the cloud
Raghebi et al. A new trust evaluation method based on reliability of customer feedback for cloud computing
Gokulnath et al. A survey on trust models in cloud computing
CN112968873B (zh) 一种用于隐私数据传输的加密方法和装置
WO2020204812A1 (en) Privacy separated credit scoring mechanism
Harkous et al. C3p: Context-aware crowdsourced cloud privacy
CN110088756B (zh) 隐匿化装置、数据分析装置、隐匿化方法、数据分析方法以及计算机能读取的存储介质
Priya et al. Privacy preserving data security model for cloud computing technology
Hashemi et al. Data leakage via access patterns of sparse features in deep learning-based recommendation systems
Zhang et al. Individual Attribute and Cascade Influence Capability‐Based Privacy Protection Method in Social Networks
Bogdanov et al. K-Anonymity Versus PSI3 for Depersonalization and Security Assessment of Large Data Structures
Hashemi et al. Private data leakage via exploiting access patterns of sparse features in deep learning-based recommendation systems
Chen et al. Thwarting passive privacy attacks in collaborative filtering
Preuveneers et al. Privacy-preserving correlation of cross-organizational cyber threat intelligence with private graph intersections
CN113139796B (zh) 基于纵向联邦学习的推荐方法及装置
Lang et al. Application of Personal Information Privacy Protection Based on Machine Learning Algorithm
Yang Improving privacy preserving in modern applications

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20161128