JP7165795B2 - データ解析システムのプライバシー保護データを生成する方法及びデバイス - Google Patents

データ解析システムのプライバシー保護データを生成する方法及びデバイス Download PDF

Info

Publication number
JP7165795B2
JP7165795B2 JP2021138542A JP2021138542A JP7165795B2 JP 7165795 B2 JP7165795 B2 JP 7165795B2 JP 2021138542 A JP2021138542 A JP 2021138542A JP 2021138542 A JP2021138542 A JP 2021138542A JP 7165795 B2 JP7165795 B2 JP 7165795B2
Authority
JP
Japan
Prior art keywords
user
sensitive
data
privacy
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021138542A
Other languages
English (en)
Other versions
JP2022041957A (ja
Inventor
カシフ シャウカト サイエド
康文 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JP2022041957A publication Critical patent/JP2022041957A/ja
Application granted granted Critical
Publication of JP7165795B2 publication Critical patent/JP7165795B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本主題は、一般に、データ保護に関し、より詳細には、限定されないが、データ解析システムのプライバシー保護データを生成する方法及びシステムに関する。
コンピュータ技術、ストレージ、及びネットワーク接続性が手頃に利用可能になるにつれ、すべてのドメインエリアにおけるコンピュータの多様な用途に起因して、データの量及び多様性が指数関数的に増大した。ユーザ固有のプライベートデータ及び機密データを含む大規模データが、パブリックドメイン及びパブリックリポジトリに格納されつつある。データ保持者は、より深い洞察を獲得し、かつ重要な決定を行う際に有用である隠微なパターンを特定する、第三者データアナリストに、このデータを公開することができる。
近年、世界中の政府が、家庭、車両、オフィス、健康モニタリングシステムなどにおけるIoTデバイスによって継続的に生成される膨大な量のデジタルユーザデータを活用するスマートシティの創設を支援している。スマートシティ計画及び運用はまた、金融、健康、投資、保険、ソーシャルメディア、電気通信、サービスプロバイダ品質、及び司法情報に関する人口統計学的ユーザレコードを格納した様々なパブリック及びプライベートリポジトリ/プラットフォームからのデータも消費する。通常、データ解析は、多数のユーザからのデジタルレコードを利用し、人口統計学ベースの機械学習モデルを作成することによって解析を実行し、プランニング、モニタリング、リソース利用、及びプロアクティブなリスク管理のためのデータ駆動型アプリケーションを構築し得る。これらの解析によって消費されるユーザレコードは、ユーザ機密情報を包含する。ユーザ機密データに関する直接のコンピュテーションを許容すると、プライバシー問題が露呈される。それゆえ、データの指数関数的な増大と共に、プライバシー保全は、極めて重大な側面を残している。
現在、データのプライバシー保全問題に的をしぼる多くの手法及び機構が存在する。例えば、ユーザレコードを匿名化することは、1つの選択肢であるが、匿名化は、プライバシー懸念を解決しない。このようなデータレコード内の僅かなセットの匿名化フィールドでさえも、外部リポジトリ内の類似のフィールドと組み合わされて、このような外部データソースに存在するユーザを再特定し、ユーザ機密情報を信頼できないエンティティに明らかにし得る。従来の手法のうちの1つは、差分プライバシーアルゴリズムを使用して、ユーザ再特定を回避し、プライバシーを保全することを含む。しかしながら、ユーザデータを変換するために使用されるこのような差分プライバシーアルゴリズムは、異なるドメインリポジトリ、機密特徴、及びすべてのユーザレコードに対して、それらが所望のプライバシー要件の点で相違していても、同じプライバシーパラメータを利用する。この手法がプライバシーの単一レベルにのみ対応するため、すべてのリポジトリ、特徴、及びユーザレコードに対して、最小のプライバシー損失が考えられる。結果として、最小のプライバシー損失は、ユーザデータへの高ノイズ付加につながる。多量のノイズは、このようなデータで訓練された機械学習モデルの予測精度を低いものとし、このようなモデルを利用するデータ駆動型アプリケーションの性能を劣化させる。
US20180181878A1
さらに、このような差分プライバシーアルゴリズムによる変換されたユーザデータは、機械学習解析を実行するクラウドサーバに送られる。すべてのユーザ情報を中央サーバに収集することは、セキュリティ問題(攻撃者が中央サーバを侵害しさえすればよいため)と、膨大な量のユーザデータを伝送することに対する帯域問題とを引き起こす。従来のシステムがデータを圧縮することによってこの問題を解決しようとする場合でも、そうである。しかしながら、圧縮後でも、特にユーザレコードの特徴が互いに独立している場合、データ量は高いままである。このことは、低モデル精度につながる情報損失を引き起こす、データのディメンションの低下につながる。
本開示セクションの本背景で開示された情報は、本発明の全般的な背景の理解を高めるためのものにすぎず、本情報が当業者にすでに知られている先行技術をなすことの自認であるとも、いかなる形態の示唆であるとも捉えるものではない。
一実施形態において、本開示は、データ解析システムのプライバシー保護データを生成する方法に関し得る。この方法は、1つ以上のソースから受信された、複数のユーザの各々と関連付けられたユーザレコードから、機密特徴及び非機密特徴を判定することを含む。ユーザレコードは、擬似識別子及び非擬似機密識別子を含む機密特徴により、あらかじめ定義されたクラスタリング手法を使用して複数のクラスタにクラスタ化される。複数のクラスタの各クラスタにおける各擬似識別子は、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マップされ、各非擬似機密識別子は、対応するマップされた値と、ランダムに生成された値とを用いて、マップされる。マップされた擬似識別子、マップされた非擬似機密識別子、及び非機密特徴の各々を使用して、ユーザプライバシー保護レコードを生成する。その後、一様にサンプルされたユーザプライバシー保護レコードは、1つ以上のデータモデルを生成するために、対応する1つ以上の機械学習モデルに供給される。
一実施形態において、本開示は、データ解析システムのプライバシー保護データを生成するプライバシー保護デバイスに関し得る。プライバシー保護デバイスは、複数のプロセッサと、プロセッサに通信可能に結合されたメモリとを含むことができ、メモリは、プロセッサ実行可能命令を記憶しており、プロセッサ実行可能命令は、実行時に、プライバシー保護デバイスに、1つ以上のソースから受信された、複数のユーザの各々と関連付けられたユーザレコードから、機密特徴及び非機密特徴を判定することを行わせ得る。ユーザレコードは、擬似識別子及び非擬似機密識別子を含む機密特徴により、あらかじめ定義されたクラスタリング手法を使用して複数のクラスタにクラスタ化される。プライバシー保護デバイスは、複数のクラスタの各クラスタにおける各擬似識別子を、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マップし、各非擬似機密識別子を、対応するマップされた値と、ランダムに生成された値とを用いて、マップする。マップされた擬似識別子、マップされた非擬似機密識別子、及び非機密特徴の各々を使用して、ユーザプライバシー保護レコードを生成する。その後、プライバシー保護デバイスは、一様にサンプルされたユーザプライバシー保護レコードを、1つ以上のデータモデルを生成するために、対応する1つ以上の機械学習モデルに供給する。
以上の概要は、例示的であるに過ぎず、いかなるようにも限定的とする意図はない。上述した例示的な態様、実施形態、及び特徴に加えて、さらなる態様、実施形態、及び特徴が、図面及び以下の詳細な説明を参照することによって明らかになるであろう。
図1Aは、本開示のいくつかの実施形態による、データ解析システムのプライバシー保護データを生成するための典型的な環境を例示するものである。 図1Bは、本開示のいくつかの実施形態による、生成されたデータモデルをサーバに送信するための典型的な環境を例示するものである。 図2は、本開示のいくつかの実施形態による、プライバシー保護デバイスの詳細なブロック図を例示するものである。 図3は、本開示のいくつかの実施形態による、人口統計学ベースのデータ解析の典型的な実施形態を示す。 図4Aは、本開示のいくつかの実施形態による、データ解析システムのプライバシー保護データを生成する方法を示すフローチャートを例示するものである。 図4Bは、本開示のいくつかの実施形態による、生成されたデータモデルをサーバに送信する方法を示すフローチャートを例示するものである。 図5は、本開示に従う実施形態を実装するための典型的なコンピュータシステムのブロック図を例示するものである。
本開示に組み込まれ、かつ本開示の一部を構成する、添付図面は、典型的な実施形態を例示するものであり、説明と共に、開示された原理を説明するのに役立つ。図において、参照番号の左端の桁(複数可)は、参照番号が最初に現れる図を特定する。同様の特徴及び構成要素を参照するために、各図の全体にわたって同じ番号が使用されている。本主題の実施形態によるシステム及び/または方法のいくつかの実施形態は、ここでは、単なる例として、及び添付図を参照して、記載されている。
本明細書におけるいかなるブロック図も、本主題の原理を具現化する例示的なシステムの概念図を表すことは、当業者に分かるはずである。同様に、いかなるフローチャート、フロー図、状態遷移図、擬似コードなども、コンピュータ可読媒体で実質的に表され、かつ、コンピュータまたはプロセッサによって、このようなコンピュータまたはプロセッサが明示的に示されるか否かにかかわらず実行され得る、様々な処理を表すことは、分かるであろう。
本書において、「典型的な」との語は、「例、事例、または例示として役立つこと」を意味するために、本明細書で使用される。本明細書に記載された本主題の実施形態または実装形態は、必ずしも、他の実施形態よりも好ましいとも、有利であるとも、解釈されるものではない。
本開示は様々な改変物及び代替形態を受け入れることができるが、それらのうちの特有の実施形態が、図面に例として示されており、以下に詳述される。ただし、本開示を開示された特定の形態に限定する意図はなく、これとは反対に、本開示は、本開示の範囲内に入るすべての改変物、均等物、及び代替物に及ぶことを理解されたい。
「含む(comprises)」、「含む(comprising)」との用語、またはそれらの任意の他の変化形は、非排他的包含に及ぶことが意図されており、これにより、構成要素またはステップの列挙を含むセットアップ、デバイス、または方法は、これらの構成要素またはステップのみを含むのではなく、明確に列挙されない、またはこのようなセットアップまたはデバイスまたは方法に固有でない、他の構成要素またはステップを含み得る。つまり、「...を含む(comprises...a)」が続くシステムまたは装置における1つ以上の要素は、それ以上の制約なしに、このシステムまたは方法における他の要素または追加の要素の存在を排除しない。
本開示のそれらの実施形態の以下の詳細な説明において、この一部をなし、かつ例示として、本開示が実施され得る特有の実施形態を示す、添付図面への参照がなされる。これらの実施形態は、当業者が本開示を実施することを可能にするのに十分に詳細に記載されており、他の実施形態が利用され得ること、及び本開示の範囲から逸脱することなく変更がなされ得ることが理解できるはずである。したがって、以下の説明は、限定的な意味に捉えるものではない。
本開示の実施形態は、データ解析システムにおいてプライバシー保護データを生成する方法及びプライバシー保護デバイスに関する。一実施形態において、データ解析は、データセットが包含する情報に関する結論及び洞察を引き出すために、及び専用システムに支援されて決定を行うために、データセットを調べるプロセスを、指し得る。一般に、データ解析は、多数のユーザからのデジタルレコードを利用し、人口統計学ベースの機械学習モデルを作成することによって解析を実行し、プランニング、モニタリング、リソース利用、及びプロアクティブなリスク管理のためのデータ駆動型アプリケーションを構築し得る。これらの解析によって消費されるデータセットは、ユーザ機密情報を包含する。通常、コンピュテーションに使用されるいかなるデータセットも、プライバシー問題にさらされる。現在、多くの既存のシステムが、ユーザ機密データのプライバシー保護を提供する。しかしながら、これらのシステムは、異なるドメインリポジトリ、機密特徴、及びユーザレコードに対して、それらが所望のプライバシー要件の点で相違していても、同じプライバシーパラメータを利用する。これらのシステムがプライバシーの単一レベルにのみ対応するため、すべてのリポジトリ、特徴、及びユーザレコードに対して、最小のプライバシー損失が考えられる。結果として、最小のプライバシー損失は、データセットに多量のノイズを導入し、多量のノイズは、訓練された機械学習モデルの予測精度を低いものとし、このようなモデルを利用するデータ駆動型アプリケーションの性能を劣化させる。加えて、既存のシステムは、保護されたユーザデータを、機械学習解析を実行する中央サーバに伝送する。しかしながら、すべてのユーザ情報を中央サーバに収集することは、セキュリティ及び帯域幅の問題を引き起こす。
それゆえ、このような場合に本発明は、ユーザレコードから機密特徴及び非機密特徴を判定し、機密特徴によりユーザレコードを複数のクラスタにクラスタ化する。ユーザレコードの機密特徴は、機密特徴のタイプに応じて、それぞれのクラスタの計算された重心、または、対応する値及びランダムに生成された値、のいずれか一方にマップされる。ランダムに生成された値は、差分プライベートノイズ値を指す。これらのノイズ付加は、ドメインリポジトリ、機密特徴、及びユーザレコードのプライバシー要件に基づく。ユーザプライバシー保護レコードは、マップされた機密特徴及び非機密特徴に基づいて生成される。その後、一様にサンプルされたユーザプライバシー保護レコードは、1つ以上のデータモデルを生成するために、対応する1つ以上の機械学習モデルに供給される。結果として、本開示は、ユーザレコードへのノイズ付加を低減し、それゆえ、ユーザプライバシーを保全し、かつユーザ再特定を回避しながら、訓練されたデータモデルの予測精度を高め、データ駆動型アプリケーションの性能を向上させる。また、本開示は、ユーザレコード全体ではなく、データモデルのみが解析のためにサーバに供給されることから、高いデータセキュリティを伴って帯域幅要件を低減する。
図1Aは、本開示のいくつかの実施形態による、データ解析システムのプライバシー保護データを生成するための典型的な環境を例示するものである。
図1Aに示すように、環境100は、ピアツーピアネットワーク(図1Aには明示的に示されない)を介して対応する1つ以上の解析モデル106(解析モデル106、解析モデル106、...、及び解析モデル106など)に接続された1つ以上のプライバシー保護デバイス101(プライバシー保護デバイス101、プライバシー保護デバイス101、...、及びプライバシー保護デバイス101など)を含む。1つ以上の解析モデル106は、対応するプライバシー保護デバイスから受信された異なるユーザレコードに基づく1つ以上のデータモデルを生成し得る、任意のタイプの解析システムであり得る。一実施形態において、1つ以上の解析モデル106は、特有のタイプのユーザレコードに対して訓練され得る。さらに、1つ以上のプライバシー保護デバイス101の各々は、1つ以上のソース105に接続されたプライバシー保護デバイス101、1つ以上のソース105に接続されたプライバシー保護デバイス101などといった、(明示的に示されない通信ネットワークを介して)対応する1つ以上のソース105に接続されている。通常、ユーザレコードのほとんどが、異なるソースに継続的に収集及び格納される。1つ以上のソース105は、限定されないが、パブリックプラットフォーム及びプライベートプラットフォーム、IOTゲートウェイデバイス、ならびにリポジトリを含み得る。例えば、スマート病院などのエンティティは、すべての患者のレコードを収集及び保持するリポジトリまたはIOTゲートウェイを保持し得る。患者のレコードは、データモデルを生成する種々のデータ解析システムによって利用され得る。このような状況において、1つ以上のプライバシー保護デバイス101は、プライバシー保護データを生成する。1つ以上のプライバシー保護デバイス101は、ラップトップ、デスクトップコンピュータ、ノートブック、スマートフォン、タブレット、サーバ、及び任意の他のコンピューティングデバイスなどの任意のコンピューティングデバイスであり得る。当業者であれば、明示的に言及されない任意の他のデバイスもまた、本開示において1つ以上のプライバシー保護デバイス101として使用され得ることを理解するであろう。一実施形態において、1つ以上のプライバシー保護デバイス101は、スタンドアロンデバイスであり得る。これに代えて、1つ以上のプライバシー保護デバイス101は、対応する1つ以上のソース105内に構成されてもよい。
さらに、プライバシー保護デバイス101は、I/Oインタフェース109、メモリ111、及びプロセッサ113を含む。同様に、1つ以上のプライバシー保護デバイス101の各々は、対応するI/Oインタフェース、メモリ、及びプロセッサ(I/Oインタフェース109、メモリ111、及びプロセッサ113と総称する)を含み得る。I/Oインタフェース109は、それぞれの1つ以上のソース105からユーザレコードを受信するように構成され得る。I/Oインタフェース109から受信されたユーザレコードは、メモリ111に記憶され得る。メモリ111は、それぞれの1つ以上のプライバシー保護デバイス101のプロセッサ113に通信可能に結合され得る。メモリ111はまた、プロセッサ113にプライバシー保護データを生成する命令を実行させ得るプロセッサ命令も記憶し得る。
一般に、任意のタイプのデータ解析を実行するために、複数のユーザのユーザレコードが必要である。データ解析のために1つ以上のソース105のうちのいずれかから複数のユーザのユーザレコードが要求されると、ユーザレコードは、対応する1つ以上のプライバシー保護デバイス101を通過する。一実施形態において、データ解析及び要求のタイプに応じて、ソースの数、よって対応するプライバシー保護デバイスの数が、変動し得る。それぞれの1つ以上のソース105からユーザレコードを受信すると、1つ以上のプライバシー保護デバイス101は、ユーザレコードを処理し、ユーザレコードと関連付けられた機密特徴及び非機密特徴を判定し得る。一実施形態において、既存の知られている手法をユーザレコードに適用して、機密特徴及び非機密特徴を判定し得る。機密特徴は、直接の識別子、擬似識別子、及び非擬似機密識別子を含み得る。直接の識別子は、ユーザレコードからユーザを特定することを可能にする。一例として、会社では、顧客名、顧客ID、銀行口座番号などといった識別子である。
擬似識別子は、ユーザと直接には関連付けられない特徴であるが、擬似識別子は、擬似識別子を他の擬似識別子と組み合わせてユーザを特定することができるように、ユーザと相関し得る。例えば、顧客の年齢、性別、住所などの識別子である。非擬似機密識別子は、ユーザと直接には関連付けられないがドメイン/フィールドと直接に関連付けられる特徴であり、ユーザを特定するために擬似特徴と共に使用され得る。例えば、新/旧顧客、顧客によって購入された品目などといった識別子である。機密特徴及び非機密特徴を判定すると、1つ以上のプライバシー保護デバイス101は、ユーザレコードから直接の識別子を消去し得る。さらに、擬似識別子及び非擬似機密識別子は、複数のクラスタにクラスタ化される。クラスタリングは、凝集型階層的クラスタリング(Agglomerative Hierarchical Clustering、AHC)などのあらかじめ定義されたクラスタリング手法を使用して実行され得る。当業者であれば、明示的に言及されない任意の他のクラスタリング手法もまた、本開示において機密特徴をクラスタ化するのに使用され得ることを理解するであろう。クラスタリング時に、1つ以上のプライバシー保護デバイス101は、任意の既存の手法を使用して各クラスタの重心を計算する。加えて、各擬似識別子及び非擬似機密識別子に対して、ランダムに生成された値が決定される。一実施形態において、ランダムに生成された値は、ガウス分布から選択される差分プライベートノイズ値である。ランダムに生成された値は、クラスタサイズ、重大、高、中、及び低などのリポジトリドメインの機密のレベルに基づいて決定される。例えば、健康ドメインレコードは、レコメンデーションドメインレコードに優先して重大であるとみなされる。クラスタサイズは、各クラスタにおけるデータポイントの数を定義し得る。一実施形態において、密なクラスタは、低ノイズスケールを必要とし、アウトライヤは、高ノイズスケールを必要とし得る。さらに、ランダムに生成された値は、重大、高、中、及び低などのユーザレコードにおける特徴の機密度に基づいて決定される。例えば、位置情報特徴は、ショッピング情報特徴よりも機密性が高い。
1つ以上のプライバシー保護デバイス101は、各クラスタにおける各擬似識別子を、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いてマップし、各非擬似機密識別子を、対応するマップされた値と、それぞれの識別子と関連付けられたランダムに生成された値とを用いて、マップする。機密特徴がマップされると、1つ以上のプライバシー保護デバイス101は、マップされた擬似識別子、マップされた非擬似機密識別子、及び非機密特徴の各々を使用して、均一にサンプルされたユーザプライバシー保護レコードを生成し得る。ユーザプライバシー保護レコードは、レコードの総数が同じままであるように、マップされた値を用いて均一にサンプルされる。ユーザプライバシー保護レコードは、ブートストラップアグリゲーション(Bootstrap Aggregation、BT)手法などのあらかじめ定義されたアグリゲーション手法を使用して、均一にサンプルされる。その後、均一にサンプルされたユーザプライバシー保護レコードは、1つ以上のプライバシー保護デバイス101の各々によって、1つ以上のデータモデルを生成するために、対応する1つ以上の解析モデル106に供給される。図1Bは、本開示のいくつかの実施形態による、生成されたデータモデルをサーバに送信するための典型的な環境を例示するものである。1つ以上の解析モデル106は、ニューラルネットワークを使用してユーザプライバシー保護レコードを処理して、データモデルを生成し得る。ニューラルネットワークは、隠れ層の数、各層におけるニューロンの数、初期重み、あらかじめ定義されたハイパーパラメータ、及び活性化関数などの観点での、あらかじめ定義されたアーキテクチャを含み得る。それゆえ、1つ以上の解析モデル106の各々は、生成されたデータモデルパラメータをサーバ115に送信する。加えて、1つ以上の解析モデル106の各々は、データモデルを再構築するために、ニューラルネットワークのアーキテクチャ詳細、ハイパーパラメータ、及び活性化関数をサーバ115に送信する。サーバ115は、1つ以上の解析モデルの各々から受信されたデータモデルを組み合わせて、機械学習の予測及びレコメンデーションのうちの1つに使用される最終的なデータモデルを生成する。
図2は、本開示のいくつかの実施形態による、プライバシー保護デバイスの詳細なブロック図を例示するものである。
図2に示すように、1つ以上のプライバシー保護デバイス101は、本明細書で詳述されるデータ200及び1つ以上のモジュール211を含み得る。一実施形態において、データ200は、メモリ111内に記憶され得る。データ200は、例えば、ユーザデータ201、機密データ203、非機密データ205、プライバシー保護レコード207、及び他のデータ209を含み得る。
ユーザデータ201は、1つ以上のソース105から受信されたユーザレコードを含み得る。ユーザレコードは、複数のユーザと関連付けられている。ユーザレコードは、複数のユーザの各々と関連付けられた機密情報及び非機密情報を含み得る。ユーザデータ201は、任意のドメインと関連付けられ得る。例えば、緊急サービス及び健康保険プランニングについて、スマートシティ病院からのユーザレコードが、収集され、1つ以上のプライバシー保護デバイス101に供給され得る。このような場合のユーザレコードは、人口統計学的レベルユーザ健康レコード(例えば、ナショナル・ヘルス・スタック)、人身事故データ、救急レコード、ユーザの健康器具モニタリング(IoTゲートウェイ)などを含み得る。同様に、別の例において、人口統計学的ユーザプリファレンスに基づく広告の解析について、1つ以上のソース105からからのユーザレコードは、電子商取引の位置別ユーザ購入、モール内に展開されたIoTセンサから収集され得る現在のショッピングトレンドなどを含み得る。
機密データ203は、直接の識別子、擬似識別子、及び非擬似機密識別子を含み得る。直接の識別子は、ユーザレコードからユーザを直接特定することを可能にする。例えば、会社では、顧客名、顧客ID、銀行口座番号などといった識別子である。
擬似識別子は、ユーザと直接には関連付けられない特徴であるが、擬似識別子は、擬似識別子を他の擬似識別子と組み合わせてユーザを特定することができるように、ユーザと相関し得る。例えば、上記の例を考えると、顧客の年齢、性別、住所などの識別子である。非擬似機密識別子は、ユーザと直接には関連付けられないがドメイン/フィールドと直接に関連付けられる特徴であり、ユーザを特定するために擬似特徴と共に使用され得る。例えば、上記の例を考えると、新/旧顧客、顧客によって購入された品目などといった識別子である。
非機密データ205は、ユーザを特定するように相関していない場合があるユーザレコードを含み得る。例えば、上記の例を考えると、顧客による支払い額、購入品目についてのフィードバック、品目詳細などといった特徴である。
プライバシー保護レコード207は、受信されたユーザレコードに対して生成された、均一にサンプルされたユーザプライバシー保護レコードを含み得る。
他のデータ209は、1つ以上のプライバシー保護デバイス101の様々な機能を実行する1つ以上のモジュール211によって生成された、一時データ及び一時ファイルを含むデータを格納し得る。
一実施形態において、メモリ111内のデータ200は、1つ以上のプライバシー保護デバイス101のメモリ111内に存在する1つ以上のモジュール211によって処理される。一実施形態において、1つ以上のモジュール211は、専用のユニットとして実装され得る。本明細書で使用される、モジュールとの用語は、特定用途向け集積回路(ASIC)、電子回路、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブルシステムオンチップ(PSoC)、組み合わせ論理回路、及び/または所望の機能性を提供する他の好適なコンポーネントを指す。いくつかの実装形態において、1つ以上のモジュール211は、1つ以上のプライバシー保護デバイス101の1つ以上の機能を実行するために、プロセッサ113に通信可能に結合され得る。1つ以上のモジュール211は、本開示において定義される機能性を有して構成されると、新奇なハードウェアをもたらすこととなる。
1つの実装形態において、1つ以上のモジュール211は、限定されないが、通信モジュール213、特徴判定モジュール215、クラスタリングモジュール217、値生成モジュール219、マッピングモジュール221、及び保護データ供給モジュール223を含み得る。1つ以上のモジュール211はまた、1つ以上のプライバシー保護デバイス101の多種多様な機能性を実行する他のモジュール225も含み得る。一実施形態において、他のモジュール225は、複数のクラスタの各クラスタの重心を計算し得る重心判定モジュールを含み得る。
通信モジュール213は、対応する1つ以上のソース105からユーザレコードを受信し得る。さらに、通信モジュール213は、1つ以上のデータモデルを処理及び生成するために、均一にサンプルされたユーザプライバシー保護レコードを、対応する1つ以上の解析モデル106に送信し得る。通信モジュール213は、受信されたユーザレコードを、特徴判定モジュール215に送信する。
特徴判定モジュール215は、ユーザレコードを処理することによって、ユーザレコードの特徴を判定し得る。特徴判定モジュール215は、ユーザレコードの機密特徴及び非機密特徴を判定し得る。一実施形態において、特徴判定モジュール215は、任意の既存の手法を使用してユーザレコードを処理して、ユーザレコードの機密特徴及び非機密特徴を判定し得る。ユーザレコードの機密特徴を、さらに処理して、直接の識別子、擬似識別子、及び非擬似機密識別子を判定し得る。機密特徴を判定すると、特徴判定モジュール215は、ユーザレコードから直接の識別子を消去し得る。
クラスタリングモジュール217は、擬似識別子及び非擬似識別子により、ユーザレコードを複数のクラスタにクラスタ化し得る。クラスタリングモジュール217は、凝集型階層的クラスタリング(Agglomerative Hierarchical Clustering、AHC)手法を使用して、クラスタ化し得る。
値生成モジュール219は、擬似識別子及び非擬似機密識別子の各々に対してランダムノイズ値を生成し得る。一実施形態において、ランダムに生成された値は、ガウス分布から選択される差分プライベートノイズ値である。値生成モジュール219は、クラスタサイズ、リポジトリドメインの機密のレベル、及びユーザレコードにおける特徴の機密度に基づいて、ランダムに生成された値を生成し得る。クラスタサイズは、各クラスタにおけるデータポイントの数を定義し得る。一実施形態において、密なクラスタは、低ノイズスケールを必要とし、アウトライヤは、高ノイズスケールを必要とし得る。重大、高、中、及び低などの、リポジトリドメインの機密性が、定義され得る。例えば、健康ドメインレコードは、重大レコードである。重大、高、中、及び低などの、ユーザレコードにおける特徴の機密度が、定義され得る。例えば、位置情報は、重大特徴である。一実施形態において、ランダムに生成された値は、数値であり得る。
マッピングモジュール221は、重心判定モジュールからの各クラスタの重心と、値生成モジュール219からのランダムに生成された値とを、受信し得る。それゆえ、これらの情報を受信すると、マッピングモジュール221は、それぞれのクラスタの重心と、関連付けられたランダムに生成された値とを用いて、各クラスタにおける各擬似識別子をマップし得る。例えば、クラスタの重心値が「70」であり、ランダムに生成された値が「2.5」であることを考える。このような場合に、対応する擬似識別子の値は、「72.5」としてマップされる。また、マッピングモジュール221は、対応するマップされた値と、対応するランダムに生成された値とを用いて、各非擬似機密識別子をマップする。例えば、「顧客によって購入された医薬品」などの非擬似機密識別子の値が「45」であり、ランダムに生成された値が「-3」であることを考える。このような場合に、非擬似機密識別子の値は、「42」としてマップされる。
保護データ供給モジュール223は、マップされた擬似識別子、マップされた非擬似機密識別子、及び非機密特徴を使用して、均一にサンプルされたユーザプライバシー保護レコードを生成する。保護データ供給モジュール223は、ブートストラップアグリゲーション(BT)手法などのあらかじめ定義されたアグリゲーション手法を使用することによって、均一にサンプルされたユーザプライバシー保護レコードを生成し得る。ユーザレコードのアグリゲーションの一例が、続いて図3に提供されている。
図3は、本開示のいくつかの実施形態による、人口統計学ベースのデータ解析の典型的な実施形態を示す。
図3は、人口統計学的ユーザプリファレンスに基づくスマートシティ広告を生成するための典型的な表現を示す。特に、地域におけるユーザのプリファレンスの履歴データ及び現在のトレンドから計算される機械学習モデル予測に基づく関連地域広告を発行する、スマートシティデータ駆動型アプリケーションを構築するためである。ユーザレコードが機密であるため、このような場合におけるデータは、データ駆動型アプリケーションへの供給の前にプライバシー保護データを生成するために、1つ以上のプライバシー保護デバイス101に供給される。アクセスされるユーザレコードが、百貨店に設置されたIoTセンサからの、履歴データ、ならびにユーザの現在のショッピングレコード及び現在のトレンドであることを考える。履歴データ及び現在のショッピングレコードは、食料品電子商取引リポジトリ301、医薬品電子商取引リポジトリ303、旅行予約リポジトリ305などからアクセスされ得る。百貨店からの現在のトレンドは、家庭用品、医薬品在庫などに対するIoTゲートウェイ307を介してアクセスされ得る。
リポジトリの各々から受信されたユーザレコードを処理して、直接の識別子、擬似識別子、及び非擬似機密識別子などの機密特徴と、ユーザレコードの関連付けられたドメインの機密レベルと併せた特徴の関連付けられた機密レベルである非機密特徴とを、判定し得る。例えば、機密特徴及び非機密特徴の以下の判定を考える。
医薬品電子商取引リポジトリの場合:<ドメインレベル機密:重大>
1)顧客ID.<直接の識別子:ドロップ>
2)顧客名.<直接の識別子:ドロップ>
3)年齢.<擬似識別子:機密:高>
4)性別.<0/1にマップされる:擬似識別子:機密:高>
5)住所.<緯度/経度にマップされる:擬似識別子:機密:高>
6)クレジット/デビットカード.<直接の識別子:ドロップ>
7)新/旧顧客.<0/1にマップされる:非擬似機密識別子:機密:中>
8)購入された医薬品.<医薬品IDにマップされる:非擬似機密識別子:機密:重大>
9)医薬品の量.<非擬似機密識別子:機密:重大>
10)日時.<数値にマップされる:非擬似機密識別子:機密:中>
11)支払額.<非機密特徴>
12)選択されたEMIサービス.<非機密特徴>
13)メディクレーム(Mediclaim)保険の登録.<非機密特徴>
14)請求された電子商取引バウチャー.<非機密特徴>
15)電子商取引サービスのフィードバック.<10のスケール:非機密特徴>
食料品電子商取引リポジトリの場合:<ドメインレベル機密:低>
1)顧客ID.<直接の識別子:ドロップ>
2)顧客名.<直接の識別子:ドロップ>
3)年齢.<擬似識別子:機密:高>
4)性別.<0/1にマップされる:擬似識別子:機密:高>
5)住所.<緯度/経度にマップされる:擬似識別子:機密:高>
6)クレジット/デビットカード.<直接の識別子:ドロップ>
7)食料品品目1.<非機密特徴>
8)品目1の量.<非機密特徴>
9)食料品品目2.<非機密特徴>
10)品目2の量.<非機密特徴>
11)食料品品目3.<非機密特徴>
12)品目3の量.<非機密特徴>
13)請求された電子商取引バウチャー.<非機密特徴>
14)電子商取引サービスのフィードバック.<10のスケール:非機密特徴>
旅行予約リポジトリの場合:<ドメインレベル機密:高>;
百貨店からの医薬品在庫の場合.<ドメインレベル機密:重大>;
百貨店からの家庭用品の場合.<ドメインレベル機密:低>.
その後、1つ以上のプライバシー保護デバイス101は、上述したように、直接の識別子を消去し得る。以下の表1は、上記で特定されたような、擬似識別子、非擬似機密識別子、及び非機密特徴の典型的な分布を示す。
ここで、ドメイン機密<DC/DH/DM/DL>:重大/高/中/低;
擬似識別子<QC/QH/QM/QL>:重大/高/中/低;
非擬似機密識別子<NQC/NQH/NQM/NQL>:重大/高/中/低;
非機密特徴:NSF;及び
表の各行は、ユーザレコードであり、表の各列は、特徴である。
Figure 0007165795000001
さらに、1つ以上のプライバシー保護デバイス101は、擬似識別子及び非擬似機密識別子を複数のクラスタにクラスタ化し得る。例えば、現シナリオにおいて、3つのクラスタ、すなわち、第1のクラスタに対応する行1及び行2、第2のクラスタに対応する行3、行4、及び行5、ならびに第3のクラスタに対応する行6が、特定される。
以下の表2は、異なるクラスタを異なる陰影で示す。
Figure 0007165795000002
ここで、N:機密特徴の数
M:非機密特徴の数
F:特徴(機密+非機密)の総数:N+M
Va,b:a番目のユーザレコードのbth特徴の値である。
さらに、各クラスタ「1、2、及び3」について、重心値が計算される。
クラスタC1<C11,C12,C13,.....,C1N>.....(1)
クラスタC2<C21,C22,C23,.....,C2N>.....(2)
クラスタC3<C31,C32,C33,.....,C3N>.....(3)
1つ以上のプライバシー保護デバイス101は、以下のように、各擬似識別子及び非擬似機密識別子をマップする。
各擬似識別子について:
Vi,jを、Ct,j<Vi,jは重心Ctに属する>+Ni,j<i,jにおけるノイズ値>で置換し、
ここで、Ni,j=ガウス分布から選択されたランダムに生成された値である
一実施形態において、ガウス分布スケール=f(選択された差分プライバシーアルゴリズムのパラメータ{イプシロンε,デルタδ,差分直径R}及びプライバシー要件{クラスタサイズ,ドメイン機密,特徴機密})である。機密レベルが高いほど、ノイズスケールが高い。
各非擬似機密識別子について:
Vi,jを、Vi,j<i,jにおける値>+Ni,j<i,jにおけるノイズ値>で置換し、
ここで、Ni,j=ガウス分布から選択されたランダムに生成された値である
一実施形態において、ガウス分布スケール=f(選択された差分プライバシーアルゴリズムのパラメータ{イプシロンε,デルタδ,差分直径R}及びプライバシー要件{クラスタサイズ,ドメイン機密,特徴機密})である。機密レベルが高いほど、ノイズスケールが高い。
以下の表3は、マッピング後のユーザレコードの表現を示す。
Figure 0007165795000003
その後、ランダムに生成された値の付加後のユーザレコードは、モデルを生成するために1つ以上の解析モデル106に送信するために、ブートストラップアグリゲーション手法を使用して均一にサンプルされる。例えば、サンプリングの前後のユーザレコードは、以下のように表される。
前:<U1,U2,U3,U4,U5,U6,U7,U8,U9,U10>
後:<U7,U2,U5,U1,U3,U7,U6,U10,U9,U8>、U4は選択されず、U7は2回選択されるようになっている。
それゆえ、1つ以上のプライバシー保護デバイス101は、均一にサンプルされたユーザプライバシー保護レコードを、1つ以上の解析モデル106に供給し、解析モデル106は、データモデルを生成してサーバ115に送信し得る。サーバ115は、1つ以上の解析モデル106の各々からデータモデルを受信して、個々のユーザの詳細を開示することなく、かつ再特定を回避し、それゆえユーザプライバシーを維持して、地域レベルでの広告のサジェスチョンを提供するのに役立つ最終的なモデルを生成し得る。
図4Aは、本開示のいくつかの実施形態による、データ解析システムのプライバシー保護データを生成する方法を示すフローチャートを例示するものである。
図4に例示するように、方法400は、データ解析システムのプライバシー保護データを生成する1つ以上のブロックを含む。方法400は、コンピュータ実行可能命令の一般的なコンテキストで記述され得る。一般に、コンピュータ実行可能命令は、特定の機能を実行し、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、プロシージャ、モジュール、及び関数を含み得る。
方法400が記載される順序を限定と解釈されるものとする意図はなく、任意の数の記載された方法ブロックを任意の順序で組み合わせて、本方法を実装することができる。加えて、個々のブロックを、本明細書に記載された主題の範囲から逸脱することなく、本方法から削除してもよい。さらには、本方法を、任意の好適なハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせで実装することができる。
ブロック401において、機密特徴及び非機密特徴がユーザレコードから、特徴判定モジュール215によって判定される。ユーザレコードは、1つ以上のソース105から複数のユーザについて受信される。
ブロック403において、ユーザレコードが擬似識別子及び非擬似機密識別子により、クラスタリングモジュール217によって、凝集型階層的クラスタリング(AHC)などのあらかじめ定義されたクラスタリング手法を使用して、複数のクラスタにクラスタ化される。
ブロック405において、複数のクラスタの各クラスタにおける各擬似識別子が、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マッピングモジュール221によってマップされる。また、各非擬似機密識別子は、対応するマップされた値と、ランダムに生成された値とを用いて、マップされる。ランダムに生成された値は、クラスタサイズ、リポジトリドメインの機密のレベル、及びユーザレコードにおける特徴の機密度に基づいて決定される。続いて、マップされた擬似識別子、マップされた非擬似機密識別子、及び非機密特徴の各々を使用して、ユーザプライバシー保護レコードを生成する。
ブロック407において、保護データ供給モジュール223によって、均一にサンプルされたユーザプライバシー保護レコードが生成され、1つ以上のデータモデルを生成するために、対応する1つ以上の解析モデル106に供給される。均一にサンプルされたユーザプライバシー保護レコードは、あらかじめ定義されたアグリゲーション手法を使用することによって生成される。
図4Bは、本開示のいくつかの実施形態による、生成されたデータモデルをサーバに送信する方法を示すフローチャートを例示するものである。
ブロック409において、均一にサンプルされたユーザプライバシー保護レコードは、対応する1つ以上のプライバシー保護デバイス101から、1つ以上の解析モデル106によって受信される。均一にサンプルされたユーザプライバシー保護レコードは、図4Aにおいて上述されたようなステップを使用して、受信されたユーザレコードから生成される。
ブロック411において、均一にサンプルされたユーザプライバシー保護レコードを、1つ以上の解析モデル106によって処理して、データモデルを生成する。
ブロック413において、生成されたデータモデルの各々は、1つ以上の解析モデル106によってサーバ115に送信される。サーバ115は、1つ以上の解析モデル106の各々から受信されたデータモデルを組み合わせて、機械学習の予測及びレコメンデーションのうちの1つに使用される最終的なデータモデルを生成する。
コンピューティングシステム
図5は、本開示に従う実施形態を実装するための典型的なコンピュータシステム500のブロック図を例示するものである。一実施形態において、コンピュータシステム500は、1つ以上のプライバシー保護デバイス101であり得る。コンピュータシステム500は、中央処理装置(「CPU」または「プロセッサ」)502を含み得る。プロセッサ502は、データ解析システムのプライバシー保護データを生成する少なくなくとも1つのデータプロセッサを含み得る。プロセッサ502は、集積システム(バス)コントローラ、メモリ管理制御装置、浮動小数点ユニット、グラフィック処理装置、デジタル信号処理装置などといった専用処理装置を含み得る。
プロセッサ502は、I/Oインタフェース501を介して1つ以上の入力/出力(I/O)デバイス(図示せず)と通信するように設けられ得る。I/Oインタフェース501は、限定されないが、オーディオ、アナログ、デジタル、モノラル、RCA、ステレオ、IEEE1394、シリアルバス、ユニバーサルシリアルバス(USB)、赤外線、PS/2、BNC、同軸、コンポーネント、コンポジット、デジタルビジュアルインタフェース(DVI)、高精細度マルチメディアインタフェース(HDMI(登録商標))、RFアンテナ、Sビデオ、VGA、IEEE802.n/b/g/n/x、Bluetooth、セルラ(例えば、符号分割多重アクセス(CDMA)、高速パケットアクセス(HSPA+)、グローバルシステムフォーモバイルコミュニケーションズ(GSM)、ロングタームエボルーション(LTE)、WiMaxなど)などといった、通信プロトコル/方法を採用し得る。
I/Oインタフェース501を使用して、コンピュータシステム500は、入力デバイス512及び出力デバイス513などの1つ以上のI/Oデバイスと通信し得る。例えば、入力デバイス512は、アンテナ、キーボード、マウス、ジョイスティック、(赤外線)リモートコントロール、カメラ、カードリーダ、ファクシミリ機、ドングル、バイオメトリックリーダ、マイクロフォン、タッチスクリーン、タッチパッド、トラックボール、スタイラス、スキャナ、ストレージデバイス、トランシーバ、ビデオデバイス/ソースなどであり得る。出力デバイス513は、プリンタ、ファクシミリ機、ビデオディスプレイ(例えば、陰極線管(CRT)、液晶ディスプレイ(LCD)、発光ダイオード(LED)、プラズマ、プラズマディスプレイパネル(PDP)、有機発光ダイオードディスプレイ(OLED)など)、オーディオスピーカなどであり得る。
いくつかの実施形態において、プロセッサ502は、ネットワークスインタフェース503を介してピアネットワークと通信するように設けられ得る。ネットワークスインタフェース503は、限定されないが、直接接続、Ethernet(例えば、ツイストペア10/100/1000Base T)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、トークンリング、IEEE802.11a/b/g/n/xなどを含む接続プロトコルを採用し得る。コンピュータシステム500は、ピアツーピアネットワークを介して対応する1つ以上のソース514及び1つ以上の解析モデル515と通信し得る。ネットワークインタフェース503は、限定されないが、直接接続、Ethernet(例えば、ツイストペア10/100/1000Base T)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、トークンリング、IEEE802.11a/b/g/n/xなどを含む接続プロトコルを採用し得る。
いくつかの実施形態において、プロセッサ502は、ストレージインタフェース504を介して、メモリ505(例えば、図5に示されないRAM、ROMなど)と通信するように設けられ得る。ストレージインタフェース504は、限定されないが、シリアルアドバンストテクノロジーアタッチメント(SATA)、インテグレーティドドライブエレクトロニクス(IDE)、IEEE-1394、ユニバーサルシリアルバス(USB)、ファイバチャネル、スモールコンピュータシステムインタフェース(SCSI)などといった接続プロトコルを採用した、メモリドライブ、リムーバブルディスクドライブなどを含むメモリ505に接続し得る。メモリドライブは、さらに、ドラム、磁気ディスクドライブ、磁気光学ドライブ、光学ドライブ、リダンダントアレイオブインディペンデントディスクス(RAID)、ソリッドステートメモリデバイス、ソリッドステートドライブなどを含み得る。
メモリ505は、限定されないが、ユーザインタフェース506、オペレーティングシステム507などを含む、プログラムコンポーネントまたはデータベースコンポーネントのコレクションを記憶し得る。いくつかの実施形態において、コンピュータシステム500は、本開示に記載されたようなデータ、変数、レコードなどといったユーザ/アプリケーションデータを記憶し得る。このようなデータベースは、OracleまたはSybaseなどのフォールトトレラント、リレーショナル、スケーラブル、セキュアデータベースとして実装され得る。
オペレーティングシステム507は、コンピュータシステム500のリソース管理及び運用を容易にし得る。オペレーティングシステムの例は、限定されないが、APPLE MACINTOSH(登録商標) OS X,、UNIX(登録商標)、UNIX系システムディストリビューション(例えば、BERKELEY SOFTWARE DISTRIBUTION(商標)(BSD)、FREEBSD(商標)、NETBSD(商標)、OPENBSD(商標)など)、LINUX DISTRIBUTIONS(商標) (例えば、RED HAT(商標)、UBUNTU(商標)、KUBUNTU(商標)など)、IBM(商標) OS/2、MICROSOFT(商標) WINDOWS(登録商標)(XP(商標)、VISTA(商標)/7/8、10など)、APPLE(登録商標) IOS(商標)、GOOGLE(登録商標) ANDROID(登録商標)、BLACKBERRY(登録商標) OSなどを含む。
いくつかの実施形態において、コンピュータシステム500は、ウェブブラウザ508格納プログラムコンポーネントを実装し得る。ウェブブラウザ508は、ハイパーテキスト閲覧アプリケーション、例えば、MICROSOFT(登録商標) INTERNET EXPLORER(商標)、GOOGLE(登録商標) CHROME(商標)、MOZILLA(登録商標) FIREFOX(商標)、APPLE(登録商標) SAFARI(商標)などであり得る。セキュアなウェブブラウジングは、セキュアハイパーテキストトランスポートプロトコル(HTTPS)、セキュアソケットレイヤ(SSL)、トランスポートレイヤセキュリティ(TLS)などを使用して提供され得る。ウェブブラウザ708は、AJAX(商標)、DHTML(商標)、ADOBE(登録商標) FLASH(登録商標)、JAVASCRIPT(登録商標)、JAVA(登録商標)、アプリケーションプログラミングインタフェース(API)などといったファシリティを利用し得る。いくつかの実施形態において、コンピュータシステム500は、メールサーバ格納プログラムコンポーネントを実装し得る。メールサーバは、Microsoft Exchangeなどのインターネットメールサーバであり得る。メールサーバは、ASP(商標)、ACTIVEX(商標)、ANSI(商標) C++/C#、MICROSOFT(登録商標)、.NET(商標)、CGI SCRIPTS(商標)、JAVA(登録商標)、JAVASCRIPT(登録商標)、PERL(商標)、PHP(商標)、PYTHON(商標)、WEBOBJECTS(商標)などといったファシリティを利用し得る。メールサーバは、インターネットメッセージアクセスプロトコル(IMAP)、メッセージングアプリケーションプログラミングインタフェース(MAPI)、MICROSOFT(登録商標) exchange、ポストオフィスプロトコル(POP)、シンプルメールトランスファープロトコル(SMTP)などといった通信プロトコルを利用し得る。いくつかの実施形態において、コンピュータシステム500は、メールクライアント格納プログラムコンポーネントを実装し得る。メールクライアントは、APPLE(登録商標) MAIL(商標)、MICROSOFT(登録商標) ENTOURAGE(商標)、MICROSOFT(登録商標) OUTLOOK(商標)、MOZILLA(登録商標) THUNDERBIRD(商標)などといったメール閲覧アプリケーションであり得る。
さらには、1つ以上のコンピュータ可読記憶媒体は、本開示に従う実施形態を実装する際に利用され得る。コンピュータ可読記憶媒体は、プロセッサによって読み取り可能な情報またはデータが記憶され得る任意のタイプの物理メモリを指す。それゆえ、コンピュータ可読記憶媒体は、プロセッサ(複数可)に、本明細書に記載されたそれらの実施形態に従うステップまたはステージを実行させる命令を含む、1つ以上のプロセッサによる実行のための命令を記憶し得る。「コンピュータ可読媒体」との用語は、有形の品目を含み、かつ搬送波及び一時的な信号を除外する、すなわち、非一時的であると、理解されるものである。例は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、及び任意の他の知られている物理記憶媒体を含む。
本開示の一実施形態は、データ駆動型アプリケーションの性能を向上させ、例えば、高データセキュリティ及び低バンド幅要件を伴ってユーザプライバシーを保全しながら、予測/レコメンデーション精度を高める。
本開示の一実施形態は、ユーザレコード全体ではなく、データモデルのみが解析のためにサーバに供給されることから、バンド幅要件を低減する。
本開示の一実施形態は、差分プライベートノイズ付加を使用してデータを変換することによって、ユーザプライバシーを維持する。
一実施形態において、ユーザレコードに付加されたランダムに生成されたノイズの量は、プライバシー要件に基づいて低減され、機械学習モデルの高精度化及びデータ駆動型アプリケーションの性能向上につながる。
本開示の一実施形態は、コンピュテーションをデータソースへと向かわせ、それゆえ、データセキュリティを高め、帯域幅要件を低減する。
記載された動作は、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせを製造する標準のプログラミング及び/または工学手法を使用する方法、システム、または製品として実装され得る。記載された動作は、「非一時的コンピュータ可読媒体」に保持されたコードとして実装されてもよく、プロセッサは、コンピュータ可読媒体からコードを読み取って実行し得る。プロセッサは、クエリを処理及び実行することが可能な、マイクロプロセッサ及びプロセッサのうちの少なくとも一方である。非一時的コンピュータ可読媒体は、磁気記憶媒体(例えば、ハードディスクドライブ、フロッピーディスク、テープなど)、光学ストレージ(CD-ROM、DVD、光ディスクなど)、揮発性メモリデバイス及び不揮発性メモリデバイス(例えば、EEPROM、ROM、PROM、RAM、DRAM、SRAM、フラッシュメモリ、ファームウェア、プログラマブルロジックなど)などといった媒体を含み得る。さらに、非一時的コンピュータ可読媒体は、一時的なものを除くすべてのコンピュータ可読媒体を含む。記載された動作を実装するコードは、さらに、ハードウェアロジック(例えば、集積回路チップ、プログラマブルゲートアレイ(PGA)、特定用途向け集積回路(ASIC)など)で実装され得る。
またさらに、記載された動作を実装するコードは、「伝送信号」で実装されてもよく、送信信号は、空間を通して、または光ファイバ、銅線などといった伝送媒体を通して伝搬し得る。コードまたはロジックが符号化された伝送信号は、さらに、無線信号、衛星伝送、無線、赤外線信号、Bluetoothなどを含み得る。コードまたはロジックが符号化された伝送信号は、送信局によって送信され、かつ受信局によって受信されることが可能であり、伝送信号において符号化されたコードまたはロジックは、復号化され、受信及び送信の局またはデバイスにおけるハードウェアまたは非一時的コンピュータ可読媒体に記憶され得る。「製品」は、コードが実装され得る、非一時的コンピュータ可読媒体、ハードウェアロジック、及び/または伝送信号を含む。記載された動作の実施形態を実装するコードが符号化されるデバイスは、コンピュータ可読媒体またはハードウェアロジックを含み得る。当然に、当業者は、本発明の範囲から逸脱することなくこの構成に多くの改変がなされ得ること、及び製品が当該分野で知られている好適な情報担持媒体を含み得ることを認識するであろう。
「一実施形態」、「実施形態(単数)」、「実施形態(複数)」、「その実施形態」、「それらの実施形態」、「1つ以上の実施形態」、「いくつかの実施形態」、及び「1つの実施形態」は、別段明確に定められない限り、「本発明(複数可)の(すべてではないが)1つ以上の実施形態」を意味する。
「含む(including)」、「含む(comprising)」、「有する」、及びそれらの変化形は、別段明確に定められない限り、「含むが、限定されない」を意味する。
挙げられた項目の列記は、別段明確に定められない限り、項目のいずれかまたはすべてが相互に排他的であることを含意しない。
「a」、「an」、「the」は、別段明確に定められない限り、「1つ以上」を意味する。互いに通信するいくつかの構成要素を有する一実施形態の説明は、すべてのこのような構成要素が必要とされることを含意しない。これとは反対に、本発明の広範囲にわたる可能な実施形態を例示するために、多様な任意選択の構成要素が記載されている。
本明細書に単一のデバイスまたは物品が記載される場合、単一のデバイス/物品の代わりに2つ以上のデバイス/物品が(それらが協働するか否かにかかわらず)使用され得ることは、直ちに明らかであろう。同様に、本明細書に2つ以上のデバイスまたは物品が(それらが協働するか否かにかかわらず)記載される場合、2つ以上のデバイスまたは物品の代わりに単一のデバイス/物品が使用され得ること、または示された数のデバイスまたはプログラムに代えて異なる数のデバイス/物品が使用され得ることは、直ちに明らかであろう。デバイスの機能性及び/または特徴は、このような機能性/特徴を有するものとして明示的に記載されていない1つ以上の他のデバイスによって、代替的に具現化されてもよい。それゆえ、本発明の他の実施形態は、そのデバイス自体を含む必要がない。
図5の例示された動作は、特定のイベントが特定の順序で起こることを示す。代替実施形態において、特定の動作は、異なる順序で実行され、改変され、または除去されてもよい。その上、上述のロジックにステップが追加され、記載された実施形態にさらに適合してもよい。さらに、本明細書に記載された動作は、順次に起こってもよく、または特定の動作が、並列に処理されてもよい。またさらに、動作は、単一の処理装置によって、または分散した処理装置によって実行されてもよい。
最後に、本明細書で使用される言葉は、原理的に、読みやすさ及び教授の目的で選択されており、この言葉は、発明主題をかたどったり縁取ったりするためには選択されていない場合がある。したがって、本発明の範囲は、本詳細な説明によってではなく、本明細書に基づく出願に関して発行される任意の特許請求の範囲によって限定されることが意図されている。よって、本発明の実施形態の開示は、以下の特許請求の範囲に明記された本発明の範囲を限定するものではなく、例示的であることが意図されている。
様々な態様及び実施形態が本明細書に開示されているが、他の態様及び実施形態は、当業者に明らかであろう。本明細書に開示された様々な態様及び実施形態は、例示の目的のためであって、限定的とする意図はなく、真の範囲及び趣旨は、以下の特許請求の範囲によって示される。
100…環境、101…1つ以上のプライバシー保護デバイス、105…1つ以上のソース、106…1つ以上の解析モデル、109…I/Oインタフェース、111…メモリ、113…プロセッサ、115…サーバ、200…データ、201…ユーザデータ、203…機密データ、205…非機密データ、207…プライバシー保護レコード、209…他のデータ、211…モジュール、213…通信モジュール、215…特徴判定モジュール、217…クラスタリングモジュール、219…値生成モジュール、221…マッピングモジュール、223…保護データ供給モジュール、225…他のモジュール、500…コンピュータシステム、501…I/Oインタフェース、502…プロセッサ、503…ネットワークスインタフェース、504…ストレージインタフェース、505…メモリ、506…ユーザインタフェース、507…オペレーティングシステム、508…ウェブブラウザ、512…入力デバイス、513…出力デバイス、514…1つ以上のソース、515…1つ以上の解析デバイス

Claims (11)

  1. データ解析システムのプライバシー保護データを生成する方法であって、
    1つ以上のプライバシー保護デバイス(101)によって、1つ以上のソース(105)から受信された複数のユーザの各々と関連付けられたユーザレコードから、機密特徴及び非機密特徴を判定することと、
    前記1つ以上のプライバシー保護デバイス(101)によって、擬似識別子及び非擬似機密識別子を含む前記機密特徴により、前記ユーザレコードを、あらかじめ定義されたクラスタリング手法を使用して複数のクラスタにクラスタ化することと、
    前記1つ以上のプライバシー保護デバイス(101)によって、前記複数のクラスタの各クラスタにおける各擬似識別子を、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マップし、各非擬似機密識別子を、対応するマップされた値と、ランダムに生成された値とを用いて、マップすることであって、前記マップされた擬似識別子、前記マップされた非擬似機密識別子、及び前記非機密特徴を使用して、ユーザプライバシー保護レコードを生成する、マップすることと、
    前記1つ以上のプライバシー保護デバイス(101)の各々によって、一様にサンプルされたユーザプライバシー保護レコードを、1つ以上のデータモデルを生成するために、対応する1つ以上の機械学習モデルに供給することと、を含む、方法。
  2. 前記1つ以上のソース(105)が、パブリックプラットフォーム及びプライベートプラットフォーム、IOTゲートウェイデバイス、ならびにリポジトリを含む、請求項1に記載の方法。
  3. 前記機密特徴が、前記ユーザレコードからユーザを特定することを可能にする直接の識別子を含み、前記直接の識別子が、前記ユーザレコードに前記クラスタリング手法を施す前に消去される、請求項1に記載の方法。
  4. 前記ランダムに生成された値が、クラスタサイズ、リポジトリドメインの機密のレベル、及び前記ユーザレコードにおける特徴の機密度に基づいて決定される、請求項1に記載の方法。
  5. 前記ユーザプライバシー保護レコードが、あらかじめ定義されたアグリゲーション手法を使用して均一にサンプルされる、請求項1に記載の方法。
  6. データ解析システムのプライバシー保護データを生成する方法であって、
    1つ以上の解析モデル(106)によって、対応する1つ以上のプライバシー保護デバイス(101)から、均一にサンプルされたユーザプライバシー保護レコードを受信することであって、前記均一にサンプルされたユーザプライバシー保護レコードが、請求項1のステップを使用して、受信されたユーザレコードから生成される、受信することと、
    前記1つ以上の解析モデル(106)の各々によって、関連付けられた均一にサンプルされたユーザプライバシー保護レコードを処理して、データモデルを生成することと、
    前記1つ以上の解析モデル(106)の各々によって、生成された前記データモデルをサーバ(115)に送信することであって、前記サーバ(115)が、前記1つ以上の解析モデル(106)の各々から受信された前記データモデルを組み合わせて、機械学習の予測及びレコメンデーションのうちの1つに使用される最終的なデータモデルを生成する、送信することと、を含む、方法。
  7. データ解析システムにおいてプライバシー保護データを生成するプライバシー保護デバイス(101)であって、
    プロセッサ(113)と、
    前記プロセッサ(113)に通信可能に結合されたメモリ(111)とを含み、前記メモリ(111)がプロセッサ命令を記憶しており、前記プロセッサ命令が、実行時に、前記プロセッサ(113)に、
    1つ以上のソース(105)からの複数のユーザの各々と関連付けられた受信されたユーザレコードから、機密特徴及び非機密特徴を判定することと、
    擬似識別子及び非擬似機密識別子を含む前記機密特徴により、前記ユーザレコードを、あらかじめ定義されたクラスタリング手法を使用して複数のクラスタにクラスタ化することと、
    前記複数のクラスタの各クラスタにおける各擬似識別子を、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マップし、各非擬似機密識別子を、対応するマップされた値と、ランダムに生成された値とを用いて、マップすることであって、前記マップされた擬似識別子、前記マップされた非擬似機密識別子、及び前記非機密特徴を使用して、ユーザプライバシー保護レコードを生成する、マップすることと、
    一様にサンプルされたユーザプライバシー保護レコードを、1つ以上のデータモデルを生成する対応する1つ以上の機械学習モデルに供給することと、を行わせる、プライバシー保護デバイス(101)。
  8. 前記1つ以上のソース(105)が、パブリックプラットフォーム及びプライベートプラットフォーム、IOTゲートウェイデバイス、ならびにリポジトリを含む、請求項7に記載のプライバシー保護デバイス(101)。
  9. 前記機密特徴が、前記ユーザレコードからユーザを特定することを可能にする直接の識別子を含み、前記プロセッサが、前記ユーザレコードに前記クラスタリング手法を施す前に前記直接の識別子を消去する、請求項7に記載のプライバシー保護デバイス(101)。
  10. 前記プロセッサ(113)が、クラスタサイズ、リポジトリドメインの機密のレベル、及び前記ユーザレコードにおける特徴の機密度に基づいて、前記ランダムに生成された値を決定する、請求項7に記載のプライバシー保護デバイス(101)。
  11. 前記プロセッサ(113)が、あらかじめ定義されたアグリゲーション手法を使用して、前記ユーザプライバシー保護レコードを均一にサンプルする、請求項7に記載のプライバシー保護デバイス(101)。
JP2021138542A 2020-08-31 2021-08-27 データ解析システムのプライバシー保護データを生成する方法及びデバイス Active JP7165795B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN202041037547 2020-08-31
IN202041037547 2020-08-31

Publications (2)

Publication Number Publication Date
JP2022041957A JP2022041957A (ja) 2022-03-11
JP7165795B2 true JP7165795B2 (ja) 2022-11-04

Family

ID=80500084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021138542A Active JP7165795B2 (ja) 2020-08-31 2021-08-27 データ解析システムのプライバシー保護データを生成する方法及びデバイス

Country Status (1)

Country Link
JP (1) JP7165795B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688420B (zh) * 2021-07-30 2024-04-30 国电南瑞南京控制系统有限公司 一种基于聚类的差分隐私用电采集数据隐私保护方法及装置
KR102648905B1 (ko) * 2023-02-21 2024-03-18 (주)이지서티 프라이버시 보호 수준을 설정할 수 있는 데이터 변조 방법 및 장치

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304782A (ja) 2006-05-10 2007-11-22 Nec Corp データセット選択装置および実験計画システム
WO2013080365A1 (ja) 2011-12-01 2013-06-06 株式会社日立製作所 秘匿検索方法および秘匿検索装置
JP2015041121A (ja) 2013-08-20 2015-03-02 株式会社日立製作所 販売予測システム及び販売予測方法
JP2016018379A (ja) 2014-07-08 2016-02-01 Kddi株式会社 プライバシー保護装置、方法及びプログラム
US20160036860A1 (en) 2013-03-15 2016-02-04 Telefonaktiebolaget L M Ericsson (Publ) Policy based data processing
JP2016091306A (ja) 2014-11-05 2016-05-23 株式会社東芝 予測モデル作成方法
US20180181878A1 (en) 2016-12-28 2018-06-28 Samsung Electronics Co., Ltd. Privacy-preserving transformation of continuous data
JP2018533087A (ja) 2016-09-22 2018-11-08 三菱電機株式会社 データ撹乱装置およびデータ撹乱システム
WO2019012343A1 (en) 2017-07-12 2019-01-17 International Business Machines Corporation ANONYMOUS ENCOUNTERED DATA
JP2019512128A (ja) 2016-02-22 2019-05-09 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法
CN111079174A (zh) 2019-11-21 2020-04-28 中国电力科学研究院有限公司 基于匿名化及差分隐私技术的用电数据脱敏方法及系统
JP2020109592A (ja) 2019-01-07 2020-07-16 株式会社東芝 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP2020115311A (ja) 2019-01-18 2020-07-30 オムロン株式会社 モデル統合装置、モデル統合方法、モデル統合プログラム、推論システム、検査システム、及び制御システム

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304782A (ja) 2006-05-10 2007-11-22 Nec Corp データセット選択装置および実験計画システム
WO2013080365A1 (ja) 2011-12-01 2013-06-06 株式会社日立製作所 秘匿検索方法および秘匿検索装置
US20160036860A1 (en) 2013-03-15 2016-02-04 Telefonaktiebolaget L M Ericsson (Publ) Policy based data processing
JP2015041121A (ja) 2013-08-20 2015-03-02 株式会社日立製作所 販売予測システム及び販売予測方法
JP2016018379A (ja) 2014-07-08 2016-02-01 Kddi株式会社 プライバシー保護装置、方法及びプログラム
JP2016091306A (ja) 2014-11-05 2016-05-23 株式会社東芝 予測モデル作成方法
JP2019512128A (ja) 2016-02-22 2019-05-09 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法
JP2018533087A (ja) 2016-09-22 2018-11-08 三菱電機株式会社 データ撹乱装置およびデータ撹乱システム
US20180181878A1 (en) 2016-12-28 2018-06-28 Samsung Electronics Co., Ltd. Privacy-preserving transformation of continuous data
WO2019012343A1 (en) 2017-07-12 2019-01-17 International Business Machines Corporation ANONYMOUS ENCOUNTERED DATA
JP2020109592A (ja) 2019-01-07 2020-07-16 株式会社東芝 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP2020115311A (ja) 2019-01-18 2020-07-30 オムロン株式会社 モデル統合装置、モデル統合方法、モデル統合プログラム、推論システム、検査システム、及び制御システム
CN111079174A (zh) 2019-11-21 2020-04-28 中国电力科学研究院有限公司 基于匿名化及差分隐私技术的用电数据脱敏方法及系统

Also Published As

Publication number Publication date
JP2022041957A (ja) 2022-03-11

Similar Documents

Publication Publication Date Title
US20230237106A1 (en) Systems and methods for discovering social accounts
US11580680B2 (en) Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items
US10692141B2 (en) Multi-layer machine learning classifier with correlative score
US20230127891A1 (en) Systems and methods of managing data rights and selective data sharing
US10147041B2 (en) Compatibility prediction based on object attributes
US9619661B1 (en) Personal information data manager
US10866849B2 (en) System and method for automated computer system diagnosis and repair
US20200082112A1 (en) Systems and methods for secure prediction using an encrypted query executed based on encrypted data
JP7165795B2 (ja) データ解析システムのプライバシー保護データを生成する方法及びデバイス
US10318546B2 (en) System and method for test data management
US10892042B2 (en) Augmenting datasets using de-identified data and selected authorized records
US20170177682A1 (en) System and method for translating versioned data service requests and responses
JP2019512128A (ja) データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法
US11531656B1 (en) Duplicate determination in a graph
US20230127625A1 (en) Anonymization system and method
US10116627B2 (en) Methods and systems for identifying targeted content item for user
WO2022108947A1 (en) Memory-free anomaly detection for risk management systems
US11295326B2 (en) Insights on a data platform
US20180181610A1 (en) Systems and methods for processing data service requests
US11741257B2 (en) Systems and methods for obtaining anonymized information derived from data obtained from external data providers
US20190197585A1 (en) Systems and methods for data storage and retrieval with access control
WO2021226875A1 (en) Customized data scanning in heterogeneous data storage environment
JP2023533476A (ja) ノイズの多いデータセットのマスタ企業特性データベースへの集約
US10795892B1 (en) Evaluating colliding data records
US20180210945A1 (en) System and method for performing data mining by parallel data clustering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221024

R150 Certificate of patent or registration of utility model

Ref document number: 7165795

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150