JP2022041957A

JP2022041957A - データ解析システムのプライバシー保護データを生成する方法及びデバイス

Info

Publication number: JP2022041957A
Application number: JP2021138542A
Authority: JP
Inventors: カシフシャウカトサイエド; Kashif Shaukat Sayed; 康文鈴木; Yasufumi Suzuki
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-08-31
Filing date: 2021-08-27
Publication date: 2022-03-11
Anticipated expiration: 2041-08-27
Also published as: JP7165795B2

Abstract

【課題】データモデルの高精度化及びデータ駆動型アプリケーションの性能向上につながる方法及びプライバシー保護デバイスを提供する。【解決手段】１つ以上のソース１０５から受信されたユーザレコードは、擬似識別子及び非擬似機密識別子を含む機密特徴により、複数のクラスタにクラスタ化される。各クラスタにおける各擬似識別子は、夫々のクラスタの計算された重心とランダムに生成された値とを用いてマップされる。各非擬似機密識別子は、対応するマップされた値とランダムに生成された値とを用いてマップされる。プライバシー保護デバイスの各々は、一様にサンプルされたユーザプライバシー保護レコードを、データモデルを生成するために対応する機械学習モデルに供給する。ユーザレコードに付加されたランダムに生成されたノイズの量は、ドメインリポジトリのプライバシー要件、機密特徴及び異なるユーザのレコードの凝集度レベルに基づいて低減される。【選択図】図１Ａ

Description

本主題は、一般に、データ保護に関し、より詳細には、限定されないが、データ解析システムのプライバシー保護データを生成する方法及びシステムに関する。

コンピュータ技術、ストレージ、及びネットワーク接続性が手頃に利用可能になるにつれ、すべてのドメインエリアにおけるコンピュータの多様な用途に起因して、データの量及び多様性が指数関数的に増大した。ユーザ固有のプライベートデータ及び機密データを含む大規模データが、パブリックドメイン及びパブリックリポジトリに格納されつつある。データ保持者は、より深い洞察を獲得し、かつ重要な決定を行う際に有用である隠微なパターンを特定する、第三者データアナリストに、このデータを公開することができる。

近年、世界中の政府が、家庭、車両、オフィス、健康モニタリングシステムなどにおけるＩｏＴデバイスによって継続的に生成される膨大な量のデジタルユーザデータを活用するスマートシティの創設を支援している。スマートシティ計画及び運用はまた、金融、健康、投資、保険、ソーシャルメディア、電気通信、サービスプロバイダ品質、及び司法情報に関する人口統計学的ユーザレコードを格納した様々なパブリック及びプライベートリポジトリ／プラットフォームからのデータも消費する。通常、データ解析は、多数のユーザからのデジタルレコードを利用し、人口統計学ベースの機械学習モデルを作成することによって解析を実行し、プランニング、モニタリング、リソース利用、及びプロアクティブなリスク管理のためのデータ駆動型アプリケーションを構築し得る。これらの解析によって消費されるユーザレコードは、ユーザ機密情報を包含する。ユーザ機密データに関する直接のコンピュテーションを許容すると、プライバシー問題が露呈される。それゆえ、データの指数関数的な増大と共に、プライバシー保全は、極めて重大な側面を残している。

現在、データのプライバシー保全問題に的をしぼる多くの手法及び機構が存在する。例えば、ユーザレコードを匿名化することは、１つの選択肢であるが、匿名化は、プライバシー懸念を解決しない。このようなデータレコード内の僅かなセットの匿名化フィールドでさえも、外部リポジトリ内の類似のフィールドと組み合わされて、このような外部データソースに存在するユーザを再特定し、ユーザ機密情報を信頼できないエンティティに明らかにし得る。従来の手法のうちの１つは、差分プライバシーアルゴリズムを使用して、ユーザ再特定を回避し、プライバシーを保全することを含む。しかしながら、ユーザデータを変換するために使用されるこのような差分プライバシーアルゴリズムは、異なるドメインリポジトリ、機密特徴、及びすべてのユーザレコードに対して、それらが所望のプライバシー要件の点で相違していても、同じプライバシーパラメータを利用する。この手法がプライバシーの単一レベルにのみ対応するため、すべてのリポジトリ、特徴、及びユーザレコードに対して、最小のプライバシー損失が考えられる。結果として、最小のプライバシー損失は、ユーザデータへの高ノイズ付加につながる。多量のノイズは、このようなデータで訓練された機械学習モデルの予測精度を低いものとし、このようなモデルを利用するデータ駆動型アプリケーションの性能を劣化させる。

ＵＳ２０１８０１８１８７８Ａ１

さらに、このような差分プライバシーアルゴリズムによる変換されたユーザデータは、機械学習解析を実行するクラウドサーバに送られる。すべてのユーザ情報を中央サーバに収集することは、セキュリティ問題（攻撃者が中央サーバを侵害しさえすればよいため）と、膨大な量のユーザデータを伝送することに対する帯域問題とを引き起こす。従来のシステムがデータを圧縮することによってこの問題を解決しようとする場合でも、そうである。しかしながら、圧縮後でも、特にユーザレコードの特徴が互いに独立している場合、データ量は高いままである。このことは、低モデル精度につながる情報損失を引き起こす、データのディメンションの低下につながる。

本開示セクションの本背景で開示された情報は、本発明の全般的な背景の理解を高めるためのものにすぎず、本情報が当業者にすでに知られている先行技術をなすことの自認であるとも、いかなる形態の示唆であるとも捉えるものではない。

一実施形態において、本開示は、データ解析システムのプライバシー保護データを生成する方法に関し得る。この方法は、１つ以上のソースから受信された、複数のユーザの各々と関連付けられたユーザレコードから、機密特徴及び非機密特徴を判定することを含む。ユーザレコードは、擬似識別子及び非擬似機密識別子を含む機密特徴により、あらかじめ定義されたクラスタリング手法を使用して複数のクラスタにクラスタ化される。複数のクラスタの各クラスタにおける各擬似識別子は、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マップされ、各非擬似機密識別子は、対応するマップされた値と、ランダムに生成された値とを用いて、マップされる。マップされた擬似識別子、マップされた非擬似機密識別子、及び非機密特徴の各々を使用して、ユーザプライバシー保護レコードを生成する。その後、一様にサンプルされたユーザプライバシー保護レコードは、１つ以上のデータモデルを生成するために、対応する１つ以上の機械学習モデルに供給される。

一実施形態において、本開示は、データ解析システムのプライバシー保護データを生成するプライバシー保護デバイスに関し得る。プライバシー保護デバイスは、複数のプロセッサと、プロセッサに通信可能に結合されたメモリとを含むことができ、メモリは、プロセッサ実行可能命令を記憶しており、プロセッサ実行可能命令は、実行時に、プライバシー保護デバイスに、１つ以上のソースから受信された、複数のユーザの各々と関連付けられたユーザレコードから、機密特徴及び非機密特徴を判定することを行わせ得る。ユーザレコードは、擬似識別子及び非擬似機密識別子を含む機密特徴により、あらかじめ定義されたクラスタリング手法を使用して複数のクラスタにクラスタ化される。プライバシー保護デバイスは、複数のクラスタの各クラスタにおける各擬似識別子を、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マップし、各非擬似機密識別子を、対応するマップされた値と、ランダムに生成された値とを用いて、マップする。マップされた擬似識別子、マップされた非擬似機密識別子、及び非機密特徴の各々を使用して、ユーザプライバシー保護レコードを生成する。その後、プライバシー保護デバイスは、一様にサンプルされたユーザプライバシー保護レコードを、１つ以上のデータモデルを生成するために、対応する１つ以上の機械学習モデルに供給する。

以上の概要は、例示的であるに過ぎず、いかなるようにも限定的とする意図はない。上述した例示的な態様、実施形態、及び特徴に加えて、さらなる態様、実施形態、及び特徴が、図面及び以下の詳細な説明を参照することによって明らかになるであろう。

図１Ａは、本開示のいくつかの実施形態による、データ解析システムのプライバシー保護データを生成するための典型的な環境を例示するものである。図１Ｂは、本開示のいくつかの実施形態による、生成されたデータモデルをサーバに送信するための典型的な環境を例示するものである。図２は、本開示のいくつかの実施形態による、プライバシー保護デバイスの詳細なブロック図を例示するものである。図３は、本開示のいくつかの実施形態による、人口統計学ベースのデータ解析の典型的な実施形態を示す。図４Ａは、本開示のいくつかの実施形態による、データ解析システムのプライバシー保護データを生成する方法を示すフローチャートを例示するものである。図４Ｂは、本開示のいくつかの実施形態による、生成されたデータモデルをサーバに送信する方法を示すフローチャートを例示するものである。図５は、本開示に従う実施形態を実装するための典型的なコンピュータシステムのブロック図を例示するものである。

本開示に組み込まれ、かつ本開示の一部を構成する、添付図面は、典型的な実施形態を例示するものであり、説明と共に、開示された原理を説明するのに役立つ。図において、参照番号の左端の桁（複数可）は、参照番号が最初に現れる図を特定する。同様の特徴及び構成要素を参照するために、各図の全体にわたって同じ番号が使用されている。本主題の実施形態によるシステム及び／または方法のいくつかの実施形態は、ここでは、単なる例として、及び添付図を参照して、記載されている。

本明細書におけるいかなるブロック図も、本主題の原理を具現化する例示的なシステムの概念図を表すことは、当業者に分かるはずである。同様に、いかなるフローチャート、フロー図、状態遷移図、擬似コードなども、コンピュータ可読媒体で実質的に表され、かつ、コンピュータまたはプロセッサによって、このようなコンピュータまたはプロセッサが明示的に示されるか否かにかかわらず実行され得る、様々な処理を表すことは、分かるであろう。

本書において、「典型的な」との語は、「例、事例、または例示として役立つこと」を意味するために、本明細書で使用される。本明細書に記載された本主題の実施形態または実装形態は、必ずしも、他の実施形態よりも好ましいとも、有利であるとも、解釈されるものではない。

本開示は様々な改変物及び代替形態を受け入れることができるが、それらのうちの特有の実施形態が、図面に例として示されており、以下に詳述される。ただし、本開示を開示された特定の形態に限定する意図はなく、これとは反対に、本開示は、本開示の範囲内に入るすべての改変物、均等物、及び代替物に及ぶことを理解されたい。

「含む（ｃｏｍｐｒｉｓｅｓ）」、「含む（ｃｏｍｐｒｉｓｉｎｇ）」との用語、またはそれらの任意の他の変化形は、非排他的包含に及ぶことが意図されており、これにより、構成要素またはステップの列挙を含むセットアップ、デバイス、または方法は、これらの構成要素またはステップのみを含むのではなく、明確に列挙されない、またはこのようなセットアップまたはデバイスまたは方法に固有でない、他の構成要素またはステップを含み得る。つまり、「．．．を含む（ｃｏｍｐｒｉｓｅｓ．．．ａ）」が続くシステムまたは装置における１つ以上の要素は、それ以上の制約なしに、このシステムまたは方法における他の要素または追加の要素の存在を排除しない。

本開示のそれらの実施形態の以下の詳細な説明において、この一部をなし、かつ例示として、本開示が実施され得る特有の実施形態を示す、添付図面への参照がなされる。これらの実施形態は、当業者が本開示を実施することを可能にするのに十分に詳細に記載されており、他の実施形態が利用され得ること、及び本開示の範囲から逸脱することなく変更がなされ得ることが理解できるはずである。したがって、以下の説明は、限定的な意味に捉えるものではない。

本開示の実施形態は、データ解析システムにおいてプライバシー保護データを生成する方法及びプライバシー保護デバイスに関する。一実施形態において、データ解析は、データセットが包含する情報に関する結論及び洞察を引き出すために、及び専用システムに支援されて決定を行うために、データセットを調べるプロセスを、指し得る。一般に、データ解析は、多数のユーザからのデジタルレコードを利用し、人口統計学ベースの機械学習モデルを作成することによって解析を実行し、プランニング、モニタリング、リソース利用、及びプロアクティブなリスク管理のためのデータ駆動型アプリケーションを構築し得る。これらの解析によって消費されるデータセットは、ユーザ機密情報を包含する。通常、コンピュテーションに使用されるいかなるデータセットも、プライバシー問題にさらされる。現在、多くの既存のシステムが、ユーザ機密データのプライバシー保護を提供する。しかしながら、これらのシステムは、異なるドメインリポジトリ、機密特徴、及びユーザレコードに対して、それらが所望のプライバシー要件の点で相違していても、同じプライバシーパラメータを利用する。これらのシステムがプライバシーの単一レベルにのみ対応するため、すべてのリポジトリ、特徴、及びユーザレコードに対して、最小のプライバシー損失が考えられる。結果として、最小のプライバシー損失は、データセットに多量のノイズを導入し、多量のノイズは、訓練された機械学習モデルの予測精度を低いものとし、このようなモデルを利用するデータ駆動型アプリケーションの性能を劣化させる。加えて、既存のシステムは、保護されたユーザデータを、機械学習解析を実行する中央サーバに伝送する。しかしながら、すべてのユーザ情報を中央サーバに収集することは、セキュリティ及び帯域幅の問題を引き起こす。

それゆえ、このような場合に本発明は、ユーザレコードから機密特徴及び非機密特徴を判定し、機密特徴によりユーザレコードを複数のクラスタにクラスタ化する。ユーザレコードの機密特徴は、機密特徴のタイプに応じて、それぞれのクラスタの計算された重心、または、対応する値及びランダムに生成された値、のいずれか一方にマップされる。ランダムに生成された値は、差分プライベートノイズ値を指す。これらのノイズ付加は、ドメインリポジトリ、機密特徴、及びユーザレコードのプライバシー要件に基づく。ユーザプライバシー保護レコードは、マップされた機密特徴及び非機密特徴に基づいて生成される。その後、一様にサンプルされたユーザプライバシー保護レコードは、１つ以上のデータモデルを生成するために、対応する１つ以上の機械学習モデルに供給される。結果として、本開示は、ユーザレコードへのノイズ付加を低減し、それゆえ、ユーザプライバシーを保全し、かつユーザ再特定を回避しながら、訓練されたデータモデルの予測精度を高め、データ駆動型アプリケーションの性能を向上させる。また、本開示は、ユーザレコード全体ではなく、データモデルのみが解析のためにサーバに供給されることから、高いデータセキュリティを伴って帯域幅要件を低減する。

図１Ａは、本開示のいくつかの実施形態による、データ解析システムのプライバシー保護データを生成するための典型的な環境を例示するものである。

図１Ａに示すように、環境１００は、ピアツーピアネットワーク（図１Ａには明示的に示されない）を介して対応する１つ以上の解析モデル１０６（解析モデル１０６_１、解析モデル１０６_２、．．．、及び解析モデル１０６_Ｎなど）に接続された１つ以上のプライバシー保護デバイス１０１（プライバシー保護デバイス１０１_１、プライバシー保護デバイス１０１_２、．．．、及びプライバシー保護デバイス１０１_Ｎなど）を含む。１つ以上の解析モデル１０６は、対応するプライバシー保護デバイスから受信された異なるユーザレコードに基づく１つ以上のデータモデルを生成し得る、任意のタイプの解析システムであり得る。一実施形態において、１つ以上の解析モデル１０６は、特有のタイプのユーザレコードに対して訓練され得る。さらに、１つ以上のプライバシー保護デバイス１０１の各々は、１つ以上のソース１０５_１に接続されたプライバシー保護デバイス１０１_１、１つ以上のソース１０５_２に接続されたプライバシー保護デバイス１０１_２などといった、（明示的に示されない通信ネットワークを介して）対応する１つ以上のソース１０５に接続されている。通常、ユーザレコードのほとんどが、異なるソースに継続的に収集及び格納される。１つ以上のソース１０５は、限定されないが、パブリックプラットフォーム及びプライベートプラットフォーム、ＩＯＴゲートウェイデバイス、ならびにリポジトリを含み得る。例えば、スマート病院などのエンティティは、すべての患者のレコードを収集及び保持するリポジトリまたはＩＯＴゲートウェイを保持し得る。患者のレコードは、データモデルを生成する種々のデータ解析システムによって利用され得る。このような状況において、１つ以上のプライバシー保護デバイス１０１は、プライバシー保護データを生成する。１つ以上のプライバシー保護デバイス１０１は、ラップトップ、デスクトップコンピュータ、ノートブック、スマートフォン、タブレット、サーバ、及び任意の他のコンピューティングデバイスなどの任意のコンピューティングデバイスであり得る。当業者であれば、明示的に言及されない任意の他のデバイスもまた、本開示において１つ以上のプライバシー保護デバイス１０１として使用され得ることを理解するであろう。一実施形態において、１つ以上のプライバシー保護デバイス１０１は、スタンドアロンデバイスであり得る。これに代えて、１つ以上のプライバシー保護デバイス１０１は、対応する１つ以上のソース１０５内に構成されてもよい。

さらに、プライバシー保護デバイス１０１_１は、Ｉ／Ｏインタフェース１０９_１、メモリ１１１_１、及びプロセッサ１１３_１を含む。同様に、１つ以上のプライバシー保護デバイス１０１の各々は、対応するＩ／Ｏインタフェース、メモリ、及びプロセッサ（Ｉ／Ｏインタフェース１０９、メモリ１１１、及びプロセッサ１１３と総称する）を含み得る。Ｉ／Ｏインタフェース１０９は、それぞれの１つ以上のソース１０５からユーザレコードを受信するように構成され得る。Ｉ／Ｏインタフェース１０９から受信されたユーザレコードは、メモリ１１１に記憶され得る。メモリ１１１は、それぞれの１つ以上のプライバシー保護デバイス１０１のプロセッサ１１３に通信可能に結合され得る。メモリ１１１はまた、プロセッサ１１３にプライバシー保護データを生成する命令を実行させ得るプロセッサ命令も記憶し得る。

一般に、任意のタイプのデータ解析を実行するために、複数のユーザのユーザレコードが必要である。データ解析のために１つ以上のソース１０５のうちのいずれかから複数のユーザのユーザレコードが要求されると、ユーザレコードは、対応する１つ以上のプライバシー保護デバイス１０１を通過する。一実施形態において、データ解析及び要求のタイプに応じて、ソースの数、よって対応するプライバシー保護デバイスの数が、変動し得る。それぞれの１つ以上のソース１０５からユーザレコードを受信すると、１つ以上のプライバシー保護デバイス１０１は、ユーザレコードを処理し、ユーザレコードと関連付けられた機密特徴及び非機密特徴を判定し得る。一実施形態において、既存の知られている手法をユーザレコードに適用して、機密特徴及び非機密特徴を判定し得る。機密特徴は、直接の識別子、擬似識別子、及び非擬似機密識別子を含み得る。直接の識別子は、ユーザレコードからユーザを特定することを可能にする。一例として、会社では、顧客名、顧客ＩＤ、銀行口座番号などといった識別子である。

擬似識別子は、ユーザと直接には関連付けられない特徴であるが、擬似識別子は、擬似識別子を他の擬似識別子と組み合わせてユーザを特定することができるように、ユーザと相関し得る。例えば、顧客の年齢、性別、住所などの識別子である。非擬似機密識別子は、ユーザと直接には関連付けられないがドメイン／フィールドと直接に関連付けられる特徴であり、ユーザを特定するために擬似特徴と共に使用され得る。例えば、新／旧顧客、顧客によって購入された品目などといった識別子である。機密特徴及び非機密特徴を判定すると、１つ以上のプライバシー保護デバイス１０１は、ユーザレコードから直接の識別子を消去し得る。さらに、擬似識別子及び非擬似機密識別子は、複数のクラスタにクラスタ化される。クラスタリングは、凝集型階層的クラスタリング（ＡｇｇｌｏｍｅｒａｔｉｖｅＨｉｅｒａｒｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇ、ＡＨＣ）などのあらかじめ定義されたクラスタリング手法を使用して実行され得る。当業者であれば、明示的に言及されない任意の他のクラスタリング手法もまた、本開示において機密特徴をクラスタ化するのに使用され得ることを理解するであろう。クラスタリング時に、１つ以上のプライバシー保護デバイス１０１は、任意の既存の手法を使用して各クラスタの重心を計算する。加えて、各擬似識別子及び非擬似機密識別子に対して、ランダムに生成された値が決定される。一実施形態において、ランダムに生成された値は、ガウス分布から選択される差分プライベートノイズ値である。ランダムに生成された値は、クラスタサイズ、重大、高、中、及び低などのリポジトリドメインの機密のレベルに基づいて決定される。例えば、健康ドメインレコードは、レコメンデーションドメインレコードに優先して重大であるとみなされる。クラスタサイズは、各クラスタにおけるデータポイントの数を定義し得る。一実施形態において、密なクラスタは、低ノイズスケールを必要とし、アウトライヤは、高ノイズスケールを必要とし得る。さらに、ランダムに生成された値は、重大、高、中、及び低などのユーザレコードにおける特徴の機密度に基づいて決定される。例えば、位置情報特徴は、ショッピング情報特徴よりも機密性が高い。

１つ以上のプライバシー保護デバイス１０１は、各クラスタにおける各擬似識別子を、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いてマップし、各非擬似機密識別子を、対応するマップされた値と、それぞれの識別子と関連付けられたランダムに生成された値とを用いて、マップする。機密特徴がマップされると、１つ以上のプライバシー保護デバイス１０１は、マップされた擬似識別子、マップされた非擬似機密識別子、及び非機密特徴の各々を使用して、均一にサンプルされたユーザプライバシー保護レコードを生成し得る。ユーザプライバシー保護レコードは、レコードの総数が同じままであるように、マップされた値を用いて均一にサンプルされる。ユーザプライバシー保護レコードは、ブートストラップアグリゲーション（ＢｏｏｔｓｔｒａｐＡｇｇｒｅｇａｔｉｏｎ、ＢＴ）手法などのあらかじめ定義されたアグリゲーション手法を使用して、均一にサンプルされる。その後、均一にサンプルされたユーザプライバシー保護レコードは、１つ以上のプライバシー保護デバイス１０１の各々によって、１つ以上のデータモデルを生成するために、対応する１つ以上の解析モデル１０６に供給される。図１Ｂは、本開示のいくつかの実施形態による、生成されたデータモデルをサーバに送信するための典型的な環境を例示するものである。１つ以上の解析モデル１０６は、ニューラルネットワークを使用してユーザプライバシー保護レコードを処理して、データモデルを生成し得る。ニューラルネットワークは、隠れ層の数、各層におけるニューロンの数、初期重み、あらかじめ定義されたハイパーパラメータ、及び活性化関数などの観点での、あらかじめ定義されたアーキテクチャを含み得る。それゆえ、１つ以上の解析モデル１０６の各々は、生成されたデータモデルパラメータをサーバ１１５に送信する。加えて、１つ以上の解析モデル１０６の各々は、データモデルを再構築するために、ニューラルネットワークのアーキテクチャ詳細、ハイパーパラメータ、及び活性化関数をサーバ１１５に送信する。サーバ１１５は、１つ以上の解析モデルの各々から受信されたデータモデルを組み合わせて、機械学習の予測及びレコメンデーションのうちの１つに使用される最終的なデータモデルを生成する。

図２は、本開示のいくつかの実施形態による、プライバシー保護デバイスの詳細なブロック図を例示するものである。

図２に示すように、１つ以上のプライバシー保護デバイス１０１は、本明細書で詳述されるデータ２００及び１つ以上のモジュール２１１を含み得る。一実施形態において、データ２００は、メモリ１１１内に記憶され得る。データ２００は、例えば、ユーザデータ２０１、機密データ２０３、非機密データ２０５、プライバシー保護レコード２０７、及び他のデータ２０９を含み得る。

ユーザデータ２０１は、１つ以上のソース１０５から受信されたユーザレコードを含み得る。ユーザレコードは、複数のユーザと関連付けられている。ユーザレコードは、複数のユーザの各々と関連付けられた機密情報及び非機密情報を含み得る。ユーザデータ２０１は、任意のドメインと関連付けられ得る。例えば、緊急サービス及び健康保険プランニングについて、スマートシティ病院からのユーザレコードが、収集され、１つ以上のプライバシー保護デバイス１０１に供給され得る。このような場合のユーザレコードは、人口統計学的レベルユーザ健康レコード（例えば、ナショナル・ヘルス・スタック）、人身事故データ、救急レコード、ユーザの健康器具モニタリング（ＩｏＴゲートウェイ）などを含み得る。同様に、別の例において、人口統計学的ユーザプリファレンスに基づく広告の解析について、１つ以上のソース１０５からからのユーザレコードは、電子商取引の位置別ユーザ購入、モール内に展開されたＩｏＴセンサから収集され得る現在のショッピングトレンドなどを含み得る。

機密データ２０３は、直接の識別子、擬似識別子、及び非擬似機密識別子を含み得る。直接の識別子は、ユーザレコードからユーザを直接特定することを可能にする。例えば、会社では、顧客名、顧客ＩＤ、銀行口座番号などといった識別子である。

擬似識別子は、ユーザと直接には関連付けられない特徴であるが、擬似識別子は、擬似識別子を他の擬似識別子と組み合わせてユーザを特定することができるように、ユーザと相関し得る。例えば、上記の例を考えると、顧客の年齢、性別、住所などの識別子である。非擬似機密識別子は、ユーザと直接には関連付けられないがドメイン／フィールドと直接に関連付けられる特徴であり、ユーザを特定するために擬似特徴と共に使用され得る。例えば、上記の例を考えると、新／旧顧客、顧客によって購入された品目などといった識別子である。

非機密データ２０５は、ユーザを特定するように相関していない場合があるユーザレコードを含み得る。例えば、上記の例を考えると、顧客による支払い額、購入品目についてのフィードバック、品目詳細などといった特徴である。

プライバシー保護レコード２０７は、受信されたユーザレコードに対して生成された、均一にサンプルされたユーザプライバシー保護レコードを含み得る。

他のデータ２０９は、１つ以上のプライバシー保護デバイス１０１の様々な機能を実行する１つ以上のモジュール２１１によって生成された、一時データ及び一時ファイルを含むデータを格納し得る。

一実施形態において、メモリ１１１内のデータ２００は、１つ以上のプライバシー保護デバイス１０１のメモリ１１１内に存在する１つ以上のモジュール２１１によって処理される。一実施形態において、１つ以上のモジュール２１１は、専用のユニットとして実装され得る。本明細書で使用される、モジュールとの用語は、特定用途向け集積回路（ＡＳＩＣ）、電子回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルシステムオンチップ（ＰＳｏＣ）、組み合わせ論理回路、及び／または所望の機能性を提供する他の好適なコンポーネントを指す。いくつかの実装形態において、１つ以上のモジュール２１１は、１つ以上のプライバシー保護デバイス１０１の１つ以上の機能を実行するために、プロセッサ１１３に通信可能に結合され得る。１つ以上のモジュール２１１は、本開示において定義される機能性を有して構成されると、新奇なハードウェアをもたらすこととなる。

１つの実装形態において、１つ以上のモジュール２１１は、限定されないが、通信モジュール２１３、特徴判定モジュール２１５、クラスタリングモジュール２１７、値生成モジュール２１９、マッピングモジュール２２１、及び保護データ供給モジュール２２３を含み得る。１つ以上のモジュール２１１はまた、１つ以上のプライバシー保護デバイス１０１の多種多様な機能性を実行する他のモジュール２２５も含み得る。一実施形態において、他のモジュール２２５は、複数のクラスタの各クラスタの重心を計算し得る重心判定モジュールを含み得る。

通信モジュール２１３は、対応する１つ以上のソース１０５からユーザレコードを受信し得る。さらに、通信モジュール２１３は、１つ以上のデータモデルを処理及び生成するために、均一にサンプルされたユーザプライバシー保護レコードを、対応する１つ以上の解析モデル１０６に送信し得る。通信モジュール２１３は、受信されたユーザレコードを、特徴判定モジュール２１５に送信する。

特徴判定モジュール２１５は、ユーザレコードを処理することによって、ユーザレコードの特徴を判定し得る。特徴判定モジュール２１５は、ユーザレコードの機密特徴及び非機密特徴を判定し得る。一実施形態において、特徴判定モジュール２１５は、任意の既存の手法を使用してユーザレコードを処理して、ユーザレコードの機密特徴及び非機密特徴を判定し得る。ユーザレコードの機密特徴を、さらに処理して、直接の識別子、擬似識別子、及び非擬似機密識別子を判定し得る。機密特徴を判定すると、特徴判定モジュール２１５は、ユーザレコードから直接の識別子を消去し得る。

クラスタリングモジュール２１７は、擬似識別子及び非擬似識別子により、ユーザレコードを複数のクラスタにクラスタ化し得る。クラスタリングモジュール２１７は、凝集型階層的クラスタリング（ＡｇｇｌｏｍｅｒａｔｉｖｅＨｉｅｒａｒｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇ、ＡＨＣ）手法を使用して、クラスタ化し得る。

値生成モジュール２１９は、擬似識別子及び非擬似機密識別子の各々に対してランダムノイズ値を生成し得る。一実施形態において、ランダムに生成された値は、ガウス分布から選択される差分プライベートノイズ値である。値生成モジュール２１９は、クラスタサイズ、リポジトリドメインの機密のレベル、及びユーザレコードにおける特徴の機密度に基づいて、ランダムに生成された値を生成し得る。クラスタサイズは、各クラスタにおけるデータポイントの数を定義し得る。一実施形態において、密なクラスタは、低ノイズスケールを必要とし、アウトライヤは、高ノイズスケールを必要とし得る。重大、高、中、及び低などの、リポジトリドメインの機密性が、定義され得る。例えば、健康ドメインレコードは、重大レコードである。重大、高、中、及び低などの、ユーザレコードにおける特徴の機密度が、定義され得る。例えば、位置情報は、重大特徴である。一実施形態において、ランダムに生成された値は、数値であり得る。

マッピングモジュール２２１は、重心判定モジュールからの各クラスタの重心と、値生成モジュール２１９からのランダムに生成された値とを、受信し得る。それゆえ、これらの情報を受信すると、マッピングモジュール２２１は、それぞれのクラスタの重心と、関連付けられたランダムに生成された値とを用いて、各クラスタにおける各擬似識別子をマップし得る。例えば、クラスタの重心値が「７０」であり、ランダムに生成された値が「２．５」であることを考える。このような場合に、対応する擬似識別子の値は、「７２．５」としてマップされる。また、マッピングモジュール２２１は、対応するマップされた値と、対応するランダムに生成された値とを用いて、各非擬似機密識別子をマップする。例えば、「顧客によって購入された医薬品」などの非擬似機密識別子の値が「４５」であり、ランダムに生成された値が「－３」であることを考える。このような場合に、非擬似機密識別子の値は、「４２」としてマップされる。

保護データ供給モジュール２２３は、マップされた擬似識別子、マップされた非擬似機密識別子、及び非機密特徴を使用して、均一にサンプルされたユーザプライバシー保護レコードを生成する。保護データ供給モジュール２２３は、ブートストラップアグリゲーション（ＢＴ）手法などのあらかじめ定義されたアグリゲーション手法を使用することによって、均一にサンプルされたユーザプライバシー保護レコードを生成し得る。ユーザレコードのアグリゲーションの一例が、続いて図３に提供されている。

図３は、本開示のいくつかの実施形態による、人口統計学ベースのデータ解析の典型的な実施形態を示す。

図３は、人口統計学的ユーザプリファレンスに基づくスマートシティ広告を生成するための典型的な表現を示す。特に、地域におけるユーザのプリファレンスの履歴データ及び現在のトレンドから計算される機械学習モデル予測に基づく関連地域広告を発行する、スマートシティデータ駆動型アプリケーションを構築するためである。ユーザレコードが機密であるため、このような場合におけるデータは、データ駆動型アプリケーションへの供給の前にプライバシー保護データを生成するために、１つ以上のプライバシー保護デバイス１０１に供給される。アクセスされるユーザレコードが、百貨店に設置されたＩｏＴセンサからの、履歴データ、ならびにユーザの現在のショッピングレコード及び現在のトレンドであることを考える。履歴データ及び現在のショッピングレコードは、食料品電子商取引リポジトリ３０１、医薬品電子商取引リポジトリ３０３、旅行予約リポジトリ３０５などからアクセスされ得る。百貨店からの現在のトレンドは、家庭用品、医薬品在庫などに対するＩｏＴゲートウェイ３０７を介してアクセスされ得る。

リポジトリの各々から受信されたユーザレコードを処理して、直接の識別子、擬似識別子、及び非擬似機密識別子などの機密特徴と、ユーザレコードの関連付けられたドメインの機密レベルと併せた特徴の関連付けられた機密レベルである非機密特徴とを、判定し得る。例えば、機密特徴及び非機密特徴の以下の判定を考える。

医薬品電子商取引リポジトリの場合：＜ドメインレベル機密：重大＞
１）顧客ＩＤ．＜直接の識別子：ドロップ＞
２）顧客名．＜直接の識別子：ドロップ＞
３）年齢．＜擬似識別子：機密：高＞
４）性別．＜０／１にマップされる：擬似識別子：機密：高＞
５）住所．＜緯度／経度にマップされる：擬似識別子：機密：高＞
６）クレジット／デビットカード．＜直接の識別子：ドロップ＞
７）新／旧顧客．＜０／１にマップされる：非擬似機密識別子：機密：中＞
８）購入された医薬品．＜医薬品ＩＤにマップされる：非擬似機密識別子：機密：重大＞
９）医薬品の量．＜非擬似機密識別子：機密：重大＞
１０）日時．＜数値にマップされる：非擬似機密識別子：機密：中＞
１１）支払額．＜非機密特徴＞
１２）選択されたＥＭＩサービス．＜非機密特徴＞
１３）メディクレーム（Ｍｅｄｉｃｌａｉｍ）保険の登録．＜非機密特徴＞
１４）請求された電子商取引バウチャー．＜非機密特徴＞
１５）電子商取引サービスのフィードバック．＜１０のスケール：非機密特徴＞
食料品電子商取引リポジトリの場合：＜ドメインレベル機密：低＞
１）顧客ＩＤ．＜直接の識別子：ドロップ＞
２）顧客名．＜直接の識別子：ドロップ＞
３）年齢．＜擬似識別子：機密：高＞
４）性別．＜０／１にマップされる：擬似識別子：機密：高＞
５）住所．＜緯度／経度にマップされる：擬似識別子：機密：高＞
６）クレジット／デビットカード．＜直接の識別子：ドロップ＞
７）食料品品目１．＜非機密特徴＞
８）品目１の量．＜非機密特徴＞
９）食料品品目２．＜非機密特徴＞
１０）品目２の量．＜非機密特徴＞
１１）食料品品目３．＜非機密特徴＞
１２）品目３の量．＜非機密特徴＞
１３）請求された電子商取引バウチャー．＜非機密特徴＞
１４）電子商取引サービスのフィードバック．＜１０のスケール：非機密特徴＞
旅行予約リポジトリの場合：＜ドメインレベル機密：高＞；
百貨店からの医薬品在庫の場合．＜ドメインレベル機密：重大＞；
百貨店からの家庭用品の場合．＜ドメインレベル機密：低＞．

その後、１つ以上のプライバシー保護デバイス１０１は、上述したように、直接の識別子を消去し得る。以下の表１は、上記で特定されたような、擬似識別子、非擬似機密識別子、及び非機密特徴の典型的な分布を示す。

ここで、ドメイン機密＜ＤＣ／ＤＨ／ＤＭ／ＤＬ＞：重大／高／中／低；
擬似識別子＜ＱＣ／ＱＨ／ＱＭ／ＱＬ＞：重大／高／中／低；
非擬似機密識別子＜ＮＱＣ／ＮＱＨ／ＮＱＭ／ＮＱＬ＞：重大／高／中／低；
非機密特徴：ＮＳＦ；及び
表の各行は、ユーザレコードであり、表の各列は、特徴である。

さらに、１つ以上のプライバシー保護デバイス１０１は、擬似識別子及び非擬似機密識別子を複数のクラスタにクラスタ化し得る。例えば、現シナリオにおいて、３つのクラスタ、すなわち、第１のクラスタに対応する行１及び行２、第２のクラスタに対応する行３、行４、及び行５、ならびに第３のクラスタに対応する行６が、特定される。

以下の表２は、異なるクラスタを異なる陰影で示す。

ここで、Ｎ：機密特徴の数
Ｍ：非機密特徴の数
Ｆ：特徴（機密＋非機密）の総数：Ｎ＋Ｍ
Ｖａ，ｂ：ａ番目のユーザレコードのｂ^tｈ特徴の値である。

さらに、各クラスタ「１、２、及び３」について、重心値が計算される。
クラスタＣ１＜Ｃ１１，Ｃ１２，Ｃ１３，．．．．．，Ｃ１Ｎ＞．．．．．（１）
クラスタＣ２＜Ｃ２１，Ｃ２２，Ｃ２３，．．．．．，Ｃ２Ｎ＞．．．．．（２）
クラスタＣ３＜Ｃ３１，Ｃ３２，Ｃ３３，．．．．．，Ｃ３Ｎ＞．．．．．（３）

１つ以上のプライバシー保護デバイス１０１は、以下のように、各擬似識別子及び非擬似機密識別子をマップする。

各擬似識別子について：
Ｖｉ，ｊを、Ｃｔ，ｊ＜Ｖｉ，ｊは重心Ｃｔに属する＞＋Ｎｉ，ｊ＜ｉ，ｊにおけるノイズ値＞で置換し、
ここで、Ｎｉ，ｊ＝ガウス分布から選択されたランダムに生成された値である
一実施形態において、ガウス分布スケール＝ｆ（選択された差分プライバシーアルゴリズムのパラメータ｛イプシロンε，デルタδ，差分直径Ｒ｝及びプライバシー要件｛クラスタサイズ，ドメイン機密，特徴機密｝）である。機密レベルが高いほど、ノイズスケールが高い。

各非擬似機密識別子について：
Ｖｉ，ｊを、Ｖｉ，ｊ＜ｉ，ｊにおける値＞＋Ｎｉ，ｊ＜ｉ，ｊにおけるノイズ値＞で置換し、
ここで、Ｎｉ，ｊ＝ガウス分布から選択されたランダムに生成された値である
一実施形態において、ガウス分布スケール＝ｆ（選択された差分プライバシーアルゴリズムのパラメータ｛イプシロンε，デルタδ，差分直径Ｒ｝及びプライバシー要件｛クラスタサイズ，ドメイン機密，特徴機密｝）である。機密レベルが高いほど、ノイズスケールが高い。

以下の表３は、マッピング後のユーザレコードの表現を示す。

その後、ランダムに生成された値の付加後のユーザレコードは、モデルを生成するために１つ以上の解析モデル１０６に送信するために、ブートストラップアグリゲーション手法を使用して均一にサンプルされる。例えば、サンプリングの前後のユーザレコードは、以下のように表される。
前：＜Ｕ１，Ｕ２，Ｕ３，Ｕ４，Ｕ５，Ｕ６，Ｕ７，Ｕ８，Ｕ９，Ｕ１０＞
後：＜Ｕ７，Ｕ２，Ｕ５，Ｕ１，Ｕ３，Ｕ７，Ｕ６，Ｕ１０，Ｕ９，Ｕ８＞、Ｕ４は選択されず、Ｕ７は２回選択されるようになっている。

それゆえ、１つ以上のプライバシー保護デバイス１０１は、均一にサンプルされたユーザプライバシー保護レコードを、１つ以上の解析モデル１０６に供給し、解析モデル１０６は、データモデルを生成してサーバ１１５に送信し得る。サーバ１１５は、１つ以上の解析モデル１０６の各々からデータモデルを受信して、個々のユーザの詳細を開示することなく、かつ再特定を回避し、それゆえユーザプライバシーを維持して、地域レベルでの広告のサジェスチョンを提供するのに役立つ最終的なモデルを生成し得る。

図４Ａは、本開示のいくつかの実施形態による、データ解析システムのプライバシー保護データを生成する方法を示すフローチャートを例示するものである。

図４に例示するように、方法４００は、データ解析システムのプライバシー保護データを生成する１つ以上のブロックを含む。方法４００は、コンピュータ実行可能命令の一般的なコンテキストで記述され得る。一般に、コンピュータ実行可能命令は、特定の機能を実行し、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、プロシージャ、モジュール、及び関数を含み得る。

方法４００が記載される順序を限定と解釈されるものとする意図はなく、任意の数の記載された方法ブロックを任意の順序で組み合わせて、本方法を実装することができる。加えて、個々のブロックを、本明細書に記載された主題の範囲から逸脱することなく、本方法から削除してもよい。さらには、本方法を、任意の好適なハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせで実装することができる。

ブロック４０１において、機密特徴及び非機密特徴がユーザレコードから、特徴判定モジュール２１５によって判定される。ユーザレコードは、１つ以上のソース１０５から複数のユーザについて受信される。

ブロック４０３において、ユーザレコードが擬似識別子及び非擬似機密識別子により、クラスタリングモジュール２１７によって、凝集型階層的クラスタリング（ＡＨＣ）などのあらかじめ定義されたクラスタリング手法を使用して、複数のクラスタにクラスタ化される。

ブロック４０５において、複数のクラスタの各クラスタにおける各擬似識別子が、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マッピングモジュール２２１によってマップされる。また、各非擬似機密識別子は、対応するマップされた値と、ランダムに生成された値とを用いて、マップされる。ランダムに生成された値は、クラスタサイズ、リポジトリドメインの機密のレベル、及びユーザレコードにおける特徴の機密度に基づいて決定される。続いて、マップされた擬似識別子、マップされた非擬似機密識別子、及び非機密特徴の各々を使用して、ユーザプライバシー保護レコードを生成する。

ブロック４０７において、保護データ供給モジュール２２３によって、均一にサンプルされたユーザプライバシー保護レコードが生成され、１つ以上のデータモデルを生成するために、対応する１つ以上の解析モデル１０６に供給される。均一にサンプルされたユーザプライバシー保護レコードは、あらかじめ定義されたアグリゲーション手法を使用することによって生成される。

図４Ｂは、本開示のいくつかの実施形態による、生成されたデータモデルをサーバに送信する方法を示すフローチャートを例示するものである。

ブロック４０９において、均一にサンプルされたユーザプライバシー保護レコードは、対応する１つ以上のプライバシー保護デバイス１０１から、１つ以上の解析モデル１０６によって受信される。均一にサンプルされたユーザプライバシー保護レコードは、図４Ａにおいて上述されたようなステップを使用して、受信されたユーザレコードから生成される。

ブロック４１１において、均一にサンプルされたユーザプライバシー保護レコードを、１つ以上の解析モデル１０６によって処理して、データモデルを生成する。

ブロック４１３において、生成されたデータモデルの各々は、１つ以上の解析モデル１０６によってサーバ１１５に送信される。サーバ１１５は、１つ以上の解析モデル１０６の各々から受信されたデータモデルを組み合わせて、機械学習の予測及びレコメンデーションのうちの１つに使用される最終的なデータモデルを生成する。

コンピューティングシステム
図５は、本開示に従う実施形態を実装するための典型的なコンピュータシステム５００のブロック図を例示するものである。一実施形態において、コンピュータシステム５００は、１つ以上のプライバシー保護デバイス１０１であり得る。コンピュータシステム５００は、中央処理装置（「ＣＰＵ」または「プロセッサ」）５０２を含み得る。プロセッサ５０２は、データ解析システムのプライバシー保護データを生成する少なくなくとも１つのデータプロセッサを含み得る。プロセッサ５０２は、集積システム（バス）コントローラ、メモリ管理制御装置、浮動小数点ユニット、グラフィック処理装置、デジタル信号処理装置などといった専用処理装置を含み得る。

プロセッサ５０２は、Ｉ／Ｏインタフェース５０１を介して１つ以上の入力／出力（Ｉ／Ｏ）デバイス（図示せず）と通信するように設けられ得る。Ｉ／Ｏインタフェース５０１は、限定されないが、オーディオ、アナログ、デジタル、モノラル、ＲＣＡ、ステレオ、ＩＥＥＥ１３９４、シリアルバス、ユニバーサルシリアルバス（ＵＳＢ）、赤外線、ＰＳ／２、ＢＮＣ、同軸、コンポーネント、コンポジット、デジタルビジュアルインタフェース（ＤＶＩ）、高精細度マルチメディアインタフェース（ＨＤＭＩ（登録商標））、ＲＦアンテナ、Ｓビデオ、ＶＧＡ、ＩＥＥＥ８０２．ｎ／ｂ／ｇ／ｎ／ｘ、Ｂｌｕｅｔｏｏｔｈ、セルラ（例えば、符号分割多重アクセス（ＣＤＭＡ）、高速パケットアクセス（ＨＳＰＡ＋）、グローバルシステムフォーモバイルコミュニケーションズ（ＧＳＭ）、ロングタームエボルーション（ＬＴＥ）、ＷｉＭａｘなど）などといった、通信プロトコル／方法を採用し得る。

Ｉ／Ｏインタフェース５０１を使用して、コンピュータシステム５００は、入力デバイス５１２及び出力デバイス５１３などの１つ以上のＩ／Ｏデバイスと通信し得る。例えば、入力デバイス５１２は、アンテナ、キーボード、マウス、ジョイスティック、（赤外線）リモートコントロール、カメラ、カードリーダ、ファクシミリ機、ドングル、バイオメトリックリーダ、マイクロフォン、タッチスクリーン、タッチパッド、トラックボール、スタイラス、スキャナ、ストレージデバイス、トランシーバ、ビデオデバイス／ソースなどであり得る。出力デバイス５１３は、プリンタ、ファクシミリ機、ビデオディスプレイ（例えば、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）、プラズマ、プラズマディスプレイパネル（ＰＤＰ）、有機発光ダイオードディスプレイ（ＯＬＥＤ）など）、オーディオスピーカなどであり得る。

いくつかの実施形態において、プロセッサ５０２は、ネットワークスインタフェース５０３を介してピアネットワークと通信するように設けられ得る。ネットワークスインタフェース５０３は、限定されないが、直接接続、Ｅｔｈｅｒｎｅｔ（例えば、ツイストペア１０／１００／１０００ＢａｓｅＴ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、トークンリング、ＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎ／ｘなどを含む接続プロトコルを採用し得る。コンピュータシステム５００は、ピアツーピアネットワークを介して対応する１つ以上のソース５１４及び１つ以上の解析モデル５１５と通信し得る。ネットワークインタフェース５０３は、限定されないが、直接接続、Ｅｔｈｅｒｎｅｔ（例えば、ツイストペア１０／１００／１０００ＢａｓｅＴ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、トークンリング、ＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎ／ｘなどを含む接続プロトコルを採用し得る。

いくつかの実施形態において、プロセッサ５０２は、ストレージインタフェース５０４を介して、メモリ５０５（例えば、図５に示されないＲＡＭ、ＲＯＭなど）と通信するように設けられ得る。ストレージインタフェース５０４は、限定されないが、シリアルアドバンストテクノロジーアタッチメント（ＳＡＴＡ）、インテグレーティドドライブエレクトロニクス（ＩＤＥ）、ＩＥＥＥ-１３９４、ユニバーサルシリアルバス（ＵＳＢ）、ファイバチャネル、スモールコンピュータシステムインタフェース（ＳＣＳＩ）などといった接続プロトコルを採用した、メモリドライブ、リムーバブルディスクドライブなどを含むメモリ５０５に接続し得る。メモリドライブは、さらに、ドラム、磁気ディスクドライブ、磁気光学ドライブ、光学ドライブ、リダンダントアレイオブインディペンデントディスクス（ＲＡＩＤ）、ソリッドステートメモリデバイス、ソリッドステートドライブなどを含み得る。

メモリ５０５は、限定されないが、ユーザインタフェース５０６、オペレーティングシステム５０７などを含む、プログラムコンポーネントまたはデータベースコンポーネントのコレクションを記憶し得る。いくつかの実施形態において、コンピュータシステム５００は、本開示に記載されたようなデータ、変数、レコードなどといったユーザ／アプリケーションデータを記憶し得る。このようなデータベースは、ＯｒａｃｌｅまたはＳｙｂａｓｅなどのフォールトトレラント、リレーショナル、スケーラブル、セキュアデータベースとして実装され得る。

オペレーティングシステム５０７は、コンピュータシステム５００のリソース管理及び運用を容易にし得る。オペレーティングシステムの例は、限定されないが、ＡＰＰＬＥＭＡＣＩＮＴＯＳＨ（登録商標）ＯＳＸ，、ＵＮＩＸ（登録商標）、ＵＮＩＸ系システムディストリビューション（例えば、ＢＥＲＫＥＬＥＹＳＯＦＴＷＡＲＥＤＩＳＴＲＩＢＵＴＩＯＮ（商標）（ＢＳＤ）、ＦＲＥＥＢＳＤ（商標）、ＮＥＴＢＳＤ（商標）、ＯＰＥＮＢＳＤ（商標）など）、ＬＩＮＵＸＤＩＳＴＲＩＢＵＴＩＯＮＳ（商標）（例えば、ＲＥＤＨＡＴ（商標）、ＵＢＵＮＴＵ（商標）、ＫＵＢＵＮＴＵ（商標）など）、ＩＢＭ（商標）ＯＳ／２、ＭＩＣＲＯＳＯＦＴ（商標）ＷＩＮＤＯＷＳ（登録商標）（ＸＰ（商標）、ＶＩＳＴＡ（商標）／７／８、１０など）、ＡＰＰＬＥ（登録商標）ＩＯＳ（商標）、ＧＯＯＧＬＥ（登録商標）ＡＮＤＲＯＩＤ（登録商標）、ＢＬＡＣＫＢＥＲＲＹ（登録商標）ＯＳなどを含む。

いくつかの実施形態において、コンピュータシステム５００は、ウェブブラウザ５０８格納プログラムコンポーネントを実装し得る。ウェブブラウザ５０８は、ハイパーテキスト閲覧アプリケーション、例えば、ＭＩＣＲＯＳＯＦＴ（登録商標）ＩＮＴＥＲＮＥＴＥＸＰＬＯＲＥＲ（商標）、ＧＯＯＧＬＥ（登録商標）ＣＨＲＯＭＥ（商標）、ＭＯＺＩＬＬＡ（登録商標）ＦＩＲＥＦＯＸ（商標）、ＡＰＰＬＥ（登録商標）ＳＡＦＡＲＩ（商標）などであり得る。セキュアなウェブブラウジングは、セキュアハイパーテキストトランスポートプロトコル（ＨＴＴＰＳ）、セキュアソケットレイヤ（ＳＳＬ）、トランスポートレイヤセキュリティ（ＴＬＳ）などを使用して提供され得る。ウェブブラウザ７０８は、ＡＪＡＸ（商標）、ＤＨＴＭＬ（商標）、ＡＤＯＢＥ（登録商標）ＦＬＡＳＨ（登録商標）、ＪＡＶＡＳＣＲＩＰＴ（登録商標）、ＪＡＶＡ（登録商標）、アプリケーションプログラミングインタフェース（ＡＰＩ）などといったファシリティを利用し得る。いくつかの実施形態において、コンピュータシステム５００は、メールサーバ格納プログラムコンポーネントを実装し得る。メールサーバは、ＭｉｃｒｏｓｏｆｔＥｘｃｈａｎｇｅなどのインターネットメールサーバであり得る。メールサーバは、ＡＳＰ（商標）、ＡＣＴＩＶＥＸ（商標）、ＡＮＳＩ（商標）Ｃ＋＋／Ｃ＃、ＭＩＣＲＯＳＯＦＴ（登録商標）、．ＮＥＴ（商標）、ＣＧＩＳＣＲＩＰＴＳ（商標）、ＪＡＶＡ（登録商標）、ＪＡＶＡＳＣＲＩＰＴ（登録商標）、ＰＥＲＬ（商標）、ＰＨＰ（商標）、ＰＹＴＨＯＮ（商標）、ＷＥＢＯＢＪＥＣＴＳ（商標）などといったファシリティを利用し得る。メールサーバは、インターネットメッセージアクセスプロトコル（ＩＭＡＰ）、メッセージングアプリケーションプログラミングインタフェース（ＭＡＰＩ）、ＭＩＣＲＯＳＯＦＴ（登録商標）ｅｘｃｈａｎｇｅ、ポストオフィスプロトコル（ＰＯＰ）、シンプルメールトランスファープロトコル（ＳＭＴＰ）などといった通信プロトコルを利用し得る。いくつかの実施形態において、コンピュータシステム５００は、メールクライアント格納プログラムコンポーネントを実装し得る。メールクライアントは、ＡＰＰＬＥ（登録商標）ＭＡＩＬ（商標）、ＭＩＣＲＯＳＯＦＴ（登録商標）ＥＮＴＯＵＲＡＧＥ（商標）、ＭＩＣＲＯＳＯＦＴ（登録商標）ＯＵＴＬＯＯＫ（商標）、ＭＯＺＩＬＬＡ（登録商標）ＴＨＵＮＤＥＲＢＩＲＤ（商標）などといったメール閲覧アプリケーションであり得る。

さらには、１つ以上のコンピュータ可読記憶媒体は、本開示に従う実施形態を実装する際に利用され得る。コンピュータ可読記憶媒体は、プロセッサによって読み取り可能な情報またはデータが記憶され得る任意のタイプの物理メモリを指す。それゆえ、コンピュータ可読記憶媒体は、プロセッサ（複数可）に、本明細書に記載されたそれらの実施形態に従うステップまたはステージを実行させる命令を含む、１つ以上のプロセッサによる実行のための命令を記憶し得る。「コンピュータ可読媒体」との用語は、有形の品目を含み、かつ搬送波及び一時的な信号を除外する、すなわち、非一時的であると、理解されるものである。例は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、揮発性メモリ、不揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク、及び任意の他の知られている物理記憶媒体を含む。

本開示の一実施形態は、データ駆動型アプリケーションの性能を向上させ、例えば、高データセキュリティ及び低バンド幅要件を伴ってユーザプライバシーを保全しながら、予測／レコメンデーション精度を高める。

本開示の一実施形態は、ユーザレコード全体ではなく、データモデルのみが解析のためにサーバに供給されることから、バンド幅要件を低減する。

本開示の一実施形態は、差分プライベートノイズ付加を使用してデータを変換することによって、ユーザプライバシーを維持する。

一実施形態において、ユーザレコードに付加されたランダムに生成されたノイズの量は、プライバシー要件に基づいて低減され、機械学習モデルの高精度化及びデータ駆動型アプリケーションの性能向上につながる。

本開示の一実施形態は、コンピュテーションをデータソースへと向かわせ、それゆえ、データセキュリティを高め、帯域幅要件を低減する。

記載された動作は、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせを製造する標準のプログラミング及び／または工学手法を使用する方法、システム、または製品として実装され得る。記載された動作は、「非一時的コンピュータ可読媒体」に保持されたコードとして実装されてもよく、プロセッサは、コンピュータ可読媒体からコードを読み取って実行し得る。プロセッサは、クエリを処理及び実行することが可能な、マイクロプロセッサ及びプロセッサのうちの少なくとも一方である。非一時的コンピュータ可読媒体は、磁気記憶媒体（例えば、ハードディスクドライブ、フロッピーディスク、テープなど）、光学ストレージ（ＣＤ－ＲＯＭ、ＤＶＤ、光ディスクなど）、揮発性メモリデバイス及び不揮発性メモリデバイス（例えば、ＥＥＰＲＯＭ、ＲＯＭ、ＰＲＯＭ、ＲＡＭ、ＤＲＡＭ、ＳＲＡＭ、フラッシュメモリ、ファームウェア、プログラマブルロジックなど）などといった媒体を含み得る。さらに、非一時的コンピュータ可読媒体は、一時的なものを除くすべてのコンピュータ可読媒体を含む。記載された動作を実装するコードは、さらに、ハードウェアロジック（例えば、集積回路チップ、プログラマブルゲートアレイ（ＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）など）で実装され得る。

またさらに、記載された動作を実装するコードは、「伝送信号」で実装されてもよく、送信信号は、空間を通して、または光ファイバ、銅線などといった伝送媒体を通して伝搬し得る。コードまたはロジックが符号化された伝送信号は、さらに、無線信号、衛星伝送、無線、赤外線信号、Ｂｌｕｅｔｏｏｔｈなどを含み得る。コードまたはロジックが符号化された伝送信号は、送信局によって送信され、かつ受信局によって受信されることが可能であり、伝送信号において符号化されたコードまたはロジックは、復号化され、受信及び送信の局またはデバイスにおけるハードウェアまたは非一時的コンピュータ可読媒体に記憶され得る。「製品」は、コードが実装され得る、非一時的コンピュータ可読媒体、ハードウェアロジック、及び／または伝送信号を含む。記載された動作の実施形態を実装するコードが符号化されるデバイスは、コンピュータ可読媒体またはハードウェアロジックを含み得る。当然に、当業者は、本発明の範囲から逸脱することなくこの構成に多くの改変がなされ得ること、及び製品が当該分野で知られている好適な情報担持媒体を含み得ることを認識するであろう。

「一実施形態」、「実施形態（単数）」、「実施形態（複数）」、「その実施形態」、「それらの実施形態」、「１つ以上の実施形態」、「いくつかの実施形態」、及び「１つの実施形態」は、別段明確に定められない限り、「本発明（複数可）の（すべてではないが）１つ以上の実施形態」を意味する。

「含む（ｉｎｃｌｕｄｉｎｇ）」、「含む（ｃｏｍｐｒｉｓｉｎｇ）」、「有する」、及びそれらの変化形は、別段明確に定められない限り、「含むが、限定されない」を意味する。

挙げられた項目の列記は、別段明確に定められない限り、項目のいずれかまたはすべてが相互に排他的であることを含意しない。

「ａ」、「ａｎ」、「ｔｈｅ」は、別段明確に定められない限り、「１つ以上」を意味する。互いに通信するいくつかの構成要素を有する一実施形態の説明は、すべてのこのような構成要素が必要とされることを含意しない。これとは反対に、本発明の広範囲にわたる可能な実施形態を例示するために、多様な任意選択の構成要素が記載されている。

本明細書に単一のデバイスまたは物品が記載される場合、単一のデバイス／物品の代わりに２つ以上のデバイス／物品が（それらが協働するか否かにかかわらず）使用され得ることは、直ちに明らかであろう。同様に、本明細書に２つ以上のデバイスまたは物品が（それらが協働するか否かにかかわらず）記載される場合、２つ以上のデバイスまたは物品の代わりに単一のデバイス／物品が使用され得ること、または示された数のデバイスまたはプログラムに代えて異なる数のデバイス／物品が使用され得ることは、直ちに明らかであろう。デバイスの機能性及び／または特徴は、このような機能性／特徴を有するものとして明示的に記載されていない１つ以上の他のデバイスによって、代替的に具現化されてもよい。それゆえ、本発明の他の実施形態は、そのデバイス自体を含む必要がない。

図５の例示された動作は、特定のイベントが特定の順序で起こることを示す。代替実施形態において、特定の動作は、異なる順序で実行され、改変され、または除去されてもよい。その上、上述のロジックにステップが追加され、記載された実施形態にさらに適合してもよい。さらに、本明細書に記載された動作は、順次に起こってもよく、または特定の動作が、並列に処理されてもよい。またさらに、動作は、単一の処理装置によって、または分散した処理装置によって実行されてもよい。

最後に、本明細書で使用される言葉は、原理的に、読みやすさ及び教授の目的で選択されており、この言葉は、発明主題をかたどったり縁取ったりするためには選択されていない場合がある。したがって、本発明の範囲は、本詳細な説明によってではなく、本明細書に基づく出願に関して発行される任意の特許請求の範囲によって限定されることが意図されている。よって、本発明の実施形態の開示は、以下の特許請求の範囲に明記された本発明の範囲を限定するものではなく、例示的であることが意図されている。

様々な態様及び実施形態が本明細書に開示されているが、他の態様及び実施形態は、当業者に明らかであろう。本明細書に開示された様々な態様及び実施形態は、例示の目的のためであって、限定的とする意図はなく、真の範囲及び趣旨は、以下の特許請求の範囲によって示される。

１００…環境、１０１…１つ以上のプライバシー保護デバイス、１０５…１つ以上のソース、１０６…１つ以上の解析モデル、１０９…Ｉ／Ｏインタフェース、１１１…メモリ、１１３…プロセッサ、１１５…サーバ、２００…データ、２０１…ユーザデータ、２０３…機密データ、２０５…非機密データ、２０７…プライバシー保護レコード、２０９…他のデータ、２１１…モジュール、２１３…通信モジュール、２１５…特徴判定モジュール、２１７…クラスタリングモジュール、２１９…値生成モジュール、２２１…マッピングモジュール、２２３…保護データ供給モジュール、２２５…他のモジュール、５００…コンピュータシステム、５０１…Ｉ／Ｏインタフェース、５０２…プロセッサ、５０３…ネットワークスインタフェース、５０４…ストレージインタフェース、５０５…メモリ、５０６…ユーザインタフェース、５０７…オペレーティングシステム、５０８…ウェブブラウザ、５１２…入力デバイス、５１３…出力デバイス、５１４…１つ以上のソース、５１５…１つ以上の解析デバイス

Claims

データ解析システムのプライバシー保護データを生成する方法であって、
１つ以上のプライバシー保護デバイス（１０１）によって、１つ以上のソース（１０５）から受信された複数のユーザの各々と関連付けられたユーザレコードから、機密特徴及び非機密特徴を判定することと、
前記１つ以上のプライバシー保護デバイス（１０１）によって、擬似識別子及び非擬似機密識別子を含む前記機密特徴により、前記ユーザレコードを、あらかじめ定義されたクラスタリング手法を使用して複数のクラスタにクラスタ化することと、
前記１つ以上のプライバシー保護デバイス（１０１）によって、前記複数のクラスタの各クラスタにおける各擬似識別子を、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マップし、各非擬似機密識別子を、対応するマップされた値と、ランダムに生成された値とを用いて、マップすることであって、前記マップされた擬似識別子、前記マップされた非擬似機密識別子、及び前記非機密特徴を使用して、ユーザプライバシー保護レコードを生成する、マップすることと、
前記１つ以上のプライバシー保護デバイス（１０１）の各々によって、一様にサンプルされたユーザプライバシー保護レコードを、１つ以上のデータモデルを生成するために、対応する１つ以上の機械学習モデルに供給することと、を含む、方法。
前記１つ以上のソース（１０５）が、パブリックプラットフォーム及びプライベートプラットフォーム、ＩＯＴゲートウェイデバイス、ならびにリポジトリを含む、請求項１に記載の方法。
前記機密特徴が、前記ユーザレコードからユーザを特定することを可能にする直接の識別子を含み、前記直接の識別子が、前記ユーザレコードに前記クラスタリングを施す前に消去される、請求項１に記載の方法。
前記ランダムに生成された値が、クラスタサイズ、リポジトリドメインの機密のレベル、及び前記ユーザレコードにおける特徴の機密度に基づいて決定される、請求項１に記載の方法。
前記ユーザプライバシー保護レコードが、あらかじめ定義されたアグリゲーション手法を使用して均一にサンプルされる、請求項１に記載の方法。
データ解析システムのプライバシー保護データを生成する方法であって、
１つ以上の解析モデル（１０６）によって、対応する１つ以上のプライバシー保護デバイス（１０１）から、均一にサンプルされたユーザプライバシー保護レコードを受信することであって、前記均一にサンプルされたユーザプライバシー保護レコードが、請求項１のステップを使用して、受信されたユーザレコードから生成される、受信することと、
前記１つ以上の解析モデル（１０６）の各々によって、関連付けられた均一にサンプルされたユーザプライバシー保護レコードを処理して、データモデルを生成することと、
前記１つ以上の解析モデル（１０６）の各々によって、生成された前記データモデルをサーバ（１１５）に送信することであって、前記サーバ（１１５）が、前記１つ以上の解析モデル（１０６）の各々から受信された前記データモデルを組み合わせて、機械学習の予測及びレコメンデーションのうちの１つに使用される最終的なデータモデルを生成する、送信することと、を含む、方法。
データ解析システムにおいてプライバシー保護データを生成するプライバシー保護デバイス（１０１）であって、
プロセッサ（１１３）と、
前記プロセッサ（１１３）に通信可能に結合されたメモリ（１１１）とを含み、前記メモリ（１１１）がプロセッサ命令を記憶しており、前記プロセッサ命令が、実行時に、前記プロセッサ（１１１３）に、
１つ以上のソース（１０５）からの複数のユーザの各々と関連付けられた受信されたユーザレコードから、機密特徴及び非機密特徴を判定することと、
擬似識別子及び非擬似機密識別子を含む前記機密特徴により、前記ユーザレコードを、あらかじめ定義されたクラスタリング手法を使用して複数のクラスタにクラスタ化することと、
前記複数のクラスタの各クラスタにおける各擬似識別子を、それぞれのクラスタの計算された重心と、ランダムに生成された値とを用いて、マップし、各非擬似機密識別子を、対応するマップされた値と、ランダムに生成された値とを用いて、マップすることであって、前記マップされた擬似識別子、前記マップされた非擬似機密識別子、及び前記非機密特徴を使用して、ユーザプライバシー保護レコードを生成する、マップすることと、
一様にサンプルされたユーザプライバシー保護レコードを、１つ以上のデータモデルを生成する対応する１つ以上の機械学習モデルに供給することと、を行わせる、プライバシー保護デバイス（１０１）。
前記１つ以上のソース（１０５）が、パブリックプラットフォーム及びプライベートプラットフォーム、ＩＯＴゲートウェイデバイス、ならびにリポジトリを含む、請求項７に記載のプライバシー保護デバイス（１０１）。
前記機密特徴が、前記ユーザレコードからユーザを特定することを可能にする直接の識別子を含み、前記プロセッサが、前記ユーザレコードに前記クラスタリングを施す前に前記直接の識別子を消去する、請求項７に記載のプライバシー保護デバイス（１０１）。
前記プロセッサ（１１３）が、クラスタサイズ、リポジトリドメインの機密のレベル、及び前記ユーザレコードにおける特徴の機密度に基づいて、前記ランダムに生成された値を決定する、請求項７に記載のプライバシー保護デバイス（１０１）。
前記プロセッサ（１１３）が、あらかじめ定義されたアグリゲーション手法を使用して、前記ユーザプライバシー保護レコードを均一にサンプルする、請求項７に記載のプライバシー保護デバイス（１０１）。