JP2023543716A - 定量化された再識別化リスクを用いたデータ分析プライバシー・プラットフォーム - Google Patents

定量化された再識別化リスクを用いたデータ分析プライバシー・プラットフォーム Download PDF

Info

Publication number
JP2023543716A
JP2023543716A JP2023517887A JP2023517887A JP2023543716A JP 2023543716 A JP2023543716 A JP 2023543716A JP 2023517887 A JP2023517887 A JP 2023517887A JP 2023517887 A JP2023517887 A JP 2023517887A JP 2023543716 A JP2023543716 A JP 2023543716A
Authority
JP
Japan
Prior art keywords
data
computer system
privacy
epsilon
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023517887A
Other languages
English (en)
Inventor
ギルモア、デイビッド
スタッビング、フィリップ
ンゴ、チー、ラン
マコウスキー、マチェイ
Original Assignee
ライブランプ インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ライブランプ インコーポレーテッド filed Critical ライブランプ インコーポレーテッド
Publication of JP2023543716A publication Critical patent/JP2023543716A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/034Test or assess a computer or a system

Abstract

本発明は、算出のプライバシー・リスクが客観的に及び定量的に計算され得る、差分プライバシー・プラットフォームを対象とする。この測定は、プライバシー・コスト又はイプシロンの様々な測度についてシステムに対する高性能プライバシー攻撃をシミュレートし、攻撃の成功のレベルを測定することによって実施される。いくつかの実施例では、線形プログラム再構築タイプ攻撃が使用される。特定のイプシロンにおいて十分な攻撃から生じるプライバシーの損失を計算することによって、プラットフォームは、データの特定の使用についてリスクのレベルを計算し得る。データの使用についてのプライバシー・バジェットは、それにより、所望のリスクしきい値未満のままであるようにプラットフォームによって設定及び制御され得る。

Description

本出願は、2021年9月18日に出願された米国仮特許出願第63/080,333号の利益を主張する。上記の出願は、その全体が参照により本明細書に組み込まれる。
情報障壁がデータ分析の使用を制限する。これらの情報障壁は、多数の形態をとり得る。欧州連合における一般データ保護規則(GDPR:General Data Protection Regulation)及びカリフォルニア州消費者プライバシー法(CCPA:California Consumer Privacy Act)などのデータ・プライバシー規制が、個人情報のアクセス及び移動を制限する。同様に、組織は、データへのアクセスを獲得したことに対する条件として、データの使用を制限する無数のデータ機密性契約条項に従わなければならないことがある。ローカルにホストされた環境とクラウド環境との間のデータの移行も、障壁をもたらす。様々なプライベート合意又はベスト・プラクティスの限定が、組織内で機密性理由のためにデータの移動に対して障壁を課し得る。
最も高度に保護されたプライベート情報の一部は、個々の患者医療データである。米国では、そのようなデータは、法的枠組の中でも、1996年の連邦医療保険の相互運用性と説明責任に関する法律(「HIPAA」:Health Insurance Portability and Accountability Act)及びその施行規制によって保護される。HIPAAは、様々なタイプの医療データのためのかなり厳しい保護を提供し、この種の情報の記憶及び転送に対する極めて著しい制限をも提供する。
プライベート健康データの保護はもちろん肝要であるが、医学を進化させ、それにより、ヘルスケアの品質を改善するために、医療データに関して実施される分析が決定的に重要であることも真実である。COVID-19パンデミックは、劇的な実例を提供し、調査者が、COVID-19患者とこれらの患者に提供される様々な治療とに関係するデータを分析する能力は、改善されたケアを提供し、この病気にかかった患者のためのより良い成果につながる、医師の能力において、極度に重要であることが証明された。
HIPAAの下で、データが開示され得るようにデータを非識別化する(de-identify)ための2つの方法がある。第1のものは、「セーフ・ハーバー」を通したものであり、それにより、たとえば、名前、電話番号、電子メール・アドレス、社会保障番号などを含む、18個のタイプの識別子が、データから除去される。しかしながら、最近、この手法は攻撃のすべての形態に対してプライバシーを保護するのに完全に十分であるとは限らないことが、ハーバード大学におけるDr.Latanya Sweeneyを含む調査者のチームによって示された。
HIPAAの下でデータを非識別化するための第2の方法は、「専門家決定(Expert Determination)」方法である。これは、一般に認められた統計的及び科学的原理及び方法の適切な知識と、その原理及び方法に関する経験とをもつ人が、情報が、情報の対象者である個人を識別するために、予期される受信者によって単独で又は他の合理的に利用可能な情報と組み合わせて使用され得るリスクが極めて小さいと決定することを必要とする。GDPR内の「リスク・ベース匿名化」概念は、HIPAAの下での専門家決定方法と同様である。しかしながら、その方法によって示される「極めて小さい」レベルを満たすと普遍的に見なされる、識別化リスクの明示的数値レベルがない。
概して、専門家が専門家決定の下で考慮しなければならないいくつかの原理がある。1つは、反復可能性(replicability)、すなわち、個人に関してデータが一貫して発生するリスクである。たとえば、患者の血糖値は変動し、したがって、低い反復可能性を有する。一方、患者の誕生日は、高い反復可能性を有する。第2の原理は、データ・ソース利用可能性、すなわち、情報がパブリックな又は別の利用可能なソースにおいて利用可能である可能性がどのくらいあるかである。たとえば、ラボラトリ報告の結果は、ヘルスケア環境の外部で識別情報とともに開示されることはあまりないが、名前及び人口統計学的データはしばしば開示される。第3の原理は、区別可能性(distinguishability)、すなわち、情報が個人に関してどのくらい一意であり得るかである。たとえば、誕生年と性別と3桁ZIPコードとの組合せは、ごく少数の米国居住者についてのみ一意であるが、誕生日と性別と5桁コードとの組合せは、50%超の米国居住者について一意である。第4の原理は、これらの他の原理を全体的分析へと組み合わせる、リスク査定である。たとえば、ラボラトリ結果は極めて特徴的であり得るが、それらは、多くの人々がアクセスを有する複数のデータ・ソースにおいてほとんど開示されず、一方、人口統計は、高度に特徴的であり、高度に反復可能であり、パブリック・データ・ソースにおいて利用可能である。
HIPAAの下でのリスクの測度としての「極めて小さい」の使用は、データベースにおける再識別化(re-identification)のリスクが決して0にならないという認識である。データが何らかの効用を有する場合、データが再識別され得るある程度のリスクが、それは有意でないほど小さくなり得るが、常にある。また、プライバシー・リスクが低いほど、しばしば、データの効用が低くなり、なぜなら、あるポイントまでの非識別化(de-identification)が、データを、その意図された目的のためにほとんど又はまったく使用されないものにし得るからであることが知られている。概して、50%の再識別化リスクは、再識別化の危機にあると言われる。一方、再識別化リスクを0.05%~0.10%まで下げることは、概して、許容できると見なされる。しかしながら、問題は、特定の実例における実際の再識別化リスクを決定することである。
したがって、専門家決定によるプライバシー保護は高度に主観的及び可変的であることがわかり得る。特定のシナリオにおけるリスクを決定することと、異なるシナリオによってもたらされるリスクを比較することの両方のために、リスクが客観的様式で評価され得るように、リスクのレベルを決定するためのより堅固な数学的基礎を提供することが望ましいであろう。
差分プライバシー(differential privacy)は、プライバシーが、データベース自体の構文的品質とは対照的に、データベース上での算出の特性であるという原理に基づいて、プライバシーを保護する方法である。基本的に、算出は、それが、単一のデータ対象者の記録の存在又は不在だけ異なるにすぎない2つのデータベースに適用されたとき、ほぼ同じ結果を作り出す場合、差分プライベート(differentially private)と見なされる。特定の算出に関する差分プライバシーのレベルは、問題点となっているデータに大幅に依存することを理解されよう。たとえば、算出が平均収入に関して実施され、John Doeと称する個人の収入がデータセット全体の平均に近い場合、John Doeのデータが除去されたか否かにかかわらず、結果は同じものに近くなり、プライバシー損失は低くなるであろう。一方、John Doeの収入がデータセット中の他のものよりもはるかに大きい場合、結果はかなり異なり得、この算出についてのプライバシー損失は高くなるであろう。
差分プライバシーは、基礎をなすデータの再識別可能性に関してそれが提供する数学的及び定量化可能な保証のために強力である。差分プライバシーは、非識別化の数学的リスクを定量化するその能力のために、歴史的な手法とは異なる。差分プライバシーは、多くの分析及びクエリにわたってデータセットに対する累積プライバシー・リスクを追跡することを可能にする。
2021年現在、120個超の国が、データ・セキュリティを管理する法を有する。その結果、これらの規制方式のすべてへの準拠は不可能であるように見えることがある。しかしながら、GDPR、CCPA、及びHIPAAのような大部分のデータ・セキュリティ規制は、データ匿名化の概念を中心として統合されている。しかしながら、問題は、差分プライバシー技法が、それらが前に知られているので、これらの様々なプライバシー法において提示される概念及び匿名化プロトコルにうまくマッピングしないことである。この理由で、差分プライバシーは、その大きい将来性にもかかわらず、ごく限られた採用を経験した。
歴史的に、差分プライバシー調査は、攻撃者が、保護されることを求められるデータの特定の項目以外のデータセットに関係するすべての可能な情報へのアクセスを有する、理論的問題に焦点を当てた。しかしながら、本出願の発明者は、このすべてよく知っている敵対者が、プライバシーを決定するための現実的なモデルでなく、上記で略述されたHIPAA及びGDPR保護要件の下での合理性要件に対応しないことを認識した。これらの規制は、攻撃者がすべての可能な情報を有する、高度に理論的な状況でなく、現実世界のプライバシー状況に対処する。
さらに、実際的適用例に、及び既存のプライバシー規制の枠組内に差分プライバシーを至らせるために、どのレベルのイプシロン(すなわち、クエリのプライバシー「コスト」)が合理的な保護を提供するかを決定する必要がある。差分プライバシーに関する現在の作業は、特定のイプシロンを選択し、それを適用するにすぎず、そのイプシロンがなぜ選定されたか、又はイプシロンのその特定の選定がHIPAA及びGDPRなどの様々なプライバシー規制のいずれかの下でなぜ十分な保護を提供するかについてのサポートを提供することがない。これらの既存の法的枠組の下で実際の適用例において差分プライバシーを使用するために、そのような枠組内にフィットするプライバシー・リスクを定量化する方法が必要とされる。
Cohenら、「Linear Program Reconstruction in Practice」、arXiv:1810.05692v2[cs.CR]、2019年1月23日
本発明は、算出のプライバシー・リスクが客観的に及び定量的に計算され得る、差分プライバシー・プラットフォームを対象とする。この測定は、プライバシー・コスト又はイプシロンの様々な測度についてシステムに対する高性能プライバシー攻撃をシミュレートし、攻撃の成功のレベルを測定することによって実施される。いくつかの実施例では、線形プログラム再構築攻撃が、最も高性能のタイプのプライバシー攻撃のうちの1つの一実例として使用される。特定のイプシロンにおいて攻撃から生じるプライバシーの損失を計算することによって、プラットフォームは、データの特定の使用についてリスクのレベルを計算し得る。データの使用についてのプライバシー「バジェット」は、それにより、所望のリスクしきい値未満のままであるようにプラットフォームによって設定及び制御され得る。プライバシー・リスクを、知られているしきい値未満で維持することによって、プラットフォームは、適用可能なプライバシー規制への準拠を提供する。
様々な実施例では、本発明は、個々の患者データの機密性を保護するために差分プライバシーを使用する。データの最も高い価値の使用を行うことが可能であると同時に、患者プライバシーを保護するために、様々な実施例における本発明は、データの特定の使用に関連する再識別化リスクの客観的で定量化可能な測度を提供し、それにより、再識別化の有意なリスクが、提案されるデータ分析シナリオ内で発生しないことを確実にする。
様々な実施例では、生データが、その元のロケーション外にさらされず又は移動されず、それにより、データ・プライバシー及び局在化の法及び規制のコンプライアンスを提供する。いくつかの実施例では、プラットフォームは、プライバシー及びコンプライアンスのために、検証されたモデルを匿名化することができ、ユーザは、元のデータ・ロケーション外にセキュア・モデルをエクスポート及び展開することができる。
いくつかの実施例では、コンピューティング・プラットフォームは、基礎をなすデータセットを表す差分プライベート合成データを生成することができる。これは、データ科学者及び技術者が、決して生データを見ることなしに、データ・プレップ、データ・クリーニング、及び特徴パイプラインを組み立てることを可能にし、それにより、プライバシーを保護することができる。
いくつかの実施例では、SQLなどのよく知っているライブラリ及びフレームワークが、機械学習モデル及びクエリを定義するためにデータ科学者によって使用され得る。ユーザは、特定のAPIを使用して単純なコマンドをサブミットすることによって、いくつかの実施例によるプラットフォームに関与することができる。
いくつかの実施例における本発明は、意図的な攻撃からのプライバシー・リスクを査定するためのメトリックを使用し、成功したプライバシー攻撃の確率Pr(成功)は、攻撃が行われた場合の成功の可能性Pr(成功|試行)に、攻撃の確率Pr(試行)を乗算したものに等しい。本発明は、次いで、試行されたプライバシー攻撃の最も著しいリスクを提示する、上記で説明された敵対者モデルを提供し、コンソーシアムにおける緩和制御を要約し、これらのファクタの考慮を前提として、決定されたPr(試行)を提示する。業界ベスト・プラクティスは、Pr(試行)値を導出するための基準ポイントを提供する。多因子(multi-factor)認証、HTTPSなどを含む、強いセキュリティ・プロトコルが、システム中にある場合、Pr(試行)は、一般に、0.1から0.25の間に設定される。強いプライバシー攻撃が、Pr(成功[]試行)を計算するために使用される。これらの2つの値が次いで知られると、Pr(成功)が、これらの2つの値の積として算出され得る。
いくつかの実施例では、本発明は、同じクエリが特定のユーザによってサブミットされた回数にかかわらず、差分プライバシー実装において同じノイズの多い結果を返すために、キャッシングを採用し得る。このキャッシングは、結果の平均化によってノイズをフィルタ処理することを試行する、いくつかのタイプのプライバシー攻撃を妨害するために使用され得る。
様々な実施例では、プラットフォームは、企業規模分散型システムとして差分プライバシーを展開する。企業は、数百個、数千個、さらには数万個のデータ・ストアを有し得るが、プラットフォームは、データがどこに又はどのように記憶されるにかかわらず、分析者がデータと対話することを可能にする、統合されたデータ・レイヤを提供する。プラットフォームは、統合されたインターフェースを通してすべての接続されたデータセットにわたって数学的プライバシーを保証するためのプライバシー元帳(privacy ledger)を提供する。プラットフォームはまた、ユーザ及びデータ属性に基づいて許諾を可能にする豊富な許可レイヤを有する。プラットフォームは、誰が及びどのタイプのプライバシー・バジェットを用いてクエリを稼働することが可能であるかを制御することを可能にする。
本発明のこれらの及び他の特徴、目的並びに利点は、以下で説明されるように、図面とともに、好ましい実施例の以下の詳細な説明及び添付の特許請求の範囲を考慮するとより良く理解されるようになるであろう。
データ保護方式に基づくデータの再識別化についてのリスクのレベルを示すチャートである。 差分プライバシー概念を示す図である。 本発明の一実施例による、システムのためのフローチャートである。 本発明の一実施例による、システムのためのスイム・レーン図である。 本発明の一実施例による、外部調査者SQLクエリのためのスイム・レーン図である。 本発明の一実施例による、内部調査者SQLクエリのためのスイム・レーン図である。 本発明の一実施例による、外部調査者機械学習トレーニング又は評価のためのスイム・レーン図である。 本発明の一実施例による、内部調査者機械学習トレーニング又は評価のためのスイム・レーン図である。 本発明の一実施例による、外部調査者合成データ・クエリのためのスイム・レーン図である。 本発明の一実施例による、内部調査者生データ・クエリのためのスイム・レーン図である。 本発明の一実施例による、データ環境の高レベル・アーキテクチャ図である。 本発明の一実施例による、可能にされる場合、生データをさらす例示的なSQLクエリ及び結果を示す図である。 本発明の一実施例による、滞在の平均長さのための例示的なSQLクエリを示す図である。 本発明の一実施例による、プライベート情報をさらすためにシステムを操作するための試行における例示的なSQLクエリを示す図である。 本発明の一実施例による、追加されたノイズを伴う例示的なSQLクエリを示す図である。 本発明の一実施例による、準識別子を用いてプライベート・データを見分けるための例示的なSQLクエリ試行を示す図である。 本発明の一実施例による、死亡の日付範囲によってビニングされた患者のカウントについての例示的なSQLクエリを示す図である。 本発明の一実施例による、合成データセットを作成するための例示的なクエリを示す図である。 本発明の一実施例による、機械学習分析を実施するための例示的なクエリを示す図である。 本発明の一実施例による、データ分析プラットフォームのための例示的な設定の要約を提供するチャートである。 本発明の一実施例による、クエリ・イプシロン・バジェットを消耗するクエリの一実例を提供するグラフィックである。 データベースに対する成功した差分攻撃を実行するための従来技術システムによるSQLクエリを示す図である。 本発明の一実施例による、図21のSQLクエリが差分プライバシーによって阻止されることを示す図である。 本発明の一実施例による、クエリごとのイプシロンの変動する値におけるプライバシー攻撃の結果を示すチャートである。 本発明の一実施例による、クエリごとのイプシロンの変動する値におけるプライバシー攻撃の結果をプロットするグラフである。 データベースに対する成功した平均化攻撃を実行するための従来技術システムによるSQLクエリを示す図である。 図26の平均化攻撃の結果を示すチャートである。 キャッシングありの本発明の一実施例に対する、図25及び図26の平均化攻撃の結果を示すチャートである。 データベースに対する例示的な線形プログラミング再構築攻撃を示すグラフィックである。 総イプシロンの変動するレベルにおける、本発明の一実施例に対する、再構築攻撃の結果を示す図である。 総イプシロンの変動するレベルにおける、本発明の一実施例に対する、再構築攻撃の結果を示す密度チャートである。 本発明の一実施例に対する、例示的な再構築攻撃のためのパラメータを示すチャートである。 本発明の一実施例に対する、属性推論攻撃の結果を示すチャートである。 本発明の一実施例による、合成データセットに起因する開示リスクを示すチャートである。
本発明がさらに詳細に説明される前に、本発明の範囲は特許請求の範囲によってのみ限定されるので、本発明が、説明される特定の実施例に限定されないこと、並びに特定の実施例を説明する際に使用される用語が、それらの特定の実施例を説明するためのものにすぎず、限定するものではないことを理解されたい。特に、様々な実施形態における本発明は、様々なシナリオにおける保護健康情報の使用に関して説明されるが、本発明は、そのように限定されず、データ・プライバシーが保護されるべきである任意のタイプのデータに関して代替実施例において採用され得る。
個人健康データを含むデータに関する再識別化リスクは、図1に示されているように、5つのレベル又はカテゴリーに大まかに分割され得る。この実例では、リスクは、米国におけるHIPAAによって保護される医療データに関して説明されるが、本発明はそのように限定されない。より高いレベルにあるデータは、再識別化のより少ないリスクを有するが、そのレベルに対して再識別するためのより多くの労力、コスト、技能、及び時間を必要とする。
レベル1にあるのは、容易に識別可能なデータ、すなわち、個人健康情報を含んでいる生データである。言い換えれば、これは、識別子が保たれた、完全保護健康情報(PHI:protected health information)である。このタイプのデータは、調査者にとっての最も高い分析効用を達成するために使用され得るが、その使用はまた、患者にとっての最も大きい開示リスクを表す。
レベル2にあるのは、マスキングされたデータである。このデータは依然として個人データを含んでいるが、それは何らかの様式でマスキングされている。たとえば、データを集団(band)又は範囲に入れることなど、個人情報の何らかの変換がある。これは、年齢範囲、又は、ZIPコードによるなど、より大きい地理的エリアを含み得る。マスキングされたデータは、人口統計又は他の識別子のようなものが単に除去されたデータをも含むことができる。HIPAA法及び規制のセーフ・ハーバー条項(Safe Harbor provision)と限定データセット条項(Limited Data Set provision)の両方は、マスキングされたデータを呈する。マスキング技法は、可逆又は不可逆のいずれかであり得る。とにかく、このデータは、依然として、再識別化リスクをもたらす間接的識別子を含む。
レベル3にあるのは、さらされたデータである。これは、プライバシー変換が適用されたデータであるが、それは、再識別化リスクの厳密な分析が欠如している。このデータの開示に関連するリスクは、定量化することが困難である。
レベル4にあるのは、管理されたデータである。これは、厳密な方法論に基づくリスク査定に関係して検証可能な主張がなされたデータである。管理されたデータは、プライバシー保護のあるしきい値超又未満で識別可能であり得る。このしきい値超で、データは、依然として個人情報を含んでいると見なされ得るが、しきい値未満で、それは、個人情報を含んでいないと見なされ得る。
最高レベル、レベル5にあるのは、アグリゲートされた形態においてのみ、すなわち、個人情報を含んでいない複数のデータ対象者に関するデータを組み合わせることによって、現れるデータである。たとえば、患者のコホートの死亡率は、個々の生存者(survivor)のコホートのカウントのアグリゲートを総コホート・サイズで除算したものである。準識別子によって層化されたアグリゲート・データは、プライバシー攻撃を通して再識別され得、したがって、これらの場合、データがアグリゲート・データと見なされ得るかどうかを決定するために、厳密な分析が実施されなければならない。真のアグリゲート・データは、それが誰によっても再識別され得ないので、プライバシー・リスクを提示しない。
このティア・ベース・モデルにおけるデータ・タイプに追加のグループ化を適用することができる。レベル1~4は、すべて「人レベル(person-level)」データを表し、データセットにおける各行が、個人に関する情報を表す。
レベル5は、それが常に個人のグループに関する情報を表すので、その限りにおいてこれらのティアにおいて特有であり、したがって、PHIと見なされない。
アグリゲート・データは、個人健康情報でなく、したがって、非識別化リスク管理を必要としない。したがって、それは、定義上、適切に非識別化される。しかしながら、提示されるデータは、事実上アグリゲート・データであり、個々の健康情報をさらすために再フォーマット又は操作され得ないので、調査使用のためにアグリゲート・データを提示するとき、注意が払わなければならない。たとえば、準識別子がアグリゲート情報を層化する場合、アグリゲート・データが個人を再識別するために使用され得ないことを検証するために、プライバシー機構を採用しなければならない。本発明のいくつかの実施例では、クエリのすべての統計的結果はアグリゲート・データであるが、ユーザが、準識別子によって層化された結果について照会することができるので、結果は、システムに対するプライバシー・リスクを提示する。しかしながら、本発明は、以下で説明されるように、このプライバシー・リスクを明示的に評価するための手段を提供する。
差分プライバシーは、プライバシーが、データベース自体の構文的品質とは対照的に、データベース上での算出の特性であると主張する、プライバシーの定義に基づく。概して、算出は、それが、単一のデータ対象者の記録の存在又は不在だけ異なるにすぎない2つのデータベースに適用されたとき、ほぼ同じ結果を作り出す場合、差分プライベートであることが成り立つ。図2は、John Doe 10と称する人についてのデータに関して差分プライバシーの説明を提供する。算出は、それが、単一のデータ対象者の記録の存在又は不在だけ異なるにすぎない2つのデータベース12及び14に適用されたとき、ほぼ同じクエリ結果16を作り出す場合のみ、差分プライベートである。
差分プライバシーのこの定義は、数学的定義を介して形式的に説明され得る。たとえば、母集団(universe)Uから引き出されたデータ要素の集合であるデータベースDをとる。データベースにおける行が、プライバシーが保護される必要がある個人に対応する。各データ行は、属性のセットA=A、A、...、Aからなる。各属性がとることができる値のセット、すなわち、それらの属性ドメインが、dom(A)によって示され、ここで、1≦i≦mである。機構M:D→Rは、データベースDを、ある範囲にわたる確率分布にマッピングし、その範囲内のランダムに選定された実数のベクトルを返す、ランダム化関数である。機構Mは、データベースにおいて単一のデータ項目を追加又は除去することが、密度が合計δ以下だけその境界を超えるセットを例外として、小さい乗法係数exp(ε)内で任意の成果の確率に影響を及ぼすにすぎない場合、(ε,δ)差分プライベートであると言われる。
クエリ関数fの感度は、単一のデータ項目によってなされ得る、クエリ関数に対する出力の最も大きい変化を表す。Δfと示される、関数fの感度は、
Δf=max|f(x)-f(y)|
によって定義され、ここで、最大値は、高々1つのデータ対象者だけ異なる、データセットxとyとのすべてのペアにわたるものである。
差分プライベート機構は、ガウス分布からサンプリングされるノイズを導入することによって実装され得る。詳細には、ガウス機構は、分散が、感度Δfと、プライバシー・パラメータε及びδとに従って選択される、ガウス分布からサンプリングされるノイズを追加する。
差分プライバシー機構の鍵となる観察は、ノイズがサンプリングされる分布の分散が、Δf、ε、及びδに比例することである。重要なことには、これは、すべてのノイズ摂動について同じ分布からサンプリングする他の摂動方法とは異なる。有界ノイズ方法は、差分攻撃及び平均化攻撃を介してノイズ・パラメータを解読し、次いで、この情報を活用して動的にノイズを除去し、正確な値を使用して個人を再識別し、及び/又はデータベースを再構築する、攻撃に対して脆弱である。データベースの2つのサブセット、D、D⊂Dに、同等のプライバシー・パラメータε及びδを伴って適用される、同じ差分プライベート機構の場合、分散σは、それぞれD及びDについて計算される関数Δfの感度に比例する。この特性は、有界ノイズ手法の下でリリースされる統計的結果と比較して、差分プライベート結果からプライベート情報を解読するために必要とされる技能、時間、及びリソースのレベルを増加させる。
システムのユーザによって実行される各差分プライベート・クエリqは、ユーザ構成可能なパラメータを用いて実行され、したがって、サブミットされる各クエリは、qε,δとして表され得る。これらのクエリの各々は、値ε、δでプライバシー・バジェットを消費する。クエリのε、δパラメータがより高くなるほど、結果はより正確になるが、プライバシー保証はより低くなり、その逆も同様である。さらに、各クエリは、その構成されたε、δ値によって、データセットの総バジェットを低減する。
上述のように、差分プライバシーはプライバシーの唯一の形式的定義であり、それは、調査文献においてプライバシーの厳密な定義として広く受け入れられている。しかしながら、その使用は、実際には、プライバシー・バジェットについて適切なε及びδパラメータを選定することに部分的に由来する厄介な問題により限定されている。プライバシー・システムにおいて適切なε及びδパラメータを選択するための形式的モデルはない。あまりに低い値を選択することは、システムがその意図された機能をサービスすることができないポイントまで、分析効用を劣化させるが、あまりに高い値を選択することは、カタストロフィック(catastrophic)・プライバシー損失につながることがある。
プライバシー・バジェットを設定する問題は、調査文献において、差分プライバシー機構自体よりも注目されていない。経済的方法及び経験的手法など、異なる手法が提案された。健康データのための情報プライバシーに関する文献は、いくつかのシステムが200,000程度の高さのバジェットを有することを示唆するが、差分プライバシー実践者は、1未満程度の低い値と、10010程度の大きい値とを必要とした。これらの広い範囲は、HIPAAなどの適用可能な法的規制の下で現実世界の環境において動作しながら差分プライバシーを適用するための手段を提供しない。
本発明のいくつかの実施例による、定量化されたプライバシー・リスクをもつ機密データへのアクセスを提供するためのプラットフォームの構造及び動作について説明する前に、医療調査及び公開の全体的エコシステム内のシステムの機能が説明され得る。いくつかの健康プロバイダは、医療調査のために大きい価値のあるものである、極度に大きい、高忠実度の、及び高次元の患者データセットを開発した。健康プロバイダが、プライバシー要件に依然として準拠しながら、医療調査のためにそれらのデータを共有するために、コンソーシアムを形成することができる場合、それらは、それらの医療調査に関するさらにより大きいリターンと改善された患者成果とを作り出すために、このデータを活用することができる。本発明のいくつかの実施例による一般的な調査コンソーシアムは、4つのタイプのエンティティ、すなわち、調査機関と、医療調査ジャーナルと、(ヘルスケア・プロバイダなどの)データ・プロバイダと、データ分析プラットフォーム・プロバイダとから構成される。この構成では、調査医療機関は、重要な調査質問に答えるために共同するための合意を結ぶ。医療調査ジャーナルは、この調査の結果について説明する論文を受信する。医療ジャーナルはまた、偽造データの問題を回避するために、この調査をサポートする基礎をなすデータを裏付けるためのデータを提供され得る。データ・プロバイダは、それらのデータ・アセットと、潜在的にさらにそれらの調査人員の両方を提供する。データ分析プラットフォーム・プロバイダは、コンソーシアム内の調査者が保護健康情報(PHI)にさらされることなしに分析を実施するために、セキュア環境内のデータを非識別化するためにそのプラットフォームを使用する。したがって、システム全体は、データ・プロバイダからの健康情報の最も有利な使用を可能にしながら、患者プライバシーを保護する。
次に図3を参照しながら、本発明の一実施例による、コンソーシアム内の基本ワークフローが説明され得る。ステップ30において、調査機関における主要な調査者が調査研究を提案する。調査機関は、この目的でデータ・プロバイダとデータ使用合意を確立している。
ステップ32において、中央機関審査委員会(central institutional review board)が、提案された研究を審査し、それらを承認するか又は拒否するかのいずれかを行う。それらが承認された場合、委員会は、研究に関与する調査者のために適切なアクセス・ティアを指定する。調査のすべては、本明細書で説明されるデータ分析プラットフォームによって動かされるセキュア・クラウド・インフラストラクチャにおいて実施される。
ステップ34において、(いくつかの実施例では、調査者である)分析者が、データ分析プラットフォームに対してネットワーク化された分析者自身のコンピュータ・システムを通して、すべてのプライバシー要件に準拠する調査を行うために、データ分析プラットフォームを使用する。データは、それが調査者に達する前に非識別化される。データへのアクセスは、2つの異なる役割、すなわち、PHIにアクセスすることができる内部調査者と、非識別化された情報のみを受信することができる外部調査者とに従って、プロビジョニングされる。内部調査者は、データ・プロバイダに関連する調査者であり、HIPAAの「限定データセット」規格に準拠するアクセスを与えられる。たとえば、内部調査者にとって利用可能な患者データは、無制限の患者年齢と5桁ZIPコードとを含み得る。外部ユーザの場合、3つのタイプの使用パターンが利用可能である。第1のものは、対話型APIを通したSQLクエリであり、これは、クラウド・インフラストラクチャにおけるセキュア・データへの限定されたアクセスを提供する。このAPIコールからの結果は、差分プライバシー技法を使用してプライバシーを保つためにノイズを用いて摂動させられる。第2の使用パターンは機械学習である。Kerasベース機械学習APIが利用可能であり、これは、決してセキュア・クラウド・インフラストラクチャからデータを除去することなしに、機械学習モデルのフィッティング及び評価を可能にする。第3の使用パターンは合成データである。このデータは、人工的であるが、元のデータと統計的に同等なものであり、元のデータの算出的な派生物である。合成データはPHIを含んでいない。本発明の代替実施例では、これらの機能のうちの1つ又は2つのみが利用可能であり得る。
本明細書で説明されるHIPAAの下での専門家決定は、外部調査者パーミッション・ティアに適用される非識別化方法のみに対処することに留意されたい。内部調査者ティア内で動作する調査機関によるデータ使用のHIPAA準拠は、使用されるデータと、データ・プロバイダと調査機関との間の締結された合意とに基づいて決定され得る。しかしながら、外部調査者と内部調査者とが共同し得る、調査ワークフロー内のポイントがある。外部調査者がプロセス中に保護健康情報にアクセスしないことを確実にするための制御が、導入される。
それらが適切なデータ・アクセス・ティアを割り当てられると、調査者は、データ・プロバイダのデータセットに関する調査及び分析を実施するために、データ分析プラットフォームを使用する。すべてのデータ・アクセスは、データ・プロバイダのデータのプライバシー及びセキュリティを保護するエンクレーブ・データ環境を通して行われる。ファイアウォール及び他の適切なハードウェアが、この目的で採用される。データ分析プラットフォームは、データ科学ライフサイクル全体にわたってプライバシーを保つコンピューティング・フレームワークである。
調査者がデータ分析プラットフォームへのアクセスを付与される前に、システムは、データ・プロバイダのクラウド・インフラストラクチャ内にインストール及び構成される。このセットアップ・プロセスは、以下で説明されるプライバシー・パラメータ構成を含む。システム・セットアップの別の段階は、許可されたユーザのみがシステムへのアクセスを付与されることを確実にするためのセキュリティ・セーフガードの構成である。データの保護は、セキュリティ保護とプライバシー保護の両方を伴うが、本明細書の説明の焦点はプライバシーであり、システムはまた、セキュリティを提供するために多因子認証などの様々なセキュリティ機構を使用し得る。
外部調査者は、SQLビューを作成し、データ分析プラットフォームAPIを通してSQLクエリを実行することが可能である。SQL APIを通して実行されるクエリは、差分プライバシーによって保護される近似結果を返し、これは、データ対象者のプライバシーを保護するために、制御された量のノイズが結果に注入されることを意味する。とはいえ、調査者は、データ・プロバイダのデータセットを探求し、調査仮説を展開するために、これらの近似結果を使用することができる。調査者が、仮説を決めており、厳密な値が返されることを必要とすると、調査者は、内部調査者に分析を送る。この内部調査者は、分析を稼働し、厳密な結果を取り出し、それらの結果を使用して外部調査者にインサイトを提供することができる。内部調査者が外部調査者に提供することができる唯一の結果は、アグリゲート統計的結果である。内部調査者は、外部調査者に送られた情報が個々の患者のプライバシーを損なわないと認定することに対して責任を負う。複数の一見したところ無害のクエリが、機密情報をあらわにするために一緒に使用され得るので、内部調査者は、そのような外部調査者が実施する分析のコンテキスト及び目的に気づいていなければならない。
ステップ36において、論文が書かれ、公開より前に開示のために審査される。この審査は、PHIが論文において不注意に開示されていないことを確実にするためのものである。ステップ38において、論文は、公開のために医療調査ジャーナルのうちの1つ又は複数にサブミットされる。これらは、特定の健康懸念のための特定のリソース・センターを通してアクセスされ得る。
ちょうど説明されたこのプロセスのためのワークフローが、図4のスイム・レーン図において提供される。ステップ40において、外部調査者は、そのコンピュータ・システムから研究をサブミットし、データへのアクセスを内部審査委員会(internal review board)に申し込む。ステップ41において、委員会は、提案を審査し、提案を承認するか又は拒否するかのいずれかを行う。提案が承認された場合、処理はステップ42及び43に移動し、外部調査者及び内部調査者は、それぞれ、研究の目的でデータ分析プラットフォームへのアクセスを与えられる。外部調査者は、ステップ44において、クエリを実行し、ノイズの多い返されたデータに関する仮説を生成する。ステップ45において、外部調査者は、ノイズのない(すなわち、生の)バージョンのデータに対する仮説を検定するために、内部調査者に接触する。内部調査者は、ステップ46において、要求されたように仮説を評価し、ステップ47において、適切なプライバシー・セーフガードを維持しながら、どんな結果が外部調査者に返され得るかを決定する。ステップ48において、内部調査者は、外部調査者に、仮説の評価の非開示的な(non-disclosive)アグリゲートされた統計的結果を返し、ステップ49において、それらは結果を一緒に審査し得る。外部調査者の仮説の確認など、結果が興味深いか又は重要である場合、ステップ50において、調査者は、公開のために含めるためのデータを選択する。このデータは、ステップ51において、審査のために委員会に送られ、承認された場合、調査者は、次いで、ステップ52において、公開のための原稿を作成する。調査者は、ステップ53において、(1つ又は複数の)医療ジャーナルへの公開のための原稿をサブミットし、次いで、一般社会が、ステップ54において、公開時に記事へのアクセスを獲得する。記事はアグリゲート結果を含み得、なぜなら、そのような結果はPHIを開示しないからである。
図5は、外部調査者のためのSQL APIクエリのためのワークフローを詳述する。ステップ60において、外部調査者は、APIを通して、データ・プロバイダのデータセットに関係するSQLクエリを送る。ステップ61において、データ分析プラットフォームは、生データセットに対してクエリを実行するが、差分プライバシー方式の一部として結果にノイズを注入する。ステップ62において、ノイズの多い結果が外部調査者に返され、ステップ63において、外部調査者はノイズの多い結果を受信する。
図6は、内部調査者のためのSQL APIクエリのためのワークフローを詳述する。図5と同様に、クエリが、ステップ70においてAPIを通して受信される。しかし、この場合、データ分析プラットフォームは、ステップ71において、ノイズを注入することなしに、生データセットに対してクエリを実行する。真の結果がステップ72において返され、次いで、ステップ73において、内部調査者はAPIを通して真のクエリ結果を受信する。
上述のように、外部調査者は、データ分析プラットフォーム内のSQLビュー上で機械学習モデルをトレーニング及び評価することができる。これらのモデルは、Keras APIを通して定義され、データ・プロバイダの臨床データセットに関してリモートでトレーニング及び評価される。モデル自体は調査者に返されず、セキュア・クラウド・インフラストラクチャ環境内に存在するデータを使用して、評価のみが実施され得る。図7は、この処理のためのフローを提供する。ステップ80において、外部調査者は、対応するAPIを通して、機械学習トレーニング又は評価を要求する。ステップ81において、データ分析プラットフォームは、生データを取り込み、要求された機械学習タスクを実行する。ステップ82において、プラットフォームは、調査者に、ステータス及び/又は適用可能なときは要約統計を返す。ステップ83において、外部調査者は、APIを通して、ステータス及び/又は要約統計を受信する。
内部調査者はまた、外部調査者によって作成されるモデルにアクセスし、それをエクスポートし得るが、これらのモデルは、それらがトレーニングされるデータの特性を憶える性向を有し、したがって、それらがプライベート・データであるかのようにシステム内で扱われる。図8は、この処理のための詳細なフローを提供する。ステップ90において、内部調査者は、適切なAPIを通して、トレーニング又は評価を要求する。ステップ91において、データ分析プラットフォームは、生データを取り込み、要求された機械学習タスクを実行する。ステップ92において、プラットフォームは、内部調査者に、ステータス及び/又は適用可能なときは要約統計を返す。内部調査者は、ステップ93において、ステータス及び/又は要約統計を受信する。内部調査者は、次いで、ステップ94において、APIを通して、トレーニングされた機械学習モデルを要求し得、データ分析プラットフォームは、ステップ95において、この要求に応答して、トレーニングされた機械学習モデルを取り出し、返す。内部調査者は、次いで、ステップ96において、APIを通して、トレーニングされた機械学習モデルを受信する。
再び上述のように、合成データが、この処理においても使用され得る。外部調査者は、実際のデータセットに基づいてSQLビューから生成される合成データセットを作成及びエクスポートし得る。これらの合成データセットは、それらが基づく元のデータセットの単変量統計的特性と多変量統計的特性のうちのいくつかとを保持し、したがって、それらは調査仮説を生成するために使用され得る。たとえば、外部調査者は、回帰又は仮説検定を稼働するスクリプトを準備するために、合成データセットを使用することができる。図9は、この処理のためのフローを提供する。ステップ100において、外部調査者は、対応するAPIを通して合成データセットを要求する。ステップ101において、データ分析プラットフォームは、合成データセットを生成し、ステップ102において、データ分析プラットフォームは、合成データセットのプライバシーを、そのリリースの前に評価する。合成データセットが十分にプライベートである場合、データ分析プラットフォームは合成データセットをリリースし、合成データセットは、ステップ103において、対応するAPIを通して外部調査者によって受信される。
内部調査者も合成データセットを使用し得る。ちょうどSQLワークフローの場合のように、内部調査者は、分析を稼働して厳密な結果を取り出し、それらの結果を使用して外部調査者にインサイトを提供することができる。上述のように、内部調査者が外部調査者に送ることができる唯一の情報は、アグリゲート統計的結果である。このフローは図10に示されている。ステップ110において、内部調査者は、対応するAPIを通して生データセットを要求する。データ分析プラットフォームは、ステップ111において生データセットを取り出し、次いで、内部調査者は、ステップ112において、対応するAPIを通してデータ分析プラットフォームから生データを受信する。
このシステム全体の説明が完了したので、HIPAA又は他の適用可能なプライバシー・ルールに従ってデータ・プロバイダのデータセット内で非識別化が実施されるシステム及び方法が、より詳細に説明され得る。本明細書で提供される実例では、データ・プロバイダのデータセットは、たとえば、誕生の年(又は年齢)及びサービスの日付など、HIPAAセーフ・ハーバーに準拠しない様々なデータ・フィールドを保つ、入院患者と集中治療室(ICU:intensive care unit)との遭遇(inpatient and intensive care unit encounter)のリレーショナル・データベースである。これらのフィールドは、疫学的調査研究がデータに関して行われることを可能にするために保たれる。識別フィールド及び準識別フィールドの存在により、データは、HIPAAルールの下での専門家決定を介して非識別化されなければならない。専門家決定は、個人が識別され得る「極めて小さい」リスクのみを生じる、統計的又は科学的原理の適用に依拠する。
本明細書で説明される非識別化システム及び方法は、3つのコア原理に従って動作する。第1の原理は、PHIへの行レベル・アクセスがないことである。これは、分析者が決してPHIにさらされないことを意味する。データ変換から統計的分析までの分析ライフサイクル全体が、行レベル保護健康情報を漏らすことなしにサポートされる。
第2の原理は、一意の開示を防ぐためのノイズの使用である。アグリゲート・データが、機密情報を漏らすリスクを低減するために、厳密な統計的プライバシー技法を使用して作り出される。本明細書で説明される差分プライバシーが、この能力を補強する。
第3の原理は、公的にデータをリリースすることなしに、又は決してデータ・プロバイダのファイアウォールの外部にデータを移動することなしに、分析者にアクセスを付与する、細かく付与された許可のためのポリシーをエンフォースすることによって、PHIがセキュアなままであることである。
非識別化システム及び方法は、第1に、データ分析プラットフォームにおいて採用されるプライバシー機構の高レベル要約を提供することによって説明される。第2のセクションは、個人が再識別され得る、HIPAA準拠の「極めて小さい」リスクを達成するために、プライバシー関連の考慮事項と選定されたパラメータとの要約について説明する。第3のセクションは、システム及び方法によって表されるプライバシー・リスクの定量評価を提供する。
データ分析プラットフォームは、分析者及びデータ科学者が、データ変換、特徴エンジニアリング、探究的データ分析、及び機械学習を、すべて、基礎をなすデータにおける患者のプライバシーを維持しながら、実施することを可能にする、クラスタ算出フレームワークとして実装される。データ分析プラットフォームにおけるすべてのデータ・アクセスは、データ・プロバイダのデータのプライバシー及びセキュリティを保護するエンクレーブ・データ環境を通して行われる。データ・プラットフォームは、データがホストされるデータ・プロバイダのクラウド環境を、データが出ることができないことを確実にするための制御を提供する。図11は、この環境の高レベル図を提供する。データ分析プラットフォーム114とデータ・プロバイダ・データセット116とは両方とも、エンクレーブ・データ環境118内にある。(エンクレーブ・データ環境118にインターネットなどのネットワークを介して接続されたリモート・コンピューティング・デバイスを通して動作する)分析者119は、データ分析プラットフォーム114のみを通して、データ・プロバイダ・データセット116にアクセスし得、それにより、分析者(たとえば、外部調査者)がデータ・プロバイダ・データセット116内の行レベル・データを決して見ないことを確実にする。
データ分析プラットフォーム114は、3つのコア分析機能、すなわち、SQL APIを通してSQLクエリを実行することと、機械学習APIを通して機械学習モデルを開発することと、合成データセットAPIを通して合成データセットを生成することとを実行する。これらの3つの機能は各々、データがデータ・プロバイダ・データセット116にある、患者のプライバシーを保護するためのセーフガードを有する。一般的な非識別化査定は、属性レベル・プライバシー査定を必要とする可能性があるが、データ分析プラットフォーム114の場合、プライバシーは、すべての属性にわたって等しくシステムの機構によってエンフォースされる。したがって、本明細書で説明されるプライバシー制御は、たとえばZIPコード・フィールドなどの追加の属性がデータ・プロバイダ・データセット116に追加される場合でも、有効のままである。
調査者は、それらがデータベースと直接対話するように、大いにデータ分析プラットフォーム114と対話する。しかしながら、この場合、データは、データ・プロバイダのクラウド・インフラストラクチャ環境、すなわち、エンクレーブ・データ環境118内に残る。多くの調査者になじみのある、標準SQLシンタックスが、必要なAPIコールのために使用され得る。図12は、それが可能にされたならばデータ・プロバイダ・データセット116から生データをさらすことになるSQLクエリの一実例を提供し、しかしながら、図12に示されているように、このタイプのクエリがデータ分析プラットフォーム114によって拒否されるので、エラーになる。この「*」クエリを遂行することは、すべての患者情報のダンプを生じ、それにより、プライバシーのカタストロフィック損失を引き起こす。
いくつかのクエリ制限が、患者プライバシーを保護するために課されるが、データ分析プラットフォーム114は、標準SQLシンタックスにおいてアグリゲート統計的クエリをサポートする。図13は、分析者がデータセットにおける患者との遭遇(patient encounter)にわたる滞在の平均長さについてテーブルを照会するためにそのようなコマンドをどのように使用することができるかを示す。このタイプのクエリは可能にされるが、以下でより十分に説明されるように、ノイズがデータに追加される。
いくつかのアグリゲート・クエリが、プライベート情報をさらすために操作され得る。たとえば、ユーザは、識別子を介して特定のユーザを選び出すことを試行することができる。図14は、単一の患者に関する情報を選び出すことになるクエリを示し、データ分析プラットフォーム114がこの動作をどのように防ぐかを示す。
図14に示されているタイプの単純な保護は、プライベート情報をさらすためのシステムに対する大部分の悪意のある試行に対してガードする。しかしながら、データセットから機密情報を取り出す動機を与えられた不正なユーザが、機密のプライベート・データの流出(exfiltration)を試行するために、システムに対してより高性能のプライバシー攻撃を起動することができる。このために、データ分析プラットフォーム114は、差分プライバシーに基づく保護の追加のレイヤを採用する。これは、統計的クエリの出力にノイズを追加する。ノイズは、図15に示されているように、分析品質に対する影響を最小限に抑えるために、制御された様式で追加される。この場合、ノイズが真の平均年齢58.3に追加され、返される値は60.1である。このデータは、依然として、仮説を形成するために外部調査者にとって有用であるが、ノイズは、データ・プロバイダ・データセット116中のデータを再識別することを試行する多くのタイプのプライバシー攻撃を阻止する。
いくつかのクエリは、準識別子によって統計的結果を層化する結果セットを提供し、この情報は、保護健康情報の一意の開示を生じることができる。たとえば、日によって死亡の数を返すクエリは、プライベート情報を一意に開示することができる。データ分析プラットフォーム114は、開示的な(disclosive)結果が分析者に返されるのを動的に防ぐ。これの一実例が図16に示されており、死亡の日付によってカウントを返すための試行が試行される。図16に示されているように、エラーが返され、データは取得されない。
分析者は、図16に示されているようなクエリを操作して、同様のタイプの情報を返すことができるが、より少ない忠実度の結果を伴う。たとえば、同じデータセットに関して、分析者は、(日ごとのではなく)週ごとの死亡の数について照会することができ、差分プライバシー機構は、結果が開示的であるかどうかを動的に計算する。ビニングされた値が開示的でない場合、それらは分析者に返され、各週は、データベース中のデータ対象者のプライバシーを保護しながら、分析者にとっての統計的効用を最大にするために、慎重に計算された量のノイズが追加される。ビニングされた値が開示されるかどうかを決定するための方法は、以下で説明されるように、プライバシー・バジェットに依存する。
差分プライバシーは、単一の個人がクエリなどのプロセスの出力に対して有することができる最大影響に関する数学的保証を提供することによって、データセットを保護する。システムは、強い敵対者(たとえば、すべての可能な有用な情報の所有を伴う理論的敵対者)のために必要とされる形式的定義に厳密に従うことなしに、差分プライバシーの技術を中心として設計される。詳細には、データ分析プラットフォーム114は、学術的調査者のプライバシー機構によって作り出される理論的リスク値を利用することとは対照的に、システムの経験的リスク査定を採用する。これは、差分プライバシーの純粋な実装に関連する理論的数学的保証を失うが、この実装は、匿名性だけでなく、機密性をも適切に保護することが定量的に示される。このカテゴリーにおける例示的なクエリが図17に示されている。ここでは、死亡の日付のカウントが、週によってビニングされる。
上述のように、データ分析プラットフォーム114の別のコア機能は、合成データ生成を可能にすることである。この能力は、ユーザが、それがそこから生成されたPHIデータセットとの類似度を維持する、人工的なデータセットを生成することを可能にする。合成データセットを作成するための例示的なクエリが、図18において提供される。合成データは、機械学習モデルを使用して生成され、合成されたデータは、ユーザに返される前に、プライバシー・リスクについて評価される。合成データは、合成データがそこから生成されたデータと構造的に類似して見え、たとえば、Pythonプログラミング言語の科学算出ライブラリ、又はRプログラミング言語及びデータ分析のためのその多くのライブラリなど、任意のデータ分析ツールキットによって使用され得る。
データ分析プラットフォーム114の第3のコア機能は、機械学習である。機械学習モデルは、モデルがトレーニングされるときにモデルが機密データを憶えることができるので、プライバシー・リスクを提示する。このリスクを緩和するために、システムは、分析者が、基礎をなす保護健康情報への直接アクセスを決して有することなしに、機械学習モデルを開発及び評価することを可能にする。図19は、分析者がデータ分析プラットフォーム114に関連する機械学習APIを使用して機械学習モデルをどのように開発し得るかを示す。調査者は、モデルが開発されるツールとしてKerasをセットアップし、テンプレートを用いてモデルを定義し、データ分析プラットフォーム114に、調査者の特定の仮説の基礎をなす健康の問題点に焦点を当てて、所望のデータを使用してモデルをトレーニングするように命令する。出力は、受信者動作特性(ROC:receiver operating characteristic)曲線下面積(area under the receiver operating characteristic curve)による、感度と特異性との分析を提供するグラフを含む。調査者は、混同テーブル・メトリック(confusion table metric)の使用を含む、標準回帰及び分類メトリックを用いて、モデルを評価し得るが、実際のトレーニングされたモデル又はその係数を取り出すことはできず、なぜなら、それらはプライベート・データを漏らし得るからである。
データ分析プラットフォーム114は、使用より前に構成されなければならない、いくつかのパラメータを有する。これらは、PHI(又は、非医療用途では、他のタイプのプライベート情報)の効果的な保護を確実にする。1つの例示的な例では、設定が、図20のチャートにおいて要約される。この実例では、再識別化リスクは、0.05パーセントの保守的値において極めて低く設定される。全体的プライバシー「バジェット」は、1000のテーブルごとのイプシロン値と、1のクエリごとのイプシロン値バジェットとで設定される。「プライバシー攻撃確率についての可能性定数(likelihood constant)」は、システムへのセキュリティ・アクセスを有する任意のユーザが、実際にシステムにおけるプライバシー・セーフガードを阻止するための試行に関与する可能性の測度である。これらの問題点は各々、以下でより十分に説明される。
再識別化リスクしきい値は、データセットにおいて個人が再識別され得る最大許容リスクを指す。しきい値よりも小さいリスク値は、「極めて小さい」リスクと見なされる。異なるタイプのプライバシー・リスクを測定する、再識別化リスクを査定するための多くの統計的方法論がある。再識別化リスクを査定するための1つの方法論は、HIPAAセーフ・ハーバーを使用してリリースされるデータについて、許容できるリスク値が何であるかを定量化することと、専門家決定方法がセーフ・ハーバー手法よりも患者にとってのより少ない再識別化リスクを提示することを示すこととに焦点を当てる。セーフ・ハーバーの下での再識別化リスクの1つのサーベイでは、調査者は、セーフ・ハーバーによってリリースされるデータにおいて、一意の開示の何パーセントが許諾されるかを分析した。調査者は、4人の個人のみを含んでいるグループが、非識別化されたデータにおいて報告され得ることを示す、個人が4%の一意性を有することがセーフ・ハーバーの下で許容できることを発見した。
別の方法論は、保健福祉省(HHS:Department of Health and Human Services)からのガイダンスを綿密に解釈することに焦点を当てる。HHSは、そのウェブサイト上でメディケア・メディケイド・サービス・センター(CMS:Centers for Medicare and Medicaid services)からのガイダンスをホストする。ガイダンスは、「1~10の値を含んでいるセル(たとえば、入院(admission)、退院(discharge)、患者、サービスなど)は直接報告され得ない」と述べる。このガイダンスは、11人又はそれ以上の個人を含んでいるグループのみが非識別化されたデータにおいて報告され得ることを意味すると、欧州医薬品庁(EMA:European Medical Agency)によって解釈されており、これは、単一の個人に対して提示される最大許容リスクとしての0.09(又は1/11)の、一部による採用につながった。これは、EMA解釈が米国に適用されると言っているわけではないが、それは、非識別化されたデータについてプライバシー・リスクの許容できる量が何であるかを判定することに無関係でない。これらと同様の方法論が、異なる規制方式の下で適用され得る。
上記の方法論の両方は、個々の記録に関連する一意の開示の最大リスクを測定する。別の方法論は、非識別化されたデータベース全体内のすべての個々の記録にわたる平均再識別化リスクを測定することである。平均リスクと最大リスクの両方の手法について、保守的リスクしきい値は、0.1よりも小さい。1つの研究は、非識別化のセーフ・ハーバー方法が約0.04のリスクにつながり、これは、セーフ・ハーバーの非識別化されたデータベース中の患者のほぼ4%が再識別可能であることを意味することを発見した。容認できるリスクの上端は0.5により近く、これは、要件は個人を一意に開示しないことであり、したがって、2人程度の小さいグループがデータ・リリースにおいて開示され得る(=0.5)と言う、HIPAAの解釈による。
システムの許容できるリスクを決定するときの重要な考慮事項は、データの意図された受信者である。受信側プールがより強固に制御されるような場合には、より高いリスクしきい値を有することが許容できると見なされ、対照的に、データを一般社会にさらすシステムは、より少ないリスクを選ぶ(err towards less risk)べきである。本明細書で説明される本発明の実施例では、システムが一般社会の消費のための非識別化された情報を作り出していないにもかかわらず、0.05の保守的リスクしきい値が適切であると見なされた。
データ分析プラットフォーム114の差分プライバシー・システムの重要な特性は、一連の統計的開示にわたって累積プライバシー損失を追跡するその能力である。この能力は、コンポジション(composition)と呼ばれる。コンポジションは、システムが特定のデータベースについての総プライバシー損失を追跡することを可能にする。プライバシー損失についてのこのアイデアは、プライバシー・バジェットと呼ばれ、それを追跡するためのツールは、プライバシー・アカウンティングと呼ばれ、差分プライバシー・コンポジション技法の厳密な数学に基づく。プライバシー・バジェットは、図21に実例によって示されている。
プライバシー・バジェットは、イプシロン(ε)と呼ばれる正数によって定義される。データセットにおける各テーブルは、イプシロン値(図20中の「テーブルごとのイプシロン」)を割り当てられ、データセットに対して発行される各クエリは、イプシロン値(図20の「クエリごとのイプシロン」)をも指定されなければならない。これらのイプシロン値は、クエリの結果に追加されるノイズの量を制御する。クエリのεパラメータがより高くなるほど、結果はより正確になるが、プライバシー保証はより低くなり、その逆も同様である。例示的な実施例では、システムのための、1000のテーブルごとのイプシロンと、1のクエリごとのイプシロンとが選択される。以下で説明されるように、これらの選定は、これらの構成値において、プライバシー・リスクを、0.05の選定されたしきい値未満に低減する。
差分プライバシーを介してデータを非識別化するとき、バジェットの「範囲(scope)」と、それがリセットされ得る条件とを決定することが必要である。バジェットの範囲のための3つのオプションがある。「グローバル」バジェットは、すべてのデータ使用についての単一のバジェットである。「プロジェクト」バジェットは、各プロジェクトについての別個のバジェットである。「ユーザ」バジェットは、各ユーザ又は調査者についての別個のバジェットである。バジェットを選択するための鍵となる考慮事項は、プライベート・データの流出を試行するためにユーザ間の共謀が予想されるか否かを決定することである。図示の実施例のためのシステム展開は、プロジェクトレベル・バジェット追跡を使用し、なぜなら、データ使用合意が締結された機関における複数の調査者が、システムに対してプライバシー攻撃を起動するために互いに共謀することを予想することは不合理であるからである。さらに、システムは、調査者アクティビティ・ログが監査され、疑わしいアクティビティの証拠がなく、システムの良性使用を示す場合、及びまた、データの新しいバージョンがリリースされる場合、プロジェクトについてバジェットがリセットされることを許諾する。
図21に示されているプライバシー・バジェットに従って、バジェットは、この実例では、ε=100から始まる。第1のクエリはε=0.1を有し、したがって、その場合、残りのバジェットは99.9である。第2のクエリもε=0.1を有し、バジェットが0.3に低減されるまで、以下同様である。その時点において、調査者は、ε=0.5でクエリを稼働する。この値が残りのプライバシー・バジェットを超えることになるので、クエリは、データ分析プラットフォーム114によってブロックされる。データ分析プラットフォーム114は、この値を追跡するためのメモリ又はハードウェア・レジスタを含む。
上記で説明されたように、分析者は、決して保護健康情報に直接さらされない。この理由で、不注意による患者の再識別化(たとえば、分析者が近隣の又は前の患者を認識する)は、システムにとって合理的な脅威でない。したがって、システムは、システムに対する唯一の合法脅威ベクトルとしてプライベート情報を流出する(exfiltrate)ように設計された意図的な攻撃を妨害するように設計される。統計的開示制御では、意図的な攻撃からのプライバシー・リスクを査定するための単純なメトリックは、成功したプライバシー攻撃の確率(Pr(成功))であり、これは、式、
Pr(成功)=Pr(成功|試行)*Pr(試行)
に従い、ここで、Pr(試行)は攻撃の確率であり、Pr(成功|試行)は、攻撃が試行される場合、攻撃が成功する確率である。このメトリックは、システムにおいてプライバシー・リスクを定量化するために採用される。
Pr(試行)の値は、専門家の意見を介して決定されなければならず、それを確立するときは保守的仮定のほうを選ぶ(err on the side of conservative assumptions)ことがベスト・プラクティスと見なされる。Pr(試行)を推定するときに考慮すべき2つの面は、誰が攻撃しているか(すなわち、敵対者モデル化)と、どんな緩和制御が導入されているかとである。このセクションの残りは、試行されたプライバシー攻撃の最も著しいリスクを提示する敵対者モデルについて説明し、システムにおける緩和制御を要約し、これらのファクタの考慮を前提として、決定されたPr(試行)を提示する。
前述のように、図示の実施例におけるシステムへのアクセスは、公的に利用可能でなく、システムのすべてのユーザは、内部審査委員会を通して承認され、合法医療調査のためのシステムへのアクセスのみを付与される。(他の非医療用途では、もちろん、異なるセーフガードが、代替実施例において採用され得る。)念入りに調べる(vetting)プロセスにより、認証されたユーザからのシステムに対する高性能攻撃は、合理的な脅威でない。とはいえ、データ分析プラットフォーム114のための保守的プライバシー・リスク仮定を確立するために、それは、プライバシー調査者によって実行される可能性が最も高い高性能攻撃を用いて評価された。プライバシー攻撃のサーベイが、大部分の攻撃がプライバシー調査者によって試行されることを発見したので、プライバシー調査者が焦点となる。プライバシー調査者にとっての動機は、その意図された調査目的のためにシステムを使用することではなく、プライバシー脆弱性に関係する説得力のある調査の発見を公開することである。
調査者が攻撃を試行することになる確率を緩和するために、図示の実施例では、調査者は、データ・プロバイダとデータ使用合意を締結した機関と提携しなければならない。合意は、再識別化に明示的禁止を課し、したがって、攻撃を試行する調査者は、法的合意の、知っている又は判断を誤った違反において、それを行わなければならない。システム使用が、意図された調査研究の目標と整合することを検証するために、すべての調査者対話は、ロギングされ、周期的にデータ・プロバイダによって監査される。プライバシー攻撃は、SQL文を操作するために使用される乱数生成器、超特殊なクエリ・フィルタ、及びわずかな修正を伴うクエリの高速実行など、明確な及び認識可能なパターンを有する。これらのタイプの挙動は、管理者によって容易に見つけられ得る。最後に、調査者は、研究の期間中、アクセスをプロビジョニングされるにすぎず、したがって、データが研究のコンテキストの外部で使用されるリスクも緩和される。
データセットに対する広範な制御と、患者データの再識別化を試行するためには調査者が判断を誤る必要があることになるという事実とを前提として、システムは、システムへのアクセスをプロビジョニングされた100人の調査者中の1人未満が再識別化攻撃を試行することになる(<1%)という推定に依拠する。ベスト・プラクティスに従って、10×の保守的補正倍数が、Pr(試行)値に適用され、0.10の最終値とする。もちろん、他の値が、本発明の代替実施例において採用され得る。
患者データが、ランダム化又は一般化などの方法を使用して非識別化されるとき、非識別化されたデータと、それらがそこから導出された基礎をなすデータとの間に、1対1のマッピングがある。この特性が、このタイプのデータを「人レベル」にする。本明細書で説明されるシステムでは、非識別化されたデータと、それらがそこから導出される基礎をなすデータとの間に、明示的な1対1のマッピングがない。代わりに、分析者は、データ分析プラットフォーム114を通してアグリゲート・データのみにさらされ、決して人レベル・データにさらされない。
本明細書で説明されるシステム及び方法を評価する際に考慮されるプライバシー評価では、プライバシーの3つの測度が使用され、すなわち、メンバーシップ開示、属性開示、及び識別情報開示である。メンバーシップ開示は、攻撃者が、データセットが特定の患者からの記録を含むと決定することができるとき、発生する。本システムについてのメンバーシップ開示は、強力な攻撃者、すなわち、患者のセットPの完全な記録をすでに所有するものが、クエリ、合成データ、及び/又は機械学習モデルからの出力におけるパターンを観察することによって、Pからの誰かがデータセット中にあるかどうかを決定することができるとき、起こる。攻撃者によって獲得される知識は、データセットがその臨床概念においてバランスがとれている場合、限定され得る。他の実施例では、獲得される知識は、データセットが、データ中の対象者に関する他の属性においてバランスがとれている場合、限定されることになる。
属性開示は、攻撃者が、調査者にすでに知られている属性のサブセットに基づいて、患者に関する診断及び薬物療法など、追加の属性を導出することができるとき、発生する。属性開示は、攻撃者が患者の属性のサブセットを知る必要があるにすぎないので、より関連性のある脅威である。
識別情報開示は、攻撃者が、データベース中の特定のエントリに患者をリンクすることができるとき、発生する。患者と記録との直接リンケージにより、攻撃者は、患者に関係する記録内に含まれている、すべての機密情報を学習することになる。
システムのSQL機能のプライバシー・リスクと、合成データ機能のプライバシー・リスクとは、独立して評価される。機械学習能力のプライバシー・リスクは、評価される必要がなく、なぜなら、MLモデルは、決してユーザに返されず、したがって、プライバシー・リスクを表さないからである。理論的には、あるコア機能を攻撃することから獲得された情報を使用して、異なるコア機能に対する攻撃を知らせることが可能である。たとえば、理論的には、合成データから学習された情報を使用して、SQLクエリ・システムに対する攻撃を知らせることは妥当と思われる。しかしながら、この目標を達成する知られている攻撃はなく、それを開発することは、高度の精巧化、時間、及びリソースを必要とするであろう。この理由で、そのような攻撃は、システムに対する不合理な脅威と見なされ、Pr(成功|試行)を確立することから除外される。
データ・プロバイダ・データセットに対するプライバシー・リスクを査定するために、システムは、システム内のデータセットのプライバシー・リスクを経験的に評価する。このセクションの残りでは、クエリ・エンジン及び合成データセット生成器のためのプライバシー・リスク評価が提供される。機械学習モデルに由来するプライバシー・リスクは、ユーザがモデル・データを取り出すこと及び閲覧することができないので、評価されず、評価メトリックのみである。以下のセクションにおいて提示される経験的結果は、特定の実験セットアップを使用するが、システムのプライバシー機構の技術特性により、結果は、高度に一般化可能になり、したがって、データセットのためのプライバシー・リスクの正確な及び代表的な査定になる。
上述のように、データ分析プラットフォーム114は、ユーザが人レベル・データを閲覧することを許諾しない。その結果、メンバーシップ開示は、データベース中の患者に関する一意の属性を漏らすことによってのみ、発生することがある。したがって、システムは、属性開示を、システムのクエリ・エンジンにとっての1次脅威ベクトルとして評価する。上述のように、システムのこの特性は、それが、患者の一意の開示から保護するだけでなく、それらの属性の機密性をも維持することを意味する。属性開示のリスクを定量的に確立するために、システムに対して実施される3つのタイプの攻撃、すなわち、差分、平均化、及び再構築がある。再構築攻撃は、最も高性能の及び強力な攻撃であり、したがって、それは、システムにおけるクエリによって提示される、及び0.05の、前に識別された再識別化リスクしきい値と比較される、リスクに関する保守的上限を確立するための基礎として使用される。
差分攻撃は、データセット中の個人を選び出し、1つ又は複数の特定の属性の値を見いだすことを目的とする。攻撃は、ユーザありとユーザなしの両方で、ターゲット属性及びデータセットに関するアグリゲート・クエリを稼働することによって実行される。ユーザありのクエリの結果とユーザなしのクエリの結果との間の差分をとることによって、攻撃者は、システムによって返されるアグリゲートな答えにかかわらず、ターゲット属性の値を導出することを試行する。
図22は、差分プライバシーなしのシステムにおける差分攻撃の結果を示す。わかるように、攻撃者は、コードの4つのラインのみを使用して個々の患者についての滞在の正しい長さを導出することが可能である。図23は、本発明のいくつかの実施例に対する同じ攻撃の試行を示す。差分プライバシー機能は、この攻撃が成功するのを防ぐ。攻撃者によって達成された結果は、約512日の滞在の長さ(不合理に長い及び明らかに正しくない結果)であるが、正しい答えは7.26日である。システムにおいて差分プライバシー機構を構成することの最も重要な態様は、プライバシー・バジェットを設定することである。図24のチャートは、クエリごとのイプシロンの変動する値における、この攻撃の結果を示す。得られた値は異なるが、値のすべては、高い標準偏差値により、不成功の攻撃を生じたと見なされる。
差分プライバシー機構からのノイズ追加がランダム性を導入するので、シミュレーションを介して結果を評価し得る。シミュレーション・プロセスは、各イプシロン・レベルにおいて100回、差分攻撃を稼働し、差分プライバシー機構が各反復において独立してノイズを計算することを可能にする。各反復における攻撃結果は記録され、特定の実例について図25においてプロットされる。すべてのシミュレーションのクエリごとのイプシロンの平均及び標準偏差が、図24のチャートにおいて記録される。1.0~10.0のクエリごとのイプシロンについて、差分攻撃の導出された値は、攻撃者にとって役に立たない(すなわち、真の答えは、平均攻撃結果の1標準偏差の外部にある)ことがわかり得る。100.0~1000.0の値において、平均攻撃結果は、真の答えにはるかに近くなるが、依然として、攻撃者に不確実で決定的でない結果を提供する。
平均化攻撃は、ノイズ保護された結果を与えるシステムを攻撃するように特別に設計された攻撃である。攻撃者は、単一のクエリを何回も稼働し、単に結果を平均化する。データ分析プラットフォーム114は、クエリを「キャッシュ」することによって、又は、同じクエリが稼働されるたびに、まったく同じノイズの多い結果が提供されることを確実にすることによって、平均化攻撃から保護する。データ分析プラットフォーム114は、この目的でメモリ及び他の記憶媒体を維持する。クエリが稼働されるたびに、まったく同じ結果を提供することによって、データ分析プラットフォーム114は、平均化すべき結果の分布を攻撃者に提供しない。図26によって示されているように、コードのわずか数ラインが、患者についての滞在の長さを決定するための平均化攻撃を搭載するために必要とされる。この図に示されているキャッシングなしのシステムでは、攻撃者は、この単純なやり方において、システムに追加されたノイズを成功裡に阻止することができることがわかり得る。
平均化攻撃に対するシステムのロバストネスを評価するために、キャッシングなしに、変動するイプシロン・レベルにおいて、データベースに対する図26における攻撃をシミュレートし得る。結果が、図27のチャートに示されている。イプシロン0.1を用いたクエリが真の平均20.0から遠いことを観察し得る。1.0において、平均は真値の約10%以内にあるが、高い分散をもつ。10.0の値において、平均は真の平均をよく近似するが、標準偏差は、1.0における稼働のものの約10分の1である。結果における鍵となる観察は、クエリの数が攻撃結果の正確さに実質的に影響を及ぼさないことである。成功した攻撃結果の最も大きいインジケータは、クエリ・イプシロンであり、攻撃において使用されたクエリの数ではない。図28は、本発明の様々な実施例において実装される、キャッシングありの結果を示す。キャッシングが、結果に対して平均化するための繰返しクエリの使用を阻止するので、すなわち、同じクエリがどんなに多くの回数稼働されても同じ結果が返されることになるので、図28のチャートは、最初の10回のクエリについての結果のみを示す。
再構築攻撃は、著しいプライバシー侵害につながることがある。それらは、「あまりに多くの質問に対する過度に正確な答えは、目覚ましいやり方でプライバシーを破壊する。」と述べる、情報復元の基本法則(Fundamental Law of Information Recovery)として知られる概念を活用する。クエリがデータベースによって答えられるたびに、それは、データベース中のデータ対象者に関する何らかの情報を必ずリリースする。再構築攻撃は、線形プログラミングを使用して、その全体が属性(さらには完全なデータベース)を再構築することができる、一連の方程式を導出する。このプロセスは、図29においてグラフィカルに示されている。図示されたクエリを稼働することによって、攻撃者は、いくつかの属性をもつ個人を、高度の正確さまで再構築することが可能である。
本発明のいくつかの実施例によるシステム及び方法は、参照により本明細書に組み込まれる、Cohenら、「Linear Program Reconstruction in Practice」、arXiv:1810.05692v2[cs.CR]、2019年1月23日に記載されている、高性能再構築攻撃を採用する。攻撃は、一連のアグリゲート・クエリの結果に基づいて、患者識別子の所与の範囲についての臨床属性列の値を完全に再構築することを試行する。
データ分析プラットフォーム114にアクセスする調査者は、患者識別子などの識別子に対してフィルタを実施するための許可を有しないことに留意されたい。しかしながら、動機を与えられた攻撃者は、調査者のクエリにおいて超特殊なフィルタ条件を使用してなど、他の手段を使用して、患者を選び出すことを試行することができる。それを行うことは、患者識別子の範囲を近似するための次善策となる。再構築攻撃実験において患者識別子を採用することによって、システムは、システムにおけるプライバシー漏洩のワーストケース・シナリオ推定を確立する。
攻撃は、100個の患者識別子の選定された範囲に集中し、各クエリは、識別子範囲内の少なくとも35人の擬似ランダムに選択された患者にわたって、2値化された臨床属性値をカウントする。攻撃のベースライン有効性が、プライバシー保護を与えなかったデータベースに対してクエリを実行することによって測定された。1000個のクエリでは、非保護データベースに対する攻撃は、完璧な正確さで、患者に関する2値化された臨床属性を再構築することが可能であった。
次いで、同じ攻撃が、3つの異なるレベルの総差分プライバシー・イプシロン・バジェット、すなわち、100、1,000及び10,000を用いて、システムにおける臨床データセットに対して実行された。そのバジェット全体は、非保護データベースの場合に完璧な再構築を可能にした、同じ1000個のクエリに割り振られた(各クエリに対してバジェットの1/1000)。臨床属性再構築の精度、再現率及び正確さが、各バジェット・レベルにおける20回の試行を用いて評価され、得られた分布が図30のグラフに示されている。わかるように、10.0のクエリごとのイプシロンにおいて、攻撃は、ほぼ完璧な正確さで、100人の患者についての2値化された臨床属性を再構築することが可能である。0.1及び1.0のクエリごとのイプシロン値において、攻撃者は、属性に関する決定的結果を導出することができない。したがって、実験は、差分プライバシー・イプシロン・バジェットが、0.1及び1.0のクエリごとのイプシロン値において、再構築攻撃を緩和するための効果的な手段を提供することを示す。
図31は、異なる様式で図30のデータを示す分布チャートを提供し、患者滞在がx軸にわたって広がり、垂直バーの暗さは、各滞在が臨床属性について正値を有することをどれくらいの頻度で予測されたかを示し、より暗い色はより頻繁な予測を示す。臨床属性の真値(グランド・トゥルース)が、最下行に示されている。最上行の明るい着色は、クエリごとのイプシロンのそれらのレベルにおける攻撃者の不確実性を示す。わかるように、イプシロン値は、攻撃者が成功する能力に大幅に影響を及ぼす。
上記の分析は、攻撃を失敗させる際のデータ分析プラットフォーム114の効果の重要な確認を提供するが、クエリ再識別化リスクを、適用可能なHIPAAしきい値などの規制しきい値に関係付けることが残っている。本明細書に記載される方法論は、再構築攻撃がシステムに対して成功裡に実行される確率を測定する。前に述べられたように、再構築攻撃は、推定される再識別化リスクを確立するための攻撃モデルとして選定され、なぜなら、それは、プライベート情報の流出を試行するための、システムに対する最も高性能の攻撃を表すからである。
成功した攻撃の確率は、多くの再構築攻撃をシミュレートすることと、それらの攻撃の何パーセントが成功したかを測定することとによって測定される。この目的で、「成功した」攻撃という用語は、ベースライン分類器よりも優れていることが可能であるものとして定義される。図32のチャートは、これらのシミュレーションの結果を記録する。表されているように、0.1及び1.0のクエリごとのイプシロンで構成されたシステムに対する攻撃は、100%の時間で不成功であり、したがって、Pr(成功)は、0.05の選定されたしきい値よりも低い。10.0のクエリごとのイプシロンにおいて、攻撃は72%の時間で成功しており、したがって、Pr(成功)は、ターゲットしきい値を超え、システムのための選定された構成でない。
システムにおける合成データ機能のプライバシー・リスクを評価するために、2つの方法が採用される。第1のものは、属性推論攻撃であり、第2のものは、識別情報開示リスク測定である。識別情報開示は、システムにおける最も著しいプライバシー侵害を表し、それは、合成データ能力のためのPr(成功)メトリックのための基礎として使用される。
属性推論攻撃の場合、攻撃者が何とかして元のデータの一部又は全部へのアクセスを取得したが、そのような調査者は、特徴のサブセットをどうにかして取得したにすぎず、上記で説明されたクエリ再構築攻撃による設定と同様に、欠落した情報を推論することを望むと仮定される。攻撃者はまた、すべての特徴を含む合成データへのアクセスを有するので、攻撃者は、合成データにおける類似する記録を使用することによって、元のデータにおける欠落した値を推論することを試行することができる。合成データが元のデータと同じ統計的特性を呈することが予想されるので、これは妥当と思われる。攻撃の結果が、図33のチャートに示されている。わかるように、攻撃は、k-nn方法又はランダム・フォレスト方法のどちらが選定されるかにかかわらず、大部分は不成功である。正則化(すなわち、ドロップアウト)は、攻撃性能を低減する。
合成データセットによってさらされる識別情報開示リスクを確立するために、リスク・メトリックが採用され、リスク・メトリックは、生成された合成データセットを、それがそこから導出された元のデータセットと厳密に比較することによって機能し、合成データセットによってさらされる識別情報開示リスクの保守的推定を作り出す。そのメトリックは、元のデータセットにおける記録に一致する、導出された合成データセットにおける記録の数と、元のデータセットにおけるエラーの確率と、一致した記録が正確であることを攻撃者が検証することが可能である確率とを含む、データセットに関するいくつかのファクタを考慮する。図34に示されているように、システムは、0.05のターゲットよりもはるかに低い識別情報開示リスクをもつ合成データセットを一貫して作り出すことが可能である。合成データは、極めて低い正則化レベル(ドロップアウト=0.0)と高い正則化レベル(0.5)とにおいて、臨床データセットから生成される。その両方は、成功した攻撃の確率(すなわち、Pr(成功))がどちらの場合も10パーセント未満であることにより、再識別化リスクの上限についてのターゲットよりも1桁低い。
本明細書で説明されるこの専門家決定は、システムの使用に関連するプライバシー・リスクを定量化するために、経験的結果に依拠する。ユーザにターゲット・データセットをリリースする前に、ターゲット・データセットに関するあらゆる考えられる実験を実施することは可能でない。したがって、観察された経験的結果の一般化可能性を考慮しなければならない。経験的結果は、2つの理由に基づいて、システムにおける全体的プライバシー・リスクの強い表現である。
第1のものは、差分プライバシーの、感度の概念である。技術のこの特性は、クエリごとに提示される再識別化リスクに基づいて、統計的結果に追加されるノイズを調整する。これは、システムが、総ノイズ追加でなく、むしろ総プライバシー損失を構成していることを意味する。したがって、プライバシー・リスクは、異なるデータセット及びクエリにわたって、ほぼ一定のままである。
第2に、本明細書に記載される本発明のいくつかの実施例で説明される経験的評価は保守的と見なされ、すなわち、それらは、システムに対して何が起動されることになるか合理的に予想され得るものよりもはるかに高性能の攻撃を採用する。さらに、いくつかの実施例におけるシステムは、健康データを非識別化するために使用される他のシステムの10分の1程度の大きさである、0.05の保守的リスクしきい値を採用する。これらの理由で、異なる(ただし類似する)臨床データセットについての観察された再識別化リスクが、本明細書に記載される報告された再識別化リスク値をはなはだしく超えることになることを予想することは不合理であると考えられる。
別の問題点は、時間によるデータセット増大である。一般的な臨床データセットは、患者との遭遇がそのデータ・ウェアハウスに残存されるにつれて、継続的に増大する。各追加の、患者との遭遇が、調査者に有意味な情報を寄与することができる。新しい、患者との遭遇は、1~3ヶ月ごとに患者データの新しいバッチを追加することをターゲットとして、「バッチ」ベースでデータセットに追加され得る。これらの増分データセットの各々は、臨床データセットの新しい「バージョン」になる。あるバージョンの再識別化リスクが、連続するバージョンの再識別化リスクをどの程度表すかを評価することが必要である。これは、クエリと合成データの両方のコンテキストにおいて考慮されるべきである。差分プライバシー・システムの一般化特性は、上記で説明されたように、システムにおけるクエリが、データセットの各バージョンにわたってほぼ同じ再識別化リスクを作り出すことが予想されることを意味する。合成データセットに関して、再識別化リスクが各データセットについて動的に測定されるので、システムは、再識別化リスクが、生成された報告の確立されたターゲット内にあるように、動的にエンフォースする。
上記のワークフローにおいて述べられた情報開示の複数のポイントがあることに留意されたい。これらの開示は、データセットから外部調査者への情報のリリース並びに発見の公開を含むことができる。差分プライバシーのプライバシー保証は、情報開示に敏感であり、これは、保護されたデータセットに関するより多くの情報が開示されるにつれて、ただアグリゲートの識別可能でないデータでも、差分プライバシーによって与えられるプライバシー保証が弱められることを意味する。十分な情報がリリースされたならば、攻撃者は、データベースに対する攻撃を組み立てる際にその情報を使用することができる。
たとえば、外部調査者は、以下のクエリを尋ね、以下の答えを得ることができる。
Q1=COUNT(X AND Y)
R1=16
Q2=COUNT(X AND Y AND Z)
R2=14
R1とR2の両方は、差分プライベートである。これは、COUNT(X AND Y AND NOT Z)が2であることを示唆する。次に、論文がX及びYの真の数を公開することを想像する。
T1=COUNT(X AND Y)
P1=12
COUNT(X AND Y)とCOUNT(X AND Y AND Z)とは相関するので、外部調査者は、R2がとうてい14であり得ないことをはっきり学習する。外部調査者が現在知っていることは、R2についての真値が間隔(0,12)中のどこかにあることである。この実例では、X=(性別(gender)=男(male))、Y=(性(sex)=女性(woman))、Z=(年齢=22)であるならば、非差分プライベート結果の公開は、広範な及び高性能の攻撃を必要とすることなしに、攻撃者にとっての情報獲得に寄与したことになる。
データセットに関する非プライベート・アグリゲート統計の周期的な公開が、システムが外部調査者に提供する、全体的プライバシー保証を潜在的に弱めることがあることが認められ得るが、これらのタイプのプライバシー攻撃は、2つの理由で合理的な仮定でない。第1のものは、外部調査者が研究の過程中にシステムへのアクセスを有するにすぎないという事実と組み合わせられた、データの複数のバージョンがプロジェクト・ライフサイクル全体にわたって作成されることの複雑さである。その結果、外部調査者が、データの厳密なバージョンへのアクセスを有することになるのと同時に、公開された非プライベート結果がそのような調査者のために利用可能になって、プライバシー攻撃を起動することは可能性が低い。第2に、いくつかの実施例では、システムのユーザは、一般に、調査専門家によって評価され、念入りに調べられており、再識別化における試行を禁止するデータ使用合意の下にある。
本明細書で説明されるシステム及び方法は、様々な実施例では、ハードウェアとソフトウェアとの任意の組合せによって実装され得る。たとえば、一実施例では、システム及び方法は、コンピュータ・システム又はコンピュータ・システムの集合によって実装され得、それらの各々は、プロセッサに結合されたコンピュータ可読記憶媒体に記憶されたプログラム命令を実行する1つ又は複数のプロセッサを含む。プログラム命令は、本明細書で説明される機能を実装し得る。図において示されているような、本明細書で説明される様々なシステム及び表示は、例示的な実装形態を表す。任意の方法の順序が変更され得、様々な要素が追加、修正、又は省略され得る。
本明細書で説明されるコンピューティング・システム又はコンピューティング・デバイスは、本発明の様々な実装形態の部分を形成するものとして、クラウド・コンピューティング・システム又は非クラウド・コンピューティング・システムのハードウェア部分を実装し得る。コンピュータ・システムは、限定はしないが、コモディティ・サーバ、パーソナル・コンピュータ・システム、デスクトップ・コンピュータ、ラップトップ又はノートブック・コンピュータ、メインフレーム・コンピュータ・システム、ハンドヘルド・コンピュータ、ワークステーション、ネットワーク・コンピュータ、消費者デバイス、アプリケーション・サーバ、ストレージ・デバイス、電話、携帯電話、或いは概して任意のタイプのコンピューティング・ノード、コンピュート・ノード、コンピュート・デバイス、及び/又はコンピューティング・デバイスを含む、様々なタイプのデバイスのうちのいずれかであり得る。コンピューティング・システムは、入出力(I/O)インターフェースを介してシステム・メモリに結合された(それらのうちのいずれかが単一又はマルチスレッドであり得る複数の処理コアを含み得る)1つ又は複数のプロセッサを含む。コンピュータ・システムは、I/Oインターフェースに結合されたネットワーク・インターフェースをさらに含み得る。
様々な実施例では、コンピュータ・システムは、1つのプロセッサを含むシングル・プロセッサ・システム、又は複数のプロセッサを含むマルチプロセッサ・システムであり得る。プロセッサは、コンピューティング命令を実行することが可能な任意の好適なプロセッサであり得る。たとえば、様々な実施例では、プロセッサは、様々な命令セット・アーキテクチャのうちのいずれかを実装する汎用プロセッサ又は組込みプロセッサであり得る。マルチプロセッサ・システムでは、プロセッサの各々は、通常、必ずしもそうではないが、同じ命令セットを実装し得る。コンピュータ・システムはまた、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、又はインターネットなど、通信ネットワークにわたって他のシステム及び/又は構成要素と通信するための1つ又は複数のネットワーク通信デバイス(たとえば、ネットワーク・インターフェース)を含む。たとえば、コンピューティング・デバイス上で実行するクライアント・アプリケーションは、様々なサブシステムにおいて実装される、クラウド・コンピューティング又は非クラウド・コンピューティング環境において本明細書で説明されるシステムの構成要素のうちの1つ又は複数を実装する単一のサーバ上で又はサーバのクラスタ上で実行するサーバ・アプリケーションと通信するためのネットワーク・インターフェースを使用し得る。別の実例では、コンピュータ・システム上で実行するサーバ・アプリケーションのインスタンスは、他のコンピュータ・システム上に実装され得るアプリケーションの他のインスタンスと通信するためのネットワーク・インターフェースを使用し得る。
コンピューティング・デバイスはまた、1つ又は複数の永続ストレージ・デバイス及び/又は1つ又は複数のI/Oデバイスを含む。様々な実施例では、永続ストレージ・デバイスは、ディスク・ドライブ、テープ・ドライブ、固体メモリ、他の大容量ストレージ・デバイス、又は任意の他の永続ストレージ・デバイスに対応し得る。コンピュータ・システム(或いはその上で動作する分散型アプリケーション又はオペレーティング・システム)は、要望に応じて、命令及び/又はデータを永続ストレージ・デバイスに記憶し得、必要に応じて、記憶された命令及び/又はデータを取り出し得る。たとえば、いくつかの実施例では、コンピュータ・システムは、制御プレーン又は制御システムの1つ又は複数のノードを実装し得、永続ストレージは、そのサーバ・ノードに取り付けられたSSDを含み得る。複数のコンピュータ・システムは、同じ永続ストレージ・デバイスを共有し得るか、或いは、永続ストレージ・デバイスのプールを共有し得、プール中のデバイスは、同じ又は異なるストレージ技術を表す。
コンピュータ・システムは、(1つ又は複数の)プロセッサによってアクセス可能なコード/命令とデータとを記憶し得る1つ又は複数のシステム・メモリを含む。システムのメモリ能力は、たとえば、アクセス速度に基づいてメモリ中の情報をスワップするように設計されたシステムにおける複数のレベルのメモリ及びメモリ・キャッシュを含み得る。インターリービング及びスワッピングが、仮想メモリ実装形態において永続ストレージに拡張し得る。メモリを実装するために使用される技術は、実例として、スタティック・ランダムアクセス・メモリ(RAM:random-access memory)、ダイナミックRAM、読取り専用メモリ(ROM:read-only memory)、不揮発性メモリ、又はフラッシュタイプ・メモリを含み得る。永続ストレージの場合と同様に、複数のコンピュータ・システムは、同じシステム・メモリを共有し得るか、又はシステム・メモリのプールを共有し得る。1つ又は複数のシステム・メモリは、本明細書で説明されるルーチンを実装するために、(1つ又は複数の)プロセッサによって実行可能であるプログラム命令を含んでいることがある。様々な実施例では、プログラム命令は、バイナリ、アセンブリ言語、Javaなどの任意のインタープリタ型言語、C/C++などのコンパイルされた言語において、又はそれらの任意の組合せにおいて符号化され得、ここで与えられる特定の言語は、実例にすぎない。いくつかの実施例では、プログラム命令は、複数の別個のクライアント、サーバ・ノード、及び/又は他の構成要素を実装し得る。
いくつかの実装形態では、プログラム命令は、UNIX(登録商標)、LINUX、Solaris(商標)、MacOS(商標)、又はMicrosoft Windows(商標)など、様々なオペレーティング・システムのうちのいずれかであり得る、オペレーティング・システム(図示せず)を実装するために実行可能な命令を含み得る。プログラム命令のいずれか又はすべては、様々な実装形態に従ってプロセスを実施するようにコンピュータ・システム(又は他の電子デバイス)をプログラムするために使用され得る、命令を記憶した非一時的コンピュータ可読記憶媒体を含み得る、コンピュータ・プログラム製品又はソフトウェアとして提供され得る。非一時的コンピュータ可読記憶媒体は、機械(たとえば、コンピュータ)によって可読な形態(たとえば、ソフトウェア、処理アプリケーション)で情報を記憶するための任意の機構を含み得る。概して、非一時的コンピュータアクセス可能媒体は、磁気媒体又は光媒体など、コンピュータ可読記憶媒体又はメモリ媒体、たとえば、I/Oインターフェースを介してコンピュータ・システムに結合されたディスク又はDVD/CD-ROMを含み得る。非一時的コンピュータ可読記憶媒体は、コンピュータ・システムのいくつかの実施例では、システム・メモリ又は別のタイプのメモリとして含まれ得る、RAM又はROMなど、任意の揮発性媒体又は不揮発性媒体をも含み得る。他の実装形態では、プログラム命令は、ネットワーク・インターフェースを介して実装され得るものなど、ネットワーク及び/或いはワイヤード又はワイヤレス・リンクなど、通信媒体を介して伝達される、伝搬される信号の光形態、音響形態、又は他の形態(たとえば、搬送波、赤外線信号、デジタル信号など)を使用して通信され得る。ネットワーク・インターフェースは、他のコンピュータ・システム又は任意のタイプの外部電子デバイスを含み得る、他のデバイスとインターフェースするために使用され得る。概して、ネットワークを通して他のデバイス上でアクセス可能なシステム・メモリ、永続ストレージ、及び/又はリモート・ストレージは、データ・ブロック、データ・ブロックのレプリカ、データ・ブロック及び/又はそれらの状態に関連付けられたメタデータ、データベース構成情報、並びに/或いは本明細書で説明されるルーチンを実装する際に使用可能な任意の他の情報を記憶し得る。
いくつかの実装形態では、I/Oインターフェースは、ネットワーク・インターフェース又は他の周辺インターフェースを通してを含めて、システムにおけるプロセッサとシステム・メモリと任意の周辺デバイスとの間のI/Oトラフィックを協調させ得る。いくつかの実施例では、I/Oインターフェースは、ある構成要素(たとえば、システム・メモリ)からのデータ信号を、別の構成要素(たとえば、プロセッサ)による使用に好適なフォーマットにコンバートするために、任意の必要なプロトコル、タイミング又は他のデータ変換を実施し得る。いくつかの実施例では、I/Oインターフェースは、たとえば、周辺構成要素相互接続(PCI:Peripheral Component Interconnect)バス規格又はユニバーサルシリアルバス(USB:Universal Serial Bus)規格の変形態など、様々なタイプの周辺バスを通して取り付けられたデバイスのサポートを含み得る。また、いくつかの実施例では、システム・メモリへのインターフェースなど、I/Oインターフェースの機能の一部又は全部が、(1つ又は複数の)プロセッサに直接組み込まれ得る。
ネットワーク・インターフェースは、たとえば、データが、コンピュータ・システムと、(本明細書で説明される、1つ又は複数のストレージ・システム・サーバ・ノード、1次ノード、読取り専用ノード・ノード、及び/又はデータベース・システムのクライアントを実装し得る)他のコンピュータ・システムなど、ネットワークに取り付けられた他のデバイスとの間で交換されることを可能にし得る。さらに、I/Oインターフェースは、コンピュータ・システムと様々なI/Oデバイス及び/又はリモート・ストレージとの間の通信を可能にし得る。入出力デバイスは、いくつかの実施例では、1つ又は複数のディスプレイ端末、キーボード、キーパッド、タッチパッド、走査デバイス、ボイス又は光認識デバイス、或いは1つ又は複数のコンピュータ・システムによってデータを入れるか又は取り出すのに好適な任意の他のデバイスを含み得る。これらは、特定のコンピュータ・システムに直接接続するか、或いは、概して、クラウド・コンピューティング環境、グリッド・コンピューティング環境、又は複数のコンピュータ・システムを伴う他のシステムにおける、複数のコンピュータ・システムに接続し得る。複数の入出力デバイスが、コンピュータ・システムと通信して存在し得るか、又はコンピュータ・システムを含む分散型システムの様々なノード上に分散され得る。本明細書で説明されるユーザ・インターフェースは、CRTディスプレイと、LCDディスプレイと、LEDディスプレイと、他のディスプレイ技術とを含み得る、様々なタイプのディスプレイ・スクリーンを使用してユーザに可視であり得る。いくつかの実装形態では、入力は、タッチスクリーン技術を使用してディスプレイを通して受信され得、他の実装形態では、入力は、キーボード、マウス、タッチパッド、又は他の入力技術、或いはこれらの技術の任意の組合せを通して受信され得る。
いくつかの実施例では、同様の入出力デバイスが、コンピュータ・システムとは別個であり得、ネットワーク・インターフェース上でなど、ワイヤード又はワイヤレス接続を通して、コンピュータ・システムを含む分散型システムの1つ又は複数のノードと対話し得る。ネットワーク・インターフェースは、通常、1つ又は複数のワイヤレス・ネットワーキング・プロトコル(たとえば、Wi-Fi/IEEE802.11、又は別のワイヤレス・ネットワーキング規格)をサポートし得る。ネットワーク・インターフェースは、たとえば、他のタイプのイーサネット・ネットワークなど、任意の好適なワイヤード又はワイヤレスの一般的なデータ・ネットワークを介した通信をサポートし得る。さらに、ネットワーク・インターフェースは、アナログ・ボイス・ネットワーク又はデジタル・ファイバー通信ネットワークなどの電気通信/テレフォニー・ネットワークを介した通信、ファイバー・チャネルSANなどのストレージ・エリア・ネットワークを介した通信、或いは任意の他の好適なタイプのネットワーク及び/又はプロトコルを介した通信をサポートし得る。
本明細書で説明される分散型システム実施例のうちのいずれか、又はそれらの構成要素のうちのいずれかは、クラウド・コンピューティング環境における1つ又は複数のネットワークベース・サービスとして実装され得る。たとえば、データベース・システムのデータベース・ティア内の読取り書込みノード及び/又は読取り専用ノードは、本明細書で説明される分散型ストレージ・システムを採用するデータベース・サービス及び/又は他のタイプのデータ・ストレージ・サービスを、ネットワークベース・サービスとしてクライアントに提示し得る。いくつかの実施例では、ネットワークベース・サービスは、ネットワークを介した相互運用可能なマシンツーマシン対話をサポートするように設計されたソフトウェア及び/又はハードウェア・システムによって実装され得る。ウェブ・サービスは、ウェブ・サービス記述言語(WSDL:Web Services Description Language)などの機械処理可能なフォーマットで記述されたインターフェースを有し得る。他のシステムは、ネットワークベース・サービスのインターフェースの記述によって規定された様式でネットワークベース・サービスと対話し得る。たとえば、ネットワークベース・サービスは、他のシステムが呼び出し得る様々な動作を定義し得、様々な動作を要求するときに他のシステムが従うことが予想され得る特定のアプリケーション・プログラミング・インターフェース(API:application programming interface)を定義し得る。
様々な実施例では、ネットワークベース・サービスは、ネットワークベース・サービス要求に関連付けられたパラメータ及び/又はデータを含むメッセージの使用を通して要求されるか又は呼び出され得る。そのようなメッセージは、拡張可能マークアップ言語(XML:Extensible Markup Language)などの特定のマークアップ言語に従ってフォーマットされ得、及び/又はシンプル・オブジェクト・アクセス・プロトコル(SOAP:Simple Object Access Protocol)などのプロトコルを使用してカプセル化され得る。ネットワークベース・サービス要求を実施するために、ネットワークベース・サービス・クライアントは、要求を含むメッセージをアセンブルし、ハイパーテキスト転送プロトコル(HTTP:Hypertext Transfer Protocol)などのインターネットベース・アプリケーション・レイヤ転送プロトコルを使用して、そのメッセージを、ウェブ・サービスに対応するアドレス指定可能なエンドポイント(たとえば、ユニフォーム・リソース・ロケータ(URL:Uniform Resource Locator))に伝達し得る。いくつかの実施例では、ネットワークベース・サービスは、メッセージ・ベース技法ではなく表現状態転送(REST:Representational State Transfer)技法を使用して実装され得る。たとえば、REST技法に従って実装されたネットワークベース・サービスが、PUT、GET、又はDELETEなど、HTTPメソッド内に含まれるパラメータを通して呼び出され得る。
別段に明記されていない限り、本明細書で使用されるすべての技術用語及び科学用語は、本発明が属する当技術分野の当業者によって一般に理解されるものと同じ意味を有する。本明細書で説明されるものと同様の又は等価な方法及び材料が、本発明の実施又はテストにおいても使用され得るが、限られた数の例示的な方法及び材料が本明細書で説明される。はるかに多くの修正が、本明細書の発明概念から逸脱することなく可能であることが当業者には明らかであろう。
本明細書で使用されるすべての用語は、コンテキストに一致する最も広い可能な様式で解釈されるべきである。グループ化が本明細書で使用されるとき、グループのすべての個々のメンバー、並びにグループの可能なすべての組合せ及び部分組合せが、個々に含まれるものとする。本明細書で範囲が明記されるとき、範囲は、範囲内のすべてのサブ範囲及び個々の点を含むものとする。本明細書で引用されるすべての参照は、本明細書の本開示との不整合がない範囲で、参照により本明細書に組み込まれる。
本発明は、例にすぎないことが意図され、添付の特許請求の範囲に記載されたような本発明の完全な範囲に限定するものではない、いくつかの好ましい実施例及び代替実施例に関して説明された。
本出願は、202年9月18日に出願された米国仮特許出願第63/080,333号の利益を主張する。上記の出願は、その全体が参照により本明細書に組み込まれる。
ネットワーク・インターフェースは、たとえば、データが、コンピュータ・システムと、(本明細書で説明される、1つ又は複数のストレージ・システム・サーバ・ノード、1次ノード、読取り専用ノード、及び/又はデータベース・システムのクライアントを実装し得る)他のコンピュータ・システムなど、ネットワークに取り付けられた他のデバイスとの間で交換されることを可能にし得る。さらに、I/Oインターフェースは、コンピュータ・システムと様々なI/Oデバイス及び/又はリモート・ストレージとの間の通信を可能にし得る。入出力デバイスは、いくつかの実施例では、1つ又は複数のディスプレイ端末、キーボード、キーパッド、タッチパッド、走査デバイス、ボイス又は光認識デバイス、或いは1つ又は複数のコンピュータ・システムによってデータを入れるか又は取り出すのに好適な任意の他のデバイスを含み得る。これらは、特定のコンピュータ・システムに直接接続するか、或いは、概して、クラウド・コンピューティング環境、グリッド・コンピューティング環境、又は複数のコンピュータ・システムを伴う他のシステムにおける、複数のコンピュータ・システムに接続し得る。複数の入出力デバイスが、コンピュータ・システムと通信して存在し得るか、又はコンピュータ・システムを含む分散型システムの様々なノード上に分散され得る。本明細書で説明されるユーザ・インターフェースは、CRTディスプレイと、LCDディスプレイと、LEDディスプレイと、他のディスプレイ技術とを含み得る、様々なタイプのディスプレイ・スクリーンを使用してユーザに可視であり得る。いくつかの実装形態では、入力は、タッチスクリーン技術を使用してディスプレイを通して受信され得、他の実装形態では、入力は、キーボード、マウス、タッチパッド、又は他の入力技術、或いはこれらの技術の任意の組合せを通して受信され得る。

Claims (30)

  1. プライベート・データに関して仮説検定することをサポートするためのプラットフォームであって、システムが、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信しているプライベート・データセットを備えるデータベースと、
    前記プロセッサと通信している少なくとも1つの非一時的媒体と
    を備え、前記非一時的媒体が、命令を備える命令セットを備え、前記命令は、前記少なくとも1つのプロセッサと通信している前記少なくとも1つのプロセッサにおいて実行されたとき、
    前記プライベート・データセットに対する動作についての要求を外部分析コンピュータ・システムから受信することと、
    前記外部分析コンピュータ・システムからの前記要求に対する答えを計算することと、
    ノイズの多い結果を作り出すために前記外部分析コンピュータ・システムからの前記答えにノイズを適用することと、
    前記外部分析コンピュータ・システムに前記ノイズの多い結果を返すことと、
    前記プライベート・データセットに対して仮説検定することについての要求を前記外部分析コンピュータ・システムから受信することと、
    前記プライベート・データセットに対する仮説検定を実施することと、
    前記プライベート・データセットに対する前記仮説検定の前記実施から最終結果を計算することであって、前記最終結果が、前記プライベート・データセットのプライバシーを保護するものである、計算することと、
    前記外部分析コンピュータ・システムに前記最終結果を返すことと
    を行うように構成された、プラットフォーム。
  2. 前記命令セットが、前記少なくとも1つのプロセッサと通信している前記少なくとも1つのプロセッサにおいて実行されたとき、前記ノイズの多い結果を作り出すために前記プライベート・データセットに差分プライバシーを適用するようにさらに構成された、請求項1に記載のシステム。
  3. 前記最終結果が、アグリゲート統計的結果のセットである、請求項1に記載のシステム。
  4. 前記命令セットは、前記少なくとも1つのプロセッサと通信している前記少なくとも1つのプロセッサにおいて実行されたとき、内部分析コンピュータ・システムに前記最終結果を提供することと、前記内部分析コンピュータ・システムから承認が受信された場合、前記外部分析コンピュータ・システムに前記最終結果をリリースすることとを行うようにさらに構成された、請求項1に記載のシステム。
  5. 前記命令セットが、前記少なくとも1つのプロセッサと通信している前記少なくとも1つのプロセッサにおいて実行されたとき、
    前記内部分析コンピュータ・システムからクエリを受信することと、
    前記プライベート・データセットに対して前記クエリを実行することと、
    前記内部分析コンピュータ・システムに真の結果のセットを返すことと
    を行うようにさらに構成された、請求項4に記載のシステム。
  6. 前記命令セットが、前記少なくとも1つのプロセッサと通信している前記少なくとも1つのプロセッサにおいて実行されたとき、
    前記外部分析コンピュータ・システムから機械学習トレーニング又は評価要求を受信することと、
    前記機械学習トレーニング又は評価要求を取り込むこと、及び前記プライベート・データセットに対して機械学習タスクを実施することと、
    前記外部分析コンピュータ・システムに機械学習トレーニング又は評価結果を返すことと
    を行うようにさらに構成された、請求項1に記載のシステム。
  7. 前記機械学習トレーニング又は評価結果が、機械学習モデルなしの要約統計を含む、請求項6に記載のシステム。
  8. 前記命令セットが、前記少なくとも1つのプロセッサと通信している前記少なくとも1つのプロセッサにおいて実行されたとき、
    内部分析コンピュータ・システムから機械学習トレーニング又は評価要求を受信することと、
    前記機械学習トレーニング又は評価要求を取り込むこと、及び前記プライベート・データセットに対して前記機械学習タスクを実施することと、
    前記内部分析コンピュータ・システムに要約統計のセットを返すことと、
    前記内部分析コンピュータ・システムから前記機械学習モデルについての要求を受信することと、
    前記機械学習モデルを取り出し、前記内部分析コンピュータ・システムに返すことと
    を行うようにさらに構成された、請求項4に記載のシステム。
  9. 前記機械学習トレーニング又は評価結果が、機械学習モデルなしの要約統計を含む、請求項8に記載のシステム。
  10. 前記命令セットが、前記少なくとも1つのプロセッサと通信している前記少なくとも1つのプロセッサにおいて実行されたとき、
    前記外部分析コンピュータ・システムから合成データセットについての要求を受信することと、
    前記プライベート・データセットから合成データセットを生成することと、
    前記合成データセットの前記プライバシーを評価することと、
    前記合成データセットの前記プライバシーの前記評価の結果に基づいて、前記外部分析コンピュータ・システムに前記合成データセットを返すことと
    を行うようにさらに構成された、請求項1に記載のシステム。
  11. 前記命令セットは、前記少なくとも1つのプロセッサと通信している前記少なくとも1つのプロセッサにおいて実行されたとき、前記外部分析コンピュータ・システムからの前記プライベート・データセットに対する動作についての各要求について、クエリ・イプシロン・バジェットを計算し、クエリごとのイプシロン・バジェットを適用し、前記クエリごとのイプシロン・バジェットが、動作についての前記要求によって超えられなかった場合のみ、前記外部分析コンピュータ・システムに前記ノイズの多い結果を返すようにさらに構成された、請求項1に記載のシステム。
  12. 前記命令セットは、前記少なくとも1つのプロセッサと通信している前記少なくとも1つのプロセッサにおいて実行されたとき、プロジェクトごとのイプシロン・バジェットを維持することと、前記外部分析コンピュータからの前記プライベート・データセットに対する動作についての複数の要求についてクエリ・イプシロンを計算することと、前のクエリ・イプシロンの各々を加算することによってプロジェクト・イプシロンを計算し、前記プロジェクト・イプシロンが前記プロジェクトごとのイプシロン・バジェットを超えない場合のみ、前記外部分析システムに前記ノイズの多い結果を返すこととを行うようにさらに構成された、請求項11に記載のシステム。
  13. 前記命令セットが、前記少なくとも1つのプロセッサと通信している前記少なくとも1つのプロセッサにおいて実行されたとき、前記プライベート・データセットに対するプライバシー攻撃をシミュレートすることによって、クエリごとのイプシロン・バジェットとプロジェクト・イプシロン・バジェットとのうちの少なくとも1つを計算するようにさらに構成された、請求項12に記載のシステム。
  14. 前記プライバシー攻撃が線形プログラミング再構築攻撃である、請求項13に記載のシステム。
  15. 前記イプシロンが、0.05以下における前記プライバシー攻撃についての成功の確率に対応するように設定された、請求項14に記載のシステム。
  16. プライベート・データを使用して仮説を検定するための方法であって、前記方法は、
    データ分析プラットフォームにおいて、前記データ分析プラットフォームに接続されたデータベースに記憶されたプライベート・データセットに対する動作についての要求を外部分析コンピュータ・システムから受信するステップと、
    前記データ分析プラットフォームにおいて、前記外部分析コンピュータ・システムからの前記要求に対する答えを計算するステップと、
    前記データ分析プラットフォームにおいて、ノイズの多い結果を作り出すために前記外部分析コンピュータ・システムからの前記答えにノイズを適用するステップと、
    前記データ分析プラットフォームから前記外部分析コンピュータ・システムに前記ノイズの多い結果を返すステップと、
    前記データ分析プラットフォームにおいて、前記プライベート・データセットに対して仮説検定することについての要求を前記外部分析コンピュータ・システムから受信するステップと、
    前記データ分析プラットフォームにおいて、前記データベース中の前記プライベート・データセットに対する仮説検定を実施するステップと、
    前記データ分析プラットフォームにおいて、前記プライベート・データセットに対する前記仮説検定の前記実施から最終結果を計算するステップであって、前記最終結果が、前記プライベート・データセットのプライバシーを保護するものである、ステップと、
    前記データ分析プラットフォームから前記外部分析コンピュータ・システムに前記最終結果を返すステップと
    を含む、方法。
  17. 前記ノイズの多い結果を作り出すために前記プライベート・データセットに差分プライバシーを適用するステップをさらに含む、請求項16に記載の方法。
  18. 前記最終結果が、アグリゲート統計的結果のセットである、請求項16に記載の方法。
  19. 前記データ分析プラットフォームから内部分析コンピュータ・システムに前記最終結果を提供するステップと、
    前記内部分析コンピュータ・システムから承認が受信された場合、前記データ分析プラットフォームから前記外部分析コンピュータ・システムに前記最終結果をリリースするステップと
    をさらに含む、請求項16に記載の方法。
  20. 前記データ分析プラットフォームにおいて、前記内部分析コンピュータ・システムからクエリを受信するステップと、
    前記データ分析プラットフォームにおいて、前記プライベート・データセットに対して前記クエリを実行するステップと、
    前記データ分析プラットフォームから前記内部分析コンピュータ・システムに真の結果のセットを返すステップと
    をさらに含む、請求項19に記載の方法。
  21. 前記データ分析プラットフォームにおいて、前記外部分析コンピュータ・システムから機械学習トレーニング又は評価要求を受信するステップと、
    前記データ分析プラットフォームにおいて、前記機械学習トレーニング又は評価要求を取り込むステップと、
    前記データ分析プラットフォームにおいて、前記データベース中の前記プライベート・データセットに対して機械学習タスクを実施するステップと、
    前記データ分析プラットフォームから前記外部分析コンピュータ・システムに機械学習トレーニング又は評価結果を返すステップと
    をさらに含む、請求項16に記載の方法。
  22. 前記機械学習トレーニング又は評価結果が、機械学習モデルなしの要約統計を含む、請求項21に記載の方法。
  23. 前記データ分析プラットフォームにおいて、内部分析コンピュータ・システムから機械学習トレーニング又は評価要求を受信するステップと、
    前記データ分析プラットフォームにおいて、前記機械学習トレーニング又は評価要求を取り込むステップと、
    前記データ分析プラットフォームにおいて、前記プライベート・データセットに対して前記機械学習タスクを実施するステップと、
    前記データ分析プラットフォームから前記内部分析コンピュータ・システムに要約統計のセットを返すステップと、
    前記データ分析プラットフォームにおいて、前記内部分析コンピュータ・システムから前記機械学習モデルについての要求を受信するステップと、
    前記データ分析プラットフォームにおいて、前記機械学習モデルを取り出し、前記内部分析コンピュータ・システムに返すステップと
    をさらに含む、請求項19に記載の方法。
  24. 前記機械学習トレーニング又は評価結果が、機械学習モデルなしの要約統計を含む、請求項23に記載の方法。
  25. 前記データ分析プラットフォームにおいて、前記外部分析コンピュータ・システムから合成データセットについての要求を受信するステップと、
    前記データ分析プラットフォームにおいて、前記データベース中の前記プライベート・データセットから合成データセットを生成するステップと、
    前記データ分析プラットフォームにおいて、前記合成データセットの前記プライバシーを評価するステップと、
    前記合成データセットの前記プライバシーの前記評価の結果に基づいて、前記データ分析プラットフォームから前記外部分析コンピュータ・システムに前記合成データセットを送るステップと
    をさらに含む、請求項16に記載の方法。
  26. 前記外部分析コンピュータ・システムから前記データ分析プラットフォームへの前記プライベート・データセットに対する動作についての各要求について、クエリ・イプシロン・バジェットを計算し、クエリごとのイプシロン・バジェットを適用し、前記クエリごとのイプシロン・バジェットが、動作についての前記要求によって超えられなかった場合のみ、前記外部分析コンピュータ・システムに前記ノイズの多い結果を返すステップをさらに含む、請求項16に記載の方法。
  27. 前記データ分析プラットフォームにおいて、プロジェクトごとのイプシロン・バジェットを維持するステップと、
    前記データ分析プラットフォームにおいて、前記外部分析コンピュータからの前記プライベート・データセットに対する動作についての複数の要求についてクエリ・イプシロンを計算するステップと、
    前記データ分析プラットフォームにおいて、前のクエリ・イプシロンの各々を加算することによってプロジェクト・イプシロンを計算し、前記プロジェクト・イプシロンが前記プロジェクトごとのイプシロン・バジェットを超えない場合のみ、前記外部分析システムに前記ノイズの多い結果を返すステップと
    をさらに含む、請求項26に記載の方法。
  28. 前記データ分析プラットフォームにおいて、前記プライベート・データセットに対するプライバシー攻撃をシミュレートすることによって、クエリごとのイプシロン・バジェットとプロジェクト・イプシロン・バジェットとのうちの少なくとも1つを計算するステップをさらに含む、請求項27に記載の方法。
  29. 前記プライバシー攻撃が線形プログラミング再構築攻撃である、請求項28に記載の方法。
  30. 前記イプシロンが、0.05以下における前記プライバシー攻撃についての成功の確率に対応するように設定された、請求項29に記載の方法。
JP2023517887A 2020-09-18 2021-09-17 定量化された再識別化リスクを用いたデータ分析プライバシー・プラットフォーム Pending JP2023543716A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063080333P 2020-09-18 2020-09-18
US63/080,333 2020-09-18
PCT/US2021/050947 WO2022061162A1 (en) 2020-09-18 2021-09-17 Data analytics privacy platform with quantified re-identification risk

Publications (1)

Publication Number Publication Date
JP2023543716A true JP2023543716A (ja) 2023-10-18

Family

ID=80776393

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2023517848A Pending JP2023543715A (ja) 2020-09-18 2021-09-17 連合プライベート・データのための分析プラットフォーム
JP2023517887A Pending JP2023543716A (ja) 2020-09-18 2021-09-17 定量化された再識別化リスクを用いたデータ分析プライバシー・プラットフォーム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2023517848A Pending JP2023543715A (ja) 2020-09-18 2021-09-17 連合プライベート・データのための分析プラットフォーム

Country Status (5)

Country Link
US (2) US20230342491A1 (ja)
EP (2) EP4200774A1 (ja)
JP (2) JP2023543715A (ja)
CA (2) CA3193213A1 (ja)
WO (2) WO2022061165A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230315899A1 (en) * 2022-03-30 2023-10-05 Amazon Technologies, Inc. Synthetic data generation
CN116702214B (zh) * 2023-08-02 2023-11-07 山东省计算中心(国家超级计算济南中心) 基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6577271B1 (en) * 1999-03-30 2003-06-10 Sirf Technology, Inc Signal detector employing coherent integration
US20110178930A1 (en) * 2001-01-30 2011-07-21 Scheidt Edward M Multiple Level Access with SILOS
US7725291B2 (en) * 2006-04-11 2010-05-25 Moresteam.Com Llc Automated hypothesis testing
US8655939B2 (en) * 2007-01-05 2014-02-18 Digital Doors, Inc. Electromagnetic pulse (EMP) hardened information infrastructure with extractor, cloud dispersal, secure storage, content analysis and classification and method therefor
WO2010078577A2 (en) * 2009-01-05 2010-07-08 Services Petroliers Schlumberger Processing time series data embedded in high noise
US8380151B2 (en) * 2009-12-18 2013-02-19 Broadcom Corporation Method and system for reducing the complexity of multi-frequency hypothesis testing using an iterative approach
US8874593B2 (en) * 2011-07-01 2014-10-28 Salesforce.Com, Inc. Testing data silo
US8630870B2 (en) * 2011-07-12 2014-01-14 Universal Research Solutions, Llc Patient portal
WO2014138205A2 (en) * 2013-03-05 2014-09-12 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for detecting a compromised computing host

Also Published As

Publication number Publication date
US20230351036A1 (en) 2023-11-02
WO2022061165A1 (en) 2022-03-24
JP2023543715A (ja) 2023-10-18
US20230342491A1 (en) 2023-10-26
CA3193215A1 (en) 2022-03-24
EP4200774A1 (en) 2023-06-28
EP4200775A1 (en) 2023-06-28
WO2022061162A1 (en) 2022-03-24
CA3193213A1 (en) 2022-03-24

Similar Documents

Publication Publication Date Title
CA3061638C (en) Systems and methods for enforcing centralized privacy controls in de-centralized systems
US11790117B2 (en) Systems and methods for enforcing privacy-respectful, trusted communications
US10572684B2 (en) Systems and methods for enforcing centralized privacy controls in de-centralized systems
US10043035B2 (en) Systems and methods for enhancing data protection by anonosizing structured and unstructured data and incorporating machine learning and artificial intelligence in classical and quantum computing environments
US20220050921A1 (en) Systems and methods for functionally separating heterogeneous data for analytics, artificial intelligence, and machine learning in global data ecosystems
US9619669B2 (en) Systems and methods for anonosizing data
Antwi et al. The case of HyperLedger Fabric as a blockchain solution for healthcare applications
Williams Social networking applications in health care: threats to the privacy and security of health information
US20150379303A1 (en) Systems And Methods For Contextualized Data Protection
Nelson Practical implications of sharing data: a primer on data privacy, anonymization, and de-identification
US20230054446A1 (en) Systems and methods for functionally separating geospatial information for lawful and trustworthy analytics, artificial intelligence and machine learning
CA3104119C (en) Systems and methods for enforcing privacy-respectful, trusted communications
CA2975441C (en) Systems and methods for contextualized data protection
US20230351036A1 (en) Data Analytics Privacy Platform with Quantified Re-Identification Risk
Tertulino et al. Privacy in electronic health records: a systematic mapping study
Benschop et al. Statistical disclosure control: A practice guide
Alsheikh Five common misconceptions about privacy-preserving internet of things
Stach et al. Assessment and treatment of privacy issues in blockchain systems
Wang et al. Identifying personal physiological data risks to the Internet of Everything: the case of facial data breach risks
Jha et al. Big data security and privacy: A review on issues challenges and privacy preserving methods
Motiwalla et al. Value added privacy services for healthcare data
Forrester User information security behavior in professional virtual communities: A technology threat avoidance approach
Oh et al. Data De-identification Framework.
Basu et al. Measuring Discrepancies in Airbnb Guest Acceptance Rates Using Anonymized Demographic Data
Baumer Identification and Evaluation of Concepts for Privacy-Enhancing Big Data Analytics Using De-Identification Methods on Wrist-Worn Wearable Data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230519