JP6940239B2 - データストックを匿名化するための方法およびシステム - Google Patents

データストックを匿名化するための方法およびシステム Download PDF

Info

Publication number
JP6940239B2
JP6940239B2 JP2019528569A JP2019528569A JP6940239B2 JP 6940239 B2 JP6940239 B2 JP 6940239B2 JP 2019528569 A JP2019528569 A JP 2019528569A JP 2019528569 A JP2019528569 A JP 2019528569A JP 6940239 B2 JP6940239 B2 JP 6940239B2
Authority
JP
Japan
Prior art keywords
generalization
data stock
combination
anonymity
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019528569A
Other languages
English (en)
Other versions
JP2020501254A (ja
Inventor
モック,ミヒャエル
ハプフェルマイヤー,アンドレアス
イミヒ,マイク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2020501254A publication Critical patent/JP2020501254A/ja
Application granted granted Critical
Publication of JP6940239B2 publication Critical patent/JP6940239B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データストックを匿名化するための方法およびシステムに関する。
米国特許第7,269,578号明細書は、入力データソース内のエントリを識別解除または匿名化するためのシステムおよび方法に関する。この方法の目的は、属性値を一般化することであり、この属性値は、データの量に例えば誕生日のような、組み合わせた間接的な個人情報も含み、例えば誕生日を含む民間登録情報のような身元情報が参照されるときでも、データの量から特定の個人を参照し返すことがもはや不可能であるようにする。間接的な個人情報を含む属性は、準識別子と呼ばれる。
データセットは、準識別子の組み合わせを通じた各可能なクエリが常に結果を送達しないか、または少なくともk個の結果を送達する場合、「k−匿名(k-anonym)」である。これは、一般化された準識別子の各組み合わせが、少なくともk個の要素のグループを記述することによって達成される。
さらに、匿名化の結果には、k−匿名性(k−Anonymitaet(aeはアー・ウムラウト))を超えるより厳しい条件がある。結果グループあたりのk個の要素の最小数に加えて、これらはまた、一般化されていない特別な属性のための条件を構成する。これらの特別な属性は、機密(センシティブ)属性と呼ばれる。これらの一般的な基準は、「l−多様性(l-Diversitaet(l-Diversity))」および「t−近接性(t-Naehe(t-Closeness))」である。
機密属性の一例は、例えば、患者データセットにおける属性「病気」である。「l-多様性」とは、得られた各グループが少なくともk個の要素を含み、各グループにおいて、機密属性に対して少なくともl個の異なる値が満たされる必要があることを意味する(Ashwin Machanavajhala、Daniel Kifer、Johannes GehrkeおよびMuthuramakrishnanVenkitasubramaniam、2007、「l-Diversity:Privacy beyond k-Anonymity」、ACM Trans、Knowl. Discv. Data 1, 1, Article 3(2007年3月)、DOI=http://dx.doi.org/10.1145/1217299.1217302)参照)。
「t−近接性」とは、各グループにおける機密属性の統計的分布が、パラメータとして与えられた程度だけ、総量における機密属性の統計的分布から離れていることを意味する(N. Li、T. LiおよびS. Venkatasubramanian、"t-Closenses: Privacy Beyond k-Anonymity and l-Diversity"、2007 IEEE 23rd International Conference on Data Engineering、Istanbul、2007、106−115頁。doi: 10.1109/ICDE.2007.367856
これを達成するために、一般化レベルとして知られるものが準識別子に対して定義される。準識別子に一般化を適用することによって、属性値の情報内容が低減され、その結果、元の異なる属性値が同じになることが可能になる。したがって、例えば、郵便番号53754および53757は、両方とも5375*に一般化することができ、したがって、第1の一般化レベルで同等化される。
一般化は、準識別子についてのクエリがより区別されず、結果の数がより多くなることにつながる。データセットが十分に一般化されている場合、それはk−匿名性の基準を満たす。
しかしながら、一般化のそれぞれより高いレベルは、データ内の情報のさらなる損失につながる。情報の損失を低減する1つの方法は、必要な一般化レベルをできるだけ低く保つことである。これを達成するために、適切なデータセットをデータストックから完全に除去することもできる(抑制)。
一般化レベルと、可能な限り少ない情報損失でデータ量のk−匿名性を達成する抑制との組み合わせを見つけることは、アルゴリズム(NP困難)の点で複雑な最適化問題である。
文献およびオープンソースセクタの様々なアルゴリズムおよび実装は、k−匿名性を達成し、データストックから過剰な量の情報を除去しない、データストックの一般化および抑制の組合せを見つけるためのヒューリスティック(経験則)を提供する。
しかしながら、これまでの解決策は、個々のコンピュータのメインメモリ又は仮想メモリにロードされるべきデータ量の全てのデータ及びそこで実行されるべきアルゴリズムを必要とするので、大量のデータに対して動作することができない。したがって、これらの解決策は、その範囲がコンピュータのメモリよりも大きい大量のデータ(ビッグデータ)には適していない。
Kohlmauerらの、「Flash: Efficient、Stable and Optimal k-Anonymity」、2012の論文は、一般化および抑制に基づいてk−anonymityを達成する探索ヒューリスティックを記載している。しかしながら、このアルゴリズムは分散されておらず、単一コンピュータソリューションとして設計されている。このアルゴリズムは、k−匿名性のための他のヒューリスティックと同様に、一般化格子(Generalisationsgraphen(Generalization-Lattice))として知られている一般化および抑制に基づいている。この一般化格子は、準識別子の数と、準識別子ごとに定義される一般化レベルの数とによって決定される。
格子内のノードは、準識別子があるのと全く同じ数の要素を有するベクトルを含む。ベクトルの各成分において、各準識別子に対して、この準識別子に対してどの一般化レベルを使用すべきかがプロットされる。全てのノードの総量は、準識別子に対する一般化のための全ての組み合わせ可能性を定義する。次いで、2つのノードが正確に1つの成分において値1だけ異なるときに、これらのノード間にエッジが正確に描画される。
各ノードについて、そこに記載された一般化レベルが適用される場合、修正されたデータストックが、おそらくはグループ強度kを達成しないデータセットの抑制を含み得る、k−匿名性、l−多様性、またはt−近接性の条件を満たすかどうかが調査され得る。同様に、そのノードについて、そのノードを適用したときにどのような情報損失が生じたかを計算することができる。
これは、結果として生じるグループの数、抑制されたデータセットのサイズおよび数を組み込む識別性メトリックを使用して計算される。さらに、アルゴリズムは、どのノードが次にチェックされるべきか、およびどのノードが次にチェックされるべきかを定義する探索ヒューリスティックを提供する。
チェックされたノードのすべての中から最低の情報損失を有するノードが、匿名化の結果を決定する。フラッシュ・アルゴリズムは、これらの計算のすべてを実行し、メインメモリ内のデータストックをチェックする。従って、分散型ビッグデータシステムにおいて保持され処理される大量のデータに適用することはできない。
Ghinita、P. Karras、P.KalnisおよびN. Mamoulis、「Fast DataAnonymization with Low Information Loss」、in: Proceedingsof the 33rd International Conference on Very Large Data Bases、VLDB ’07、VLDB Endowment、2007、758-769頁の論文は、それ自身でk−匿名性を達成する一般化かどうかをチェックするために使用することができるHilbアルゴリズムについて説明する。
X. Zhangら、「A Scalable Two-Phase Top-DownSpecialization Approach for Data Anonymization Using MapReduce on Cloud」、IEEE Transactions On Parallel And Distributed Systems、vol.25、no.2、2014年2月、の論文では、k−匿名性のためのTDS(トップダウン特殊化)のマップリデュース型の実行について説明する。しかし、この方法は、任意の所望の探索ヒューリスティックを用いて一般化格子全体を探索する柔軟性を提供しない。
本発明の技術的目的は、大きなデータストックの匿名化を可能にすることである。
この目的は、独立請求項に記載の技術的主題によって達成される。有利な実施形態は、従属請求項、実施例、および図面の主題である。
第1の態様によれば、この目的は、データストックを匿名化するための方法によって達成され、この方法は、中央ノードがデータストックの準識別子の一般化レベルの組合せを決定するステップと、一般化レベルの組合せを複数のサブノードに送信するステップと、一般化レベルの組合せに基づいてサブノードが並列にデータストックの匿名化を実行するステップとを有する。多数のサブノードを使用することにより、大きなデータストックを短時間で匿名化することもできるという技術的利点が達成される。
本方法の1つの技術的に有利な実施形態では、匿名化されたデータストックがk−匿名性の条件を満たすかどうかがチェックされる。その結果、例えば、データストックが所望の匿名性を有することを保証することができるという技術的利点が達成される。
本方法のさらなる技術的に有利な実施形態では、匿名化されたデータストックがk−匿名性の条件を満たす場合、より低い一般化レベルの組合せが決定される。その結果、例えば、データストックの一般化を連続的に低減することができるという技術的利点が達成される。
本方法のさらなる技術的に有利な実施形態では、匿名化されたデータストックがk−匿名性の条件を満たさない場合、より高い一般化レベルの組合せが決定される。その結果、例えば、k−匿名性が達成されるまで、データストックの一般化を連続的に増加させることができるという技術的利点が達成される。
この方法のさらに技術的に有利な実施形態では、より低いまたはより高い一般化レベルの組合せが複数のサブノードに送信され、データストックの匿名化が、より低いまたはより高い一般化レベルの組合せに基づいてサブノードによって並列に実行される。その結果、例えば、データストックの一般化を最適化することができるという技術的利点が達成される。
本方法のさらに技術的に有利な実施形態では、一般化レベルの組み合わせの決定は、一般化格子に基づいて実行される。その結果、例えば、より高い又はより低い一般化レベルの迅速な選択を可能にする一般化レベルの階層が生成されるという技術的利点が達成される。
この方法のさらに技術的に有利な実施形態では、一般化格子が中央ノードのメモリにロードされる。その結果、例えば、一般化レベルを中央ノードによって迅速に選択することができるという技術的利点が達成される。代替として、一般化格子は、複数のノードにわたる分散データ構造として記憶されてもよい。

本方法のさらなる技術的に有利な実施形態では、一般化格子は、事前定義された探索ヒューリスティックによって走査(traversiert)される。その結果、例えば、異なる一般化レベルの組み合わせを少ない計算ステップで選択することができるという技術的利点が達成される。
本方法のさらに技術的に有利な実施形態では、匿名化されたデータストックがl−多様性の条件を満たすかどうかがチェックされる。結果として、例えば、各結果グループが少なくともk個の要素を含み、機密属性について少なくともl個の異なる値が各グループにおいて満たされる必要があるという技術的利点が達成される。
本方法のさらに技術的に有利な実施形態では、匿名化されたデータストックがt−近接性の条件を満たすかどうかがチェックされる。その結果、例えば、各グループにおける機密属性の統計的分布が、パラメータとして与えられた、総量における機密属性の統計的分布からの程度だけ異なるという技術的利点が達成される。
本方法のさらに技術的に有利な実施形態では、匿名化のためのグループ鍵として、データストックの各データセットから文字列が生成される。その結果、例えば、k−匿名性をチェックするためのそれぞれのグループのサイズを、ほとんど労力をかけずに確立することができるという技術的利点が達成される。
本方法のさらなる技術的に有利な実施形態では、匿名化されたデータストックがk−匿名性の条件を満たす場合、元のデータストックが削除される。その結果、例えば、メモリ要件が低減され、元のデータストックの誤用が防止されるという技術的利点が達成される。
本方法のさらに技術的に有利な実施形態では、データストックは、並列データベースに格納される。その結果、例えば、データストックの各データセットに迅速かつ並列にアクセスすることができるという技術的利点が達成される。
第2の態様によれば、この目的は、データストックを匿名化するためのシステムであって、データストックの準識別子の一般化レベルの組合せを決定するための中央ノードと、一般化レベルの組合せを複数のサブノードに送信するための送信デバイスと、一般化レベルの組合せに基づいてデータストックの匿名化を並列に実行するための複数のサブノードとを有するシステムによって達成される。その結果、第1の態様による方法と同じ技術的利点が達成される。
第3の態様によれば、この目的は、デジタルコンピュータのメモリにロードすることができ、コンピュータプログラムがコンピュータ上で実行されるときに第1の態様による方法を実行することができるソフトウェアコードセクションを含むコンピュータプログラムによって達成される。その結果、第1の態様による方法と同じ技術的利点が達成される。
本発明の例示的な実施形態は、図面に示され、以下でより詳細に説明される。
図1は、方法のブロック図を示す。 図2は、データストックを匿名化するためのシステムの概略図を示す。
図1は、データストックを匿名化する方法のブロック図を示す。データストックは、様々な属性を含む多数の個々のデータセットを含む。
この方法は、中央ノードがデータストックの準識別子に対する一般化レベルの組合せを決定するステップS101を含む。準識別子は、この場合、間接的な個人情報を含む属性であり、これにより、例えば、個人の誕生日又は郵便番号のような個人を識別することができる。
一般化レベルは、準識別子が受けるべき一般化の度合いを定義する。生年月日の準識別子については、一般化レベルは、例えば、日(一般化なし)、週(第1の一般化レベル)、月(第2の一般化レベル)、または年(第3の一般化レベル)とすることができる。郵便番号の準識別子について、一般化レベルは、郵便番号の1つ以上の数を除去することにある。例えば、80336(一般化なし)、8033X(第1の一般化レベル)、803XX (第2の一般化レベル)、80XXX (第3の一般化レベル)、または8XXXX (第4の一般化レベル)。それぞれの一般化レベルは、データストックの各準識別子に対して決定される。
次に、この方法は、決定された一般化レベルの組み合わせを多数のサブノードに送信するステップS102を含む。ステップS103において、サブノードは、一般化レベルの組み合わせに基づいて、データストックおよび各データセットの匿名化を並列に実行する。中央ノードおよびサブノードは、例えば、それぞれがプロセッサと、プロセッサがアドレスおよびデータバスを介してアクセスすることができるメモリとを有する独立したコンピュータである。
この方法により、データストックを匿名化するためのアルゴリズムは、様々なコンポーネントに分割され、そのいくつかは、サブノード上での分散実行のために並列化され、その結果、アルゴリズムは、ビッグデータシステム内で分散方式で格納されたデータストックに並列に適用することができる。実行環境としては、例えばSpark/Hadoopなどの分散ビッグデータシステムや、大規模並列データベースを用いることができる。
図2は、データストック105を匿名化するためのシステム100の概略図を示す。システム100は、データストック105の準識別子に対する一般化レベルの組み合わせを決定するための、例えばコンピュータのような中央ノード101を含む。一般化レベルの組み合わせは、例えばネットワークインタフェースのような送信装置103を介して多数のサブノード109に送信される。例えば、ネットワークを介して中央ノード101に接続されたコンピュータのような多数のサブノード109は、一般化レベルの組み合わせに基づいて、並列かつ同時にデータストック105の匿名化を実行する。この匿名化の結果は、バッファに記憶される。
並列アルゴリズムの個々の成分a)からe)は、以下の通りである。
a)
中央ノード101上のコントローラは、予め入力された、特定された準識別子とその一般化レベルとに基づいて、一般化格子GGを構築する。最大で10個の準識別子および一般化レベルが、通常、それぞれの場合に定義される。
従って、一般化格子GGは、データ構造として、原理的には、中央ノード101のメモリ内に保持されるのに十分に小さい。同様に、標準的な圧縮技術を一般化格子GGに適用することができる。一般化格子GGのサイズは、処理されるべきデータストック105のサイズとは無関係であり、従って、大量のデータを処理するためのボトルネックを構成しない。一般化格子が大きすぎてコンピュータ上に提供することができない場合、複数のサブノードに分散して格納されるデータ構造に格納することもできる。この場合、探索ヒューリスティックの実行は、さらに集中化され、基本的な格子演算の実行のみが、対応するサブノードとの通信を介して行われる。
さらに、中央ノード101は、次にチェックすべき一般化格子GGのノードを決定するために、一般化格子GGに探索ヒューリスティックHを適用する。並列化により、これは一般化格子GGの複数のノードであってもよい。一般化格子GGに加えて、探索ヒューリスティックHのさらなる入力は、現在までに評価された一般化格子GGのノードの結果である。
探索ヒューリスティックの特定の実装は必須ではない。最大でs個の秘密データセット(秘密レコード)が抑制または省略される場合、一般化格子GGにおけるノードの評価の結果として、ノードが所望の度合いの匿名化を達成するかどうか、すなわち少なくともサイズkのグループに対して、に関する情報のみを使用する、既存の探索ヒューリスティックを使用することができる。他の探索ヒューリスティックは、例えば、識別性メトリックまたは情報の損失(d)を参照)から生じる、ノードの評価の結果としてさらなる情報を使用することもできる。
b)
データストック105の一般化の組み合わせは、サブノード109によって、準識別子に対して、分散された仮想的な方法で実行される。この場合、一般化格子GGの各ノードは、一般化レベルの可能な組み合わせを決定する。
これらは、分散ビッグデータシステム内に分散形式で存在するデータストック105のすべてのデータセットに対して並列に実行することができる。データセットの一般化の結果として、個々の準識別子の一般化の結果は、グループ鍵と呼ばれる個々の文字列を形成するように連結される。
すべてのグループ鍵の数は、データストック105上の分散仮想一般化の結果である。l−多様性またはt−近接性の場合、個々のデータセットごとに、機密属性のグループ鍵および値の数が結果としてみなされる。
c)
一般化レベルの事前選択された組合せに基づいて、仮想一般化がk−匿名性、l−多様性、またはt−近接性の基準を満たすかどうかに関して、サブノード109によって分散チェックが実行される。これは、ステップb)からのグループ化の結果に基づく集約の分散計算に基づいて、グループ鍵に従って実行される。
c1)
k−匿名性の基準をチェックするために、それぞれのグループ鍵のそれぞれのグループサイズが、分散集約を介したb)からの結果に基づいて計算される。各同一のグループ鍵は、値「1」でカウントされ、合計は、例えば、Hadoopにおける結合/減少ステップ又はSparkにおけるReduceByKeyにおいて、それぞれ同一のグループ鍵に対して形成される。
結果は、グループごとに1つの要素を含む分散データセットであり、この要素は、グループ鍵およびグループサイズからなるペアを含む。k以上のグループサイズを有するグループは保持され、他のグループは抑制されたものとしてマークされる(ステップd)およびe)を参照)。
c2)
l−多様性が要求される場合には、ステップc1)に加えて更なるチェックが行われる。マークされていないグループごとに、各グループ内の機密属性ごとに異なる値の数を決定する分散集約が実行される。これは、再び、グループ鍵に基づく結合/縮小ステップを使用するHadoopで、または値のデータ構造を構築し、それらを分散方式でマージするCombineByKeyアグリゲータを使用するSparkで実行することができる。次に、各グループについて、各機密属性が少なくともl個の要素を含むかどうかが並列にチェックされる。 そうでない場合、グループは「抑制」とマークされる。
c3)
t−近接性が要求される場合、ステップc1)に加えて、更なるチェックが行われる。機密としてマークされていない各グループについて、各グループ内の各機密属性の値の出現頻度を決定する分散集約が実行される。
これは、例えば、グループ鍵に基づいて結合/縮小ステップを使用するHadoopで、または頻度分布のためのデータ構造を構築し、それらを分散形式でマージするCombineByKeyアグリゲータを使用するSparkで実行することができる。次に、グループの各機密属性について、結果として得られた頻度分布が、総量に対する機密属性の許容頻度分布内にあるかどうかが並行してチェックされる。
これは、ステップa)の前に、同じ方法を用いて予め並列に計算され、関与する全てのサブノード109に利用可能にされている。グループ内の各機密属性の頻度分布と機密属性のグローバル頻度分布との差は、ピアソン相関係数を使用して計算することができる。機密属性の差が所定の最大偏差よりも大きい場合、グループは「抑制」とマークされる。
d)
情報損失の分散計算は、ステップb)およびc)の適用から実行される。このステップでの入力は、グループ鍵、グループサイズ、および抑制属性(真/偽)からなる対が格納される分散データ構造である。分散集約における識別性メトリックは、そこから計算することができる。グループ鍵から匿名化された準識別子の値を再び決定し、それらを元の値と比較することによって、情報利得などの他のエントロピーベースの尺度を同様に適用することができる。
e)
一般化または抑制の分散実行が実行される。中央コントローラは、ステップa)から中央ノード101を経由して、ステップb)、c)、およびd)を実行するためのノードが決定された後に、一般化格子に対して探索ヒューリスティックHを実行する。
ノードは探索ヒューリスティックHを使用して選択され、この目的のために、ステップb)は常にそれぞれのグループ鍵の生成のための仮想的な一般化につながるので、一般化格子の複数のノードを並列にチェックすることができる。これは、探索ヒューリスティックHに対して、内部ループ内で評価されるノードとして決定され、ヒープ上に格納されるノードのすべてが並列に評価され得ることを意味する。
探索ヒューリスティックHは、ほとんどローカルな最適条件が見つかった場合に探索を終了し、一般化または抑制が行われるのに最も適しているノードを決定する。次に、アルゴリズムは、b)におけるように、実際のデータストックにわたって分散された方法で対応する一般化を実行し、c)において説明されるように、省略されなければならないデータセットを除去する。
準コードにおけるアルゴリズム全体のプロセスは、以下の通りである。
入力には、以下のものが使用される。
D: データストック、例えば、クラスタまたは大規模並列データベースに分散して格納されたデータストック。
QI: 準識別子のリスト。
GS: 準識別子あたりの一般化レベル:
SA: l−多様性またはt−近接性の場合の機密属性。
k: 所望の最小グループサイズs、例えば、許可された抑制のパーセンテージ。
l: l−多様性が必要な場合は整数。
Sigma:t−近接性が要求される場合、グループ内の機密属性の分布の許容偏差。
H: 一般化格子における探索ヒューリスティック。
M: 評価メトリック
入力から、一般化されたデータストックD-anonが出力として得られる。
1)
QIおよびGSから、一般化格子GGが中央コントローラにおいて計算される。この場合、先ず、一般化格子GGの各ノードには、値「偽(False)」又は「否(nicht)」を有する全ての属性が設定され、属性「品質(Qualitaet)」は設定されない。
各準識別子に対する一般化レベルが定義される。属性「評価済(Evaluated)」は、「真(True)」または「偽」に設定される。属性「k−匿名性(k-Anonymity)」は、「真」または「偽」に設定される。属性「l−多様性(l-Diversitaet)」および「t−近接性(t-Naehe)」は、おそらく「真」または「偽」に設定される。属性「品質」が設定される。
2)
Loop:探索ヒューリスティックHに従って一般化格子GGを走査する。
a.候補リストCLに、探索ヒューリスティックH(GG)に従って候補のリストを書き込む。
b.候補リストCLが空でない場合、候補リストCL内のすべての候補Cについて、以下のステップを並行して実行する。
i. b)で説明したように並列に計算されるグループ鍵のテーブル(場合によっては、設定されている場合には機密属性と共に)をS_Cに書き込む。
ii. C.k-Anonymity <- c1)に説明されているように、S_Cに基づいて並列に評価される。
iii.C.l-Diversity <- c2)に説明されているように、S_Cに基づいて並列に評価される。
iv. C.t-Closeness <- c3)に説明されているように、S_Cに基づいて並列に評価される。
v. C.Quality <- d)に説明されているように、S_Cに基づいて並行して評価される。
vi. C.evaluated <- True
vii.GG.C <- C
else:end loop
3)
GG-anon <- C.k-anonymity= "True"、C.l-Diversity = "True"、C.t-Closeness = "True"の一般化格子GGからのノード。
4)
C_best <-最良のC.Qualityを持つGG-anonからのノード。
5)
D-anon <- e)に説明されているように、C_bestからDへの並列適用。
匿名化は、データストック105の処理および記憶、ならびにデータおよび情報の分割の両方において主要な役割を果たす。ビッグデータシステムは、それらを評価し、これらのデータストック105から利益を得ることができるようにするために、結果として得られたデータストック105を処理する。データストック105の匿名化は、これらのソリューションの一部である。上述の方法により、ビッグデータシステム上での操作性が可能になる。
一般化および抑制は、k−匿名性のための重要な方法であり、これは、データストック105の匿名性のための重要な基準である。一般化および抑制に基づくk−匿名性、l−多様性およびt−近接性のための従来の方法は、単一のメモリ(インメモリ)内でのみ動作し、従って、単一のノード101のメモリに完全にロードすることができるデータストック105上でのみ実行することができる。
従って、これらの方法は、容量(ビッグデータ)が非常に広く、もはや1つのコンピュータのみに格納することができないデータストック105に適用することができない。その結果、ハードウェアは、データストック105の処理可能性の上限を規定する。
本方法は、中央および並列化された実行部分を含むアルゴリズムを提供する。中央実行部分は、メモリ要件に関してデータストック105のデータ量から独立しており、並列化された実行によって、従来可能であったよりも大きなデータ量を処理することができる。
本方法は、大規模データストック105の一般化および抑制に基づいて、k−匿名性、l−多様性、およびt−近接性を分散方式で適用することを可能にする。この方法は、例えば、Hadoop、Spark又は大規模並列データベースのような分散型ビッグデータシステムに使用することができる。
本発明の個々の実施形態に関連して示され、説明されたすべての特徴は、有利な効果を同時にもたらすために、本発明による主題において様々な組合せで提供することができる。
方法ステップのすべては、それぞれの方法ステップを実行するのに適したデバイスによって実装されてもよい。主体ベースの特徴によって実行される機能のすべては、方法の方法ステップとすることができる。
本発明の保護の範囲は、特許請求の範囲によって定義され、明細書において説明されるか、または図面に示される特徴によって制限されない。

Claims (14)

  1. データストック(105)を匿名化する方法であって、
    中央ノード(101)が前記データストック(105)の準識別子に対する一般化レベルの組み合わせを決定し(S101)、
    前記一般化レベルの組合せを多数のサブノード(109)に送信し(S102)、
    前記一般化レベルの組合せに基づいて、前記サブノード(109)が並列に前記データストック(105)の匿名化を実行する
    ステップを有し、
    前記一般化レベルの組み合わせの決定は、一般化格子GGに基づいて実行され、かつ
    前記一般化格子GGは、探索ヒューリスティック(H)によって走査される、
    方法。
  2. 匿名化された前記データストック(105)がk−匿名性の条件を満たすかどうかがチェックされる、請求項1に記載の方法。
  3. 匿名化された前記データストック(105)がk−匿名性の前記条件を満たす場合、より低い一般化レベルの組み合わせが決定される、請求項2に記載の方法。
  4. 匿名化された前記データストック(105)がk−匿名性の前記条件を満たさない場合、より高い一般化レベルの組み合わせが決定される、請求項2に記載の方法。
  5. 前記k−匿名性の前記条件に基づいて決定された一般化レベルの組み合わせが複数の前記サブノード(109)に送信され、前記データストック(105)の匿名化が、前記k−匿名性の前記条件に基づいて決定された一般化レベルの組み合わせに基づいて前記サブノード(109)によって並列に実行される、請求項3または4に記載の方法。
  6. 前記一般化格子GGは、前記中央ノード(101)のメモリにロードされる、請求項1〜5のいずれか1つに記載の方法。
  7. グループ内の各機密属性の頻度分布と機密属性のグローバル頻度分布との差は、ピアソン相関係数を使用して計算される、請求項1〜6のいずれか1つに記載の方法。
  8. 匿名化された前記データストック(105)がl−多様性の条件を満たすかを確認する請求項1〜のいずれか1つに記載の方法。
  9. 匿名化された前記データストック(105)がt−近接性の条件を満たすかを確認する請求項1〜のいずれか1つに記載の方法。
  10. 前記匿名化のためのグループ鍵として、前記データストック(105)の各データセットから文字列を生成する請求項1〜のいずれか1つに記載の方法。
  11. 匿名化された前記データストック(105)がk−匿名性の条件を満たした場合に、元の前記データストック(105)が削除される請求項1〜10のいずれか1つに記載の方法。
  12. 前記データストックは、並列データベースに記憶される、請求項1〜11のいずれか1つに記載の方法。
  13. 請求項1〜12のいずれか1つに記載の方法を用いて、データストック(105)を匿名化するシステム(100)であって、
    前記データストック(105)の準識別子に対する一般化レベルの組合せを決定するための中央ノード(101)と、
    前記一般化レベルの組合せを多数のサブノード(109)に送信する送信装置(103)と、
    前記一般化レベルの組合せに基づいて前記データストック(105)の匿名化を並列に実行する多数のサブノード(109)と、
    を有するシステム。
  14. デジタルコンピュータのメモリにロードすることができ、コンピュータプログラムがコンピュータ上で実行されるときに請求項1〜12のいずれか1つに記載の方法を実行することができるソフトウェアコードセクションを含むコンピュータプログラム。
JP2019528569A 2016-11-28 2016-11-28 データストックを匿名化するための方法およびシステム Active JP6940239B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/078953 WO2018095547A1 (de) 2016-11-28 2016-11-28 Verfahren und system zum anonymisieren von datenbeständen

Publications (2)

Publication Number Publication Date
JP2020501254A JP2020501254A (ja) 2020-01-16
JP6940239B2 true JP6940239B2 (ja) 2021-09-22

Family

ID=57482383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019528569A Active JP6940239B2 (ja) 2016-11-28 2016-11-28 データストックを匿名化するための方法およびシステム

Country Status (5)

Country Link
US (1) US11244073B2 (ja)
EP (1) EP3520014B1 (ja)
JP (1) JP6940239B2 (ja)
CN (1) CN109983467B (ja)
WO (1) WO2018095547A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3671585A1 (en) 2018-12-18 2020-06-24 Siemens Aktiengesellschaft Learning apparatus and an assistance apparatus for generating a list of prioritized interactions
CN110474336A (zh) * 2019-09-20 2019-11-19 云南电网有限责任公司电力科学研究院 一种智能电网负荷数据分析方法
JP2021157343A (ja) * 2020-03-25 2021-10-07 京セラドキュメントソリューションズ株式会社 データ連携システムおよび匿名化制御システム
DE102020122895B3 (de) * 2020-09-02 2022-01-13 Audi Aktiengesellschaft Bereitstellung von Daten eines Kraftfahrzeugs
US11755778B2 (en) * 2021-04-26 2023-09-12 Snowflake Inc. Horizontally-scalable data de-identification
CN113051619B (zh) * 2021-04-30 2023-03-03 河南科技大学 一种基于k-匿名的中药处方数据隐私保护方法
US11763026B2 (en) * 2021-05-11 2023-09-19 International Business Machines Corporation Enabling approximate linkage of datasets over quasi-identifiers
US11816582B2 (en) * 2021-10-21 2023-11-14 Snowflake Inc. Heuristic search for k-anonymization

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002254564A1 (en) 2001-04-10 2002-10-28 Latanya Sweeney Systems and methods for deidentifying entries in a data source
US7302420B2 (en) 2003-08-14 2007-11-27 International Business Machines Corporation Methods and apparatus for privacy preserving data mining using statistical condensing approach
US8141160B2 (en) * 2006-07-26 2012-03-20 International Business Machines Corporation Mitigating and managing privacy risks using planning
CA2690788C (en) * 2009-06-25 2018-04-24 University Of Ottawa System and method for optimizing the de-identification of datasets
JPWO2013121738A1 (ja) 2012-02-17 2015-05-11 日本電気株式会社 分散匿名化装置及び分散匿名化方法
WO2013121739A1 (ja) * 2012-02-17 2013-08-22 日本電気株式会社 匿名化装置及び匿名化方法
US20140380489A1 (en) * 2013-06-20 2014-12-25 Alcatel-Lucent Bell Labs France Systems and methods for data anonymization
AU2014375318A1 (en) * 2013-12-31 2016-06-02 Ventana Medical Systems, Inc. Systems and methods for spectral unmixing of microscopic images using pixel grouping
JP6293003B2 (ja) 2014-07-08 2018-03-14 Kddi株式会社 プライバシー保護装置、方法及びプログラム
JP2016053829A (ja) * 2014-09-03 2016-04-14 ソニー株式会社 情報処理方法、プログラム、及び情報処理装置
JPWO2016092830A1 (ja) 2014-12-09 2017-09-14 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
US9836623B2 (en) * 2015-01-30 2017-12-05 Splunk Inc. Anonymizing machine data events
US9953176B2 (en) * 2015-10-02 2018-04-24 Dtex Systems Inc. Method and system for anonymizing activity records

Also Published As

Publication number Publication date
EP3520014A1 (de) 2019-08-07
JP2020501254A (ja) 2020-01-16
US11244073B2 (en) 2022-02-08
WO2018095547A1 (de) 2018-05-31
CN109983467A (zh) 2019-07-05
CN109983467B (zh) 2020-09-29
US20200065522A1 (en) 2020-02-27
EP3520014B1 (de) 2020-04-15

Similar Documents

Publication Publication Date Title
JP6940239B2 (ja) データストックを匿名化するための方法およびシステム
Zhang et al. An efficient quasi-identifier index based approach for privacy preservation over incremental data sets on cloud
Zhang et al. A MapReduce based approach of scalable multidimensional anonymization for big data privacy preservation on cloud
US10394782B2 (en) Chord distributed hash table-based map-reduce system and method
US10528761B2 (en) Data anonymization in an in-memory database
Zhang et al. MRMondrian: Scalable multidimensional anonymisation for big data privacy preservation
Lee et al. Efficient and customizable data partitioning framework for distributed big RDF data processing in the cloud
US11507692B2 (en) System and method for improved anonymized data repositories
JP2020512643A (ja) 可変レベル並列性を用いたデータ処理動作を行うためのシステム及び方法
Madan et al. k-DDD measure and mapreduce based anonymity model for secured privacy-preserving big data publishing
Makanju et al. Deep parallelization of parallel FP-growth using parent-child MapReduce
Li et al. A new closed frequent itemset mining algorithm based on GPU and improved vertical structure
Jeon et al. Distributed L-diversity using spark-based algorithm for large resource description frameworks data
US20230359769A1 (en) Systems and Methods for Anonymizing Large Scale Datasets
Irudayasamy et al. Parallel bottom-up generalization approach for data anonymization using map reduce for security of data in public cloud
Wang et al. Degree anonymization for k-shortest-path privacy
KR101804426B1 (ko) Gpgpu를 이용한 데이터 익명화의 병렬적 처리 방법
JP2016045594A (ja) データ処理装置、データ処理方法及びデータ処理プログラム
Greiner et al. The efficiency of mapreduce in parallel external memory
Raj et al. PartEclat: an improved Eclat-based frequent itemset mining algorithm on spark clusters using partition technique
Du et al. Optimizing the shortest path query on large-scale dynamic directed graph
Huang et al. Multi-level dataset decomposition for parallel frequent itemset mining on a cluster of personal computers
Li et al. A partition model and strategy based on the Stoer–Wagner algorithm for SaaS multi-tenant data
Zhang et al. Scalable iterative implementation of mondrian for big data multidimensional anonymisation
Abawajy et al. A framework for scalable distributed provenance storage system

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191125

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210831

R150 Certificate of patent or registration of utility model

Ref document number: 6940239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150