JP2020501254A - データストックを匿名化するための方法およびシステム - Google Patents
データストックを匿名化するための方法およびシステム Download PDFInfo
- Publication number
- JP2020501254A JP2020501254A JP2019528569A JP2019528569A JP2020501254A JP 2020501254 A JP2020501254 A JP 2020501254A JP 2019528569 A JP2019528569 A JP 2019528569A JP 2019528569 A JP2019528569 A JP 2019528569A JP 2020501254 A JP2020501254 A JP 2020501254A
- Authority
- JP
- Japan
- Prior art keywords
- generalization
- data stock
- combination
- data
- stock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 14
- 230000001629 suppression Effects 0.000 description 13
- 238000009826 distribution Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この目的は、独立請求項に記載の技術的主題によって達成される。有利な実施形態は、従属請求項、実施例、および図面の主題である。
本方法のさらなる技術的に有利な実施形態では、一般化格子は、事前定義された探索ヒューリスティックによって走査(traversiert)される。その結果、例えば、異なる一般化レベルの組み合わせを少ない計算ステップで選択することができるという技術的利点が達成される。
この方法は、中央ノードがデータストックの準識別子に対する一般化レベルの組合せを決定するステップS101を含む。準識別子は、この場合、間接的な個人情報を含む属性であり、これにより、例えば、個人の誕生日又は郵便番号のような個人を識別することができる。
a)
中央ノード101上のコントローラは、予め入力された、特定された準識別子とその一般化レベルとに基づいて、一般化格子GGを構築する。最大で10個の準識別子および一般化レベルが、通常、それぞれの場合に定義される。
データストック105の一般化の組み合わせは、サブノード109によって、準識別子に対して、分散された仮想的な方法で実行される。この場合、一般化格子GGの各ノードは、一般化レベルの可能な組み合わせを決定する。
これらは、分散ビッグデータシステム内に分散形式で存在するデータストック105のすべてのデータセットに対して並列に実行することができる。データセットの一般化の結果として、個々の準識別子の一般化の結果は、グループ鍵と呼ばれる個々の文字列を形成するように連結される。
すべてのグループ鍵の数は、データストック105上の分散仮想一般化の結果である。l−多様性またはt−近接性の場合、個々のデータセットごとに、機密属性のグループ鍵および値の数が結果としてみなされる。
一般化レベルの事前選択された組合せに基づいて、仮想一般化がk−匿名性、l−多様性、またはt−近接性の基準を満たすかどうかに関して、サブノード109によって分散チェックが実行される。これは、ステップb)からのグループ化の結果に基づく集約の分散計算に基づいて、グループ鍵に従って実行される。
k−匿名性の基準をチェックするために、それぞれのグループ鍵のそれぞれのグループサイズが、分散集約を介したb)からの結果に基づいて計算される。各同一のグループ鍵は、値「1」でカウントされ、合計は、例えば、Hadoopにおける結合/減少ステップ又はSparkにおけるReduceByKeyにおいて、それぞれ同一のグループ鍵に対して形成される。
結果は、グループごとに1つの要素を含む分散データセットであり、この要素は、グループ鍵およびグループサイズからなるペアを含む。k以上のグループサイズを有するグループは保持され、他のグループは抑制されたものとしてマークされる(ステップd)およびe)を参照)。
l−多様性が要求される場合には、ステップc1)に加えて更なるチェックが行われる。マークされていないグループごとに、各グループ内の機密属性ごとに異なる値の数を決定する分散集約が実行される。これは、再び、グループ鍵に基づく結合/縮小ステップを使用するHadoopで、または値のデータ構造を構築し、それらを分散方式でマージするCombineByKeyアグリゲータを使用するSparkで実行することができる。次に、各グループについて、各機密属性が少なくともl個の要素を含むかどうかが並列にチェックされる。 そうでない場合、グループは「抑制」とマークされる。
t−近接性が要求される場合、ステップc1)に加えて、更なるチェックが行われる。機密としてマークされていない各グループについて、各グループ内の各機密属性の値の出現頻度を決定する分散集約が実行される。
情報損失の分散計算は、ステップb)およびc)の適用から実行される。このステップでの入力は、グループ鍵、グループサイズ、および抑制属性(真/偽)からなる対が格納される分散データ構造である。分散集約における識別性メトリックは、そこから計算することができる。グループ鍵から匿名化された準識別子の値を再び決定し、それらを元の値と比較することによって、情報利得などの他のエントロピーベースの尺度を同様に適用することができる。
一般化または抑制の分散実行が実行される。中央コントローラは、ステップa)から中央ノード101を経由して、ステップb)、c)、およびd)を実行するためのノードが決定された後に、一般化格子に対して探索ヒューリスティックHを実行する。
入力には、以下のものが使用される。
D: データストック、例えば、クラスタまたは大規模並列データベースに分散して格納されたデータストック。
QI: 準識別子のリスト。
GS: 準識別子あたりの一般化レベル:
SA: l−多様性またはt−近接性の場合の機密属性。
k: 所望の最小グループサイズs、例えば、許可された抑制のパーセンテージ。
l: l−多様性が必要な場合は整数。
Sigma:t−近接性が要求される場合、グループ内の機密属性の分布の許容偏差。
H: 一般化格子における探索ヒューリスティック。
M: 評価メトリック
1)
QIおよびGSから、一般化格子GGが中央コントローラにおいて計算される。この場合、先ず、一般化格子GGの各ノードには、値「偽(False)」又は「否(nicht)」を有する全ての属性が設定され、属性「品質(Qualitaet)」は設定されない。
各準識別子に対する一般化レベルが定義される。属性「評価済(Evaluated)」は、「真(True)」または「偽」に設定される。属性「k−匿名性(k-Anonymity)」は、「真」または「偽」に設定される。属性「l−多様性(l-Diversitaet)」および「t−近接性(t-Naehe)」は、おそらく「真」または「偽」に設定される。属性「品質」が設定される。
Loop:探索ヒューリスティックHに従って一般化格子GGを走査する。
a.候補リストCLに、探索ヒューリスティックH(GG)に従って候補のリストを書き込む。
b.候補リストCLが空でない場合、候補リストCL内のすべての候補Cについて、以下のステップを並行して実行する。
i. b)で説明したように並列に計算されるグループ鍵のテーブル(場合によっては、設定されている場合には機密属性と共に)をS_Cに書き込む。
ii. C.k-Anonymity <- c1)に説明されているように、S_Cに基づいて並列に評価される。
iii.C.l-Diversity <- c2)に説明されているように、S_Cに基づいて並列に評価される。
iv. C.t-Closeness <- c3)に説明されているように、S_Cに基づいて並列に評価される。
v. C.Quality <- d)に説明されているように、S_Cに基づいて並行して評価される。
vi. C.evaluated <- True
vii.GG.C <- C
else:end loop
GG-anon <- C.k-anonymity= "True"、C.l-Diversity = "True"、C.t-Closeness = "True"の一般化格子GGからのノード。
4)
C_best <-最良のC.Qualityを持つGG-anonからのノード。
5)
D-anon <- e)に説明されているように、C_bestからDへの並列適用。
従って、これらの方法は、容量(ビッグデータ)が非常に広く、もはや1つのコンピュータのみに格納することができないデータストック105に適用することができない。その結果、ハードウェアは、データストック105の処理可能性の上限を規定する。
方法ステップのすべては、それぞれの方法ステップを実行するのに適したデバイスによって実装されてもよい。主体ベースの特徴によって実行される機能のすべては、方法の方法ステップとすることができる。
本発明の保護の範囲は、特許請求の範囲によって定義され、明細書において説明されるか、または図面に示される特徴によって制限されない。
Claims (15)
- データストック(105)を匿名化する方法であって、
中央ノード(101)がデータストック(105)の準識別子に対する一般化レベルの組み合わせを決定し(S101)、
前記一般化レベルの組合せを多数のサブノード(109)に送信し(S102)、
前記一般化レベルの組合せに基づいて、サブノード(109)が並列に前記データストック(105)の匿名化を実行する
ステップを有する方法。 - 匿名化された前記データストック(105)がk−匿名性の条件を満たすかどうかがチェックされる、請求項1に記載の方法。
- 匿名化された前記データストック(105)がk−匿名性の前記条件を満たす場合、より低い一般化レベルの組み合わせが決定される、請求項2に記載の方法。
- 匿名化された前記データストック(105)がk−匿名性の前記条件を満たさない場合、より高い一般化レベルの組み合わせが決定される、請求項2に記載の方法。
- より低いまたはより高い一般化レベルの組み合わせが複数の前記サブノード(109)に送信され、前記データストック(105)の匿名化が、より低いまたはより高い一般化レベルの組み合わせに基づいて前記サブノード(109)によって並列に実行される、請求項3または4に記載の方法。
- 一般化レベルの組み合わせの決定は、一般化格子GGに基づいて実行される、請求項1〜5のいずれか1つに記載の方法。
- 前記一般化格子GGは、前記中央ノード(101)のメモリにロードされる、請求項6に記載の方法。
- 前記一般化格子GGは、所定の探索ヒューリスティック(H)によって走査される、請求項6または7に記載の方法。
- 匿名化された前記データストック(105)がl−多様性の条件を満たすかを確認する請求項1〜8のいずれか1つに記載の方法。
- 匿名化された前記データストック(105)がt−近接性の条件を満たすかを確認する請求項1〜9のいずれか1つに記載の方法。
- 前記匿名化のためのグループ鍵として、前記データストック(105)の各データセットから文字列を生成する請求項1〜10のいずれか1つに記載の方法。
- 匿名化された前記データストック(105)がk−匿名性の条件を満たした場合に、元の前記データストック(105)が削除される請求項1〜11のいずれか1つに記載の方法。
- 前記データストックは、並列データベースに記憶される、請求項1〜12のいずれか1つに記載の方法。
- データストック(105)を匿名化するシステム(100)であって、
データストック(105)の準識別子に対する一般化レベルの組合せを決定するための中央ノード(101)と、
前記一般化レベルの組合せを多数のサブノード(109)に送信する送信装置(103)と、
前記一般化レベルの組合せGGに基づいて前記データストック(105)の匿名化を並列に実行する多数のサブノード(109)と、
を有するシステム。 - デジタルコンピュータのメモリにロードすることができ、コンピュータプログラムがコンピュータ上で実行されるときに請求項1〜13のいずれか1つに記載の方法を実行することができるソフトウェアコードセクションを含むコンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/078953 WO2018095547A1 (de) | 2016-11-28 | 2016-11-28 | Verfahren und system zum anonymisieren von datenbeständen |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020501254A true JP2020501254A (ja) | 2020-01-16 |
JP6940239B2 JP6940239B2 (ja) | 2021-09-22 |
Family
ID=57482383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019528569A Active JP6940239B2 (ja) | 2016-11-28 | 2016-11-28 | データストックを匿名化するための方法およびシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11244073B2 (ja) |
EP (1) | EP3520014B1 (ja) |
JP (1) | JP6940239B2 (ja) |
CN (1) | CN109983467B (ja) |
WO (1) | WO2018095547A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021157343A (ja) * | 2020-03-25 | 2021-10-07 | 京セラドキュメントソリューションズ株式会社 | データ連携システムおよび匿名化制御システム |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3671585A1 (en) | 2018-12-18 | 2020-06-24 | Siemens Aktiengesellschaft | Learning apparatus and an assistance apparatus for generating a list of prioritized interactions |
CN110474336A (zh) * | 2019-09-20 | 2019-11-19 | 云南电网有限责任公司电力科学研究院 | 一种智能电网负荷数据分析方法 |
DE102020122895B3 (de) * | 2020-09-02 | 2022-01-13 | Audi Aktiengesellschaft | Bereitstellung von Daten eines Kraftfahrzeugs |
US11501021B1 (en) * | 2021-04-26 | 2022-11-15 | Snowflake Inc. | Horizontally-scalable data de-identification |
CN113051619B (zh) * | 2021-04-30 | 2023-03-03 | 河南科技大学 | 一种基于k-匿名的中药处方数据隐私保护方法 |
US11763026B2 (en) * | 2021-05-11 | 2023-09-19 | International Business Machines Corporation | Enabling approximate linkage of datasets over quasi-identifiers |
US11816582B2 (en) * | 2021-10-21 | 2023-11-14 | Snowflake Inc. | Heuristic search for k-anonymization |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013121738A1 (ja) * | 2012-02-17 | 2013-08-22 | 日本電気株式会社 | 分散匿名化装置及び分散匿名化方法 |
US20140380489A1 (en) * | 2013-06-20 | 2014-12-25 | Alcatel-Lucent Bell Labs France | Systems and methods for data anonymization |
JP2016018379A (ja) * | 2014-07-08 | 2016-02-01 | Kddi株式会社 | プライバシー保護装置、方法及びプログラム |
WO2016035448A1 (ja) * | 2014-09-03 | 2016-03-10 | ソニー株式会社 | 情報処理方法、プログラム、及び情報処理装置 |
WO2016092830A1 (ja) * | 2014-12-09 | 2016-06-16 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002084531A2 (en) | 2001-04-10 | 2002-10-24 | Univ Carnegie Mellon | Systems and methods for deidentifying entries in a data source |
US7302420B2 (en) | 2003-08-14 | 2007-11-27 | International Business Machines Corporation | Methods and apparatus for privacy preserving data mining using statistical condensing approach |
US8141160B2 (en) * | 2006-07-26 | 2012-03-20 | International Business Machines Corporation | Mitigating and managing privacy risks using planning |
US8326849B2 (en) * | 2009-06-25 | 2012-12-04 | University Of Ottawa | System and method for optimizing the de-identification of data sets |
US20150033356A1 (en) * | 2012-02-17 | 2015-01-29 | Nec Corporation | Anonymization device, anonymization method and computer readable medium |
CA2931216A1 (en) * | 2013-12-31 | 2015-07-09 | Ventana Medical Systems, Inc. | Systems and methods for spectral unmixing of microscopic images using pixel grouping |
US9836623B2 (en) * | 2015-01-30 | 2017-12-05 | Splunk Inc. | Anonymizing machine data events |
US9953176B2 (en) * | 2015-10-02 | 2018-04-24 | Dtex Systems Inc. | Method and system for anonymizing activity records |
-
2016
- 2016-11-28 WO PCT/EP2016/078953 patent/WO2018095547A1/de unknown
- 2016-11-28 US US16/461,607 patent/US11244073B2/en active Active
- 2016-11-28 JP JP2019528569A patent/JP6940239B2/ja active Active
- 2016-11-28 CN CN201680091182.5A patent/CN109983467B/zh active Active
- 2016-11-28 EP EP16805757.8A patent/EP3520014B1/de active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013121738A1 (ja) * | 2012-02-17 | 2013-08-22 | 日本電気株式会社 | 分散匿名化装置及び分散匿名化方法 |
US20140380489A1 (en) * | 2013-06-20 | 2014-12-25 | Alcatel-Lucent Bell Labs France | Systems and methods for data anonymization |
JP2016018379A (ja) * | 2014-07-08 | 2016-02-01 | Kddi株式会社 | プライバシー保護装置、方法及びプログラム |
WO2016035448A1 (ja) * | 2014-09-03 | 2016-03-10 | ソニー株式会社 | 情報処理方法、プログラム、及び情報処理装置 |
JP2016053829A (ja) * | 2014-09-03 | 2016-04-14 | ソニー株式会社 | 情報処理方法、プログラム、及び情報処理装置 |
WO2016092830A1 (ja) * | 2014-12-09 | 2016-06-16 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021157343A (ja) * | 2020-03-25 | 2021-10-07 | 京セラドキュメントソリューションズ株式会社 | データ連携システムおよび匿名化制御システム |
Also Published As
Publication number | Publication date |
---|---|
EP3520014A1 (de) | 2019-08-07 |
EP3520014B1 (de) | 2020-04-15 |
US11244073B2 (en) | 2022-02-08 |
CN109983467A (zh) | 2019-07-05 |
US20200065522A1 (en) | 2020-02-27 |
JP6940239B2 (ja) | 2021-09-22 |
CN109983467B (zh) | 2020-09-29 |
WO2018095547A1 (de) | 2018-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6940239B2 (ja) | データストックを匿名化するための方法およびシステム | |
Zhang et al. | A MapReduce based approach of scalable multidimensional anonymization for big data privacy preservation on cloud | |
US20200272645A1 (en) | Identity resolution in big, noisy, and/or unstructured data | |
US20160316014A1 (en) | Distributed processing of shared content | |
US10394782B2 (en) | Chord distributed hash table-based map-reduce system and method | |
US11775656B2 (en) | Secure multi-party information retrieval | |
Martha et al. | h-MapReduce: a framework for workload balancing in MapReduce | |
Lee et al. | Efficient and customizable data partitioning framework for distributed big RDF data processing in the cloud | |
JP2020512643A (ja) | 可変レベル並列性を用いたデータ処理動作を行うためのシステム及び方法 | |
Ansari et al. | Data categorization using Hadoop MapReduce-based parallel K-means clustering | |
US10855637B2 (en) | Architecture for large data management in communication applications through multiple mailboxes | |
US20180097748A1 (en) | Partitioned Topic Based Queue with Automatic Processing Scaling | |
Tang et al. | An intermediate data partition algorithm for skew mitigation in spark computing environment | |
Yan et al. | A parallel algorithm for mining constrained frequent patterns using MapReduce | |
US11221890B2 (en) | Systems and methods for dynamic partitioning in distributed environments | |
US11562004B2 (en) | Classifying and filtering platform data via k-means clustering | |
Li et al. | A new closed frequent itemset mining algorithm based on GPU and improved vertical structure | |
Liu et al. | An improved approach for mining association rules in parallel using Spark Streaming | |
Gao et al. | DPHKMS: An efficient hybrid clustering preserving differential privacy in spark | |
Alikhan et al. | Dingo optimization based network bandwidth selection to reduce processing time during data upload and access from cloud by user | |
Jeon et al. | Distributed L-diversity using spark-based algorithm for large resource description frameworks data | |
Irudayasamy et al. | Parallel bottom-up generalization approach for data anonymization using map reduce for security of data in public cloud | |
Raj et al. | PartEclat: an improved Eclat-based frequent itemset mining algorithm on spark clusters using partition technique | |
Wang et al. | Degree anonymization for k-shortest-path privacy | |
US11442792B2 (en) | Systems and methods for dynamic partitioning in distributed environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191125 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6940239 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |