CN109983467A - 用于匿名化数据集的系统和方法 - Google Patents

用于匿名化数据集的系统和方法 Download PDF

Info

Publication number
CN109983467A
CN109983467A CN201680091182.5A CN201680091182A CN109983467A CN 109983467 A CN109983467 A CN 109983467A CN 201680091182 A CN201680091182 A CN 201680091182A CN 109983467 A CN109983467 A CN 109983467A
Authority
CN
China
Prior art keywords
data set
extensive
anonymization
rank
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680091182.5A
Other languages
English (en)
Other versions
CN109983467B (zh
Inventor
M.莫克
A.哈普费尔迈尔
M.伊米希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN109983467A publication Critical patent/CN109983467A/zh
Application granted granted Critical
Publication of CN109983467B publication Critical patent/CN109983467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及用于匿名化数据集的方法,其中所述方法具有如下步骤:在中央节点处确定(S101)用于数据集的准标识符的泛化级别的组合;传送(S102)的泛化级别的组合给多个子节点;以及通过所述子节点基于所述泛化级别的组合来并行地执行(S103)所述数据集的匿名化。

Description

用于匿名化数据集的系统和方法
技术领域
本发明涉及一种用于匿名化数据集的方法和系统。
背景技术
出版物 US 7,269,578涉及用于去标识化或匿名化输入数据源中的条目的系统和方法。该方法的目标是:将也以组合的方式包含间接的个人关联的属性值、诸如出生日期这样在数据量中概括化,使得即便在背景信息、诸如具有出生日期的申报登记被查询的情况下,那么也不再可能由这些数据量推论出具体个人。具有间接个人关联的属性被表示为准标识符(Quasi Identifier)。
如果每个可能的关于准标识符组合的询问始终要么并不提供结果要么提供至少一个数目为k的结果,则数据组是“k-anonym(k匿名)”。这由此来实现:经泛化的准标识符的每个组合描述至少k个元素的组。
附加地,存在超出k匿名性的对匿名化的结果的更强度的条件。这些条件除了每个产生的组的k个元素的最小数目以外还对并没有已经被泛化的特殊属性提出条件。这些特殊属性被表示为敏感属性。为此常用的标准是:“1多样性”(1-Diversity)和“t紧密度”(t-Closeness)。
针对敏感属性的示例例如可以是在患者数据组中的属性“疾病”。“1多样性”意味着:每个产生的组包含至少k个元素并且在每个组中针对敏感属性应找到至少1个不同值(参照Ashwin Machanavajjhala, Daniel Kifer, Johannes Gehrke, 和Muthuramakrishnan Venkitasubramaniam, 2007, „1-Diversity : Privacy beyond k-Anonymity" , ACM Trans, Knowl . Discov. Data1,1, Article 3 (三月,2007),DOI =http: //dx.doi.org/10.1145/1217299.1217302))。
“t紧密度”意味着:在每个组中敏感属性的统计学分布仅以作为参数所给定的程度而不同于在总量中的敏感属性的统计学分布。(参照N. Li, T. Li 和 S.Venkatasubramanian的"t-Closeness : Privacy Beyond k-Anonymity and 1-Diversity", 2007 IEEE 23rd International Conference on Data Engineering,Istanbul, 2007, pp.106-115. doi: 10.1109/ ICDE.2007.367856)。
为了实现这点,对于准标识符来规定所谓的泛化级别。通过应用泛化到准标识符上,属性值的信息内容被减少,从而能够使原始的不同的属性值变得相同。因此,可以例如将邮政编码53754和53757二者都泛化为5375*并且因此在第一泛化级别中均衡。
泛化导致:关于准标识符的询问较少有区别并且结果量变得更大。如果数据组足够地泛化,那么该数据组满足k匿名性的标准。
然而,泛化的每个更高级别都导致在数据中的进一步信息损失。用于减少信息损失的方法是:将所需的泛化级别保持得尽可能的小。为了实现这点,也可以将适合的数据组从数据集完全移除(抑制(Suppression))。
算法上复杂的优化问题(NP-hart(NP难题))是:找到泛化级别和抑制的如下组合,该组合以尽可能小的信息损失来在数据量上实现k匿名性。
文献中以及在开源领域中的不同算法和实施方案提供多种启发法,以便在数据集上找到泛化和抑制的如下组合,该组合实现k匿名性并且并不从数据集中移除太多的信息。
然而,迄今已知的解决方案并不能够在大数据量上操作,因为其以如下为前提:该数据量的所有数据被加载到各个计算机的虚拟存储器中或主存储器中并且在那里执行算法。因此,这些解决方案并不适合于大的数据量(Big-Data(大数据)),其中所述大的数据量的范围大于计算机的存储器。
出版物“Kohlmauer等人的 „Flash: Efficient, Stable and Optimal k-Anonymity" , 2012”描述一种搜索启发法(Suchheuristik),其基于泛化和抑制来实现k匿名性。然而,这种算法并不是分布的而是作为单个计算机解决方案来被构思。如用于k匿名性的其他启发法一样,该算法在泛化和抑制的基础上基于所谓的泛化图(GeneralizationLattice(泛化格))。这种泛化图通过准标识符的数目和对于每个准标识符所说明的泛化级别的数目来确定。
在该图中的节点包括如下向量,该向量具有与存在的准标识符恰好同样那么多的元素。在该向量的每个分量中,针对每个准标识符来录入:针对这些准标识符应该应用哪个泛化级别。所有节点的总量说明针对准标识符上的泛化的所有组合可能性。如果两个节点在恰好一个分量中区别为值1,那么在这两个节点之间恰好划出一个棱边。
对于每个节点可以进行研究:如果在该节点中所描述的泛化级别被应用,可能在包括对并没有实现组强度k的数据组的抑制的情况下,经修改的数据集是否满足k匿名性、1多样性或t紧密度的条件。同样地,可以对于该节点来算出:在应用该节点的情况下产生何种信息损失。
其经由可区分性度量(差别度量(Discernability Metrik))来被算出,其中在所述度量中包括所产生的组的数目、经抑制的(“suppressed”)数据组的大小以及数目。此外,该算法提供搜索启发法,所述搜索启发法说明:节点是否应作为下一个被检查以及哪个节点应作为下一个被检查。
所有经检查的节点其中具有最小信息损失的节点确定匿名化的结果。该Flash算法在主存储器中的数据集上执行所有这些计算和检查。因此,其不能够应用在大数据量上,所述数据量在分布式的大数据系统中被保持和处理。
出版物“Ghinita, P. Karras, P. Kalnis 和 N. Mamoulis, „Fast DataAnonymization with Low Information Loss", in: Proceedings of the 33rdInternational Conference on Very Large Data Bases, VLDB '07, VLDB Endowment,2007, 758-769页”描述一种Hilb算法,能利用该算法来检验:是否泛化自身单独地实现k匿名性。
在出版物 “X. Zhang 等人的 „A Scalable Two-Phase Top-DownSpecialization Approach for Data Anonymization Using MapReduce on Cloud",IEEE Transactions On Parallel And Distributed Systems, Vol. 25, NO. 2, 二月,2014”中,描述一种基于map-reduce的针对k匿名性的TDS(Top-Down-Specialization(上-下专门化))的实施方案。然而该方法并没有提供如下灵活性:以任意的搜索启发法来在完整的泛化图上进行搜索。
发明内容
本发明的技术任务是:实现大的数据集的匿名化。
所述任务通过根据独立权利要求所述的技术主题得以解决。有利的实施方式是从属权利要求、说明书和附图的主题。
根据第一方面,所述任务通过一种用于匿名化数据集的方法得以解决,所述方法具有如下步骤:在中央节点处确定用于数据集的准标识符的泛化级别的组合;传送泛化级别的组合给多个子节点;以及通过子节点基于泛化级别的组合来并行地执行数据集的匿名化。通过使用多个子节点实现如下技术优点:也能够在较少时间内匿名化大的数据集。
在该方法的一种技术上有利的实施方式中检验:经匿名化的数据集是否满足k匿名性的条件。由此,例如实现如下技术优点:能够确保数据集具有所期望的匿名性。
在该方法的另一技术上有利的实施方式中,如果经匿名化的数据集满足k匿名性的条件,则较低泛化级别的组合被确定。由此,例如实现如下技术优点:能够逐渐地减小数据集的泛化。
在本方法另一技术上有利的实施方式中,如果经匿名化的数据集并不满足k匿名性的条件,则较高泛化级别的组合被确定。由此,例如实现如下技术优点:能够逐渐地提高数据集的泛化,直至实现k匿名性。
在该方法的另一技术上有利的实施方式中,较低的或较高的泛化级别的组合被传送给多个子节点并且数据集的匿名化基于较低的或较高的泛化级别的组合通过子节点来并行地执行。由此,例如实现如下技术优点:数据集的泛化能够被优化。
在该方法的另一技术上有利的实施方式中,基于泛化图来执行泛化级别的组合的确定。由此,例如实现如下技术优点:产生泛化级别的分层结构,该分层结构实现对较高或较低的泛化级别的快速选择。
在该方法的另一技术上有利的实施方式中,泛化图被加载到中央节点的存储器中。由此,例如实现如下技术优点:能够以快速的方式通过中央节点来选择泛化级别。可替代地,泛化图能够作为超出多个节点的分布式的数据结构来被存储。
在该方法的另一技术上有利的实施方式中,借助预给定的搜索启发法来遍历该泛化图。由此,例如实现如下技术优点:能够以少量的计算步骤来选择不同的泛化级别的组合。
在该方法的另一技术上有利的实施方式中检验:经匿名化的数据集是否满足1多样性的条件。由此,例如实现如下技术优点:每个产生的组包含至少k个元素并且在每个组中针对敏感属性应找到至少1个不同值。
在该方法的另一技术上有利的实施方式中检验:经匿名化的数据集是否满足t紧密度的条件。由此,例如实现如下技术优点:在每个组中敏感属性的统计学分布仅以作为参数所给定的程度而不同于在总量中的敏感属性的统计学分布。
在该方法的另一技术上有利的实施方式中,由数据集的每个数据组来生成字符串,作为用于匿名化的组密钥。由此,例如实现如下技术优点:能够以小的耗费来确定出用于检验k匿名性的相应组的大小。
在该方法的另一技术上有利的实施方式中,如果经匿名化的数据集满足k匿名性的条件,则原始的数据集被删除。由此,例如实现如下技术优点:减小存储需要并且防止原始的数据集的滥用。
在该方法的另一技术上有利的实施方式中,该数据集被存储在并行的数据库中。由此,例如实现如下技术优点:能够快速地并且以并行的方式来访问数据集的每个数据组。
根据第二方面,所述任务通过用于匿名化数据集的系统而得以解决,其中该系统具有:用于确定用于数据集的准标识符的泛化级别的组合的中央节点;用于传送泛化级别的组合给多个子节点的传送装置;和用于基于泛化级别的组合来并行地执行数据集的匿名化的多个子节点。由此,实现与通过根据第一方面的方法所实现的相同的技术优点。
根据第三方面,所述任务通过一种计算机程序得以解决,该计算机程序能够被加载到数字的计算机的存储器中并且包括软件代码段,其中,如果计算机程序在计算机上运行,能够利用所述软件代码段实施根据第一方面的方法。由此,实现与通过根据第一方面的方法所实现的相同的技术优点。
附图说明
本发明的实施例在附图中示出,并且下文中进一步描述。其中:
图1示出方法的框图;和
图2示出用于匿名化数据集的系统的示意性视图。
具体实施方式
图1示出用于匿名化数据集的方法的框图。该数据集包括大量的具有不同属性的各个数据组。
该方法包括步骤S101:在中央节点处确定用于数据集的准标识符的泛化级别的组合。准标识符在此是具有间接个人关联的属性,通过所述属性可以实现对个人的标识,诸如个人的出生日期或邮编。
泛化级别说明准标识符应经受的泛化的程度。针对该出生日期的准标识符而言,泛化级别可以例如为:天(没有泛化)、周(第一泛化级别)、月(第二泛化级别)或年(第三泛化级别)。针对该邮政编码的准标识符而言,泛化级别可以在于:移除邮政编码的一个或多个数字,例如80336(没有泛化)、8033X(第一泛化级别)、803XX(第二泛化级别)、80XXX(第三泛化级别)或8XXXX(第四泛化级别)。针对于数据集的每个准标识符,确定相应的泛化级别。
接下来,该方法包括步骤S102:传送泛化级别的经确定的组合给多个子节点。在步骤S103中,所述子节点基于泛化级别的组合来并行地执行相应数据组和数据集的匿名化。中央节点和子节点例如是独立的计算机,这些计算机分别具有处理器和存储器,处理器能够经由地址和数据总线来访问该存储器。
通过该方法,用于匿名化数据集的算法被分解成不同的组成部分,这些组成部分当中的一些被并行化,以用于在子节点上的分布式的执行,从而能够将该算法在大数据系统中并行地应用在分布式地存储的数据集上。作为执行环境,分布式的大数据系统可以被使用,诸如Spark/Hadoop或大规模并行的数据库。
图2示出用于匿名化数据集105的系统100的示意性视图。该系统100包括中央节点101、诸如计算机,用于确定用于数据集105的准标识符的泛化级别的组合。借助传送装置103、诸如网络接口,泛化级别的组合被传送给多个子节点109。所述多个子节点109、诸如与中央节点101经由网络连接的计算机,基于泛化级别的组合来并行地并且同时地执行数据集105的匿名化。该匿名化的结果被中间存储。
并行的算法的各个组成部分a)至e)是:
a)在中央节点101上的控制装置基于专门的准标识符和其泛化级别来构造泛化图GG,其中所述泛化级别之前已经被输入。典型地,分别给定最多10个准标识符和泛化级别。
因此,泛化图GG作为数据结构原则上是足够小的,以便被保持在中央节点101的存储器中。符合标准的压缩技术可以同样地被应用到泛化图GG上。泛化图GG的大小是无关于待处理的数据集105的大小的并且因此并不构成对于大数据量的处理而言的瓶颈。如果泛化图对于在计算机上的示出而言过大,则该泛化图也可以被保存在如下数据结构中,所述数据结构分布式地存储在多个子节点上。在这种情况下,搜索启发法的执行被进一步中央化,仅仅基本的图操作的执行经由与相应子节点的通信来进行。
此外,中央节点101将搜索启发法H应用在泛化图GG上,以便将其确定作为泛化图GG的下一个待检查的节点。这也可以由于并行化而是泛化图GG的多个节点。用于搜索启发法H的另一输入除了泛化图GG以外还是泛化图GG的迄今所评价的节点的结果。
搜索启发法的具体表现形式是不重要的。可以使用现有的搜索启发法,其作为泛化图GG中的节点的评价的结果只使用如下信息:如果最多S个信任的数据组(ConfidentialRecords(机密记录))被抑制或省去,则节点是否实现匿名化的期望程度,也即至少大小k的组。其他搜索启发法可以也使用其他信息作为节点的评价的结果,其中所述其他信息例如从可区分性度量(差别度量)或信息损失得出(参照d))。
b)数据集105的泛化的组合通过子节点109以分布式的和假设的方式来在准标识符上执行。该泛化图GG的每个节点在此确定泛化级别的可能组合。
其可以在分布式的大数据系统中并行地在数据集105的所有分布式地存在的数据组上执行。作为在数据组上的泛化的结果,将各个准标识符上的泛化的结果串联成唯一的字符串,该字符串被表示为组密钥。
所有组密钥的数量是在数据集105上的分布式假设泛化的结果。在1多样性或t紧密度的情况下,对于每个单个数据组,作为结果考虑敏感属性的值的和组密钥的数量。
c)通过子节点109来执行分布式的检验:基于泛化级别的预先选择的组合的假设泛化是否满足k匿名性的、1多样性的或t紧密度的标准。这在基于来自步骤b)的分组结果进行的聚合的分布式计算的基础上根据组密钥来执行。
c1) 为了检验k匿名性的标准,通过分布式聚合根据来自b)的结果来计算相应组密钥的相应组大小。每个相同的组密钥以值“1”计数并且针对分别相同的组密钥形成总和,例如在hadoop中在Combine/Reduce步骤中或者在Spark中以ReduceByKey的方式。
该结果是分布式的数据组,该数据组对于每组而言包含一个元素,该元素包括由组密钥和组大小组成的对。具有大于或等于k的组大小的组被保留,其他的组则被标记为“被抑制的”(参见步骤d)和e))。
c2)如果1多样性被要求,则相对于步骤c1)而言附加地进行其他检验。对于每个没有被标记的组执行分布式的聚合,该聚合针对在每个组之内的每个敏感属性来确定不同值的数目。这可以在Hadoop中再次通过Combine/Reduce步骤在组密钥的基础上执行或者在Spark中通过CombineByKey聚合器来执行,其中该CombineByKey聚合器构建并且分布式地合并用于这些值的数据结构。现在,针对每个组并行地检验:是否每个敏感属性包含至少一个元素。如果这并不是该情况,则因此将该组标记为“被抑制的”。
c3)如果t紧密度被要求,则相对于步骤c1)而言附加地进行其他检验。对于每个被标记为可信的(“Confidential”)组,分布式聚合被执行,该聚合确定在每个组之内的每个敏感属性的所述值的出现的频率。
这可以例如在Hadoop中通过Combine/Reduce步骤在组密钥的基础上执行或者在Spark中通过CombineByKey聚合器来执行,其中该CombineByKey聚合器构建并且分布式地合并用于这些频率分布的数据结构。现在针对该组的每个敏感属性来并行地检验:产生的频率分布是否在总数量上位于敏感属性的所允许的频率分布之内。
其事先在步骤a)之前已经一次性地根据相同方法并行地被计算并且提供给所有参与的子节点109。与敏感的属性的全局频率分布相比在一个组之内的每个敏感属性的频率分布中的差别可以利用个人相关性系数来计算。如果敏感属性的该差别大于预给定的最大偏差,则该组被标记为“被抑制的”。
d)由步骤b)和c)的应用来执行信息损失的分布式的计算。在该步骤中的输入是分布式的数据结构,在该数据结构中存储由组密钥、组大小和经抑制的属性(是/非(True/False))组成的对。由此可以以分布式的聚合方式来计算可区分性度量。其他基于熵的尺度、例如信息增长(Information Gain(信息增益))同样是能够应用的,其方式为:由组密钥再次确定经匿名化的准标识符的值并且与原始值进行比较。
e)泛化或抑制的分布式实施方案被执行。借助来自步骤a)的中央节点101,中央控制装置在该泛化图上执行搜索启发法H,根据该搜索启发法来确定用于实施步骤b)、c)和d)的节点。
节点的选择通过搜索启发法H来进行。对此,可以并行地检验泛化图的多个节点,因为步骤b)总是导致用于生成相应的组密钥的假设泛化。这对于搜索启发法H意味着:在内部循环中被确定作为待评估的节点并且被存储在堆上的所有节点能够被并行地评估。
如果大多局部的最佳值已经被找到并且确定如下节点,根据该节点泛化或抑制应已经以最适合的方式进行,则该搜索启发法H终止搜索。该算法现在如在b)中那样地在实际的数据集上分布式地执行相应的泛化并且如在c)中那样地移除必须被省去的数据组。
总算法的流程以伪代码的方式是如下的:
为了输入而使用:
D:数据集,例如分布式地存储在群集中或大规模地并行的数据库中;
QI:准标识符的列表;
GS:对于每个准标识符而言的泛化级别;
SA:在1多样性或t紧密度的情况下的敏感属性;
k:所期望的最小组大小 s,例如允许的抑制的百分比;
1: 在要求1多样性的情况下的整数;
sigma:在要求t紧密度的情况下在所述组中的敏感属性的分布的允许的偏差;
H:在泛化图中的搜索启发法;和
M:评估度量。
由该输入作为输出得出经泛化的数据集D-anon。
1)由QI和GS在中央控制装置中计算泛化图GG。在此,在泛化图GG的每个节点中,在开始时设置具有值“非”或“否”的所有属性并且并不对属性“质量(Qualität)”进行设置。
定义用于每个准标识符的泛化级别。属性“Evaluated(已评估的)”被置为“是”或“非”。属性“k匿名性”被置为“是”或“非”。必要时,属性“1多样性”和“t紧密度”被置为“是”或“非”。属性“Quality(质量)”被设置。
2)循环:根据搜索启发法H来遍历泛化图GG;
a. 根据搜索启发法H(GG)来将候选者的列表写入候选者列表CL中;
b. 如果候选者列表CL并不是空的,则对于所有在该候选者列表CL中的候选者C来并行地实施以下步骤:
i. 将(如果设置的话,可能具有敏感属性的)组密钥的表格写到S_C中,其中所述组密钥如在b)中描述的那样被并行地计算;
ii. 如在c1)中描述的那样,C.k-Anonymity <-并行地基于S_C来评估;
iii. 如在c2)中描述的那样,C.1-Diversity <-并行地基于S_C来评估;
iv. 如在c3)中描述的那样,C.t-Closeness <-并行地基于S_C来评估;
v. 如在d)中描述的那样,C.Quality <-并行地基于S_C来评估;
vi. C.evaluated <- True;
vii. GG.C <- C,
否则:终止循环
3)GG-anon <- 具有C.k-anonymity =“True”和附加地具有C.1-Diversity=“True”、C.t-Closeness=“True”的泛化图GG中的节点;
4)C_best <- 具有最佳的C.Quality的GG-anon中的节点;和
5)如在e)中描述的那样,D-anon <- 并行地将C_best应用在D上。
匿名化不仅在处理和存储数据集105时而且也在将数据和信息分开时起到大的作用。大数据系统对积累的数据集105进行处理,以便对所述数据集进行分析并且能够从所述数据集105中得益。数据集105的匿名化是所述解决方案的部分成分。通过所描述的方法实现在大数据系统上的可运行性。
泛化和抑制是用于k匿名性的重要方法,该方法又是用于数据集105的匿名性的重要标准。迄今的基于泛化和抑制的用于k匿名性、1多样性和t紧密度的方法仅在唯一的存储器之内(In-Memory(内存中))工作并且可以因此仅在如下数据集105上被实施,其中所述数据集能够完全地被加载到唯一的节点101的存储器中。
因此,该方法并不能够被使用用于如下数据集105,其中所述数据集在总数上是这样大规模的(Big Data(大数据)),使得其不再能够单独地被存储在计算机上。由此,通过硬件来给定对于数据集105的可处理性的上限。
通过所述方法提供如下算法,该算法包括中央的和并行化的执行部分。所述中央的执行部分在存储需要方面无关于数据集105的数据总数,从而能够通过并行化的执行来处理比迄今可能的更大的数据总数。
该方法允许:基于泛化和抑制来分布式地在大的数据集105上应用k匿名性、1多样性和t紧密度。该方法能够使用在分布式的大数据系统上,诸如Hadoop、Spark或大规模的并行数据库上。
所有与本发明的各个实施方式相结合所阐述的和示出的特征可以以不同组合方式在根据本发明的主题中设置,以便同时地实现其有利的作用。
所有方法步骤可以通过如下设备来实施,所述设备适合用于实施相应的方法步骤。所有由具体的特征所实施的功能可以是方法的方法步骤。
本发明的保护范围通过权利要求来给出并且不通过在说明书中所阐述的或者图中所示出的特征而受限。

Claims (15)

1.用于匿名化数据集(105)的方法,其中所述方法具有如下步骤:
在中央节点(101)处确定(S101)用于数据集(105)的准标识符的泛化级别的组合;
传送(S102)所述泛化级别的组合给多个子节点(109);以及
通过所述子节点(109)基于所述泛化级别的组合来并行地执行(S103)所述数据集(105)的匿名化。
2.根据权利要求1所述的方法,其中检验:经匿名化的所述数据集(105)是否满足k匿名性的条件。
3.根据权利要求2所述的方法,其中如果所述经匿名化的数据集(105)满足所述k匿名性的条件,则较低的泛化级别的组合被确定。
4.根据权利要求2所述的方法,其中,如果所述经匿名化的数据集(105)并不满足k匿名性的条件,则较高泛化级别的组合被确定。
5.根据权利要求3或4所述的方法,其中较低的或较高的泛化级别的组合被传送给多个所述子节点(109)并且所述数据集(109)的匿名化基于所述较低的或较高的泛化级别的组合通过所述子节点(109)来并行地执行。
6.根据以上权利要求中任意一项所述的方法,其中基于泛化图GG来执行泛化级别的组合的确定。
7.根据权利要求6所述的方法,其中所述泛化图GG被加载到所述中央节点(101)的存储器中。
8.根据权利要求6或7所述的方法,其中借助预给定的搜索启发法(H)来遍历所述泛化图GG。
9.根据以上权利要求中任意一项所述的方法,其中检验:所述经匿名化的数据集(105)是否满足1多样性的条件。
10.根据以上权利要求中任意一项所述的方法,其中检验:所述经匿名化的数据集(105)是否满足t紧密度的条件。
11.根据以上权利要求中任意一项所述的方法,其中,由所述数据集(105)的每个数据组来生成字符串,作为用于匿名化的组密钥。
12.根据以上权利要求中任意一项所述的方法,其中如果所述经匿名化的数据集满足k匿名性的条件,则原始的所述数据集(105)被删除。
13.根据以上权利要求中任意一项所述的方法,其中所述数据集被存储在并行的数据库中。
14.用于匿名化数据集(105)的系统(100),所述系统具有:
用于确定用于数据集(105)的准标识符的泛化级别的组合的中央节点(101);
用于传送所述泛化级别的组合给多个子节点(109)的传送装置(103);和
用于基于所述泛化级别的组合GG来并行地执行所述数据集(105)的匿名化的多个子节点(109)。
15.计算机程序,所述计算机程序能够被加载到数字的计算机的存储器中并且包括软件代码段,其中,如果所述计算机程序在所述计算机上运行,能够利用所述软件代码段实施根据权利要求1至13中任意一项所述的方法。
CN201680091182.5A 2016-11-28 2016-11-28 用于匿名化数据集的系统和方法 Active CN109983467B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/078953 WO2018095547A1 (de) 2016-11-28 2016-11-28 Verfahren und system zum anonymisieren von datenbeständen

Publications (2)

Publication Number Publication Date
CN109983467A true CN109983467A (zh) 2019-07-05
CN109983467B CN109983467B (zh) 2020-09-29

Family

ID=57482383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680091182.5A Active CN109983467B (zh) 2016-11-28 2016-11-28 用于匿名化数据集的系统和方法

Country Status (5)

Country Link
US (1) US11244073B2 (zh)
EP (1) EP3520014B1 (zh)
JP (1) JP6940239B2 (zh)
CN (1) CN109983467B (zh)
WO (1) WO2018095547A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110474336A (zh) * 2019-09-20 2019-11-19 云南电网有限责任公司电力科学研究院 一种智能电网负荷数据分析方法
CN113051619A (zh) * 2021-04-30 2021-06-29 河南科技大学 一种基于k-匿名的中药处方数据隐私保护方法
CN114205108A (zh) * 2020-09-02 2022-03-18 大众汽车股份公司 提供机动车辆的数据

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3671585A1 (en) 2018-12-18 2020-06-24 Siemens Aktiengesellschaft Learning apparatus and an assistance apparatus for generating a list of prioritized interactions
JP2021157343A (ja) * 2020-03-25 2021-10-07 京セラドキュメントソリューションズ株式会社 データ連携システムおよび匿名化制御システム
US11755778B2 (en) * 2021-04-26 2023-09-12 Snowflake Inc. Horizontally-scalable data de-identification
US11763026B2 (en) * 2021-05-11 2023-09-19 International Business Machines Corporation Enabling approximate linkage of datasets over quasi-identifiers
US11816582B2 (en) * 2021-10-21 2023-11-14 Snowflake Inc. Heuristic search for k-anonymization

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1581167A (zh) * 2003-08-14 2005-02-16 国际商业机器公司 使用统计浓缩途径进行保密数据挖掘的方法和装置
US20100332537A1 (en) * 2009-06-25 2010-12-30 Khaled El Emam System And Method For Optimizing The De-Identification Of Data Sets

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269578B2 (en) 2001-04-10 2007-09-11 Latanya Sweeney Systems and methods for deidentifying entries in a data source
US8141160B2 (en) * 2006-07-26 2012-03-20 International Business Machines Corporation Mitigating and managing privacy risks using planning
WO2013121738A1 (ja) 2012-02-17 2013-08-22 日本電気株式会社 分散匿名化装置及び分散匿名化方法
WO2013121739A1 (ja) * 2012-02-17 2013-08-22 日本電気株式会社 匿名化装置及び匿名化方法
US20140380489A1 (en) * 2013-06-20 2014-12-25 Alcatel-Lucent Bell Labs France Systems and methods for data anonymization
EP4250143A3 (en) * 2013-12-31 2023-10-04 Ventana Medical Systems, Inc. Systems and methods for spectral unmixing of microscopic images using pixel grouping
JP6293003B2 (ja) 2014-07-08 2018-03-14 Kddi株式会社 プライバシー保護装置、方法及びプログラム
JP2016053829A (ja) * 2014-09-03 2016-04-14 ソニー株式会社 情報処理方法、プログラム、及び情報処理装置
WO2016092830A1 (ja) 2014-12-09 2016-06-16 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
US9836623B2 (en) * 2015-01-30 2017-12-05 Splunk Inc. Anonymizing machine data events
US9953176B2 (en) * 2015-10-02 2018-04-24 Dtex Systems Inc. Method and system for anonymizing activity records

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1581167A (zh) * 2003-08-14 2005-02-16 国际商业机器公司 使用统计浓缩途径进行保密数据挖掘的方法和装置
US20100332537A1 (en) * 2009-06-25 2010-12-30 Khaled El Emam System And Method For Optimizing The De-Identification Of Data Sets

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FLORIAN KOHLMAYER ET AL: ""Flash: Efficient, Stable and Optimal K-Anonymity"", 《PRIVACY, SECURITY, RISK AND TRUST (PASSAT), 2012 INTERNATIONAL CONFERENCE ON AND 2012 INTERNATIONAL CONFERNECE ON SOCIAL COMPUTING (SOCIALCOM), IEEE, 20120903, PAGES 708-717 , XP032302792》 *
KISHOR ABHANG VIKRAM ET AL: ""Performance enhancement and analysis of privacy preservation using slicing approach over hadoop"", 《2016 3RD INTERNATIONAL CONFERENCE ON COMPUTING FOR SUSTAINABLE GLOBAL DEVELOPMENT (INDIACOM), BHARATI VIDYAPEETH, NEW DELHI AS THE ORGANIZER OF INDIACOM - 2016, 20160316, PAGES 353-357, XP032986951,[RETRIEVED ON 2016-10-27]》 *
S RANSING ET AL: ""Data Anonymization Using Map Reduce On Cloud by Using Scalable Two-Phase Top-Down Specialization Approach"", 《INTERNATIONAL JOURNAL OF SCIENCE AND RESEARCH (IJSR), 2014-12-31, PAGES 1916-1919, XP055388869》 *
ZHANG XUYUN ET AL: "Scalable Iterative Implementation of Mondrian for Big Data Multidimensional Anonymisation", 《SCALABLE ITERATIVE IMPLEMENTATION OF MONDRIAN FOR BIG DATA MULTIDIMENSIONAL ANONYMISATION》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110474336A (zh) * 2019-09-20 2019-11-19 云南电网有限责任公司电力科学研究院 一种智能电网负荷数据分析方法
CN114205108A (zh) * 2020-09-02 2022-03-18 大众汽车股份公司 提供机动车辆的数据
CN113051619A (zh) * 2021-04-30 2021-06-29 河南科技大学 一种基于k-匿名的中药处方数据隐私保护方法
CN113051619B (zh) * 2021-04-30 2023-03-03 河南科技大学 一种基于k-匿名的中药处方数据隐私保护方法

Also Published As

Publication number Publication date
EP3520014B1 (de) 2020-04-15
US20200065522A1 (en) 2020-02-27
EP3520014A1 (de) 2019-08-07
JP6940239B2 (ja) 2021-09-22
JP2020501254A (ja) 2020-01-16
CN109983467B (zh) 2020-09-29
US11244073B2 (en) 2022-02-08
WO2018095547A1 (de) 2018-05-31

Similar Documents

Publication Publication Date Title
CN109983467A (zh) 用于匿名化数据集的系统和方法
Alabdulatif et al. Towards secure big data analytic for cloud-enabled applications with fully homomorphic encryption
JP6508661B2 (ja) データ処理システム、計算ノードおよびデータ処理方法
Zhang et al. A MapReduce based approach of scalable multidimensional anonymization for big data privacy preservation on cloud
US9251460B2 (en) Guiding metaheuristic to search for best of worst
Lukman et al. A new ridge‐type estimator for the gamma regression model
Bradford et al. A case study on the parametric occurrence of multiple steady states
JP2016018379A (ja) プライバシー保護装置、方法及びプログラム
Freilich et al. Phylogenetic community structure when competition and environmental filtering determine abundances
Gokila et al. Analysis of Stochastic Predator‐Prey Model with Disease in the Prey and Holling Type II Functional Response
EP3522137A1 (en) Secret equi-join system, secret equi-join device, secret equi-join method, and program
JP6992821B2 (ja) 分類木生成方法、分類木生成装置および分類木生成プログラム
Rajaei et al. Ambiguity in social network data for presence, sensitive-attribute, degree and relationship privacy protection
Hajian et al. Individual privacy in social influence networks
Xu et al. An investigation of hybrid tabu search for the traveling salesman problem
JP5761043B2 (ja) 名寄せ処理方法、装置及びプログラム
CN111274275B (zh) 数据处理方法、装置和计算机可读存储介质
El Ansari et al. Deterministic and stochastic study for an infected computer network model powered by a system of antivirus programs
JP2016148993A (ja) プライバシー保護装置、方法及びプログラム
JP7283583B2 (ja) 制御方法、制御プログラム、及び情報処理装置
JP7339923B2 (ja) 材料の特性値を推定するシステム
Nikolay et al. Learning directed acyclic graphs from large-scale genomics data
Lin et al. Double‐weighted fuzzy clustering with samples and generalized entropy features
Tian et al. Exponential stability of switched positive homogeneous systems
Cavallaro et al. On the sensitivity of centrality metrics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant