CN109711186B

CN109711186B - 内存数据库中的数据匿名化

Info

Publication number: CN109711186B
Application number: CN201810801610.XA
Authority: CN
Inventors: X.黄
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2017-10-26
Filing date: 2018-07-20
Publication date: 2023-01-20
Anticipated expiration: 2038-07-20
Also published as: CN109711186A; EP3477528A1; EP3477528B1; US10528761B2; US20190130131A1

Abstract

本文公开了用于内存数据库中的数据匿名化的系统、方法和计算机程序产品实施例。实施例通过识别与输入表的数据相对应的文本属性来操作。对于多个记录中的每个记录确定与文本属性相对应的值。基于所确定的值生成多个组。提供被分类为多个组的至少一部分数据。

Description

内存数据库中的数据匿名化

相关申请的交叉引用

本申请涉及在此提交的标题为“在内存数据库中自下而上的数据匿名化(BottomUp Data Anonymization In An In-Memory Database)”(Atty Dkt编号1933.4330000)的美国专利申请第15/794,779号，以及在此提交的标题为“内存数据库中的K-匿名和L-多样性数据匿名化(K-Anonymity and L-Diversity Data Anonymization In An In-MemoryDatabase)”(Atty Dkt编号1933.4320000)的美国专利申请第15/794,744号。所有这些文献都通过引用整体并入本文。

技术领域

本公开涉及内存数据库中的数据匿名化。

背景技术

数据匿名化是一种数据隐私技术，其中来自数据库的数据的个人信息通过删除或加密来保护，使得无法识别与该信息相关的个体。数据匿名化可以被用于保护其数据已经被收集的个体或公司的隐私，同时维护正在被共享的已发布数据的完整性。用于匿名化数据的当前技术通常适用于数字数据或分层数据，而不适用于其他类型的数据，诸如文本数据，因此限制了可用的匿名化选项。

发明内容

本公开的一方面涉及一种计算机实施的方法。该方法包括：识别与输入表的数据相对应的文本属性，其中数据包括跨多个记录存储的个人信息，以用于基于至少一个阈值的匿名化，阈值针对数据的一个或多个组中的每个组中所需的值的数量；确定与多个记录中的每个记录的文本属性相对应的值，值包括一个或多个字符；基于所确定的值生成多个组，其中每个组包括一个或多个值，并且每个组中的值共享一个或多个共同的字符；以及提供被分类为多个组的数据的至少一部分，其中每个所提供的组的值的计数满足阈值。

本公开的另一方面涉及一种系统。该系统包括：存储器；和至少一个处理器，其被耦合到存储器并被配置为：识别与输入表的数据相对应的文本属性，其中数据包括跨多个记录存储的个人信息，以用于基于至少一个阈值的匿名化，阈值针对数据的一个或多个组中的每个组中所需的值的数量；确定与多个记录中的每个记录的文本属性相对应的值，值包括一个或多个字符；基于所确定的值生成多个组，其中每个组包括一个或多个值，并且每个组中的值共享一个或多个共同的字符；并且提供被分类为多个组的数据的至少一部分，其中每个所提供的组的值的计数满足阈值。

本公开的另一方方面涉及一种非暂时性计算机可读设备，非暂时性计算机可读设备具有存储在其上的指令，当由至少一个计算设备执行指令时，使得至少一个计算设备执行包括以下的操作：识别与输入表的数据相对应的文本属性，其中数据包括跨多个记录存储的个人信息，以用于基于至少一个阈值的匿名化，阈值针对数据的一个或多个组中的每个组中所需的值的数量；确定与多个记录中的每个记录的文本属性相对应的值，值包括一个或多个字符；基于所确定的值生成多个组，其中每个组包括一个或多个值，并且每个组中的值共享一个或多个共同的字符；以及提供被分类为多个组的数据的至少一部分，其中每个所提供的组的值的计数满足阈值。

附图说明

附图结合于此并形成说明书的一部分。

图1是示出根据一些实施例的内存数据库中的示例性数据匿名化功能的框图。

图2是示出根据一些实施例的用于数据匿名化的过程的流程图。

图3是可用于实施各种实施例的示例性计算机系统。

图4是示出根据实施例的针对分层数据类型的示例性数据匿名化功能的框图。

图5是示出根据实施例的针对文本数据类型的示例性数据匿名化功能的框图。

在附图中，相同的附图标号通常指示相同或相似的元件。另外，通常，附图标号的(多个)最左边的数字标识首先出现参考标号的附图。

具体实施方式

本文提供了用于内存数据库中的数据匿名化的系统、装置、设备、方法和/或计算机程序产品实施例、和/或其组合以及子组合。

图1是示出根据一些实施例的内存数据库中的示例性数据匿名化功能的框图100。数据匿名器(Data Anonymizer，DA)102可以使用数据匿名化来保护其数据104已经被收集并且正在被公布或以其他方式被公布地可用的个体的隐私或身份。

在一些实施例中，DA 102可以使用各种数据匿名化技术，该技术删除、加密或以其他方式模糊数据104内的个人可识别信息(personally identifiable information，PII)103，同时尽可能多地维护剩余数据。PII 103可以包括可以用于识别或潜在地识别其数据104被收集的特定个体或公司的任何数据值、对象或类型。DA 102可以使能关于个体的数据104能够被公然地发布，同时却不发布用以能够识别数据所属的实际个体的足够的信息。

例如，出于医学或市场研究的目的，可能已从个体收集到数据104。数据104可以包括可用于识别个体的PII 103，并且数据104可能已经被用于测试假设、进行实验或执行研究。在实施例中，数据分析的结果可以在期刊公布或在线公布、在会议上呈现、或以其他方式可公然地使用。为了支持结果，也可以发布在研究中使用的数据104的部分。然而，通常不必要的(以及可能期望避免的)是发布其数据104被收集的个体的特定身份。

DA 102可以匿名化数据104的部分以移除PII 103或以其他方式模糊PII103，使得难以或不可能具体地识别所发布的匿名数据120所属的个体。利用扩展的匿名化技术，当其应用于不同的数据类型112时，DA 102可以执行保护个体的隐私所必需的最小量的匿名化，同时尽可能多地维护剩余数据104的完整性。

数据104可以被存储在关系数据库或非关系数据库中。DA 102可以从一个或多个源接收数据104并且将接收到的数据104跨输入表106的记录存储。在实施例中，输入表106可以包括列存储或内存数据库105中的表。将数据104组织到列存储、内存数据库105中可以使DA 102能够相对于其他存储机制(诸如关系数据库中的磁盘存储)非常快速地执行各种匿名化操作(例如，诸如排序)。

输入表106的数据可以被组织成若干记录、每个记录包括若干数据值。各种记录可以与其数据104被收集的一个或多个个体或组织相对应。每个记录可以包括与属性108相对应的值，该属性108识别特定值表示什么。示例性属性108可以包括姓名、社会保险号、工资、病史、年龄、地址、账户余额、信用评分、雇主、教育、关系状态等。<John Smith：43：New York>可以是具有针对属性名称、年龄和位置的值的示例性记录。如图1的示例中所示，输入表106可以包括属性108，并且DA 102可以以本文描述的方式接收或处理那些属性108的子集。

在面向列的数据库105中，属性108可以与输入表106的行相对应，并且可以指示在行中存储什么信息，并且每列可以与特定记录相对应。在面向行的或关系数据库中，行和列指定(designations)可以颠倒，使得每行与记录相对应，并且每列与属性108相对应。

在实施例中，不同属性108可以与不同级别的隐私110相关联。每个隐私级别110可以指示特定个体可以被识别到何种精度级别，或者可以指示特定个体与数据104内存在其PII 103的一个或多个其它个体区分到何种精度级别。隐私110可以是PII 103存在于各种属性108的值内的程度的指示符。

例如，显式标识符信息110A可以指示属性108的特定值可以用来从数据104中识别指定个体或公司或记录。在实施例中，显式标识符110A值可以包括对于特定属性108能与其他值区分开的值。示例性显式标识符110A可以包括姓名、社会保险号和地址。

在实施例中，可以相对于其他收集的数据104的值来指定特定属性108的隐私110指定。在不同数据集104中，特定属性108的隐私110可以变化。例如，在仅具有名为“MikeSmith”的一个个体的第一数据集中，名称属性可以是显式标识符110A。然而，在仅从名为“Mike Smith”的个体收集数据的另一数据集中，名称属性可能不是显式标识符110A，并且可能根本不是PII 103。

准标识符110B可以指示属性108，当其与一个或多个其他属性108(例如，准标识符110B)一起考虑时，其值可以潜在地从数据104识别个体记录。示例性准标识符110B可以包括邮政编码、生日和性别。当单独采用这些值中的任何一个时，可能相对于其他个体不足以从输入表106区分或识别特定个体或记录。然而，有可能(取决于所收集的数据104的实际数据值)准属性110B的任何或特定组合可以用于识别数据集中的个体。例如，邮政编码和生日可能足以识别特定数据集中的特定个体。在实施例中，准标识符110B可能需要与一个或多个其他准标识符110B组合以识别或区分特定个体或记录。

敏感标识符110C可以包括值(对应于属性108)，其重要性可以通过与指定个体或记录的归属来推导。示例性敏感属性包括年龄、健康状况和工资。例如，已知其特定工资信息被收集的指定个体的身份可以是敏感信息110C。例如，已知Rachel Burns每年赚取10万美元可能是敏感信息110C。然而，在不知道某人的身份为Rachel Burn的情况下，已知研究中的某人每年赚取10万美元可能不构成敏感信息110C。

在实施例中，输入表106可以包括属性：姓名、城市、生日和工资。DA102可以(例如，从熟悉数据104的值的用户或管理员)接收关于哪些属性108对应于哪些隐私级别110的指示或指定。例如，在第一数据集中，名称可以是显式标识符110A，城市和生日可能是准标识符110B，工资可能是敏感标识符110C。然而，在具有相同属性108(但是不同值)的第二数据集中，隐私指定110可以是不同的。

除了用特定隐私级别110来识别之外，还可以用特定数据类型112来识别属性108。数据类型112可以指示输入表106中存储什么类型的数据值。每个属性108可以包括其自己的数据类型112。三个示例性数据类型112包括数字112A、分层112B和文本112C。数字112A可以指示属性108的值是数值(整数、实数、自然数、小数、货币等)。示例性数值数据值可以是工资。

在实施例中，数据类型112可以应用于如DA 102用来执行数据匿名化功能的准属性110B。例如，准110B的数据类型112可以指示在数据匿名化过程期间如何对数据进行分区。在实施例中，具有数值(整数、实数、自然数、小数、货币等)的不同属性108可以被定义为数字112A。

分层112B可以指示数据值依附于分层、流或嵌套的类型。示例性分层数据可以包括公司组织图表内的相对位置。例如，公司组织图表可以包括顶层的首席执行官(ChiefExecutive Officer，CEO)，其中不同的职位从CEO的根节点流出，该图表指示组织内的管理层级。

文本112C可以指示属性108包括将被解释为字母数字字符串或字符的值。在实施例中，文本112C指定可以用在仅包括数字字符并且将被解释为文本112C数据而不是数字112A的属性108上。这种数据的示例可以是与个人标识符或社会保险号相对应的一串数字。其他示例性文本数据112C可以包括名称或地址信息。在实施例中，地址信息可以被分解为指示建筑物编号的数字属性112A和指示建筑物所在道路的名称的文本属性112C。

为了对输入表106的值执行数据匿名化，DA 102可以从与不同属性108相对应的用户或数据管理员接收DA类型114和阈值116的指示。DA类型114可以指示哪种特定数据匿名化技术将被应用于数据104的值。在实施例中，DA 102可以应用数据匿名化技术的任何组合，诸如K-匿名、L-多样性和/或T-接近度，仅举几个例子。阈值116可以对应于所选择的DAtype 114或指示DA类型114，并指示匿名化的级别或程度。

在一些实施例中，在K-匿名中，属性K(即阈值116)可以指示匿名数据120中的每个记录必须与至少K-1个其他记录无法区分。匿名数据120可以包括数据匿名化之后已公布或已输出的数据，其中PII 103已被缩减、分组、移除或以其他方式模糊。

在实施例中，DA 102可以针对准标识符110B应用K-匿名。如下面更详细讨论的，DA102可以基于其准标识符110B值的相似性或重叠将记录分组到各种等价类118中。每个等价类118可以包括基于如DA 102所确定的值的各种范围而分组的至少K个记录(阈值116)。

在一些实施例中，在L-多样性中，等价类118内的敏感标识符110C的值的分布必须至少为L(即阈值116)。例如，如果工资是敏感标识符110C，并且L是5，则在匿名化的或输出数据集120的等价类118中，必须存在共享相同工资的至少5个记录。在实施例中，如果存在的记录少于在等价类118中的记录的指定阈值116，则DA 102可以抑制记录或者将记录与另一等价类118组合以满足阈值116。

在一些实施例中，T-接近度是L-多样性的进一步细化，其中等价类118内的敏感标识符110C的值的分布在整个数据集的敏感标识符110C的分布的T内。

仅出于说明而非限制的目的，针对K-匿名性114描述DA 102的操作。在实施例中，可以有两个主要步骤对来自输入表106的数据104的值执行所选择的DA类型114(K-匿名性)的匿名化。第一步可以是确定或选择要匿名的(多个)属性108。第二步可以对所选择的(多个)属性108的实际值实际执行数据匿名化功能。

DA 102可以使用隐私110和数据类型112信息来通过K-匿名对PII 103执行数据匿名化。例如，DA 102可以对与所指示的准标识符110B相对应的值进行匿名化，以生成一个或多个等价类118，然后将其输出到输出表126。输出表126被用于存储匿名化的数据120。

在实施例中，DA 102可以抑制显式标识符110A并且防止它们被释放到输出表126中。在实施例中，在K-匿名中，DA 102可以不对敏感标识符110C进行匿名化，而是对准标识符110B匿名化，以防止敏感信息110C与使用PII 103的个体身份之间的任何关联。

作为数据匿名化过程的一部分，DA 102可以生成一个或多个等价类118。等价类118可以包括匿名数据集120内的一组记录，其具有用于一个或多个准标识符110B的相同、相似或重叠的值(或落入范围内的值)。例如，共享相同邮政编码、城市、生日和/或第一名字(first name)的一组记录可以属于相同的等价类118。其他示例包括共享一个或多个字符的标识符或落入某个范围内的年龄。

在实施例中，DA 102可以计算并使用各种准属性110B的宽度122来确定或选择要匿名化的(多个)属性108。宽度122可以是对于特定属性108的存在于数据104中的值的范围多宽的指示符。在K-匿名的情况下，DA 102可以确定各种准标识符110B的宽度122和/或其各种组合。

在实施例中，DA 102可以根据所识别的准标识符110B的组确定属性108的相对宽度122。当数据104被匿名化或抽象化时，作为数据匿名化过程的一部分可能会发生一定程度的信息丢失。为了减少信息丢失量，DA 102可以选择具有最大宽度122或值的范围的(多个)属性108以用于数据匿名化。选择具有最大宽度122的属性108可以减少在数据匿名化期间发生的信息丢失量。然而，为了跨不同属性108准确地执行宽度分析，DA 102可能需要考虑与那些属性108相对应的各种不同数据类型112。

归一化确定性补偿(Normalized certainty penalty，NCP)测量与匿名化选择的准属性110B有关的数据104的单一生成的等价类118(分区)的信息丢失(例如，宽度122)或潜在信息丢失。在实施例中，DA 102可以包括基于与各种属性108相对应的不同数据类型112的不同NCP计算技术。DA 102可以计算各种属性108的NCP以确定哪个具有最大宽度122或NCP。在实施例中，可以由DA 102选择具有最大宽度122或最小信息丢失的属性108用于匿名化(如果所选择的属性108的匿名化也满足阈值116)。

在实施例中，可以计算NCP并将其用于递归地将数据集分割成不同的分区。例如，在第一次迭代期间，可以选择具有最大NCP的属性108来进行分割。例如，如果有两个准属性年龄和工作类分别具有0.5和0.25的NCP，则可以选择年龄以在第一次迭代期间对数据集进行分区。在第一次迭代之后，可以针对各种准属性重新计算NCP，并且如果没有满足该阈值116，则可以在第二次迭代期间通过选择在具有剩余的最高NCP的准属性(其可以是相同的或不同的属性)对数据集进行分区。可以递归地执行该处理，直到满足阈值116。

在一些实施例中，对于数值属性112A，属性108上的等价类118(分区P)的NCP(宽度122)可以被定义为：

分子和分母分别表示分区P的属性A_num和整个属性域的范围。如本文所使用的，在一些实施例中，分区P和等价类118可以互换使用，其中两者都可以指来自输入表106的值的分组。例如，分区可以具有关于属性“年龄”的范围从20到30的间隔或实际数据值。该分区还可以包括在(数据104的)整个属性域中范围从20到60的可能数据值的间隔或范围。然后，例如，可以将年龄属性的NCP计算为(30-20)/(60-20)＝0.25。

在一些实施例中，对于分层数据类型112B，NCP(宽度122)可以被计算为：

“u”可能是P中包括的A_cat值的最低共同祖先。“Card(u)”可以是u的子树中的叶子数(即属性值)，其可以是图4中所示的示例性分区的根节点。图4是示出根据实施例的针对分层数据类型的示例性数据匿名化功能的框图400。

例如，在图4中所示的属性“Workclass(工作类型)”的分层中，根节点*包含8个叶子。如果分区的根是“自雇”，则它包含2个叶子。因此，分区的归一化宽度(NCP)将是(2/8)＝0.25。

在一些实施例中，对于文本数据类型112C，NCP(宽度122)可以被计算为：

分子和分母分别表示分区P的属性A_num的匿名化的字符总数，以及数据104的属性A_num的字符总数。n_p是分区中的记录数，并且n_a是整个数据集104的记录数。匿名化的(t_i)是元组t_i的匿名化的字符数。A_txt是数据104的A_num的属性的字符总数。

分区可以包含在被识别为文本112C的属性“Final_Weight(最终权重)”上具有值“112321”和“112396”的两个记录。虽然对于Final_Weight可能没有指定分层或嵌套，但是DA102可以创建示例性内部分层，如图5中所示。图5是示出根据实施例的针对文本数据类型的示例性数据匿名化功能的框图500。

可以基于公共字符串或根(如果有的话)的标识来生成分层。如图5中所示，这两个值可以被概括为公共字符串，也称为根“1123**”。根的匿名化的字符数为2(如**所指示)。在分区中匿名化的字符数为4。数据集的字符总数为12(每个值为6，但在其他示例中，不同值的字符数可能会变化)，并且在分区中有2个记录，以及数据库中有8个总记录。然后可以将NCP计算为：2*4/12*8＝0.08。

在实施例中，宽度122也可以是加权的。权重124可以指示准标识符110B的重要性或相对重要性。权重越大，属性108的值可能对研究学习或数据完整性越重要。在一些实施例中，加权NCP可以如下计算：

在实施例中，可以以可扩展标记语言(extensible markup language，XML)的形式向DA 102提供隐私110、数据类型112和权重124。在示例性实施例中，年龄属性具有为100的权重，XML可以指示<quasiAttribute name＝“Age”type＝“number”weight＝100/>(准属性名称＝“年龄”类型＝“数字”权重＝100)。

如上所述，然后可以选择具有最高加权NCP的属性108(准属性110B)以用于分区(例如，数据匿名化)。如本文所使用的，在一些实施例中，分区和数据匿名化可以互换使用以指代由DA 102执行的从数据104移除或模糊PII 103的处理，并且用于生成匿名化的数据120。

在实施例中，DA 102可以基于数据类型112递归地执行分区或分区分割，直到满足所选择的DA类型114的阈值116。例如，DA 102可以基于具有最大宽度122的属性108递归地分区数据104，直到生成的等价类118中的每一个包括至少K个记录(满足阈值116)用于K-匿名(DA类型114)。

在对数字属性112A执行数据匿名化或分区时，可以基于属性108的中值将输入表106的分区或数据集分成两个分区(或数据集)。例如，数字分区分割算法如下所示。

对于分层属性112B，DA 102可以在属性108上创建具有一个根和若干子组的分层树。DA 102可以确保每个子组包括至少K个记录。如果特定子组不包括至少K个记录，则将其移动到“其他”子组(其可能不是来自输入表106的原始子组之一)。

作为分区过程的一部分(对于数值数据类型112A)，包括多于2K-1个记录的任何较大的子组可以被分割两个子组。在分区过程结束时，每个剩余的子组或等价类118可以包括至少K个且不超过2K-1个记录。在实施例中，具有少于K个记录的任何子组可以被抑制(例如，从匿名化的数据120中排除)或者与其他等价类118组合。

对于分层数据112B或文本数据112C，子组的数量可以由当前父节点的子节点的数量确定。在实施例中，具有大于K个记录的分区可以被进一步分区为子组。或者，例如，具有少于K个记录的任何子组或等价类可以被组合到另一组中。

以下示出了分层的分区分割算法的示例。

在一些实施例中，分割或分区文本属性112C从识别元组或记录的公共字符串(如果有的话)开始。然后将元组分组为具有公共字符串(根)的子组。例如，从空字符串开始，DA102可以扫描值以识别属性108的多个值当中的公共字符。如果识别出公共字符，则在每次迭代中将其添加到公共字符串(根)中。最后，分区或数据集被分割成子分区或等价类118，每个子分区具有相同的根。在实施例中，在对文本值112C分区时，DA 102可以生成基于文本的分层。示例性文本分区算法如下所示。

下面的表1是可以存储在输入表106中并且可以被接收或可用于DA 102的数据的示例。示例性数据包括8个记录和5个属性108。属性108可以包括以下隐私110指定：ID-显示和Salary-敏感、Age、WorkClass和Final_Weight可以是准属性110B。

在一些实施例中，所选择的DA类型114可以是K-匿名，并且阈值K 116可以是2。准属性110B可以包括以下数据类型112指定：Age-数字、WorkClass-分层和Final_Weight-文本属性112C。

表1(输入表106)

基于Age对表1的值的示例性匿名化(其中K＝2)如下表2所示。从表2中可以看出，Age有4个等价类118，每个等价类至少包含(K)2个记录。下面的表2-5示出了示例性输出表126，其可以作为DA 102的数据匿名化的结果而产生。

ID	Age	WorkClass	Final_Weight	Salary
					6	25-30	国家政府	112319	>50k
7	25-30	自雇	112396	<＝50k
					3	31-38	私人	215646	<＝50k
5	31-38	私人	215681	>50k
					1	39-50	国家政府	112316	<＝50k
2	39-50	自雇	215682	<＝50k
					4	52-56	自雇	215642	>50k
8	52-56	当地政府	112321	>50k

表2(基于Age匿名化，K＝2)，GCP＝21.77％

基于WorkClass对表1的值的K-匿名化(其中K＝2)生成3个等价类，如下表3所示。

表3(基于WorkClass匿名化，K＝2)，GCP＝14.06％

基于Final_Weight对表1的值K-匿名化(其中K＝2)生成4个等价类，如下表4所示。

ID	Age	WorkClass	Final_Weight	Salary
					7	25	自雇	1123**	<＝50k
8	56	当地政府	1123**	>50k
					1	39	国家政府	11231*	<＝50k
6	30	国家政府	11231*	>50k
					3	38	私人	21564*	<＝50k
4	52	自雇	21564*	>50k
					2	50	自雇	21568*	<＝50k
5	31	私人	21568*	>50k

表4(基于Final_Weight匿名化，K＝2)，GCP＝2.6％

基于准属性110A的组合对表1的值进行K-匿名化的示例如下表5所示。在表5的示例中，准属性110B Age、WorkClass和Final_Weight可用于生成4个等价类118。在另一实施例中，DA 102也可以生成或处理准属性110B的不同组合，诸如Age和WorkClass、Age和Final_Weight、和/或WorkClass和Final_Weight。

ID	Age	WorkClass	Final_Weight	Salary
					1	39-56	政府	1123**	<＝50k
8	39-56	政府	1123**	>50k
					6	25-30	*	1123**	>50k
7	25-30	*	1123**	<＝50k
					3	31-38	私人	2156**	<＝50k
5	31-38	私人	2156**	>50k
					2	50-52	自雇	2156**	<＝50k
4	50-52	自雇	2156**	>50k

表5(基于Age、WorkClass和Final_Weight匿名化，K＝2)，GCP＝21.18％

如以上示例中所示，可以基于各种准属性110B(的组合)针对数据104的每个示例分区来计算全局确定性补偿(global certainty penalty，GCP)。在一些实施例中，表(T)的GCP可以如下计算：

“n”可以表示原始表中的记录数。“d”可以指示准标识符110B的数量。“m”可以是等价类的数量，G_i是等价类P_i中的记录的数量。如果以百分比表示，则GCP可以产生0到1之间的结果，或者0％和100％之间的结果。

从刚刚描述的示例可以看出，具有最少信息丢失的准属性110B可以是文本属性112C，Final_Weight。例如，在基于K＝2的K-匿名对表1的数据104匿名化时，DA 102可以使用准标识符Final_Weight并产生如上示出的表4的输出表126中的匿名数据120。在实施例中，准属性110B可以不是单一属性(例如，行)，但实际上可以是几个用户指示的属性，它们一起形成准属性110B。如此，DA 102可以对包括准属性110B的几个属性108同时、一起或并行地执行数据匿名化。示出单数属性108作为准属性110B的表2-4的示例仅是示例性的。

如本文所述，DA 102可以跨多个节点且并行地执行数据匿名化。例如，输入表106的值可以基于各种准属性108或数据类型112最初被分区或分离。然后可以将分区分配给不同的节点以进行并行处理，并且可以针对每个属性108执行分区以执行以上引用的计算，确定如何以最少量的信息丢失对输入表016的值进行匿名化。

图2是示出根据一些实施例的用于数据匿名化的过程200的流程图。方法200可以由处理逻辑执行，该处理逻辑可以包括硬件(例如，电路、专用逻辑、可编程逻辑、微代码等)、软件(例如，在处理设备上执行的指令)或其组合。应该理解的是，可能不需要所有步骤来执行本文提供的公开内容。此外，如本领域普通技术人员将理解的，一些步骤可以同时执行，或者以与图2中所示不同的顺序执行。将参考图1描述方法200。然而，方法200不限于该示例性实施例。

在210中，识别与输入表的数据相对应的文本属性。例如，在图1中。如图1所示，DA102可以确定要对存储在输入表106中的数据104执行K-匿名(DA类型114)。基于DA类型114，DA 102可以从输入表106中选择被指定为准标识符110B的属性108。准标识符属性110B中的至少一个可以是文本数据类型112C。在实施例中，用户或管理员可以经由XML文件向DA102提供DA类型114，并且基于XML文件，DA 102可以确定哪些准属性110B是文本112C。

存储在表106中的值可以组织成记录。记录可以与其数据104已经被收集的特定个体相对应，并且可以包括PII 103。基于所提供的K值(阈值116)，DA 102可以匿名化所选择的准标识符属性110B以保护PII 103不被公布。阈值116可以指示数据104将被匿名化的程度。

在220中，确定与对于多个记录中的每一个的文本属性相对应的值。例如，输入表106可以包括与所选择的准属性110B相对应的各种值。值可以包括字母数字文本，该字母数字文本包括一个或多个字符。

在230中，基于所确定的值生成多个组。例如，DA 102可以基于阈值116将一个或多个所选择的准属性110B的值分组成多个等价类118。示例性分组在表2-5中示出。如表4所示，每个组的值可以共享一个或多个共同字符。

在240中，提供分类为多个组的数据的至少一部分。例如，可以经由输出表126提供匿名化的数据120到满足阈值116的程度。可以抑制或以其他方式不在输出表126中提供不满足阈值116的任何数据分组。如上面的示例中所述，可以选择具有最低信息损失的表4并将其用作输出表126。

例如，可以使用一个或多个熟知的计算机系统(诸如图3中所示的计算机系统300)来实施各种实施例。例如，可以使用一个或多个计算机系统300来实施本文所讨论的任何实施例，以及其组合和子组合。

计算机系统300可以包括一个或多个处理器(也称为中央处理单元或CPU)，诸如处理器304。处理器304可以被连接到通信基础设施或总线306。

计算机系统300还可以包括(多个)用户输入/输出设备303，诸如监视器、键盘、定点设备等，其可以通过(多个)用户输入/输出接口302与通信基础设施306通信。

处理器304中的一个或多个可以是图形处理单元(graphics processing unit，GPU)。在实施例中，GPU可以是作为设计用于处理数学密集型应用的专用电子电路的处理器。GPU可以具有对于大块数据的并行处理有效的并行结构，诸如计算机图形应用程序、图像、视频等共有的数学密集数据。

计算机系统300还可以包括主存储器或主要存储器308，诸如随机存取存储器(random access memory，RAM)。主存储器308可以包括一个或多个级别的高速缓存。主存储器308可以在其中存储控制逻辑(即计算机软件)和/或数据。

计算机系统300还可以包括一个或多个辅助存储设备或存储器310。辅助存储器310可以包括例如硬盘驱动312和/或可移除存储设备或驱动器314。可移除存储驱动314可以是软盘驱动器、磁带驱动器、光盘驱动器、光学存储设备、磁带备份设备和/或任何其他存储设备/驱动器。

可移除存储驱动314可以与可移除存储单元318交互。可移除存储单元318可以包括计算机可用或可读存储设备，其上存储有计算机软件(控制逻辑)和/或数据。可移除存储单元318可以是软盘、磁带、光盘、DVD、光存储盘和/或任何其他计算机数据存储设备。可移除存储驱动314可以从可移除存储单元318读取和/或写入可移除存储单元318。

辅助存储器310可以包括用于允许计算机程序和/或其他指令和/或数据被计算机系统300访问的其他装置、设备、组件、工具或其他方法。这样的装置、设备、组件、工具或其他方法可以包括例如可移除存储单元322和接口320。可移除存储单元322和接口320的示例可以包括(诸如在视频游戏设备中找到的)程序盒式存储器和盒式存储器接口、可移除存储器芯片(诸如EPROM或PROM)和相关联的插座、记忆棒和USB端口、存储器卡和相关联的存储器卡插槽、和/或任何其他可移除存储单元和相关联的接口。

计算机系统300还可以包括通信或网络接口324。通信接口324可以使计算机系统300能够与外部设备、外部网络、外部实体等的任何组合进行通信和交互。(通过参考标号328单独地和共同地引用)。例如，通信接口324可以允许计算机系统300通过通信路径326与外部或远程设备328通信，该通信路径326可以是有线和/或无线的(或其组合)，并且可以包括LAN、WAN、因特网等的任何组合。可以经由通信路径326将控制逻辑和/或数据发送到计算机系统300和从计算机系统300发送控制逻辑和/或数据。

计算机系统300还可以是个人数字助理(personal digital assistant，PDA)、台式工作站、膝上型或笔记本计算机、上网本、平板计算机、智能手机、智能手表或其他可穿戴设备、物联网的一部分、和/或嵌入式系统(仅举几个非限制性示例)中的任何一种或其任何组合。

计算机系统300可以是通过任何传递范例访问或托管任何应用程序和/或数据的客户端或服务器，包括但不限于远程或分布式云计算解决方案；本地或预置(on-premises)软件(基于“预置”云的解决方案)；“作为服务”模型(例如，内容即服务(content as aservice，CaaS)、数字内容即服务(digital content as a service，DCaaS)、软件即服务(software as a service，SaaS)、管理软件即服务(managed software as a service，MSaaS)、平台即服务(platform as a service，PaaS)、桌面即服务(desktop as aservice，DaaS)、框架即服务(framework as a service，FaaS)、后端即服务(backend as aservice，BaaS)、移动后端即服务(mobile backend as a service，MBaaS)、基础设施即服务(infrastructure as a service，IaaS)等；和/或包括前述示例或其他服务或传递范例的任何组合的混合模型。

计算机系统300中的任何适用的数据结构、文件格式和模式(schema)可以从包括但不限于JavaScript对象表示法(JavaScript Object Notation，JSON)、可扩展标记语言(Extensible Markup Language，XML)、又一种标记语言(Yet Another Markup Language，YAML)、可扩展超文本标记语言(Extensible Hypertext Markup Language，XHTML)、无线标记语言(Wireless Markup Language，WML)、MessagePack、XML用户界面语言(XML UserInterface Language，XUL)或任何其他功能相似的表示单独或组合导出。可替换地，专属数据结构、格式或模式可以单独使用，也可以与已知或开放标准结合使用。

在一些实施例中，包括其上存储有控制逻辑(软件)的有形、非暂时性计算机可用或可读介质的有形、非暂时性装置或制品也可在本文中称为计算机程序产品或程序存储设备。这包括但不限于计算机系统300、主存储器308、辅助存储器310和可移除存储单元318和322，以及体现前述任意组合的有形制品。当由一个或多个数据处理设备(诸如计算机系统300)执行这种控制逻辑时，可以使这种数据处理设备如本文所述进行操作。

基于本公开中包含的教导，(多个)相关领域的技术人员将清楚如何使用除如图3所示之外的数据处理设备、计算机系统和/或计算机体系结构来进行和使用本公开的实施例。特别地，实施例可以与除了本文描述的那些之外的软件、硬件和/或操作系统实施方式一起操作。

应当理解，具体描述部分而不是任何其他部分意图用于解释权利要求。其他部分可以阐述(多个)发明人所预期的一个或多个但不是所有示例性实施例，因此，不意图以任何方式限制本公开或所附权利要求。

虽然本公开描述了示例性领域和应用的示例性实施例，但是应该理解，本公开不限于此。其他实施例和对其的修改是可能的，并且在本公开的范围和精神内。例如，并且在不限制本段落的大部分的情况下，实施例不限于图中所示和/或本文所述的软件、硬件、固件和/或实体。此外，实施例(无论是否在此明确描述)对于本文所述的示例之外的领域和应用具有显著的实用性。

本文已经借助于示出指定功能及其关系的实施方式的功能构建块描述了实施例。为了便于描述，本文任意定义了这些功能构建块的边界。只要适当地执行指定功能和关系(或其等同物)，就可以定义替代边界。并且，替代实施例可以使用与本文描述的顺序不同的顺序来执行功能块、步骤、操作、方法等。

本文对“一个实施例”、“实施例”、“示例性实施例”或类似短语的引用指示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例不一定包括特定特征、结构或特征。而且，这些短语不一定指代同一实施例。此外，当结合实施例描述特定特征、结构或特性时，在(多个)相关领域的技术人员的知识范围内，无论是否在此明确提及或描述，都可将这些特征、结构或特征结合到其他实施例中。另外，可以使用表达“耦合”和“连接”以及它们的派生词来描述一些实施例。这些术语不一定是彼此的同义词。例如，可以使用术语“连接”和/或“耦合”来描述一些实施例，以指示两个或多个元件彼此直接物理或电接触。然而，术语“耦合”还可以表示两个或多个元件彼此不直接接触，但仍然彼此协作或交互。

本公开的广度和范围不应受任何上述示例性实施例的限制，而应该仅根据所附权利要求及其等同物来限定。

Claims

1.一种计算机实施的方法，包括：

识别与输入表的数据相对应的文本属性，其中所述数据包括跨多个记录存储的个人信息，以用于基于至少一个阈值的匿名化，所述阈值针对所述数据的一个或多个组中的每个组中所需的值的数量；

确定与多个记录中的每个记录的文本属性相对应的值，所述值包括一个或多个字符；

基于所确定的值生成多个组，其中每个组包括一个或多个值，并且每个组中的值共享一个或多个共同的字符；

提供被分类为多个组的数据的至少一部分，其中每个所提供的组的值的计数满足阈值；

确定文本属性和至少一个其他属性中的每一个属性的宽度，其中所述宽度指示与各个属性相对应的值的范围，表示通过匿名化的数据丢失；以及

基于文本属性的宽度大于至少一个其他属性的宽度来选择文本属性。

2.如权利要求1所述的方法，其中，所述提供包括：

确定针对多个组中的特定组的值的计数小于阈值；以及

抑制小于阈值的特定组，其中所述提供包括提供分类为除特定组之外的多个组中的数据。

3.如权利要求1所述的方法，其中，所述数据的个人信息包括：

显式标识符属性，所述数据的特定记录根据所述显式标识符属性与所述数据的一个或多个剩余记录区分开，并且其中基于所述显式标识符识别与所述记录相对应的个体；

第一准标识符属性，当一起考虑所述第一准标识符属性与多个第二准标识符标识符属性时，识别与所述记录相对应的个体；以及

敏感数据属性，其包括与个体相对应的个人信息。

4.如权利要求3所述的方法，其中，所述文本属性与第一准标识符属性相对应。

5.如权利要求1所述的方法，其中，所述识别包括除了识别所述文本属性之外还识别数字属性和分层属性。

6.如权利要求1所述的方法，其中，所述选择还包括：

确定与文本属性相对应的权重；

确定与至少一个其他属性相对应的权重；

确定文本属性和至少一个其他属性两者的加权宽度；和

基于文本属性的加权宽度大于至少一个其他属性的宽度来选择文本属性。

7.一种系统，包括：

存储器；和

至少一个处理器，被耦合到所述存储器并被配置为：

确定文本属性和至少一个其他属性中的每一个属性的宽度，其中宽度指示与各个属性相对应的值的范围，表示通过匿名化的数据丢失；并且

8.如权利要求7所述的系统，其中，所述执行提供的处理器还被配置为：

确定所述多个组中特定组的值的计数小于阈值；以及

抑制小于阈值的特定组，其中所述提供包括提供被分类为除特定组之外的多个组的数据。

9.如权利要求7所述的系统，其中，所述数据的个人信息包括：

显式标识符属性，所述数据的特定记录根据所述显式标识符属性与所述数据的一个或多个剩余记录区分开，并且其中基于显式标识符识别与所述记录相对应的个体；

第一准标识符属性，当一起考虑第一准标识符属性与多个第二准标识符标识符属性时，识别与所述记录相对应的个体；以及

敏感数据属性，其包括与个体相对应的个人信息。

10.如权利要求9所述的系统，其中，所述文本属性与所述第一准标识符属性相对应。

11.如权利要求7所述的系统，其中，所述执行识别的处理器还被配置为：

除识别文本属性外，还识别数字属性和分层属性。

12.如权利要求7所述的系统，其中，所述执行选择的处理器还被配置为：

确定与文本属性相对应的权重；

确定与至少一个其他属性相对应的权重；

确定文本属性和至少一个其他属性两者的加权宽度；并且

13.一种非暂时性计算机可读设备，所述非暂时性计算机可读设备具有存储在其上的指令，当由至少一个计算设备执行所述指令时，使得所述至少一个计算设备执行包括以下的操作：

确定与所述多个记录中的每个记录的文本属性相对应的值，所述值包括一个或多个字符；

确定文本属性和至少一个其他属性中的每一个属性的宽度，其中宽度指示与各个属性相对应的值的范围，表示通过匿名化的数据丢失；以及

14.如权利要求13所述的非暂时性计算机可读设备，其中，所述提供包括：

确定所述多个组中的特定组的值的计数小于阈值；以及

15.如权利要求13所述的非暂时性计算机可读设备，其中，所述数据的个人信息包括：

敏感数据属性，其包括与个体相对应的个人信息。

16.如权利要求15所述的非暂时性计算机可读设备，其中，所述文本属性与所述第一准标识符属性相对应。

17.如权利要求13所述的非暂时性计算机可读设备，其中，所述识别包括：

除了识别文本属性之外，还识别数字属性和分层属性。