CN111316273B

CN111316273B - 认知数据匿名化

Info

Publication number: CN111316273B
Application number: CN201880068659.7A
Authority: CN
Inventors: A·麦尔; M·奥贝霍弗; Y·塞勒特
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-11-17
Filing date: 2018-10-23
Publication date: 2024-01-26
Anticipated expiration: 2038-10-23
Also published as: DE112018004946T5; JP2021503648A; JP7121460B2; CN111316273A; US10719627B2; GB202008689D0; US20190156060A1; GB2582506A; US20190251290A1; DE112018004946B4; WO2019097327A1; GB2582506B; US10740488B2

Abstract

一种用于数据匿名化的计算机实现的方法，包括：接收对需要匿名化的数据的请求。该请求包括要检索的数据的至少一个字段描述符和用户对所请求数据的使用场景。然后，基于使用场景，确定要应用于由字段描述符引用的数据的匿名化算法。随后，将所确定的匿名化算法应用于由字段描述符引用的数据。执行关于匿名化程度是否满足与使用场景有关的要求的检测。在满足要求的情况下，提供对匿名化数据的访问。

Description

认知数据匿名化

背景技术

本发明涉及数据匿名化领域，并且更具体地涉及一种用于信息治理和数据隐私保护的方法、计算机程序产品和系统。

诸如GDPR(http://www.eugdpr.org/)之类的隐私法规侧重于保护个人免于某些使用其数据的侵害。除非个人明确声明同意将该个人的数据用于某种类型的分析，否则与法律不符。另一方面，收集和存储个人数据可能是可以接受的，并且，只要数据是“充分匿名化的”将个人数据用于分析可能也是可以接受的，例如GDPR条文规定“如果由控制者处理的数据不允许控制者识别个人，则无需为了遵守本规定而获得其它信息。”

作为示例：可以假设数据科学家想要对具有医学研究结果的表进行调查研究，以找到地区与某种疾病之间的新关系。当然，不应允许数据科学家识别具体的个人并查看其敏感的个人信息。幸运的是，在本示例中，诸如“姓名”之类的标识列对于调查而言不是必需的，或者在不影响调查研究的情况下，很可能可以将诸如“兴趣爱好”之类的准标识列屏蔽。因此，这些列是易于处理的。

相反，如果诸如地址或疾病信息之类的其它准标识列被完全加密或屏蔽或编辑，则调查将是不可能的。另一方面，不使这样的列匿名通常会导致容易识别个体，因为可能存在过于独特的疾病和/或地址。对于这种情况，通过泛化(generalization)来匿名化可能会有所帮助，例如将具体地址泛化成具体城市或者将非常详细的疾病信息(例如“亚洲流感”)概括为更一般的信息(例如“流感”)。这样的概括通常不会损害调查，但是可以帮助充分地匿名化数据，以便无法追踪到个体。

发明内容

各种实施例在独立权利要求中提供了用于数据匿名化的计算机实现的方法、用于数据匿名化的计算机程序产品以及用于数据匿名化的系统。在从属权利要求中描述了有利的实施例。如果本发明的实施例不是相互排斥的，则它们可以彼此自由地组合。

在一个方面，本发明涉及一种用于数据匿名化的计算机实现的方法，包括：接收对数据的请求，所述请求包括要检索的数据的至少一个字段描述符和用户对所请求的数据的使用场景；基于所述使用场景来确定要应用于由所述字段描述符所引用的数据的匿名化算法；将所确定的匿名化算法应用于由所述字段描述符所引用的数据；检测匿名化程度是否满足与所述使用场景有关的要求；在满足所述要求的情况下，提供对匿名化数据的访问。

在另一方面，本发明涉及一种用于使数据匿名化的计算机程序产品，所述计算机程序产品包括：一种计算机可读存储介质，具有随其体现的计算机可用代码，其中所述计算机可读存储介质本身不是瞬态信号，所述计算机可用程序代码包括：被配置用于接收对数据的请求的计算机可用代码，所述请求包括要检索的数据的至少一个字段描述符和用户对所请求的数据的使用场景；被配置用于基于所述使用场景来确定要应用于由所述字段描述符所引用的数据的匿名化算法的计算机可用代码；被配置为将所确定的匿名化算法应用于由所述字段描述符所引用的数据的计算机可用代码；被配置用于检测匿名化程度是否满足与所述使用场景有关的要求的计算机可用代码；被配置用于在满足所述要求的情况下提供对匿名化数据的访问的计算机可用代码。

在另一方面，本发明涉及一种用于使数据匿名化的系统，所述系统包括：通信组件，其被配置为与用户通信；匿名化引擎，通信地耦合到所述通信组件，所述匿名化引擎包括：用于接收对数据的请求的装置，所述请求包括要检索的数据的至少一个字段描述符和用户对所请求的数据的使用场景；用于基于所述使用场景来确定要应用于由所述字段描述符所引用的数据的匿名化算法的装置；用于将所确定的匿名化算法应用于由所述字段描述符所引用的数据的装置；用于检测匿名化程度是否满足与所述使用场景有关的要求的装置；在满足所述要求的情况下，提供对所述匿名化数据的访问的装置。

附图说明

在以下说明中：

图1示出了示例计算机处理系统；

图2示出了协作组件的架构；

图3示出了本文阐述的方法的流程图；

图4示例性地描述了要匿名化的表；以及

图5示例性地示出了对所述要匿名化的表的匿名化。

具体实施方式

具体阐述的对本发明的各种实施例的描述系出于说明的目的，但是不旨在是穷举的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。本文所使用的术语的选择是为了最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。

如下面所描述的本方法可以提供数据匿名化，特别是出于数据隐私保护目的数据匿名化。这可以具有这样的益处，即感兴趣的数据集内的个人可识别信息可以这样一种方式被修改，使得可以省略原本能够识别单个人的信息，同时，维持对分析有用的信息。

该方法还可以包括接收对数据的请求，该请求包括要检索的数据的至少一个字段描述符和用户对所请求的数据的使用场景。本领域技术人员将理解，该接收步骤可以指示从应用来接收，其中该应用可以被提供以到用户的接口，例如图形用户接口。如本文所使用的“字段描述符”具体地可以表示要检索的数据的列名称。例如，字段描述符可以是“姓名”或“疾病”。使用场景可指示发出该请求时所处的环境。例如，使用场景可以包括发出请求的目的，也称为“意图”，例如医学研究评估。此外，使用场景可以包括例如数据分析师或最终用户的用户角色。例如，数据分析师可能具有通过特定的示教直接支持机器学习的扩展的权利。

应当注意，数据可能具有不同等级的隐私要求。例如，与数据库列“姓名”相关联的姓名将能够直接识别个人，因此，将列“姓名”表示为“标识列”，而例如"爱好"的列可能仅是“准标识的”，因为仅结合其他信息时，个人可能才是可识别的。最后，信息可以表示为“敏感的”，诸如数据列“疾病”。

该方法还可以包括基于使用场景来确定要应用于由字段描述符所引用的数据的匿名化算法。具体地，在请求由多个列指定的数据的情况下，应当匿名化标识列和准标识列的数据。例如在医学研究中，希望将能够识别人的列完全匿名化，而准识别信息则可以被完全匿名化或者至少被高度地泛化，并且最后，对于医学研究场景中的例如疾病之类的真正感兴趣的信息，则不予匿名化或者稍微加以泛化。这可以具有这样的优点，即，可以向用户呈现搜索结果，其中搜索结果被调整得关于搜索意图具有高度的有用性，而同时遵守关于数据隐私的法律。

该方法还可以包括使所请求数据的使用场景和与所请求数据的字段描述符相关的保护级别相关。这可以具有的优点在于，根据使用场景，不同数据列的字段可以通过执行不同的匿名化算法来匿名化，同时仍然遵守关于隐私的要求。

例如，如果疾病与位置相关，则姓名和爱好以及性别可能要被完全抑制。另一方面，如果意图包括涉及疾病与爱好之间的相关性的问题，则地址列可能要被完全压缩，仅保持疾病和爱好列的数据不变，或者最多稍微泛化。在这个上下文中，“稍微泛化”可以意味着将例如任何种类的流感，例如“亚洲流感”或“胃流感”，称为"流感"，并且将例如任何种类的癌症匿名化为“癌症”。要是更严格概括，则可以将列“疾病”中的所有数据值修改得仅为例如“有病患”或“无病患”这两个值的其中之一。

该方法还可以包括基于所述使用场景和保护级别，确定用于每个字段描述符的匿名化算法。这可以具有这样的优点，即在遵守数据隐私法律的同时最优地提供有用且丰富的数据用于分析。

该方法还可以包括将所确定的匿名化算法应用于由字段描述符所引用的数据。这可以具有这样的优点，即用户、数据科学家或终端用户仅接收其被允许查看的以及其可能被允许发布的数据。本领域技术人员将理解，不对原始数据应用匿名化，然而，优选地对数据的副本应用匿名化。因此，原始数据可以被保持以用于以后的在不同意图下的需要针对每个所请求的数据字段采用不同匿名化算法的检索。

该方法可以进一步包括确定匿名化程度是否满足与使用场景有关的要求。这可以具有优点，因为呈现给用户的结果总是符合数据隐私法律。

该方法可以进一步包括，在满足所述要求的情况下，提供对匿名化数据的访问。换句话说，如果搜索结果不符合数据隐私法律，则搜索结果将不被呈现给用户。用户将仅能获得这样的信息，即：考虑其真正意图、其角色以及所考虑和/或选择的匿名化算法的情况下的信息，取得的结果不符合遵守数据隐私法律，因此不可以示出。

可以将由于实际要求导致了被匿名化的搜索结果的参数存储起来，并且可以将其用作机器学习的反馈以改进整个算法的工作。例如，可以反馈给定参数(例如，意图、用户角色、所选匿名化算法、给定数据隐私管制)的参数，以便下次用户发出类似的搜索请求时，在高排名位置上向用户提示和建议成功的策略，而导致了由于数据隐私法律而不允许呈现的搜索结果的策略，则不予建议或仅在低排名位置上建议。

如本文所表示的，术语“数据隐私法律”指的是数据隐私法律以及任何数据隐私管制或数据隐私政策。

该方法还可包括基于使用场景确定与所请求的数据的字段描述符有关的保护水平。例如，在与医学分析相关的使用场景中，字段描述符或列“名称”可能与最高可能的保护级别相关，因为该列含有标识数据，或者可以被称为标识列，而列“爱好”可能与较低保护级别相关。本领域技术人员将理解，可以在一组数据隐私管制规则中规定高保护级别或高隐私级别。这可以具有这样的优点，即在由用户发起的交互过程期间，在保护级别内，可以灵活地检测若干匿名化算法，以便最终接收具有最佳和丰富信息内容的结果，并且同时遵守数据隐私法律。

根据一个实施例，该方法可以包括使用场景包括请求数据的用户的意图和用户的角色。这可以具有的优点在于，可以考虑搜索或分析的若干环境，以便灵活地实现具有有用的数据内容并且仅合法地允许呈现数据的结果。

根据一个实施例，该方法可以包括使至少一个保护级别与字段描述符相关联。换句话说，字段描述符可以与多个保护级别相关联。因此，可以实现关联匿名化算法的甚至更灵活的方式。

根据一个实施例，该方法可以包括基于使用场景和保护水平来选择要应用的匿名化算法。

根据一个实施例，该方法可以包括匿名化算法是以下中的至少一个：泛化、编校、抑制、采样、随机化、数据交换、屏蔽、枚举。本质上，匿名化算法在本领域中是已知的。应当理解，例如，可以通过包括例如业务术语和数据列名称的关系的目录与人工智能程序的协作来实现泛化。匿名化算法的列表可以由用户扩展。

根据一个实施例，该方法可以包括从用户接收反馈，该反馈构成对机器学习的支持。来自用户的反馈包括具有如"我对结果满意"或"我对结果不满意"的含义的信息，在用户对结果不满意的情况下，尽管在遵守数据隐私法律的情况下向其呈现了结果，但是学习算法可以将该评估存储为"数据内容不足"，并且尝试找到较少限制的匿名化算法，下一次用户发出具有类似意图的类似请求时，应用这些较少限制的匿名化算法。这可能具有的优点是，该方法直到获得满意的搜索结果为止的执行可能在更短的时间内完成。

根据一个实施例，该方法可以包括与使用场景有关的要求是k-匿名性(k-anonymity)。技术人员将理解，需要一种标准来检查搜索结果是否被充分匿名化，使得不可能识别其数据根据使用场景而被呈现的任何人。这可以具有的优点是，为了遵守隐私法律，确保数据满足关于匿名的要求。如本文所用，“k-匿名性”的含义是：对于每个代表个人的记录来说，存在另外至少k-1个个人，其信息也出现在表中，并且数据不可区分，则该表被k-匿名化，即，管理规则要求，每个个人至少重复一次关于可用于标识个人的列。

根据一个实施例，该方法可以包括数据与信息资产元数据相关，所述信息资产元数据包括数据表对用户的可用性以及这些数据表具有的字段描述符。

根据一个实施例，该方法可以包括提供业务术语，形成将由用户使用的关键词，其中提供了表示业务术语与信息资产元数据之间的关系的分类信息。

分类信息可以通过信息资产和业务术语之间的关系来表示，例如，表“医学研究1”(Medical Research Study 1)可能有用业务术语“Date of Birth”(出生日期)分类的列“DOB”。其它分类示例是，列“Date”(日期)可被分类为“Contract Date”(合约日期)或列“Risk”(风险)可被分类为“Involved Party Risk Exposure”(参与方风险暴露)。基本上，分类能够描述数据的语义性质，即“业务含义”。为了描述本公开的目的，考虑每个信息资产确切地具有一个分类。将该方法扩展到其中不能发生分类和/或可能发生多个分类的系统是直截了当的。

根据一个实施例，该方法可以包括提供泛化分层结构，以使得能够执行泛化算法。这可以具有的优点在于其可以允许访问诸如以下的信息：例如哪些城市可以泛化成哪些州，哪些县可以泛化成哪些州，哪些州可以泛化成哪些国家；或者“Asian Flu”(亚洲流感)可以泛化成“Flu”(流感)，“Flu”可以泛化成“Infectious Disease”(传染病)。

根据一个实施例，该方法可以包括：指定数据隐私管制规则和用于检测的相应检测算法，以基于要检索的数据和使用场景控制该方法的执行，直到所检索的数据匿名化对应于所需的匿名化程度。应当理解，可以将检测的范围与关于匿名化程度是否满足与使用场景有关的要求的判定相关联。

作为示例，规则可以指定"如果用户具有角色A并且表包含在目录中被标记为敏感的个人可识别信息的列，并且表还包含被标记为标识符或准标识符的列，则需要使数据k-匿名化，k>＝10”。用于检查数据是否被10-匿名化的相应算法是简单明了并且是技术人员已知的。

根据一个实施例，该方法可以包括提供指定匿名化算法、使用场景和数据的分类之间的关系的模型。

根据一个实施例，该方法可以包括通过机器学习来构建所述模型。

这种模型能够指定可建议哪种匿名化算法用于分析意图和数据类型的哪种组合，例如，数据类型可通过其分类，即，通过其商业含义或相关联的语义来指定。可以通过机器学习，例如同通过有监督的学习，来构建模型，并根据关于哪种组合被最终用户使用过的相关知识，对模型进行持续改进。如技术人员将知晓的那样，有各种替代方案可考虑，每种替代方案具有其特性。

根据一个实施例，该方法可以包括：在模型的使用期间通过机器学习来对模型进行适应性修改和/或改进。优点可以是，在教学系统或至少支持教学系统的当前用户的几次运行之后，未来用户将感知到遵循数据隐私法律的非常快速且令人满意的响应。

在一个实施例中，这个枚举列表可以由系统的终端用户扩展。这可以具有用户可以容易地指定意图并且该方法可以容易地确定意图的优点。

根据一个实施例，该方法可以包括：采用包括业务术语、信息资产元数据、分类信息、泛化分层结构、数据隐私管制规则和相应的检测算法、指定使用场景的枚举的目录。

根据一个实施例，该方法可以包括：允许与用户的交互，使得用户可以使用机器学习来修改由该方法执行的匿名化过程。

根据一个实施例，该方法可以包括：向用户建议候选匿名算法。这可以具有这样的优点，即可以更交互和更灵活地执行迭代，在整个算法处于卡住情形的情况下尤其如此。

根据一个实施例，该方法可以包括从用户接收对候选匿名化算法的确认。

根据一个实施例，该方法可以包括对所请求的数据应用所确认的匿名化算法。将交互地建议候选匿名算法与应用所选择的候选匿名算法结合起来，可以加速获得具有符合数据隐私法律的丰富数据内容的搜索结果的迭代过程。

根据一个方面，提出了用于匿名化数据的计算机程序产品。

在一个实施例中，计算机程序可以包括计算机可读存储介质，该计算机可读存储介质具有随其体现的计算机可用代码，其中计算机可读存储介质本身不是瞬态信号，计算机可运行程序代码包括如下所述的若干组件，优点和解释如上文已经给出。

在一实施例中，计算机可用程序代码可包括被配置成例如从应用程序接收对数据的请求的计算机可用代码，该请求包括要检索的数据的至少一个字段描述符，例如列名称，以及可包括用户对所请求的数据的意图的使用场景。

在一个实施例中，计算机可用程序代码可以包括被配置用于基于使用场景以及可能基于保护级别来确定要应用于由字段描述符所引用的数据或者数据中的每一个数据的匿名化算法的计算机可用代码。

在一个实施例中，计算机可用程序代码可以包括被配置用于将所确定的匿名化算法应用于由字段描述符引用的数据的计算机可用代码，其中应当理解，匿名化将不应用于原始数据，而是应当应用于数据的副本。

在一实施例中，计算机可用程序代码可包括被配置为检测匿名化程度是否满足与使用场景有关的要求的计算机可用代码。

在一个实施例中，所述计算机可用程序代码可以包括被配置为在满足所述要求的情况下提供对所述匿名化数据的访问的计算机可用代码。

根据一个方面，提出一种用于匿名化数据的系统，该系统包括如上文已经阐述的特征、优点和解释。

在一个实施例中，该系统可以包括被配置为与用户通信的通信组件。

在实施例中，该系统可以包括通信地耦合到通信组件的匿名化引擎，匿名化引擎包括

在一实施例中，该系统可包括用于接收对数据的请求的装置，该请求包括要检索的数据的至少一个字段描述符或列名称以及所请求的数据的使用场景或用户意图。

本领域技术人员将理解，装置可以是任何承载计算机可用程序代码或甚至带有处理器的计算机可用程序代码的组件。

在一个实施例中，该系统可以包括用于基于使用场景和/或保护级别来确定要应用于由字段描述符所引用的数据或者数据中的每一个数据的匿名化算法的装置。

在一个实施例中，该系统可以包括用于将所确定的匿名化算法应用于由字段描述符所引用的数据的装置，例如，不可对原始数据应用匿名化，然而将对数据的副本应用匿名化。

在一实施例中，该系统可包括用于检测匿名化程度是否满足与使用场景有关的要求的装置。

在一个实施例中，所述系统可以包括用于在满足所述要求的情况下提供对所述匿名化数据的访问的装置。

总之，本发明可以旨在扩展可以针对可用数据执行的合法分析的范围。本文描述的方法、计算机程序产品和系统建议考虑了用户的分析意图、数据的语义分类以及现有数据隐私管制规则的数据匿名化。这些建议可以通过例如机器学习随着时间的推移而改进。可以考虑通过交互式建议变更的用户的显式反馈以及通过接受建议的隐式反馈来改进底层分析模型。

换言之，一个基本构思是实现允许分析用户指定其的分析意图的系统和方法。每次分析用户访问数据时，“最低匿名化顾问”(Minimum Anonymization Advisor)检查该数据是否必须被匿名化，在需要匿名化的情况下，顾问建议在过去已经被证明对于这种分析意图和对于类似地分类的数据是有用的匿名化。在交互过程中，分析用户可以影响匿名化并且对其进行调整，使得匿名化更好地符合分析意图而不违反隐私管制规则。随着时间的推移利用反馈来改进建议。下一节更详细地描述该系统、方法和计算机程序产品。

本发明旨在实现若干益处，例如，本发明的主要益处尤其在于所建议的匿名化很可能符合用户想要执行的分析的需要。该建议将随着时间而改进。这允许向不是匿名化专家的自助用户提供这样的系统。如果可能，专家用户可以交互地和连续地对不适合的匿名化建议进行修改以适应其需要。专家用户在合法的限度内对匿名化具有完全控制。该系统总是实施足够的匿名化，并且这可以向审计者证明。

换言之，以上公开旨在扩展可针对可用数据执行的合法分析的范围。所提议的方法包括建议可利用用户的分析意图、数据的语义分类以及现有的数据隐私管制规则进行的数据匿名化。通过机器学习，随时间的推移而改进建议。可以考虑通过交互式建议变更的用户的显式反馈以及通过接受建议的隐式反馈来改进底层分析模型。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得具有存储在其中的指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

图1中示出了用于实现本发明的方法的示例计算机处理系统的框图。该计算机系统被一般性地标记为1。系统包括处理器2，其可以包括数字信号处理器(DSP)、中央处理单元(CPU)、微控制器、微处理器、微型计算机、ASIC或FPGA核心。系统还包括静态只读存储器7和动态主存储器6，并且还可以包括闪存5。处理器2通过总线3与所述存储器设备中的任何一个以及与诸如显示设备10、键盘9、诸如鼠标或平板电脑的指针设备8的外围设备通信。

计算机系统经由通过一个或多个数据I/O通信接口11(例如网络接口11)连接到系统的通信线路连接到一个或多个外部网络，例如LAN或WAN或SAN 12。耦合到系统的网络适配器11使得数据处理系统能够通过居间的公共或专用网络耦合到其它数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是几种当前可用的网络适配器类型。系统还包括基于磁或半导体的数据存储器或存储设备4和/或13，用于存储应用程序和数据。系统还包括计算机可读存储介质，其可以包括任何合适的存储器装置，包括但不限于磁存储器、光存储器、半导体易失性或非易失性存储器或任何其他存储器存储设备。

在一个示例性实施例中，设想用户用来与执行本发明的方法的计算机系统通信的计算机系统是如上所述的客户端计算机系统。在另一示例性实施例中，设想执行本发明的方法的计算机系统基本上是类似地构造的，然而，具体是如下所示地构造的。

在以下附图中，描述了系统架构。使用该系统架构作为背景并且执行如图3中所描绘的方法，使用图4和图5的示例表以及下面列出的目录的示例内容，下面将公开一种帮助数据科学家寻找适于其想要执行的分析类型的匿名化的方法。

图2是可用于实现本文所述的方法的协作组件的架构100的图示。数字标记101示出了提供有匿名化顾问103的数据科学家应用。匿名化顾问被设置得通过127与匿名化管理器123通信，执行匿名化建议的交互式适配。

例如通过用户接口操作数据科学家应用程序的用户，可引起通过105向连接器109发出的数据请求。当完成以下描述的每个步骤时，连接器109可以返回107匿名化数据。连接器109可以通过111从具有未匿名化数据集的数据池113请求未匿名化数据。认为数据池113可通过114.a...114.n耦合到非匿名化数据库115.a...115.n。

连接器可以与匿名化管理器通信121，以便检查匿名化需要。连接器109通过117，匿名化管理器123通过125，两者都可以使用匿名化服务119。匿名化服务119可以通过155从目录143检索与应用匿名化相关的元数据。

目录143可以包括分类元数据145、分析意图149、泛化分层结构147、隐私规则151和相关联的隐私规则检测153的数据集合。技术人员知道，该数据集合可以被组织为列表、表，并且其中存储的数据可以包括日期、字符串、字符、指向函数的指针等等。

匿名化管理器123可以配备有匿名化模型139，辅助或控制匿名化管理器的核心工作。

匿名化管理器123可以进一步与匿名化知识库131通信129，以便收集关于匿名化使用的信息。匿名化数据库131可以与模型训练组件135通信133，可以被布置用来创建或修改137匿名化模型。

图3示出了描述若干实施例的本文阐述的方法200的流程图。方法200最初开始于201。用户(未示出)可以通过用户接口进行通信，并且使用数据科学家应用203。通过线205，应用程序可以在207启动会话。在本图中，输入-输出动作如通常的那样用与符号207形状匹配的符号来指定，输入-输出则以虚线来表示，以便保持一定的可理解性。

换句话说，该方法可以在207中通过205接收对数据的请求。对数据的请求可包括要检索的数据的至少一个字段描述符或列名称以及用户对所请求的数据的使用场景或意图。

在209中，可以基于使用场景来确定匿名化算法，该匿名化算法将被应用于由字段描述符引用的数据。在实施例中，可以设想请求多个数据列。在211中，可以通过213提示用户关于其是否接受所确定的匿名化算法(或者多个匿名化算法—如果请求涉及多个列)。一旦用户通过215回复，该方法可以在217继续。

在217中，可以通过交换机219联系数据库221，以便向该方法递送未匿名化的数据，该步骤可以被实现为从数据库221向系统100的存储器复制所请求的数据。系统100在另一视图中被示为计算机系统1，因此例如向RAM 6或数据存储器4复制所请求的数据。

该方法在223中继续，并且可以应用已经在211、213、215中达成一致的匿名化算法。特别地，考虑到所确定的匿名化算法可以应用于由字段描述符引用的数据。随后，在225中，可以检测匿名化程度是否满足与使用场景有关的要求。技术人员理解，该要求将被理解为关于匿名性程度的要求。

在决策框227中，在达到或满足所需匿名性的情况下，即遵守数据隐私法律的情况下，该方法可以通过229在239处继续。输入输出模块239可以通知匿名化知识库131和237关于达到所需匿名性，使得匿名化模型139的机器学习可以得到支持。

在未达到所需匿名的情况下，该方法可以通过231朝向另一输入输出模块233继续，通过235，向匿名化知识库237通知关于该情况，使得支持机器学习。在这种情况下，由于不满足匿名要求，因此该方法将在209处重新开始并且通知用户，以便采用不同的匿名化策略。

当达到所需匿名等级时，该方法可在245继续，通过247提示用户结果，并询问数据是否足以使其继续其工作。

在这种情况下，关于数据是否足够，这可以通过249朝向输入输出模块245传输。

在决策框250中，可以根据数据是否足以用于评估或者是否被匿名化到太高的程度来控制该方法进行分支。

如果认为数据足够，则该方法可以在253处继续，通过255使用该反馈作为朝向匿名化知识库237的进一步学习反馈。然后，该方法的执行可以在259结束。

在认为数据不足的情况下，该方法可以在251处继续，通过257使用该反馈作为朝向匿名化知识库237的进一步学习反馈。然后，则该方法的执行可以在209继续。

本领域技术人员完全明了这样的可能性，即学习反馈依赖于用户的角色。例如，在有经验的数据科学家发出请求的情况下，反馈学习可以被接通或接收较高的权重，而在没有经验的用户发出请求的情况下，反馈学习可以被断开或接收较低的学习权重。

图4示例性地描述了要被匿名化的表。列“Name”(名字)可以由目录的分类部分按业务术语分类为“Full Name”(全名)301。业务术语“全名”301可以用作能够识别人的标识符315。

列“Date”(日期)可以用目录的分类部分按业务术语分类为“Date of Birth”(出生日期)305。业务术语“Date of Birth”305不能充当标识符，但是当与和该人相关联的其他数据组合时，可以用作准标识符317。

列“Sex”(性别)可以被分类为与业务术语“Gender”(性别)307相关联，其也可以仅是准标识符319。列“Nationality”(国籍)可以与业务术语“Nationality”(国籍)309和准标识符321相关联。列“Address”(地址)可以与业务术语“ZIP-code”(邮政编码)311相关联，其也可以仅是准标识符323，并且列“Disease”(疾病)可以被分类为与业务术语“Disease”(疾病)313相关联，其可以被分类为敏感数据。

因此，通过业务术语的概念，仅提供了具有语义的数据列名称或表头，其可以在系统的另外的组件中被充分地处理。

图5示例性地示出了对要被匿名化的图4的表的匿名化。

可以看出，列“Name”(姓名)被完全省略。具有“Data of Birth”(出生日期)的语义的列“Date”被修改得只显示与间隔时间相关的信息。列“Nationality”(国籍)被转换为枚举型的值。“Address”(地址)则被聚类或泛化为包括邮政编码所属城市的名称，并且，“Disease”(疾病)也被泛化。

结果，无法唯一性地识别任何人。

在一个实施例中，上述方法可以描述如下：

可以假设目录可以包括以下信息：

诸如“Full Name”(全名)、“Date of Birth”(出生日期)、“Gender”(性别)、“Nationality”(国籍)、“ZIP”(邮编)、“Disease”(疾病)等业务术语的定义，包括“FullName”是标识符的定义，“Disease”是敏感数据，而上面列出的其它术语则是准标识符。

目录可以存储关于表study_results(研究结果)的元数据，包括关于该表中的列的技术元数据。

目录可存储分类信息，具体地，列“Name”含有“Full Name”值，列“Date”的分类信息是“Date of Birth”，“Sex”的是“Gender)”，“Nationality”的是“Nationality”，“Sex”的是“Gender)”，“Disease”的是“Disease”。这样的信息通常由管理者在表被登记在目录中时指定。

目录可以存储可以将“Hepatitis A”(甲型肝炎)和“Hepatitis B”(乙型肝炎)泛化为“Hepatitis”(肝炎)以及和将“Asian Flu”(亚洲流感)和“Russian Flu”(俄罗斯流感)泛化为“Flu”(流感)的信息。目录还知道，72070,72072,72074是城市Tuebingen的邮政编码，70173和70176是城市“Stuttgart”的邮政编码。目录也可知道，具体的“Date of Birth”(出生日期)，可以通过将其缩减成年份而泛化，也可以通过构建年份区间来进一步泛化。

目录可以具有“针对敏感数据的2-匿名性”隐私管制规则，该规则规定至少对表进行2-匿名化，数据科学家才能查看具有敏感信息的表中的数据。如果对于每个代表个人的记录来说，存在另外至少k-1个个人，其信息也出现在表中，并且数据不可区分，则该表是k-匿名化的，即，管理规则要求，每个个人至少重复一次关于可用于标识个人的列。

此外，目录可能知道不同的“分析意图”值，在这种情况下为{“医学研究评估”、“客户流失分析”、“欺诈检测”}。

此外，可以假设系统可以支持下列“匿名化服务”：泛化、编校、按顺序函数屏蔽(Masking_by_sequential_function)，并且该系统已经用数据进行了训练，从而产生了一种推荐模型，在分析意图是“医学研究评估”的情况下，该推荐模型建议，针对分类为“FullName”(全名)的数据，采用“编校”；针对分类为“Birth of Date”(出生日期)、“Address”(地址)、“ZIP”(邮政编码)和“Disease”(疾病)的数据，采用“泛化”，针对分类为“Nationalality”的数据，采用“按顺序函数屏蔽”。

这些是当数据科学家为了进行执行“医学研究评估”从数据池请求数据时执行的步骤。在本示例中，数据科学家可请求表study_results的数据。

Claims

1.一种用于数据匿名化的计算机实现的方法，包括：

接收对数据的请求，所述请求包括要检索的数据的至少一个字段描述符和所请求的数据的用户的使用场景，其中所述使用场景包括所述用户请求所述数据的意图以及所述用户的角色；

基于所述使用场景来确定要应用于由所述字段描述符所引用的数据的匿名化算法；

将所确定的匿名化算法应用于由所述字段描述符所引用的数据；

检测匿名化的程度是否满足与使用场景有关的要求；

基于满足所述要求的确定，提供对匿名化数据的访问。

2.根据权利要求1所述的方法，其中，至少一个保护级别与所述字段描述符相关联。

3.根据权利要求2所述的方法，其中，基于所述使用场景和所述保护级别来选择要应用的所述匿名化算法。

4.根据权利要求1-3中任一项所述的方法，其中，所述匿名化算法是以下中的至少一个：泛化、编校、抑制、采样、随机化、数据交换、屏蔽、枚举。

5.根据权利要求1-3中任一项所述的方法，包括从用户接收反馈，所述反馈形成对机器学习的支持。

6.根据权利要求1-3中任一项所述的方法，其中，与所述使用场景相关的要求是k-匿名性。

7.根据权利要求1-3中任一项所述的方法，其中，所述数据与信息资产元数据有关，所述信息资产元数据包括数据表对用户的可用性以及这些数据表具有的字段描述符。

8.根据权利要求1-3中任一项所述的方法，其中，提供了多个业务术语，形成了将由该用户使用的多个关键词，其中，提供了表示业务术语与信息资产元数据之间的关系的分类信息。

9.根据权利要求1-3中任一项所述的方法，其中，提供泛化层级以使得能够执行泛化算法。

10.根据权利要求1-3中任一项所述的方法，其中，指定用于所述检测的数据隐私管制规则和对应的检测算法，以控制所述方法被执行，直到基于要检索的所述数据和所述使用场景，所检索到的数据匿名化之后对应于所述匿名化程度。

11.根据权利要求1-3中任一项所述的方法，其中提供指定匿名化算法、使用场景和所述数据的分类之间的关系的模型。

12.根据权利要求11所述的方法，其中，通过机器学习来构建所述模型。

13.根据权利要求12所述的方法，其中，所述模型在其使用期间通过机器学习被调整。

14.根据权利要求1-3中任一项所述的方法，其中，提供对所述使用场景的说明的枚举。

15.根据权利要求14所述的方法，其中，所述枚举指定医学研究评估、客户流失分析、欺诈检测中的至少一个。

16.根据权利要求1-3中任一项所述的方法，包括包含业务术语、信息资产元数据、分类信息、泛化分层结构、数据隐私管制规则和对应的检测算法、说明所述使用场景的枚举的目录。

17.根据权利要求1-3中任一项所述的方法，其中，允许与所述用户的交互，使得所述用户能够使用机器学习来修改所述匿名化的方法。

18.一种计算机可读存储介质，具有随其体现的计算机可用代码，其中所述计算机可读存储介质本身不是瞬态信号，所述计算机可用程序代码包括：

被配置用于接收对数据的请求的计算机可用代码，所述请求包括要检索的数据的至少一个字段描述符和用户对所请求的数据的使用场景，其中所述使用场景包括所述用户请求所述数据的意图以及所述用户的角色；

被配置用于基于所述使用场景来确定要应用于由所述字段描述符所引用的数据的匿名化算法的计算机可用代码；

被配置用于将所述匿名化算法应用于由字段描述符所引用的数据的计算机可用代码；

被配置成用于评估匿名化程度是否满足与使用场景相关的要求的计算机可用代码；

被配置为基于满足所述要求的确定来提供对所述匿名化数据的访问的计算机可用代码。

19.一种用于匿名化数据的系统，所述系统包括：

通信组件，其被配置为与用户通信；

匿名化引擎，其通信地耦合到所述通信组件，所述匿名化引擎包括

用于接收对数据的请求的装置，所述请求包括要检索的数据的至少一个字段描述符和用户对所请求的数据的使用场景，其中所述使用场景包括所述用户请求所述数据的意图以及所述用户的角色；

用于基于所述使用场景来确定要应用于由所述字段描述符所引用的数据的匿名化算法的装置；

用于将所确定的匿名化算法应用于由所述字段描述符所引用的数据的装置；

用于评估匿名化的程度是否满足与使用场景有关的要求的装置；

用于基于确定所述要求被满足而提供对所述匿名化数据的访问的装置。