CN111344708A

CN111344708A - 基于演进的数据流的自适应统计数据去标识

Info

Publication number: CN111344708A
Application number: CN201880073071.0A
Authority: CN
Inventors: A·格考拉拉斯-迪瓦尼斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-12-20
Filing date: 2018-12-17
Publication date: 2020-06-26
Anticipated expiration: 2038-12-17
Also published as: US11151113B2; US20190188292A1; WO2019123208A1; CN111344708B; US11762835B2; US20210334261A1

Abstract

一种动态地改变应用于数据集的数据去标识规则集以用于去标识数据的系统，所述系统包括至少一个处理器。所述系统周期性地监视从在一个条件集下根据数据去标识规则集被去标识的数据导出的数据集。相对于所监视的数据来评估针对数据去标识规则集的条件集，以确定数据去标识的适用性。响应于评估指示用于数据去标识规则集的条件的集合中的一个或多个条件不再被满足，动态地改变数据去标识规则集的一个或多个规则。本发明的实施例还可以包括用于以与上述基本相同的方式动态地改变应用于数据集的数据去标识规则集以去标识数据的方法和计算机程序产品。

Description

基于演进的数据流的自适应统计数据去标识

技术领域

本发明的实施例涉及数据访问，并且更具体地，涉及动态地适配数据流中的数据去标识。

背景技术

数据去标识是转换数据集中的值以保护个人可标识的信息的过程，其中没有合理的基础来相信数据集中剩余的信息可以用于重新标识个体。

根据1996年美国健康保险携带和责任法案(HIPAA)，用于去标识与个人健康信息有关的数据集的可接受的方式包括使用安全港列表(Safe Harbor list)和使用专家确定。这些方式中的每一个主要依赖于数据去标识规则集来提供数据保护。其他合法隐私框架通过考虑将数据去标识规则集应用于数据集的原始数据值来采用类似的方法以便保护个人数据。

数据去标识规则集通常是：通过以下群体密度/群体唯一性标准来构建；基于数据的分布(例如，涉及某个区域的公民的数据)；以及基于针对公共可用的数据集(例如，群体普查数据、黄页、在obituaries中报告的死亡、开放数据等)的成功三角测量攻击的可能性。

用于导出用于保护数据集的数据去标识规则的这些准则中的每一个准则是基于可在任何时间点改变的信息，由此使得先前充分去标识的数据集(给定特定数据去标识规则集)易受新的重新标识和敏感信息公开攻击的影响。

数据去标识规则可能变得不足以保护个人的隐私的原因是数据去标识规则是静态的。换言之，数据去标识规则由隐私专家基于其对于是公开可用信息(即，在它们检查数据集的点处)的知识、然后包含在数据集中的数据、以及然后与攻击者的感知能力有关的不同假设的有效性(即，认为攻击者可能具有以便违背数据隐私的背景知识)来导出。领域专家在应用其规定的去标识规则之后评估数据集中的隐私级别时合理的所有这些假设可以在稍后的任何时间点被无效，从而使数据易受新的隐私攻击。

虽然专家确定伴随有到期日期(通常是2-3年)，但到期日期是以年为单位计算的，并且不保证规定的数据去标识规则将不会基于在中间变化的数据和知识而变得过时。由于许多开放数据主动方存在于世界各地，这可能导致过多的数据集变得在线可用并且现有数据集用更新的信息来更新。由此，攻击者越来越容易违反由个人特定数据集中的静态数据去标识规则所提供的隐私。

发明内容

根据本发明的一个实施例，一种系统动态地改变应用于数据集的数据去标识规则集以用于去标识数据，并且包括至少一个处理器。该系统周期性地监视数据集，数据集是从在一个条件集下根据数据去标识规则集被去标识的数据中导出的。相对于所监视的数据评估用于数据去标识规则集的条件集，以确定数据去标识的适用性。响应于评估指示用于初始数据去标识规则集的条件集中的一个或多个条件不再被满足，动态地改变数据去标识规则集的一个或多个规则。本发明的实施例还可以基于机器学习动态地改变数据去标识规则集的一个或多个规则。本发明的实施例可进一步包括用于以与上述基本相同的方式动态地改变应用于数据集的规则集以对数据进行去标识的方法和计算机程序产品。

这提供了一种机制，该机制连续地(例如，实时地)或周期性地评估由统计专家做出的假设的有效性，并且在必要时适配数据去标识规则以便维持高水平的隐私保护。可以基于机器学习来适配数据去标识，以提供对数据去标识的认知和智能适配。换言之，该机制通常基于适用的隐私要求和法律框架(例如，HIPAA Safe Harbor等)将重新标识风险维持在可接受的阈值以下。

本发明的实施例可以进一步通过基于评估将数据去标识规则集替换为从数据去标识规则集的组中选择的新数据去标识规则集来动态地改变数据去标识规则集的一个或多个规则，其中满足新数据去标识规则集的条件。可应用的数据去标识规则集集合及其有效性的相应条件可以由域/统计专家规定为对数据集执行的初始专家确定的一部分。在这种情况下，域/统计专家提供对应于数据去标识规则集的集合和针对它们的有效性的相应条件的确定，由此捕获与可能在将来发生的改变(例如，对数据分布的改变、对外部数据集的改变等)有关的各种场景，导致对他或她将提供的确定的改变，以及用于提供对数据的充分隐私保护的相应的缓解策略(即，数据去标识规则集)。这确保数据去标识可基于所监视的数据改变(例如，实时地)以在数据集随时间改变时保护隐私的方式来动态地适配。

本发明的实施例还可以响应于数据去标识规则集中的数据去标识规则的阈值的改变，用新的数据去标识规则集替换数据去标识规则集。这使得适当的数据去标识规则集能够基于所监视的数据改变(例如，实时地)被动态地选择，以鉴于数据集改变来维护隐私。

本发明的实施例可以响应于评估指示不满足该组的每个数据去标识规则集的一个或多个条件而阻止去标识的数据的释放。这在数据去标识过程不足以保护改变的数据时防止潜在易受攻击数据的释放。可以进一步终止去标识的处理(例如，直到可以标识适当的数据去标识规则集等)，以便保留计算资源和效率。

附图说明

本发明的优选实施例现在将仅通过举例的方式并且参考以下附图进行描述：

图1是本发明的实施例的示例计算环境的示意图。

图2是示出根据本发明的实施例的基于数据集中的改变动态地调整数据去标识的方式的流程图。

图3是根据本发明的实施例的评估数据去标识规则集的条件的方式的过程流程图。

图4是根据本发明实施例的调整数据去标识规则集的方式的过程流程图。

图5是根据本发明实施例的动态调整数据去标识的示例的示意图。

通常，各个图中相同的附图标记用于表示相同的部件。

具体实施方式

本发明的实施例涉及对数据集(或数据流)上的数据去标识规则集关于数据去标识规则集提供足够的数据去标识(符合法律、策略、标准等的数据去标识要求)的能力的自动、周期性重新评估。在当前数据去标识规则集不再提供足够的隐私保护时，本发明的实施例从用于数据去标识的当前数据去标识规则集动态地过渡到另一(专家提供的)数据去标识规则集。本发明的实施例可以用于支持提供比现有更高水平的数据保护的专家确定。这消除了每1-2年修改专家确定的需要，并且确保所应用的数据去标识规则不会变得过时并且使数据易受隐私攻击。

在动态演进的数据集(或数据流)上规定的静态数据去标识规则可容易地变得过时，使得数据集易受重新标识和敏感信息公开的攻击。

本发明的实施例提供了一种机制，该机制连续地(例如，实时地)或周期性地(优选地在短时间段内(例如，每几周等))监视数据集并重新评估实施的数据去标识规则的适当性，以充分地保护该数据集中所表示的个体的隐私。该机制自动地(和动态地)改变应用于数据集的数据去标识规则集，以便适配使先前数据去标识规则集的有效性无效的新条件。

该机制支持并评估统计学或其他专家或用户考虑的各种条件。这些评估和条件可以包括：执行来自数据集的记录与外部数据集的概率性、在线/即时链接，从而导致表示成功的三角测量/重新标识攻击的概率的匹配得分；从多个外部的、公共可用的数据集检索统计，所述数据集允许导出当前群体唯一性标准，诸如关于某些地理位置标识中的群体密度的信息；评估和确定可能存在于数据集的属性之间的相关性，引起敏感信息公开攻击并启用间接重新标识(当数据值丢失或有噪声时)；以及对数据分布(例如，在用于专家确定的数据分析中使用的群体分布、被评估用于保护的数据集的分布等)的显著改变进行建模和确定，所述显著改变可以评估当前实施的数据去标识规则集的适用性。

本发明的实施例提供一种机制，该机制连续地(例如，实时地)或周期性地评估由统计专家做出的假设的有效性，并且在必要时适配数据去标识规则以便维持高水平的隐私保护。可以基于机器学习来适配数据去标识，以提供对数据去标识的认知和智能适配。换言之，该机制通常基于适用的隐私要求和法律框架(例如，HIPAA Safe Harbor等)将重新标识风险维持在可接受的阈值以下。

本发明的实施例可以进一步通过基于评估使用从一组数据去标识规则集中选择的新数据去标识规则集替换数据去标识规则集来动态地改变数据去标识规则集的一个或多个规则，其中，满足新数据去标识规则集的条件。这确保数据去标识基于监视到的数据改变(例如，实时地)以在数据集随时间改变时保护隐私的方式被动态地适配。

本发明的实施例可以响应于评估指示不满足该组的每个数据去标识规则集的一个或多个条件而阻止去标识的数据的释放。当数据去标识过程或技术不足以保护改变的数据时，这防止了潜在地易受攻击的数据的释放。可以进一步终止去标识的处理(例如，直到可以标识适当的数据去标识规则集等)，以便保留计算资源和效率。

图1中示出了用于本发明实施例的示例环境。具体地，环境包括一个或多个服务器系统110和一个或多个客户端或终端用户系统114。服务器系统110和客户端系统114可以彼此远离并且通过网络112进行通信。网络可以由任何数量的任何合适的通信介质(例如，广域网(WAN)、局域网(LAN)、互联网、内联网等)来实现。可替代地，服务器系统110和客户端系统114可以彼此本地，并且经由任何适当的本地通信介质(例如，局域网(LAN)、硬件线路、无线链路、内联网等)进行通信。

客户端系统114使得用户能够与服务器系统110交互以执行期望的动作，诸如数据去标识。服务器系统包括：评估模块116，用于监测变化的数据与当前或活跃数据去标识规则集的符合性；以及规则模块120，用于基于评估动态地修改数据去标识规则集。数据库系统118可以存储用于分析的不同信息(例如，原始的和改变的数据集、阈值、数据去标识规则集等)。数据库系统可以由任何常规或其他数据库或存储单元实现，可以在服务器系统110和客户端系统114本地或远离服务器系统110和客户端系统114，并且可以经由任何适当的通信介质(例如，局域网(LAN)、广域网(WAN)、互联网、硬件线路、无线链路、内联网等)进行通信。客户端系统可呈现图形用户界面(例如，GUI等)或其他界面(例如，命令行提示、菜单屏幕等)以从用户征求与分析有关的信息，并且可提供包括分析结果(例如，推荐的数据去标识规则集、去标识的数据集、无效条件、数据去标识规则集评估结果等)的报告。

服务器系统110和客户端系统114可以由优选地配备有显示器或监视器、基座、可选输入设备(例如，键盘、鼠标或其他输入设备)以及任何商业上可获得的和定制的软件(例如，服务器/通信软件、评估模块、规则模块、浏览器/接口软件、用于根据数据去标识规则集对数据去标识的数据去标识过程、用于评估数据去标识规则集的条件的条件评估过程等)的任何常规或其他计算机系统来实现。该基座优选地包括至少一个硬件处理器115(例如，微处理器、控制器、中央处理单元(CPU)等)、一个或多个存储器135和/或内部或外部网络接口或通信装置125(例如，调制解调器、网卡等))。

可替代地，一个或多个客户端系统114可以在作为独立单元操作时动态地调整数据去标识。在独立操作模式中，客户端系统存储数据(例如，原始的和改变的数据集、阈值、数据去标识规则集、数据去标识过程、条件评估过程等)或具有对数据的访问权，并且包括用于执行数据去标识规则集评估的评估模块116和用于基于评估来修改数据去标识规则集的规则模块120。图形用户(例如，GUI等)或其他界面(例如，命令行提示、菜单屏幕等)从相应用户请求关于分析的信息，并且可以提供包括分析结果的报告。

评估模块116和规则模块120可包括一个或多个模块或单元，以执行以下描述的本发明的实施例的各种功能。不同模块(例如，评估模块、规则模块、数据去标识过程、条件评估过程等)可由任何数量的软件和/或硬件模块或单元的任何组合来实现，并且可驻留在服务器和/或客户端系统的存储器135内以供处理器115执行。

数据集可以源自演进的(例如，实时地)数据流，该数据流在相应条件下使用数据去标识规则集被充分地去标识。从潜在数据去标识规则集和相关联的条件的集合或组中选择数据去标识规则集。本发明实施例连续地(例如，实时地)或周期性地监视数据流以重新评估当前实施的数据去标识规则集的对应条件，并且当不满足对应条件时改变当前数据去标识规则集。可通过条件评估过程来检查条件，所述条件评估过程针对由数据专家或其他用户预先指定的阈值来评估和量化多个数据特性。

图2示出根据本发明实施例的基于改变的数据(例如，经由评估模块116、规则模块120和服务器系统110和/或客户端系统114)动态地更改用于数据去标识处理的数据去标识规则集的方式。具体地，数据所有者或其他用户定义各自与一个或多个对应条件230相关联的数据去标识规则集225的组或集合。数据去标识规则集各自包括指示根据(例如，法律、策略、标准等的)去标识要求来去标识数据的方式的一个或多个规则，而条件指示数据去标识规则集225的每个规则应当何时在数据集210的传入数据记录上被实施。可基于对应条件评估过程的执行来评估每一条件230。活跃数据去标识规则集225最初被用于数据集210的数据去标识。

例如，示例数据集210的规则集500(图5)可包括根据数据去标识要求(例如，法律、策略、标准等的)来指定数据去标识的方式的规则510和指示当规则510被应用于去标识数据时的条件520。作为示例，数据集可以是表格的形式，其中每个行对应于个体或实体，并且列指定出生日期(DOB)、性别、邮政编码和诊断编码的属性。条件520反映当规则510被建立时数据集的状态(例如，数据特性和/或统计等)，以使得规则遵从数据去标识要求对数据集去标识。当条件不再满足时，由规则提供的数据去标识可能不符合数据去标识要求。

作为举例，规则510可以包括用于将数据中的每个个体的出生日期去标识或泛化到对应的月和年的规则512、用于将邮政编码的初始三位数字掩蔽到“000”的规则514、以及基本上不提供用于诊断代码的数据去标识的规则516。作为另一示例，条件520可包括要求去标识的数据与外部数据存储525的数据成功链接的概率小于或等于三分之一(或33.3％)的条件522、要求基于最近的群体普查数据的邮政编码中小于20，000个个体的群体密度的条件524、以及要求数据集不包含诊断(ICD)编码x、y或r的条件526。当所有这些条件被满足时，该数据去标识规则集500中的规则提供符合数据去标识要求(例如，针对所考虑的法律、策略、标准等)的充足的数据去标识。

返回参见图2，数据集220优选地以流方式到达或随时间动态地改变，并且在流240在数据集220上周期性地(例如，每周等)评估活跃数据去标识规则集225的条件230。可替代地，传入数据可被不断地监视(例如，实时地)，并且对活跃数据去标识规则集225的评估可响应于对数据集的充分改变(例如，属性类型的改变、数据属性的数量、频率、唯一性等的改变等)而被发起。数据集220可以根据活跃数据去标识规则集225的数据去标识规则而被去标识，以便取决于对应条件230的类型来执行评估。

评估模块116执行与活跃数据去标识规则集225的条件230相对应的条件评估过程，其中每个条件评估过程优选地确定数值或分数。将所确定的分数与优选地由用户(例如，数据去标识专家等)设置的阈值进行比较以确定符合相应的条件230。当活跃数据去标识规则集225的每个条件230被满足时，在流程250处实施活跃数据去标识规则集。

当活跃数据去标识规则集225的一个或多个条件230未被数据集220满足时，规则模块120在流程250处调整数据去标识规则集以满足相应的条件230。这可以通过修改活跃数据去标识规则集225的规则和/或条件以满足这些条件或者用具有由数据集220满足的相应条件230的新数据去标识规则集替换活跃数据去标识规则集来实现。可替代地，可以基于对属于活跃数据去标识规则集(例如，θ+δ)的数据去标识规则的阈值(θ)的增量变化(δ)，而不是符合新数据去标识规则集中严格指定的阈值，来实施新数据去标识规则集。

当活跃数据去标识规则集不再适用于指示被修改的(例如，规则和/或条件)或新的数据去标识规则集替换时，规则模块还可以生成并向数据所有者提供一个或多个通知。数据去标识规则集标识(例如，CertificateID等)可被更新以指示经修改的或新的数据去标识规则集，并被用于审计目的。

可利用高效数据结构和/或在线/增量/流数据处理技术(例如，适用于大数据等)来增强性能和加快用于评估不同条件的计算，以便标识要在数据集220上实施的数据去标识规则集。

此外，当新到达的数据集220不满足数据去标识规则集组中的其他数据去标识规则集的条件时，可定义回退或默认数据去标识规则集。可替代地，当没有定义的数据去标识规则集具有由数据集220满足的条件时，数据的释放可被阻止，并且去标识处理可被终止(例如，直到可基于变化的数据来标识适当的数据去标识规则集等)以便保留计算资源和效率。

图3示出了根据本发明实施例的评估数据集220的条件的方式(例如，对应于图2的流240)。最初，为数据集210实施活跃数据去标识规则集225和对应的条件230。在步骤305，优选地以流传输的方式接收新数据集220。在步骤310检索活跃数据去标识规则集225的条件230，并且在步骤315执行用于评估该条件的相应的条件评估过程。条件评估过程优选地确定指示符合条件的数值或得分。数值得分和评估基于条件230的类型而变化。

例如，在与三角测量攻击有关的条件230的情况下，可以确定表示成功的三角测量攻击的概率的匹配得分。数据集220可以根据活跃数据去标识规则集225的数据去标识规则而被去标识。匹配分数可以基于来自数据集220的去标识的记录与外部数据集(例如，群体普查数据、黄页、以obituaries报告的死亡、开放数据等)之间的链接。当存在链接时，这指示可以确定去标识的数据集的个体的身份，从而基于活跃数据去标识规则集225来标识关于数据去标识的隐私脆弱性。在步骤320，可以将去标识的数据集和外部数据集的数据记录之间的成功链接的数量或百分比与可接受的阈值(例如，在相应条件230中指定的)进行比较，以指示基于活跃数据去标识规则集来执行针对数据去标识的成功重新标识攻击的可能性。

当条件230与这种类型的数据特性有关时，该数值得分可以基于来自外部数据集的统计的计算，该外部数据集对应于群体唯一性标准(例如，关于某些地理位置中的群体密度的信息等)的评估。在步骤320，该得分可以与活跃数据去标识规则集225的相应条件230中定义的可接受界限进行比较，以指示符合该条件。可接受的界限可以涉及与当建立活跃数据去标识规则集225的数据去标识规则时计算的类似统计的偏离。

当条件230涉及数据敏感性时，数值得分可以基于存在于数据集220的属性之间的相关性的量化。这些相关性可引起敏感信息公开攻击并实现间接重新标识(例如，当数据值丢失或离群值时)。例如，该数值得分可以表示被引入去标识的数据集中的准标识符的数量。可基于任何常规或其他技术在去标识的数据集中标识准标识符。例如，由去标识的数据集内的属性组标识的实体的唯一性可被用来确定准标识符，正则表达式或模式可被用来标识已知标识符等。在步骤320，可将数值得分与阈值(例如，在对应条件230中指定)进行比较以指示符合该条件。

条件230可涉及数据分布，其中数字分数可基于对数据集210和数据集220之间的数据分布的改变的计算(例如，在导致专家确定的数据分析中使用的种群分布、被评估用于保护的数据集220的数据分布等)。在步骤320，数据分布的数值得分或变化可与阈值(例如，在相应条件230中指定的)进行比较以指示符合该条件。

当条件230的数值得分不满足在步骤320确定的对应阈值(指示不符合条件)时，在步骤325将条件230标记或标示为无效。当如在步骤330所确定的存在用于活跃数据去标识规则集225的附加条件时，在步骤310检索下一条件并如上所述进行评估。

一旦已经处理了活跃数据去标识规则集225的每个条件，在步骤335确定无效条件的存在。当满足每个条件时，在步骤340保持活跃数据去标识规则集225。如果至少一个条件被指示为无效，则在步骤345向规则模块120提供活跃数据去标识规则集225以供修改或替换。

图4示出根据本发明实施例的调整活跃数据去标识规则集(例如，对应于图2的流程250)的方式。具体地，在步骤405检索具有无效条件的活跃数据去标识规则集225。数据去标识规则集可以基于不同参数(例如，用户偏好、配置参数等)被修改或用新的数据去标识规则集替换。当在步骤410确定要修改活跃数据去标识规则集时，在步骤415可以针对新数据集220调整不同数据去标识规则和/或条件以符合条件。调整限于在任何数据去标识要求(例如，法律、策略、标准等)的限制内的那些调整。

例如，可确定新数据集220和外部数据集的统计和/或特性以提供新数据集的状态。这些特性和/或统计可包括上述用于评估的那些。可以基于所确定的状态来调整活跃数据去标识规则集的数据去标识规则。作为示例，数据去标识规则可以将出生日期属性去标识或概括为月和年。当原始数据去标识规则不满足相应的条件(例如，在规定的限制内与外部数据集的链接)时，数据去标识规则可被修改以提供进一步的去标识或抑制，以使得能够满足该条件(例如，去标识出生日期或将出生日期概括为年份等)。

进一步，可以基于统计和/或特性(并且在数据去标识要求的限制内)更改或放宽活跃数据去标识规则集的对应条件和/或阈值。在一种情况下，可以基于对属于活跃数据去标识规则集(例如，θ+δ)的数据去标识规则的阈值(θ)的增量变化(δ)来实施修改的去标识规则集(而不是符合新数据去标识规则集中严格指定的阈值)。例如，到出生日期属性的外部数据集的外部链接的数量可被增加到数据去标识要求的可接受极限以放宽条件。进一步，可基于在条件的评估期间识别的增量改变来调整阈值。

对活跃数据去标识规则集的修改可以被限制为无效条件和相关联的数据去标识规则，以便减少处理时间。然而，可以修改数据去标识规则集的任何数据去标识规则和/或条件。

可基于机器学习来修改活跃数据去标识规则集的数据去标识规则和/或条件。在这种情况下，可存储数据去标识规则集和修改、条件、阈值、数据去标识、数据去标识要求、和/或数据特性和/或统计。该信息可被处理以学习数据去标识规则集(或数据去标识)修改(例如，数据去标识规则修改、阈值修改、条件修改等)。可以采用不同模型来执行学习(例如，神经网络、数学/统计模型、分类器等)。

如上所述，在步骤420，(例如，由评估模块120)评估经修改的数据去标识规则集以确保满足每个条件。

当新的数据去标识规则集将被识别以替换如在步骤410确定的活跃数据去标识规则集时，在步骤425检查预定的(或用户提供的)数据去标识规则集的组以识别新的数据去标识规则集。这可通过初始确定新数据集220和外部数据集的统计数据和/或特性以提供新数据集的状态来实现。这些特性和/或统计可包括上述用于评估的那些。可以基于所确定的状态来标识具有对无效条件的更宽要求的数据去标识规则集，并且在步骤430针对数据集220评估所标识的数据去标识规则集的条件。可替代地，可以如上所述在步骤430针对新数据集(和所确定的状态)来评估(例如，由评估模块116)组中的每个数据去标识规则集，以识别满足每个条件的数据去标识规则集。

此外，可以基于机器学习来识别新的数据去标识规则集。在这种情况下，可存储数据去标识规则集和修改、条件、阈值、数据去标识、数据去标识要求、和/或数据特性和/或统计。该信息可被处理以学习数据去标识规则集(或数据去标识)以基于所确定的新数据集的状态来标识。可以采用不同模型来执行学习(例如，神经网络、数学/统计模型、分类器等)。

当修改的或识别的数据去标识规则集的条件被满足时，在步骤440，数据去标识规则集被激活并用于数据去标识。当活跃数据去标识规则集不再适用于指示被修改的(例如，规则和/或条件)或新的数据去标识规则集替换时，规则模块还可以生成并向数据所有者提供一个或多个通知。数据去标识规则集标识(例如，CertificateID等)可被更新以指示经修改的或新的数据去标识规则集，并被用于审计目的。

当数据去标识规则集不能被修改或标识为满足数据集220的条件时，可在步骤445采用默认数据去标识规则集用于数据去标识。可替代地，当没有数据去标识规则集可被产生以满足这些条件以便防止隐私破坏时，数据的释放可被阻止，并且去标识处理可被终止(例如，直到可基于变化的数据来标识适当的数据去标识规则集等)以便保留计算资源和效率。

图5示出了基于变化的数据动态地调整数据去标识的示例。最初，数据集210可以是表格的形式，其中每个行对应于个体或实体，并且列指定出生日期(DOB)、性别、邮政编码和诊断编码的属性。数据去标识规则集500当前对于去标识数据集210是活跃的。数据去标识规则集包括指定根据数据去标识要求(例如，法律、策略、标准等的)的数据去标识方式的规则510和指示当应用规则510以去标识数据时的条件的条件520。条件520反映当规则510被建立时数据集的状态(例如，数据特性和/或统计等)，以使得规则遵从数据去标识要求对数据集去标识。当条件不再满足时，由数据去标识规则提供的数据去标识可能不符合数据去标识要求。

举例来讲，规则510可以包括用于将个体的出生日期去标识或泛化至相应的月和年的规则512、用于将邮政编码的初始三位数字掩蔽至“000”的规则514、和基本上不提供用于诊断代码的数据去标识的规则516。作为另一示例，条件520可包括要求去标识的数据与外部数据存储525的数据成功链接的概率小于或等于三分之一(或33.3％)的条件522、要求小于20，000个人基于最近的群体普查数据驻留在邮政编码中的条件524、以及要求数据集不包含诊断(ICD)编码x、y或r的条件526。当满足这些条件时，规则提供符合数据去标识要求的数据去标识。

随着数据集210的演变，产生数据集220，该数据集包括具有诊断代码x、y、z(行515)和r(行517)的另外的行或记录515、517。当针对有效数据去标识规则集500发生条件520的评估时，不再满足至少条件526(例如，指定数据中不存在诊断代码x、y或r)。因而，标识具有由数据集220满足的条件的新数据去标识规则集550。新数据去标识规则集可以是数据去标识规则集500的修改版本，或者是从已知符合数据去标识要求(在数据去标识规则集中指示的规定条件下)的预定(或用户提供的)数据去标识规则集的组中识别的新数据去标识规则集。

作为示例，数据去标识规则集550可包括规则560和条件570。规则560根据数据去标识要求(例如，法律、策略、标准等的)指定数据去标识的方式，并且条件570指示当应用规则560来去标识数据时的条件。规则560可以包括用于去识别或概括出生日期到相应年份的规则562、用于将邮政编码的初始三位数字掩蔽到“000”的规则564、以及抑制诊断代码的规则566。作为另一示例，条件570可包括要求去标识的数据与外部数据存储525的数据成功链接的概率小于或等于二分之一(或50％)的条件572、要求小于20，000个个体基于最近的群体普查数据驻留在邮政编码中的条件574、以及要求数据集中少于两次发生诊断(ICD)代码x、y或r的条件576。当实施数据去标识规则集550时，诊断代码x、y或r的每次出现将在数据中被抑制，除非存在具有相应诊断(ICD)代码的至少两个个体。

新数据去标识规则集550改变出生日期(例如，从月和年到年)和诊断代码(例如，从没有去标识到抑制所选择的诊断代码)的去标识，以及对应的条件(例如，出生日期从三分之一到二分之一的链接，以及x、y或r的诊断代码的出现从没有出现到少于两次出现)。这些改变动态地适配数据去标识以满足条件并为新数据集220提供足够的去标识以符合去标识要求。

数据去标识规则集550被激活以便去标识数据。对数据集的新改变可类似地被监视，并且数据去标识规则集550以基本相同的上述方式被评估。当不再满足活跃数据去标识规则集550的一个或多个条件570时，可根据变化的数据来修改或替换活跃数据去标识规则集。

将了解，上文所描述且在附图中说明的实施例仅表示实现用于基于演进的数据流的自适应统计数据去标识的实施例的许多方式中的若干方式。

本发明实施例的环境可以包括任何数量的计算机或其他处理系统(例如，客户端或终端用户系统、服务器系统等)和以任何期望的方式布置的数据库或其他储存库，其中本发明实施例可以应用于任何期望类型的计算环境(例如，云计算、客户端-服务器、网络计算、大型机、独立系统等)。本发明的实施例所采用的计算机或其他处理系统可由任何数目的任何个人或其他类型的计算机或处理系统(例如，台式机、膝上型计算机、PDA、移动设备等)来实现，并且可包括任何可商购的操作系统以及可商购和定制软件(例如，浏览器软件、通信软件、服务器软件、评估模块、规则模块、去标识过程、条件评估过程等)的任何组合。这些系统可包括任何类型的监视器和输入设备(例如，键盘、鼠标、语音识别等)以输入和/或查看信息。

应当理解，本发明实施例的软件(例如，评估模块、规则模块、去标识过程、条件评估过程等)可用任何期望的计算机语言来实现，并且可由计算机领域的普通技术人员基于说明书中包含的功能描述和附图中示出的流程图来开发。进一步，本文对执行不同功能的软件的任何引用通常指代在软件控制下执行那些功能的计算机系统或处理器。本发明的实施例的计算机系统可以可替代地由任何类型的硬件和/或其他处理电路来实现。

计算机或其他处理系统的不同功能可以任何方式分布在任何数量的软件和/或硬件模块或单元、处理或计算机系统和/或电路之间，其中，计算机或处理系统可以彼此本地或远程地布置并且经由任何合适的通信介质(例如，LAN、WAN、内联网、互联网、硬件线路、调制解调器连接、无线等)进行通信。例如，本发明实施例的功能可以任何方式分布在各种终端用户/客户端和服务器系统和/或任何其他中间处理设备中。上述和在流程图中示出的软件和/或算法可以以实现本文描述的功能的任何方式修改。此外，流程图或描述中的功能可以以实现所需操作的任何顺序执行。

本发明实施例的软件(例如，评估模块、规则模块、去标识过程、条件评估过程等)可以在固定或便携式程序产品设备或装置的非瞬态计算机可用介质(例如，磁性或光学介质、磁光介质、软盘、CD-ROM、DVD、存储器设备等)上可用，以便与独立系统或由网络或其他通信介质连接的系统一起使用。

通信网络可由任何数量的任何类型的通信网络(例如，LAN、WAN、互联网、内联网、VPN等)实现。本发明实施例的计算机或其他处理系统可包括任何常规或其他通信设备，以经由任何常规或其他协议通过网络进行通信。计算机或其他处理系统可利用任何类型的连接(例如，有线、无线等)来访问网络。本地通信介质可以由任何合适的通信介质(例如，局域网(LAN)、硬件线路、无线链路、内联网等)来实现。

该系统可以采用任何数量的任何常规或其他数据库、数据存储或存储结构(例如，文件、数据库、数据结构、数据或其他储存库等)来存储信息(例如，原始的和改变的数据集、阈值、数据去标识规则集等)。该数据库系统可以由任何数量的任何常规或其他数据库、数据存储或存储结构(例如，文件、数据库、数据结构、数据或其他储存库等)来实现以存储信息。数据库系统可以被包括在服务器和/或客户端系统内或耦合到服务器和/或客户端系统。数据库系统和/或存储结构可以远离计算机或其他处理系统或在计算机或其他处理系统本地，并且可以存储任何期望的数据。

本发明的实施例可以采用用于获得或提供信息(例如，推荐的数据去标识规则集、去标识的数据集、无效条件、数据去标识规则集评估结果等)的任何数量的任何类型的用户界面(例如，图形用户界面(GUI)、命令行、提示等)，其中，该界面可以包括以任何方式安排的任何信息。界面可包括布置在任何位置处的任何数量的任何类型的输入或致动机构(例如，按钮、图标、字段、框、链接等)以输入/显示信息并经由任何合适的输入设备(例如，鼠标、键盘等)发起期望的动作。界面屏幕可包括用于以任何方式在屏幕之间导航的任何合适的致动器(例如，链接、选项卡等)。

报告可包括以任何方式布置的任何信息，并且可基于规则或其他准则来配置以向用户提供期望的信息(例如，推荐的数据去标识规则集、去标识的数据集、无效条件、数据去标识规则集评估结果等)。

本发明的实施例不限于上述特定任务或算法，而是可以用于基于任何期望的应用、行业和/或要求的任何数据改变来动态地适配用于任何数据的任何类型的去标识。规则集可包括用于任何类型的数据去标识的任何数量的任何类型的规则。数据去标识可符合任何类型的任何要求(例如，法律、策略、标准、特定行业、应用和/或场景等)。规则集可包括用于应用规则集的任何数量的任何类型的条件。

条件的阈值可以被设置为任何期望的值(例如，链路的数量或百分比、准标识符的数量等)。该数值或分数可以具有任何希望的值或在任何值范围内，并且可以按任何希望的方式(例如，大于、小于、大于或等于、小于或等于等)与这些阈值进行比较。可能不再满足任何数量的一个或多个条件以便发起规则集改变或替换。可以连续地(例如，实时地)或以任何期望的周期性或其他时间间隔检查数据以评估规则集条件。可利用数据集中的任何类型或改变或数据集统计和/或特性的任何改变来发起规则集评估。

规则集的规则和/或条件可以基于变化的数据以任何方式被修改。进一步，来自规则集组的规则集可以任何方式被标识。例如，满足所有或最多条件的规则集可被自动选择和/或推荐(例如，供用户选择)。

这些数据集可以针对任何类型的已知或其他数据集(例如，用户提供的数据集、公共可用的数据集、内部组织数据集等)来评估。任何数量的任何类型的规则集最初可由任何类型的用户提供以覆盖任何数据去标识要求和数据特性。

本文所用的术语仅是为了描述特定实施例的目的，而不是要限制本发明。如本文所用，单数形式"一"、"一个"和"该"旨在也包括复数形式，除非上下文另有明确指示。还应当理解，术语"包括"、"包含"、"含有"、"具有"、"带有"等在本说明书中使用时，指定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或多个其它特征、整数、步骤、操作、元件、部件和/或其组合的存在或添加。

以下权利要求书中的所有装置或步骤加上功能元件的相应结构、材料、动作和等效物旨在包括用于结合如具体要求保护的其他要求保护的元件来执行功能的任何结构、材料或动作。本发明的描述是出于说明和描述的目的而呈现的，但不旨在是穷尽性的或局限于所披露的形式的本发明。在不脱离本发明的范围和精神的情况下，许多修改和变化对本领域的普通技术人员将是显而易见的。选择和描述实施例以便最好地解释本发明的原理和实际应用，并且使得本领域普通技术人员能够针对具有适合于所考虑的特定用途的不同修改的不同实施例理解本发明。

出于说明的目的已经呈现了本发明的不同实施例的描述，但并非旨在是详尽的或限于所披露的实施例。在不背离所描述的实施例的范围和精神的情况下，许多修改和变化对本领域的普通技术人员而言将是显而易见的。选择在此使用的术语以最佳地解释实施例的原理、实际应用或在市场上找到的技术上的技术改进，或使得本领域普通技术人员能够理解在此披露的实施例。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种动态地改变应用于数据集的数据去标识规则集以去标识数据的方法，包括：

周期性地监视数据集，其中数据集是从在一个条件集下根据数据去标识规则集被去标识的数据中导出的；

相对于所监视的数据评估用于数据去标识规则集的条件集，以确定数据去标识的适用性；以及

响应于评估指示用于数据去标识规则集的条件集中的一个或多个条件不再被满足，动态地改变数据去标识规则集的一个或多个规则。

2.根据权利要求1所述的方法，其中评估条件集包括来自以下组的一个或多个：

针对一个或多个外部数据集执行所监视的数据的三角测量攻击以指示成功重新标识的概率；

从公共可用和其他外部数据集检索统计数据以导出群体密度和群体唯一性标准；

基于所监视的数据或来自指示间接重新标识的外部数据集的知识来评估所监视的数据的属性之间的相关性；以及

确定对影响数据去标识规则集的数据分布的改变。

3.根据权利要求1所述的方法，进一步包括：

生成对数据去标识规则集的一个或多个规则的改变的第一通知以通知数据所有者，以及生成转移到当前满足条件的另一数据去标识规则集的第二通知。

4.根据权利要求1所述的方法，其中动态地改变数据去标识规则集的一个或多个规则进一步包括：

基于评估用从一组数据去标识规则集中选择的新数据去标识规则集替换数据去标识规则集，其中满足新数据去标识规则集的条件。

5.根据权利要求4所述的方法，其中替换数据去标识规则集进一步包括：

响应于数据去标识规则集中的数据去标识规则的阈值的改变，用新的数据去标识规则集替换数据去标识规则集。

6.根据权利要求4所述的方法，进一步包括：

响应于评估指示组的每个数据去标识规则集的一个或多个条件未被满足，防止去标识的数据的释放。

7.根据权利要求1所述的方法，其中动态地改变数据去标识规则集的一个或多个规则进一步包括：

改变数据去标识规则集的一个或多个条件，以使每个条件都能够被满足。

8.根据权利要求1所述的方法，其中动态地改变数据去标识规则集的一个或多个规则进一步包括：

基于机器学习动态地改变数据去标识规则集的一个或多个规则。

9.一种用于动态地改变应用于数据集的数据去标识规则集以去标识数据的系统，包括：

至少一个处理器，被配置为：

10.根据权利要求9所述的系统，其中评估条件集包括来自以下组的一个或多个：

针对一个或多个外部数据集执行所监视的数据的三角测量攻击以指示重新标识的概率；

从公共可用数据集检索统计数据以导出群体密度和群体唯一性标准；

确定对影响数据去标识规则集的数据分布的改变。

11.根据权利要求9所述的系统，其中至少一个处理器进一步被配置为：

12.根据权利要求9所述的系统，其中动态地改变数据去标识规则集的一个或多个规则进一步包括：

13.根据权利要求12所述的系统，其中替换数据去标识规则集进一步包括：

14.根据权利要求12所述的系统，其中至少一个处理器进一步被配置为：

15.根据权利要求9所述的系统，其中动态地改变数据去标识规则集的一个或多个规则进一步包括：

16.根据权利要求9所述的系统，其中动态地改变数据去标识规则集的一个或多个规则进一步包括：

17.一种用于动态地改变应用于数据集的数据去标识规则集以去标识数据的计算机程序产品，其包括具有随其体现的计算机可读程序代码的计算机可读存储介质，计算机可读程序代码可由至少一个处理器执行以使至少一个处理器：

18.根据权利要求17所述的计算机程序产品，其中评估条件集包括来自以下组的一个或多个：

确定对影响数据去标识规则集的数据分布的改变。

19.根据权利要求17所述的计算机程序产品，其中计算机可读程序代码进一步被配置为使至少一个处理器：

20.根据权利要求17所述的计算机程序产品，其中动态地改变数据去标识规则集的一个或多个规则进一步包括：

21.根据权利要求20所述的计算机程序产品，其中替换数据去标识规则集进一步包括：

22.根据权利要求20所述的计算机程序产品，进一步包括：

23.根据权利要求17所述的计算机程序产品，其中动态地改变数据去标识规则集的一个或多个规则进一步包括：

24.根据权利要求17所述的计算机程序产品，其中动态地改变数据去标识规则集的一个或多个规则进一步包括：