CN106169013A

CN106169013A - 用于使受保护信息匿名化和聚集的系统

Info

Publication number: CN106169013A
Application number: CN201610339359.0A
Authority: CN
Inventors: C·O·林驰; D·J·卡罗尔; A·J·特鲁斯科特; G·阿库纳
Original assignee: Accenture Global Services GmbH
Current assignee: Accenture Global Services GmbH; Accenture Global Services Ltd
Priority date: 2015-05-19
Filing date: 2016-05-19
Publication date: 2016-11-30
Anticipated expiration: 2036-05-19
Also published as: CA2930041A1; AU2016202995A1; CA2930041C; US20180075255A1; BR102016011068A2; EP3096258A1; US9824236B2; US20160342812A1; EP3096258B1; CN106169013B; US10346640B2; MX2016006573A; MX360678B; AU2016202995B2; BR102016011068A8

Abstract

本发明的各实施例总体上涉及用于使受保护信息匿名化和聚集的系统。具体地，一种用于使来自多个数据源的受保护信息(PI)匿名化和聚集的系统包括耦合至数据存储库的主索引服务器。该主索引服务器从多个数据散列化装置接收与个体相关联的匿名记录。该系统包括集群匹配引擎，该集群匹配引擎向接收到的记录的散列的数据元素应用多个规则用于将记录的散列的数据元素与和数据存储库中存储的不同个体相关联的多个匿名记录集群的散列的数据元素进行比较，用以确定与接收到的记录相关联的个体是否对应于与匿名记录集群之一相关联的个体。当匹配被找到时，集群匹配引擎向与个体相关联的匿名记录集群添加接收到的记录。

Description

用于使受保护信息匿名化和聚集的系统

技术领域

本公开涉及聚集记录，并且具体地涉及以保护与记录相关联的个体的身份的方式聚集和组织包括受保护/机密信息的记录。

背景技术

机密记录正逐渐变得数字化并且被存储在计算机数据库中。数据隐私和安全问题以及遵守可适用法律和法规因而是最重要的。例如，在美国，HIPAA(健康保险携带和责任法案)要求患者医疗记录被保持机密，并且在没有授权的情况下不被发布给第三方。但是，不同实体为了研究、临床研究和诊断的目的而访问某些医疗记录是有利的。然而，包括HIPAA在内的许多法规不允许无关或者独立的实体聚集医疗记录，因为这种聚集可以允许实体标识与医疗记录相关联的人员，从而导致违背隐私。

此外，即使当机密记录被恰当获得时，这种记录可能是不完整的、错误的和/或模糊不清的。例如，健康保险公司可能从其中患者的名字拼写不同的两个不同医疗办公室接收索赔。因此，不论隐私和合规问题如何，聚集和关联与特定患者相对应的医疗记录都是困难的。

因此，存在通过在不透露个体身份的情况下聚集记录并将记录标识为属于同一个体以允许以受保护(即，匿名)方式分析机密记录中的信息的需要。在医疗记录的上下文中，这在研究、临床研究中是有用的，或者在标识医疗状况时、特别是在从无关数据库或源系统获得这样的患者医疗记录时是有用的。

发明内容

在一方面，提供了一种用于使来自多个数据源的受保护信息(PI)匿名化和聚集的系统。该系统包括耦合至数据存储库的主索引服务器。该主索引服务器被配置为从多个数据散列化装置接收与个体相关联的匿名记录。该系统包括操作地耦合至主索引服务器和数据存储库的集群匹配引擎，被配置为向接收到的匿名记录的散列的数据元素应用多个规则用于将接收到的匿名医疗记录的散列的数据元素与数据存储库中存储的匿名记录集群的散列的数据元素进行比较，给定匿名记录集群中的每个记录先前已经被确定与同一个体相关联并且与唯一集群标识符相关联，用以确定与接收到的匿名记录相关联的个体是否对应于与匿名记录集群相关联的个体之一。当接收到的匿名记录被确定对应于与匿名记录集群相关联的个体时，集群匹配引擎被配置为向与个体相关联的匿名记录集群添加接收到的匿名记录。

在第二方面，提供了一种用于使来自多个数据源的受保护信息(PI)匿名化和聚集的方法。该方法包括由耦合至数据存储库的主索引服务器从多个数据散列化装置中接收与个体相关联的匿名记录。该方法进一步包括由操作地耦合至主索引服务器和数据存储库的集群匹配引擎向接收到的匿名记录的散列的数据元素应用多个规则用于将接收到的匿名记录的散列的数据元素与和数据存储库中存储的个体相关联的多个匿名记录集群的散列的数据元素进行比较，给定匿名记录集群中的每个记录先前已经被确定与同一个体相关联并且与唯一集群标识符相关联，用以确定与接收到的匿名记录相关联的个体是否对应于与匿名记录集群相关联的个体之一。当接收到的匿名记录被确定对应于与匿名记录集群之一相关联的个体时，该方法包括向与个体相关联的匿名记录集群添加接收到的匿名记录。

在第三方面，提供了一种非瞬态计算机可读介质用于存储用于使来自多个数据源的受保护信息(PI)匿名化和聚集的指令代码。该指令代码由机器可执行用于使得机器从多个数据散列化装置接收与个体相关联的匿名记录。该指令代码还使得机器向接收到的匿名记录的散列的数据元素应用多个规则用于将接收到的匿名记录的散列的数据元素与数据存储库中存储的多个匿名记录集群的散列的数据元素进行比较，给定匿名记录集群中的每个记录先前已经被确定与同一个体相关联并且与唯一集群标识符相关联，用以确定与接收到的匿名记录相关联的个体是否对应于与匿名记录集群相关联的个体之一。当接收到的匿名记录被确定对应于与匿名记录集群相关联的个体时，该指令代码使得机器向与个体相关联的匿名患者医疗记录集群添加接收到的匿名记录。

使用用于使受保护信息匿名化和聚集的系统，可以利用关于每个个体的更完整信息跨广阔人口回顾地完成研究，同时仍保持个体的机密性并遵守诸如HIPAA的各种法规。

在检视以下附图和具体实施方式之后，这些系统、方法、特征的其他实施例及其对应优点对本领域技术人员将是容易理解的或者将变得容易理解。旨在使所有此类附加系统、方法、特征和优点包括在本说明书中、包括在本发明的范围内，并且受以下权利要求书保护。

附图说明

所描述的用于使受保护信息(PI)匿名化和聚集的系统参考以下附图和描述可被更好地理解。附图中的组件不一定是成比例的，而是将重点放在例示出本发明的原理。另外，在附图中，相似的标号贯穿不同视图指明对应部件。

图1是根据一个具体实施例的用于使受保护健康信息匿名化和聚集的系统可以在其中操作的环境的框图。

图2是根据一个具体实施例的图1中的环境的更详细框图。

图3是示出了用于将新的电子医疗记录的数据元素与和同一患者相关联的医疗记录的集群匹配的比较引擎的示意图。

图4图示了包括用于控制比较引擎的比较操作的控制值的示例性规则表。

图5是图示了由比较引擎执行的操作的流程图。

图6是描绘了被配置为向目标集群加入新记录的凝聚爬虫(cohesion crawler)过程的示图。

图7是描绘了被配置为将单个集群划分为两个集群的凝聚爬虫过程的示图。

图8示出了处理对多个患者记录的实证结果。

图9是根据一个实施例的可体现用于使受保护健康信息匿名化和聚集的系统的代表性计算机系统。

具体实施方式

各实施例及附图公开了一种用于使以患者医疗记录的形式出现的受保护信息聚集和匿名化的系统和方法。然而，各实施例可以适用于其中涉及隐私的其他类型记录的工作。

图1是用于使受保护健康信息110匿名化和聚集的系统可以在其中操作的架构环境的高层硬件框图。架构环境100可包括多个源系统120，每个源系统120可包括多个医疗记录系统130。架构环境100还可包括被可操作地耦合到一个或多个源系统120的企业数据仓库系统140。用于使受保护健康信息(PHI)110匿名化和聚集的系统可在功能上包括企业数据仓库系统140，并且还可包括嵌入在源系统120中的匿名器散列化装置150。然而，总体架构环境100内的每个组件的放置依赖于具体实施例可以发生变化以包括附加组件或者更少组件。注意，短语“受保护健康信息”与短语“患者健康信息”可以被可交换地使用，并且在范围上可以比能够使用的或者按照HIPAA明确定义的更广。

图2以更多细节示出了架构环境110。架构环境110在一些实施例中可包括多个源系统120，多个源系统120经常是不同且不相关的源系统。这样的多个源系统120可以与各种提供者(诸如医院、医疗办公室、药房、病理提供者等)相关联。对于特定患者，情况经常是各种提供者不与其他此类提供者共享受保护健康信息，因此受保护健康信息或记录可被保持在分离、不相关和不同的计算机系统上。

如在图2中所示，每个源系统120优选地包括嵌入式散列化装置150。源系统120可包括被耦合到电子医疗记录数据库210或数据存储装置的电子医疗记录系统130，电子医疗记录数据库210和数据存储中的任一个还可以是位于远处的组件。散列化装置或组件150接收来自电子医疗记录数据库210的输入并且接收来自第三方散列密钥服务22的散列盐值和日期偏移值。散列化装置150向散列的主记录号码数据库226提供输出。如在本领域中所理解的，散列是已被应用于输入数据值的密码算法(诸如SHA-1)的固定长度所得输出。这一功能的实际效果是使输入数据值匿名化。

散列化装置150可以作为电子医疗记录(EMR)的一部分以散列的数据元素228的形式向企业数据仓库系统140提供输出。第三方散列密钥服务220还包括证书服务232和数据偏移服务234。源系统120还可包括散列的系统患者ID到患者ID反向查找表240，其可被用来基于来自企业数据仓库系统140的请求来标识实际患者。散列的系统患者ID到患者ID反向查找表240可包括实际患者的身份(未加密的患者标识符)和MRN的对应的散列值，其被插入到先前被发送给企业数据仓库系统140的记录中，如将在下面讨论的。散列的系统患者ID到患者ID反向查找表240可驻留于EMR数据库210中或被可操作地耦合到EMR数据库210，或者可被包括在散列的MRN数据库226中或被可操作地耦合到散列的MRN数据库226。

企业数据仓库系统140可包括ETL(提取、转换和加载)管理器250，其接收来自匿名化散列化装置150的散列的患者标识数据元素。ETL管理器250可被可操作地耦合到AMPI服务器(匿名的主患者索引)254。AMPI服务器254被配置为将加密并匿名的患者记录存储在AMPI数据组件260或存储器存储装置中，并且其主要功能是生成单个标识符，该单个标识符本质上聚集了所有有资格的匿名的患者记录以便标识所有此类记录或者将所有此类记录映射到单个匿名患者。注意，从散列化装置150接收到的数据都不包含按照可读或者可辨别形式的任何机密受保护健康信息。所有此类数据已被转换为散列值，散列值的内容无法被解码以得出原始值。

ETL管理器250可被可操作地耦合到企业临床数据库266，企业临床数据库266转而可接收来自AMPI凝聚爬虫270的输入，并且可向数据仓库管理器276提供输出。AMPI数据存储装置260可被可操作地耦合到AMPI服务器254、AMPI凝聚爬虫270和数据仓库管理器276。数据仓库管理器276转而可被可操作地耦合到数据集市280，数据集市280可向数据仓库报告引擎284提供输出。

注意，对于任何特定源系统120，该源系统将向特定患者的所有记录指派唯一主记录编号(MRN)。因此，特定源系统120可向散列化装置150供应特定患者的许多记录，这些记录都将具有相同的MRN。每个记录优选地包括标识出产生该记录的源系统的源标识符。(至少来自一个源系统120的)这样的共同MRN允许记录被容易地分组在一起以反映与单个个体的关联。

然而，当涉及到多个源系统(例如第一源系统和第二源系统)时，因为源系统可能是分离和独立的，因此第二源系统可向其记录也存在于第一源系统中的同一患者指派全新MRN，这是因为两个源系统对在另一源系统中包含的信息都不知情。备选地，第二源系统可能碰巧向不同的个体指派相同MRN，因此两个不同的个体可能因为第一源系统与第二源系统完全分离和独立而碰巧具有相同MRN。还注意，尽管AMPI数据可以将与单个个体相关联的所有记录分组，但是那些记录可具有多个不同MRN，这是因为此类MRN由分离并且独立的源系统120指派。因此，对于每个患者可能存在附加列表或者链表，该列表或链表列出可能与该患者相关联的各种MRN。本质上，用于特定患者的MRN可被看作“别名”并且这样的别名可能不是对该患者唯一的。下面参考图3讨论对MRN中的歧义的处理。

对于图2，企业临床数据库266存储从每个散列化装置直接接收到的匿名的电子患者记录，而AMPI数据存储装置260存储匿名的电子患者记录或者记录中可以用于促进匹配操作的至少那些部分，并且此类记录与特定原系统可能已经指派了MRN的具体源系统相关联。

但是如上面提到的，可能存在与MRN相关联的某一歧义，因此，在所有记录已被AMPI凝聚爬虫270以及患者集群匹配引擎302处理之后，每个记录与和特定患者相关联的唯一AMPI统一编号相关联。注意，因为每个患者记录都包括源标识符以及MRN，因此具有由一个特定标识的源系统120生成的同一MRN的所有记录都对应于同一患者。相反地，具有由同一源系统120生成的不同MRN的两个患者记录对应于两个不同患者。然而，具有由不同源系统120生成的同一MRN的两个患者记录是模糊不清的并且在标识患者时不是独立确定性的。还可能是源标识符并不标识特定源系统120，其中多个源系统120被同一医疗提供者或组织聚集和操作，并且同一源标识符可被用来代表医疗提供者，只要MRN在由该医疗提供者或组织操作的源系统120的全域(universe)内被唯一指派。

AMPI数据组件260和企业临床数据组件266的组合可提供所有相关数据。数据仓库管理器充当接口以使得可使用或访问系统110的实体可以获得适当记录。数据集市280可以代表感兴趣的具体数据，其可以是电子医疗记录的缩减子集，并且可以省略可使用或访问系统110的实体所不感兴趣的数据。

注意，只有与每个患者健康记录的机密受保护健康信息相对应的数据元素一般被散列化装置150匿名化。如果数据元素在性质上不是机密的也不能以任何标识患者身份或者帮助查明患者身份的方式使用，则医疗记录中的此类数据元素可不被匿名化。包含机密受保护健康信息的数据元素可包括名字、街道地址、邮政编码、出生日期、社会保障号码等。服务的日期通常被认为是在性质上是敏感的(例如，根据HIPAA)，但是必须以仍允许进行数学比较的方式被匿名化，这是因为此类信息是允许对聚集数据进行有用分析所必需的。相反地，根本无需被匿名化的数据可以包括诊断信息、测试结果等。

作为散列化装置150的操作的一般概览，共同的盐值被用来创建与在包含机密受保护健康信息的医疗记录中的每个数据元素相对应的散列。如果同一盐值和同一散列算法被用在同一数据(诸如机密专利数据项)上，那么即使数据是从不同的记录或不同的源系统采集的，最终的散列值也将是相同的。以这种方式，对应于同一机密受保护健康信息的数据记录可以被聚集，这是因为它们应当具有共同的散列值。因此，在与机密受保护健康信息相对应的医疗记录中的每个数据元素被加盐并散列化以便使机密受保护健康信息匿名。共同的盐值是以安全方式(例如，通过安全通信信道交换)从第三方散列密钥服务220获得的，以便将对企业数据仓库系统140未知的数据元素引入散列中。以这种方式，即使企业数据仓库系统140知道哪个散列化算法被用来创建散列，企业数据仓库系统140(或者使用企业数据仓库系统140的实体)也无法对散列的数据元素进行解码或“反向工程”。

给定足够数目的记录，多个不同匿名的数据元素之间的对应关系或者“一致”允许达到如下置信度水平，该置信度水平指示不同医疗数据记录的确对应于同一患者，尽管该患者的身份和/或机密专利信息是未知的。另外，此类机密受保护健康信息将是匿名的，这是因为散列值无法被解码或者“反向工程”以提供机密受保护健康信息。因此，在患者记录已被匿名化之后，具有可公开获得的患者数据的特定患者记录可被提供给诸如聚集实体之类的实体(即企业数据仓库系统140(或者使用企业数据仓库系统140的实体))以供在研究、诊断等中使用，这是因为与该记录中的机密受保护医疗信息相对应的每个数据元素已被匿名化并且仅由散列值代表。

散列化装置150可以是驻留在数据源系统120或者患者数据记录的所有者的防火墙或者其他安全措施内的硬件组件或者软件组件。散列化装置150表现为黑箱组件，该黑箱组件接收来自源系统120的数据记录的机密受保护健康信息字段并且使每个机密受保护健康信息字段散列化，并且管理用于服务字段的日期的偏移以便掩饰用于该记录的服务的真实日期。记录中的服务字段的日期优选是可由数据聚集器或者企业数据仓库系统140计算和使用的，并且因而优选地不被完全匿名化，这是因为在对匿名的患者医疗记录进行分析时需要此类日期。因此，这种服务日期被用偏移值“掩饰”而非被完全匿名化，从而使得能够评价事件相对于彼此的时效性而不公开事件的绝对日期。

散列化装置150还应用从第三方散列密钥服务220接收到的共同盐值以创建用于机密数据元素的散列的数据。如上面提到的，因为散列是使用盐值产生的，因此运行“暴力”解码过程(例如，使用名字字典来解码每个名字以获得散列密钥)将不会破解散列码，这是因为散列值不是机密数据的“直接散列”。确切的说，散列值是机密数据的散列加上随机值(例如，随机整数或者字符串)的结果。在散列化装置150已经使医疗记录中的每个机密数据字段匿名化之后，包括匿名的数据和非匿名的数据在内的记录被加密并传输给企业数据仓库系统140的ETL管理器150。

如上面讨论的，散列化装置150对每个患者记录的每个机密数据字段执行散列。另外，每个机密数据字段被散列化两次。优选地，第一散列是256位散列函数，诸如SHA-256(安全散列算法)散列算法。第一散列然后被散列化第二次以创建最终散列值，并且第一散列值与机密数据字段一起被销毁。第二散列值然后替换记录中的机密数据。优选地，第二散列算法可以是128位(或者更短的)散列函数，并且优选地是与第一散列算法相比不同类型的散列算法，诸如SHA-128算法。任何合适的散列函数都可被使用，并且散列大小可以是256位(SHA-256)、512位(SHA-512)或者不同大小。注意，因为第二散列基于位宽是比第一散列更短的散列，因此第二散列与第一散列相比丢失了数据。因为第一散列被销毁并且第二散列明显缺少在第一散列中包含的信息，因此散列无法被解码或反向来获得对第一散列的原始输入。更小的第二散列的优点还在于其花费更少的存储器来存储，从而增加了系统110的效率。

因为最终的散列值是缩减散列(意味着散列的散列)并且第一散列与源机密数据一起被销毁，因此攻击者无法将第二散列值关联回原始的机密数据字段。对于HIPAA，这一过程完全满足对去标识(de-identification)的可适用安全港规则，这是因为最终的散列不是源自机密数据字段而是源自不可逆的散列。

散列化装置150最终将机密数据字段的第二散列值和最终散列值作为数据有效载荷(其包括患者记录的非机密数据)的部分传输给企业数据仓库系统140。注意，因为机密受保护健康信息已被散列化和加盐，并且被第二次散列化，因此机密受保护健康信息的匿名化是不可逆的。这意味着驻留在源系统120上的数据记录的原始所有者和企业数据仓库系统140的任何组件将都无法标识机密受保护健康信息中的任一个，如果由此得到的匿名的数据记录经受下面关于源系统120描述的被称作“去识别”的一个有意过程的话。

第三方散列密钥服务220优选地与源系统120或企业数据仓库系统140的任何组件分离且独立以便保持安全环境并且防止有意或无意的合作。因为架构环境100的其他组件无法访问第三方散列密钥服务220，因此散列密钥不可能可被解码和在散列化过程期间透露机密受保护健康信息。第三方散列密钥服务220为数据加密提供共同盐值和证书服务以允许散列化装置150创建散列化的数据元素。

在一个实施例中，第三方散列密钥服务220从射频种子值得到盐值以生成真随机整数值。备选地，可以从射频种子源得到字符串值。然而，共同盐值不一定限于整数值、任何特定长度的整数值或者字符串。共同盐值也可以是随机化字符串、有理数，或者从任何随机源得到的任何合适值。任何用于生成共同盐值的合适技术都可被使用，例如诸如基于UNIX的OWASP函数等。注意，应当对每一个数据源中的对应加密的字段使用同一“盐”值。

注意，一些已知系统可以包括可信的第三方来处理各种数据记录和处理安全措施。然而，系统110的实施例中的第三方散列密钥服务220不是“可信”的第三方服务。第三方散列密钥服务220是向两个“不可信”方(即源系统120和企业数据仓库系统140，其中两个组件都不“信任”另一组件)供应共同盐值和加密支持的独立组件。

如在上面提到的，第三方散列密钥服务220的日期偏移服务组件234为每个患者记录的服务字段的日期提供偏移或者“掩饰”。偏移值不被保存回患者记录中，而是散列化装置150保存偏移值，偏移值可以对应于散列化装置150被嵌入在其中的源系统120中的每个主记录编号。某些日期并且特别是是与患者的医疗记录相关联的服务日期在满足HIPAA安全港要求的完全去标识患者记录中是禁止的。为了满足这些要求，有必要使这些日期以使得日期偏移对数据接收者未知的方式偏移。为了跨可以从企业数据仓库系统140接收可用数据记录的系统100的所有数据聚集者用户具有一致性，有必要具有跨所有数据源系统120的偏移日期的一致性。这允许进行在数据分析中有意义的计算而不使用实际日期。下面描述的以下日期偏移方法与这些要求一致。

在这一过程中，日期被转换为距给定基准日期的偏移，并且同一基准日期被用于所有数据源系统120。因此，每个日期仅仅是偏移，例如，为-7的值，其对应于在基准日期七天之前的日期。意味着偏移值的所有日期是相对于彼此的，这允许对数据进行分析，诸如人口估计等。在提供此类日期变换的第一步骤中，日期偏移服务234可以生成在0和-365之间的随机数。这意味着日期范围将被限于一年时间跨度，然而，其他值也可被使用以增加或减少这一时间跨度。在其他实施例中，用于四个季节或者季度之一的代码可被包括以提供附加粒度。这一整数值然后被用源系统120提供给散列化装置150的公共密钥加密。散列化装置150可以接收加密的整数并且使这一加密的整数与和这一患者相关联的主记录编号(MRN)相关联。通常，当在源系统120中安装散列化装置的时候定义并保存这一加密的整数。

图3是示出了将一个患者的新的电子医疗记录(EMR)310中所有医疗字段映射到全部与该特定患者相关联的电子医疗记录350的集群中。

如上面针对源系统和对应的MRN所描述的，每个电子医疗记录包括源标识符和记录标识符或者MRN，其中MRN对来自该源系统120的所有记录而言是唯一的。在建立了在源标识符和MRN到主记录标识符之间的映射的情况下，来自该源系统的该MRN的所有后续实例都被映射到主记录标识符并且这些元素的内容被添加到用于主记录中的每个元素的有效值。在一个实施例中，主记录标识符和相关联的数据被存储在AMPI数据组件260中。

另外，如上面讨论的，企业数据仓库140接收来自散列化装置150的匿名的患者记录。一旦被AMPI服务器254接收并存储，匿名的记录就应当以某种方式被关联或映射到一起以构建与特定患者相关联的记录基准，尽管患者身份是未知的。此类关联或映射的最终结果是单个唯一标识符，该单个唯一标识符能够使一个特定患者所共有的所有记录绑定在一起或者聚集。这是基于已被缩减为散列值的相同机密数据元素尽管不可逆且不可解码但是必定将具有相同散列值的前提。

例如，如果具有名字字段中的散列值的一个患者记录是从名字字段为“Cecil Lynch”的记录得到并匿名化的，则从同一记录得到或者从具有该相同散列值的不同源得到的第二记录可以是用来与第一记录相关联的良好候选者，其中两个记录都将被映射到同一患者(“CecilLynch”)。然而，情况不一定是这样，因为可能存在多于一个名字为Cecil Lynch的患者。为了确定两个这样的记录是否真的是到同一患者的匹配，患者集群匹配引擎302被用来将新接收的医疗记录与和该患者相关联的医疗记录的集群进行匹配。患者集群匹配引擎302可以是AMPI服务器部件的一部分或者可以是它的分离和独立的组件。

患者集群匹配引擎302试图将有极高可能性对应于一个共同患者的所有记录映射到该患者。然而，一些数据可能是模糊不清、不完整或者不精确的。例如，一个记录中的名字可能被拼错，或者名字的缩写可能被使用，诸如此类。因此，即使用于名字字段的相同散列值实际上对应于同一患者，这些散列值也可能不相同。反之也可能是真的。然而，给定用于特定患者的足够数目的记录，则AMPI凝聚爬虫270联合患者集群匹配引擎302可能能够构建一种形式的字典或者方差字典来针对每个匿名的机密数据字段列出并跟踪可接受的加密后(散列后)数据元素值(变形)。

图4图示了示例性规则表400，该示例性规则表400控制患者集群匹配引擎302如何确定新接收的患者记录的字段值是否应当与AMPI数据库260中存储的医疗记录的集群之一的字段值群集。表中的每行(405a-f)定义用于控制患者集群匹配引擎302的操作的控制值的不同组合。表的列2-14(410a-n)对应于医疗记录的不同字段。例如，字段可以包括MRN编号，该MRN编号对应于由特定源指派给医疗记录的唯一患者标识符。字段还可以包括其他与患者相关的信息，诸如患者社会保障号码、性别、出生年份、生日、姓氏、名称、中间名、地址、城市、州、邮编和电话号码。与患者医疗相关联的其他字段也可以被包括。

每个单元包括由患者集群匹配引擎302使用的控制值，该控制值指定在确定与新的医疗记录310的字段相关联的散列值是否应当与特定目标集群350群集方面特定字段是如何被患者集群匹配引擎302使用的。例如，控制值“1”可以用于指示在散列值被考虑的情况下为了匹配，与字段相关联的对应散列值被要求在新的医疗记录310与目标集群350之间相同。控制值“0”可以用于指示与字段相关联的散列值被要求在新的记录与目标集群之间不同。控制值“X”可以用于指示不在乎条件。即，与和新记录的字段相关联的散列值匹配或不匹配目标集群350的相同字段的对应散列值无关。控制值“4”可以用于指示与字段相关联的散列值不在新的记录中指定或者不在针对该患者的累积数据中指定。控制值“2”可以用于指示操作值，并且用于与计数值415结合。例如，参考行7，10个字段被设置成控制值“2”，并且计数值是8。这意味着为了匹配存在，与10个字段中的8个或更多个字段相关联的散列值必须在新的医疗记录310与目标集群350之间匹配。其他符号、值、枚举类型等可以用于表示不同匹配条件。

在示例性规则表400中，第一规则405a控制患者集群匹配引擎302在新的医疗记录310的MRN和源与目标集群350的MRN和源匹配时指示匹配。第二规则405b控制患者集群匹配引擎302在新的医疗记录310中的社会保障号码字段与目标集群350的社会保障号码字段匹配时指示匹配。第三规则405c控制患者集群匹配引擎302在新的记录的性别、出生年份、生日、姓氏、地址、城市、州、邮编和电话号码字段与目标集群350的性别、出生年份、生日、姓氏、地址、城市、州、邮编和电话号码字段匹配而名称和中间名字段与目标集群350的名称和中间名字段不匹配时指示失配。此规则可以用于匹配相同性别尚未接收到社会保障号码的新生双胞胎。第四规则405d控制患者集群匹配引擎302在新的医疗记录310的性别字段不匹配目标集群350时指示失配。第五规则405e控制患者集群匹配引擎302在社会保障号码字段没有在新的医疗记录310中指定并且性别、出生年份、生日、姓氏和名称字段匹配目标集群350时指示匹配。第六规则405f控制患者集群匹配引擎302在社会保障号码字段没有在新的医疗记录310中指定但是该新的医疗记录310中的性别字段与目标集群350的性别字段匹配，并且以下字段中的至少8个字段匹配目标集群350：出生年份、生日、姓氏、名称、中间名、地址、城市、州、邮编和电话号码时指示匹配。

在某些实现方式中，与规则表400中各字段相关联的控制值可以被手动指定。例如，在新的医疗记录310的MRN和源与目标集群350的MRN和源匹配时，假设与新的记录相关联的患者是与目标集群相关联的同一患者是合理的。因此，规则表400中的第一规则405a可以被直观地确定。

附加地或备选地，规则表400中指定的控制值可以经由机器学习算法确定。例如，来自一个或多个源中患者被了解的医疗记录集可以经由例如蒙特卡洛分析处理以确定产生匹配或失配的概率的散列字段值的各种组合。例如，算法可以确定当针对新的医疗记录310的MRN存在并且源已知时，新的记录100％的时间被正确匹配目标集群350。算法可以确定当针对新的医疗记录310与目标集群350的社会保障号码字段的散列值匹配时，该新的医疗记录310 90％的时间被正确标识为与目标集群350相关联。新的医疗记录310与目标集群350中散列字段值的匹配与失配之间的相似关系，以及新的医疗记录310与目标集群350匹配正确的时间百分比可以经由分析确定。

匹配或失配的正确概率可以确定规则表400中经确定规则的位置。例如，规则可以被排序以便在对应的散列字段值可用时产生最正确匹配的规则可以是第一规则。下一规则可以对应于在对应的散列字段值可用等时提供匹配的下一最大正确性的规则。

图5图示了在确定新的医疗记录310是否与目标集群350相关联时可以由患者集群匹配引擎302执行的示例性操作组。所述操作针对图4中描述的规则表进行描述。在某些实现方式中，操作根据以计算机可读介质的非瞬态形式存储的、由患者集群匹配引擎执行用于使得患者集群匹配引擎执行各种操作的指令代码进行指定。

在框505，新的EMR可以由ETL管理器250接收并且存储至企业临床数据库266。

在框507，规则表400中的第一规则可以由患者集群匹配引擎302选择。

在框509，与选定规则的字段相关联的控制值可以由患者集群匹配引擎302用于确定新的医疗记录310是否匹配目标集群350。例如，当根据规则表400中的第一规则405a操作时，如果MRN字段410a和源针对新的医疗记录310已知，则患者集群匹配引擎302可以搜索与同一MRN字段和源相关联的目标集群。

在框512，如果找到匹配，则与新的医疗记录310的字段相关联的散列值可以与关联于匹配的目标集群350标识的主患者相关联。

如果在框509，新的医疗记录310被找到以基于当前规则来匹配任意目标集群，则在框515和517，如果规则表400中存在附加规则，则下一规则被选择并且操作可以从框509重复。

如果在框515，新的医疗记录310无法根据任何规则与任何目标集群350匹配，则在框517，新的集群可以利用新的医疗记录310的字段的散列值来生成并填充，并且该新的目标集群可以被指派唯一AMPI，从而使得编号/主患者标识符统一。该新的集群继而可以被存储到企业临床数据库266中。

如上文所指出的，规则被布置在表中的概率是根据将新的记录与集群准确匹配的规则能力，并且上述操作顺序地应用规则。然而，应当理解，表中的规则可以被不同地布置并且以不同的顺序应用。

现在参考图6，由图2的AMPI凝聚爬虫270所执行的过程的示例被示出，其中两个集群被结合为单个集群。AMPI凝聚爬虫270执行连续的后台过程以在数据记录被接收到时对其进行检查以便进行机器学习并且将各种数据记录链接或者映射到共同的患者。如在这一具体示例中所示，集群#1 602包括电子医疗记录编号1-4(610)和电子医疗记录11-13(614)。假定四个EMR的群组(610)对应于名为乔治史密斯的患者。在这一示例中，EMR#4是来自全国放射学的记录并且包括乔治的SSN的散列而其他记录没有。

接下来，假定乔治史密斯搬到新城市并且被新的主治医师照顾。该新医师未将乔治的SSN包括在他的患者记录中。更糟的是，该新医师调换了乔治的名和中间名。不与任何现有集群紧密相连的记录EMR#13被添加，因此仅由新EMR#13组成的新集群620被创建。在这一示例中，与新集群620中的记录最紧密相连的另一记录(EMR#11)被乔治的药剂师添加。然而，其也不包括SSN的散列。

假定现在由全国放射学使用乔治的新地址而且还使用他的SSN添加一记录。凝聚爬虫确定这两个记录(EMR#11和EMR#12)由于每一个中的共同SSN的散列而实际属于一起，因而将乔治的所有记录结合在一起，尽管乔治的两个地址的实例造成两个子群组。EMR#11、EMR#12和EMR#13的记录现在被结合到第一集群602，如由线630所示。具有乔治的两个地址中的任一个地址的未来记录将被添加到这一集群602。

图7是描绘了由AMPI凝聚爬虫270为了补救其中将EMR错误添加到目标集群的情形而执行的“反向”过程，并且示出了被分为两个分离集群的单个集群的一个示例。在这一示例中，名为乔治迈克尔福尔曼和乔治托马斯福尔曼的双胞胎在同一地址生活，并且除了他们的中间名散列之外，AMPI所拥有的标识信息的所有散列都是相同的。双胞胎在汽车事故之后被带到急救室。为每个双胞胎采集了社会保障号码。与不同中间名的散列相结合的不同SSN的散列弱化了该群组的凝聚力，从而使得可认识到事实上存在具有单个主患者标识符的两个不同群组。因此，存在将EMR错误加入集群中。AMPI凝聚爬虫270检查该群组，认识到存在两个不同群组，并且使它们分离从而为双胞胎之一创建新群组。

图8是示出了由用于使患者记录匿名化和聚集的系统110所处理的30,000个测试记录的实证测试结果的示图。这些记录基于实际记录，这些实际记录具有对与在美国找到的分布和地理定义一致的共同名字、性别划分、年龄、人口统计等的代表性采样。另外，记录中的某些被编辑以在数据元素中引入典型错误或模糊性以测试系统110的功效。例如，某些记录被编辑以建模典型的人口变迁，诸如迁移、结婚/离婚、出生等。第一框架810示出了其中用于个体的每个记录被正确地链接到恰好一个目标集群的大约98.95％的成功率。第二框架820示出了与单个患者被无意地划分为两个集群相关联的数据的1.05％的发生率。第三框架830示出了第二患者842被无意地包括在与不同患者相关联的集群中的0.0％的发生率。第四框架840示出了其中两个患者852在两个集群中被示出的0.0％的发生率。

尽管使PHI匿名化和聚集的系统100的焦点是使受保护健康信息匿名化以使得无法根据聚集的数据确认患者，但是存在某些为了患者自己的健康和安全而应当确认患者或者向其通知某些医疗情况时的情形。例如，基于由系统100所提供的记录来执行研究的实体可能发现所检查的某些生化标记可能指示这些人可能患上癌症。因此，联系此类人以向他们通知所发现的危险是重要的。因为每个患者记录都包括MRN以及指派该MRN的源系统的标识符，所以源系统120将能够使用散列的系统患者ID到患者ID反向查找表240标识与该MRN相关联的实际患者。

在一个实施例中，当散列化装置150使与MRN相对应的数据字段散列化时，数据源120保留表格，诸如散列的系统患者ID到患者ID反向查找表240，其可以将散列的MRN值与患者的真实身份相关联。这被称作重新标识(re-identification)。优选地，散列化装置150对用于重新标识的记录标识符仅执行单次散列而非两次散列。当由于发现的健康危险而应当通知患者时，企业数据仓库系统140可以向源系统发回感兴趣的患者的记录的经加密和单次散列的MRN值。

因为所要联系的患者的记录或者记录集群具有源系统120最初指派的对应MRN，因此源系统120可以对接收到的MRN解密并在散列的系统患者ID到患者ID反向查找表240中查找解密后的散列值，并且为了通知目的而查明患者的身份。系统100和源系统120可以使用已知的公共密钥加密方法对各种散列的字段加密。

图9是计算机系统900的高层硬件框图，计算机系统900可以是用于使受保护健康信息匿名化和聚集的系统110的一部分，或者用于使受保护健康信息匿名化和聚集的系统110可被体现为与计算机硬件组件协作的计算机系统900并且/或者被体现为计算机实现的方法。散列化装置150也可被体现在带有一些变化的如所示的计算机系统900中。用于使受保护健康信息匿名化和聚集的系统110可包括被可操作地耦合到计算机系统900或者驻留在计算机系统900中的多个软件模块或者子系统。这些模块或者子系统(诸如散列化装置150、第三方散列密钥服务220、AMPI服务器254、AMPI凝聚爬虫270和企业数据仓库系统140的其他组件)可被以硬件、软件、固件或者硬件、软件和固件的任意组合来实现，并且可以或者可以不驻留在单个物理或者逻辑空间内。例如，本文中提到的并且可能在附图中示出或者可能未在附图中示出的模块或者子系统可位于彼此远离之处并且可通过通信网络而被耦合。

计算机系统900可以是个体计算机、服务器或者其他合适计算机，并且可以包括各种硬件组件，诸如RAM 914、ROM 916、硬盘存储装置918、高速缓冲存储器920、数据库存储装置922等(也被称作“存储器子系统926”)。计算机系统900可包括本领域已知的任何合适的处理设备928，诸如计算机、微处理器、RISC(精简指令集计算机)处理器、CISC(复杂指令集计算机)处理器、大型计算机、工作站、单芯片计算机、分布式处理器、服务器、控制器、微控制器、离散逻辑计算机等。例如，处理设备928可以是英特尔微处理器、x86兼容微处理器或者等价设备，并且可被并入服务器、个体计算机或者任何合适的计算平台中。

存储子系统926可以包括任何合适的存储组件，诸如RAM、EPROM(电可编程ROM)、闪存、动态存储器、静态存储器、FIFO(先进先出)存储器、LIFO(后进先出)存储器、循环存储器、半导体存储器、磁泡存储器、缓冲存储器、磁盘存储器、光存储器、高速缓冲存储器等。任何合适形式的存储器都可被使用，无论是磁介质上的固定存储装置、半导体器件中的存储装置还是可通过通信链路访问的远程存储装置。用户或者系统管理器接口930可被耦合到计算机系统900并且可以包括各种输入设备936，诸如可由系统管理器选择的开关和/或键盘。用户接口还可以包括本领域已知的合适的输出设备940，诸如LCD显示器、CRT、各种LED指示器、打印机和/或语音输出设备。

为了有助于在计算机系统900与外部源之间的通信，通信接口942可被可操作地耦合到计算机系统。通信接口942例如可以是局域网，诸如以太网、内联网、因特网或者其他合适网络944。通信接口942还可被连接到公共交换电话网(PSTN)946或POTS(简易老式电话系统)，这可以有助于经由因特网944的通信。任何合适的可购买到的通信设备或网络都可被使用。

上面描述的逻辑、电路和处理可以例如作为供处理器、控制器或其他处理设备执行的指令被编码或者存储在机器可读或者计算机可读的介质中，诸如紧凑盘只读存储器(CDROM)、磁盘或者光盘、闪存、随机存取存储器(RAM)或者只读存储器(ROM)、可擦除可编程只读存储器(EPROM)或者其他机器可读介质。

介质可被实现为任何包含、存储、传送、传播或者传输供指令可执行系统、装置和设备使用或者与其结合使用的可执行指令的设备。备选地或者附加地，逻辑可被实现为使用硬件(诸如一个或多个集成电路)的模拟或数字逻辑，或者一个或多个处理器执行指令；或者以应用编程接口(API)中或者动态链接库(DLL)中的软件、可在共享存储器中获得或者被定义为本地或远程过程调用的函数来实现；或被实现为硬件和软件的组合。

在其他实现方式中，逻辑可被以信号或者传播信号介质中表示。例如，实现任何给定程序的逻辑可以采用电、磁、光、电磁、红外或者其他类型信号的形式。上面描述的系统可以在通信接口(诸如光纤接口、天线或者其他模拟或数字信号接口)处接收这种信号、从该信号恢复指令、将它们存储在机器可读存储器中并且/或者利用处理器来执行它们。

系统可以包括附加的或者不同的逻辑并且可被以许多不同方式实现。处理器可被实现为控制器、微处理器、微控制器、专用集成电路(ASIC)、离散逻辑或者其他类型的电路或逻辑的组合。类似地，存储器可以是DRAM、SRAM、闪存或者其他类型的存储器。参数(例如，条件和阈值)和其他数据结构可被分别存储并管理，可被包含到单个存储器或数据库中，或者可以以许多不同方式被以逻辑方式和物理方式组织。程序和指令可以是单个程序的多个部分、分离的程序或者跨若干存储器和处理器分布的。

虽然已经描述了本发明的各种实施例，但是本领域普通技术人员将会明白许多更多实施例和实现方式在本发明的范围内是可能的。因此，除非鉴于所附权利要求及其等价物，否则本发明将不受限制。

Claims

1.一种用于使来自多个数据源的受保护信息(PI)匿名化和聚集的系统，所述系统包括：

耦合至数据存储库的主索引服务器，被配置为从多个数据散列化装置接收与个体相关联的匿名记录，并且将接收到的所述记录存储到所述数据存储库；

操作地耦合至所述主索引服务器和所述数据存储库的集群匹配引擎，被配置为向接收到的所述匿名记录的散列的数据元素应用多个规则用于将接收到的所述匿名记录的散列的数据元素与所述数据存储库中存储的多个匿名记录集群的散列的数据元素进行比较，给定匿名记录集群中的每个记录先前已经被确定与同一个体相关联并且与唯一集群标识符相关联，用以确定与接收到的所述匿名记录相关联的所述个体是否对应于与所述匿名记录集群之一相关联的个体；

当接收到的所述匿名记录被确定对应于与所述数据存储库中存储的所述匿名记录集群之一相关联的所述个体时，所述集群匹配引擎被配置为向与所述个体相关联的所述匿名记录集群之一添加接收到的所述匿名记录。

2.根据权利要求1所述的系统，其中所述多个规则被列举在规则表中，并且所述规则基于给定规则将接收到的所述匿名记录与正确的匿名记录集群匹配得准确程度进行布置，其中由所述集群匹配引擎应用的第一规则对应于将接收到的所述匿名患者医疗记录与所述正确的匿名记录集群匹配得最准确的规则。

3.根据权利要求1所述的系统，其中所述规则被顺序应用，直到所述规则之一将接收到的所述匿名记录与所述正确的匿名记录集群匹配。

4.根据权利要求1所述的系统，其中所述多个规则中的每个规则定义控制所述集群匹配引擎如何将与接收到的所述匿名记录的不同字段相关联的散列的数据元素与所述匿名记录集群的对应字段相关联的散列的数据元素匹配的一个或多个控制值。

5.根据权利要求4所述的系统，其中所述控制值包括指示与给定字段相关联的散列的数据元素为了匹配被要求在接收到的所述匿名记录与匿名记录集群之间是相同的值，以及指示至少指定数目的与多个不同字段相关联的散列的数据元素为了匹配被要求在接收到的所述匿名记录与所述匿名记录集群之间是相同的值。

6.根据权利要求4所述的系统，进一步包括规则生成器，被配置为：

从一个或多个源接收匿名记录集合，所述一个或多个源以与所述匿名记录集合相关联的个体的身份而被了解；以及

生成多个不同的控制值组合并且针对每个组合，确定所述控制值组合在将所述集合中的每个记录与和同一个体相关联的记录集群匹配方面的准确度。

7.根据权利要求1所述的系统，其中在所述集群匹配引擎向所述一个匿名集群添加接收到的所述匿名记录之后，所述集群匹配引擎进一步被配置为：

基于所述多个规则确定所述集群是否与不止一个个体相关联；以及

如果所述集群被确定与不止一个个体相关联，则将所述集群分成两个或更多个集群。

8.根据权利要求1所述的系统，其中在所述集群匹配引擎向所述一个匿名集群添加接收到的所述匿名记录之后，所述集群匹配引擎进一步被配置为：

基于所述多个规则将与每个集群相关联的数据元素与每个其他集群进行比较以确定所述集群是否与同一个体相关联；以及

当两个或更多个集群被确定与所述同一个体相关联时，将所述两个或更多个集群组合成一个集群。

9.根据权利要求1所述的系统，其中所述多个数据散列化装置中的每个数据散列化装置被操作地耦合至相应数据源，并且被配置为从所述相应数据源接收与个体相关联的一个或多个记录，每个记录包含对应于机密受保护信息(PI)的至少一个数据元素和由所述相应数据源指派的主记录编号(MRN)，其中每个数据散列化装置被配置为：

将盐值附加到对应于所述患者医疗记录中的机密PI的每个数据元素；

生成针对与加盐机密PI对应的每个数据元素的散列值；

利用对应的所生成的散列值代替对应于机密PI的所述数据元素以生成匿名化记录。

10.根据权利要求9所述的系统，其中第三方散列密钥服务向所述散列化装置提供所述盐值，所述第三方散列密钥服务与所述数据源、所述主索引服务器和所述数据存储库分离并独立。

11.根据权利要求9所述的系统，其中与所述个体相关联的所述记录包括对应于机密PI和非机密PI的数据元素，其中在由所述主索引服务器接收之前仅对应于机密PI的数据元素在所述相应数据源处被匿名化。

12.根据权利要求9所述的系统，其中：

对应于机密PI的每个数据元素使用第一散列算法进行处理以生成第一散列值；

每个第一散列值使用第二散列算法进行处理以生成第二散列值；

每个第一散列值被破坏；以及

所述记录中对应于机密PI的每个数据元素由对应的所述第二散列值代替，使得对应的所述第二散列值无法被解码以便标识对应于机密PI的原始数据元素的值。

13.根据权利要求12所述的系统，其中如果对应于机密PI的所述原始数据元素的值相同，则对应的第二散列值将相同。

14.一种用于使来自多个数据源的受保护信息(PI)匿名化和聚集的方法，所述方法包括：

由耦合至数据存储库的主索引服务器从多个数据散列化装置接收与个体相关联的匿名记录；

由操作地耦合至所述主索引服务器和所述数据存储库的集群匹配引擎向接收到的所述匿名记录的散列的数据元素应用多个规则用于将接收到的所述匿名记录的散列的数据元素与所述数据存储库中存储的多个匿名记录集群的散列的数据元素进行比较，给定匿名记录集群中的每个记录先前已经被确定与同一个体相关联并且与唯一集群标识符相关联，用以确定与接收到的所述匿名记录相关联的所述个体是否对应于与所述匿名记录集群之一相关联的个体；

当接收到的所述匿名记录被确定对应于与所述匿名记录集群之一相关联的所述个体时，向与所述个体相关联的所述匿名记录集群之一添加接收到的所述匿名记录。

15.根据权利要求14所述的方法，其中所述多个规则被列举在规则表中，并且所述规则基于给定规则将接收到的所述匿名记录与正确的匿名记录集群匹配得准确程度进行布置，其中由所述集群匹配引擎应用的第一规则对应于将接收到的所述匿名患者医疗记录与所述正确的匿名记录集群匹配得最准确的规则。

16.根据权利要求14所述的方法，其中所述多个规则中的每个规则定义控制所述集群匹配引擎如何将与接收到的所述匿名记录的不同字段相关联的散列的数据元素与所述匿名记录集群的对应字段相关联的散列的数据元素匹配的一个或多个控制值。

17.根据权利要求16所述的方法，其中所述控制值包括指示与给定字段相关联的散列的数据元素为了匹配被要求在接收到的所述匿名记录与匿名记录集群之间是相同的值，以及指示至少指定数目的与多个不同字段相关联的散列的数据元素为了匹配被要求在接收到的所述匿名记录与所述匿名记录集群之间是相同的值。

18.根据权利要求14所述的方法，其中所述多个数据散列化装置中的每个数据散列化装置被操作地耦合至相应数据源，并且被配置为从所述相应数据源接收与个体相关联的一个或多个记录，每个记录包含对应于机密受保护信息(PI)的至少一个数据元素和由所述相应数据源指派的主记录编号(MRN)，其中每个数据散列化装置被配置为：

生成针对与加盐机密PI对应的每个数据元素的散列值；

19.根据权利要求18所述的方法，其中第三方散列密钥服务向所述散列化装置提供所述盐值，所述第三方散列密钥服务与所述数据源、所述主索引服务器和所述数据存储库分离并独立。

20.根据权利要求18所述的方法，其中与所述个体相关联的所述记录包括对应于机密PI和非机密PI的数据元素，其中在由所述主索引服务器接收之前仅对应于机密PI的数据元素在所述相应数据源处被匿名化。

21.一种其上存储有用于使来自多个数据源的受保护信息(PI)匿名化和聚集的指令代码的非瞬态计算机可读介质，所述指令代码由机器可执行用于使得所述机器执行以下动作：

从多个数据散列化装置接收与个体相关联的匿名记录；

向接收到的所述匿名记录的散列的数据元素应用多个规则用于将接收到的所述匿名记录的散列的数据元素与所述数据存储库中存储的多个匿名记录集群的散列的数据元素进行比较，给定匿名记录集群中的每个记录先前已经被确定与同一个体相关联并且与唯一集群标识符相关联，用以确定与接收到的所述匿名记录相关联的所述个体是否对应于与所述匿名记录集群之一相关联的个体；

当接收到的所述匿名记录被确定对应于与所述匿名记录集群之一相关联的所述个体时，向所述匿名记录集群之一添加接收到的所述匿名记录。