CN109074858A

CN109074858A - 没有明显准标识符的去识别的健康护理数据库的医院匹配

Info

Publication number: CN109074858A
Application number: CN201780024711.4A
Authority: CN
Inventors: R·谢里菲塞德; D·R·埃尔戈特; R·特鲁伊
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2016-04-19
Filing date: 2017-04-19
Publication date: 2018-12-21
Anticipated expiration: 2037-04-19
Also published as: JP2019514128A; CN109074858B; EP3446245A1; WO2017182509A1; JP6956107B2; US20190147988A1

Abstract

一种电子处理器(14)被编程为执行对N个匿名健康护理数据库(10)的整合(16)。对于所述N个匿名健康护理数据库中的数据库对(i，j)，识别(44)每个都被包含在所述数据库对(i，j)中的数据库i和j两者中的特征的集合。基于通过所述特征的集合度量的患者相似度来生成(46、48)与所述数据库对中的患者相匹配的转换表。针对所述N个匿名健康护理数据库中的每个唯一的数据库对重复(50)所述识别和生成操作以生成N(N‑1)/2个转换表(20)。所述电子处理器还被编程为执行患者数据检索过程(18)，所述患者数据检索过程接收所述N个匿名健康护理数据库中的一个中的患者的患者ID，并且使用所述N(N‑1)/2个转换表来检索针对被包含在所述N个匿名健康护理数据库中的所述患者的患者数据。

Description

没有明显准标识符的去识别的健康护理数据库的医院匹配

技术领域

下文总体上涉及医学研发领域、健康护理数据库管理领域、健康护理据库挖掘领域、以及相关的领域。

背景技术

健康护理研发的许多领域利用包含关于医学患者的数据的健康护理数据库。医学历史或其他临床数据、患者计费数据、涉及诸如病床占用率的问题的管理记录等等由医院或其他医学机构和/或由个体单元(诸如心脏监护病房(CCU)、重症监护病房(ICU)、或紧急入院部)维持。这些数据库存储一般必须在金融和/或医学隐私法(诸如(美国的)健康保险携带和责任法案(HIPAA))下被秘密地维持的敏感性患者数据。

为了使得患者数据库能够用于临床、医院管理或其他目的的数据分析同时维持患者隐私，通过去除患者识别信息(PII)来使数据库匿名是已知的。需要被匿名的信息包括患者姓名和/或医学身份编号(由随机分配的数字等等合适地代替)、地址等等。其他匿名化措施可以包括去除可能可通过不寻常特性的组合而识别的“罕见”患者，例如，具有特殊疾病的102岁的患者可能单单基于该信息而被识别。

除了罕见患者外，患者可能可基于针对被记录在患者记录中的事件的时间戳信息而识别。例如，如果患者在特定状况下在特定日期被允许入院，该信息可以足以将可能患者身份的数量缩小到少数。然而，纵向信息(即，事件的时间序列和各个事件之间的时间间隔)有时在健康护理数据分析中是有用的。例如，入院和出院之间的时间间隔可以对于分析某一处置的医院效率和/或有效性是有用的或甚至关键的。为了降低使用时间戳来识别匿名患者的可能性同时保持可能具有价值的纵向信息用于健康护理数据分析，在一些匿名数据库中，使用刚性偏移用于给定患者的所有带时间戳事件，时间戳被偏移一些随机量(一般对于每个患者是不同的)。时间戳上的随机刚性时间偏移使经由时间戳的患者识别更困难，同时刚性时间偏移的特别使用保持纵向信息(即事件之间的时间间隔信息)。

发明内容

在一个公开的方面中，一种匿名健康护理数据源设备包括至少一个电子处理器，所述至少一个电子处理器被编程为通过执行数据库整合过程来整合N个匿名健康护理数据库(10)，其中，N是具有为至少三的值的正整数，所述数据库整合过程包括以下操作：针对所述N个匿名健康护理数据库中的数据库对(i，j)，识别每个都被包含在所述数据库对(i，j)中的数据库i和j两者中的特征的集合，并且基于通过所述特征的集合度量的患者相似度来生成与所述数据库对中的患者相匹配的转换表；针对所述N个匿名健康护理数据库中的每个唯一的数据库对重复所述识别和生成操作以生成N(N-1)/2个转换表。所述至少一个电子处理器还被编程为执行患者数据检索过程，所述患者数据检索过程包括使用所述N(N-1)/2个转换表来检索针对被包含在所述N个匿名健康护理数据库中的一个或多个匿名患者的患者数据的操作。

在另一公开的方面中，一种匿名健康护理数据源设备包括至少一个电子处理器，所述至少一个电子处理器被编程为通过执行数据库整合过程来整合健康护理数据库i和健康护理数据库j，所述数据库整合过程包括以下操作：针对所述数据库对(i，j)，识别每个都被包含在所述数据库对(i，j)中的数据库i和j两者中的特征的集合，所述特征的集合包括通过一对带时间戳事件定义的至少一个纵向特征，所述一对带时间戳事件由所述事件的时间戳之间的时间间隔Δt分开，并且基于通过所述特征的集合度量的患者相似度来生成与所述数据库对(i，j)中的患者相匹配的转换表，所述生成包括针对所述两个数据库(i，j)中的患者的所述时间间隔Δt的比较。所述至少一个电子处理器还被编程为执行患者数据检索过程，所述患者数据检索过程包括使用与所述数据库对(i，j)中的患者相匹配的所述转换表来检索针对被包含在两个匿名健康护理数据库(i，j)中的一个或多个匿名患者的患者数据的操作。

在另一公开的方面中，一种非瞬态存储介质存储指令，所述指令可由计算机读取和执行以执行从N个匿名健康护理数据库重建匿名群体图像的匿名群体图像重建方法，其中，N是具有为至少二的值的正整数。所述匿名群体图像重建方法包括：针对所述N个匿名健康护理数据库中的数据库对(i，j)，识别每个都被包含在所述数据库对(i，j)中的数据库i和j两者中的特征的集合，并且基于通过所述特征的集合度量的患者相似度来生成与所述数据库对中的患者相匹配的转换表。针对所述N个匿名健康护理数据库中的每个唯一的数据库对重复所述识别和生成操作，以生成包括通过所述N(N-1)/2个转换表整合的所述N个匿名健康护理数据库的内容的所述匿名群体图像。

一个优点在于提供了对两个、三个、四个或更多个匿名健康护理数据库的整合以利用被包含在数据库中的组合数据用于健康护理数据分析任务。

另一优点在于提供了一个或多个匿名健康护理数据库是非结构化健康护理数据库的前述内容。

另一优点在于提供了纵向信息(即，事件之间的时间间隔)被利用于匹配不同匿名健康护理数据库中的匿名患者中的前述内容。

给定实施例可以提供前述优点中的零个、一个、两个或全部，和/或可以提供在阅读并理解本公开后对于本领域普通技术人员来说将变得显而易见的其他优点。

附图说明

本发明可以采取各种部件和部件的布置以及各种步骤和步骤的安排的形式。附图仅出于图示优选实施例的目的并且不应被解释为对本发明的限制。

图1图解性地图示了利用从两个或更多个匿名健康护理数据库整合的匿名患者数据的医学分析设备。

图2图解性地图示了通过图1的被配置为整合三个或更多个匿名健康护理数据库的设备执行的数据库整合过程的实施例。

图3示出了图解性地展示用于整合不同匿名健康护理数据库的不同特征的选择的标准的表。

图4图解性地示出了图2的数据库整合过程实施例的改进部件的操作。

图5图解性地示出了利用纵向信息的图1的数据库整合过程的实施例。

具体实施方式

在匿名健康护理数据库的整合中提出了许多挑战。各种匿名健康护理数据库可以在范围上显著地改变，其中，仅一部分数据在任何两个数据库之间交叠。确实，这种部分交叠是希望整合多个匿名健康护理数据库以利用来自另一数据库的内容“填充”在一个数据中丢失的信息的重要激励因素。例如，如本文中使用的，“匿名健康护理数据库”可以是(例如)：医学记录数据库(诸如从综合电子医学记录(EMR)提取的匿名数据库)或特定领域医学数据库(诸如心血管信息系统(CVIS)或重症监护病房(ICU)信息系统)；从医院计费部数据库提取的匿名数据库；从医学保险公司数据库提取的匿名数据库；从医院住院部数据库提取的匿名数据库；等等。能够预期到从CVIS提取的匿名数据库包含涉及心血管疾病的诊断和处置的医学记录，但是不会包括关于针对那些诊断/处置的保险范围的信息。相比之下，能够预期到从医院计费部提取的匿名数据库包含保险报销信息，但是不包括医学诊断/处置数据。组合这些数据库可以提供患者群体的更为整体的图像；但是提供了对于整合的动机的两个数据库之间的有限内容交叠也使这样的整合充满挑战。

在本文中公开的各种实施例中，这些问题通过利用多个(三个或更多个)健康护理数据库的整合来克服。这能够提供更大程度的总体交叠，这激励了在单个过程中执行N个数据库的整合；然而，反常地，本文中公开的是用于执行整合的更有效且可靠的方法是首先整合每个匿名健康护理数据库对，以便生成针对每对的转换表，并且然后基于N(N-1)/2个转换表之间的患者匹配的一致性来改进得到的N(N-1)/2个转换表。该方法认识到，N个数据库之间的特征的交叠可能是很小的，并且此外即使在交叠存在的情况下，某些特征也可以在一些数据库中是不可靠的。通过采用公开的首先整合数据库对的方法，特征的集合能够针对每个这样的逐对整合进行选择，所述逐对整合是针对该匿名健康护理数据库对良好选择的。由多个(N>2)数据库提供的额外信息然后被利用于随后的改进步骤中，在一些实施例中所述改进步骤不依赖于特征。

额外地或替代地，在本文中公开的实施例中，这些问题通过利用纵向信息(即，事件的时间序列和各个事件之间的时间间隔)来克服。一般地，纵向特征通过针对匿名健康护理数据库中的单个匿名患者的一对带时间戳事件来定义，所述一对带时间戳事件由事件的时间戳之间的时间间隔Δt分开。这样的纵向特征即使在匿名健康护理数据库中也是良好定义的，其中，匿名化过程引入针对患者的所有时间戳的随机的但是刚性的偏移，因为刚性时间偏移不影响事件之间的时间间隔Δt。

参考图1，N个匿名健康护理数据库10分别被表示为“数据库1”、“数据库2”、…、“数据库N”。一般地，N是至少为二并且在一些实施例中至少为三的正整数。在一些实施例中，考虑N＝2的下限。匿名健康护理数据库10通过合适的匿名化过程(未示出)来生成，所述匿名化过程优选是自动的(例如计算机实施的，其中计算机被编程为去除某些类别或类型的数据)，以便使大型数据库(例如一百万患者条目或在一些实施例中更多)匿名。任选地，匿名化也可以包括一些手动处理，例如以去除某些罕见患者或解决其他不寻常情况。用来生成N个匿名数据库的匿名化过程一般可以是不同的，和/或可以使相同的信息匿名或可以使其不匿名。每个匿名化过程优选使能够立即识别患者的个人识别信息(PII)(诸如患者姓名、患者地址、社会保险号码等等)、以及结合其他信息潜在地为PII的信息(诸如医院名称、邮政编码、等等)匿名。在信息可以结合其他信息为PII的情况下，它可以足以仅使组合的一部分匿名。例如，邮政编码、性别和出生日期的组合可以个人地识别–但是通过仅使邮政编码信息匿名，可接受的患者匿名性可以被实现。(一个或多个)匿名化过程也可以任选地去除可以识别某些患者的特殊信息，诸如超过某一最大值(例如90岁)的任何年龄、和/或不在常见诊断列表之中的诊断等等。

一般地，具体数据的匿名化能够通过去除数据(编辑)或通过用占位符代替数据来实现，后者在尽管匿名化但与具体类型的信息的相关性也期望被保持的情况下是优选的。例如，医学监护病房(例如医院或监护病房)条目可以由对于数据库来说在内部一致的占位符代替。这些占位符在给定数据库内在内部是一致的，但是在数据库之间实质上随机改变。例如，在数据库1中，医院“Blackacre综合医院”可以总是由占位符(例如“8243”)代替，而“Whiteacre社区医学中心”可以总是由占位符“1238”代替。在该范例中，数据库1中的医学监护病房“Blackacre综合医院”的每一个实例由(相同的)占位符医学监护病房“8243”代替，并且数据库1中的医学监护病房“Whiteacre社区医学中心”的每一个实例由(相同的)占位符医学监护病房“1238”代替。另一方面，为了继续针对数据库2的范例，数据库2中的医学监护病房“Blackacre综合医院”的每一个实例可以由相同的占位符医学监护病房“EADF”(其不同于用于匿名数据库1中的Blackacre的占位符“8243”)代替，并且“Whiteacre社区医学中心”的每一个实例可以由相同的占位符医学监护病房“JSDF”(其同样不同于用于匿名数据库1中的Whiteacre的占位符“1238”)代替。通过在匿名数据库内在内部一致的医学监护病房占位符对医学监护病房的这种匿名化使得在数据库上操作的健康护理数据分析过程能够识别与具体医学监护病房的相关性，同时维持患者匿名。例如，如果Blackacre具有在统计学上比平均医院显著更高的心脏移植的成功率，这将会在数据库1(假设它存储心脏移植结果数据)中被示出为在匿名医院“8243”处执行的心脏移植的统计学上显著更高的成功率。

另一方面，一些信息可以通过编辑(即，去除)来匿名。例如，居住地址信息可以被完全编辑，因为这在很大程度上识别，并且与居住地址的有用相关性不能被预期用于常见的健康护理数据分析过程。在变型实施例中，如果预期到居住地址相关性是用于健康护理数据分析过程的有用输入，那么地址匿名化可以通过用更广泛的地理区域代替每个居住地址来执行，例如如果该城市具有足够大的群体来确保可接受的匿名水平则更广泛的地理区域为居住城市。具有足够少的群体的居住城市或县城可以被完全编辑以避免保持可以个人地识别的“罕见”数据，或者可以由合适更大的地理单元(诸如居住州)代替。

一般预期到匿名健康护理数据库10均以特定结构化格式(例如以关系数据库格式或其他结构化数据库格式)被格式化为电子表格、可搜索列分隔的富文本文件等等。然而，在一些实施例中，数据库10中的一个或多个可以是例如存储关于患者的书面文本报告的非结构化数据库，或者可以具有有限的结构(例如提供诸如患者姓名的信息和由非结构化文本报告跟随的人口统计学信息的结构化标题)。在这样的情况下，自然语言处理(NLP)可以被用来提取数据库内容的结构化表示，诸如文本文档的词袋表示。

如在图1中图示的，医学数据分析设备包括被实施在计算机14(或，更一般地，电子处理器14)上的匿名健康护理数据源设备12，所述计算机(或，更一般地，所述电子处理器)可以例如是基于网络的服务器计算机、云计算资源、服务器集群等等。计算机14被编程为执行数据库整合过程16和患者数据检索过程18，后者使用利用N(N-1)/2个转换表20的集合。在本文中的说明性实施例中，每个转换表是针对N个数据库10中的数据库对的m×2转换表。不失一般性，数据库对分别被表示为数据库i和数据库j，其共同形成数据库对(i，j)。每个转换表是具有针对通过数据库整合过程16在数据库对(i，j)中匹配的m个患者的行(或，替代地列)和两列(或，替代地，行)的m×2表，一列列出匿名数据库i中的匿名患者ID并且另一列列出匿名数据库j中的匿名患者ID。对于N＝2，存在单个数据库对(i，j)。对于N>2，存在N(N-1)/2个唯一的数据库对(i，j)。这能够使用针对从n的集合获取的k个元素的组合的数量的组合公式来获得：

在本实例中，k＝2，因为一对被绘制，并且集合是N个匿名健康护理数据库10，使得n＝N，因此组合减少至N(N-1)/2。一般地，在N>2的情况下，匹配的患者的数量m可以对于不同的数据库对(i，j)来说不同，但是数据库对之间的患者的一定交叠被预期用于三个或更多个匿名健康护理数据库的有用整合。

考虑了N(N-1)/2个转换表20被体现为单个表，例如N(N-1)/2个表(每个具有尺寸m×2)的串联以形成单个m×[N(N-1)]表。在这种情况下，假设所有N(N-1)/2个组成m×2转换表具有相同的匹配的患者的数量m，如果不是这种情况，那么填补能够用来考虑“丢失的”匿名患者，例如如果数据库1的患者49在数据库3中没有匹配，那么针对对(i，j)＝(1，3)的组成m×2转换表通过<null>或零或其他占位符来合适地填充。

计算机14还被编程为执行患者数据检索过程18，以使用N(N-1)/2个转换表20从N个匿名健康护理数据库10检索匿名患者数据。例如，查询可以被提交到患者数据检索过程18，以获取针对通过在数据库1中使用的匿名患者ID识别的给定患者的查询特征的值。该患者ID能够直接用来从数据库1检索查询特征的值，而对于数据库j＝2、…、N中的每个，针对数据库对(1，j)的适当的转换表用来匹配数据库j中的患者ID，以便从数据库j检索查询特征值。

然而，一般地，查询特征可能未被包含在所有N个数据库中。如果查询特征被包含在N个匿名健康护理数据库中的仅仅一个中，那么查询特征从包含查询特征的(单个)匿名健康护理数据库来检索。另一方面，如果查询特征被包含在N个匿名健康护理数据库中的两个或更多个中，那么根据N个匿名健康护理数据库中的包含查询特征的两个或更多个中的查询特征的值生成针对查询特征的检索值。这可以例如使用特征准确性度量用于包含查询特征的相应匿名健康护理数据库中的查询特征来完成。例如，如果查询请求对于患者49的初步诊断并且数据库1、2和3均包含初步诊断字段，那么这为患者49的初步诊断提供了三个值(在针对数据库2和3的匿名患者ID 49的转换之后，使用适当的m×2转换表)。如果对于初步诊断来说已知数据库1和3具有97％的准确率，而对于该特征来说数据库2具有低得多的准确率(例如71％)，那么检索值被生成为从最可能准确的数据库1和3获得的初步诊断。在对于给定的查询特征来说不同的数据库存储不同的值的情况下，各种方法能够用来生成检索值，诸如获取N个数据库10中的针对该特征具有最高准确性度量的数据库的值、或获取最常见的值(例如如果六个数据库列出了特征的值并且这些中的五个一致，那么出现在六个数据库中的五个中的值可以被选择)、或在数值的情况下获取值(或该特征的准确性度量最高的数据库的一些子集中的值，或者在去除任何可识别的离群值之后)的平均值等等。

通过患者数据检索过程18接收和处理的查询可以取决于查询的目的而改变。例如，可能期望获得针对年龄范围30-50岁内的所有男性患者的初步诊断，在这种情况下，在通过年龄和性别的适当过滤之后，查询可以被形成为针对初步诊断的集合(具有针对每个不同诊断的枚举)的请求。在这种情况下，查询结果可以是数据对{(诊断，计数)}的集合，其中，每个元素(诊断，计数)存储指示诊断的文本字符串和具有该诊断的患者的数量的计数(在年龄/性别过滤之后)。如果N个数据库10是关系数据库，那么患者数据检索过程18可以被实施为接收SQL查询的结构化查询语言(SQL)查询引擎。

继续参考图1，健康护理数据分析设备还包括被实施在计算机24(或，更一般地，电子处理器24)上的健康护理数据分析工具22，所述计算机(或，更一般地，所述电子处理器)可以例如是基于网络的服务器计算机、云计算资源、服务器集群、台式计算机(如所图示的)等等。计算机24包括或与一个或多个显示部件/设备26和一个或多个用户输入部件/设备(诸如说明性键盘28、鼠标或其他定点设备30、显示器26的触敏叠加等等)可操作地连接。健康护理数据分析工具22执行各种健康护理分析，诸如(以说明性范例的方式)：评估某一医学流程的保险范围；确定针对医学流程的存活率；评估与最常提供给患者的医学护理的类型的人口统计学相关性；等等。在合适的实施例中，用户操作(一个或多个)用户输入设备28、30来配置要被执行的分析的类型；健康护理数据分析工具22经由匿名健康护理数据源设备12的患者数据检索过程18从匿名数据库10接收适当的数据，并且对该数据执行选定的解析分析；并且结果在(一个或多个)显示部件26上被呈现为图形表示等等，例如将针对流程的保险范围绘制为通过日期间隔分箱的直方图，或者绘制为利用对应于不同保险公司的切片示出针对流程的保险范围的饼图；或者根据地理位置绘制存活率；等等。

说明性匿名健康护理数据源设备12在图1中被示为被实施在计算机14上，而健康护理数据分析工具22在图1中被示为被实施在不同的计算机24上。然而，在其他实施例中，匿名健康护理数据源设备和健康护理数据分析工具可以被实施在单个计算机上。还考虑了其他硬件分割拓扑，例如数据库整合过程16和患者数据检索过程18可以被实施在不同的计算机上。此外，应意识到如本文中描述的健康护理数据分析设备的公开的功能性可以被体现为存储指令的非瞬态存储介质，所述指令可由电子处理器14、24读取和执行以执行公开的功能。非瞬态存储介质可以例如包括硬盘驱动器或其他磁性存储介质、光盘或其他光学存储介质、闪速存储器、只读存储器(ROM)、或其他电子存储介质、其各种组合等等。

参考图2，描述了针对N>2个数据库10的数据库整合过程16的实施例。在该实施例中，N为至少三，并且更一般地，N可以是大于或等于三的任何正整数。在操作40中，从N个数据库10选择(第一)匿名健康护理数据库对(i，j)。在一种方法中，i和j的值最初分别被设置为一和二，并且将会在每个下一次迭代中改变直至i和j的所有逐对组合被选择，其中，1<i<N并且1<j<N(使用标记1、…、N来表示N个数据库10中的组成数据库)。由于数据库对(i，j)整合了两个不同的数据库，所以这些对排除了i＝j的所有退化情况。

在下文中，描述了用于在选定的数据库(i，j)中匹配患者的说明性范例。在操作42中，应用包括/排除标准来选择要匹配的数据库部分。为了匹配来自数据库i和数据库j的患者记录，提取可能相关的两个数据库的子集。例如，如果数据库i仅覆盖来自数据库j的医学外科手术和烧伤ICU患者的数据，那么在其住院期间被允许到医学外科手术和烧伤ICU病房的患者的子集被提取(即被包括)，而来自不与数据库i交叠的其他地方的数据被排除。应当注意，排除的/包括的数据通过针对具体数据库对(i，j)的交叠来确定，并且可以对于不同的对来说不同。

在操作44中，识别用于在整合数据库对(i，j)中使用的特征的集合。此处，选择数据库i和数据库j能够利用其被可靠地整合的非唯一识别特征的集合。所选择的特征每个都被包含在数据库对(i，j)的数据库i和j两者中。此外，所选择的特征任选地基于关于可靠性的可用信息来进行选择。例如，如果已知数据库中的一个在患者的性别记录方面是相对不准确的，但是数据库i和数据库j两者在体重记录方面是准确的，那么体重被合适地选择为特征，并且性别不被合适地选择为特征。

简略地参考图3，应注意，被选择用于整合给定的数据库对(i，j)的特征的集合一般取决于具体的数据库i和j。例如，图3示出了针对三个匿名健康护理数据库X、Y和Z的特征的表，将准确性制表为针对每个数据库中的每个特征的百分比。在图3中示出的表的最后三行指示每个特征是否应当被选择为针对指示的数据库组合i-j的特征的集合。例如，图3指示数据库X和Y在民族、死亡率、住院时长、年龄和体重的记录方面都是准确的，并且因此这五个特征被选择用于匹配数据库X和Y。同样地，特征的集合：民族、住院时长、年龄、初步诊断和体重被合适地选择以整合数据库X和数据库Z；并且特征的集合：性别、民族、住院时长、年龄和体重被合适地选择以整合数据库Y和数据库Z。在图3的范例中，准确性百分比形成特征准确性度量，并且可以基于采样(选择患者的代表性采样并且核实该样本的特征准确性)、或基于明显错误的特征值(例如年龄＝0或年龄＝200)、或基于丢失的特征值(把每个丢失的特征值当作“错误”)等等来生成。

返回参考图2，在操作46中，在操作44中选择的特征的集合用来匹配数据库i和j中的患者。各种方法能够被使用。在简单的方法中，如果针对特征的集合中的特征的可用值的阈值分数(或数量)匹配，那么匹配存在于数据库i和数据库j中的相应两个患者之间。任选地，匹配能够基于诸如在数据库中具有错误的记录的特征值的可能性、特征的选择性等等的因素将不同的权重应用于不同的特征。实质上，数据库i中的每个患者通过其元素存储在操作44中选择的特征的集合的值的特征向量来表示，并且同样地，数据库j中的每个患者通过其元素存储在操作44中选择的特征的集合的值的特征向量来表示。这些值中的一些可以是空白的(例如向量存储<null>或其他占位符)。用于计算两个这样的特征向量的相似度的任何方法能够用来比较患者并且识别两个数据库中的相似患者。例如，如果特征的数量是F，那么合适的相似度度量可以是通过下式给出的两个特征向量p_i与p_j之间的距离：

其中，p_i和p_j分别是表示数据库i中正被比较的患者和数据库j中正被比较的患者的特征向量，并且p_i(f)表示针对患者p_i的第f个特征的值，并且同样地p_j(f)表示针对患者p_j的第f个特征的值。参数w_f是被选择为指示各个特征f＝1,…,F的相对重要性并且(如果必要的话)将不同的特征类型转换为共同单位以允许计算和的特征权重和/或单位转换因子。在该公式中，D(p_i,p_j)的更小值指示更相似的患者，使得如果D(p_i,p_j)小于特定阈值，那么两个患者可以被匹配。任何丢失的特征能够以各种方式进行处理，诸如简单地从求和形成D(p_i,p_j)(并且相应地缩放1/F)省略它们，或在丢失的特征f的情况下为p_i(f)-p_j(f)分配特定缺省值。应意识到，前述内容仅仅是说明性范例，并且基本上任何其他比较公式都可以用来识别相应数据库i和j中匹配的患者。

在操作48中，在操作46中识别的交叉数据库患者匹配被制表在针对数据库对(i，j)的患者ID转换表中。例如，该表可以是m×2表，诸如：

表示1–针对数据库对(i，j)的说明性患者ID转换表

其中，应注意，在该范例中，数据库i中的患者ID＝3在数据库j中没有匹配，并且类似地，数据库j中的患者ID＝6、ID＝9和ID＝23在数据库i中没有匹配。表示1的说明性范例通过数据库i的患者ID来进行排序，但是通过数据库j的患者ID执行排序是微不足道的，如果这样做将会实现表的更有效的读出(例如，如果由图1的患者数据检索过程18接收的查询通过数据库j中的患者ID来索引)。

应当注意，在一些实施例中，患者匹配不是排他性的。这在表1中进行图示，其中，数据库i的患者ID＝5与数据库j的患者2并且与数据库j的患者3相匹配。这种任选的非排他性实现了对患者匹配中的不确定性的捕获。对于医学数据分析应用，如果这种不确定匹配的数量相对低，那么这种非排他性匹配不一定会造成问题，并且在这种情况下以此方式允许多个匹配能够在统计学基础上改善总体准确性。在表1中示出的针对数据库(i，j)的说明性转换表中，存储是通过复制针对数据库i患者ID5的条目的方式，这具有方便根据数据库i的患者ID或数据库j的患者ID对表进行排序的优点。

在决策操作50中，处理针对被整合的N个数据库10的集合中的每个唯一的数据库对(i，j)进行重复，以便生成针对每个唯一的数据库对(i，j)的患者ID转换表。因此，这种循环将会被执行N(N-1)/2次，以生成针对可从N个数据库获得的N(N-1)/2个唯一的数据库对的N(N-1)/2个转换表。例如，如果N＝3，那么存在三次迭代，针对对(1，2)一次，针对对(1，3)一次，并且针对对(2，3)一次。作为另一说明性范例，如果N＝5，那么存在十次迭代：(1，2)、(1，3)、(1，4)、(1，5)、(2，3)、(2，4)、(2，5)、(3，4)、(3，5)、(4，5)。通过决策操作50实施的循环能够例如通过嵌套循环i＝1至N-1；j＝i+1至N(其中，j是内循环)来实施。

N(N-1)/2个循环迭代的输出是针对N个数据库10的N(N-1)/2个唯一的数据库对的N(N-1)/2个转换表。在一些实施例中，这是提供由患者数据检索过程18使用的N(N-1)/2个转换表20(每个具有尺寸m×2)的最终输出。然而，如果数据库整合过程12在此时终止，那么来自多个(三个或更多个)健康护理数据库(即N>3)的信息不能被有效地用来改善个体m×2逐对转换表。

继续参考图2并且进一步参考图4，在说明性实施例中，在N(N-1)/2个转换表被构建之后，执行改进操作52，其基于N(N-1)/2个转换表之间的患者匹配的一致性来改进N(N-1)/2个转换表。在说明性实施例中，改进操作52不使用在操作44的迭代中识别的特征的集合，相反，改进操作52如在图4中图解性地示出的那样被执行，通过考虑N(N-1)/2个转换表之间的预期的一致性。在图4的范例中，每个圆圈表示被标记有他/她的匿名患者ID(例如“患者1”被标记有匿名ID＝1)和数据库(在该范例中X、Y或Z)的单个匿名患者。连接不同数据库中的患者的实线或虚线指示通过操作42、44、46、48的逐对匹配发现的可能匹配。在该范例中，数据库X中的患者1基于X-Y转换表被链接到数据库Y中的患者22。为了维持一致性，数据库X中的患者1和数据库Y中的患者22两者都应当被链接到数据库Z中的相同患者。然而，在针对对i＝X、j＝Z的逐对匹配过程中，数据库X的患者1被匹配到数据库Z中的患者72和患者31两者(这种非排他性匹配可以是可允许的，如已经针对表1的范例中的数据库i中的患者5的范例描述的)。在针对对i＝Y、j＝Z的逐对匹配过程中，数据库Y的患者22被匹配到数据库Z中的患者72和患者14两者。为了维持自我一致性，它遵循：数据库X的患者1和数据库Y的匹配的患者22必须匹配数据库Z的患者72，其他可能的匹配是不一致的。因此，在改进操作52中，数据库X的患者1与数据库Z的患者31之间的匹配从X-Z转换表中去除，并且类似地，数据库Y的患者22与数据库Z的患者14之间的匹配从Y-Z转换表中去除。

在另一实施例中，这种一致性分析可以在迭代循环40、42、44、46、48、50期间被执行。该方法通过利用已经创建的逐对转换表来减少用于执行稍后循环迭代的处理时间。例如，考虑N＝3的情况，其中，数据库被索引为X、Y和Z，并且其中，迭代循环40、42、44、46、48、50被执行从而以如下顺序创建X-Y、X-Z和Y-Z转换表。在X-Y和X-Z转换表的创建之后，由此可以知晓数据库X的患者10被链接到数据库Y的患者11，并且数据库X的患者10也被链接到数据库Z的患者15。然后，在创建Y-Z转换表的最后一次迭代期间，已经知晓数据库Y的患者11应当被链接到数据库Z的患者15，以便确保Y-Z转换表与已经创建的X-Y和X-Z转换表的一致性。

额外地或替代地，在本文中公开的一些实施例中，纵向信息被利用以改善患者匹配。一般地，对于匿名健康护理数据库中的单个匿名患者，纵向特征通过一对带时间戳事件来定义，该对带时间戳事件由事件的时间戳之间的时间间隔Δt分开。即使在匿名化过程引入针对每个患者的所有时间戳的随机的但是刚性的偏移的匿名健康护理数据库中，这种纵向特征也是良好定义的，因为刚性时间偏移不影响事件之间的时间间隔Δt。

参考图5，描述了纵向特征的范例。纵向特征通过跟随有类型f的事件的类型e的事件来定义，两种类型的事件由时间间隔Δt分开。在图5的范例中，数据库X中的患者m具有跟随有事件类型f的事件的发生的事件类型e的事件的发生，两种类型的事件由时间间隔Δt分开。同样地，数据库Y中的患者n具有跟随有事件类型f的事件的发生的事件类型e的事件的发生，两种类型的事件由相同的时间间隔Δt分开。相比之下，数据库Z中的患者p具有跟随有事件类型f的事件的事件类型e的事件，然而，类型e与f的事件之间的时间间隔比时间间隔Δt大得多。因此，基于由时间间隔Δt分开的事件序列e→f的时间特征，数据库X中的患者m与数据库Y中的患者n相匹配，但是与数据库Z中的患者p不匹配。在匹配这种纵向特征中，考虑到允许针对不同数据库中的患者的Δt的一定变化以例如考虑时间戳的条目的可能误差。

考虑到具有更复杂的纵向特征，例如类型g→e→f的事件，其中，事件g→e由第一时间间隔Δt₁分开，而事件e→f由第二时间间隔Δt₂分开。在其他考虑的纵向特征中，Δt的可允许变化可以足够大以至于在类型e→f的事件按顺序发生的情况下(不管它们之间的时间间隔如何(在通过Δt的可允许变化定义的特定界限内))实际上纵向特征被匹配。

说明性纵向特征采用事件之间的时间间隔Δt，而非比较针对两个数据库(i，j)中的患者的事件的时间戳。如之前讨论的，依赖于事件之间的时间间隔而非依赖于事件的绝对时间戳的这种方法针对作为匿名化过程的一部分的患者时间线被刚性地偏移一定随机量的可能性是鲁棒的。

在一些实施例中，纵向特征像在操作44中使用并在操作46中使用的特征的集合的其他特征(参见图2)一样被处置。然而，该方法会引入不必要的计算复杂性，因为纵向特征的识别和处理会是计算上复杂的。例如，如果平均患者具有E＝30个事件，那么识别形式e→f的纵向特征所需的逐对事件比较的数量是E(E-1)/2＝435个事件对。另一方面，纵向特征的相当高的特异性意味着它们能够对匹配的患者是有高度鉴别力的。因此，在一些实施例中，患者匹配操作46最初被执行而不依赖于纵向特征，其中，纵向特征被计算并且仅被用于困难的匹配(例如，当仅非纵向特征被使用时与数据库Y中的多于一个患者相匹配的数据库X中的患者)。

在一些实施例中，非纵向特征匹配使用针对每个患者的通用患者ID(或UID)来执行(或部分地执行)。UID被构建为常见特征(诸如患者的性别、民族、年龄和体重)的集合的串联。例如，针对患者的UID 1518170可以使用他们的以下特征来生成：男性或性别1(1518170的第一个数字)；北美土著居民或民族5(1518170的第二个数字)，18岁的年龄(1518170的第三和第四个数字)和170磅的体重(1518170的第五、第六和第七个数字)。因此，每当针对患者生成新的记录(医学记录或索赔记录)时，UID就被分配给患者记录。由于UID是基于特征的，所以它应当跨不同匿名数据库是相同的。任选地，一些容差被接受，例如，当使用±1年的容差阈值用于年龄时，数据库II中的80的年龄被认为与数据库I中的79-81的年龄相同。用于特征匹配的这种UID方法可以被用于用来匹配患者的特征的集合的所有特征，或替代地特征的更小子集可以被串联以形成UID，其中，形成UID的特征的集合对所有N个数据库10都是常见的。该后一方法有利地使得UID被计算一次并且重新用于图2的(i，j)循环的每次迭代，这能够增加计算效率。在该方法中，考虑了三级匹配过程：(1)基于UID进行匹配；(2)对于不同的情况，基于未被包括在UID中的额外非纵向特征进行匹配；以及最后(3)对于甚至更困难的情况，使用纵向特征来进行匹配。

应意识到，公开的方面的各种组合可以被采用在给定的实施例中。例如，纵向特征匹配能够用于双数据库整合(N＝2)和用于多数据库整合(N>3)。自然语言处理(NLP)能够用来从针对N＝2和N>3整合任务两者的非结构化或半结构化数据库生成特征的集合。

在用于观察公开的图1的健康护理数据分析设备的替代性方法中，整合N个匿名健康护理数据库10的过程能够被视为从N个匿名健康护理数据库10重建匿名群体图像的匿名群体图像重建方法。在该替代性视角中，重建的匿名群体图像包括通过N(N-1)/2个转换表20整合的N个匿名健康护理数据库10的内容。在该替代性视角中，匿名群体图像重建方法将N个匿名健康护理数据库10形式的群体成像数据重建(或转换)为包括通过N(N-1)/2个转换表20整合的N个匿名健康护理数据库10的内容的匿名群体图像。

已经参考优选实施例描述了本发明。他人在阅读和理解以上具体实施方式的情况下可能想到修改或替代。本文旨在将本发明解释为包括所有这种修改和替代，只要它们落入权利要求书及其等价方案的范围之内。

Claims

1.一种匿名健康护理数据源设备，包括：

至少一个电子处理器(14)，其被编程为通过执行数据库整合过程(16)来整合N个匿名健康护理数据库(10)，其中，N是具有为至少三的值的正整数，所述数据库整合过程包括以下操作：

针对所述N个匿名健康护理数据库中的数据库对(i，j)，识别(44)每个都被包含在所述数据库对(i，j)的数据库i和j两者中的特征的集合，并且基于通过所述特征的集合度量的患者相似度来生成(46、48)与所述数据库对相匹配的患者的转换表；

针对所述N个匿名健康护理数据库中的每个唯一的数据库对重复(50)所述识别和生成操作以生成N(N-1)/2个转换表(20)；并且

所述至少一个电子处理器(14)还被编程为执行患者数据检索过程(18)，所述患者数据检索过程包括使用所述N(N-1)/2个转换表(20)来检索被包含在所述N个匿名健康护理数据库中的一个或多个匿名患者的患者数据的操作。

2.根据权利要求1所述的设备，其中，针对所述数据库对(i，j)识别所述特征的集合包括识别特征准确性度量满足针对所述数据库对(i，j)中的每个匿名健康护理数据库的最小准确性的特征。

3.根据权利要求1-2中的任一项所述的设备，其中，检索被包含在所述N个匿名健康护理数据库(10)中的所述患者数据包括针对查询特征：

如果所述查询特征被包含在所述N个匿名健康护理数据库中的仅仅一个中，那么从包含所述查询特征的所述匿名健康护理数据库检索所述查询特征；并且

如果所述查询特征被包含在所述N个匿名健康护理数据库中的两个或更多个中，那么基于针对包含所述查询特征的相应匿名健康护理数据库中的所述查询特征的所述特征准确性度量根据所述N个匿名健康护理数据库中的包含所述查询特征的两个或更多个中的所述查询特征的值来生成针对所述查询特征的检索值。

4.根据权利要求1-3中的任一项所述的设备，其中，生成所述转换表(20)包括生成m×2转换表，其中，m是在所述数据库对(i，j)中匹配的患者的数量。

5.根据权利要求1-4中的任一项所述的设备，其中，所述数据库整合过程(16)包括基于所述N(N-1)/2个转换表之间的患者匹配的一致性来改进所述N(N-1)/2个转换表的进一步操作(52)。

6.根据权利要求5所述的设备，其中，所述改进(52)不使用所识别的特征的集合。

7.根据权利要求1-6中的任一项所述的设备，其中，所述数据库整合过程(16)包括针对所述N个匿名健康护理数据库中的至少一个数据库对：

识别(44)通过一对带时间戳事件定义的至少一个纵向特征，所述一对带时间戳事件由所述事件的时间戳之间的时间间隔Δt分开；并且

部分地基于所述纵向特征的匹配(46)来生成(46、48)与所述数据库对中的患者相匹配的所述转换表包括针对所述两个数据库(i，j)中的患者的所述时间间隔Δt的比较。

8.根据权利要求7所述的设备，其中，部分地基于所述纵向特征的匹配来生成与所述数据库对中的患者相匹配的所述转换表(20)不包括针对所述两个数据库(i，j)中的患者的事件的时间戳的比较。

9.一种匿名健康护理数据源设备，包括：

至少一个电子处理器(14)，其被编程为通过执行数据库整合过程(16)来整合健康护理数据库i和健康护理数据库j，所述数据库整合过程包括以下操作：

针对所述数据库对(i，j)，识别(44)每个都被包含在所述数据库对(i，j)中的数据库i和j两者中的特征的集合，所述特征的集合包括通过一对带时间戳事件定义的至少一个纵向特征，所述一对带时间戳事件由所述事件的时间戳之间的时间间隔Δt分开，并且基于通过所述特征的集合度量的患者相似度来生成(46、48)与所述数据库对(i，j)中的患者相匹配的转换表(20)，所述生成包括针对所述两个数据库(i，j)中的患者的所述时间间隔Δt的比较；

所述至少一个电子处理器(14)还被编程为执行患者数据检索过程(18)，所述患者数据检索过程包括使用与所述数据库对(i，j)中的患者相匹配的所述转换表(20)来检索针对被包含在两个匿名健康护理数据库(i，j)中的一个或多个匿名患者的患者数据的操作。

10.根据权利要求9所述的设备，其中，基于患者相似度来生成(46、48)与所述数据库对(i，j)中的患者相匹配的所述转换表(20)不包括针对所述两个数据库(i，j)中的患者的事件的时间戳的比较。

11.根据权利要求9-10中的任一项所述的设备，其中：

识别(44)所述特征的集合包括识别被包含在所述数据库对(i，j)中的数据库i和j两者中的非纵向特征的集合，并且针对每个数据库i和j中的每个患者，生成针对所述患者的通用识别符(UID)，所述通用识别符包括针对所述患者的所述非纵向特征的集合的值的串联；并且

生成(46、48)所述转换表(20)包括基于通过所述特征的集合度量的患者相似度来生成与所述数据库对(i，j)中的患者相匹配的所述转换表，还包括针对所述两个数据库(i，j)中的患者的所述UID的比较。

12.根据权利要求9-11中的任一项所述的设备，其中：

识别(44)所述特征的集合包括通过对患者记录的文本内容执行自然语言处理(NLP)以提取所述特征来识别所述数据库对(i，j)中的至少一个数据库中的至少一个特征。

13.根据权利要求9-12中的任一项所述的设备，其中，识别(44)每个都被包含在所述数据库对(i，j)中的数据库i和j两者中的所述特征的集合包括识别特征准确性度量满足所述匿名健康护理数据库i和所述匿名健康护理数据库j两者的最小准确性的特征。

14.根据权利要求9-13中的任一项所述的设备，其中，使用与所述数据库对(i，j)中的患者相匹配的所述转换表(20)来检索被包含在两个匿名健康护理数据库(i，j)中的所述患者数据包括针对查询特征：

如果所述查询特征被包含在所述匿名健康护理数据库对(i，j)中的仅仅一个数据库中，那么从包含所述查询特征的所述匿名健康护理数据库检索所述查询特征；并且

如果所述查询特征被包含在所述匿名健康护理数据库对(i，j)中的两个数据库中，那么基于针对包含所述查询特征的相应匿名健康护理数据库中的所述查询特征的所述特征准确性度量根据所述匿名健康护理数据库对(i，j)中的所述查询特征的值来生成针对所述查询特征的检索值。

15.根据权利要求9-14中的任一项所述的设备，其中，生成(46、48)所述转换表(20)包括生成(48)m×2转换表，其中，m是在所述数据库对(i，j)中匹配的患者的数量。

16.根据权利要求9-15中的任一项所述的设备，其中：

所述至少一个电子处理器(14)被编程为通过执行所述数据库整合过程(16)来整合包括所述匿名健康护理数据库i、所述匿名健康护理数据库j和至少一个额外匿名健康护理数据库的N个数据库(10)，所述数据库整合过程包括针对所述N个匿名健康护理数据库中的每个唯一的数据库对重复所述识别和生成操作(44、46、48)以生成N(N-1)/2个转换表(20)的进一步操作(50)；并且

所述至少一个电子处理器(14)还被编程为执行所述患者数据检索过程(18)，所述患者数据检索过程包括接收所述匿名健康护理数据库(i，j)中的一个中的患者的患者ID并且使用所述N(N-1)/2个转换表(20)来检索针对被包含在所述N个匿名健康护理数据库(10)中的所述患者的患者数据的操作。

17.一种存储指令的非瞬态存储介质，所述指令可由计算机(14)读取和执行以执行从N个匿名健康护理数据库(10)重建匿名群体图像的匿名群体图像重建方法(16)，其中，N是具有为至少二的值的正整数，所述匿名群体图像重建方法包括：

针对所述N个匿名健康护理数据库中的数据库对(i，j)，识别(44)每个都被包含在所述数据库对(i，j)中的数据库i和j两者中的特征的集合，并且生成(46、48)基于通过所述特征的集合度量的患者相似度与所述数据库对中的患者相匹配的转换表(20)；并且

针对所述N个匿名健康护理数据库中的每个唯一的数据库对重复所述识别和生成操作(44、46、48)，以生成通过所述N(N-1)/2个转换表(20)整合的包括所述N个匿名健康护理数据库的内容的所述匿名群体图像。

18.根据权利要求17所述的非瞬态存储介质，其中，所存储的指令可由计算机(14)读取和执行，以进一步执行匿名群体图像数据检索方法(18)，所述匿名群体图像数据检索方法包括接收匿名群体数据查询，并且响应于所述匿名群体数据查询而使用所述N(N-1)/2个转换表(20)从所述匿名群体图像检索患者数据。

19.根据权利要求17-18中的任一项所述的非瞬态存储介质，其中，N是具有为至少三的值的正整数。

20.根据权利要求19所述的非瞬态存储介质，其中，生成(46、48)所述转换表包括生成m×2转换表，其中，m是在所述数据库对(i，j)中匹配的患者的数量，其中，所述N(N-1)/2个转换表(20)中的每个是m×2转换表。

21.根据权利要求19-20中的任一项所述的非瞬态存储介质，其中，所述匿名群体图像重建方法(16)包括基于所述N(N-1)/2个转换表之间的患者匹配的一致性来改进(52)所述N(N-1)/2个转换表(20)的进一步操作。

22.根据权利要求21所述的非瞬态存储介质，其中，所述改进(52)在所述N(N-1)/2个转换表(20)上操作，并且不使用所识别的特征的集合。

23.根据权利要求17-22中的任一项所述的非瞬态存储介质，其中，所述匿名群体图像重建方法(16)包括针对所述N个匿名健康护理数据库(10)中的至少一个数据库对：

识别通过一对带时间戳事件定义的至少一个纵向特征，所述一对带时间戳事件由所述事件的时间戳之间的时间间隔Δt分开；并且

部分地基于所述纵向特征的匹配来生成(46、48)与所述数据库对中的患者相匹配的所述转换表(20)包括针对所述两个数据库(i，j)中的患者的所述时间间隔Δt的比较。

24.根据权利要求23所述的非瞬态存储介质，其中，部分地基于所述纵向特征的匹配来生成与所述数据库对中的患者相匹配的所述转换表(20)不包括包括针对所述两个数据库(i，j)中的患者的事件的时间戳的比较。