CN108351895A - 向去识别化的数据库整合和/或添加纵向信息 - Google Patents

向去识别化的数据库整合和/或添加纵向信息 Download PDF

Info

Publication number
CN108351895A
CN108351895A CN201680066051.1A CN201680066051A CN108351895A CN 108351895 A CN108351895 A CN 108351895A CN 201680066051 A CN201680066051 A CN 201680066051A CN 108351895 A CN108351895 A CN 108351895A
Authority
CN
China
Prior art keywords
individual
database
group
entity
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680066051.1A
Other languages
English (en)
Inventor
R·谢里菲塞德
贾宇岗
D·R·埃尔戈特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN108351895A publication Critical patent/CN108351895A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种方法包括从针对第一组实体的第一类型的数据库接收针对个体的第一组去识别化的记录。所述第一类型的数据库不包括跨所述第一组实体链接所述第一组去识别化的记录的纵向信息。所述方法包括从针对第二组实体的第二类型的数据库接收针对单个个体的第二组去识别化的记录。所述第二类型的数据库包括纵向信息,所述纵向信息跨所述第二组实体链接包括随时间链接所述第二组去识别化的记录。所述方法包括整合所述第一类型的数据库和所述第二类型的数据库,所述整合匹配所述各个个体和所述单个个体。所述方法包括基于所述第二类型的数据库的纵向信息向针对所述各个个体的所述第一类型的数据库添加纵向信息。

Description

向去识别化的数据库整合和/或添加纵向信息
技术领域
以下总体涉及去识别化的数据库,并且更具体而言涉及将纵向信息整合和/或添加到去识别化的数据库。
背景技术
存在从管理到运营到临床等各种类型的数据库。这些数据库已被研究人员分开使用,以处理其领域特定的研究问题-即管理、操作或临床。如果整合在一起,这些数据库将为健康护理服、解决方案研究等提供更丰富和更有益的信息,并将有助于研究更广泛的研究项目,这些研究项目不仅限于一个特定领域。出于隐私,这样的数据库中的记录以及记录的来源实体将被去识别化。也就是说,个人的所有身份(例如,姓名,社会安全号码等)从数据库中被移除,并且具有这些记录和/或数据库的实体的所有身份都被从数据库中移除。
当这样的数据库只有去识别化的信息可用时,没有可用的直接方法可用于匹配跨不同数据库的患者记录。为了匹配跨这些数据库中的相应记录并构建综合数据集,记录必须基于一组非唯一识别特征(例如,年龄,性别,体重,诊断,住院时间等)进行匹配。遗憾的是,这可能是一项繁琐而费时的任务,需要针对大量信息的处理和存储,并且易于出现匹配错误。另外,即使在匹配时,匹配的去识别化的数据库中的一个可能不包括跨不同护理设置和时间链接针对该数据库的患者记录(例如,每个医疗事件)的患者的纵向信息。
发明内容
本申请的各方面解决了上面提及的问题和其它问题。
根据一个方面,一种方法包括从针对第一组实体的第一类型的数据库接收针对各个个体的第一组去识别化的记录。所述第一类型的数据库不包括跨所述第一组实体链接所述第一组去识别化的记录的纵向信息。所述方法包括从针对第二组实体的第二类型的数据库接收针对单个个体的第二组去识别化的记录。所述第二类型的数据库包括纵向信息,所述纵向信息跨所述第二组实体链接包括随时间而链接所述第二组去识别化的记录。所述方法包括整合所述第一类型的数据库和所述第二类型的数据库,所述整合匹配所述各个个体和所述单个个体。所述方法包括基于所述第二类型的数据库的纵向信息向针对所述各个个体的所述第一类型的数据库添加纵向信息。
在另一方面中,一种方法包括从针对不同实体的第一类型的数据库接收针对第一组个体的第一组去识别化的记录,并且从针对不同实体的第二类型的数据库接收针对第二组个体的第二组去识别化的记录。所述方法包括将第一类型的数据库的第一个体与第二类型的数据库中的具有相同的唯一识别符并且共享具有较少数量的实体代码的个体的所述实体代码的预定百分比的第二个体进行匹配。所述方法包括在第三实体处识别在第二类型的数据库中具有记录的第二个体,在所述第三实体处识别所述第二类型的数据库中具有与所述第二个体相同的唯一标识符的多个个体,并且识别所述第一个体和所述多个个体中的每个个体的和临床信息。所述方法包括基于所述临床信息来将所述第一个体与所述多个个体中的仅一个进行匹配。
在另一方面中,一种计算系统包括:存储器设备,其被配置为存储指令,所述指令包括记录整合模块;以及处理器,其被配置为执行所述指令。所述处理器响应于执行指令而:识别跨至少两个不同数据库共同的一组特征,基于所述一组特征来生成针对所述个体中的每个的唯一标识符,基于所述一组特征来计算针对每个个体的罕见度系数,基于所述罕见度系数来跨所述第一类型的数据库和所述第二类型的数据库来匹配所述第一组和所述第二组去识别化的实体,在第三实体处识别在所述第二类型的数据库中具有记录的单个个体,在所述第三实体处识别所述第一类型的数据库中的与所述单个个体具有相同的唯一标识符的多个个体,识别所述单个个体的临床信息和所述多个个体中的每个个体的临床信息,并且基于所述临床信息来将所述单个个体与所述多个个体中的仅一个匹配。
本领域普通技术人员在阅读和理解以下详细描述后,将认识到本发明其他的方面。
附图说明
本发明可以采取各种部件和各部件的布置以及各种步骤和各步骤的安排的形式。附图仅出于图示优选的实施例的目的并且不应被解释为对本发明的限制。
图1示意性地图示了具有数据库整合模块的示例系统。
图2示意性地图示了数据库整合模块的示例。
图3图示了用于整合去识别化的数据库的示例方法。
图4描绘了用于整合去识别化的数据库的示例。
图5图示了用于将纵向信息添加到去识别化的数据库的示例方法。
图6描绘了不存在纵向信息的跨实体的第一类型的数据库中的个体的记录的示例。
图7描绘了具有纵向信息的跨实体的第二类型的数据库中的个人的记录的示例。
图8描绘了通过与图7的数据库整合来向图6的数据库添加纵向信息。
具体实施方式
以下总体描述了一种用于通过将去识别化的数据库与跨越多个实体的包括个人的纵向信息的不同的去识别化的数据库进行整合来将针对个体的纵向信息添加到跨多个实体的不包括纵向信息的去识别化的数据库的方法。所述整合在一个实例中包括使用所述个体的至少临床信息来将去识别化的数据库与不同的去识别化的数据库中的个体的去识别化的记录进行匹配。
合适的去识别化的数据库包括基于健康护理的去识别化的数据库和/或基于非健康护理的去识别化的数据库。这样的去识别化的数据库的例子包括但不限于管理、操作、临床和债权去识别化的数据库。为了简洁和清楚起见,以下描述了关于个人(例如,患者)在临床和债权去识别化的数据库中的医疗记录。然而,应该理解的是,这不是限制性的,并且本文中的描述也适用于其他去识别化的数据库。
图1图示了系统100。系统100包括多个实体1021,...,102N(统称为实体102),其中,N是大于二(2)的正整数。实体102例如是医院、诊所、医生办公室、商业企业等。每个实体102产生针对个体(例如,在健康护理实体的背景下的患者)的一种或多种不同类型的信息。一种信息,例如,是管理、操作、临床、债权和/或其他类型的信息。
通常,每个实体102采用其自己的唯一识别符生成算法来为实体102的每个个体创建和分配内部(即,在实体102内)标识符。实体102内的个体的信息被分组在一起,被标记并且与针对该个体的标识符相链接。通常,没有两个实体102使用完全相同的算法。因此,在两个不同的实体中的相同个体的信息可能被分配不同的身份并且不能被容易地匹配。
该系统还包括多个数据库1041,...,104M(统称为数据库104),其中,M是等于或大于二(2)的正整数。每个数据库104存储与存储在另一数据库104中的信息类型不同的特定类型的信息。例如,一个数据库104可以仅存储临床信息,而另一数据库104仅存储债权信息。存储在每个数据库104中的信息是去识别化的数据,因为去除了对个体和实体的名称的所有引用。
计算系统106包括至少一个处理器108(例如微处理器、中央处理单元等),所述处理器124运行在计算机可读存储介质(“存储器”)110中存储的至少一条计算机可读指令,所述计算机可读存储介质不包括瞬态介质而包括物理存储器和/或其他非瞬态介质。计算系统106还包括诸如显示监视器的(一个或多个)输出设备112和诸如鼠标、键盘等的(一个或多个)输入设备114。在该示例中,所述至少一条计算机可读指令包括记录整合模块116。
在图示的示例中,实体102、数据库104和计算系统106全部与网络118通信。网络118是有线的和/或无线的。在变型中,实体102、数据库104和计算系统106以其他方式通信。此外,实体102、数据库104和计算系统106可以通过计算机装置和/或“基于云”的服务来实现。
数据库整合模块116的指令在由所述至少一个处理器108执行时使所述至少一个处理器108对所述数据库104进行整合。在一个实例中,整合的数据库相对于个体数据库提供了关于个体的更多信息。这导致改进技术并降低用于处理数据库中的数据的处理能力和存储器要求,例如用于医疗和解决方案研究等服务中的应用。通过这些应用,可以使用来自链接数据库的纵向信息来追踪患者从一次医院就诊或在另一家医院住院。这样的数据可用于执行基于数据库的护理连续分析或根本原因分析。
如以下更加详细地描述的,在一个非限制性实例中,所述整合包括,匹配去识别化的数据库中的实体来对去识别化的数据库中的去识别化的实体进行链接,并且然后仅基于来自相同的实体那些去识别化的数据库中的记录来匹配个体。为了细化个体匹配并提高精确个体匹配的概率,需要考虑额外的信息维度;即个体的历史(例如,临床等)。一旦被整合,在一个去识别化的数据库中的个体的纵向信息可以用于创建在另一个去识别化的数据库中的个体的纵向信息。
图2示意性地图示了数据库整合模块116的示例。数据库整合模块116包括记录检索器202。记录检索器202从数据库104的全部或子集检索记录以进行整合。这包括从不包括纵向信息的第一类型(例如,临床)的去识别化的数据库和包括纵向信息的第二类型(例如,债权)的去识别化的数据库中检索记录。所述第二类型的去识别化的数据库被用于将纵向信息添加到所述第一类型的去识别化的数据库。在该示例子中,所述第二类型的去识别化的数据库包括包含在所述第一类型的去识别化的数据库中的所有实体。
所述数据库整合模块116还包括唯一标识符(UID)生成器204。UID生成器204针对检索到的记录中的每个去识别化的个体生成UID。所述UID可以存储在计算系统106的存储器110中、一个或多个数据库104中和/或另外的(一个或多个)存储设备中。在该示例中,UID生成器204基于利用数据库104的共同特征的UID算法来生成UID。共同患者特征的例子包括:年龄,种族,死亡率,性别,住院时间(LOS),出院地点(DL),入院来源(AS),诊断和/或其他特征。一个或多个这些特征可能有缺失的和/或错误的值。
在一个实例中,UID算法基于年龄、种族、性别、死亡率和LOS来定义以下数字编码方案。第一组数字(“X”xxxxxx)表示性别。在该示例中,值1指示男性,值0指示女性。第二组数字(x“X”xxxxx)表示种族。在该示例中,为5的值表示种族A。第三组数字(xx“X”xxxx)表示死亡率。在该示例中,为1的值指示患者没有活着,并且为0的值指示患者活着。第四组数字(xxx“XXX”xx)表示LOS。第五组数字(xxxxx“XX”)表示年龄。在本文中预期其他特征和/或编码(例如,字母,字母数字等)。
因此,对于具有以下共同患者特征的患者记录:性别=男性,种族=A,死亡率=未存活,LOS=122天,年龄=18岁,UID生成器204生成以下UID:15112218、由于年龄和LOS是数值,并且在不同的电子记录系统中可以向上或向下取整,所以在一个实例中,在生成UID时使用容差(例如±1或其他)。也就是说,上例中的患者可以是从十七岁半到十八岁半的任何地方。同样,患者可能在一百二十二天期间的某个时间出院,导致121或122天的LOS,这取决于出院日是否被计为一整天。
数据库整合模块116还包括罕见度分配器206,罕见度分配器206基于罕见度算法来计算来自正在被处理的数据库104的记录中的每个去识别化的个体的罕见度系数。针对示例患者UID=15112218的示例罕见度系数如表1所示地使用罕见度算法计算。
表1针对患者UID=15112218的示例罕见度系数计算。
根据表1,示例患者UID=15112218的罕见度系数是4.5×10-11,这意味着大约在每220亿个患者中,仅有一个患者的罕见度系数与该患者的罕见度系数一样小。一般来说,罕见度系数越低,患者在数据库中的数量就越少。在本文中也预期其他罕见度算法。
数据库整合模块116还包括实体匹配器208,所述实体匹配器208跨数据库104匹配去识别化的实体。在一个实例中,实体匹配过程如下地执行。对于两个数据库中的每年的数据,临床数据库中的医院都被链接到债权数据库中的它们对应的医院。为此,罕见度系数阈值被设定为预定值(例如10-10)。然后,对于每个临床医院X,其罕见度系数低于阈值的患者被匹配到债权数据库中的患者。临床医院X中罕见度系数低于阈值的患者人数为n。
接下来,包含临床医院X中n个患者的至少a)5个和b)个30%的患者记录的债权医院Y被识别并且与临床医院X相关联。这两个医院的患者在其余的医院匹配过程中被排除。然后,罕见度系数阈值被缩放(例如,乘以十或其他缩放因子),并且重复该过程,直到来自临床数据库的所有医院都被链接到债权数据库的医院。然后这个过程在不同的年份上重复。如果临床医院X在不同年份与债权医院Y相关联,则临床医院X和债权医院Y被匹配。
数据库整合模块116还包括记录匹配器210,记录匹配器210,基于记录匹配算法,针对每组匹配的实体跨数据库104匹配去识别化的记录。一旦来自临床数据库的医院与债权数据库中的医院匹配,记录匹配器210就执行来自相同医院的两个数据库中的患者之间的患者记录匹配。因此,如果临床医院X和债权医院Y匹配,则基于预定条件将来自临床医院X的患者A与来自债权医院Y的患者B匹配。
在一个实例中,记录匹配器210基于以下进行匹配。如果去识别化的个体A与去识别化的个体B具有相同的UID,并且去识别化的个体A和去识别化的个体B共享具有最少数量的国际疾病分类(ICD)代码的个体(即,A或B)的相同ICD代码的至少50%,则记录匹配器210认为匹配成功。例如,如果十个ICD代码中的六个已经分别分配给临床数据库中的患者A和债权数据库中的患者B,则患者A和患者B必须共享至少三个ICD代码。
在2015年2月27日提交的题为“Efficient Integration of De-IdentifiedRecords”的专利申请序列号62/121608中描述了检索器202、UID生成器204、罕见度分配器206、实体匹配器208和/或记录匹配器210的示例,其全部内容通过引用并入本文。本文中也预期其它方法。
数据库整合模块116还包括逻辑部件212。所述逻辑部件确定不同实体的临床数据库与债权数据库之间的个体是否与另一个实体中的个体具有相同的UID。一般来说,如果根据债权数据库己知患者B也访问了医院Z,则在Z医院的临床数据库中将有患者与患者B匹配。这样,医院Z的债权数据库中的患者B可能与医院Z的临床数据库中的个体C,D或E具有相同的UID。
数据库整合模块116还包括匹配减少器214,该匹配缓冲器214响应于逻辑部件212确定不同实体的临床和债权数据库之间匹配的个体与另一实体中的多个个体具有相同的UID而被使用。在一个实例中,匹配减少器214使用临床信息来确定所述多个个体中的哪一个是匹配项。例如,如果患者A具有高血清肌酸酐基线和/或其他临床特征,则具有高血清肌酸酐基线的患者C,D或E与患者B匹配。
数据库整合模块116还包括纵向数据加法器216。纵向数据添加器216使用一个数据库中的个体的纵向信息来创建不包括纵向信息的另一个数据库中的患者的纵向信息。在一个实例中,纵向数据添加器216针对没有纵向信息第一类型的数据库中的患者创建访问密钥,以在通过在患者的不同访问中跟踪他/她。例如,如果患者已经访问了四次A医生,三次医院I和四次医院II,那么这十次访问将具有相同的访问密钥,例如1234。因此,众所周知,所有这十次访问都是针对同一个患者。经整合的去识别化的数据库和/或具有新添加的纵向信息的去识别化的数据库被存储在数据库104和/或其他数据库中。
图3图示了用于整合数据库的示例方法。
要理解,本文中描述这些方法的动作的顺序不是限制性的。这样,本文中预期其他顺序。另外,可以省略一个或多个动作和/或可以包括一个或多个额外的动作。
在302处,如本文所述和/或以其他方式,从至少两个不同的去识别化的数据库检索具有去识别化的个体和去识别化实体的记录,所述不同的去识别化的数据库存储针对每个个体的不同类型的信息。
在304处,如本文所述和/或以其他方式,识别在所述至少两个不同的去识别化的数据库中共同的一组特征。
在306处,如本文所述和/或以其他方式,使用所述一组患者特征针对检索到的去识别化的记录中的每个个体生成UID。
在308处,如本文所述和/或以其他方式,使用所述一组患者特征为每个去识别化的个体生成罕见度度量(例如,系数等)。
在310处,如本文所述和/或以其他方式,基于所述罕见度度量,跨至少两个不同的数据库匹配去识别化的实体。
在312处,如本文所述和/或以其他方式,经匹配的去识别化的实体的记录在去识别化的个体之间被匹配。
在314处,如本文所述和/或以其他方式,基于临床信息将匹配跨其他实体扩展。
图4描绘了图3的动作314的非限制性示例。在图4中,如本文所述和/或以其他方式,医院X的临床数据库中的患者A(402)被匹配(404)到医院Y的债权数据库中的患者B(406)。然而,医院Z的债权数据库中的患者B(408)与医院Z的临床数据库中的患者C,D和E(410、412和414)具有相同的UID。患者A,C,D和E具有以下临床信息:高血清肌酸酐基线(患者A);高血压(患者C);高血清肌酸酐基线(患者D)和慢性肾病(患者E)。这样,医院Z的债权数据库中的患者B(408)与医院Z的临床数据库中的患者D(412)匹配416。
图5图示了用于将纵向信息添加到集成数据库的示例方法。
要理解,本文中描述这些方法的动作的顺序不是限制性的。这样,本文中预期其他顺序。另外,可以省略一个或多个动作和/或可以包括一个或多个额外的动作。
在502处,获得不同实体处的第一类型的数据库中的个体的第一组去识别化的记录,其中,不存在连接所述不同实体的纵向信息,并且所述个体可以是不同个体或相同个体。在这个例子中,所述个体是相同个体。
在504处,获得在不同实体处的第二类型的数据库中的个体的第二组去识别化的记录,其中,所述第二组针对单个个体,并且所述不同实体通过纵向信息被连接。
在506处,如本文所描述的和/或通过其他方式,通过将所述第二类型的数据库中的单个个体与所述第一类型的数据库中的个体进行匹配,来整合所述第一数据库和所述第二数据库。
在508处,针对单个个体将不同实体链接在一起,提供跨不同实体的并且随时间的针对所述第一类型的数据库的单个个体的纵向信息。
图6、7和8描绘了图5的非限制性示例。
图6描绘了不存在纵向信息的跨实体的第一类型的数据库中的个体的记录的示例。在图6中,临床数据库中的单个个体的记录被标识为医院X的患者A(602),医院Y的患者B(604)和医院Z的患者C(606),并且不通过纵向信息链接。
图7描绘了具有纵向信息的跨实体的第二类型的数据库中的个人的记录的示例。在图7中,针对债权数据库中的单个个体的记录被标识为医院X的患者D(702),医院Y的患者D(704)和医院Z的患者D(706),并且通过纵向信息(708、710)被链接。
图8描绘了通过将图6的数据库与图7的数据库整合来向图6的数据库添加纵向信息。在图8中,临床和债权数据库被整合(802、804、806),允许基于纵向信息(708、710)向临床数据库添加纵向信息(808、810)。
可以通过计算机可读指令实现以上内容,所述指令在通过,是(一个或多个)计算机处理器执行时,使所述(一个或多个)处理器执行所描述的动作。在这种情况下,指令可以被存储在与相关计算机关联或者否则可被相关计算机访问的计算机可读存储介质中。额外地或替代地,所述一条或多条指令可以由载波或信号承载。
本文中参考各实施例描述了本发明。他人在阅读本文中的描述之后可以做出修改和变型。旨在将本发明理解为包括所有这样的修改和变更,只要它们落在所附权利要求或其等价物的范围之内。

Claims (20)

1.一种方法,包括:
从针对第一组实体的第一类型的数据库接收针对各个个体的第一组去识别化的记录,其中,所述第一类型的数据库不包括跨所述第一组实体链接所述第一组去识别化的记录的纵向信息;
从针对第二组实体的第二类型的数据库接收针对单个个体的第二组去识别化的记录,其中,所述第二类型的数据库包括纵向信息,所述纵向信息跨所述第二组实体链接包括随时间链接所述第二组去识别化的记录;
整合所述第一类型的数据库和所述第二类型的数据库,所述整合匹配所述各个个体和所述单个个体;并且
基于所述第二类型的数据库的纵向信息向针对所述各个个体的所述第一类型的数据库添加所述纵向信息。
2.根据权利要求1所述的方法,其中,所述第一组去识别化的记录包括没有所述各个个体的身份并且没有所述第一组实体的身份的记录。
3.根据权利要求1所述的方法,其中,所述第二组去识别化的记录包括没有所述个体的身份并且没有所述第二组实体的身份的记录。
4.根据权利要求1所述的方法,其中,所述纵向信息的所述添加包括创建访问密钥,所述访问密钥基于实体访问来跨所述第一组实体连接针对各个个体的所述第一组去识别化的记录。
5.根据权利要求1所述的方法,其中,所述第一类型的数据库与所述第二类型的数据库的所述整合包括:
识别跨所述第一类型的数据库与所述第二类型的数据库共同的一组特征,其中,所述一组特征包括以下中的一项或多项:年龄、种族、死亡率、性别、住院时长、出院地点、入院来源和诊断;
基于所述一组特征来生成针对所述各个个体中的每个的唯一标识符;
基于所述一组特征来计算针对所述各个个体中的每个的罕见度系数;
基于所述罕见度系数来匹配所述第一组实体和所述第二组实体;并且
通过识别具有相同唯一标识符并且共享具有较少数量的实体代码的个体的所述实体代码的预定百分比的个体来仅匹配经匹配的实体中的个体。
6.根据权利要求5所述的方法,还包括:
将针对所述单个个体的纵向信息添加到针对所述第二组实体中的具有经匹配的个体的实体的所述第二类型的数据库。
7.根据权利要求5所述的方法,还包括:
在第三实体中识别在所述第二类型的数据库中具有记录的所述单个个体;
在所述第三实体处识别所述第一类型的数据库中的与所述单个个体具有相同的唯一标识符的多个个体;
识别所述第一类型的数据库中所述单个个体的临床信息以及所述第一类型的数据库中所述多个个体中每个的临床信息;并且
基于所述第一类型的数据库中的所述单个个体的临床信息将所述单个个体匹配到所述多个个体中的仅一个个体。
8.根据权利要求7所述的方法,其中,所述多个个体中只有一个个体具有与所述单个个体的所述临床信息相匹配的临床信息;并且所述方法还包括:
将所述单个个体与所述多个个体中的具有与所述单个个体的所述临床信息相匹配的所述临床信息的一个个体匹配。
9.根据权利要求7所述的方法,还包括:
将针对单个个体的纵向信息添加到针对所述第二组实体中的具有经匹配的个体的实体和所述第三实体的所述第二类型的数据库中。
10.根据权利要求1所述的方法,其中,所述至少两个不同的实体是健康护理提供者。
11.根据权利要求1所述的方法,其中,来源的类型包括管理、操作、临床、或债权中的两个或更多。
12.一种方法,包括:
从针对不同实体的第一类型的数据库接收针对第一组个体的第一组去识别化的记录;
从针对所述不同实体的第二类型的数据库接收针对第二组个体的第二组去识别化的记录;
将所述第一类型的数据库中的第一个体与所述第二类型的数据库中的具有相同的唯一识别符并且共享具有较少数量的实体代码的个体的所述实体代码的预定百分比的第二个体进行匹配;
在第三实体处识别在所述第二类型的数据库中具有记录的所述第二个体;
在所述第三实体处识别所述第二类型的数据库中的与所述第二个体具有相同的唯一标识符的多个个体;
识别所述第一个体的临床信息和所述多个个体中的每个个体的临床信息;并且
基于所述临床信息将所述第一个体与所述多个个体中的仅一个匹配。
13.根据权利要求12所述的方法,其中,所述多个个体中只有一个个体具有与所述单个个体的所述临床信息相匹配的临床信息;并且所述方法还包括:
将所述单个个体与所述多个个体中的具有与所述单个个体的所述临床信息相匹配的所述临床信息的一个个体匹配。
14.根据权利要求12所述的方法,还包括:
基于跨所述至少两个不同数据库共同的一组特征来针对所述个体中的每个生成唯一识别符;
基于所述一组特征来计算针对所述各个个体中的每个的罕见度系数;
基于所述罕见度系数来跨所述第一类型的数据库与所述第二类型的数据库匹配实体;并且
仅跨经匹配的实体来将所述第一类型的数据库的所述第一个体与所述第二类型的数据库的所述第二个体匹配。
15.根据权利要求12所述的方法,其中,以下之一:所述第一类型的数据库是通过纵向信息针对个体跨所述实体被链接的并且所述第二类型的数据库不是;或者所述第二类型的数据库是通过纵向信息针对个体跨所述实体被链接的并且所述第一类型的数据库,并且所述方法还包括:
将所述纵向信息添加到所述第一类型的数据库或所述第二类型的数据库中的另一个。
16.根据权利要求15所述的方法,其中,所述纵向信息的所述添加包括创建访问密钥以在多次不同的实体访问中连接所述数据库中的所述个体。
17.根据权利要求13所述的方法,其中,所述至少两个不同的实体是健康护理提供者。
18.根据权利要求13所述的方法,其中,来源的类型包括管理、操作、临床、或债权中的两个或更多。
19.一种计算系统(106),包括:
存储器设备(110),其被配置为存储指令,所述指令包括记录整合模块(116);以及
处理器(108),其执行所述指令,所述指令使所述处理器:
从针对不同实体的第一类型的数据库接收针对各个个体的第一组去识别化的记录,其中,所述第一类型的数据库不包含纵向信息;
从针对所述不同实体的第二类型的数据库接收针对单个个体的第二组去识别化的记录,其中,所述第二类型的数据库包括纵向信息,其中,所述纵向信息将跨所述不同实体并随时间链接所述第二组去识别化的记录;
通过匹配所述各个个体和所述单个个体来整合所述第一类型的数据库和所述第二类型的数据库;并且
将所述第二类型的数据库的纵向信息添加到针对所述各个个体的第一类型的数据库。
20.根据权利要求19所述的计算系统,其中,所述不同实体包括具有所述第一类型的数据库的第一组去识别化的实体和具有所述第二类型的数据库的第二组去识别化的实体,并且所述处理器还:
识别跨至少两个不同数据库共同的一组特征;
基于所述一组特征来生成针对所述各个个体中的每个的唯一标识符;
基于所述一组特征来计算针对所述各个个体中的每个的罕见度系数;
基于所述罕见度系数来跨所述第一类型的数据库和所述第二类型的数据库来匹配所述第一组去识别化的实体和所述第二组去识别化的实体中的实体;
在第三实体处识别在所述第二类型的数据库中具有记录的所述单个个体;
在所述第三实体处识别所述第一类型的数据库中的与所述单个个体具有相同的唯一标识符的多个个体;
识别所述单个个体的临床信息和所述多个个体中的每个个体的临床信息;并且
基于所述临床信息来将所述单个个体与所述多个个体中的仅一个匹配。
CN201680066051.1A 2015-11-11 2016-11-03 向去识别化的数据库整合和/或添加纵向信息 Pending CN108351895A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562253717P 2015-11-11 2015-11-11
US62/253,717 2015-11-11
PCT/IB2016/056599 WO2017081580A1 (en) 2015-11-11 2016-11-03 Integrating and/or adding longitudinal information to a de-identified database

Publications (1)

Publication Number Publication Date
CN108351895A true CN108351895A (zh) 2018-07-31

Family

ID=57345994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680066051.1A Pending CN108351895A (zh) 2015-11-11 2016-11-03 向去识别化的数据库整合和/或添加纵向信息

Country Status (4)

Country Link
US (1) US20170132372A1 (zh)
EP (1) EP3374893A1 (zh)
CN (1) CN108351895A (zh)
WO (1) WO2017081580A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11587650B2 (en) 2017-09-29 2023-02-21 Apple Inc. Techniques for managing access of user devices to third-party resources
US11636927B2 (en) 2017-09-29 2023-04-25 Apple Inc. Techniques for building medical provider databases
US10824684B2 (en) 2017-09-29 2020-11-03 Apple Inc. Techniques for anonymized searching of medical providers
US11822371B2 (en) 2017-09-29 2023-11-21 Apple Inc. Normalization of medical terms

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020073138A1 (en) * 2000-12-08 2002-06-13 Gilbert Eric S. De-identification and linkage of data records
CN1369840A (zh) * 2001-02-17 2002-09-18 富金精密工业(深圳)有限公司 跨数据库的信息整合方法及其系统结构
US20080120296A1 (en) * 2006-11-22 2008-05-22 General Electric Company Systems and methods for free text searching of electronic medical record data
US20080147554A1 (en) * 2006-12-18 2008-06-19 Stevens Steven E System and method for the protection and de-identification of health care data
US20100153383A1 (en) * 2008-12-16 2010-06-17 Innovis Data Solutions, Inc. Method and system for identifying consumers
US20110077973A1 (en) * 2009-09-24 2011-03-31 Agneta Breitenstein Systems and methods for real-time data ingestion to a clinical analytics platform
CN102947832A (zh) * 2010-06-17 2013-02-27 皇家飞利浦电子股份有限公司 患者记录的身份匹配
US20140136237A1 (en) * 2012-11-13 2014-05-15 Nicholas G. Anderson Healthcare data management system
CN102301376B (zh) * 2008-12-23 2014-08-20 克洛西克斯解决方案公司 双盲隐私安全分布式数据挖掘协议

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030191669A1 (en) * 2002-04-09 2003-10-09 Fitzgerald David System for providing consumer access to healthcare related information
US10762984B2 (en) * 2012-08-01 2020-09-01 Koninklijke Philips N.V. Federated master patient index for autonomous healthcare entities

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020073138A1 (en) * 2000-12-08 2002-06-13 Gilbert Eric S. De-identification and linkage of data records
CN1369840A (zh) * 2001-02-17 2002-09-18 富金精密工业(深圳)有限公司 跨数据库的信息整合方法及其系统结构
US20080120296A1 (en) * 2006-11-22 2008-05-22 General Electric Company Systems and methods for free text searching of electronic medical record data
US20080147554A1 (en) * 2006-12-18 2008-06-19 Stevens Steven E System and method for the protection and de-identification of health care data
US20100153383A1 (en) * 2008-12-16 2010-06-17 Innovis Data Solutions, Inc. Method and system for identifying consumers
CN102301376B (zh) * 2008-12-23 2014-08-20 克洛西克斯解决方案公司 双盲隐私安全分布式数据挖掘协议
US20110077973A1 (en) * 2009-09-24 2011-03-31 Agneta Breitenstein Systems and methods for real-time data ingestion to a clinical analytics platform
CN102947832A (zh) * 2010-06-17 2013-02-27 皇家飞利浦电子股份有限公司 患者记录的身份匹配
US20140136237A1 (en) * 2012-11-13 2014-05-15 Nicholas G. Anderson Healthcare data management system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OCR: "Guidance Regarding Methods for De-identification of Protected Health Information in Accordance with the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule", 《HTTPS://WWW.HHS.GOV/SITES/DEFAULT/FILES/OCR/PRIVACY/HIPAA/UNDERSTANDING/COVEREDENTITIES/DE-IDENTIFICATION/HHS_DEID_GUIDANCE.PDF》 *

Also Published As

Publication number Publication date
WO2017081580A1 (en) 2017-05-18
US20170132372A1 (en) 2017-05-11
EP3374893A1 (en) 2018-09-19

Similar Documents

Publication Publication Date Title
US11488694B2 (en) Method and system for predicting patient outcomes using multi-modal input with missing data modalities
Guidi et al. A machine learning system to improve heart failure patient assistance
US10818383B2 (en) Hospital matching of de-identified healthcare databases without obvious quasi-identifiers
US20180046679A1 (en) Efficient integration of de-identified records
CN108351895A (zh) 向去识别化的数据库整合和/或添加纵向信息
Nacht et al. Interhospital transfers from US emergency departments: implications for resource utilization, patient safety, and regionalization
Zhang et al. Automatic methods to extract New York heart association classification from clinical notes
CN106415532A (zh) 诊疗数据检索系统
CN111180024A (zh) 基于词频逆文档频率的数据处理方法、装置和计算机设备
Cobb et al. Seeing the forest beyond the trees: Predicting survival in burn patients with machine learning
KR101320572B1 (ko) 전자건강기록기반 진료패턴의 표준화 시스템 및 방법
Horeczko et al. Urban and rural patterns in emergent pediatric transfer: a call for regionalization
Sudeshna et al. Identifying symptoms and treatment for heart disease from biomedical literature using text data mining
Desai et al. Can prehospital data improve early identification of sepsis in emergency department? An integrative review of machine learning approaches
Khan et al. An analysis of the problems for Health Data integration in Bangladesh
Bennett et al. Linked records of children with traumatic brain injury
Touati et al. Mining surgical meta-actions effects with variable diagnoses’ number
Dann et al. Blood bank protocols for large‐scale civilian casualty events: experience from terrorist bombing in Israel
CN109522331B (zh) 以个人为中心的区域化多维度健康数据处理方法及介质
US20200066380A1 (en) Identification of an appropriate medical institution based on patient information including a symptom and a medical history
CN111681727A (zh) Covid-19数据采集分析系统
CN107680690A (zh) 一种基于元数据的临床信息系统
KR102615313B1 (ko) 평가에 기초한 병원 검색 시스템 및 방법
Mohammed et al. Big data applications for healthcare: preface to special issue
Li et al. XAI for In-hospital Mortality Prediction via Multimodal ICU Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180731

WD01 Invention patent application deemed withdrawn after publication