CN113111063A

CN113111063A - 一种应用于多数据源的医疗患者主索引发现方法

Info

Publication number: CN113111063A
Application number: CN202110344519.1A
Authority: CN
Inventors: 陈杰; 聂小明; 张志强; 赵睿
Original assignee: China Power Health Cloud Technology Co ltd
Current assignee: China Power Health Cloud Technology Co ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-13
Anticipated expiration: 2041-03-31
Also published as: CN113111063B

Abstract

本发明涉及医疗互联互通领域，具体是一种应用于多数据源的医疗患者主索引发现方法，包括如下步骤：步骤一、获取医疗记录；步骤二、计算两两医疗记录之间的相似度；步骤三、基于相似度构建有权无向图；步骤四、基于有权无向图计算各医疗记录的记录主索引支持度；步骤五、标准化记录主索引支持度，确定主索引记录；旨在提高主索引准确性，克服现有技术在大数据场景下出现的数据冗余和高成本的缺陷，提供一种新的主索引发现算法。

Description

一种应用于多数据源的医疗患者主索引发现方法

技术领域

本发明涉及医疗互联互通领域，具体是指一种应用于多数据源的医疗患者主索引发现方法。

背景技术

为了在区域范围内实现各医疗机构的数据共享或业务协同，有效地保存、分类、归档、查阅大批量的医疗信息，实现医疗记录在各个信息系统中的互联互通，需要针对患者建立统一的身份机制，该机制使得区域范围内，同一患者在多家医疗机构注册的多条医疗记录能够被识别为同一个人，并对患者的所有医疗信息建立关联关系，为此，患者需要一条最为准确的记录来标识其区别于其他患者存在的唯一性，进而保证分布在多个系统中的同一患者拥有完整、准确的个人信息采集结果，患者主索引(Master Patient Index，MPI)是指在一个区域范围内用以标识该域内每个患者实例并保持其唯一性的编码，而企业级患者主索引(Enterprise Master Patient Index，EMPI)系统则将来自多个系统的患者标识进行关联，实现同一病人多业务ID的关联和患者信息的统一或关联，确保患者信息映射、应用的准确性。

在这一应用场景下，现有技术大致可以划分为三类：一、基于概率的匹配算法，对关键字段进行索引匹配得到基础分数，然后在匹配结果中对候选记录的其余参考字段分别计算相似性分数，最后利用基础分数及各参考分数进行投票，筛选出总分超过设定阈值的结果集；二、在数据量小的情况下，操作者也可以凭经验和供以参考的患者信息，人工判断多条索引记录是否描述同一人；三、考虑到计算成本、数据安全等因素，直接将每一条记录都当作主索引。

上述方法在应对主索引发现任务时，仅考虑了字段间的直接关系，缺乏对全局信息以及隐含信息的捕捉和利用，这导致计算结果极大地依赖于相似度计算的精度，依据先验知识选择匹配字段后计算的投票结果并不理想，如果采用人工方法，无论是直接判断还是校验评估都相当的费时费力，而将每条数据都当作主索引则会造成大量的数据冗余，增加数据的存储和后续应用计算成本，效率低下。

发明内容

基于以上问题，本发明提供了一种应用于多数据源的医疗患者主索引发现方法，旨在提高主索引准确性，克服现有技术在大数据场景下出现的数据冗余和高成本的缺陷，提供一种新的主索引发现算法。

为解决以上技术问题，本发明采用的技术方案如下：

一种应用于多数据源的医疗患者主索引发现方法，包括如下步骤：

步骤一、获取医疗记录；

步骤二、计算两两医疗记录之间的相似度；

步骤三、基于相似度构建有权无向图；

步骤四、基于有权无向图计算各医疗记录的记录主索引支持度；

步骤五、标准化记录主索引支持度，确定主索引记录。

进一步，所述步骤1具体包括：

获取多数据源的医疗记录后对其去重，将各字段完全一样的记录视为同一患者。

进一步，计算两两医疗记录之间的相似度，并形成相似度矩阵，其计算公式为：

其中，l_ij表示两两医疗记录之间的相似度，L表示医疗记录的相似度矩阵，s_q为医疗记录i和医疗记录j对于第q个字段精确匹配检索后的相似度，w_q为医疗记录i和医疗记录j对于第q个字段在投票时占据的权重，m表示字段数量。

进一步，筛选出相似度大于等于设定阈值的记录对，形成三元组表，基于三元组表构建有权无向图。

进一步，在有权无向图中，每一个节点为某一条医疗记录，链路权重为两条医疗记录间的相似度。

进一步，各医疗记录的记录主索引支持度计算方式如下：

计算与某节点有连接的链路权重之和，即得到每条记录的相似度总分数s_i，计算公式为：

定义记录主索引支持度MI为每条医疗记录作为主索引记录候选的评分，初始化每个节点的MI值为1，迭代更新各节点的MI值，直到MI值收敛或计算超过最大迭代次数，其计算公式为：

其中，

为第n次迭代医疗记录i的MI值，α为常数0.85。

进一步，标准化记录主索引支持度MI值后，选择MI值最大的节点作为主索引记录，若MI值相同则选择ID最小的医疗记录。

与现有技术相比，本发明的有益效果是：本方法引入数据的全局信息提升了主索引的准确性，提高了相似度计算的容错率，减少了对人工的依赖，降低了数据存储成本。

附图说明

图1为本实施例的流程图；

图2为本实施例构造的有权无向图。

具体实施方式

下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。

如图1所示的一种应用于多数据源的医疗患者主索引发现方法，包括如下步骤：

步骤一、获取医疗记录；

其中，获取多数据源的医疗记录后对其去重，将各字段完全一样的记录视为同一患者，同时，一批来源于多个信息系统的医疗记录因为错别字、字段丢失、系统差异等原因，医疗记录之间的相似度不高，但其中质量越高的医疗记录会与更多的记录之间有较高的相似度，因此，需要对各记录之间的相似度进行计算。

步骤二、计算两两医疗记录之间的相似度；

计算两两医疗记录之间的相似度，并形成相似度矩阵，其计算公式为：

其中，相似度流程是基于MapReduce框架计算，l_ij表示两两医疗记录之间的相似度，L表示医疗记录的相似度矩阵，s_q为医疗记录i和医疗记录j对于第q个字段精确匹配检索后的相似度，w_q为医疗记录i和医疗记录j对于第q个字段在投票时占据的权重，各字段权重为人为设定，m表示字段数量；

例如，基于MapReduce框架计算医疗记录之间的相似度，每个记录包含四个字段{Q₁,Q₂,Q₃,Q₄}，其中，Q₁表示姓名，Q₂表示身份证号(本实施例中仅取5位数用于测试)，Q₃表示性别，Q₄表示居住地，再人为设置各字段权重为w＝{1,1,0.6,0.5}，现有医疗记录A：Q₁＝张三，Q₂＝62550，Q₃＝女，Q₄＝迎晖路，医疗记录D：Q₁＝张三，Q₂＝62551，Q₃＝女，Q₄＝迎晖路，最终，医疗记录A和医疗记录B相似度流程为具体为下表：

同时，可以把其他医疗记录中，两两医疗记录之间的相似度计算出来，并形成相似度矩阵。

步骤三、基于相似度构建有权无向图；

其中，筛选出相似度大于等于设定阈值的记录对，证明两条医疗记录之间有一定的的相似度，例如设定阈值为2，那么[(A，D)，2.1]证明医疗记录A和医疗记录D之间有一定的相似度，将其存储为三元组(A，D，2.1)，同时，本实施例以有权无向图中的一个连通子图为例进行说明(有权无向图是由若干个连通子图组合形成)，该连通子图包含八条记录，分别为医疗记录A、B、C、D、E、F、G、H中，为了避免累述，现已将两两医疗记录之间相似度大于2的三元组筛选出来，形成三元组表，表示为：(A，D，2.1)，(A，E，2.1)，(B，D，2.6)，(B，G，2.1)，(B，H，2.1)，(B，F，2.1)，(B，C，2.1)，(B，E，2.1)，(C，E，2.1)，(E，G，2.6)，(E，H，2.1)，(E，F，2.1)，另外，需要标准化三元组表，表示为：(A，D，0.67)，(A，E，0.67)，(B，D，0.83)，(B，G，0.67)，(B，H，0.67)，(B，F，0.67)，(B，C，0.67)，(B，E，0.67)，(C，E，0.67)，(E，G，0.83)，(E，H，0.67)，(E，F，0.67)，根据上述结果，可以得到该连通子图形成的有权无向图，如图2所示。

其中，各医疗记录的记录主索引支持度计算方式如下：

其中，

为第n次迭代医疗记录i的MI值，α为常数0.85；

基于此，可以步骤三中连通子图的每条记录进行记录主索引支持度计算，从图2中可以看出，医疗记录C、D、E、F、G、H影响医疗记录B的记录主索引支持度，即

在此基础上，本实施例中，考虑了间接相连的记录相似度也影响着医疗记录B的记录主索引支持度，即医疗记录A也通过医疗记录D影响医疗记录B的记录主索引支持度记作

通过引入数据的全局信息提升了主索引的准确性，提高了相似度计算的容错率，因此，计算各医疗记录再该连通子图中的记录主索引支持度如下：

s_A＝0.67+0.67＝1.34；

s_B＝0.83+0.67+0.67+0.67+0.67+0.67＝4.18；

s_C＝0.67+0.67＝1.34；

s_D＝0.67+0.83＝1.5；

s_E＝0.67+0.67+0.67+0.83+0.67+0.67＝4.18；

s_F＝0.67+0.67＝1.34；

s_G＝0.67+0.83＝1.5；

s_H＝0.67+0.67＝1.34；

同时，初始化各个医疗记录的MI值为1，即

后续迭代过程如下所示：

第二次迭代，各医疗记录MI的计算结果如下：

......

经过25次迭代后，各医疗记录MI值趋于稳定。

步骤五、标准化记录主索引支持度，确定主索引记录。

其中，将步骤四中各医疗记录MI值标准化处理，计算结果如下：

其中，医疗记录B和医疗记录E的链路数相同、初始相似度总分相等，但经过多次迭代后，医疗记录E的MI值最高，说明其对于连通子图的信息贡献度最高，作为主索引记录主索引支持度最高，因此可以选择医疗记录E作为该患者的主索引数据，若MI值相同则选择ID最小的医疗记录。

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。