CN110176282A

CN110176282A - 一种基于最大期望算法的患者身份匹配方法

Info

Publication number: CN110176282A
Application number: CN201910427235.1A
Authority: CN
Inventors: 段会龙; 吕旭东; 田琪; 蔡海领; 张健
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-27

Abstract

本发明提供了一种基于最大期望算法的患者身份匹配方法，包括以下步骤：(1)选择待匹配患者记录a的若干项患者身份信息项作为筛选项，对患者记录集合S进行筛选，得到待匹配记录集合T；(2)选择待匹配患者记录a的若干项患者身份信息项作为匹配项，采用最大期望算法对患者信息集合T中的患者记录进行匹配概率计算，得到待匹配患者记录a与待匹配记录集合T中患者记录的匹配比率；(3)根据匹配比率确定待匹配患者记录a与待匹配记录集合T中患者记录的匹配关系。本发明提供的基于最大期望算法的患者身份匹配方法可以提高了匹配效率和准确度。

Description

一种基于最大期望算法的患者身份匹配方法

技术领域

本发明涉及医疗信息数据处理技术领域，特别是涉及一种基于最大期望算法的患者身份匹配方法。

背景技术

随着区域医疗信息化建设过程中大量医疗信息系统的集成，患者在各医疗信息系统中产生的患者信息对应了不同的患者身份标识，导致属于同一患者的记录信息难以实现关联、共享和利用，为医疗机构间的业务联动、业务协同和数据共享带来了困难，对区域医疗信息化的进程造成了阻碍。

要解决这一问题，首先要解决的问题是如何判断患者记录是否属于同一患者实例，即患者身份的匹配问题。解决患者身份的匹配问题需要一种准确有效的患者身份匹配方法。

目前，各医疗机构使用的患者身份匹配方法往往采用确定性算法作为基础。这种匹配方法通常需要人为分配权重，匹配结果容易受操作人员的主观影响；信息项内容为空也会对匹配结果造成严重的影响，容易遗漏实际匹配的患者记录对，降低患者身份匹配方法的准确性。

发明内容

本发明提供了一种基于最大期望算法的患者身份匹配方法，解决现有患者身份匹配方法面对信息缺失情况时准确率、召回率低的问题。

一种基于最大期望算法的患者身份匹配方法，包括以下步骤：

(1)选择待匹配患者记录a的若干项患者身份信息项作为筛选项，对患者记录集合S进行筛选，得到待匹配记录集合T；

(2)选择待匹配患者记录a的若干项患者身份信息项作为匹配项，采用最大期望算法对患者信息集合T中的患者记录进行匹配概率计算，得到待匹配患者记录a与待匹配记录集合T中患者记录的匹配比率；

(3)根据匹配比率确定待匹配患者记录a与待匹配记录集合T中患者记录的匹配关系。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

可选的，步骤(1)中，所述筛选项为能够作为患者实例身份标识的信息项。筛选项可以为姓名和身份证号等。

可选的，步骤(1)中，比较待匹配患者记录a与患者记录集合S中每一条患者记录的筛选项；若两者的筛选项的相似度高于预设值，则将该条患者记录归入待匹配记录集合T中，否则舍弃该条患者记录；逐条比较完毕后形成待匹配记录集合T。

可选的，所述待匹配患者记录a的筛选项的值与所述待匹配记录集合T中各患者记录的筛选项的值一致。

可选的，步骤(2)具体包括：

选择待匹配患者记录a的若干项患者身份信息项作为匹配项，并设置各匹配项的匹配项阈值；

将待匹配患者记录a的匹配项与待匹配记录集合T中的每条记录的匹配项逐条进行匹配，得到待匹配患者记录a与待匹配记录集合T中各患者记录的匹配项相似度；

根据匹配项相似度，构造二维空间向量Ci＝{Ci(1),Ci(2),…,Ci(N)}；具体构造方法为：若待匹配患者记录a与待匹配记录集合T中第i条患者记录的第k项的匹配项相似度大于设置的匹配项阈值，则Ci(k)＝1，反之则等于0；

计算二维空间向量的概率分布F＝{F1,F2,…,F2^N}；

通过最大期望算法计算得到匹配阈值向量m＝{m1,m2,……,mN}和不匹配阈值向量u＝{u1,u2,…,uN}；

设置匹配概率和不匹配概率的初始值，根据概率分布F迭代计算得到匹配概率值p₁和不匹配概率值p₂，并根据公式R＝log₂(p₁/p₂)计算匹配比率R。

可选的，步骤(3)具体包括：

根据Fellegi-Sunter模型计算匹配比率R的上界T_up和下界T_low；

比较匹配比率与上下界，得到匹配结果：若R大于T_up，则认为这两条记录是匹配的；若R小于T_low，则认为这两条记录是不匹配的；若R大于等于T_low且小于等于T_up，则留待人工确认。

本发明提供的基于最大期望算法的患者身份匹配方法，通过关键身份信息项进行筛选，利用最大期望算法对于重要身份信息项进行匹配，无需人为分配权重，在字段信息有缺失的情况下比现有患者身份匹配方法的准确率和召回率更高，提高了匹配效率和准确度。

附图说明

图1为本发明基于最大期望算法的患者身份匹配方法的总流程图；

图2为一实施例中计算匹配比率的流程图；

图3为最大期望算法的流程示意图；

图4为一实施例中确定匹配结果的流程图；

图5为一实施例中基于最大期望算法的患者身份匹配方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

在其中一实施例中，如图1所示，一种基于最大期望算法的患者身份匹配方法，包括以下步骤：

匹配概率指两条患者记录客观属于同一患者的概率，根据匹配概率得到不匹配概率(即两条患者记录客观不属于同一患者的概率)，根据匹配概率和不匹配概率得到匹配比率。

在其中一实施例中，步骤(1)中，所述待匹配患者记录a的筛选项的值与所述待匹配记录集合T中各患者记录的筛选项的值一致。

在其中一实施例中，如图2所示，步骤(2)具体包括：

根据匹配项相似度，构造二维空间向量C_i＝{C_i(1),C_i(2),…,C_i(N)}；具体构造方法为：若待匹配患者记录a与待匹配记录集合T中第i条患者记录的第k项的匹配项相似度大于设置的匹配项阈值，则C_i(k)＝1，反之则等于0；例如：比较A、B两条记录的“姓名”匹配项时，设置“姓名”匹配项的阈值为0.7，若计算所得的“姓名”匹配项的相似度高于0.7，则对应的二维空间向量为1，反之则为0；

计算二维空间向量的概率分布F＝{F₁,F₂,…,F₂^_N}；

通过最大期望算法计算得到匹配阈值向量m＝{m₁,m₂,……,m_N}和不匹配阈值向量u＝{u₁,u₂,…,u_N}；

设置匹配概率和不匹配概率的初始值(例如，设置匹配概率和不匹配概率的初始值均为1)，根据概率分布F迭代计算得到匹配概率值p₁和不匹配概率值p₂，并根据公式R＝log₂(p₁/p₂)计算匹配比率R。

在其中一实施例中，如图4所示，步骤(3)具体包括：

根据Fellegi-Sunter模型计算匹配比率R的上界T_up和下界T_low；

在其中一实施例中，在步骤(2)中选择匹配项时，选择医疗信息系统采集到的信息中不常变化且缺失率低的常用信息项。

在其中一实施例中，如图3所示，在步骤(2)中通过最大期望算法计算匹配阈值向量和不匹配阈值向量，具体流程如下：

输入观察模型x＝(x⁽¹⁾,x⁽²⁾,...x^(m))，联合分布p(x,z|θ)，条件分布p(z,x|θ)，最大迭代次数J；

开始EM迭代，最大迭代次数J次内：

a)Expectation步：计算联合分布的条件概率期望；

Q_i(z⁽ⁱ⁾)＝P(z⁽ⁱ⁾|x⁽ⁱ⁾，θj)

b)Maximization步：极大化L(θ,θ^j)，得到θ^j+1；

c)若θ^j+1已收敛，则结束流程；否则回到E步进行迭代；

输出模型参数θ。

在其中一实施例中，如图5所示，一种基于最大期望算法的患者身份匹配方法，包括以下步骤：

(1)选择待匹配患者记录a的若干项患者身份信息项作为筛选项对所有患者记录的集合S进行筛选，得到缩小匹配范围后的患者信息集合T；

(2)选择待匹配患者记录a的若干项患者身份信息项作为匹配项，并设置各匹配项的匹配项阈值；

(3)将待匹配患者记录a的匹配项与待匹配记录集合T中的每条记录的匹配项逐条进行匹配，得到待匹配患者记录a与待匹配记录集合T中各患者记录的匹配项相似度；

(4)根据匹配项相似度，构造二维空间向量C_i＝{C_i(1),C_i(2),…,C_i(N)}；具体构造方法为：若待匹配患者记录a与待匹配记录集合T中第i条患者记录的第k项的匹配项相似度大于设置的匹配项阈值，则C_i(k)＝1，反之则等于0；

(5)计算二维空间向量的概率分布F＝{F₁,F₂,…,F_2^N}；

(6)通过最大期望算法计算得到匹配阈值向量m＝{m₁,m₂,……,m_N}和不匹配阈值向量u＝{u₁,u₂,…,u_N}；

(7)设置匹配概率和不匹配概率的初始值，根据概率分布F迭代计算得到匹配概率值p₁和不匹配概率值p₂，并根据公式R＝log₂(p₁/p₂)计算匹配比率R；

(8)根据Fellegi-Sunter模型计算匹配比率R的上界T_up和下界T_low；

(9)比较匹配比率与上下界，得到匹配结果：若R大于T_up，则认为这两条记录是匹配的；若R小于T_low，则认为这两条记录是不匹配的；若R大于等于T_low且小于等于T_up，则留待人工确认。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于最大期望算法的患者身份匹配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于最大期望算法的患者身份匹配方法，其特征在于，步骤(1)中，所述待匹配患者记录a的筛选项的值与所述待匹配记录集合T中各患者记录的筛选项的值一致。

3.根据权利要求1所述的基于最大期望算法的患者身份匹配方法，其特征在于，步骤(2)具体包括：

选择待匹配患者记录a的若干项患者身份信息项作为匹配项，并设置各匹配项的阈值，匹配项阈值用于计算患者信息在该匹配项上的二维空间向量；

根据匹配项相似度，构造二维空间向量C_i＝{C_i(1),C_i(2),…,C_i(N)}；具体构造方法为：若待匹配患者记录a与待匹配记录集合T中第i条患者记录的第k项的匹配项相似度大于设置的匹配项阈值，则C_i(k)＝1，反之则等于0；

计算二维空间向量的概率分布F＝{F₁,F₂,…,F_2^N}；

再根据概率分布F迭代计算得到匹配概率值p₁和不匹配概率值p₂，并根据公式R＝log₂(p₁/p₂)计算匹配比率R。

4.根据权利要求1所述的基于最大期望算法的患者身份匹配方法，其特征在于，步骤(3)具体包括：

根据Fellegi-Sunter模型计算匹配比率R的上界T_up和下界T_low；