CN110176282A - 一种基于最大期望算法的患者身份匹配方法 - Google Patents

一种基于最大期望算法的患者身份匹配方法 Download PDF

Info

Publication number
CN110176282A
CN110176282A CN201910427235.1A CN201910427235A CN110176282A CN 110176282 A CN110176282 A CN 110176282A CN 201910427235 A CN201910427235 A CN 201910427235A CN 110176282 A CN110176282 A CN 110176282A
Authority
CN
China
Prior art keywords
patient
matched
records
matching
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910427235.1A
Other languages
English (en)
Inventor
段会龙
吕旭东
田琪
蔡海领
张健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910427235.1A priority Critical patent/CN110176282A/zh
Publication of CN110176282A publication Critical patent/CN110176282A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供了一种基于最大期望算法的患者身份匹配方法,包括以下步骤:(1)选择待匹配患者记录a的若干项患者身份信息项作为筛选项,对患者记录集合S进行筛选,得到待匹配记录集合T;(2)选择待匹配患者记录a的若干项患者身份信息项作为匹配项,采用最大期望算法对患者信息集合T中的患者记录进行匹配概率计算,得到待匹配患者记录a与待匹配记录集合T中患者记录的匹配比率;(3)根据匹配比率确定待匹配患者记录a与待匹配记录集合T中患者记录的匹配关系。本发明提供的基于最大期望算法的患者身份匹配方法可以提高了匹配效率和准确度。

Description

一种基于最大期望算法的患者身份匹配方法
技术领域
本发明涉及医疗信息数据处理技术领域,特别是涉及一种基于最大期望算法的患者身份匹配方法。
背景技术
随着区域医疗信息化建设过程中大量医疗信息系统的集成,患者在各医疗信息系统中产生的患者信息对应了不同的患者身份标识,导致属于同一患者的记录信息难以实现关联、共享和利用,为医疗机构间的业务联动、业务协同和数据共享带来了困难,对区域医疗信息化的进程造成了阻碍。
要解决这一问题,首先要解决的问题是如何判断患者记录是否属于同一患者实例,即患者身份的匹配问题。解决患者身份的匹配问题需要一种准确有效的患者身份匹配方法。
目前,各医疗机构使用的患者身份匹配方法往往采用确定性算法作为基础。这种匹配方法通常需要人为分配权重,匹配结果容易受操作人员的主观影响;信息项内容为空也会对匹配结果造成严重的影响,容易遗漏实际匹配的患者记录对,降低患者身份匹配方法的准确性。
发明内容
本发明提供了一种基于最大期望算法的患者身份匹配方法,解决现有患者身份匹配方法面对信息缺失情况时准确率、召回率低的问题。
一种基于最大期望算法的患者身份匹配方法,包括以下步骤:
(1)选择待匹配患者记录a的若干项患者身份信息项作为筛选项,对患者记录集合S进行筛选,得到待匹配记录集合T;
(2)选择待匹配患者记录a的若干项患者身份信息项作为匹配项,采用最大期望算法对患者信息集合T中的患者记录进行匹配概率计算,得到待匹配患者记录a与待匹配记录集合T中患者记录的匹配比率;
(3)根据匹配比率确定待匹配患者记录a与待匹配记录集合T中患者记录的匹配关系。
以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
可选的,步骤(1)中,所述筛选项为能够作为患者实例身份标识的信息项。筛选项可以为姓名和身份证号等。
可选的,步骤(1)中,比较待匹配患者记录a与患者记录集合S中每一条患者记录的筛选项;若两者的筛选项的相似度高于预设值,则将该条患者记录归入待匹配记录集合T中,否则舍弃该条患者记录;逐条比较完毕后形成待匹配记录集合T。
可选的,所述待匹配患者记录a的筛选项的值与所述待匹配记录集合T中各患者记录的筛选项的值一致。
可选的,步骤(2)具体包括:
选择待匹配患者记录a的若干项患者身份信息项作为匹配项,并设置各匹配项的匹配项阈值;
将待匹配患者记录a的匹配项与待匹配记录集合T中的每条记录的匹配项逐条进行匹配,得到待匹配患者记录a与待匹配记录集合T中各患者记录的匹配项相似度;
根据匹配项相似度,构造二维空间向量Ci={Ci(1),Ci(2),…,Ci(N)};具体构造方法为:若待匹配患者记录a与待匹配记录集合T中第i条患者记录的第k项的匹配项相似度大于设置的匹配项阈值,则Ci(k)=1,反之则等于0;
计算二维空间向量的概率分布F={F1,F2,…,F2^N};
通过最大期望算法计算得到匹配阈值向量m={m1,m2,……,mN}和不匹配阈值向量u={u1,u2,…,uN};
设置匹配概率和不匹配概率的初始值,根据概率分布F迭代计算得到匹配概率值p1和不匹配概率值p2,并根据公式R=log2(p1/p2)计算匹配比率R。
可选的,步骤(3)具体包括:
根据Fellegi-Sunter模型计算匹配比率R的上界Tup和下界Tlow
比较匹配比率与上下界,得到匹配结果:若R大于Tup,则认为这两条记录是匹配的;若R小于Tlow,则认为这两条记录是不匹配的;若R大于等于Tlow且小于等于Tup,则留待人工确认。
本发明提供的基于最大期望算法的患者身份匹配方法,通过关键身份信息项进行筛选,利用最大期望算法对于重要身份信息项进行匹配,无需人为分配权重,在字段信息有缺失的情况下比现有患者身份匹配方法的准确率和召回率更高,提高了匹配效率和准确度。
附图说明
图1为本发明基于最大期望算法的患者身份匹配方法的总流程图;
图2为一实施例中计算匹配比率的流程图;
图3为最大期望算法的流程示意图;
图4为一实施例中确定匹配结果的流程图;
图5为一实施例中基于最大期望算法的患者身份匹配方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本发明。
在其中一实施例中,如图1所示,一种基于最大期望算法的患者身份匹配方法,包括以下步骤:
(1)选择待匹配患者记录a的若干项患者身份信息项作为筛选项,对患者记录集合S进行筛选,得到待匹配记录集合T;
(2)选择待匹配患者记录a的若干项患者身份信息项作为匹配项,采用最大期望算法对患者信息集合T中的患者记录进行匹配概率计算,得到待匹配患者记录a与待匹配记录集合T中患者记录的匹配比率;
(3)根据匹配比率确定待匹配患者记录a与待匹配记录集合T中患者记录的匹配关系。
匹配概率指两条患者记录客观属于同一患者的概率,根据匹配概率得到不匹配概率(即两条患者记录客观不属于同一患者的概率),根据匹配概率和不匹配概率得到匹配比率。
在其中一实施例中,步骤(1)中,所述待匹配患者记录a的筛选项的值与所述待匹配记录集合T中各患者记录的筛选项的值一致。
在其中一实施例中,如图2所示,步骤(2)具体包括:
选择待匹配患者记录a的若干项患者身份信息项作为匹配项,并设置各匹配项的匹配项阈值;
将待匹配患者记录a的匹配项与待匹配记录集合T中的每条记录的匹配项逐条进行匹配,得到待匹配患者记录a与待匹配记录集合T中各患者记录的匹配项相似度;
根据匹配项相似度,构造二维空间向量Ci={Ci(1),Ci(2),…,Ci(N)};具体构造方法为:若待匹配患者记录a与待匹配记录集合T中第i条患者记录的第k项的匹配项相似度大于设置的匹配项阈值,则Ci(k)=1,反之则等于0;例如:比较A、B两条记录的“姓名”匹配项时,设置“姓名”匹配项的阈值为0.7,若计算所得的“姓名”匹配项的相似度高于0.7,则对应的二维空间向量为1,反之则为0;
计算二维空间向量的概率分布F={F1,F2,…,F2^N};
通过最大期望算法计算得到匹配阈值向量m={m1,m2,……,mN}和不匹配阈值向量u={u1,u2,…,uN};
设置匹配概率和不匹配概率的初始值(例如,设置匹配概率和不匹配概率的初始值均为1),根据概率分布F迭代计算得到匹配概率值p1和不匹配概率值p2,并根据公式R=log2(p1/p2)计算匹配比率R。
在其中一实施例中,如图4所示,步骤(3)具体包括:
根据Fellegi-Sunter模型计算匹配比率R的上界Tup和下界Tlow
比较匹配比率与上下界,得到匹配结果:若R大于Tup,则认为这两条记录是匹配的;若R小于Tlow,则认为这两条记录是不匹配的;若R大于等于Tlow且小于等于Tup,则留待人工确认。
在其中一实施例中,在步骤(2)中选择匹配项时,选择医疗信息系统采集到的信息中不常变化且缺失率低的常用信息项。
在其中一实施例中,如图3所示,在步骤(2)中通过最大期望算法计算匹配阈值向量和不匹配阈值向量,具体流程如下:
输入观察模型x=(x(1),x(2),...x(m)),联合分布p(x,z|θ),条件分布p(z,x|θ),最大迭代次数J;
开始EM迭代,最大迭代次数J次内:
a)Expectation步:计算联合分布的条件概率期望;
Qi(z(i))=P(z(i)|x(i),θj)
b)Maximization步:极大化L(θ,θj),得到θj+1
c)若θj+1已收敛,则结束流程;否则回到E步进行迭代;
输出模型参数θ。
在其中一实施例中,如图5所示,一种基于最大期望算法的患者身份匹配方法,包括以下步骤:
(1)选择待匹配患者记录a的若干项患者身份信息项作为筛选项对所有患者记录的集合S进行筛选,得到缩小匹配范围后的患者信息集合T;
(2)选择待匹配患者记录a的若干项患者身份信息项作为匹配项,并设置各匹配项的匹配项阈值;
(3)将待匹配患者记录a的匹配项与待匹配记录集合T中的每条记录的匹配项逐条进行匹配,得到待匹配患者记录a与待匹配记录集合T中各患者记录的匹配项相似度;
(4)根据匹配项相似度,构造二维空间向量Ci={Ci(1),Ci(2),…,Ci(N)};具体构造方法为:若待匹配患者记录a与待匹配记录集合T中第i条患者记录的第k项的匹配项相似度大于设置的匹配项阈值,则Ci(k)=1,反之则等于0;
(5)计算二维空间向量的概率分布F={F1,F2,…,F2^N};
(6)通过最大期望算法计算得到匹配阈值向量m={m1,m2,……,mN}和不匹配阈值向量u={u1,u2,…,uN};
(7)设置匹配概率和不匹配概率的初始值,根据概率分布F迭代计算得到匹配概率值p1和不匹配概率值p2,并根据公式R=log2(p1/p2)计算匹配比率R;
(8)根据Fellegi-Sunter模型计算匹配比率R的上界Tup和下界Tlow
(9)比较匹配比率与上下界,得到匹配结果:若R大于Tup,则认为这两条记录是匹配的;若R小于Tlow,则认为这两条记录是不匹配的;若R大于等于Tlow且小于等于Tup,则留待人工确认。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种基于最大期望算法的患者身份匹配方法,其特征在于,包括以下步骤:
(1)选择待匹配患者记录a的若干项患者身份信息项作为筛选项,对患者记录集合S进行筛选,得到待匹配记录集合T;
(2)选择待匹配患者记录a的若干项患者身份信息项作为匹配项,采用最大期望算法对患者信息集合T中的患者记录进行匹配概率计算,得到待匹配患者记录a与待匹配记录集合T中患者记录的匹配比率;
(3)根据匹配比率确定待匹配患者记录a与待匹配记录集合T中患者记录的匹配关系。
2.根据权利要求1所述的基于最大期望算法的患者身份匹配方法,其特征在于,步骤(1)中,所述待匹配患者记录a的筛选项的值与所述待匹配记录集合T中各患者记录的筛选项的值一致。
3.根据权利要求1所述的基于最大期望算法的患者身份匹配方法,其特征在于,步骤(2)具体包括:
选择待匹配患者记录a的若干项患者身份信息项作为匹配项,并设置各匹配项的阈值,匹配项阈值用于计算患者信息在该匹配项上的二维空间向量;
将待匹配患者记录a的匹配项与待匹配记录集合T中的每条记录的匹配项逐条进行匹配,得到待匹配患者记录a与待匹配记录集合T中各患者记录的匹配项相似度;
根据匹配项相似度,构造二维空间向量Ci={Ci(1),Ci(2),…,Ci(N)};具体构造方法为:若待匹配患者记录a与待匹配记录集合T中第i条患者记录的第k项的匹配项相似度大于设置的匹配项阈值,则Ci(k)=1,反之则等于0;
计算二维空间向量的概率分布F={F1,F2,…,F2^N};
通过最大期望算法计算得到匹配阈值向量m={m1,m2,……,mN}和不匹配阈值向量u={u1,u2,…,uN};
再根据概率分布F迭代计算得到匹配概率值p1和不匹配概率值p2,并根据公式R=log2(p1/p2)计算匹配比率R。
4.根据权利要求1所述的基于最大期望算法的患者身份匹配方法,其特征在于,步骤(3)具体包括:
根据Fellegi-Sunter模型计算匹配比率R的上界Tup和下界Tlow
比较匹配比率与上下界,得到匹配结果:若R大于Tup,则认为这两条记录是匹配的;若R小于Tlow,则认为这两条记录是不匹配的;若R大于等于Tlow且小于等于Tup,则留待人工确认。
CN201910427235.1A 2019-05-22 2019-05-22 一种基于最大期望算法的患者身份匹配方法 Pending CN110176282A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910427235.1A CN110176282A (zh) 2019-05-22 2019-05-22 一种基于最大期望算法的患者身份匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910427235.1A CN110176282A (zh) 2019-05-22 2019-05-22 一种基于最大期望算法的患者身份匹配方法

Publications (1)

Publication Number Publication Date
CN110176282A true CN110176282A (zh) 2019-08-27

Family

ID=67691815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910427235.1A Pending CN110176282A (zh) 2019-05-22 2019-05-22 一种基于最大期望算法的患者身份匹配方法

Country Status (1)

Country Link
CN (1) CN110176282A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970136A (zh) * 2019-12-02 2020-04-07 北京六元空间信息科技有限责任公司 一种临床研究驱动的慢病管理系统和方法
CN111768821A (zh) * 2020-05-29 2020-10-13 上海森亿医疗科技有限公司 分布式患者记录匹配方法、系统以及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314478A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种患者身份识别与匹配的方法
CN102947832A (zh) * 2010-06-17 2013-02-27 皇家飞利浦电子股份有限公司 患者记录的身份匹配
CN104063567A (zh) * 2013-03-20 2014-09-24 上海联影医疗科技有限公司 一种病人身份源交叉索引的建立方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102947832A (zh) * 2010-06-17 2013-02-27 皇家飞利浦电子股份有限公司 患者记录的身份匹配
CN102314478A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种患者身份识别与匹配的方法
CN104063567A (zh) * 2013-03-20 2014-09-24 上海联影医疗科技有限公司 一种病人身份源交叉索引的建立方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970136A (zh) * 2019-12-02 2020-04-07 北京六元空间信息科技有限责任公司 一种临床研究驱动的慢病管理系统和方法
CN111768821A (zh) * 2020-05-29 2020-10-13 上海森亿医疗科技有限公司 分布式患者记录匹配方法、系统以及终端

Similar Documents

Publication Publication Date Title
CN103945533B (zh) 基于大数据的无线实时位置定位方法
CN110287268A (zh) 一种基于区块链的数字资产处理方法和系统
CN107704625A (zh) 字段匹配方法和装置
CN103886235B (zh) 一种正面人脸图像生物密钥生成方法
CN110175789A (zh) 基于模糊层次和critic法的配电网诊断评估指标权重赋权方法
CN106384087A (zh) 一种基于多层网络人体特征的身份识别方法
CN105931116A (zh) 基于深度学习机制的自动化信用评分系统及方法
Xie et al. Unsupervised user identity linkage via factoid embedding
CN106452825A (zh) 一种基于改进决策树的配用电通信网告警关联分析方法
CN110176282A (zh) 一种基于最大期望算法的患者身份匹配方法
KR102593835B1 (ko) 휴리스틱 가우스 클라우드 변환에 기반하는 얼굴인식 기술
CN106652621A (zh) 一种汽车兵驾驶科目考核评判系统
CN109165672A (zh) 一种基于渐进式学习的集成分类方法
CN106846378A (zh) 一种结合时空拓扑估计的跨摄像机目标匹配与跟踪方法
CN106067034A (zh) 一种基于高维矩阵特征根的配电网负荷曲线聚类方法
CN109995501A (zh) 一种侧信道分析方法及装置、终端及计算机可读存储介质
CN109447153A (zh) 用于非均衡数据分类的散度-激励自编码器及其分类方法
CN108428061A (zh) 基于dea-ga-bp的智能评标决策系统和评标方法
CN106679670A (zh) 一种基于融合赋权的无人飞行器航迹规划决策方法
CN113888005A (zh) 一种建筑设计动态流程管理系统及方法
CN109493479A (zh) 一种基于人脸识别的民宿住客身份验证系统及方法
CN116361759A (zh) 一种基于量化权限指引的智能合规控制方法
Zyateva et al. Upwards excursion algorithm providing the weight rankings coefficients of universities
CN114282726A (zh) 制种田预测处理方法、装置、存储介质及电子装置
CN106408182A (zh) 一种核电设计项目工作量统计系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190827