CN106295182B

CN106295182B - 一种基于患者生物信息的身份识别方法

Info

Publication number: CN106295182B
Application number: CN201610652594.3A
Authority: CN
Inventors: 王亚南
Original assignee: Data (hunan) Technology Co Ltd
Current assignee: Data (hunan) Technology Co Ltd
Priority date: 2016-08-10
Filing date: 2016-08-10
Publication date: 2019-03-08
Anticipated expiration: 2036-08-10
Also published as: CN106295182A

Abstract

本发明公开了一种基于患者生物信息的身份识别方法，包括以下步骤：步骤1：通过社会属性特征匹配，获取待识别的患者数据R_i与患者身份数据库中的其它任意一条数据R_j的相似度权重W(R_i,R_j)；步骤2：通过生物属性特征匹配，获取待识别的患者数据R_i与患者身份数据库中的其它任意一条数据R_j的相似度S(R_i,R_j)；由相似度权重W(R_i,R_j)和相似度S(R_i,R_j)进行加权计算，得到R_i和R_j的综合相似度S(R_i,R_j)；将S(R_i,R_j)与设定阈值λ进行比较；若S(R_i,R_j)大于λ，则认为两条数据R_i和R_j属于同一个人，从而实现患者身份的识别。本发明能提升患者主索引识别的效率和成功率。

Description

一种基于患者生物信息的身份识别方法

技术领域

本发明涉及一种基于患者生物信息的身份识别方法。

背景技术

患者主索引(Enterprise Master Patient Index，EMPI)是二十世纪末出现的医疗信息化专业用语，简单来说，它是患者基本信息检索目录。其主要用途是在一个复杂的医疗体系内，通过唯一的患者标识将多个医疗信息系统有效地关联在一起，以实现各个系统之间的互联互通，保证对同一个患者，分布在不同系统中的个人信息采集的完整性和准确性。建立患者主索引是实现大型医院内部系统集成，医院集团内资源共享，以及建立居民健康档案实现区域医疗共享的必要条件。

患者主索引在医院的作用随着医院信息化建设的发展，从原有HIS系统的基础上，逐步发展出LIS、RIS/PACS、手术麻醉、病理、心电、重症监护(ICU/CCU)、EMR(电子病历)等系统。这些不同的系统可能来自不同的提供商，每个系统的架构、数据格式、编码标准可能不同，致使不同系统的患者信息和临床信息不能实现共享。为了解决达样的问题，一些HIS厂商托管了患者信息管理的职能，而且加强了对其他系统的开放接口。患者主索引的主要职责是：通过建立起唯一的患者标识，将多个医疗信息系统之间的患者信息有效地关联在一起；以患者为中心，将不同系统的个人身份信息进行统一管理；为不同的系统提供统一的患者身份信息管理服务。

目前在医疗行业内部，对于患者信息管理与身份标识主要是在以下几种情况：医院内部不同患者在同一系统内部的信息管理与身份标识；医院内部不同系统之间的患者信息管理与身份标识；集团医院之间的患者信息管理与身份标识；区域内各医疗机构之间的患者信息管理与身份标识。以上四个场景归纳为医院内部与跨机构两个大的应用场景。从就医过程来看，一般患者首先是在医院挂号或住院登记后再进行其它的医疗活动，而挂号与住院登记就是身份注册与标识的关键点，而这一点由于历史原因，很多医院的系统都未将此功能完善，从而导致了这一大需求的出现。

根据不同医院系统的建设情况，主要存在以下几种情况：1)住院与门诊的身份标识不统一：患者住院时，在住院登记时重新进行身份信息的注册，并没有沿用门诊的身份标识信息，从而导致同一个患者在住院和门诊之间无法进行关联；2)多次住院(或门诊、体检)身份标识不统一：患者多次住院时，每次都进行了身份信息的登记，且多次之间没有关联；可能是由于操作员或患者未提供关联的信息而导致的；3)体检系统与住院和门诊身份标识不统一：一般是由于体检系统与住院和门诊系统未互联互通导致的，一般都是由不同产家提供的。

院内除了门急诊、住院和体检系统是重要的患者信息注册的入口外，从医疗活动的过程来看，其它系统都是由于这三个业务发生后才发生，如检查一般是在患者门诊看诊或住院后发生。所以从理论上来说这些系统应当沿用这三个业务系统的患者身份标识信息，但由于医院信息系统在建设的过程中，这些系统并未与以上三个系统互通互联而导致了现在的这个情况。目前主要的情况是：各系统的使用人员还没有患者身份标识的概念，一般是通过申请单上的简单信息在对应的系统进行简单地登记后再进行后续的业务，而且这些系统无完善的患者信息管理模块；

跨机构的患者身份标识必须基于院内已经统一患者身份管理之后才能进行。而且都是非实时的，一般是发生地机构之间有信息交换时才进行患者身份的标识。主要的场景有以下几个：1)向外机构注册本院所产生的患者信息时(包括基本信息和医疗信息等)；2)向外机构申请查阅患者的医疗信息时；3)向外机构发起医疗服务申请时；4)向外机构提供医疗服务时。

患者在医院就诊的过程中，医院会采集的信息按与EMPI的关联性分为两大类，一类是患者的社会属性，如身份证号码、医保证号、农合号、电话号码、住址等；另一类是生物属性(也称之为临床信息)，如身高、体重、血压、呼吸、脉搏等，这部分医院是在临床诊疗的过程中产生的，而且具有个性化的特征。这两类信息目前在医院的信息采集过程中，很多都无法完整地采集，这就导致了这两部分信息不完整、分散，对于基于这些信息来建立EMPI难度是很大的，为了保证这些信息能被再次利用到EMPI上，所以必须得对这些信息按EMPI算法、结构的要求进行统一的加工处理。

现在主要的患者身份标识实现方法为基于患者的社会属性，采集匹配的算法进行的。这种算法的最大问题在于患者的基本信息在采集的时候不完整，很多关键的ID都没有采集到，这样就会导致这种算法匹配的成功率会很低。根据对几个项目的数据分析，有能唯一进行身份识别ID的患者信息量不足20％，特别是历史数据。

因此，有必要设计一种新的有效的患者身份识别方法。

发明内容

本发明所解决的技术问题是，针对现有技术的不足，提供一种基于患者生物信息的身份识别方法，通过引入患者在医院所收集的生物信息，结合已经收集的患者社会属性信息，基于对现有匹配算法的改进，提升患者主索引识别的效率和成功率。

本发明的技术方案为：

一种基于患者生物信息的身份识别方法，包括以下步骤：

步骤1：社会属性特征匹配；通过社会属性特征匹配，获取待识别的患者数据R_i与患者身份数据库中的其它任意一条数据R_j的相似度权重W(R_i,R_j)；

步骤2：生物属性特征匹配与身份识别；通过生物属性特征匹配，获取待识别的患者数据R_i与患者身份数据库中的其它任意一条数据R_j的相似度Sim(R_i,R_j)；

由相似度权重W(R_i,R_j)和相似度Sim(R_i,R_j)进行加权计算，得到R_i和R_j的综合相似度S(R_i,R_j)；

将S(R_i,R_j)与设定阈值λ进行比较；若S(R_i,R_j)大于或等于λ，则认为两条数据R_i和R_j属于同一个人，从而实现患者身份的识别。

所述步骤1社会属性特征匹配包括以下步骤：

1.1)数据预处理；

社会属性信息在录入的过程中，常常会发生录入信息不规范不完整的情况，为了提高匹配结果的准确性和效率，对患者身份数据库中的数据(包括医院历史数据和新患者数据)进行预处理，以统一数据格式；例如，将不符合各社会属性特征字段要求的错误和冗余数据进行置空处理，以免影响匹配结果；对于号码放置位置错误的情况，进行位置重置；对于证件号码或电话号码，如身份证位数不一致或者电话号码格式不统一的问题，进行统一格式处理；如身份证号码不足18位的，在后面用符号X进行补全。

1.2)对于患者身份数据库中的每一条数据，进行社会属性特征筛选；

将患者社会属性特征按照可信度分为两个等级，分别是一级特征和二级特征：

一级特征为基本不变的信息，包括姓、名、性别、身份证号、出生日期；一级特征是进行匹配的主要特征，可靠性相对较高；

二级特征为变化频率较低的信息，包括电话号码、手机号码、居住地址、户口地址和邮编；二级特征是进行匹配的辅助特征，可靠性相对较低；

1.3)将待识别的患者数据与患者身份数据库中的其它所有数据逐条进行一级特征匹配；

将患者身份数据库中与待识别的患者数据一级特征匹配成功的所有数据组成一级成功匹配记录集，记为Set(I)；Set(I)中的每一条数据与待识别的患者数据的相关性权重设置为w₁；

将患者身份数据库中未与待识别的患者数据一级特征匹配成功的所有数据组成一级未成功匹配记录集，进入1.4)；

1.4)将待识别的患者数据与一级未成功匹配记录集中的所有数据逐条进行二级特征匹配；

将一级未成功匹配记录集中与待识别的患者数据二级特征匹配成功的所有数据组成二级成功匹配记录集，记为Set(II)；Set(II)中的每一条数据与待识别的患者数据的相关性权重设置为w₂；

将一级未成功匹配记录集中未与待识别的患者数据二级特征匹配成功的剩余所有数据组成二级未成功匹配记录集，记为Set(III)；Set(III)中的每一条数据与待识别的患者数据的相关性权重设置为w₃。

其中w₁＞w₂＞w₃；由w₁、w₂和w₃得到待识别的患者数据R_i与患者身份数据库中的其它任意一条数据R_j的相似度权重W(R_i,R_j)。

所述步骤1.3)具体为：

先根据待识别的患者数据一级特征中的姓和性别，筛选出患者身份数据库中所有与待识别的患者数据的姓和性别相同的数据；

再将待识别的患者数据与筛选出的患者身份数据库中的数据进行除了姓和性别以外的其它一级特征匹配。

先对患者身份数据库中的患者进行索引，再基于索引结果进行匹配，相对于逐条进行所有一级特征匹配，可以减少比较量，从而能够整体提升效率。

所述w₁＝1，w₂＝0.5，w₃＝0.1。

所述步骤2生物属性特征匹配与身份识别包括以下步骤：

2.1)生物属性特征提取；

对患者身份数据库中的任意一条数据R，首先进行关键词提取：

R＝{KW₁，KW₂，…，KW_n}

其中，KW₁表示R中的第一个关键词；关键词包括属性关键词(例如，血液、身高等)和特征关键词；特征关键词描述的是属性的取值或者特征(例如粘稠，170cm等)；

然后将属性关键词与特征关键词进行配对，得到属性/特征关键词对集合：

{(S₁，KW₁)，(S₂，KW₂)，…，(S_n，KW_n)}

(S_n，KW_n)表示R中第n个属性/特征关键词对，n为R中的属性/特征关键词对的总个数，S_n表示R中第n个属性/特征关键词对中的属性关键词，KW_n表示第n个属性/特征关键词对中的特征关键词；

属性/特征关键词对描述了不同检查结果，例如关键词对(体重，70kg)表示患者的体重是70公斤。

2.2)计算两条数据R_i和R_j之间的生物属性特征的相似度Sim(R_i,R_j)；

Sim(R_i,R_j)等于两条数据之间匹配的属性/特征关键词对个数；

设置Sim(R_i,R_j)的初始值为0；两条数据的属性/特征关键词对有一个匹配则相似度加1。例如，对于两条数据R_i与R_j，其中属性/特征关键词对{S_i，KW_i}属于R_i，而属性/特征关键词对{S_j，KW_j}属于R_j，如果S_i＝S_j，且KW_i＝KW_j，则{S_i，KW_i}与{S_j，KW_j}匹配，Sim(R_i,R_j)加1。

2.3)通过以下公式计算两条数据R_i和R_j的综合相似度S(R_i,R_j)：

S(R_i,R_j)＝W(R_i,R_j)·Sim(R_i,R_j)

2.4)进行阈值比较，识别待识别的患者身份；

将R_i和R_j的综合相似度S(R_i,R_j)与阈值λ进行比较；若S(R_i,R_j)大于或等于λ，则认为两条数据R_i和R_j属于同一个人，从而实现患者身份的识别。

所述步骤2.1)中利用Keygraph算法进行关键词提取。

所述步骤2.2)中，对于其中的特征关键词为数值的属性/特征关键词对(如属性关键词为身高、体重等)，进行模糊匹配，即只要特征关键词的大小偏差在5％范围内，均认为特征关键词匹配(相等)。

有益效果：

本发明通过引入患者在医院所收集的生物信息，结合已经收集的患者社会属性信息，基于对现有匹配算法的改进，对患者身份数据库进行匹配操作，匹配算法包括社会属性特征匹配算法和生物属性特征匹配两部分，共同构成基于患者生物信息的身份识别方法。本发明能应用于患者身份特征数据库中医院历史数据合并处理以及新患者数据识别融合两种情况。本发明能有效提升患者主索引识别的效率和成功率。

附图说明

图1为本发明流程图；

图2为本发明社会属性特征匹配流程图；

图3为本发明生物属性特征匹配流程图与身份识别；

具体实施方式

以下结合附图和具体实施方式对本发明进行进一步具体说明。

如图1所示，本发明公开了一种基于患者生物信息的身份识别方法，包括以下步骤：

步骤2：生物属性特征匹配与身份识别；通过生物属性特征匹配，获取待识别的患者数据R_i与患者身份数据库中的其它任意一条数据R_j的相似度S(R_i,R_j)

由相似度权重W(R_i,R_j)和相似度S(R_i,R_j)进行加权计算，得到R_i和R_j的综合相似度S(R_i,R_j)；

如图2所示，所述步骤1社会属性特征匹配包括以下步骤：

1.1)数据预处理；

社会属性信息在录入的过程中，常常会发生录入信息不规范不完整的情况，为了提高匹配结果的准确性和效率，对患者身份数据库中的数据(包括医院历史数据和新患者数据)进行预处理，以统一数据格式；例如，将不符合各社会属性特征字段要求的错误和冗余数据进行置空处理，以免影响匹配结果；对于号码放置位置错误的情况，进行位置重置；对于证件号码或电话号码，如身份证位数不一致或者电话号码格式不统一的问题，进行统一格式处理；如身份证号码不足18位的，通过在后面用符号X进行补全。

所述步骤1.3)具体为：

所述w₁＝1，w₂＝0.5，w₃＝0.1。

如图3所示，所述步骤2生物属性特征匹配与身份识别包括以下步骤：

2.1)生物属性特征提取；

R＝{KW₁，KW₂，…，KW_n}

其中，KW₁表示R中的第一个关键词；关键词包括属性关键词(例如，血液、身高等)和特征关键词；特征关键词描述的是属性的取值或者特征(，例如粘稠，170cm等)；

{(S₁，KW₁)，(S₂，KW₂)，…，(S_n，KW_n)}

Sim(R_i,R_j)等于两条数据之间匹配的属性/特征关键词对个数；

S(R_i,R_j)＝W(R_i,R_j)·Sim(R_i,R_j)

2.4)进行阈值比较，识别待识别的患者身份；

所述步骤2.1)中利用Keygraph算法进行关键词提取。

实施例1：

有患者信息R₁：姓名：张三，年龄：37，身高：170cm，体重：70kg，肺部阴影，咳嗽有痰。

数据库中有两条记录，分别是：

R₂：姓名：张三，年龄：35，身高：162cm，体重：69kg，肺部无阴影。

R₃：姓名：张三，年龄：36，身高：171cm，体重：65kg，肺部阴影。

下面计算患者于数据库中记录的综合相似度：

首先计算相似度权重：W(R₁,R₂)＝1，W(R₁,R₃)＝1；

随后计算相似度：Sim(R₁,R₂)＝1，Sim(R₁,R₃)＝2；

最后计算综合相似度：S(R₁,R₂)＝1，S(R₁,R₃)＝2；

如果阈值λ＝2。由于S(R₁,R₃)>＝λ，则可以认为R₁,R₃是同一个人。

Claims

1.一种基于患者生物信息的身份识别方法，其特征在于，包括以下步骤：

将S(R_i,R_j)与设定阈值λ进行比较；若S(R_i,R_j)大于或等于λ，则认为两条数据R_i和R_j属于同一个人，从而实现患者身份的识别；

所述步骤1社会属性特征匹配包括以下步骤：

1.1)数据预处理；

对患者身份数据库中的数据进行预处理，以统一数据格式；

一级特征为基本不变的信息，包括姓、名、性别、身份证号、出生日期；

二级特征为变化频率较低的信息，包括电话号码、手机号码、居住地址、户口地址和邮编；

1.3)将待识别的患者数据与患者身份数据库中的其它所有数据进行一级特征匹配；

将一级未成功匹配记录集中未与待识别的患者数据二级特征匹配成功的剩余所有数据组成二级未成功匹配记录集，记为Set(III)；Set(III)中的每一条数据与待识别的患者数据的相关性权重设置为w₃；

2.根据权利要求1所述的基于患者生物信息的身份识别方法，其特征在于，所述步骤1.3)具体为：

3.根据权利要求1所述的基于患者生物信息的身份识别方法，其特征在于，所述w₁＝1，w₂＝0.5，w₃＝0.1。

4.根据权利要求1所述的基于患者生物信息的身份识别方法，其特征在于，所述步骤2生物属性特征匹配与身份识别包括以下步骤：

2.1)生物属性特征提取；

R＝{KW₁，KW₂，…，KW_n}

其中，KW₁表示R中的第一个关键词；关键词包括属性关键词和特征关键词；特征关键词描述的是属性的取值或者特征；

{(S₁，KW₁)，(S₂，KW₂)，…，(S_n，KW_n)}

Sim(R_i,R_j)等于两条数据之间匹配的属性/特征关键词对个数；

S(R_i,R_j)＝W(R_i,R_j)·Sim(R_i,R_j)

2.4)进行阈值比较，识别待识别的患者身份；

5.根据权利要求4所述的基于患者生物信息的身份识别方法，其特征在于，所述步骤2.1)中利用Keygraph算法进行关键词提取。

6.根据权利要求5所述的基于患者生物信息的身份识别方法，其特征在于，所述步骤2.2)中，对于其中的特征关键词为数值的属性/特征关键词对，进行模糊匹配，即只要特征关键词的大小偏差在5％范围内，均认为特征关键词匹配。

7.根据权利要求1～6中任一项所述的基于患者生物信息的身份识别方法，其特征在于，所述阈值λ＝2。