CN106295182A - 一种基于患者生物信息的身份识别方法 - Google Patents

一种基于患者生物信息的身份识别方法 Download PDF

Info

Publication number
CN106295182A
CN106295182A CN201610652594.3A CN201610652594A CN106295182A CN 106295182 A CN106295182 A CN 106295182A CN 201610652594 A CN201610652594 A CN 201610652594A CN 106295182 A CN106295182 A CN 106295182A
Authority
CN
China
Prior art keywords
data
patient
identified
attribute
key words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610652594.3A
Other languages
English (en)
Other versions
CN106295182B (zh
Inventor
王亚南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data (hunan) Technology Co Ltd
Original Assignee
Data (hunan) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Data (hunan) Technology Co Ltd filed Critical Data (hunan) Technology Co Ltd
Priority to CN201610652594.3A priority Critical patent/CN106295182B/zh
Publication of CN106295182A publication Critical patent/CN106295182A/zh
Application granted granted Critical
Publication of CN106295182B publication Critical patent/CN106295182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于患者生物信息的身份识别方法,包括以下步骤:步骤1:通过社会属性特征匹配,获取待识别的患者数据Ri与患者身份数据库中的其它任意一条数据Rj的相似度权重W(Ri,Rj);步骤2:通过生物属性特征匹配,获取待识别的患者数据Ri与患者身份数据库中的其它任意一条数据Rj的相似度S(Ri,Rj);由相似度权重W(Ri,Rj)和相似度S(Ri,Rj)进行加权计算,得到Ri和Rj的综合相似度S(Ri,Rj);将S(Ri,Rj)与设定阈值λ进行比较;若S(Ri,Rj)大于λ,则认为两条数据Ri和Rj属于同一个人,从而实现患者身份的识别。本发明能提升患者主索引识别的效率和成功率。

Description

一种基于患者生物信息的身份识别方法
技术领域
本发明涉及一种基于患者生物信息的身份识别方法。
背景
患者主索引(Enterprise Master Patient Index,EMPI)是二十世纪末出现的医疗信息化专业用语,简单来说,它是患者基本信息检索目录。其主要用途是在一个复杂的医疗体系内,通过唯一的患者标识将多个医疗信息系统有效地关联在一起,以实现各个系统之间的互联互通,保证对同一个患者,分布在不同系统中的个人信息采集的完整性和准确性。建立患者主索引是实现大型医院内部系统集成,医院集团内资源共享,以及建立居民健康档案实现区域医疗共享的必要条件。
患者主索引在医院的作用随着医院信息化建设的发展,从原有HIS系统的基础上,逐步发展出LIS、RIS/PACS、手术麻醉、病理、心电、重症监护(ICU/CCU)、EMR(电子病历)等系统。这些不同的系统可能来自不同的提供商,每个系统的架构、数据格式、编码标准可能不同,致使不同系统的患者信息和临床信息不能实现共享。为了解决达样的问题,一些HIS厂商托管了患者信息管理的职能,而且加强了对其他系统的开放接口。患者主索引的主要职责是:通过建立起唯一的患者标识,将多个医疗信息系统之间的患者信息有效地关联在一起;以患者为中心,将不同系统的个人身份信息进行统一管理;为不同的系统提供统一的患者身份信息管理服务。
目前在医疗行业内部,对于患者信息管理与身份标识主要是在以下几种情况:医院内部不同患者在同一系统内部的信息管理与身份标识;医院内部不同系统之间的患者信息管理与身份标识;集团医院之间的患者信息管理与身份标识;区域内各医疗机构之间的患者信息管理与身份标识。以上四个场景归纳为医院内部与跨机构两个大的应用场景。从就医过程来看,一般患者首先是在医院挂号或住院登记后再进行其它的医疗活动,而挂号与住院登记就是身份注册与标识的关键点,而这一点由于历史原因,很多医院的系统都未将此功能完善,从而导致了这一大需求的出现。
根据不同医院系统的建设情况,主要存在以下几种情况:1)住院与门诊的身份标识不统一:患者住院时,在住院登记时重新进行身份信息的注册,并没有沿用门诊的身份标识信息,从而导致同一个患者在住院和门诊之间无法进行关联;2)多次住院(或门诊、体检)身份标识不统一:患者多次住院时,每次都进行了身份信息的登记,且多次之间没有关联;可能是由于操作员或患者未提供关联的信息而导致的;3)体检系统与住院和门诊身份标识不统一:一般是由于体检系统与住院和门诊系统未互联互通导致的,一般都是由不同产家提供的。
院内除了门急诊、住院和体检系统是重要的患者信息注册的入口外,从医疗活动的过程来看,其它系统都是由于这三个业务发生后才发生,如检查一般是在患者门诊看诊或住院后发生。所以从理论上来说这些系统应当沿用这三个业务系统的患者身份标识信息,但由于医院信息系统在建设的过程中,这些系统并未与以上三个系统互通互联而导致了现在的这个情况。目前主要的情况是:各系统的使用人员还没有患者身份标识的概念,一般是通过申请单上的简单信息在对应的系统进行简单地登记后再进行后续的业务,而且这些系统无完善的患者信息管理模块;
跨机构的患者身份标识必须基于院内已经统一患者身份管理之后才能进行。而且都是非实时的,一般是发生地机构之间有信息交换时才进行患者身份的标识。主要的场景有以下几个:1)向外机构注册本院所产生的患者信息时(包括基本信息和医疗信息等);2)向外机构申请查阅患者的医疗信息时;3)向外机构发起医疗服务申请时;4)向外机构提供医疗服务时。
患者在医院就诊的过程中,医院会采集的信息按与EMPI的关联性分为两大类,一类是患者的社会属性,如身份证号码、医保证号、农合号、电话号码、住址等;另一类是生物属性(也称之为临床信息),如身高、体重、血压、呼吸、脉搏等,这部分医院是在临床诊疗的过程中产生的,而且具有个性化的特征。这两类信息目前在医院的信息采集过程中,很多都无法完整地采集,这就导致了这两部分信息不完整、分散,对于基于这些信息来建立EMPI难度是很大的,为了保证这些信息能被再次利用到EMPI上,所以必须得对这些信息按EMPI算法、结构的要求进行统一的加工处理。
现在主要的患者身份标识实现方法为基于患者的社会属性,采集匹配的算法进行的。这种算法的最大问题在于患者的基本信息在采集的时候不完整,很多关键的ID都没有采集到,这样就会导致这种算法匹配的成功率会很低。根据对几个项目的数据分析,有能唯一进行身份识别ID的患者信息量不足20%,特别是历史数据。
因此,有必要设计一种新的有效的患者身份识别方法。
发明内容
本发明所解决的技术问题是,针对现有技术的不足,提供一种基于患者生物信息的身份识别方法,通过引入患者在医院所收集的生物信息,结合已经收集的患者社会属性信息,基于对现有匹配算法的改进,提升患者主索引识别的效率和成功率。
本发明的技术方案为:
一种基于患者生物信息的身份识别方法,包括以下步骤:
步骤1:社会属性特征匹配;通过社会属性特征匹配,获取待识别的患者数据Ri与患者身份数据库中的其它任意一条数据Rj的相似度权重W(Ri,Rj);
步骤2:生物属性特征匹配与身份识别;通过生物属性特征匹配,获取待识别的患者数据Ri与患者身份数据库中的其它任意一条数据Rj的相似度S(Ri,Rj)
由相似度权重W(Ri,Rj)和相似度S(Ri,Rj)进行加权计算,得到Ri和Rj的综合相似度S(Ri,Rj);
将S(Ri,Rj)与设定阈值λ进行比较;若S(Ri,Rj)大于或等于λ,则认为两条数据Ri和Rj属于同一个人,从而实现患者身份的识别。
所述步骤1社会属性特征匹配包括以下步骤:
1.1)数据预处理;
社会属性信息在录入的过程中,常常会发生录入信息不规范不完整的情况,为了提高匹配结果的准确性和效率,对患者身份数据库中的数据(包括医院历史数据和新患者数据)进行预处理,以统一数据格式;例如,将不符合各社会属性特征字段要求的错误和冗余数据进行置空处理,以免影响匹配结果;对于号码放置位置错误的情况,进行位置重置;对于证件号码或电话号码,如身份证位数不 一致或者电话号码格式不统一的问题,进行统一格式处理;如身份证号码不足18位的,在后面用符号X进行补全。
1.2)对于患者身份数据库中的每一条数据,进行社会属性特征筛选;
将患者社会属性特征按照可信度分为两个等级,分别是一级特征和二级特征:
一级特征为基本不变的信息,包括姓、名、性别、身份证号、出生日期;一级特征是进行匹配的主要特征,可靠性相对较高;
二级特征为变化频率较低的信息,包括电话号码、手机号码、居住地址、户口地址和邮编;二级特征是进行匹配的辅助特征,可靠性相对较低;
1.3)将待识别的患者数据与患者身份数据库中的其它所有数据逐条进行一级特征匹配;
将患者身份数据库中与待识别的患者数据一级特征匹配成功的所有数据组成一级成功匹配记录集,记为Set(I);Set(I)中的每一条数据与待识别的患者数据的相关性权重设置为w1
将患者身份数据库中未与待识别的患者数据一级特征匹配成功的所有数据组成一级未成功匹配记录集,进入1.4);
1.4)将待识别的患者数据与一级未成功匹配记录集中的所有数据逐条进行二级特征匹配;
将一级未成功匹配记录集中与待识别的患者数据二级特征匹配成功的所有数据组成二级成功匹配记录集,记为Set(II);Set(II)中的每一条数据与待识别的患者数据的相关性权重设置为w2
将一级未成功匹配记录集中未与待识别的患者数据二级特征匹配成功的剩余所有数据组成二级未成功匹配记录集,记为Set(III);Set(III)中的每一条数据与待识别的患者数据的相关性权重设置为w3
其中w1>w2>w3;由w1、w2和w3得到待识别的患者数据Ri与患者身份数据库中的其它任意一条数据Rj的相似度权重W(Ri,Rj)。
所述步骤1.3)具体为:
先根据待识别的患者数据一级特征中的姓和性别,筛选出患者身份数据库中所有与待识别的患者数据的姓和性别相同的数据;
再将待识别的患者数据与筛选出的患者身份数据库中的数据进行除了姓和性别以外的其它一级特征匹配。
先对患者身份数据库中的患者进行索引,再基于索引结果进行匹配,相对于逐条进行所有一级特征匹配,可以减少比较量,从而能够整体提升效率。
所述w1=1,w2=0.5,w3=0.1。
所述步骤2生物属性特征匹配与身份识别包括以下步骤:
2.1)生物属性特征提取;
对患者身份数据库中的任意一条数据R,首先进行关键词提取:
R={KW1,KW2,…,KWn}
其中,KW1表示R中的第一个关键词;关键词包括属性关键词(例如,血液、身高等)和特征关键词;特征关键词描述的是属性的取值或者特征(例如粘稠,170cm等);
然后将属性关键词与特征关键词进行配对,得到属性/特征关键词对集合:
{(S1,KW1),(S2,KW2),…,(Sn,KWn)}
(Sn,KWn)表示R中第n个属性/特征关键词对,n为R中的属性/特征关键词对的总个数,Sn表示R中第n个属性/特征关键词对中的属性关键词,KWn表示第n个属性/特征关键词对中的特征关键词;
属性/特征关键词对描述了不同检查结果,例如关键词对(体重,70kg)表示患者的体重是70公斤。
2.2)计算两条数据Ri和Rj之间的生物属性特征的相似度Sim(Ri,Rj);
Sim(Ri,Rj)等于两条数据之间匹配的属性/特征关键词对个数;
设置Sim(Ri,Rj)的初始值为0;两条数据的属性/特征关键词对有一个匹配则相似度加1。例如,对于两条数据Ri与Rj,其中属性/特征关键词对{Si,KWi}属于Ri,而属性/特征关键词对{Sj,KWj}属于Rj,如果Si=Sj,且KWi=KWj,则{Si,KWi}与{Sj,KWj}匹配,Sim(Ri,Rj)加1。
2.3)通过以下公式计算两条数据Ri和Rj的综合相似度S(Ri,Rj):
S(Ri,Rj)=W(Ri,Rj)·Sim(Ri,Rj)
2.4)进行阈值比较,识别待识别的患者身份;
将Ri和Rj的综合相似度S(Ri,Rj)与阈值λ进行比较;若S(Ri,Rj)大于或等于λ,则认为两条数据Ri和Rj属于同一个人,从而实现患者身份的识别。
所述步骤2.1)中利用Keygraph算法进行关键词提取。
所述步骤2.2)中,对于其中的特征关键词为数值的属性/特征关键词对(如属性关键词为身高、体重等),进行模糊匹配,即只要特征关键词的大小偏差在5%范围内,均认为特征关键词匹配(相等)。
有益效果:
本发明通过引入患者在医院所收集的生物信息,结合已经收集的患者社会属性信息,基于对现有匹配算法的改进,对患者身份数据库进行匹配操作,匹配算法包括社会属性特征匹配算法和生物属性特征匹配两部分,共同构成基于患者生物信息的身份识别方法。本发明能应用于患者身份特征数据库中医院历史数据合并处理以及新患者数据识别融合两种情况。本发明能有效提升患者主索引识别的效率和成功率。
附图说明
图1为本发明流程图;
图2为本发明社会属性特征匹配流程图;
图3为本发明生物属性特征匹配流程图与身份识别;
具体实施方式
以下结合附图和具体实施方式对本发明进行进一步具体说明。
如图1所示,本发明公开了一种基于患者生物信息的身份识别方法,包括以下步骤:
步骤1:社会属性特征匹配;通过社会属性特征匹配,获取待识别的患者数据Ri与患者身份数据库中的其它任意一条数据Rj的相似度权重W(Ri,Rj);
步骤2:生物属性特征匹配与身份识别;通过生物属性特征匹配,获取待识别的患者数据Ri与患者身份数据库中的其它任意一条数据Rj的相似度S(Ri,Rj)
由相似度权重W(Ri,Rj)和相似度S(Ri,Rj)进行加权计算,得到Ri和Rj的综合相似度S(Ri,Rj);
将S(Ri,Rj)与设定阈值λ进行比较;若S(Ri,Rj)大于或等于λ,则认为两条数据Ri和Rj属于同一个人,从而实现患者身份的识别。
如图2所示,所述步骤1社会属性特征匹配包括以下步骤:
1.1)数据预处理;
社会属性信息在录入的过程中,常常会发生录入信息不规范不完整的情况,为了提高匹配结果的准确性和效率,对患者身份数据库中的数据(包括医院历史数据和新患者数据)进行预处理,以统一数据格式;例如,将不符合各社会属性特征字段要求的错误和冗余数据进行置空处理,以免影响匹配结果;对于号码放置位置错误的情况,进行位置重置;对于证件号码或电话号码,如身份证位数不一致或者电话号码格式不统一的问题,进行统一格式处理;如身份证号码不足18位的,通过在后面用符号X进行补全。
1.2)对于患者身份数据库中的每一条数据,进行社会属性特征筛选;
将患者社会属性特征按照可信度分为两个等级,分别是一级特征和二级特征:
一级特征为基本不变的信息,包括姓、名、性别、身份证号、出生日期;一级特征是进行匹配的主要特征,可靠性相对较高;
二级特征为变化频率较低的信息,包括电话号码、手机号码、居住地址、户口地址和邮编;二级特征是进行匹配的辅助特征,可靠性相对较低;
1.3)将待识别的患者数据与患者身份数据库中的其它所有数据逐条进行一级特征匹配;
将患者身份数据库中与待识别的患者数据一级特征匹配成功的所有数据组成一级成功匹配记录集,记为Set(I);Set(I)中的每一条数据与待识别的患者数据的相关性权重设置为w1
将患者身份数据库中未与待识别的患者数据一级特征匹配成功的所有数据组成一级未成功匹配记录集,进入1.4);
1.4)将待识别的患者数据与一级未成功匹配记录集中的所有数据逐条进行二级特征匹配;
将一级未成功匹配记录集中与待识别的患者数据二级特征匹配成功的所有数据组成二级成功匹配记录集,记为Set(II);Set(II)中的每一条数据与待识别的患者数据的相关性权重设置为w2
将一级未成功匹配记录集中未与待识别的患者数据二级特征匹配成功的剩余所有数据组成二级未成功匹配记录集,记为Set(III);Set(III)中的每一条数据与待识别的患者数据的相关性权重设置为w3
其中w1>w2>w3;由w1、w2和w3得到待识别的患者数据Ri与患者身份数据库中的其它任意一条数据Rj的相似度权重W(Ri,Rj)。
所述步骤1.3)具体为:
先根据待识别的患者数据一级特征中的姓和性别,筛选出患者身份数据库中所有与待识别的患者数据的姓和性别相同的数据;
再将待识别的患者数据与筛选出的患者身份数据库中的数据进行除了姓和性别以外的其它一级特征匹配。
所述w1=1,w2=0.5,w3=0.1。
如图3所示,所述步骤2生物属性特征匹配与身份识别包括以下步骤:
2.1)生物属性特征提取;
对患者身份数据库中的任意一条数据R,首先进行关键词提取:
R={KW1,KW2,…,KWn}
其中,KW1表示R中的第一个关键词;关键词包括属性关键词(例如,血液、身高等)和特征关键词;特征关键词描述的是属性的取值或者特征(,例如粘稠,170cm等);
然后将属性关键词与特征关键词进行配对,得到属性/特征关键词对集合:
{(S1,KW1),(S2,KW2),…,(Sn,KWn)}
(Sn,KWn)表示R中第n个属性/特征关键词对,n为R中的属性/特征关键词对的总个数,Sn表示R中第n个属性/特征关键词对中的属性关键词,KWn表示第n个属性/特征关键词对中的特征关键词;
属性/特征关键词对描述了不同检查结果,例如关键词对(体重,70kg)表示患者的体重是70公斤。
2.2)计算两条数据Ri和Rj之间的生物属性特征的相似度Sim(Ri,Rj);
Sim(Ri,Rj)等于两条数据之间匹配的属性/特征关键词对个数;
设置Sim(Ri,Rj)的初始值为0;两条数据的属性/特征关键词对有一个匹配则相似度加1。例如,对于两条数据Ri与Rj,其中属性/特征关键词对{Si,KWi}属于 Ri,而属性/特征关键词对{Sj,KWj}属于Rj,如果Si=Sj,且KWi=KWj,则{Si,KWi}与{Sj,KWj}匹配,Sim(Ri,Rj)加1。
2.3)通过以下公式计算两条数据Ri和Rj的综合相似度S(Ri,Rj):
S(Ri,Rj)=W(Ri,Rj)·Sim(Ri,Rj)
2.4)进行阈值比较,识别待识别的患者身份;
将Ri和Rj的综合相似度S(Ri,Rj)与阈值λ进行比较;若S(Ri,Rj)大于或等于λ,则认为两条数据Ri和Rj属于同一个人,从而实现患者身份的识别。
所述步骤2.1)中利用Keygraph算法进行关键词提取。
所述步骤2.2)中,对于其中的特征关键词为数值的属性/特征关键词对(如属性关键词为身高、体重等),进行模糊匹配,即只要特征关键词的大小偏差在5%范围内,均认为特征关键词匹配(相等)。
实施例1:
有患者信息R1:姓名:张三,年龄:37,身高:170cm,体重:70kg,肺部阴影,咳嗽有痰。
数据库中有两条记录,分别是:
R2:姓名:张三,年龄:35,身高:162cm,体重:69kg,肺部无阴影。
R3:姓名:张三,年龄:36,身高:171cm,体重:65kg,肺部阴影。
下面计算患者于数据库中记录的综合相似度:
首先计算相似度权重:W(R1,R2)=1,W(R1,R3)=1;
随后计算相似度:Sim(R1,R2)=1,Sim(R1,R3)=2;
最后计算综合相似度:S(R1,R2)=1,S(R1,R3)=2;
如果阈值λ=2。由于S(R1,R3)>=λ,则可以认为R1,R3是同一个人。

Claims (8)

1.一种基于患者生物信息的身份识别方法,其特征在于,包括以下步骤:
步骤1:社会属性特征匹配;通过社会属性特征匹配,获取待识别的患者数据Ri与患者身份数据库中的其它任意一条数据Rj的相似度权重W(Ri,Rj);
步骤2:生物属性特征匹配与身份识别;通过生物属性特征匹配,获取待识别的患者数据Ri与患者身份数据库中的其它任意一条数据Rj的相似度S(Ri,Rj)
由相似度权重W(Ri,Rj)和相似度S(Ri,Rj)进行加权计算,得到Ri和Rj的综合相似度S(Ri,Rj);
将S(Ri,Rj)与设定阈值λ进行比较;若S(Ri,Rj)大于或等于λ,则认为两条数据Ri和Rj属于同一个人,从而实现患者身份的识别。
2.根据权利要求1所述的基于患者生物信息的身份识别方法,其特征在于,所述步骤1社会属性特征匹配包括以下步骤:
1.1)数据预处理;
对患者身份数据库中的数据进行预处理,以统一数据格式;
1.2)对于患者身份数据库中的每一条数据,进行社会属性特征筛选;
将患者社会属性特征按照可信度分为两个等级,分别是一级特征和二级特征:
一级特征为基本不变的信息,包括姓、名、性别、身份证号、出生日期;
二级特征为变化频率较低的信息,包括电话号码、手机号码、居住地址、户口地址和邮编;
1.3)将待识别的患者数据与患者身份数据库中的其它所有数据进行一级特征匹配;
将患者身份数据库中与待识别的患者数据一级特征匹配成功的所有数据组成一级成功匹配记录集,记为Set(I);Set(I)中的每一条数据与待识别的患者数据的相关性权重设置为w1
将患者身份数据库中未与待识别的患者数据一级特征匹配成功的所有数据组成一级未成功匹配记录集,进入1.4);
1.4)将待识别的患者数据与一级未成功匹配记录集中的所有数据逐条进行二级特征匹配;
将一级未成功匹配记录集中与待识别的患者数据二级特征匹配成功的所有数据组成二级成功匹配记录集,记为Set(II);Set(II)中的每一条数据与待识别的患者数据的相关性权重设置为w2
将一级未成功匹配记录集中未与待识别的患者数据二级特征匹配成功的剩余所有数据组成二级未成功匹配记录集,记为Set(III);Set(III)中的每一条数据与待识别的患者数据的相关性权重设置为w3
其中w1>w2>w3;由w1、w2和w3得到待识别的患者数据Ri与患者身份数据库中的其它任意一条数据Rj的相似度权重W(Ri,Rj)。
3.根据权利要求2所述的基于患者生物信息的身份识别方法,其特征在于,所述步骤1.3)具体为:
先根据待识别的患者数据一级特征中的姓和性别,筛选出患者身份数据库中所有与待识别的患者数据的姓和性别相同的数据;
再将待识别的患者数据与筛选出的患者身份数据库中的数据进行除了姓和性别以外的其它一级特征匹配。
4.根据权利要求2所述的基于患者生物信息的身份识别方法,其特征在于,所述w1=1,w2=0.5,w3=0.1。
5.根据权利要求2所述的基于患者生物信息的身份识别方法,其特征在于,所述步骤2生物属性特征匹配与身份识别包括以下步骤:
2.1)生物属性特征提取;
对患者身份数据库中的任意一条数据R,首先进行关键词提取:
R={KW1,KW2,…,KWn}
其中,KW1表示R中的第一个关键词;关键词包括属性关键词和特征关键词;特征关键词描述的是属性的取值或者特征;
然后将属性关键词与特征关键词进行配对,得到属性/特征关键词对集合:
{(S1,KW1),(S2,KW2),…,(Sn,KWn)}
(Sn,KWn)表示R中第n个属性/特征关键词对,n为R中的属性/特征关键词对的总个数,Sn表示R中第n个属性/特征关键词对中的属性关键词,KWn表示第n个属性/特征关键词对中的特征关键词;
2.2)计算两条数据Ri和Rj之间的生物属性特征的相似度Sim(Ri,Rj);
Sim(Ri,Rj)等于两条数据之间匹配的属性/特征关键词对个数;
2.3)通过以下公式计算两条数据Ri和Rj的综合相似度S(Ri,Rj):
S(Ri,Rj)=W(Ri,Rj)·Sim(Ri,Rj)
2.4)进行阈值比较,识别待识别的患者身份;
将Ri和Rj的综合相似度S(Ri,Rj)与阈值λ进行比较;若S(Ri,Rj)大于或等于λ,则认为两条数据Ri和Rj属于同一个人,从而实现患者身份的识别。
6.根据权利要求5所述的基于患者生物信息的身份识别方法,其特征在于,所述步骤2.1)中利用Keygraph算法进行关键词提取。
7.根据权利要求6所述的基于患者生物信息的身份识别方法,其特征在于,所述步骤2.2)中,对于其中的特征关键词为数值的属性/特征关键词对,进行模糊匹配,即只要特征关键词的大小偏差在5%范围内,均认为特征关键词匹配。
8.根据权利要求1~7中任一项所述的基于患者生物信息的身份识别方法,其特征在于,所述阈值λ=2。
CN201610652594.3A 2016-08-10 2016-08-10 一种基于患者生物信息的身份识别方法 Active CN106295182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610652594.3A CN106295182B (zh) 2016-08-10 2016-08-10 一种基于患者生物信息的身份识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610652594.3A CN106295182B (zh) 2016-08-10 2016-08-10 一种基于患者生物信息的身份识别方法

Publications (2)

Publication Number Publication Date
CN106295182A true CN106295182A (zh) 2017-01-04
CN106295182B CN106295182B (zh) 2019-03-08

Family

ID=57668078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610652594.3A Active CN106295182B (zh) 2016-08-10 2016-08-10 一种基于患者生物信息的身份识别方法

Country Status (1)

Country Link
CN (1) CN106295182B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491460A (zh) * 2018-03-05 2018-09-04 北京市肿瘤防治研究所 个人身份信息匹配方法、装置、存储介质及计算机设备
CN110245146A (zh) * 2019-05-20 2019-09-17 中国平安人寿保险股份有限公司 一种用户识别的方法及相关装置
CN111192689A (zh) * 2018-11-15 2020-05-22 零氪科技(北京)有限公司 一种基于医疗数据的患者识别方法
CN111785341A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 基于相似性的患者主索引数据合并方法及装置
CN112019346A (zh) * 2020-08-17 2020-12-01 北京双洲科技有限公司 一种移动终端用户身份验证处理的方法、装置和系统
CN112863672A (zh) * 2021-03-09 2021-05-28 中电健康云科技有限公司 一种基于pso算法优化的患者身份匹配方法
CN112989887A (zh) * 2019-12-16 2021-06-18 深圳云天励飞技术有限公司 一种档案合并方法、装置及电子设备
CN114936359A (zh) * 2022-07-20 2022-08-23 深圳市木浪云科技有限公司 基于生物人和社会人的用户鉴权方法和系统
CN115269613A (zh) * 2022-09-27 2022-11-01 四川互慧软件有限公司 一种患者主索引构建方法、系统、设备及存储介质
CN116386801A (zh) * 2023-06-06 2023-07-04 四川互慧软件有限公司 基于聚类算法构建患者身份标识的方法、装置及电子设备
CN116825265A (zh) * 2023-08-29 2023-09-29 先临三维科技股份有限公司 就诊记录处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314478A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种患者身份识别与匹配的方法
CN102947832A (zh) * 2010-06-17 2013-02-27 皇家飞利浦电子股份有限公司 患者记录的身份匹配
CN103107886A (zh) * 2013-01-17 2013-05-15 深圳市元征科技股份有限公司 一种身份识别系统及方法
US20140358583A1 (en) * 2013-06-03 2014-12-04 Lattice Incorporated System and method for confirming the identity of a patient

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102947832A (zh) * 2010-06-17 2013-02-27 皇家飞利浦电子股份有限公司 患者记录的身份匹配
CN102314478A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种患者身份识别与匹配的方法
CN103107886A (zh) * 2013-01-17 2013-05-15 深圳市元征科技股份有限公司 一种身份识别系统及方法
US20140358583A1 (en) * 2013-06-03 2014-12-04 Lattice Incorporated System and method for confirming the identity of a patient

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491460A (zh) * 2018-03-05 2018-09-04 北京市肿瘤防治研究所 个人身份信息匹配方法、装置、存储介质及计算机设备
CN111192689B (zh) * 2018-11-15 2023-11-24 零氪科技(北京)有限公司 一种基于医疗数据的患者识别方法
CN111192689A (zh) * 2018-11-15 2020-05-22 零氪科技(北京)有限公司 一种基于医疗数据的患者识别方法
CN110245146A (zh) * 2019-05-20 2019-09-17 中国平安人寿保险股份有限公司 一种用户识别的方法及相关装置
CN110245146B (zh) * 2019-05-20 2022-11-25 中国平安人寿保险股份有限公司 一种用户识别的方法及相关装置
CN112989887A (zh) * 2019-12-16 2021-06-18 深圳云天励飞技术有限公司 一种档案合并方法、装置及电子设备
CN111785341A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 基于相似性的患者主索引数据合并方法及装置
CN112019346A (zh) * 2020-08-17 2020-12-01 北京双洲科技有限公司 一种移动终端用户身份验证处理的方法、装置和系统
CN112863672A (zh) * 2021-03-09 2021-05-28 中电健康云科技有限公司 一种基于pso算法优化的患者身份匹配方法
CN114936359A (zh) * 2022-07-20 2022-08-23 深圳市木浪云科技有限公司 基于生物人和社会人的用户鉴权方法和系统
CN114936359B (zh) * 2022-07-20 2022-11-01 深圳市木浪云科技有限公司 基于生物人和社会人的用户鉴权方法和系统
CN115269613A (zh) * 2022-09-27 2022-11-01 四川互慧软件有限公司 一种患者主索引构建方法、系统、设备及存储介质
CN115269613B (zh) * 2022-09-27 2023-01-13 四川互慧软件有限公司 一种患者主索引构建方法、系统、设备及存储介质
CN116386801A (zh) * 2023-06-06 2023-07-04 四川互慧软件有限公司 基于聚类算法构建患者身份标识的方法、装置及电子设备
CN116386801B (zh) * 2023-06-06 2023-08-11 四川互慧软件有限公司 基于聚类算法构建患者身份标识的方法、装置及电子设备
CN116825265A (zh) * 2023-08-29 2023-09-29 先临三维科技股份有限公司 就诊记录处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN106295182B (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN106295182B (zh) 一种基于患者生物信息的身份识别方法
Golden Deep learning algorithms for detection of lymph node metastases from breast cancer: helping artificial intelligence be seen
JP6907831B2 (ja) コンテキストベースの患者類似性の方法及び装置
US20140122389A1 (en) Methods for processing clinical information
WO2019006920A1 (zh) 基于医生问诊的慢病患者健康检查系统及方法
US11361020B2 (en) Systems and methods for storing and selectively retrieving de-identified medical images from a database
US20210057064A1 (en) Systems and methods for federated searching and retrieval of medical records across disparate databases
EP3596620A1 (en) Interoperable record matching process
JP6908977B2 (ja) 医療情報処理システム、医療情報処理装置及び医療情報処理方法
CN111667891A (zh) 应用于专病临床试验的队列识别方法及装置
Sathappan et al. Transformation of electronic health records and questionnaire data to OMOP CDM: a feasibility study using SG_T2DM dataset
US20230402188A1 (en) Indicator For Probable Inheritance Of Genetic Disease
US20140046694A1 (en) Systems and methods for synoptic element structured reporting
Dziadkowiec et al. Improving the quality and design of retrospective clinical outcome studies that utilize electronic health records
CN116469571A (zh) 一种真实世界数据的专病图谱的构建方法及系统
CN108154914B (zh) 一种准确匿名化存储和检索医疗图像的方法
Bertl et al. Finding indicator diseases of psychiatric disorders in bigdata using clustered association rule mining
US20220101961A1 (en) Systems and methods for matching medical records for patients across disparate medical providers to facilitate continuity of care
CN109522331B (zh) 以个人为中心的区域化多维度健康数据处理方法及介质
WO2023240837A1 (zh) 基于病患数据的服务包生成方法、装置、设备及存储介质
CN111279424A (zh) 用于优化图像采集工作流的设备、系统和方法
CN111667922A (zh) 一种临床诊疗数据录入系统和方法
US20130253947A1 (en) System for migrating personal health information and methods thereof
US10521552B2 (en) Method and computing device for implementing multiple matching strategies
Yu et al. Data Analysis on Health Management Systems for Improving Doctor's Advice on Patients

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant