CN113111063A - 一种应用于多数据源的医疗患者主索引发现方法 - Google Patents
一种应用于多数据源的医疗患者主索引发现方法 Download PDFInfo
- Publication number
- CN113111063A CN113111063A CN202110344519.1A CN202110344519A CN113111063A CN 113111063 A CN113111063 A CN 113111063A CN 202110344519 A CN202110344519 A CN 202110344519A CN 113111063 A CN113111063 A CN 113111063A
- Authority
- CN
- China
- Prior art keywords
- medical
- record
- main index
- similarity
- data sources
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及医疗互联互通领域,具体是一种应用于多数据源的医疗患者主索引发现方法,包括如下步骤:步骤一、获取医疗记录;步骤二、计算两两医疗记录之间的相似度;步骤三、基于相似度构建有权无向图;步骤四、基于有权无向图计算各医疗记录的记录主索引支持度;步骤五、标准化记录主索引支持度,确定主索引记录;旨在提高主索引准确性,克服现有技术在大数据场景下出现的数据冗余和高成本的缺陷,提供一种新的主索引发现算法。
Description
技术领域
本发明涉及医疗互联互通领域,具体是指一种应用于多数据源的医疗患者主索引发现方法。
背景技术
为了在区域范围内实现各医疗机构的数据共享或业务协同,有效地保存、分类、归档、查阅大批量的医疗信息,实现医疗记录在各个信息系统中的互联互通,需要针对患者建立统一的身份机制,该机制使得区域范围内,同一患者在多家医疗机构注册的多条医疗记录能够被识别为同一个人,并对患者的所有医疗信息建立关联关系,为此,患者需要一条最为准确的记录来标识其区别于其他患者存在的唯一性,进而保证分布在多个系统中的同一患者拥有完整、准确的个人信息采集结果,患者主索引(Master Patient Index,MPI)是指在一个区域范围内用以标识该域内每个患者实例并保持其唯一性的编码,而企业级患者主索引(Enterprise Master Patient Index,EMPI)系统则将来自多个系统的患者标识进行关联,实现同一病人多业务ID的关联和患者信息的统一或关联,确保患者信息映射、应用的准确性。
在这一应用场景下,现有技术大致可以划分为三类:一、基于概率的匹配算法,对关键字段进行索引匹配得到基础分数,然后在匹配结果中对候选记录的其余参考字段分别计算相似性分数,最后利用基础分数及各参考分数进行投票,筛选出总分超过设定阈值的结果集;二、在数据量小的情况下,操作者也可以凭经验和供以参考的患者信息,人工判断多条索引记录是否描述同一人;三、考虑到计算成本、数据安全等因素,直接将每一条记录都当作主索引。
上述方法在应对主索引发现任务时,仅考虑了字段间的直接关系,缺乏对全局信息以及隐含信息的捕捉和利用,这导致计算结果极大地依赖于相似度计算的精度,依据先验知识选择匹配字段后计算的投票结果并不理想,如果采用人工方法,无论是直接判断还是校验评估都相当的费时费力,而将每条数据都当作主索引则会造成大量的数据冗余,增加数据的存储和后续应用计算成本,效率低下。
发明内容
基于以上问题,本发明提供了一种应用于多数据源的医疗患者主索引发现方法,旨在提高主索引准确性,克服现有技术在大数据场景下出现的数据冗余和高成本的缺陷,提供一种新的主索引发现算法。
为解决以上技术问题,本发明采用的技术方案如下:
一种应用于多数据源的医疗患者主索引发现方法,包括如下步骤:
步骤一、获取医疗记录;
步骤二、计算两两医疗记录之间的相似度;
步骤三、基于相似度构建有权无向图;
步骤四、基于有权无向图计算各医疗记录的记录主索引支持度;
步骤五、标准化记录主索引支持度,确定主索引记录。
进一步,所述步骤1具体包括:
获取多数据源的医疗记录后对其去重,将各字段完全一样的记录视为同一患者。
进一步,计算两两医疗记录之间的相似度,并形成相似度矩阵,其计算公式为:
其中,lij表示两两医疗记录之间的相似度,L表示医疗记录的相似度矩阵,sq为医疗记录i和医疗记录j对于第q个字段精确匹配检索后的相似度,wq为医疗记录i和医疗记录j对于第q个字段在投票时占据的权重,m表示字段数量。
进一步,筛选出相似度大于等于设定阈值的记录对,形成三元组表,基于三元组表构建有权无向图。
进一步,在有权无向图中,每一个节点为某一条医疗记录,链路权重为两条医疗记录间的相似度。
进一步,各医疗记录的记录主索引支持度计算方式如下:
计算与某节点有连接的链路权重之和,即得到每条记录的相似度总分数si,计算公式为:
定义记录主索引支持度MI为每条医疗记录作为主索引记录候选的评分,初始化每个节点的MI值为1,迭代更新各节点的MI值,直到MI值收敛或计算超过最大迭代次数,其计算公式为:
进一步,标准化记录主索引支持度MI值后,选择MI值最大的节点作为主索引记录,若MI值相同则选择ID最小的医疗记录。
与现有技术相比,本发明的有益效果是:本方法引入数据的全局信息提升了主索引的准确性,提高了相似度计算的容错率,减少了对人工的依赖,降低了数据存储成本。
附图说明
图1为本实施例的流程图;
图2为本实施例构造的有权无向图。
具体实施方式
下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。
如图1所示的一种应用于多数据源的医疗患者主索引发现方法,包括如下步骤:
步骤一、获取医疗记录;
其中,获取多数据源的医疗记录后对其去重,将各字段完全一样的记录视为同一患者,同时,一批来源于多个信息系统的医疗记录因为错别字、字段丢失、系统差异等原因,医疗记录之间的相似度不高,但其中质量越高的医疗记录会与更多的记录之间有较高的相似度,因此,需要对各记录之间的相似度进行计算。
步骤二、计算两两医疗记录之间的相似度;
计算两两医疗记录之间的相似度,并形成相似度矩阵,其计算公式为:
其中,相似度流程是基于MapReduce框架计算,lij表示两两医疗记录之间的相似度,L表示医疗记录的相似度矩阵,sq为医疗记录i和医疗记录j对于第q个字段精确匹配检索后的相似度,wq为医疗记录i和医疗记录j对于第q个字段在投票时占据的权重,各字段权重为人为设定,m表示字段数量;
例如,基于MapReduce框架计算医疗记录之间的相似度,每个记录包含四个字段{Q1,Q2,Q3,Q4},其中,Q1表示姓名,Q2表示身份证号(本实施例中仅取5位数用于测试),Q3表示性别,Q4表示居住地,再人为设置各字段权重为w={1,1,0.6,0.5},现有医疗记录A:Q1=张三,Q2=62550,Q3=女,Q4=迎晖路,医疗记录D:Q1=张三,Q2=62551,Q3=女,Q4=迎晖路,最终,医疗记录A和医疗记录B相似度流程为具体为下表:
同时,可以把其他医疗记录中,两两医疗记录之间的相似度计算出来,并形成相似度矩阵。
步骤三、基于相似度构建有权无向图;
其中,筛选出相似度大于等于设定阈值的记录对,证明两条医疗记录之间有一定的的相似度,例如设定阈值为2,那么[(A,D),2.1]证明医疗记录A和医疗记录D之间有一定的相似度,将其存储为三元组(A,D,2.1),同时,本实施例以有权无向图中的一个连通子图为例进行说明(有权无向图是由若干个连通子图组合形成),该连通子图包含八条记录,分别为医疗记录A、B、C、D、E、F、G、H中,为了避免累述,现已将两两医疗记录之间相似度大于2的三元组筛选出来,形成三元组表,表示为:(A,D,2.1),(A,E,2.1),(B,D,2.6),(B,G,2.1),(B,H,2.1),(B,F,2.1),(B,C,2.1),(B,E,2.1),(C,E,2.1),(E,G,2.6),(E,H,2.1),(E,F,2.1),另外,需要标准化三元组表,表示为:(A,D,0.67),(A,E,0.67),(B,D,0.83),(B,G,0.67),(B,H,0.67),(B,F,0.67),(B,C,0.67),(B,E,0.67),(C,E,0.67),(E,G,0.83),(E,H,0.67),(E,F,0.67),根据上述结果,可以得到该连通子图形成的有权无向图,如图2所示。
步骤四、基于有权无向图计算各医疗记录的记录主索引支持度;
其中,各医疗记录的记录主索引支持度计算方式如下:
计算与某节点有连接的链路权重之和,即得到每条记录的相似度总分数si,计算公式为:
定义记录主索引支持度MI为每条医疗记录作为主索引记录候选的评分,初始化每个节点的MI值为1,迭代更新各节点的MI值,直到MI值收敛或计算超过最大迭代次数,其计算公式为:
基于此,可以步骤三中连通子图的每条记录进行记录主索引支持度计算,从图2中可以看出,医疗记录C、D、E、F、G、H影响医疗记录B的记录主索引支持度,即在此基础上,本实施例中,考虑了间接相连的记录相似度也影响着医疗记录B的记录主索引支持度,即医疗记录A也通过医疗记录D影响医疗记录B的记录主索引支持度记作通过引入数据的全局信息提升了主索引的准确性,提高了相似度计算的容错率,因此,计算各医疗记录再该连通子图中的记录主索引支持度如下:
sA=0.67+0.67=1.34;
sB=0.83+0.67+0.67+0.67+0.67+0.67=4.18;
sC=0.67+0.67=1.34;
sD=0.67+0.83=1.5;
sE=0.67+0.67+0.67+0.83+0.67+0.67=4.18;
sF=0.67+0.67=1.34;
sG=0.67+0.83=1.5;
sH=0.67+0.67=1.34;
第二次迭代,各医疗记录MI的计算结果如下:
......
经过25次迭代后,各医疗记录MI值趋于稳定。
步骤五、标准化记录主索引支持度,确定主索引记录。
其中,将步骤四中各医疗记录MI值标准化处理,计算结果如下:
其中,医疗记录B和医疗记录E的链路数相同、初始相似度总分相等,但经过多次迭代后,医疗记录E的MI值最高,说明其对于连通子图的信息贡献度最高,作为主索引记录主索引支持度最高,因此可以选择医疗记录E作为该患者的主索引数据,若MI值相同则选择ID最小的医疗记录。
如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (7)
1.一种应用于多数据源的医疗患者主索引发现方法,其特征在于,包括如下步骤:
步骤一、获取医疗记录;
步骤二、计算两两医疗记录之间的相似度;
步骤三、基于相似度构建有权无向图;
步骤四、基于有权无向图计算各医疗记录的记录主索引支持度;
步骤五、标准化记录主索引支持度,确定主索引记录。
2.根据权利要求1所述的一种应用于多数据源的医疗患者主索引发现方法,其特征在于:所述步骤1具体包括:
获取多数据源的医疗记录后对其去重,将各字段完全一样的记录视为同一患者。
4.根据权利要求3所述的一种应用于多数据源的医疗患者主索引发现方法,其特征在于:筛选出相似度大于等于设定阈值的记录对,形成三元组表,基于三元组表构建有权无向图。
5.根据权利要求4所述的一种应用于多数据源的医疗患者主索引发现方法,其特征在于:在有权无向图中,每一个节点为某一条医疗记录,链路权重为两条医疗记录间的相似度。
7.根据权利要求6所述的一种应用于多数据源的医疗患者主索引发现方法,其特征在于:标准化记录主索引支持度MI值后,选择MI值最大的节点作为主索引记录,若MI值相同则选择ID最小的医疗记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110344519.1A CN113111063B (zh) | 2021-03-31 | 2021-03-31 | 一种应用于多数据源的医疗患者主索引发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110344519.1A CN113111063B (zh) | 2021-03-31 | 2021-03-31 | 一种应用于多数据源的医疗患者主索引发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111063A true CN113111063A (zh) | 2021-07-13 |
CN113111063B CN113111063B (zh) | 2023-04-25 |
Family
ID=76713056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110344519.1A Active CN113111063B (zh) | 2021-03-31 | 2021-03-31 | 一种应用于多数据源的医疗患者主索引发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111063B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707332A (zh) * | 2021-08-26 | 2021-11-26 | 中电健康云科技有限公司 | 患者身份匹配方法、系统、装置和存储介质 |
CN115083615A (zh) * | 2022-07-20 | 2022-09-20 | 之江实验室 | 一种链式并行统计多中心就诊患者人数的方法及装置 |
CN115269613A (zh) * | 2022-09-27 | 2022-11-01 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150317323A1 (en) * | 2014-04-30 | 2015-11-05 | Lnternational Business Machines Corporation | Indexing and searching heterogenous data entities |
US20160147878A1 (en) * | 2014-11-21 | 2016-05-26 | Inbenta Professional Services, L.C. | Semantic search engine |
CN110600092A (zh) * | 2019-08-13 | 2019-12-20 | 万达信息股份有限公司 | 一种应用于医疗领域的人员主索引的生成方法和系统 |
CN111199800A (zh) * | 2018-11-16 | 2020-05-26 | 广州天鹏计算机科技有限公司 | 一种患者主索引信息的数据处理方法、装置 |
CN111785341A (zh) * | 2020-06-30 | 2020-10-16 | 平安国际智慧城市科技股份有限公司 | 基于相似性的患者主索引数据合并方法及装置 |
-
2021
- 2021-03-31 CN CN202110344519.1A patent/CN113111063B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150317323A1 (en) * | 2014-04-30 | 2015-11-05 | Lnternational Business Machines Corporation | Indexing and searching heterogenous data entities |
US20160147878A1 (en) * | 2014-11-21 | 2016-05-26 | Inbenta Professional Services, L.C. | Semantic search engine |
CN111199800A (zh) * | 2018-11-16 | 2020-05-26 | 广州天鹏计算机科技有限公司 | 一种患者主索引信息的数据处理方法、装置 |
CN110600092A (zh) * | 2019-08-13 | 2019-12-20 | 万达信息股份有限公司 | 一种应用于医疗领域的人员主索引的生成方法和系统 |
CN111785341A (zh) * | 2020-06-30 | 2020-10-16 | 平安国际智慧城市科技股份有限公司 | 基于相似性的患者主索引数据合并方法及装置 |
Non-Patent Citations (2)
Title |
---|
李瑞琳等: "一种基于MPI的稀疏化局部尺度并行谱聚类算法的研究与实现", 《计算机工程与科学》 * |
查玉龙等: "患者主索引在医院信息系统中的构建与应用", 《智库时代》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707332A (zh) * | 2021-08-26 | 2021-11-26 | 中电健康云科技有限公司 | 患者身份匹配方法、系统、装置和存储介质 |
CN115083615A (zh) * | 2022-07-20 | 2022-09-20 | 之江实验室 | 一种链式并行统计多中心就诊患者人数的方法及装置 |
CN115083615B (zh) * | 2022-07-20 | 2022-12-06 | 之江实验室 | 一种链式并行统计多中心就诊患者人数的方法及装置 |
CN115269613A (zh) * | 2022-09-27 | 2022-11-01 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
CN115269613B (zh) * | 2022-09-27 | 2023-01-13 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113111063B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113111063A (zh) | 一种应用于多数据源的医疗患者主索引发现方法 | |
WO2022105115A1 (zh) | 问答对匹配方法、装置、电子设备及存储介质 | |
CN111612041B (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN111612038B (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
CN109885597B (zh) | 基于机器学习的用户分群处理方法、装置及电子终端 | |
US20190080248A1 (en) | System and method for facilitating model-based classification of transactions | |
CN113904872A (zh) | 一种针对匿名服务网站指纹攻击的特征提取方法及系统 | |
CN113392894A (zh) | 一种多组学数据的聚类分析方法和系统 | |
CN110544047A (zh) | 一种不良数据辨识方法 | |
CN110580510A (zh) | 一种聚类结果评价方法和系统 | |
CN115391561A (zh) | 图网络数据集的处理方法、装置、电子设备、程序及介质 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
CN116226103A (zh) | 一种基于FPGrowth算法进行政务数据质量检测的方法 | |
CN111639077A (zh) | 数据治理方法、装置、电子设备、存储介质 | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN117591953A (zh) | 基于多组学数据的癌症分类方法、系统及电子设备 | |
CN117478390A (zh) | 一种基于改进密度峰值聚类算法的网络入侵检测方法 | |
CN116599743A (zh) | 4a异常绕行检测方法、装置、电子设备及存储介质 | |
CN109241146B (zh) | 集群环境下的学生智助方法和系统 | |
CN108121912B (zh) | 一种基于神经网络的恶意云租户识别方法和装置 | |
CN113392086B (zh) | 基于物联网的医疗数据库构建方法、装置及设备 | |
CN110059180B (zh) | 文章作者身份识别及评估模型训练方法、装置及存储介质 | |
CN114155578A (zh) | 人像聚类方法、装置、电子设备和存储介质 | |
KR20200113397A (ko) | 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법 | |
CN114020687B (zh) | 用户留存分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |