CN113934895A - 一种辅助建立患者主索引的方法 - Google Patents

一种辅助建立患者主索引的方法 Download PDF

Info

Publication number
CN113934895A
CN113934895A CN202111147964.5A CN202111147964A CN113934895A CN 113934895 A CN113934895 A CN 113934895A CN 202111147964 A CN202111147964 A CN 202111147964A CN 113934895 A CN113934895 A CN 113934895A
Authority
CN
China
Prior art keywords
data
patient
matching
similarity
main index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111147964.5A
Other languages
English (en)
Inventor
周庆勇
荣广胜
刘芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202111147964.5A priority Critical patent/CN113934895A/zh
Publication of CN113934895A publication Critical patent/CN113934895A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种辅助建立患者主索引的方法,属于数据索引技术领域,要解决的技术问题为如何辅助建立患者主索引,减少面对庞杂数据时人力资源的消耗,以加速患者主索引的建立。包括如下步骤:将定义患者信息的数据模型和数据标准统一化,建立用于原始库表;将患者基本信息存量数据或患者基本信息存量数据从生产库或医院前置库迁移到原始库表中;对原始库表中的患者信息进行预处理;建立患者主索引表;通过规则匹配和模型预测相结合的方式对无规范身份的有效数据进行筛选匹配,将通过筛选匹配的数据存储至审核表;对审核表中的数据进行审核,将审核通过的数据加入主索引表中,将不通过的数据存储至再处理表。

Description

一种辅助建立患者主索引的方法
技术领域
本发明涉及数据索引技术领域,具体地说是一种辅助建立患者主索引的方法。
背景技术
目前健康医疗大数据已经确定为国家重要的基础战略资源,国内各省地市加快建设健康医疗大数据中心,需要把各医院的医疗数据统一采集、治理、分析以及业务创新。鉴于各医院信息化水平层次不一,缺乏标准等现状,实现各医疗机构之间、各医疗信息系统之间的信息交换共享就变得很困难。以患者为例,由于在不同医院办理的就诊卡流程规范不一样,就诊卡卡号不同,有的必须关联身份证号,有的非必须,就诊卡关联的家庭住址、联系方式等信息也因时间变化而不同,这样就无法统一形成以患者为主体的健康档案。
患者主索引是患者基本信息检索目录,其主要用途是在一个复杂的医疗体系内,通过唯一的患者标识将多个医疗信息系统有效地关联在一起,实现各个系统之间的互联互通,也保证了同一个患者在不同地域、不同医院中医疗信息的完整性和准确性。因此在构建患者为主体的健康档案前,需要将人员所有的就诊信息进行关联,进而实现人员身份的关联,与传统的患者主索引的概念不谋而合。
一般在建立患者主索引的过程中,需要通过多个能够标识患者身份的数据字段来计算多条数据记录间的相似性,而这依赖于人工对数据字段进行权重的分配。在人工分配数据字段权重的过程中,需要全面地了解数据字段分布情况,且不同数据字段间可能存在关联,导致需要联合考虑多个数据字段的权重。而随着数据的不断产生,数据的分布会随之产生变化,初始设置的权重便不能很好适应变化后的数据集,从而难以获得良好的效果。
基于上述分析,如何辅助建立患者主索引,减少面对庞杂数据时人力资源的消耗,以加速患者主索引的建立,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供一种辅助建立患者主索引的方法,来解决如何辅助建立患者主索引,减少面对庞杂数据时人力资源的消耗,以加速患者主索引的建立的技术问题。
本发明的一种辅助建立患者主索引的方法,用于对没有关联身份证件号或者身份证件号错误的患者信息与有合规证件号的患者数据进行融合、标识、匹配和分组,实现同一个患者相关的患者信息在各个医院医疗系统之间的关联,所述患者信息包括患者姓名、证件类型、证件号码、地址和联系电话,所述方法包括如下步骤:
将定义患者信息的数据模型和数据标准统一化,基于数据量选择数据库作为原始库,并在原始库中建立用于存储患者基本信息的原始库表;
将患者基本信息存量数据或患者基本信息存量数据以全量数据入库的方式从生产库或医院前置库迁移到原始库表中;
构建标准库表和异常库表,对原始库表中的患者信息进行预处理,将有身份证的数据以及无身份证或者无规范身份证的有效数据存储至标准库表中,将有问题数据或无效数据存储至异常库表中;
建立患者主索引表,所述患者主索引表的表模型与所述标准库表的模型一致,并将标准库表中带有身份证号的患者信息迁移至患者主索引表中;
构建审核表,通过规则匹配和模型预测相结合的方式对无规范身份的有效数据进行筛选匹配,将通过筛选匹配的数据存储至审核表;
构建再处理表,并对审核表中的数据进行审核,将审核通过的数据加入主索引表中,将不通过的数据存储至再处理表。
作为优选,所述患者信息还包括性别、出生日期、主要联系人、就诊医疗机构、以及就诊人所在医疗机构的ID;
所述地址包括家庭住址和工作地址;
所述证件类型包括身份证,所述证件号码包括身份证号码。
作为优选,所述数据库为hive数据库。
作为优选,通过开源工具Kettle或者Apache Nifi将患者基本信息存量数据以全量数据入库的方式从生产库或医院前置库迁移到原始库表中;
通过开源工具Kettle或者Apache Nifi将标准库表中带有身份证号的患者信息迁移至患者主索引表中。
作为优选,根据对原始库所有字段列按照缺失、空值进行统计数据分布,选择缺失率比较小的列为特征列,选择证件号码、患者姓名、住址、联系电话为主要特征类进行分析处理,并通过Spark对原始库表中的患者信息进行预处理。
作为优选,对原始库表中的患者信息进行预处理,包括:
对于患者姓名,去除姓名字段的特殊字符和空格;
在标准库中添加一列名称为姓名拼音的列,将中文姓名进行拼音化处理,以应对同音不同字的情形;
选择证件号码为身份证号的数据,按照规则对不合格身份证号进行过滤,所述规则包括位数;
结合身份证号对出生日期和性别字段进行校验;
验证联系电话的有效性,无效的置为空值,有效的保留;
删除地址中的特殊字符,并对其进行TF-IDF向量化;
预处理后,无效或异常数据包括一个证件号对应多个姓名的数据、无身份证号且地址、性别、出生日期、电话四个字段列缺失大于3个的数据。
作为优选,通过规则匹配和模型预测相结合的方式,通过pySpark对无规范身份的有效数据进行筛选匹配,包括如下步骤:
将标准库表中无规范身份证号的有效数据与患者主索引表中的数据进行规则匹配,匹配规则为:选取患者信息包括姓名、性别、出生日期、联系方式及住址,通过姓名、联系方式及性别进行匹配,姓名拼音一致且汉字姓氏一致、性别一致、且电话一致,则记录对得两条记录为同一患者;通过姓名、出生日期、及性别进行匹配,姓名拼音一致且汉字姓氏一致、且出生日期一致,则记录对得两条记录为同一患者,将匹配结果加入审核表;
对于姓名或拼音相同但未能通过规则匹配的记录对,基于相似度算法计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址 TF-IDF向量相似度,并基于权重计算方法计算每个字段的权重,基于相似度和权重选择满足相似条件的记录对,和/或,通过随机森林二分类模型筛选匹配概率大预定值的记录对,并将所述记录对加入审核表中;
基于图计算中最大连通图算法,将匹配的记录对中的记录作为图中的节点,匹配关系作为图的边,计算最大连通图,得到匹配记录群。
作为优选,基于相似度算法计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址TF-IDF向量相似度,包括:
对于性别,相同值similarity为1,不同为0,有缺失值为0.5;
对于住址,进行向量化后计算余弦相似度;
基于权重计算方法计算每个字段的权重,包括:
对于证件类型和民族,对于每一个字段,通过tf-idf权重方法中的idf 值作为所述字段中不同值的权重;
对于字段列姓名、联系方式、以及地址,由于字段内部可能出现值的情况很多,如果不便于对每一个值单独设置一个权重,对所述字段统一设置一个相同的权重;
基于相似度和权重选择满足相似条件的记录对,包括:
以每个字段两条数据值之间相似度乘以对应的权重再求和的方式,计算最终打分,最终打分计算公式为∑权重*相似度;
所述最终打分代表了两条数据的相似情况,大于临界值threshold的判断为可以融合,所述Threshold值的定义可以获取已融合两条数据的打分的最小值。
作为优选,通过随机森林二分类模型筛选匹配概率大预定值的记录对,包括:
对记录对进行采样,得到样本记录对;
人工标注样本记录对的两条记录是否匹配的标签;
基于采样的记录对以及标签构建训练集,基于训练集通过交叉验证、参数网格搜索方法训练随机森林二分类模型,得到训练后随机森林二分类模型;
基于姓名或拼音相同但未能通过规则匹配的记录对构建数据集,通过训练后随机森林二分类模型对所述数据集筛选匹配,将筛选匹配概率大于预定值的记录对加入审核表。
本发明的一种辅助建立患者主索引的方法具有以下优点:
1、可以利用流水线的方式减少在面对庞大患者基本信息数据时人工处理的复杂度,加速患者主索引的建立,从而尽可能保证对同一个患者信息采集的完整性和准确性,提高工作效率;
2、实现了患者信息的融合和链接;
3、利用规则判断、权重*相似度以及机器学习中的分类模型对患者基本信息是否匹配做出预测,提高了预测的准确率;
4、建立流水线流程,对存量患者基本信息数据和增量患者基本信息数据辅助建立患者主索引。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1一种辅助建立患者主索引的方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供一种辅助建立患者主索引的方法,用于解决如何辅助建立患者主索引,减少面对庞杂数据时人力资源的消耗,以加速患者主索引的建立的技术问题。
实施例:
本发明的一种辅助建立患者主索引的方法,用于对没有关联身份证件号或者身份证件号错误的患者信息与有合规证件号的患者数据进行融合、标识、匹配和分组,实现同一个患者相关的患者信息在各个医院医疗系统之间的关联,患者信息包括患者姓名、证件类型、证件号码、地址和联系电话等。
该方法包括如下步骤:
S100、将定义患者信息的数据模型和数据标准统一化,基于数据量选择数据库作为原始库,并在原始库中建立用于存储患者基本信息的原始库表;
S200、将患者基本信息存量数据或患者基本信息存量数据以全量数据入库的方式从生产库或医院前置库迁移到原始库表中;
S300、构建标准库表和异常库表,对原始库表中的患者信息进行预处理,将有身份证的数据以及无身份证或者无规范身份证的有效数据存储至标准库表中,将有问题数据或无效数据存储至异常库表中;
S400、建立患者主索引表,患者主索引表的表模型与所述标准库表的模型一致,并将标准库表中带有身份证号的患者信息迁移至患者主索引表中;
S500、构建审核表,通过规则匹配和模型预测相结合的方式对无规范身份的有效数据进行筛选匹配,将通过筛选匹配的数据存储至审核表;
S600、构建再处理表,并对审核表中的数据进行审核,将审核通过的数据加入主索引表中,将不通过的数据存储至再处理表。
步骤S100统一定义患者信息的数据模型和标准,如患者姓名、性别、出生日期、家庭住址、工作地址、主要联系人、就诊医疗机构、就诊人所在医疗结构的ID、证件类型、证件号码、联系电话等,根据实际数据量大小选择合适的数据存储库,如果场景是面向全省的三级甲等医院,数据量比较大,方案可选择hive,建立患者基本信息的原始库表。
步骤S200对于患者基本信息存量数据,通过使用开源工具Kettle或者 ApacheNifi从生产库或者医院前置库进行迁移/采集到第一步的原始库中,期间不进行任何的清洗转换,保证全量数据入库。
步骤S300考虑到当初患者首次就诊时手动填写信息不清晰或者医院数据录入过程中可能出现的手误、异常等人为因素,为保证高质量的两院患者数据关联,需要对原始库中的患者数据进行预处理。预处理前,分别建立标准库表和异常库表,标准库和异常库包含原始库的所有列,其中标准库用于存放预处理后的数据,异常库存储问题或无效数据。根据对原始库所有字段列按照缺失、空值进行统计数据分布,选择缺失率比较小的列为特征列,本实施例选择身份证号、患者姓名、住址(含家庭、工作地址)、联系电话为主要特征类进行分析处理,本实施例采用Spark进行预处理计算。以下为采用的预处理规则和方法:
(1)姓名:去除姓名字段的特殊字符、空格;
(2)在标准库中添加一列‘姓名拼音’,把中文姓名进行拼音化处理,方便应对同音不同字的情形;
(3)选择证件号为身份证号的数据,按照位数等规则对不合规身份证号进行过滤;
(4)结合身份证号对出生日期及性别字段列进行校验;
(5)验证联系电话的有效性:无效的置为空值,有效保留;
(6)删除地址中的特殊字符,并对其通过TF-IDF向量化。
无效或异常数据主要包括:一个证件号对应多个姓名(两条以上)的数据以及无身份证号且地址、性别、出生日期、电话四个字段列缺失大于3个的数据。
通过该步骤数据处理完整后,标准库表中存放的数据为有身份证的数据和无身份证或者无规范身份证的有效数据。
步骤S400建立患者主索引表,患者主索引表的表模型同标准库表。通过使用Kettle或者Apache Nifi等数据迁移工具将标准库表中带有身份证号的患者信息迁移到索引表。
步骤S500采取规则+模型预测的方式寻找同一患者数据。首先建立人工审核表,目的是方便人工去对按规则或模型预测的匹配数据对进行核对,毕竟无论是后续采用的向量相似度还是最大连通图方法,都是概率问题。该环节为保证编码及计算性能,采用pySpark来实现匹配、相似度等计算逻辑。
以下分三种情况对无规范身份的有效数据进行处理:
(1)使用标准库表中的无规范身份证号的有效数据与患者主索引表中数据进行规则匹配,匹配规则为:选取姓名、性别、出生日期、联系方式及住址等特征,通过姓名、联系方式、性别进行匹配,姓名拼音一致且汉字姓氏一致,性别一致,电话一致,则记录对得两条记录为同一人;通过姓名、出生日期、性别进行匹配,姓名拼音一致且汉字姓氏一致,出生日期一致,则记录对得两条记录为同一人,将匹配结果加入人工审核表;
(2)对姓名或拼音相同但未能通过规则匹配的记录对,计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址TF-IDF向量相似度,具体思路为如下:
(2-1)基于相似度算法计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址TF-IDF向量相似度,并基于权重计算方法计算每个字段的权重,基于相似度和权重选择满足相似条件的记录对,具体操作为:
(A)相似度算法选择
对于性别,相同值similarity为1,不同为0,有缺失值为0.5;
对于住址,在向量化后,再计算余弦相似度;
(B)权重计算
对于每一个字段,可以用tf-idf权重方法中的idf值作为该字段中不同值的权重,比如证件类型、民族等;
对于字段列姓名、联系方式、地址,由于字段内部可能出现值的情况很多,如果不便于对每一个值单独设置一个权重,可以该字段统一设置一个相同的权重;
(C)最终打分
最终打分计算公式为:∑权重*相似度,即每个字段两条数据值之间相似度乘以对应的权重再求和,这个最终打分代表了两条数据的相似情况,即是不是同一人的数据;
根据最终打分,大于临界值threshold的判断为可以融合,Threshold值的定义可以获取已融合两条数据的打分的最小值。
(2-2)通过随机森林二分类模型筛选匹配概率大预定值的记录对,并将所述记录对加入审核表中,具体为:
对记录对进行采样,人工标注两条记录是否匹配的标签,依照此训练集使用交叉验证、参数网格搜索等技术训练随机森林二分类模型,随机森林模型有着较高的性能,同时可以有效地防止过拟合的出现,并且方便跨语言跨平台部署;
通过训练后随机森林二分类模型对记录对数据集进行匹配分析,并筛选匹配概率大于90%的记录对,加入人工审核表;
(3)由于上述处理结果均为记录对,而现实中存在大量多条记录指向同一患者的情况,因此引入图计算中的最大连通图算法,将匹配的记录对中的记录作为图中的节点,匹配关系作为图的边,计算最大连通图,从而获得匹配记录群。
步骤S600对人工审核表里的数据进行人工审核,审核通过的记录加入主索引表,不通过的加入再处理表。
上述步骤主要针对全量数据展开,对于增量数据可以按照上述处理过程依次进行,最终更新主索引表。
本实施例的方法可以利用流水线的方式减少在面对庞大患者基本信息数据时人工处理的复杂度,加速患者主索引的建立,从而尽可能保证对同一个患者信息采集的完整性和准确性,提高工作效率。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (9)

1.辅助建立患者主索引的方法,其特征在于用于对没有关联身份证件号或者身份证件号错误的患者信息与有合规证件号的患者数据进行融合、标识、匹配和分组,实现同一个患者相关的患者信息在各个医院医疗系统之间的关联,所述患者信息包括患者姓名、证件类型、证件号码、地址和联系电话,所述方法包括如下步骤:
将定义患者信息的数据模型和数据标准统一化,基于数据量选择数据库作为原始库,并在原始库中建立用于存储患者基本信息的原始库表;
将患者基本信息存量数据或患者基本信息存量数据以全量数据入库的方式从生产库或医院前置库迁移到原始库表中;
构建标准库表和异常库表,对原始库表中的患者信息进行预处理,将有身份证的数据以及无身份证或者无规范身份证的有效数据存储至标准库表中,将有问题数据或无效数据存储至异常库表中;
建立患者主索引表,所述患者主索引表的表模型与所述标准库表的模型一致,并将标准库表中带有身份证号的患者信息迁移至患者主索引表中;
构建审核表,通过规则匹配和模型预测相结合的方式对无规范身份的有效数据进行筛选匹配,将通过筛选匹配的数据存储至审核表;
构建再处理表,并对审核表中的数据进行审核,将审核通过的数据加入主索引表中,将不通过的数据存储至再处理表。
2.根据权利要求1所述的辅助建立患者主索引的方法,其特征在于所述患者信息还包括性别、出生日期、主要联系人、就诊医疗机构、以及就诊人所在医疗机构的ID;
所述地址包括家庭住址和工作地址;
所述证件类型包括身份证,所述证件号码包括身份证号码。
3.根据权利要求1所述的辅助建立患者主索引的方法,其特征在于所述数据库为hive数据库。
4.根据权利要求1所述的辅助建立患者主索引的方法,其特征在于通过开源工具Kettle或者Apache Nifi将患者基本信息存量数据以全量数据入库的方式从生产库或医院前置库迁移到原始库表中;
通过开源工具Kettle或者Apache Nifi将标准库表中带有身份证号的患者信息迁移至患者主索引表中。
5.根据权利要求1所述的辅助建立患者主索引的方法,其特征在于根据对原始库所有字段列按照缺失、空值进行统计数据分布,选择缺失率比较小的列为特征列,选择证件号码、患者姓名、住址、联系电话为主要特征类进行分析处理,并通过Spark对原始库表中的患者信息进行预处理。
6.根据权利要求5所述的辅助建立患者主索引的方法,其特征在于对原始库表中的患者信息进行预处理,包括:
对于患者姓名,去除姓名字段的特殊字符和空格;
在标准库中添加一列名称为姓名拼音的列,将中文姓名进行拼音化处理,以应对同音不同字的情形;
选择证件号码为身份证号的数据,按照规则对不合格身份证号进行过滤,所述规则包括位数;
结合身份证号对出生日期和性别字段进行校验;
验证联系电话的有效性,无效的置为空值,有效的保留;
删除地址中的特殊字符,并对其进行TF-IDF向量化;
预处理后,无效或异常数据包括一个证件号对应多个姓名的数据、无身份证号且地址、性别、出生日期、电话四个字段列缺失大于3个的数据。
7.根据权利要求1所述的辅助建立患者主索引的方法,其特征在于通过规则匹配和模型预测相结合的方式,通过pySpark对无规范身份的有效数据进行筛选匹配,包括如下步骤:
将标准库表中无规范身份证号的有效数据与患者主索引表中的数据进行规则匹配,匹配规则为:选取患者信息包括姓名、性别、出生日期、联系方式及住址,通过姓名、联系方式及性别进行匹配,姓名拼音一致且汉字姓氏一致、性别一致、且电话一致,则记录对得两条记录为同一患者;通过姓名、出生日期、及性别进行匹配,姓名拼音一致且汉字姓氏一致、且出生日期一致,则记录对得两条记录为同一患者,将匹配结果加入审核表;
对于姓名或拼音相同但未能通过规则匹配的记录对,基于相似度算法计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址TF-IDF向量相似度,并基于权重计算方法计算每个字段的权重,基于相似度和权重选择满足相似条件的记录对,和/或,通过随机森林二分类模型筛选匹配概率大预定值的记录对,并将所述记录对加入审核表中;
基于图计算中最大连通图算法,将匹配的记录对中的记录作为图中的节点,匹配关系作为图的边,计算最大连通图,得到匹配记录群。
8.根据权利要求7所述的辅助建立患者主索引的方法,其特征在于基于相似度算法计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址TF-IDF向量相似度,包括:
对于性别,相同值similarity为1,不同为0,有缺失值为0.5;
对于住址,进行向量化后计算余弦相似度;
基于权重计算方法计算每个字段的权重,包括:
对于证件类型和民族,对于每一个字段,通过tf-idf权重方法中的idf值作为所述字段中不同值的权重;
对于字段列姓名、联系方式、以及地址,由于字段内部可能出现值的情况很多,如果不便于对每一个值单独设置一个权重,对所述字段统一设置一个相同的权重;
基于相似度和权重选择满足相似条件的记录对,包括:
以每个字段两条数据值之间相似度乘以对应的权重再求和的方式,计算最终打分,最终打分计算公式为∑权重*相似度;
所述最终打分代表了两条数据的相似情况,大于临界值threshold的判断为可以融合,所述Threshold值的定义可以获取已融合两条数据的打分的最小值。
9.根据权利要求7所述的辅助建立患者主索引的方法,其特征在于通过随机森林二分类模型筛选匹配概率大预定值的记录对,包括:
对记录对进行采样,得到样本记录对;
人工标注样本记录对的两条记录是否匹配的标签;
基于采样的记录对以及标签构建训练集,基于训练集通过交叉验证、参数网格搜索方法训练随机森林二分类模型,得到训练后随机森林二分类模型;
基于姓名或拼音相同但未能通过规则匹配的记录对构建数据集,通过训练后随机森林二分类模型对所述数据集筛选匹配,将筛选匹配概率大于预定值的记录对加入审核表。
CN202111147964.5A 2021-09-29 2021-09-29 一种辅助建立患者主索引的方法 Pending CN113934895A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111147964.5A CN113934895A (zh) 2021-09-29 2021-09-29 一种辅助建立患者主索引的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111147964.5A CN113934895A (zh) 2021-09-29 2021-09-29 一种辅助建立患者主索引的方法

Publications (1)

Publication Number Publication Date
CN113934895A true CN113934895A (zh) 2022-01-14

Family

ID=79277309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111147964.5A Pending CN113934895A (zh) 2021-09-29 2021-09-29 一种辅助建立患者主索引的方法

Country Status (1)

Country Link
CN (1) CN113934895A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083615A (zh) * 2022-07-20 2022-09-20 之江实验室 一种链式并行统计多中心就诊患者人数的方法及装置
CN115269613A (zh) * 2022-09-27 2022-11-01 四川互慧软件有限公司 一种患者主索引构建方法、系统、设备及存储介质
CN116091253A (zh) * 2023-04-07 2023-05-09 北京亚信数据有限公司 医保风控数据采集方法及装置
CN116386801A (zh) * 2023-06-06 2023-07-04 四川互慧软件有限公司 基于聚类算法构建患者身份标识的方法、装置及电子设备
CN116631561A (zh) * 2023-07-21 2023-08-22 四川互慧软件有限公司 基于特征划分的患者身份信息匹配方法、装置及电子设备
CN116665889A (zh) * 2023-07-28 2023-08-29 长春中医药大学 一种应用于妇科门诊的智能辅助诊疗系统
CN116825265A (zh) * 2023-08-29 2023-09-29 先临三维科技股份有限公司 就诊记录处理方法、装置、电子设备及存储介质
CN116959656A (zh) * 2023-08-18 2023-10-27 成都医星科技有限公司 基于es的医疗主索引抽取合并方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083615B (zh) * 2022-07-20 2022-12-06 之江实验室 一种链式并行统计多中心就诊患者人数的方法及装置
CN115083615A (zh) * 2022-07-20 2022-09-20 之江实验室 一种链式并行统计多中心就诊患者人数的方法及装置
CN115269613A (zh) * 2022-09-27 2022-11-01 四川互慧软件有限公司 一种患者主索引构建方法、系统、设备及存储介质
CN116091253B (zh) * 2023-04-07 2023-08-08 北京亚信数据有限公司 医保风控数据采集方法及装置
CN116091253A (zh) * 2023-04-07 2023-05-09 北京亚信数据有限公司 医保风控数据采集方法及装置
CN116386801B (zh) * 2023-06-06 2023-08-11 四川互慧软件有限公司 基于聚类算法构建患者身份标识的方法、装置及电子设备
CN116386801A (zh) * 2023-06-06 2023-07-04 四川互慧软件有限公司 基于聚类算法构建患者身份标识的方法、装置及电子设备
CN116631561A (zh) * 2023-07-21 2023-08-22 四川互慧软件有限公司 基于特征划分的患者身份信息匹配方法、装置及电子设备
CN116631561B (zh) * 2023-07-21 2023-09-19 四川互慧软件有限公司 基于特征划分的患者身份信息匹配方法、装置及电子设备
CN116665889A (zh) * 2023-07-28 2023-08-29 长春中医药大学 一种应用于妇科门诊的智能辅助诊疗系统
CN116959656A (zh) * 2023-08-18 2023-10-27 成都医星科技有限公司 基于es的医疗主索引抽取合并方法及系统
CN116959656B (zh) * 2023-08-18 2024-04-23 成都医星科技有限公司 基于es的医疗主索引抽取合并方法及系统
CN116825265A (zh) * 2023-08-29 2023-09-29 先临三维科技股份有限公司 就诊记录处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN113934895A (zh) 一种辅助建立患者主索引的方法
CN107731269B (zh) 基于原始诊断数据和病历文件数据的疾病编码方法及系统
Matci et al. Address standardization using the natural language process for improving geocoding results
CN108564991A (zh) 基于icd的数据化编码病历错误识别系统及其识别方法
CN112885478B (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN111695336A (zh) 疾病名称对码方法、装置、计算机设备及存储介质
CN116631561B (zh) 基于特征划分的患者身份信息匹配方法、装置及电子设备
CN111899090A (zh) 企业关联风险预警方法及系统
CN109213871A (zh) 患者信息知识图谱构建方法、可读存储介质和终端
CN112329055A (zh) 用户数据脱敏的方法及装置、电子设备、存储介质
Schnell Linking surveys and administrative data
CN110752027B (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
CN111816310A (zh) 一种骨髓血液疾病危险因素贡献率计算及风险预测系统
CN111415760B (zh) 医生推荐方法、系统、计算机设备及存储介质
CN111950625A (zh) 基于人工智能的风险识别方法、装置、计算机设备及介质
CN113111159A (zh) 问答记录生成方法、装置、电子设备及存储介质
CN114528413B (zh) 众包标注支持的知识图谱更新方法、系统和可读存储介质
Abbott et al. Large‐scale linkage for total populations in official statistics
CN114912887A (zh) 一种基于电子病历的临床数据录入方法及录入装置
CN113901023A (zh) 一种生物样本库综合性信息管理系统
CN114566247B (zh) Crf的自动生成方法和装置、电子设备和存储介质
CN110010231A (zh) 一种数据处理系统及计算机可读存储介质
CN114627993A (zh) 信息预测方法、装置、存储介质及计算机设备
CN113160956A (zh) 一种基于多身份数据融合的患者管理方法和系统
CA3134488A1 (en) Database reduction based on geographically clustered data to provide record selection for clinical trials

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination