CN114121204A - 基于患者主索引的患者记录匹配方法、存储介质及设备 - Google Patents
基于患者主索引的患者记录匹配方法、存储介质及设备 Download PDFInfo
- Publication number
- CN114121204A CN114121204A CN202111500071.4A CN202111500071A CN114121204A CN 114121204 A CN114121204 A CN 114121204A CN 202111500071 A CN202111500071 A CN 202111500071A CN 114121204 A CN114121204 A CN 114121204A
- Authority
- CN
- China
- Prior art keywords
- patient
- training
- sample
- method based
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 119
- 238000012360 testing method Methods 0.000 claims abstract description 66
- 230000000694 effects Effects 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000491 multivariate analysis Methods 0.000 claims description 11
- 238000007473 univariate analysis Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000013526 transfer learning Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000002411 adverse Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于患者主索引的患者记录匹配方法、存储介质及设备,所述基于患者主索引的患者记录匹配方法包括:基于患者信息数据库中抽取的患者信息集确定训练样本和测试样本;分别对所述训练样本的属性进行变量分析;比较变量分析后的训练样本与所述测试样本,通过所述训练样本的偏好权重调整所述训练样本与所述测试样本之间的相似程度;利用所述训练样本训练患者匹配模型,获取所述训练样本的权重和阈值;通过所述测试样本对所述权重和所述阈值进行效果评估。本发明通过自动生成效果优秀的权重和阈值,节省人工工作量,实现更科学地患者记录匹配过程。
Description
技术领域
本发明属于医疗数据处理的技术领域,涉及一种患者记录匹配方法,特别是涉及一种基于患者主索引的患者记录匹配方法、存储介质及设备。
背景技术
患者主索引(Enterprise Master Patient Index,EMPI)是患者基本信息检索目录。其目的是将一个系统内多条记录,或多个系统的多条记录有效的关联在一起。患者主索引核心的功能是基于患者记录相似度的匹配算法。将一条新注册的患者记录与数据库中已知EMPI号的患者记录进行相似度计算。目前现有技术中的两种匹配算法:一种是大权重优先算法,另一种是综合权重算法。两种算法都需要设置各个患者属性比较结果的权重以及匹配上下阈值。进而两种算法通过各个属性比较结果与对应的属性比较结果权重计算出两条患者记录的相似度。若相似度超过上阈值,进行合并;若相似度低于下阈值,进行新患者注册。两种算法中,人工参与判断比较多。
上述现有方案存在的缺陷主要包括以下几个方面:(1)属性比较结果权重为人工设置。(2)上下阈值为人工设置。人工设置权重与阈值依赖主观经验,缺乏科学依据。而且需要进行多次迭代调整权重,阈值才能使EMPI患者匹配算法效果最佳,人工工作量巨大。
因此,如何提供一种基于患者主索引的患者记录匹配方法、存储介质及设备,以解决现有技术无法在患者记录匹配过程中节省人工工作量,实现更科学地匹配等缺陷,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于患者主索引的患者记录匹配方法、存储介质及设备,用于解决现有技术无法在患者记录匹配过程中节省人工工作量,实现更科学地匹配的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种基于患者主索引的患者记录匹配方法,其特征在于,所述基于患者主索引的患者记录匹配方法包括:基于患者信息数据库中抽取的患者信息集确定训练样本和测试样本;分别对所述训练样本的属性进行变量分析;比较变量分析后的训练样本与所述测试样本,通过所述训练样本的偏好权重调整所述训练样本与所述测试样本之间的相似程度;利用所述训练样本训练患者匹配模型,获取所述训练样本的权重和阈值;通过所述测试样本对所述权重和所述阈值进行效果评估。
于本发明的一实施例中,所述基于患者信息数据库中抽取的患者信息集确定训练样本和测试样本的步骤,包括:利用预设抽取条件,抽取所述训练样本,通过唯一标识信息对所述训练样本进行标注;通过实际医院的匹配候选规则抽取所述测试样本,通过所述唯一标识信息对所述测试样本进行标注。
于本发明的一实施例中,所述分别对所述训练样本的属性进行变量分析的步骤,包括:对所述训练样本的属性进行单变量分析,所述单变量分析内容包括:缺失率和方差;对所述训练样本的属性进行多变量分析,所述多变量分析内容包括:皮尔森相关系数和方差膨胀系数;通过所述单变量分析的结果和所述多变量分析的结果排除所述训练样本的不利属性;响应于所述训练样本的属性为多元变量,对所述多元变量进行降维处理。
于本发明的一实施例中,所述比较变量分析后的训练样本与所述测试样本,通过所述训练样本的偏好权重调整所述训练样本与所述测试样本之间的相似程度的步骤,包括:利用迁移学习计算所述训练样本与所述测试样本的密度比;所述测试样本与所述训练样本的数量相同,所述密度比为所述患者匹配模型训练过程中所述训练样本的偏好权重。
于本发明的一实施例中,所述利用所述训练样本训练患者匹配模型,获取所述训练样本的权重和阈值的步骤,包括:利用所述训练样本,基于监督式学习模型训练得到所述患者匹配模型;将所述患者匹配模型的权重进行总分标准化;对每一个所述训练样本进行0分至100分的相似度计算;利用主要统计指标确定候选阈值对,根据次要统计指标确定上下阈值。
于本发明的一实施例中,所述通过所述测试样本对所述权重和所述阈值进行效果评估的步骤,包括:获取用户自定义权重和自定义阈值;生成所述自定义权重和所述自定义阈值在所述测试样本上的自定义统计指标;比对所述患者匹配模型的统计指标与所述自定义统计指标的大小关系;所述统计指标包括:准确率、人工参与百分比、召回率、错判率和F1值。
于本发明的一实施例中,所述基于患者主索引的患者记录匹配方法还包括:对效果评估的结果进行可视化呈现,可视化呈现的方式包括:文字、图片、表格或统计图中的至少一种。
于本发明的一实施例中,所述对效果评估的结果进行可视化呈现的步骤,包括:针对所述权重和所述阈值在所述测试样本中的统计指标结果,进行可视化web访问。
为实现上述目的及其他相关目的,本发明另一方面提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于患者主索引的患者记录匹配方法。
为实现上述目的及其他相关目的,本发明最后一方面提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述的基于患者主索引的患者记录匹配方法。
如上所述,本发明所述的基于患者主索引的患者记录匹配方法、存储介质及设备,具有以下有益效果:
本发明对抽取的训练样本进行变量分析处理,且利用偏好权重使得处理后的训练样本更接近实际测试样本,进而自动生成效果优秀的权重和阈值,节省人工工作量,实现更科学地患者记录匹配过程。本发明不需要花费大量时间进行权重、阈值的迭代调整。训练样本与测试样本由本发明自动生成及标注,仅设置少量统计指标,通过监督式学习自动获取权重与阈值,减少了大量人工工作量。并且通过统计指标,自动选择权重、阈值。进一步将基于此权重、阈值的匹配算法对于测试样本的统计结果进行可视化呈现,可以与选择其他权重、阈值的匹配算法进行比较,了解各种权重阈值选择的优劣,便于确认各种选择的合理性。
附图说明
图1显示为本发明的基于患者主索引的患者记录匹配方法于一实施例中的原理流程图。
图2显示为本发明的基于患者主索引的患者记录匹配方法于一实施例中的数据处理示意图。
图3A显示为本发明的基于患者主索引的患者记录匹配方法于一实施例中的随机抽样匹配算法的分值分布图。
图3B显示为本发明的基于患者主索引的患者记录匹配方法于一实施例中的条件抽样匹配算法的分值分布图。
图4显示为本发明的基于患者主索引的患者记录匹配方法于一实施例中的训练样本与实际测试样本中电话号比较结果分布图。
图5显示为本发明的电子设备于一实施例中的结构连接示意图。
元件标号说明
5 电子设备
51 处理器
52 存储器
S11~S15 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明所述的基于患者主索引的患者记录匹配方法、存储介质及设备通过自动生成效果优秀的权重和阈值,节省人工工作量,实现更科学地患者记录匹配过程。
以下将结合图1至图5详细阐述本实施例的一种基于患者主索引的患者记录匹配方法、存储介质及设备的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的基于患者主索引的患者记录匹配方法、存储介质及设备。
请参阅图1,显示为本发明的基于患者主索引的患者记录匹配方法于一实施例中的原理流程图。如图1所示,所述基于患者主索引的患者记录匹配方法具体包括以下几个步骤:
S11,基于患者信息数据库中抽取的患者信息集确定训练样本和测试样本。
于一实施例中,S11具体包括以下步骤:
(1)利用预设抽取条件,抽取所述训练样本,通过唯一标识信息对所述训练样本进行标注。
具体地,请参阅图2,显示为本发明的基于患者主索引的患者记录匹配方法于一实施例中的数据处理示意图。如图2所示,从医院数据库中的患者信息表中自动抽取患者信息集生成训练样本,通过不同的抽取条件抽出适量的训练样本,再由唯一标识信息进行自动标注。例如姓名相同,或姓名、性别相同,或性别、出生日期相同等,即按照不同的抽取条件生成不同属性的组合。
于实际应用中,基于减少人工工作量的原因,抽取的样本必须包括唯一标识符,以此来进行自动标注,1表示标识相同,0表示标识不同,即标识相同的两条数据将进行比较,比较结果和标签为1的将生成一条训练样本。在实施例中,使用身份证号码或门诊号,住院号,医保号等唯一识别信息作为唯一标识符作为标注标准。其次,请参阅图3A,显示为本发明的基于患者主索引的患者记录匹配方法于一实施例中的随机抽样匹配算法的分值分布图。如图3A所示,横坐标为相似度得分,纵坐标为样本数量。假设患者记录有N条,两两匹配,则会形成一个笛卡尔积N2数量级的数据集。导致数据集过大,极大增加训练时间。此外会导致样本中0样本比例远大于1样本,导致样本比例极度不平衡,用此样本训练出的模型将会极端的将结果预测为0样本。即使进行样本比例的平衡也会导致相似度得分极度两端化,请参阅图3B,显示为本发明的基于患者主索引的患者记录匹配方法于一实施例中的条件抽样匹配算法的分值分布图。如图3B所示,横坐标为相似度得分,纵坐标为样本数量。通过条件(姓名是否相同,性别是否相同,出生日期是否相同等)一次抽取满足条件的一条0样本,一条1样本。样本最后的结果0,1样本比例为1:1,相似度得分较为均匀的分布在0-100之间。
(2)通过实际医院的匹配候选规则抽取所述测试样本,通过所述唯一标识信息对所述测试样本进行标注。
具体地,自动抽取实际测试样本由SQL(Structured Query Language,结构化查询语言)和Python实现。通过实际医院的匹配候选规则抽取适量的实际测试样本及其标注。其中,由于医院数据库内个人信息记录数据量巨大,不可能一一进行匹配,所以医院会自定义匹配候选规则,例如某医院的匹配候选规则为姓名,性别相同,以此生成候选队列,减少匹配量,增加匹配效率。
由此,步骤S11解决了需要大量人力资源进行手动标注,以此获得人工智能模型所需训练样本与测试样本。
S12,分别对所述训练样本的属性进行变量分析。
于一实施例中,S12具体包括以下步骤:
(1)对所述训练样本的属性进行单变量分析,所述单变量分析内容包括:缺失率和方差。
具体地,获得训练样本中的各个属性的缺失率,通过预先设置的缺失阈值进行自动筛选,例如对于每个属性(姓名,性别,出生日期等)通过预设的缺失率阈值将超过此缺失率阈值的属性丢弃。
具体地,获得训练样本中的各个属性的方差,根据方差大小判断对应属性对患者匹配模型的预测结果影响程度。例如,对于缺失率筛选后的样本中剩余属性的方差进行筛查,将方差过小的属性过滤,方差过小意味着此属性值几乎全部相同。
需要说明的是,缺失率、方差仅是针对单变量所例举的实施方式,其他的单变量分析的指标也包括在本发明保护的范围内。
(2)对所述训练样本的属性进行多变量分析,所述多变量分析内容包括:皮尔森相关系数和方差膨胀系数。
具体地,两两进行皮尔森系数或卡方检验,筛选去除相关系数过高的属性。最后筛选之后剩余的属性还需要进行方差扩大因子计算,筛除方差膨胀系数或多重共线性过高的属性。
需要说明的是,皮尔森相关系数和方差膨胀系数仅是针对多变量所例举的实施方式,其他的多变量分析的指标也包括在本发明保护的范围内。
(3)通过所述单变量分析的结果和所述多变量分析的结果排除所述训练样本的不利属性。
具体地,针对缺失率,属性缺失率过高,即有效数据过少。针对方差,属性方差过小,即此属性值可视为为定值,不影响模型预测结果。针对皮尔森相关系数和方差膨胀系数,皮尔森相关系数过高,方差膨胀系数过高,即属性之间存在着共线性,共线性会导致解的空间不稳定,从而导致模型的泛化能力弱。于实际应用中,通过合理设定的缺失率、方差、皮尔森相关系数和方差膨胀系数的阈值,判定出不利属性,进而剔除不利属性。
(4)响应于所述训练样本的属性为多元变量,对所述多元变量进行降维处理。
具体地,通过降维处理,可以使得患者匹配模型在训练过程中,计算量减小,且缩短训练耗时,使模型效果更加优秀。
S13,比较变量分析后的训练样本与所述测试样本,通过所述训练样本的偏好权重调整所述训练样本与所述测试样本之间的相似程度。
于一实施例中,利用迁移学习计算所述训练样本与所述测试样本的密度比;所述测试样本与所述训练样本的数量相同,所述密度比为所述患者匹配模型训练过程中所述训练样本的偏好权重。
具体地,由于训练样本和测试样本属性比较结果的分布不同,模型在训练样本上表现良好不代表在测试样本上表现良好。请参阅图4,显示为本发明的基于患者主索引的患者记录匹配方法于一实施例中的训练样本与实际测试样本中电话号比较结果分布图。如图4所示,由于训练样本与测试样本的属性相同,属性比较分布不同,说明训练样本和测试样本分布不同,会导致在训练样本上表现良好的模型在实际测试样本上表现不佳。在实施例中,将会使用基于样本的非归纳式迁移学习,计算出每一个训练样本的偏好权重。训练样本与实际测试样本越相似,偏好权重越高。由此通过偏好权重调整每个训练样本在训练模型中的影响力,使得训练得到的患者匹配模型在测试样本上效果越好。于实际应用中,训练患者匹配模型的过程实际上就是最小化全体样本的损失函数之和,默认情况下偏好权重全为1,即算数平均。在有偏好权重情况下,每个样本的损失函数将会乘上偏好权重后求和,即加权平均。
S14,利用所述训练样本训练患者匹配模型,获取所述训练样本的权重和阈值。
于一实施例中,S14具体包括以下步骤:
(1)利用所述训练样本,基于监督式学习模型训练得到所述患者匹配模型。
具体地,利用带有偏好权重的训练样本,基于监督式学习模型训练得到所述患者匹配模型,自动获得权重与阈值。
于实际应用中,使用监督式学习中的逻辑回归,基于带偏好权重的训练样本,自动获得了权重,所述权重为每个属性的权重。
(2)将所述患者匹配模型的权重进行总分标准化。例如进行总分为100的标准化。
(3)对每一个所述训练样本进行0分至100分的相似度计算。
(4)利用主要统计指标确定候选阈值对,根据次要统计指标确定上下阈值。
具体地,通过预先设置的准确率与人工参与百分比,或者召回率、错判率、F1值等其他可用于替代的统计指标,获取上下阈值。于实际应用中,计算每一对阈值((0,1),(0,2),(0,3)........(98,99),(98,100),(99,100))的统计指标准确率与人工参与百分比,先选出满足预先设置的准确率与预先设置的人工参与百分比的候选阈值对,再对其剩余统计指标进行排序,选出最好的一对。至此,本发明自动化获取了EMPI患者匹配算法所需的比较属性,属性比较结果权重,自动匹配上下阈值。
于实际应用中,将准确率预设为0.95,人工参与百分比预设为0.1,先选出高于预先设置的准确率0.95且低于预先设置的人工参与百分比0.1的候选阈值对,再对召回率,错判率,F1值均剩余统计指标进行排序,根据召回率越高、错判率越低以及F1越高选出最好的一对。
S15,通过所述测试样本对所述权重和所述阈值进行效果评估。
于一实施例中,S15具体包括以下步骤:
(1)获取用户自定义权重和自定义阈值。
具体地,向用户提供一设置表格或设置界面,例如响应于用户在一个表中填入自定义的权重、阈值,获取用户自定义权重和自定义阈值。
(2)生成所述自定义权重和所述自定义阈值在所述测试样本上的自定义统计指标。
(3)比对所述患者匹配模型的统计指标与所述自定义统计指标的大小关系;所述统计指标包括:准确率、人工参与百分比、召回率、错判率和F1值。具体地,实际测试样本的统计指标中,准确率越是高于设定值越好,人工参与百分比越是低于设定值越好,召回率越高越好,错判率越低越好,F1越高越好,患者匹配模型对于测试样本的测试结果应优于自定义结果。
于一实施例中,在步骤S15之后,所述基于患者主索引的患者记录匹配方法还包括:对效果评估的结果进行可视化呈现,可视化呈现的方式包括:文字、图片、表格或统计图中的至少一种。
进一步地,针对所述权重和所述阈值在所述测试样本中的统计指标结果,进行可视化web访问。
于实际应用中,使用dash与flask进行权重,阈值在实际测试样本中的统计指标结果进行可视化web访问。使用表格,ROC(Receiver Operating Characteristic,受试者工作特征)曲线、柱状图等方式可视化结果。可视化后可以获得患者匹配模型在训练样本和实际测试样本上的统计数据,以及一个可以输入自定义权重与阈值的输入框。确认自定义权重与阈值后,会生成自定义权重与阈值在测试样本上的统计指标。进一步可以与选择其他权重、阈值的患者匹配模型进行比较,了解各种权重阈值选择的优劣,便于确认各种选择的合理性。
本发明所述的基于患者主索引的患者记录匹配方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述基于患者主索引的患者记录匹配方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的计算机可读存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。
请参阅图5,显示为本发明的电子设备于一实施例中的结构连接示意图。如图5所示,本实施例提供一种电子设备5,具体包括:处理器51及存储器52;所述存储器52用于存储计算机程序,所述处理器51用于执行所述存储器52存储的计算机程序,以使所述电子设备5执行所述基于患者主索引的患者记录匹配方法的各个步骤。
上述的处理器51可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Alication SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable GateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
上述的存储器52可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
于实际应用中,所述电子设备可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等所有或部分组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、个人数字助理(Personal DigitalAssistant,简称PDA)等个人电脑。在另一些实施方式中,所述电子设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以是由分布的或集中的服务器集群构成的云服务器,本实施例不作限定。
综上所述,本发明所述基于患者主索引的患者记录匹配方法、存储介质及设备对抽取的训练样本进行变量分析处理,且利用偏好权重使得处理后的训练样本更接近实际测试样本,进而自动生成效果优秀的权重和阈值,节省人工工作量,实现更科学地患者记录匹配过程。本发明不需要花费大量时间进行权重、阈值的迭代调整。训练样本与测试样本由本发明自动生成及标注,仅设置少量统计指标,通过监督式学习自动获取权重与阈值,减少了大量人工工作量。并且通过统计指标,自动选择权重、阈值。进一步将基于此权重、阈值的匹配算法对于测试样本的统计结果进行可视化呈现,可以与选择其他权重、阈值的匹配算法进行比较,了解各种权重阈值选择的优劣,便于确认各种选择的合理性。本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种基于患者主索引的患者记录匹配方法,其特征在于,所述基于患者主索引的患者记录匹配方法包括:
基于患者信息数据库中抽取的患者信息集确定训练样本和测试样本;
分别对所述训练样本的属性进行变量分析;
比较变量分析后的训练样本与所述测试样本,通过所述训练样本的偏好权重调整所述训练样本与所述测试样本之间的相似程度;
利用所述训练样本训练患者匹配模型,获取所述训练样本的权重和阈值;
通过所述测试样本对所述权重和所述阈值进行效果评估。
2.根据权利要求1所述的基于患者主索引的患者记录匹配方法,其特征在于,所述基于患者信息数据库中抽取的患者信息集确定训练样本和测试样本的步骤,包括:
利用预设抽取条件,抽取所述训练样本,通过唯一标识信息对所述训练样本进行标注;
通过实际医院的匹配候选规则抽取所述测试样本,通过所述唯一标识信息对所述测试样本进行标注。
3.根据权利要求1所述的基于患者主索引的患者记录匹配方法,其特征在于,所述分别对所述训练样本的属性进行变量分析的步骤,包括:
对所述训练样本的属性进行单变量分析,所述单变量分析内容包括:缺失率和方差;
对所述训练样本的属性进行多变量分析,所述多变量分析内容包括:皮尔森相关系数和方差膨胀系数;
通过所述单变量分析的结果和所述多变量分析的结果排除所述训练样本的不利属性;响应于所述训练样本的属性为多元变量,对所述多元变量进行降维处理。
4.根据权利要求1所述的基于患者主索引的患者记录匹配方法,其特征在于,所述比较变量分析后的训练样本与所述测试样本,通过所述训练样本的偏好权重调整所述训练样本与所述测试样本之间的相似程度的步骤,包括:
利用迁移学习计算所述训练样本与所述测试样本的密度比;所述测试样本与所述训练样本的数量相同,所述密度比为所述患者匹配模型训练过程中所述训练样本的偏好权重。
5.根据权利要求1所述的基于患者主索引的患者记录匹配方法,其特征在于,所述利用所述训练样本训练患者匹配模型,获取所述训练样本的权重和阈值的步骤,包括:
利用所述训练样本,基于监督式学习模型训练得到所述患者匹配模型;
将所述患者匹配模型的权重进行总分标准化;
对每一个所述训练样本进行0分至100分的相似度计算;
利用主要统计指标确定候选阈值对,根据次要统计指标确定上下阈值。
6.根据权利要求1所述的基于患者主索引的患者记录匹配方法,其特征在于,所述通过所述测试样本对所述权重和所述阈值进行效果评估的步骤,包括:
获取用户自定义权重和自定义阈值;
生成所述自定义权重和所述自定义阈值在所述测试样本上的自定义统计指标;
比对所述患者匹配模型的统计指标与所述自定义统计指标的大小关系;所述统计指标包括:准确率、人工参与百分比、召回率、错判率和F1值。
7.根据权利要求1所述的基于患者主索引的患者记录匹配方法,其特征在于,所述基于患者主索引的患者记录匹配方法还包括:
对效果评估的结果进行可视化呈现,可视化呈现的方式包括:文字、图片、表格或统计图中的至少一种。
8.根据权利要求7所述的基于患者主索引的患者记录匹配方法,其特征在于,所述对效果评估的结果进行可视化呈现的步骤,包括:
针对所述权重和所述阈值在所述测试样本中的统计指标结果,进行可视化web访问。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于患者主索引的患者记录匹配方法。
10.一种电子设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至8中任一项所述的基于患者主索引的患者记录匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111500071.4A CN114121204A (zh) | 2021-12-09 | 2021-12-09 | 基于患者主索引的患者记录匹配方法、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111500071.4A CN114121204A (zh) | 2021-12-09 | 2021-12-09 | 基于患者主索引的患者记录匹配方法、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114121204A true CN114121204A (zh) | 2022-03-01 |
Family
ID=80364048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111500071.4A Pending CN114121204A (zh) | 2021-12-09 | 2021-12-09 | 基于患者主索引的患者记录匹配方法、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114121204A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115269613A (zh) * | 2022-09-27 | 2022-11-01 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739862A (zh) * | 2019-01-07 | 2019-05-10 | 深圳中兴网信科技有限公司 | 患者主索引权重建立方法、患者主索引权重建立系统 |
JP2019535047A (ja) * | 2017-08-25 | 2019-12-05 | 平安科技(深▲せん▼)有限公司Ping An Technology(Shenzhen)Co.,Ltd. | 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体 |
US20200013491A1 (en) * | 2017-03-13 | 2020-01-09 | Chartspan Medical Technologies, Inc. | Interoperable Record Matching Process |
CN110852446A (zh) * | 2019-11-13 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法、装置和计算机可读存储介质 |
CN110852443A (zh) * | 2019-09-26 | 2020-02-28 | 支付宝(杭州)信息技术有限公司 | 特征稳定性检测方法、设备及计算机可读介质 |
CN111091884A (zh) * | 2019-12-24 | 2020-05-01 | 无锡识凌科技有限公司 | 一种医院信息集成平台的患者主索引匹配系统及方法 |
CN111863248A (zh) * | 2020-08-04 | 2020-10-30 | 桂林电子科技大学 | 一种构建临床决策模型的有效方法 |
CN111859785A (zh) * | 2020-06-30 | 2020-10-30 | 上海交通大学 | 流体特征提取方法、系统、计算机可读存储介质及设备 |
US20200364243A1 (en) * | 2019-05-06 | 2020-11-19 | Openlattice, Inc. | Record matching model using deep learning for improved scalability and adaptability |
CN111967717A (zh) * | 2020-07-20 | 2020-11-20 | 格创东智(深圳)科技有限公司 | 一种基于信息熵值的数据质量评价方法 |
CN112633515A (zh) * | 2020-12-16 | 2021-04-09 | 上海眼控科技股份有限公司 | 基于样本剔除的模型训练方法及设备 |
CN112836012A (zh) * | 2021-01-25 | 2021-05-25 | 中山大学 | 一种基于排序学习的相似患者检索方法 |
CN113610176A (zh) * | 2021-08-16 | 2021-11-05 | 上海冰鉴信息科技有限公司 | 跨场景迁移分类模型形成方法、装置及可读存储介质 |
CN113707332A (zh) * | 2021-08-26 | 2021-11-26 | 中电健康云科技有限公司 | 患者身份匹配方法、系统、装置和存储介质 |
-
2021
- 2021-12-09 CN CN202111500071.4A patent/CN114121204A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200013491A1 (en) * | 2017-03-13 | 2020-01-09 | Chartspan Medical Technologies, Inc. | Interoperable Record Matching Process |
JP2019535047A (ja) * | 2017-08-25 | 2019-12-05 | 平安科技(深▲せん▼)有限公司Ping An Technology(Shenzhen)Co.,Ltd. | 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体 |
CN109739862A (zh) * | 2019-01-07 | 2019-05-10 | 深圳中兴网信科技有限公司 | 患者主索引权重建立方法、患者主索引权重建立系统 |
US20200364243A1 (en) * | 2019-05-06 | 2020-11-19 | Openlattice, Inc. | Record matching model using deep learning for improved scalability and adaptability |
CN110852443A (zh) * | 2019-09-26 | 2020-02-28 | 支付宝(杭州)信息技术有限公司 | 特征稳定性检测方法、设备及计算机可读介质 |
CN110852446A (zh) * | 2019-11-13 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法、装置和计算机可读存储介质 |
CN111091884A (zh) * | 2019-12-24 | 2020-05-01 | 无锡识凌科技有限公司 | 一种医院信息集成平台的患者主索引匹配系统及方法 |
CN111859785A (zh) * | 2020-06-30 | 2020-10-30 | 上海交通大学 | 流体特征提取方法、系统、计算机可读存储介质及设备 |
CN111967717A (zh) * | 2020-07-20 | 2020-11-20 | 格创东智(深圳)科技有限公司 | 一种基于信息熵值的数据质量评价方法 |
CN111863248A (zh) * | 2020-08-04 | 2020-10-30 | 桂林电子科技大学 | 一种构建临床决策模型的有效方法 |
CN112633515A (zh) * | 2020-12-16 | 2021-04-09 | 上海眼控科技股份有限公司 | 基于样本剔除的模型训练方法及设备 |
CN112836012A (zh) * | 2021-01-25 | 2021-05-25 | 中山大学 | 一种基于排序学习的相似患者检索方法 |
CN113610176A (zh) * | 2021-08-16 | 2021-11-05 | 上海冰鉴信息科技有限公司 | 跨场景迁移分类模型形成方法、装置及可读存储介质 |
CN113707332A (zh) * | 2021-08-26 | 2021-11-26 | 中电健康云科技有限公司 | 患者身份匹配方法、系统、装置和存储介质 |
Non-Patent Citations (5)
Title |
---|
何龙著: "《深入理解XGBoost:高效机器学习算法与进阶(第1版)》", 31 May 2020, 机械工业出版社, pages: 335 - 336 * |
吴乃星等著: "《基于移动通信大数据的城市计算(第1版)》", 31 January 2020, 华中科技大学出版社, pages: 77 * |
张健: "患者身份匹配方法设计与系统实现", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 March 2020 (2020-03-15), pages 138 - 466 * |
胡宗山著: "《政治学研究方法(第1版)》", 30 June 2007, 华中师范大学出版社, pages: 228 - 230 * |
蔡主希著: "《智能风控与反欺诈:体系、算法与实践(第1版)》", 31 March 2021, 机械工业出版社, pages: 26 - 27 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115269613A (zh) * | 2022-09-27 | 2022-11-01 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021184554A1 (zh) | 数据库异常监测方法、装置、计算机装置及存储介质 | |
CN110162695B (zh) | 一种信息推送的方法及设备 | |
US20230139783A1 (en) | Schema-adaptable data enrichment and retrieval | |
US10789225B2 (en) | Column weight calculation for data deduplication | |
CN112528025A (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
TW202029079A (zh) | 異常群體識別方法及裝置 | |
CN107622326B (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN111639077B (zh) | 数据治理方法、装置、电子设备、存储介质 | |
CN110569313A (zh) | 数据仓库的模型表级别判定方法及装置 | |
CN114121204A (zh) | 基于患者主索引的患者记录匹配方法、存储介质及设备 | |
CN114741392A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
US11227288B1 (en) | Systems and methods for integration of disparate data feeds for unified data monitoring | |
CN115544257B (zh) | 网盘文档快速分类方法、装置、网盘及存储介质 | |
CN115146890A (zh) | 企业运营风险告警方法、装置、计算机设备和存储介质 | |
CN115827864A (zh) | 一种公告自动化分类的处理方法 | |
CN116089417A (zh) | 信息获取方法、装置、存储介质及计算机设备 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113672703A (zh) | 一种用户信息的更新方法、装置、设备及存储介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN113780675A (zh) | 一种消耗预测方法、装置、存储介质及电子设备 | |
CN114385460A (zh) | 数据稳定性的检测方法及装置、存储介质 | |
CN114139657B (zh) | 客群画像生成方法、装置、电子设备和储存介质 | |
US10936665B2 (en) | Graphical match policy for identifying duplicative data | |
CN118228993A (zh) | 需求优先级的确定方法、装置、计算机设备和存储介质 | |
CN114528371A (zh) | 基于人机交互的文本推荐方法、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |