CN109754854B - 一种诊断编码和诊断名称匹配的方法和系统 - Google Patents
一种诊断编码和诊断名称匹配的方法和系统 Download PDFInfo
- Publication number
- CN109754854B CN109754854B CN201910032719.6A CN201910032719A CN109754854B CN 109754854 B CN109754854 B CN 109754854B CN 201910032719 A CN201910032719 A CN 201910032719A CN 109754854 B CN109754854 B CN 109754854B
- Authority
- CN
- China
- Prior art keywords
- diagnosis
- code
- diagnostic
- rule
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 315
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims description 43
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 6
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000013523 data management Methods 0.000 abstract description 3
- 238000007726 management method Methods 0.000 abstract description 2
- 230000001186 cumulative effect Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000036541 health Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种诊断编码和诊断名称匹配的方法和系统,使诊断编码和诊断名称的数据治理自动化,提高治理的效率,避免人工处理因个人经验造成的不确定性,提高了数据分析利用的价值。其技术方案为:获取医院的诊断记录,包括医院编码、诊断编码以及诊断名称;将医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配,其中五元组匹配表按照预设规则生成,包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称;若医院编码、诊断编码以及诊断名称分别等于五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将诊断编码和诊断名称分别替换为标准诊断编码和标准诊断名称。
Description
技术领域
本发明涉及医疗大数据处理领域,具体涉及一种将诊断编码和诊断名称进行匹配的方法和系统。
背景技术
随着医疗健康大数据中心或医院临床数据中心的建设,原始的电子病历系统存储的疾病诊断数据最多保证了本次就诊数据的完备性,而当数据融合在一起时,疾病诊断编码对应的诊断名称或将不再唯一,造成诊断名称不再唯一的原因包括了各电子病历系统厂商设计差异、诊断编码系统院内差异、诊断名称书写习惯差异等。另一方面,现有的医院信息系统中,其诊断编码普遍以世界卫生组织发布的疾病和有关健康问题的国际统计分类(ICD-10)为标准,但其规定的ICD-10编码系统只保证亚目(四位码)的标准性,五位及以上的编码可以根据国家、地区、医院进行内部编码,这对诊断编码和诊断名称的唯一性提出了挑战。
随着数据的进一步整合,对医疗数据的利用的诉求日益增长,靠人工经验核对诊断编码和诊断名称已无法适应增长过快的数据治理需求,因此构建逻辑匹配技术迫在眉睫。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种诊断编码和诊断名称匹配的方法和系统,使诊断编码和诊断名称的数据治理自动化,提高治理的效率,避免人工处理因个人经验造成的不确定性,提高了数据分析利用的价值。
本发明的技术方案为:本发明揭示了一种诊断编码和诊断名称匹配的方法,包括:
获取医院的诊断记录,所述诊断记录包括医院编码、诊断编码以及诊断名称;
将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配,其中,所述五元组匹配表按照预设规则生成,所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称;
若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称。
根据本发明的诊断编码和诊断名称匹配的方法的一实施例,所述五元组匹配表按照预设规则的生成步骤包括:
获取医院各年份的历年数据,判断历年数据与基准年份的编码版本是否发生变更,若没有发生变更,则基于各年份的历年数据中的诊断编码、对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵;
计算每个诊断编码对应的不同诊断名称的组内占比,记为Gratio属性,判断所述诊断名称的Gratio属性是否不小于预设阈值T3,若是,则标记对应的诊断编码为1,其余为0,并记为属性Rule1;
在所述决策矩阵中,剔除满足Rule1=1的诊断编码对应的数据之后,对剩余的每个诊断编码按照Gratio属性从大到小排序,记为Grank属性,如果满足
{Gratio|Grank=2}×T≤{Gratio|Grank=1}
则Grank=1所对应的诊断名称为排序最优诊断名称,标记满足Grank=1所对应的诊断名称为1,其余为0,并记为属性Rule2,其中,{Gratio|Grank=1}表示Grank=1所对应的Gratio属性,{Gratio|Grank=2}表示Grank=2所对应的Gratio属性,T为采用统计经验确定的倍数;
在所述决策矩阵中,剔除满足Rule2=1的诊断编码对应的数据之后,提取Gratio属性大于预设阈值T5的诊断编码和诊断名称,并将每一个诊断编码提取诊断名称相似度超过预设阈值T6的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称,标记选择的相似度最优诊断名称为1,其余为0,并记为属性Rule3;
在所述决策矩阵中,剔除满足Rule3=1的诊断编码对应的数据之后,获取专家经验规则Rule4,提取决策矩阵中所有Rule1=1或Rule2=1或Rule3=1时所有的诊断编码和诊断名称,合并专家经验规则Rule4的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表,并将所述决策矩阵中Rule1=1或Rule2=1或Rule3=1对应编码其他的诊断名称作为标准诊断名称,形成所述五元组匹配表。
根据本发明的诊断编码和诊断名称匹配的方法的一实施例,所述判断历年数据与基准年份的编码版本是否发生变更包括:
基于历年数据中每个年份的每个诊断编码的就诊量与基准年份相同诊断编码的就诊量获取同比变化量;
将所述每年的同比变化量与预设的变化截点值相比较,如果所述同比变化量不大于所述预设的变化截点值,则获取该年份诊断编码不大于预设的变化截点值的唯一诊断编码的数量和该年份所有唯一诊断编码数量之比Vratio;
如果Vratio大于预设阈值T2,则该年份的编码版本与基准年份的编码版本未发生变更。
根据本发明的诊断编码和诊断名称匹配的方法的一实施例,所述预设的变化截点值为预设年份所有诊断编码的就诊量从大到小排列下的累积和在当年所有就诊量中的占比达到预设阈值T1情况下的最小的同比变化量。
根据本发明的诊断编码和诊断名称匹配的方法的一实施例,所述预设阈值T1为(0.5,1),所述预设阈值T2的范围为(0.5,1),所述预设阈值T3的范围为(0.5,1),所述预设阈值T5的范围为[0.1,0.5),所述预设阈值T6的范围为(0.5,1)。
根据本发明的诊断编码和诊断名称匹配的方法的一实施例,所述T为采用统计经验确定的倍数包括:
在按照{Gratio|Grank=1}/{Gratio|Grank=2}从大到小的排列下,将Grank=1,2对应的就诊量之和占所有就诊量之比大于预设阈值T4的情况下的最小的{Gratio|Grank=1}/{Gratio|Grank=2}比值作为倍数T的统计经验值。
根据本发明的诊断编码和诊断名称匹配的方法的一实施例,所述预设阈值T4的范围为(0.5,1)。
根据本发明的诊断编码和诊断名称匹配的方法的一实施例,判断相似度超过预设阈值T6中的相似系数为Jaro Winkler相似性simjw∈[0,1],0表示没有任何字符是相匹配的,1表示完全匹配。
本发明还揭示了一种诊断编码和诊断名称匹配的系统,包括:
诊断记录获取模块,获取医院的诊断记录,所述诊断记录包括医院编码、诊断编码以及诊断名称;
匹配模块,将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配,其中,所述五元组匹配表按照预设规则生成,所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称;
替换模块,若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称。
本发明还揭示了一种诊断编码和诊断名称匹配的系统,包括一计算设备以及运行于该计算设备上的一计算机程序,所述算机程序在计算设备上运行后执行如上所述的方法。
本发明对比现有技术有如下的有益效果:本发明利用诊断编码版本检测技术,探查现有诊断编码系统是否发生过重大版本变更,其次,在保证未发生版本变更的情况下,利用逻辑匹配逻辑来寻找诊断编码对应的最优诊断名称,使得诊断编码与诊断名称在所处理的数据中达到自洽性。使诊断编码和诊断名称的数据治理自动化,提高治理的效率,避免人工处理因个人经验造成的不确定性,提高了数据分析利用的价值。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的诊断编码和诊断名称匹配的方法的一实施例的流程图。
图2示出了本发明的诊断编码和诊断名称匹配的系统的一实施例的结构图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
图1示出了本发明的诊断编码和诊断名称匹配的方法的一实施例的流程,请参见图1,本实施例的方法的实施步骤详述如下。
步骤S101:获取医院的诊断记录。
诊断记录包括但不限于医院编码、诊断编码以及诊断名称。
优选地,获取医院的诊断记录的数据来源为医疗健康大数据中心或医院临床数据中心。
步骤S103:将医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配。
本步骤中的五元组匹配表按照预设规则生成,五元组匹配表的内容如下:
(医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称)。
在本实施例中,五元组匹配表按照预设规则的生成过程包括如下步骤。
获取医院各年份的历年数据,判断历年数据与基准年份的编码版本是否发生变更,若没有发生变更,则基于各年份的历年数据中的诊断编码、对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵。
计算每个诊断编码对应的不同诊断名称的组内占比,记为Gratio属性,判断诊断名称的Gratio属性是否不小于预设阈值T3,若是,则标记诊断编码为1,其余为0,并记为属性Rule1。
在决策矩阵中,剔除满足Rule1=1的诊断编码对应的数据之后,对剩余的每个诊断编码按照Gratio属性从大到小排序,记为Grank属性,如果满足
{Gratio|Grank=2}×T≤{Gratio|Grank=1}
则Grank=1所对应的诊断名称为排序最优诊断名称,标记满足Grank=1所对应的诊断名称为1,其余为0,并记为属性Rule2,其中,{Gratio|Grank=1}表示Grank=1所对应的Gratio属性,{Gratio|Grank=2}表示Grank=2所对应的Gratio属性,T为采用统计经验确定的倍数。
在决策矩阵中,剔除满足Rule2=1的诊断编码对应的数据之后,提取Gratio属性大于预设阈值T5的诊断编码和诊断名称,并将每一个诊断编码提取诊断名称相似度超过预设阈值T6的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称,标记选择的相似度最优诊断名称为1,其余为0,并记为属性Rule3。
在决策矩阵中,剔除满足Rule3=1的诊断编码对应的数据之后,获取专家经验规则Rule4,提取决策矩阵中所有Rule1=1或Rule2=1或Rule3=1时所有的诊断编码和诊断名称,合并专家经验规则Rule4的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表,并将决策矩阵中Rule1=1或Rule2=1或Rule3=1对应编码其他的诊断名称作为标准诊断名称,形成如下五元组的匹配表:
(医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称)。
优选地,上述的判断历年数据与基准年份的编码版本是否发生变更的判断过程包括如下步骤。
基于历年数据中每个年份的每个诊断编码的就诊量与基准年份相同诊断编码的就诊量获取同比变化量。
将每年的同比变化量与预设的变化截点值相比较,如果同比变化量不大于预设的变化截点值,则获取该年份诊断编码不大于预设的变化截点值的唯一诊断编码的数量和该年份所有唯一诊断编码数量之比Vratio。
如果Vratio大于预设阈值T2,则该年份的编码版本与基准年份的编码版本未发生变更。
在本实施例中,预设的变化截点值为预设年份所有诊断编码的就诊量从大到小排列下的累积和在当年所有就诊量中的占比达到预设阈值T1情况下的最小的同比变化量。
优选地,预设阈值T1的范围为(0.5,1),预设阈值T2的范围为(0.5,1),预设阈值T3的范围为(0.5,1),预设阈值T5的范围为[0.1,0.5),预设阈值T6的范围为(0.5,1)。
在本实施例中,T为采用统计经验确定的倍数包括如下步骤。
在按照{Gratio|Grank=1}/{Gratio|Grank=2}从大到小的排列下,将Grank=1,2对应的就诊量之和占所有就诊量之比大于预设阈值T4的情况下的最小的{Gratio|Grank=1}/{Gratio|Grank=2}比值作为倍数T的统计经验值,其中预设阈值T4的范围为(0.5,1)。
为了提高所选排序最优诊断名称的可信度,优选将{Gratio|Grank=2}设置为大于预设阈值的值。
在本实施例中,判断相似度超过预设阈值T6中的相似系数为Jaro Winkler相似性simjw∈[0,1],0表示没有任何字符是相匹配的,1表示完全匹配。其计算方式如下:
对于任意两个诊断名称s1和s2,其Jaro相似性定义为
这里,|s1|与|s2|分布是字符串s1与s2的长度。m是匹配字符的个数,t是换位数目的一半。
匹配窗口的计算公式为:
当两个字符串做匹配计算时,当两个字符的距离不大于匹配窗口时认为是匹配的。当两个字符串相匹配但字符位置不一样时发生换位操作时,t为发生换位匹配字符数目的一半。
Jaro Winkler相似性是Jaro相似性的扩展,其予了起始部分就相同的字符串更高的分数,其定义一个字符串前缀范围p,对于要匹配的两个字符串,如果前缀部分有长度为l的部分字符串相同,则Jaro Winkler相似性为simjw=simj+(l×p×(1-simj))
这里simj为两个字符串的Jaro距离,l为前缀部分匹配的长度,p为一个范围因子常量,用来调整前缀匹配的权值,但p的值不能超过0.25,否则使得simjw>1,Winkler的标准默认设置值为p=0.1。
优选地,诊断编码名称的匹配效果采用修正比例来度量,修正比例定义为逻辑匹配后的匹配比例与原始数据中诊断编码和诊断名称匹配的比例之差。
值得一提的是,专家经验规则Rule4首先选定需要采用经验处理的诊断编码,即就诊量超过预设阈值T7、诊断名称种类超过预设阈值T8,可对治理效果有明显提升的诊断编码纳入经验规则的处理范畴,引入专家经验,形成诊断编码和诊断名称匹配的经验规则Rule4,其中,选定预设阈值T7、预设阈值T8的确定是采用累积分布函数来确定。
步骤S105:若医院编码、诊断编码以及诊断名称分别等于五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将诊断编码和诊断名称分布替换为标准诊断编码和标准诊断名称。
图2示出了本发明的诊断编码和诊断名称匹配的系统的一实施例的结构,请参见图2,本实施例的系统包括:诊断记录获取模块、匹配模块、替换模块。
诊断记录获取模块用于获取医院的诊断记录,所述诊断记录包括医院编码、诊断编码以及诊断名称。
匹配模块用于将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配,其中,所述五元组匹配表按照预设规则生成,所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称。
匹配模块中还包括五元组匹配表生成单元,五元组匹配表生成单元被配置为执行以下的步骤。
第一步,获取医院各年份的历年数据,判断历年数据与基准年份的编码版本是否发生变更,若没有发生变更,则基于各年份的历年数据中的诊断编码、对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵。
在本步骤中,判断历年数据与基准年份的编码版本是否发生变更需要执行以下的步骤:
基于历年数据中每个年份的每个诊断编码的就诊量与基准年份相同诊断编码的就诊量获取同比变化量;
将每年的同比变化量与预设的变化截点值(预设的变化截点值为预设年份所有诊断编码的就诊量从大到小排列下的累积和在当年所有就诊量中的占比达到预设阈值T1情况下的最小的同比变化量)相比较,如果同比变化量不大于预设的变化截点值,则获取该年份诊断编码不大于预设的变化截点值的唯一诊断编码的数量和该年份所有唯一诊断编码数量之比Vratio;
如果Vratio大于预设阈值T2,则该年份的编码版本与基准年份的编码版本未发生变更。
第二步,计算每个诊断编码对应的不同诊断名称的组内占比,记为Gratio属性,判断诊断名称的Gratio属性是否不小于预设阈值T3,若是,则标记对应的诊断编码为1,其余为0,并记为属性Rule1。
第三步,在决策矩阵中,剔除满足Rule1=1的诊断编码对应的数据之后,对剩余的每个诊断编码按照Gratio属性从大到小排序,记为Grank属性,如果满足
{Gratio|Grank=2}×T≤{Gratio|Grank=1}
则Grank=1所对应的诊断名称为排序最优诊断名称,标记满足Grank=1所对应的诊断名称为1,其余为0,并记为属性Rule2,其中,{Gratio|Grank=1}表示Grank=1所对应的Gratio属性,{Gratio|Grank=2}表示Grank=2所对应的Gratio属性,T为采用统计经验确定的倍数。
在本步骤中,T为采用统计经验确定的倍数包括:在按照{Gratio|Grank=1}/{Gratio|Grank=2}从大到小的排列下,将Grank=1,2对应的就诊量之和占所有就诊量之比大于预设阈值T4的情况下的最小的{Gratio|Grank=1}/{Gratio|Grank=2}比值作为倍数T的统计经验值。
第四步,在决策矩阵中,剔除满足Rule2=1的诊断编码对应的数据之后,提取Gratio属性大于预设阈值T5的诊断编码和诊断名称,并将每一个诊断编码提取诊断名称相似度超过预设阈值T6的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称,标记选择的相似度最优诊断名称为1,其余为0,并记为属性Rule3。
其中判断相似度超过预设阈值T6中的相似系数为Jaro Winkler相似性simjw∈[0,1],0表示没有任何字符是相匹配的,1表示完全匹配。
第五步,在决策矩阵中,剔除满足Rule3=1的诊断编码对应的数据之后,获取专家经验规则Rule4,提取决策矩阵中所有Rule1=1或Rule2=1或Rule3=1时所有的诊断编码和诊断名称,合并专家经验规则Rule4的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表,并将决策矩阵中Rule1=1或Rule2=1或Rule3=1对应编码其他的诊断名称作为标准诊断名称,形成五元组匹配表。
在上述的处理中,预设阈值T1为(0.5,1),预设阈值T2的范围为(0.5,1),预设阈值T3的范围为(0.5,1),预设阈值T4的范围为(0.5,1),预设阈值T5的范围为[0.1,0.5),预设阈值T6的范围为(0.5,1)。
替换模块中,若医院编码、诊断编码以及诊断名称分别等于五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将诊断编码和诊断名称分别替换为标准诊断编码和标准诊断名称。
此外,本发明还揭示了诊断编码和诊断名称匹配的系统的一实施例的结构,本实施例的系统包括一计算设备以及运行于该计算设备上的一计算机程序,计算机程序在该计算设备上运行后执行如图1所示实施例的方法。由于图1所示实施例在前述内容中已经详细描述,在此不再赘述。
为了进一步理解本发明的诊断编码和诊断名称匹配的方法,下面以以糖尿病大数据中心中2013年至2017年的就诊诊断数据为例,说明本发明中一些阈值、倍数等常量的设定以及说明本发明所提的逻辑匹配技术对糖尿病大数据中心诊断疾病和诊断名称的提升效果。
1、诊断编码版本检测的实施过程包括:
首先按医院提取诊断数据中所有的诊断编码按年的就诊量数据,形成诊断编码版本判别矩阵D,对于任意一家医院Hi,诊断编码版本判别矩阵Di举例如下:
这里,诊断编码版本判别矩阵Di的行表示医院Hi的所有唯一诊断编码各年的就诊量,列表示2013年至2017年各年所有唯一诊断编码的就诊量。n为医院Hi所有唯一的诊断编码数量,Ci,j表示编码i在第j年的就诊量,Ci,j∈[0,V],i∈[1,n],j∈[2013,2014,2015,2016,2017],意味着某年某个编码的就诊量可能为0或不存在此编码,但小于该医院所有就诊量和V。
其次,以2017年的为基准年份,计算历年各个诊断编码就诊量与相同编码的基准值的同比变化量,即计算Pi,y=Ci,y/Ci,2017的值,y∈[2013,2014,2015,2016]。
接着,将各年份诊断编码对应的就诊量根据Pi,y从大到小的顺序排序,计算各年的编码就诊量累积和,当累积和占当年所有就诊量之比达到阈值T1=0.95时选择最小的同比变化量为预设的变化截点值,意味着某个诊断编码的同比变化量大于该预设的变化截点值时,该年份该诊断编码出现了断崖式下跌,即超过了诊断编码对应就诊量的下跌范围。
最后,以预设的变化截点值为基准,计算各年份所有编码的Pi,y不大于预设的变化截点值的唯一诊断编码数量与该年份所有唯一诊断编码数量之比Vratio,如果Vratio>T2,则认为该年份的编码相较于基准年份未发生版本变更。在本次具体实施中,阈值T2设定为0.9,则各医院各年份Vratio值版本检测结果如下:
表1各医院各年份Vratio值
医院编码 | 2013 | 2014 | 2015 | 2016 |
RUI | 96.0% | 98.5% | 98.9% | 99.5% |
OFT | 96.7% | 97.9% | 98.5% | 99.2% |
ICE | 95.2% | 97.7% | 98.3% | 98.9% |
CHI | 98.0% | 97.8% | 95.8% | 97.3% |
BUT | 92.9% | 92.4% | 97.6% | 98.7% |
MET | 96.1% | 95.6% | 94.0% | 94.4% |
ORL | 99.0% | 98.5% | 99.1% | 99.2% |
ERC | 93.9% | 91.2% | 96.3% | 97.1% |
WOR | 96.3% | 98.2% | 99.1% | 98.7% |
可以看出各医院各年份Vratio值均小于0.9,因此各医院诊断编码各年无版本变更。
2、逻辑匹配的实施,逻辑匹配用于对版本恒定的历年数据进行诊断编码和诊断名称的逻辑匹配,其包含具体步骤如下:
首先,整合各医院各年诊断编码和对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵其中Ah表示第h家医院的决策矩阵,H为医院数目。
这里N表示第h家医院所有不同诊断编码数,Gi表示的是第i个诊断编码对应所有组合的就诊量和组内占比矩阵,即:
这里Vj表示第j个诊断编码组合对应的就诊量,Rj表示第j个诊断编码组合对应的就诊量组内占比,M是一个诊断编码对应的所有不同组合数,且M≥1。对于任意第h家医院,记录所有诊断编码组合对应的组内占比为Gratio属性,即Gratio为所有N×M个组内占比Rj组成的列向量。
其次,在随机现象的大量重复中往往出现几乎必然的规律,因此认为在同一家医院里,某个诊断编码对应的诊断名称出现的几率达到预设阈值T3后,该诊断名称就是必然的规律,即排序最优诊断名称。基于此,对每一个诊断编码,标记Gratio不小于预设阈值T3的诊断编码说明为1,其余为0,并记为属性Rule1。在本次具体实施时,选取的预设阈值T3=0.8,那么则将第i个诊断编码对应的组内占比矩阵Gi中任意一个Rj≥0.8的诊断编码说明标记为1,其余为0,示例如下,值得注意的是,为便于描述,本发明实施例在此将其自定义为大数规则:
表2大数规则实施举例
再次,在决策矩阵中,剔除满足Rule1=1的诊断编码对应的数据,即如果Gi中任意一个Rj≥T3,则将Gi从矩阵Ah中剔除,进而对每个诊断编码组内按照Gratio从大到小排序,记为Grank属性。在本次具体实施中,在选取预设阈值T4=0.9的情况下,根据统计经验,倍数T取下整后等于3,取下整的目的是减少对Gratio本身精度的影响,避免了因精度计算而引起的无法识别倍数规则的问题,同时也一定程度上提高了倍数规则的识别效率,优选地,{Gratio|Grank=2}设定的最小阈值为0.1,防止倍数原则发现的诊断名称出现的比例过低。
基于此,对每一个诊断编码,标记满足倍数规则下Grank=1所对应的诊断名称为1,其余为0,并记为属性Rule2,为便于描述,本发明实施例在此将其自定义为倍数规则,示例如下:
表3倍数规则实施举例
从次,在决策矩阵中,剔除满足Rule1=1或Rule2=1的诊断编码对应的数据,在提取Gratio大于预设阈值T5的诊断编码和诊断名称,对每一个编码提取诊断名称相似度超过阈值T6的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称,标记选择的相似度最优诊断名称为1,其余为0,并记为属性Rule3。
在本次具体实施中,选定的T5=0.2,T6=0.8。采用的诊断名称相似度度量算法为Jaro Winkler相似性,为便于描述,本发明实施例在此将其自定义为字符串相似度规则,字符串相似度规则是指一个诊断编码的诊断名称要符合当前诊断编码所对应的疾病系统,意味着所选择的最优诊断名称不能超出该编码所对应的疾病系统范围,示例如下:
表4字符串相似度规则实施举例
再次,在决策矩阵中,剔除满足Rule1=1或Rule2=1或Rule3=1的诊断编码对应的数据,利用专家经验规则Rule4进一步匹配,也即选定需要采用经验处理的编码,即就诊量超过预设阈值T7、诊断名称种类超过预设阈值T8,可对治理效果有明显提升的编码纳入经验规则的处理范畴,引入专家经验,形成诊断编码和诊断名称匹配的经验规则Rule4。
在本次具体实施中,经就诊量累积分布函数在达到95%的情况下,最小的就诊量为预设阈值T7,经编码对应的诊断名称种类数的累积分布函数在达到95%的情况下,最小的诊断名称种类数为预设阈值T8,此条件下共计获得48条经验规则,如下所示:
表5 48条经验规则
最后,提取决策矩阵中所有Rule1=1或Rule2=1或Rule3=1时所有的诊断编码和诊断名称,合并Rule4的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表,并将决策矩阵中Rule1=1或Rule2=1或Rule3=1对应编码其他的诊断名称作为标准诊断名称,形成五元组匹配表。
在实际匹配时,当医疗健康大数据中心或医院临床数据中心中的诊断记录中,当医院编码、诊断编码、诊断名称分别等于五元组的匹配表的医院编码、原始诊断编码、原始诊断名称时,将原始诊断编码、原始诊断名称分布替换为标准诊断编码、标准诊断名称。在本次具体实施中,以修正比例为度量标准,逻辑匹配的效果如下:
表6实施例诊断编码和诊断名称逻辑匹配效果
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。
Claims (9)
1.一种诊断编码和诊断名称匹配的方法,其特征在于,包括:
获取医院的诊断记录,所述诊断记录包括医院编码、诊断编码以及诊断名称;
将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配,其中,所述五元组匹配表按照预设规则生成,所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称;
若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称;
其中,所述五元组匹配表按照预设规则的生成步骤包括:
获取医院各年份的历年数据,判断历年数据与基准年份的编码版本是否发生变更,若没有发生变更,则基于各年份的历年数据中的诊断编码、对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵;
计算每个诊断编码对应的不同诊断名称的组内占比,记为Gratio属性,判断所述诊断名称的Gratio属性是否不小于预设阈值T3,若是,则标记对应的诊断编码为1,其余为0,并记为属性Rule1;
在所述决策矩阵中,剔除满足Rule1=1的诊断编码对应的数据之后,对剩余的每个诊断编码按照Gratio属性从大到小排序,记为Grank属性,如果满足
{Gratio|Grank=2}×T≤{Gratio|Grank=1}
则Grank=1所对应的诊断名称为排序最优诊断名称,标记满足Grank=1所对应的诊断名称为1,其余为0,并记为属性Rule2,其中,{Gratio|Grank=1}表示Grank=1所对应的Gratio属性,{Gratio|Grank=2}表示Grank=2所对应的Gratio属性,T为采用统计经验确定的倍数;
在所述决策矩阵中,剔除满足Rule2=1的诊断编码对应的数据之后,提取Gratio属性大于预设阈值T5的诊断编码和诊断名称,并将每一个诊断编码提取诊断名称相似度超过预设阈值T6的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称,标记选择的相似度最优诊断名称为1,其余为0,并记为属性Rule3;
在所述决策矩阵中,剔除满足Rule3=1的诊断编码对应的数据之后,获取专家经验规则Rule4,提取决策矩阵中所有Rule1=1或Rule2=1或Rule3=1时所有的诊断编码和诊断名称,合并专家经验规则Rule4的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表,并将所述决策矩阵中Rule1=1或Rule2=1或Rule3=1对应编码其他的诊断名称作为标准诊断名称,形成所述五元组匹配表。
2.根据权利要求1所述的诊断编码和诊断名称匹配的方法,其特征在于,所述判断历年数据与基准年份的编码版本是否发生变更包括:
基于历年数据中每个年份的每个诊断编码的就诊量与基准年份相同诊断编码的就诊量获取同比变化量;
将所述每年的同比变化量与预设的变化截点值相比较,如果所述同比变化量不大于所述预设的变化截点值,则获取该年份诊断编码不大于预设的变化截点值的唯一诊断编码的数量和该年份所有唯一诊断编码数量之比Vratio;
如果Vratio大于预设阈值T2,则该年份的编码版本与基准年份的编码版本未发生变更。
3.根据权利要求2所述的诊断编码和诊断名称匹配的方法,其特征在于,所述预设的变化截点值为预设年份所有诊断编码的就诊量从大到小排列下的累积和在当年所有就诊量中的占比达到预设阈值T1情况下的最小的同比变化量。
4.根据权利要求3所述的诊断编码和诊断名称匹配的方法,其特征在于,所述预设阈值T1为(0.5,1),所述预设阈值T2的范围为(0.5,1),所述预设阈值T3的范围为(0.5,1),所述预设阈值T5的范围为[0.1,0.5),所述预设阈值T6的范围为(0.5,1)。
5.根据权利要求1所述的诊断编码和诊断名称匹配的方法,其特征在于,所述T为采用统计经验确定的倍数包括:
在按照{Gratio|Grank=1}/{Gratio|Grank=2}从大到小的排列下,将Grank=1,2对应的就诊量之和占所有就诊量之比大于预设阈值T4的情况下的最小的{Gratio|Grank=1}/{Gratio|Grank=2}比值作为倍数T的统计经验值。
6.根据权利要求5所述的诊断编码和诊断名称匹配的方法,其特征在于,所述预设阈值T4的范围为(0.5,1)。
7.根据权利要求1所述的诊断编码和诊断名称匹配的方法,其特征在于,判断相似度超过预设阈值T6中的相似系数为Jaro Winkler相似性simjw∈[0,1],0表示没有任何字符是相匹配的,1表示完全匹配。
8.一种诊断编码和诊断名称匹配的系统,其特征在于,包括:
诊断记录获取模块,获取医院的诊断记录,所述诊断记录包括医院编码、诊断编码以及诊断名称;
匹配模块,将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配,其中,所述五元组匹配表按照预设规则生成,所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称;
替换模块,若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称;
其中,所述五元组匹配表按照预设规则的生成步骤包括:
获取医院各年份的历年数据,判断历年数据与基准年份的编码版本是否发生变更,若没有发生变更,则基于各年份的历年数据中的诊断编码、对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵;
计算每个诊断编码对应的不同诊断名称的组内占比,记为Gratio属性,判断所述诊断名称的Gratio属性是否不小于预设阈值T3,若是,则标记对应的诊断编码为1,其余为0,并记为属性Rule1;
在所述决策矩阵中,剔除满足Rule1=1的诊断编码对应的数据之后,对剩余的每个诊断编码按照Gratio属性从大到小排序,记为Grank属性,如果满足
{Gratio|Grank=2}×T≤{Gratio|Grank=1}
则Grank=1所对应的诊断名称为排序最优诊断名称,标记满足Grank=1所对应的诊断名称为1,其余为0,并记为属性Rule2,其中,{Gratio|Grank=1}表示Grank=1所对应的Gratio属性,{Gratio|Gramk=2}表示Gramk=2所对应的Gratio属性,T为采用统计经验确定的倍数;
在所述决策矩阵中,剔除满足Rule2=1的诊断编码对应的数据之后,提取Gratio属性大于预设阈值T5的诊断编码和诊断名称,并将每一个诊断编码提取诊断名称相似度超过预设阈值T6的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称,标记选择的相似度最优诊断名称为1,其余为0,并记为属性Rule3;
在所述决策矩阵中,剔除满足Rule3=1的诊断编码对应的数据之后,获取专家经验规则Rule4,提取决策矩阵中所有Rule1=1或Rule2=1或Rule3=1时所有的诊断编码和诊断名称,合并专家经验规则Rule4的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表,并将所述决策矩阵中Rule1=1或Rule2=1或Rule3=1对应编码其他的诊断名称作为标准诊断名称,形成所述五元组匹配表。
9.一种诊断编码和诊断名称匹配的系统,其特征在于,包括一计算设备以及运行于该计算设备上的一计算机程序,所述计算机程序在该计算设备上运行后执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910032719.6A CN109754854B (zh) | 2019-01-14 | 2019-01-14 | 一种诊断编码和诊断名称匹配的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910032719.6A CN109754854B (zh) | 2019-01-14 | 2019-01-14 | 一种诊断编码和诊断名称匹配的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109754854A CN109754854A (zh) | 2019-05-14 |
CN109754854B true CN109754854B (zh) | 2023-07-18 |
Family
ID=66405523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910032719.6A Active CN109754854B (zh) | 2019-01-14 | 2019-01-14 | 一种诊断编码和诊断名称匹配的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109754854B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275081A (zh) * | 2020-01-14 | 2020-06-12 | 上海市疾病预防控制中心 | 基于贝叶斯概率模型实现多来源数据链接处理的方法 |
CN112509658A (zh) * | 2020-11-13 | 2021-03-16 | 陈云天 | 基于诊断能力自动授权审核报告权限的系统及方法 |
CN114637823A (zh) * | 2022-03-15 | 2022-06-17 | 平安国际智慧城市科技股份有限公司 | 一种指标口径确定方法、装置、计算机设备及存储介质 |
CN114822865B (zh) * | 2022-06-27 | 2022-11-11 | 天津幸福生命科技有限公司 | 诊断数据识别方法及装置、电子设备、存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10275576B2 (en) * | 2014-06-27 | 2019-04-30 | Passport Health Communications, Inc | Automatic medical coding system and method |
US20200013491A1 (en) * | 2017-03-13 | 2020-01-09 | Chartspan Medical Technologies, Inc. | Interoperable Record Matching Process |
CN107705839B (zh) * | 2017-10-25 | 2020-06-26 | 山东众阳软件有限公司 | 疾病自动编码方法及系统 |
CN107731269B (zh) * | 2017-10-25 | 2020-06-26 | 山东众阳软件有限公司 | 基于原始诊断数据和病历文件数据的疾病编码方法及系统 |
CN108182977A (zh) * | 2018-02-05 | 2018-06-19 | 南方医科大学顺德医院(佛山市顺德区第人民医院) | 门诊诊断编码方法和系统 |
CN108446260A (zh) * | 2018-02-06 | 2018-08-24 | 天津艾登科技有限公司 | 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统 |
-
2019
- 2019-01-14 CN CN201910032719.6A patent/CN109754854B/zh active Active
Non-Patent Citations (1)
Title |
---|
Temporal Pattern and Association Discovery of Diagnosis Codes using Deep Learning;Saaed Mehrabi、等;《2015 International Conference on Healthcare informatics》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109754854A (zh) | 2019-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109754854B (zh) | 一种诊断编码和诊断名称匹配的方法和系统 | |
US11748677B2 (en) | Multi-model medical scan analysis system using fine-tuned models | |
US11763933B2 (en) | Medical report labeling system and method for use therewith | |
CN112365987B (zh) | 诊断数据异常检测方法、装置、计算机设备及存储介质 | |
CN107563120B (zh) | 针对患者的医生推荐方法及装置 | |
US8751495B2 (en) | Automated patient/document identification and categorization for medical data | |
CN108876636B (zh) | 理赔智能风控方法、系统、计算机设备及存储介质 | |
US8990135B2 (en) | Personalized health risk assessment for critical care | |
WO2018183069A1 (en) | Method and device for constructing scoring model and evaluating user credit | |
CN101911078A (zh) | 基于疾病概率向量检索类似患者病例 | |
WO2022089190A1 (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
WO2022222943A1 (zh) | 科室推荐方法、装置、电子设备及存储介质 | |
CN107358019B (zh) | 用于概念漂移的医疗方案的推荐方法 | |
EP3095042A1 (en) | Consensus sequence identification | |
CN112000808B (zh) | 一种数据处理方法及装置、可读存储介质 | |
CN114912887A (zh) | 一种基于电子病历的临床数据录入方法及录入装置 | |
Lemmon et al. | Evaluation of feature selection methods for preserving machine learning performance in the presence of temporal dataset shift in clinical medicine | |
CN118116578A (zh) | 基于GPT-4和LangChain的药品推荐方法 | |
CN116842330B (zh) | 一种可对比历史记录的保健信息处理方法及装置 | |
Huang et al. | Study on patient similarity measurement based on electronic medical records | |
CN111968740A (zh) | 一种诊断标签推荐方法、装置、存储介质及电子设备 | |
CN112861128B (zh) | 一种批量识别机器账号的方法及系统 | |
CN115631823A (zh) | 相似病例推荐方法及系统 | |
CN115168891A (zh) | 基于猫鼬优化的动态多维医疗隐私数据保护方法及系统 | |
CN113312913B (zh) | 一种病例书的切分方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |