CN113674824B

CN113674824B - 一种基于区域医疗大数据的疾病编码方法和系统

Info

Publication number: CN113674824B
Application number: CN202110777964.7A
Authority: CN
Inventors: 徐辉; 吴鹏; 秦浩; 李庆
Original assignee: Clp Tongshang Digital Technology Shanghai Co ltd
Current assignee: Clp Tongshang Digital Technology Shanghai Co ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2023-12-15
Anticipated expiration: 2041-07-09
Also published as: CN113674824A

Abstract

本发明公开了一种基于区域医疗大数据的疾病编码方法和系统，该方法包括以下步骤：S1、采集电子病历数据；S2、对采集到的疾病名称数据进行清洗、去噪；S3、建立映射关系字典，得到国际疾病分类映射字典；S4、建立共性映射模型；S5、对疾病名称数据进行映射，输出对应的疾病编码结果；S6、对成功映射数据集和未成功映射数据集进行针对性监管。有益效果：本发明可以有效地提高自动化疾病编码的效率、准确率及召回率，此外，通过将复杂多变的疾病名称进行规范、标准的分类编码，进而可以更有利于对电子病历数据以及与之关联的医学影像数据、检查检验等医疗大数据进行标准化的处理，并最终在质控、科研及人工智能领域得以应用。

Description

一种基于区域医疗大数据的疾病编码方法和系统

技术领域

本发明涉及医疗数据处理领域，具体来说，涉及一种基于区域医疗大数据的疾病编码方法和系统。

背景技术

区域医疗大数据平台在采集到辖区内医疗机构的数据后，为了使数据得到充分的管理和进一步的开发利用，需要对采集的数据进行治理。其中，规范、标准统一的疾病名称在满足医保支付改革要求的同时，对医疗大数据的开发利用也起着至关重要的作用。无论是在质控、科研还是人工智能领域，开发利用医疗大数据时都需要依赖标准的疾病名称。

电子病历上的疾病名称是由临床医生在接诊患者时，依据患者的病史、检查、实验室检测结果等对疾病进行分类和鉴别后，最终给出的相对应的名称。但是由于医生们的习惯各不相同且不同医院在管理规范及信息化程度上也存在差异，致使针对同一疾病时，电子病历上的疾病名称也并不统一。

国际疾病分类，作为WHO(World Health Organization，世界卫生组织)制定的国际统一的疾病分类方法，它根据疾病的病因、病理、临床表现和解剖位置等特性，将疾病分门别类，使其成为一个有序的组合，并用编码的方法来表示。目前，将复杂多样的疾病名称与国际疾病分类编码对应起来，是解决上述问题的有效途径之一。然而，随着国际疾病分类编码数量的增加，基于电子病历数据进行人工编码的难度和成本大大提高，因此，绝大多数的解决方法是采用近似度算法或机器学习的映射模型来完成电子病历中的疾病名称和国际疾病分类编码的映射问题。但是，无论是近似度算法还是基于机器学习的映射模型都不能完美解决上述问题，对应的召回率和准确率基本无法达到实用标准。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于区域医疗大数据的疾病编码方法和系统，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

根据本发明的一个方面，提供了一种基于区域医疗大数据的疾病编码方法，该方法包括以下步骤：

S1、对预设覆盖范围及预设时间段内医院的电子病历数据进行区域内采集，取出各电子病历数据中的疾病名称字段并作为数据源；

S2、对采集到的疾病名称数据进行清洗、去噪，得到清洗后的疾病名称数据；

S3、依据清洗后的高频疾病名称数据与国际疾病分类编码之间的关系建立映射关系字典，得到国际疾病分类映射字典；

S4、建立清洗后的疾病名称数据与国际疾病分类编码之间的共性映射模型；

S5、对同一批清洗后的疾病名称数据分别采用国际疾病分类映射字典及共性映射模型进行映射，输出对应的疾病编码映射结果；

S6、将所有疾病编码映射结果分为成功映射数据集和未成功映射数据集，并对成功映射数据集和未成功映射数据集进行针对性监管；

其中，所述成功映射数据集包括通过国际疾病分类映射字典成功映射的数据以及通过共性映射模型成功映射的数据；

所述未成功映射数据集为国际疾病分类映射字典以及共性映射模型都未成功映射的数据。

进一步的，所述对采集到的疾病名称数据进行清洗、去噪，得到清洗后的疾病名称数据包括以下步骤：

S21、将采集到的疾病名称数据按由高至低的出现次数进行聚类，并从高频疾病名称数据开始依次分析噪声类型；

S22、采用正则表达式去除疾病名称数据中总结出的噪声，并根据反复总结去噪的结果总结出针对疾病名称数据的去噪规则；

S23、利用该去噪规则完成对所有采集到的疾病名称数据的清洗。

进一步的，所述依据清洗后的高频疾病名称数据与国际疾病分类编码之间的关系建立映射关系字典，得到国际疾病分类映射字典包括以下步骤：

S31、将清洗后的疾病名称数据按出现次数由高至低进行排序；

S32、通过人工分类的方式，依据清洗后的高频疾病名称数据与国际疾病分类编码之间的关系建立映射关系字典，得到国际疾病分类映射字典。

进一步的，所述高频疾病名称定义为出现次数排名高于预设阈值的疾病名称，其中，所述预设阈值的设定方式如下：

清洗后的疾病名称数据按出现次数从高至低排序，当出现次数大于该阈值的所有疾病名称对应的出现次数之和占总次数的百分比达到80％时，该阈值即为预设阈值。

进一步的，所述建立清洗后的疾病名称数据与国际疾病分类编码之间的共性映射模型包括以下步骤：

S41、将所述国际疾病分类映射字典按疾病编码进行聚类，并将同一疾病编码对应的多个疾病名称按照由高至低的出现次数进行排序；

S42、分析同一疾病编码对应的不同疾病名称的共性特征，并初步建立共性特征与疾病编码的映射关系模型；

S43、分别通过国际疾病分类映射字典和共性映射模型对所有清洗后的疾病名称数据进行映射，并对比两者映射结果；

S44、通过分析映射结果不一致的数据来迭代优化共性映射模型。

进一步的，所述通过分析映射结果不一致的数据来迭代优化共性映射模型包括以下步骤：

对于国际疾病分类映射字典及共性映射模型均映射成功，但映射结果不一致的数据，将国际疾病分类映射字典作为正确结果，并以该正确结果为基础进行分析，优化共性映射模型；

对于仅共性映射模型映射成功的数据，进行随机抽样，抽取预设样本数量的数据进行人工核查，并将错误结果与人工分类的正确结果进行对比分析，以此优化共性映射模型；

多次迭代优化共性映射模型，直至共性映射模型映射结果的准确率达到预设阈值为止。

进一步的，所述S5中对应的疾病编码映射结果包括：

对于仅国际疾病分类映射字典映射成功或两者皆映射成功的数据，将国际疾病分类映射字典的映射结果作为最终的输出；

对于仅共性映射模型映射成功的数据，将共性映射模型的映射结果作为最终的输出；

对于两者皆未映射成功的数据，则本次无输出。

进一步的，所述S6中对成功映射数据集和未成功映射数据集进行针对性监管包括以下步骤：

对所述成功映射数据集中通过共性映射模型成功映射的数据进行随机抽样，并采用人工核对的方式来计算样本数据的准确率，若准确率高于或等于预设阈值则无需后续处理，若准确率低于预设阈值则通过对比分析进一步优化共性映射模型；

计算未成功映射数据占总数据的比率，若占比低于预设阈值则无需后续处理，若占比高于或等于预设阈值则通过对未成功映射数据集的处理来进一步优化国际疾病分类映射字典。

进一步的，所述通过对未成功映射数据集的处理来进一步优化国际疾病分类映射字典包括以下步骤：

将未成功映射数据集中的数据按出现次数由高至低排序；

通过人工分类的方式，建立高频疾病名称与国际疾病分类编码之间的映射关系；

将新增的映射关系纳入国际疾病分类映射字典中，实现召回率及准确率的提高。

根据本发明的另一个方面，提供了一种基于区域医疗大数据的疾病编码系统，该系统包括数据采集模块、数据清洗模块、映射字典建立模块、共性映射模型建立模块、疾病编码模块及映射结果监测模块；

其中，所述数据采集模块用于采集区域内预设覆盖范围及预设时间段内医院的电子病历数据，并取出各电子病历数据中的疾病名称字段作为数据源；

所述数据清洗模块用于对采集到的疾病名称数据进行清洗、去噪；

所述映射字典建立模块用于建立清洗后的高频疾病名称数据与国际疾病分类编码之间的映射关系字典；

所述共性映射模型建立模块用于建立清洗后的疾病名称数据与国际疾病分类编码之间的共性映射模型；

所述疾病编码模块用于分别采用国际疾病分类映射字典及共性映射模型对同一批清洗后的疾病名称数据进行映射，输出对应的疾病编码结果；

所述映射结果监测模块用于将所有疾病编码映射结果分为成功映射数据集和未成功映射数据集，并对成功映射数据集和未成功映射数据集进行针对性监管。

本发明的有益效果为：本发明通过数据采集、数据清洗、建立国际疾病分类映射字典及共性映射模型，并对映射结果进行监管等步骤，结合算法模型和人工分类的双重优势，并在迭代运行过程中，不断提高编码的准确率和召回率，最终有效地提高了自动化疾病编码的效率、准确率及召回率。此外，通过将复杂多变的疾病名称进行规范、标准的分类编码，进而可以更有利于对电子病历数据以及与之关联的医学影像数据、检查检验等医疗大数据进行标准化的处理，并最终在质控、科研及人工智能领域得以应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于区域医疗大数据的疾病编码方法的流程图；

图2是根据本发明实施例的一种基于区域医疗大数据的疾病编码方法的原理示意图；

图3是根据本发明实施例的一种基于区域医疗大数据的疾病编码方法中案例的整体效果图；

图4是根据本发明实施例的一种基于区域医疗大数据的疾病编码方法中BERT模型结构图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种基于区域医疗大数据的疾病编码方法和系统。

现结合附图和具体实施方式对本发明进一步说明，如图1-4所示，根据本发明的一个实施例，提供一种基于区域医疗大数据的疾病编码方法，该方法包括以下步骤：

其中，所述预设覆盖范围可以为区域内部分医院，但以区域内所有医院为佳，所述预设时间段也可根据需要调节，但以一个月及以上为佳。数据来源覆盖越广，采集时间越长，越能减少特异性(医院间的差异以及时间波动性带来的差异)对本编码方法及系统的影响。

例如，从采集的电子病历数据中提取出疾病名称“(病毒性)上呼吸道感染”、“急性-十二指肠溃疡”等。

其中，所述对采集到的疾病名称数据进行清洗、去噪具体指去除疾病名称数据中无意义的符号、乱码或文字，具体的，所述对采集到的疾病名称数据进行清洗、去噪，得到清洗后的疾病名称数据包括以下步骤：

S21、将采集到的疾病名称数据按由高至低的出现次数进行聚类，并从高频疾病名称数据开始依次分析噪声类型(无意义符号、乱码、文字)；

本实施例中，数据清洗后能初步改善不规范疾病名称的聚类效果(如下表所示)。

原始疾病名称	清洗后的疾病名称
		病毒性上呼吸道感染	病毒性上呼吸道感染
(病毒性)上呼吸道感染	病毒性上呼吸道感染
		病毒性上呼吸道感染？	病毒性上呼吸道感染
病毒性-上呼吸道感染	病毒性上呼吸道感染
		”病毒性上呼吸道感染“	病毒性上呼吸道感染
病毒性上呼吸道感染\n	病毒性上呼吸道感染

疾病名称与疾病编码映射方案的好坏主要通过召回率(映射得多)和准确率(映射得准)两个指标来评判。通过对采集到的区域医疗数据进行分析，发现疾病名称数据差异性较大，现有的单纯利用算法模型自动映射的方案准确率并不理想。此外，疾病名称数据的集中度很高，大约不到18％的疾病名称就占据了超过80％的电子病历数，原因一是常见疾病呈现集中分布状态，二是部分的医院信息系统对疾病名称数据进行了一定程度的规范化管理。因此针对不到18％的高频疾病名称数据通过人工建立的映射字典完成映射后即可准确解决超过80％的问题。(通过人工映射字典映射的准确率在本方法和系统中视为100％)。

其中，所述依据清洗后的高频疾病名称数据与国际疾病分类编码之间的关系建立映射关系字典，得到国际疾病分类映射字典包括以下步骤：

具体的，所述高频疾病名称定义为出现次数排名高于预设阈值的疾病名称，其中，所述预设阈值的设定方式如下：清洗后的疾病名称数据按出现次数从高至低排序，当出现次数大于该阈值的所有疾病名称对应的出现次数之和占总次数的百分比达到80％时，该阈值即为预设阈值。

该步骤建立的高频疾病名称与国际疾病分类编码的映射关系称为国际疾病分类映射字典，该字典由人工进行分类、编码及核对，人工分类、编码、核对方法采用目前医院已经过实践验证的成熟机制，其编码准确率和可信度非常高，在本方法及系统中视为绝对准确、可信。

其中，所述建立清洗后的疾病名称数据与国际疾病分类编码之间的共性映射模型包括以下步骤：

该步骤中聚类的目的是便于后续步骤分析被人工编译为同一疾病编码的不同疾病名称的共性特征。

其中，所述共性映射模型可以通过统计分析、近似度算法或机器学习等方法建立、优化。虽然该模型建立的目的是在国际疾病分类映射字典的基础上增加整体召回率，但该模型需优先保障高准确率以尽可能降低错误映射带来的影响，且即使刚开始召回率增加幅度不大，也可通过后续迭代优化步骤进一步得到提升，使准确率及召回率同时得到满足。

具体的，所述通过分析映射结果不一致的数据来迭代优化共性映射模型包括以下步骤：对于国际疾病分类映射字典及共性映射模型均映射成功，但映射结果不一致的数据，将国际疾病分类映射字典作为正确结果，并以该正确结果为基础进行分析，优化共性映射模型；对于仅共性映射模型映射成功的数据，进行随机抽样，抽取预设样本数量的数据进行人工核查，并将错误结果与人工分类的正确结果进行对比分析，以此优化共性映射模型；多次迭代优化共性映射模型，直至共性映射模型映射结果的准确率达到预设阈值为止。

本实施例中的方法还可选择BERT模型(BERT模型结构如图4所示)作为获取疾病编码向量的训练方法，结合Bi-LSTM+Attention模型的训练，实现疾病名称的提取与自动分类。BERT模型中的Transformer层采用双向编码器表示，通过一个额外的输出层微调fine-tuning，联合调节所有层中的上下文来预先训练深度双向表示。BERT模型为了增加对上下文的记忆，使用遮蔽语言模型来实现预训练的深度双向表示，在训练双向语言模型时以较小的概率把少量的词替成了Mask或者另一个随机的词。

在BERT模型进行词向量训练的基础上，结合Bi-LSTM+Attention模型进行疾病名称的提取与分类。Bi-LSTM与Attention融合模型是在Bi-LSTM模型基础上添加了Attention层。Bi-LSTM模型是以最后一个时序的输出向量作为特征向量，选择Softmax函数进行分类；Attention模型是先计算每个时序的权重，然后将所有时序的输出向量进行加权，并将结果作为特征向量，再选择Softmax函数进行分类。本方法及系统可以将BERT模型获得的短文本向量作为Bi-LSTM与Attention融合模型的输入，构建完整的BERT-BiL-Att融合模型机制进行训练与预测，最终完成共性映射模型的建立。

该步骤建立的共性映射模型的可信度和准确率低于前述步骤建立的国际疾病分类映射字典。

其中，所述对应的疾病编码映射结果包括：

对于两者皆未映射成功的数据，则本次无输出。

所述成功映射数据集包括通过国际疾病分类映射字典成功映射的数据以及通过共性映射模型成功映射的数据；所述未成功映射数据集为国际疾病分类映射字典以及共性映射模型都未成功映射的数据。

其中，所述S6中对成功映射数据集和未成功映射数据集进行针对性监管包括以下步骤：

具体的，所述当准确率低于预设阈值时，通过对比分析进一步优化共性映射模型具体包括：针对国际疾病分类映射字典及共性映射模型都映射成功，但映射结果不一致的数据进行随机抽样，以视国际疾病分类映射字典为绝对正确的结果为基础对样本数据进行分析，优化共性映射模型；对于仅共性映射模型映射成功的数据，进行随机抽样，对样本进行人工核查，将错误结果与人工分类的正确结果进行对比分析，优化共性映射模型；多次迭代优化共性映射模型，直至共性映射模型映射结果的准确率达到预设阈值为止。

具体的，所述通过对未成功映射数据集的处理来进一步优化国际疾病分类映射字典包括以下步骤：将未成功映射数据集中的数据按出现次数由高至低排序；通过人工分类的方式，建立高频疾病名称与国际疾病分类编码之间的映射关系；将新增的映射关系纳入国际疾病分类映射字典中，进一步提高本方法及系统的召回率及准确率。

根据本发明的另一个实施例，提供了一种基于区域医疗大数据的疾病编码系统，该系统包括数据采集模块、数据清洗模块、映射字典建立模块、共性映射模型建立模块、疾病编码模块及映射结果监测模块；

为了更好地理解本发明的上述技术方案，本实施例中还包括以下案例：

如图3所示，利用该方法及系统对采集到的重庆市电子病历数据中42.1万疾病名称数据进行编码，最终成功输出疾病编码结果36.6万，召回率达到86.9％，其中仅共性映射模型映射成功的数据(以模型映射结果为输出的数据)准确率达到99.6％(498/500)。未成功映射疾病名称5.47万，通过字典管理模块新增的高频映射关系可覆盖其中1.2万数据量。其中成功映射效果示例如下表所示：

综上所述，借助于本发明的上述技术方案，本发明通过数据采集、数据清洗、建立国际疾病分类映射字典及共性映射模型，并对映射结果进行监管等步骤，结合算法模型和人工分类的双重优势，并在迭代运行过程中，不断提高编码的准确率和召回率，最终有效地提高了自动化疾病编码的效率、准确率及召回率。此外，通过将复杂多变的疾病名称进行规范、标准的分类编码，进而可以更有利于对电子病历数据以及与之关联的医学影像数据、检查检验等医疗大数据进行标准化的处理，并最终在质控、科研及人工智能领域得以应用。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于区域医疗大数据的疾病编码方法，其特征在于，该方法包括以下步骤：

所述未成功映射数据集为国际疾病分类映射字典以及共性映射模型都未成功映射的数据；

所述依据清洗后的高频疾病名称数据与国际疾病分类编码之间的关系建立映射关系字典，得到国际疾病分类映射字典，包括：

将清洗后的疾病名称数据按出现次数由高至低进行排序；

通过人工分类的方式，依据清洗后的高频疾病名称数据与国际疾病分类编码之间的关系建立映射关系字典，得到国际疾病分类映射字典；

所述建立清洗后的疾病名称数据与国际疾病分类编码之间的共性映射模型，包括：

将所述国际疾病分类映射字典按疾病编码进行聚类，并将同一疾病编码对应的多个疾病名称按照由高至低的出现次数进行排序；

分析同一疾病编码对应的不同疾病名称的共性特征，并初步建立共性特征与疾病编码的映射关系模型；

分别通过国际疾病分类映射字典和共性映射模型对所有清洗后的疾病名称数据进行映射，并对比两者映射结果；

通过分析映射结果不一致的数据来迭代优化共性映射模型；

所述对成功映射数据集和未成功映射数据集进行针对性监管，包括：

2.根据权利要求1所述的一种基于区域医疗大数据的疾病编码方法，其特征在于，所述对采集到的疾病名称数据进行清洗、去噪，得到清洗后的疾病名称数据包括以下步骤：

3.根据权利要求1所述的一种基于区域医疗大数据的疾病编码方法，其特征在于，所述高频疾病名称定义为出现次数排名高于预设阈值的疾病名称，其中，所述预设阈值的设定方式如下：

4.根据权利要求1所述的一种基于区域医疗大数据的疾病编码方法，其特征在于，所述通过分析映射结果不一致的数据来迭代优化共性映射模型包括以下步骤：

5.根据权利要求1所述的一种基于区域医疗大数据的疾病编码方法，其特征在于，所述S5中对应的疾病编码映射结果包括：

对于两者皆未映射成功的数据，则本次无输出。

6.根据权利要求1所述的一种基于区域医疗大数据的疾病编码方法，其特征在于，所述通过对未成功映射数据集的处理来进一步优化国际疾病分类映射字典包括以下步骤：

将未成功映射数据集中的数据按出现次数由高至低排序；

7.一种基于区域医疗大数据的疾病编码系统，用于实现权利要求1-6中任意所述的一种基于区域医疗大数据的疾病编码方法的步骤，其特征在于，该系统包括数据采集模块、数据清洗模块、映射字典建立模块、共性映射模型建立模块、疾病编码模块及映射结果监测模块：

所述映射结果监测模块用于将所有疾病编码映射结果分为成功映射数据集和未成功映射数据集，并对成功映射数据集和未成功映射数据集进行针对性监管；

所述基于区域医疗大数据的疾病编码系统，还用于：将清洗后的疾病名称数据按出现次数由高至低进行排序；通过人工分类的方式，依据清洗后的高频疾病名称数据与国际疾病分类编码之间的关系建立映射关系字典，得到国际疾病分类映射字典；将所述国际疾病分类映射字典按疾病编码进行聚类，并将同一疾病编码对应的多个疾病名称按照由高至低的出现次数进行排序；分析同一疾病编码对应的不同疾病名称的共性特征，并初步建立共性特征与疾病编码的映射关系模型；分别通过国际疾病分类映射字典和共性映射模型对所有清洗后的疾病名称数据进行映射，并对比两者映射结果；通过分析映射结果不一致的数据来迭代优化共性映射模型；对所述成功映射数据集中通过共性映射模型成功映射的数据进行随机抽样，并采用人工核对的方式来计算样本数据的准确率，若准确率高于或等于预设阈值则无需后续处理，若准确率低于预设阈值则通过对比分析进一步优化共性映射模型；计算未成功映射数据占总数据的比率，若占比低于预设阈值则无需后续处理，若占比高于或等于预设阈值则通过对未成功映射数据集的处理来进一步优化国际疾病分类映射字典。