CN114023412A - 基于联合学习和去噪机制的icd代码预测方法及系统 - Google Patents
基于联合学习和去噪机制的icd代码预测方法及系统 Download PDFInfo
- Publication number
- CN114023412A CN114023412A CN202111396853.8A CN202111396853A CN114023412A CN 114023412 A CN114023412 A CN 114023412A CN 202111396853 A CN202111396853 A CN 202111396853A CN 114023412 A CN114023412 A CN 114023412A
- Authority
- CN
- China
- Prior art keywords
- electronic medical
- medical record
- icd code
- icd
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Epidemiology (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于联合学习和去噪机制的ICD代码预测方法及系统,涉及自然语言处理技术领域,使用clinicalBERT预训练,设计了基于提示的微调方法,提升冗长句子的表征效果,加快预训练的速度;使用双路注意力机制处理电子病历和医疗代码的文档,同时兼顾两部分数据,有效处理不平衡分类问题;将不同的注意力矩阵馈送到联合学习模块,引入两个权重系数,来自适应的确定这两个系数,通过这两个系数构建特定于ICD的注意力矩阵;设计了新型的去噪损失函数,引入损失阈值,计算样本损失,并进行排序,从超过阈值的样本开始截断,丢弃迭代过程中超过动态阈值的样本,最终识别和清洗嘈杂的样本,提高分类器的训练质量。
Description
技术领域
本发明涉及自然语言处理的技术领域,尤其是涉及一种基于联合学习和去噪机制的ICD代码预测方法及系统。
背景技术
ICD(International Classification Of Diseases,国际疾病分类)是世界卫生组织制定的国际统一的疾病分类方法,它根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法来表示的系统,是医院及各种医疗系统中使用的一种常用编码方法。许多预定义的ICD代码,可以分配给患者的档案,如电子健康记录(EHR)。这些代码代表患者就诊期间的诊断,用药和程序信息。
传统上,临床诊断编码是由训练有素的编码人员进行的。ICD编码人员将疾病、病理原因、症状和体征转换为标准的ICD编码,这样有助于各种医疗相关服务,包括保险报销、统计数据分析和临床决策支持。然而,由于临床记录的数量不断增长,手动ICD编码已经变得费时费力,并且容易出错。
随着机器学习理论和方法的逐步成熟,研究人员开始使用深度学习中的神经网络模型来进行ICD码的自动分配。然而,自动ICD分配任务仍然具有挑战性,主要体现在以下三个方面:
(1)、不平衡分类问题,即大多数疾病的案例样本稀少,少部分疾病的案例样本丰富。
(2)、临床文档包含嘈杂的信息,包括拼写错误和不连贯的信息,影响文本的表示,这种现象称为噪声问题。
(3)、电子病历多为冗长的文档,很难从中提取关键信息进行分类编码。
上述三个方面的问题都会导致自动分配的ICD代码与电子病历不能准确匹配。
发明内容
有鉴于此,本发明提供了一种基于联合学习和去噪机制的ICD代码预测方法及系统,以准确预测电子病历的ICD代码。
为了解决上述技术问题,本发明提供了以下技术方案:
一方面,本发明提供了一种基于联合学习和去噪机制的ICD代码预测方法,包括:
获取电子病历数据集和ICD代码描述文件,并对所述电子病历数据集和ICD代码描述文件进行预处理;
建立基于深度学习网络的ICD代码预测模型,并利用预处理后的所述电子病历数据集和所述ICD代码描述文件对所述ICD代码预测模型进行训练;所述ICD代码预测模型以电子病历和ICD代码描述文件作为输入,使用基于双路注意力机制循环神经网络捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性,得到标签注意力矩阵和交叉注意力矩阵;将标签注意力矩阵和交叉注意力矩阵馈送到联合学习模型中,得到标签注意力矩阵的权重和交叉注意力矩阵的权重;基于标签注意力矩阵的权重和交叉注意力矩阵的权重对所述标签注意力矩阵和所述交叉注意力矩阵进行重构,得到ICD代码的注意力矩阵;对所述ICD代码的注意力矩阵进行去噪,再将去噪之后的结果输入到全连接神经网络中,最终输出电子病历的ICD代码;
获取待预测电子病历,将所述待预测电子病历输入训练好的所述ICD代码预测模型中,得到与所述待预测电子病例匹配的ICD代码。
进一步地,所述对所述电子病历数据集和ICD代码描述文件进行预处理,包括:
将获取的电子病历数据集划分为训练集、验证集和测试集,测试集中的数据不存在于训练集和验证集;将ICD代码描述按照类别分为19类;
将电子病历和ICD代码描述文件的原始语料转化为深度学习网络能够接受的输入,删除电子病历中的停用词,构建电子病历和ICD代码描述的词库文件。
进一步地,在使用基于双路注意力机制循环神经网络捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性之前,还包括:
将预处理之后的电子病历输入到clinical BERT预训练模型,插入分隔符,学习连续的提示,构造基于提示的微调方法,以提取整个电子病历文本的特征,输出电子病历词向量文件,固定模型初始参数;采用词嵌入方式处理预处理之后的ICD代码描述文件,输出ICD代码词向量文件。
进一步地,得到电子病历词向量文件和ICD代码词向量文件之后,在使用基于双路注意力机制循环神经网络捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性之前,还包括:
将所述电子病历词向量文件和所述ICD代码词向量文件输入残差神经网络中提取特征;
将提取出的特征输入图长短期记忆网络,学习电子病历的上下文信息,输出特征向量。
进一步地,对所述ICD代码的注意力矩阵进行去噪,包括:设置截断损失函数,将训练样本的损失进行排序,确定损失高于阈值的样本,将该部分样本归类为噪声,并在损失函数的指导下完成动态丢弃,实现模型的去噪。
进一步地,所述截断损失函数如下:
又一方面,本发明还提供了一种基于联合学习和去噪机制的ICD代码预测系统,包括:
数据预处理模块,用于获取电子病历数据集和ICD代码描述文件,并对所述电子病历数据集和ICD代码描述文件进行预处理;
模型建立及训练模块,用于建立基于深度学习网络的ICD代码预测模型,用于利用预处理后的所述电子病历数据集和ICD代码描述文件对所述ICD代码预测模型进行训练;
模型预测模块,用于利用训练好的所述ICD代码预测模型进行待预测电子病历的ICD代码预测,得到与待预测电子病例匹配的ICD代码;
其中,所述模型建立及训练模块具体包括:
双路注意力机制子模块,用于使用基于双路注意力机制循环神经网络捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性,得到标签注意力矩阵和交叉注意力矩阵;
联合学习子模块,用于将所述双路注意力机制子模块得到的标签注意力矩阵和交叉注意力矩阵馈送到联合学习模型中,得到标签注意力矩阵的权重和交叉注意力矩阵的权重;基于标签注意力矩阵的权重和交叉注意力矩阵的权重对所述标签注意力矩阵和交叉注意力矩阵进行重构,得到ICD代码的注意力矩阵;
去噪子模块,用于对所述联合学习子模块得到的ICD代码的注意力矩阵进行去噪;
预测子模块,用于将所述去噪子模块去噪之后的结果输入到全连接神经网络中,最终输出电子病历的ICD代码。
进一步地,数据预处理模块,包括:
数据集划分子模块,用于将获取的电子病历数据集划分为训练集、验证集和测试集,测试集中的数据不存在于训练集和验证集;将ICD代码描述按照类别分为19类;
数据处理子模块,用于将电子病历和ICD代码描述文件的原始语料转化为深度学习网络能够接受的输入,删除电子病历中的停用词,构建模型特定于数据集的词库文件。
进一步地,模型建立及训练模块还包括:
预训练子模块,用于将预处理之后的电子病历输入到clinical BERT预训练模型,插入分隔符,学习连续的提示,构造基于提示的微调方法,以提取整个电子病历文本的特征,输出电子病历词向量文件,固定模型初始参数;采用词嵌入方式处理预处理之后的ICD代码描述文件,输出ICD代码词向量文件;
数据集成子模块,用于将所述电子病历词向量文件和所述ICD代码词向量文件输入残差神经网络中提取特征;再将模块提取出的特征输入图长短期记忆网络,学习电子病历的上下文信息,输出特征向量。
又一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如上述基于联合学习和去噪机制的ICD代码预测方法。
本发明提供的一种基于联合学习和去噪机制的ICD代码预测方法及系统,首先将获取的电子病历数据集划分为训练集,验证集和测试集,分别包括47724,1632,3372位患者病例,并且同一患者的电子病历只存在于训练集,验证集或测试集中;设计基于提示的微调方法和神经网络,加速预训练,得到数据的特征向量;然后,使用联合学习机制,构建基于双路注意力和循环神经网络的训练模型,不同于一般的双路注意力,联合学习可以通过训练权重系数来自适应地提取矩阵的信息;设计去噪模型,设计特定的损失函数,去除训练集中的噪声信息,最后将去噪后的样本输入分类模型进行训练,最后利用训练好的医疗代码预测模型对测试集中的3372位病患案例进行分类预测,得到预测结果。
与现有技术相比,本发明的有益效果是:
1)本发明使用双路注意力模型即:标签注意力(label-attention)和交叉注意力(cross-attention)同时对电子病例和ICD代码描述文件进行处理,在冗余文本信息中确定关键信息,并分配较大的权重。不同于一般的双路注意力机制,本发明设计了联合学习机制对不同注意力矩阵进行自适应融合,通过训练两个权重因子,来动态构建权重矩阵,这种方法不但可以快速从冗长病例信息中搜寻关键信息,还可以同时兼顾电子病例和ICD码两部分数据的特征,有效处理了不平衡分类问题,大幅提升模型预测性能。
2)本发明设计去噪机制去除模型中的噪声来辅助训练,处理由于拼写错误或者医生书写风格不同等出现的编码错误,识别并修剪噪声较大的样本,从而更好的辅助分类器的分类任务。通过截断损失函数,可以约束噪声模型中的噪声样本,并驱动分类器从干净的训练样本中学习,解决了噪声对于ICD代码预测的干扰,增强了对医学关系的学习能力。
3)本发明设计提示(prompt)微调方法来初始化模型参数;集成残差神经网络和图长短期记忆网络来扩大模型处理信息的视野,处理深层网络退化问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于联合学习和去噪机制的ICD代码预测方法的流程示意图;
图2为本发明实施例中联合学习的原理图;
图3为本发明实施例中去噪机制的原理图;
图4为本发明实施例中基于联合学习和去噪机制的ICD代码预测方法的原理示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明提供了一种基于联合学习和去噪机制的ICD代码预测方法及系统,其总体构思如下:
1)对电子病历数据集和ICD代码描述文件进行预处理,设计基于微调的提示方法加速预训练,然后将获取的向量文件输入残差神经网络中提取特征,将初始输入向量和经过深层神经网络的两部分向量进行拼接,输入Graph-BILSTM神经网络模型进行双向编码。
2)使用双路注意力机制捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性,再通过一层全连接层提取关键特征,得到注意力矩阵。
3)联合学习自适应融合ICD代码和电子病历信息,构建特定于ICD代码的注意力矩阵,并将拼接后的结果输出。
4)输入辅助的去噪模型,清洗ICD代码分配中的噪声信息。
5)通过去噪模型去除训练样本中的噪声后,再次将结果输入到全连接神经网络中,进行电子病历的ICD代码预测。
实施例一
如图1所示,本实施例提供了一种基于联合学习和去噪机制的ICD代码预测方法,该方法包括:
S1:对获取的电子病历数据集和ICD代码描述文件进行预处理:
将获取的电子病历数据集划分为训练集,验证集和测试集。将ICD代码按照类别分为19大类。
设计电子病历和ICD代码描述文件的预处理程序,将原始语料转化为深度学习网络模型能够接受的输入,删除电子病历中的停用词,构建模型特定于数据集的词库文件。
在具体的实施过程中,使用了表1所示的MIMIC数据集,MIMIC是麻省理工学院计算生理学实验室发布的重症监护数据集,包含近6万条ICU住院记录。
表1
S2:将S1预处理后的语料集输入到clinicalBERT预训练模型,插入分隔符,学习连续的提示,构造基于提示的微调方法,加速预训练,来提取整个电子病历文本的特征,输出电子病历的词向量文件,固定模型参数。
BERT模型是近年来自然语言处理(NLP)领域的热门研究领域之一。BERT模型的训练主要分为两个阶段,在预训练(pre-trained)阶段,基于海量数据优化模型参数,学习到通用的语言表示,而在微调(fine-tuned)阶段,基于具体的下游任务重新微调模型参数,从而提高具体NLP任务的精确率。由于利用通用语料进行预训练的特点,BERT模型在专业语料上向量表示的效果一般,所以本发明实施例中采用了基于ClinicalBERT的向量表示。ClinicalBERT起源于BERT,是通过在PubMed等医疗相关语料库上进行预训练之后学习到的深度表示。
同时,采用词嵌入方式处理S1生成的ICD代码特征,形成ICD代码的词向量文件。
S3:将S2中获取的电子病历词向量文件和ICD代码词向量文件输入残差神经网络中提取特征,将初始输入向量和经过深层神经网络的两部分向量进行拼接,解决深层神经网络中的退化问题。
残差神经网络可以使模型更快地收敛,并有助于对前馈神经网络进行更深入的设计。本发明将单词嵌入矩阵输入残差块,因此,残差块可以形式化为:
Yi=F(Ei,{Wi})+h(Ei)
Ei+1=ReLU(Yi)
其中E、Y表示该层的输入和输出,F(Ei,{Wi})表示残差映射。残差块由两部分组成,第一部分是通过卷积网络和激活函数,第二部分使用快捷连接将该层的输入添加到第一部分的输出上。最后,通过激活函数将添加的结果反馈到输出层,以完成残差块的处理。
S4:将S3处理后的数据输入Graph-BiLSTM神经网络模型提取特征:
输入向量经过一层dropout层后,输入到Graph-BILSTM神经网络,学习电子病历的上下文信息,从而从两个方向理解电子病历文本的单个语句。
此外,Graph-BiLSTM可以保持长相关信息,克服梯度消失问题。因此,它适合捕获长期依赖特性。在时间步d,可借助输入和(d-1)_th步输出更新隐藏状态,本发明计算向量如下:
隐藏状态的维数设置为k,Graph-BiLSTM向量hd的大小为2k。因此,整个文档可以表示为矩阵H=[h1,h2,...,hn]∈R2k×n。
S5、使用双路注意力机制关注电子病历和ICD代码描述文件中不同的重要信息。
具体来说,双路注意力中的标签注意力重点关注与疾病相关的ICD代码信息;另一方面,双路注意力中的交叉注意力机制重点关注电子病历,挖掘病例中可以为患者划分疾病的关键信息。经过双路注意力后,可以捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性,再通过一层全连接层提取关键特征,得到注意力矩阵。直观地说,双路注意力可以同时考虑电子病历和ICD代码,并扩展模型的接受域。
接下来详细介绍双路注意机制的两个组成部分。
如上所述,电子病历可以由多个ICD代码标记,并且每个电子病历应该与其对应的ICD代码具有最相关的上下文。换句话说,每个记录可能包含多个组件,这些组件对每个ICD代码的贡献不同。
为了捕获每个电子病历文本的不同组成部分,本发明采用了一种交叉注意力机制,该机制已成功用于各种文本挖掘任务。电子病历文本的注意力评分(TS∈Rl×n)可通过以下公式计算:
TS=softmax(W1tanh(W2H))
其中,W1∈Rd×2k和W2∈Rl×d)是需要训练的自注意参数;d是可以设置的超参数。每一行(n-dim行向量,其中n是总字数)表示临床记录对jth标签的贡献。本发明可以得到上下文的线性组合。最后,ICD代码M(s)∈Rl×2k的电子病历文本表示计算如下:
为了利用ICD代码的语义信息,本发明对ICD代码的描述进行了预处理,并将其表示为可训练矩阵C∈Rl×k在与电子病历文本相同的k-dim空间中。
一旦有了Graph-BILSTM中的单词嵌入和C中的代码嵌入,就可以确定每个单词和代码之间的语义关系。首先计算hd和Cj之间的点积,如下所示:
B(l)=CH
其中B(l)∈Rl×n表示单词和代码之间的正向和反向关系。与之前的交叉注意机制一样,可以通过线性组合代码的上下文词来构建ICD代码表示,如下所示。
M(l)=B(l)HT
最后,电子病历文本可以通过M(l)∈Rl×2k.与ICD代码一起重新表示。
S6:联合学习自适应融合ICD代码和电子病历信息:
通过全连接层提取关键特征后,可以得到标签注意力矩阵和交叉注意力矩阵,将这两部分信息馈送到联合学习模型中,通过引入两个权重系数,模型可以自适应的确定这两个系数的具体取值,从而分别提取这两个矩阵的信息,构建特定于ICD代码的注意力矩阵,并将拼接后的结果输出。
具体来说,S2-S6是在搭建ICD代码预测模型的框架,主要包括神经网络、双路注意力模块和联合学习模块,联合学习的原理如图2所示。
S7:对电子病历ICD代码预测中的噪声信息进行处理:
将联合学习后的结果输入辅助的去噪模型,对存在的噪声进行去除。
具体来说,本发明设计了一种新型的去噪损失函数,并引入损失阈值,在模型训练过程中,丢弃了每个迭代过程中超过动态阈值的损失样本,最终识别和清洗嘈杂的样本,提高分类器后续的训练质量。截断损失函数如下:
具体来说,S7是利用训练集、去噪损失函数对搭建的模型去除噪声。进一步的,S7处理后的训练样本,会馈送到分类器进行ICD代码预测,去噪机制的原例如图3所示。
S8:ICD代码预测:
通过去噪模型去除训练样本中的噪声后,再次将结果输入到全连接神经网络中,对每个电子病历中进行ICD代码预测,最终得到与电子病例匹配的ICD代码。
本发明实施例与目前七种高性能的预测模型(CNN、BiGRU、LEAM、CAML、DR-CAML、MSATT-KG、MultiResCNN)进行了多轮实验比较,分类结果如表2所示。从表2可以看出,本发明方法在准确率、AUC、F1值等指标上的效果更好,且更稳定(标准差更小)。其中,准确率(precision)、召回率(recall)、F1、AUC值的计算公式如下:
其中,为了更全面的反应本发明的实际表现,本发明将AUC和F1值分别划分成宏观(Macro-)和微观(Micro-)。微观计算指标在公式中考虑到了每个类别的数量,所以适用于数据分布不平衡的情况,因为本次实验要将电子病历划分到8921类ICD代码中,因此微观指标更加反应出本发明在不平衡分类问题上的优异表现。
为证明本发明的有效性,通过在测试集上进行本发明方法与其他基准模型的测试,可以看出本发明提出的模型具有优异的ICD代码预测结果。表2展示了本发明的模型和基线模型的预测结果对比。
表2
具体来说,S1-S6搭建了电子病历ICD代码预测模型的框架,主要包括数据处理、联合学习、去噪机制和ICD代码预测。如图4所示,其示出了本发明实施例中构建的总体模型框架示意图。
实施例二
基于同样的发明构思,本实施例提供了一种基于联合学习和去噪机制的IDC代码预测系统,该系统包括:
数据预处理模块,用于获取电子病历数据集和ICD代码描述文件,并对电子病历数据集和ICD代码描述文件进行预处理;
模型建立及训练模块,用于建立基于深度学习网络的ICD代码预测模型,用于利用预处理后的电子病历数据集和ICD代码描述文件对ICD代码预测模型进行训练;
模型预测模块,用于利用训练好的ICD代码预测模型进行待预测电子病历的ICD代码预测,得到与待预测电子病例匹配的ICD代码。
其中,数据预处理模块,包括:
数据集划分子模块,用于将获取的电子病历数据集划分为训练集、验证集和测试集,测试集中的数据不存在于训练集和验证集;将ICD代码描述按照类别分为19类;
数据处理子模块,用于将电子病历和ICD代码描述文件的原始语料转化为深度学习网络能够接受的输入,删除电子病历中的停用词,构建模型特定于数据集的词库文件。
具体地,训练集,验证集,测试集分别包括47724,1632,3372位患者的电子病例,并且测试集中的数据对于模型是完全陌生的,不存在于训练集和验证集。
其中电子病历中包括患者的特征信息、诊断信息、实验室检测信息、医学影像信息、生命体征等。
其中,模型建立及训练模块具体包括:
预训练子模块,用于将预处理之后的电子病历输入到clinical BERT预训练模型,插入分隔符,学习连续的提示,构造基于提示的微调方法,以提取整个电子病历文本的特征,输出电子病历词向量文件,固定模型初始参数;采用词嵌入方式处理预处理之后的ICD代码描述文件,输出ICD代码词向量文件;
数据集成子模块,用于将电子病历词向量文件和ICD代码词向量文件输入残差神经网络中提取特征;再将模块提取出的特征输入图长短期记忆网络,学习电子病历的上下文信息,输出特征向量;
双路注意力机制子模块,用于使用基于双路注意力机制循环神经网络捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性,得到标签注意力矩阵和交叉注意力矩阵;其中,双路注意力机制循环神经网络中包括标签注意力模块和交叉注意力模块,标签注意力模块用于计算不同ICD代码的权重,并生成特定于ICD代码描述的标签注意力矩阵,交叉注意力模块用于从冗长的电子病历中确定疾病症状的关键信息,计算标签注意力矩阵和电子病历的特征信息的相似性,生成基于电子病历的交叉注意力矩阵。
联合学习子模块,用于将双路注意力机制子模块得到的标签注意力矩阵和交叉注意力矩阵馈送到联合学习模型中,得到标签注意力矩阵的权重和交叉注意力矩阵的权重;基于标签注意力矩阵的权重和交叉注意力矩阵的权重对标签注意力矩阵和交叉注意力矩阵进行重构,得到ICD代码的注意力矩阵。
不同于一般的双路注意力机制,本发明并没有将注意力矩阵进行简单的拼接,而是将这两部分信息馈送到联合学习机制中,通过引入两个权重系数,来自适应的确定这两个系数的具体取值。具体来说,这两个系数并非人为规定,而是通过联合学习模块进行训练,从而通过系数分别提取这两个矩阵的信息,构建特定于ICD代码的注意力矩阵,并将重构后的矩阵输出。
去噪子模块,用于设置截断损失函数,将训练样本的损失进行排序,确定损失高于阈值的样本,将该部分样本归类为噪声,并在损失函数的指导下完成动态丢弃,实现模型的去噪。
预测子模块,用于将去噪子模块去噪之后的结果输入到全连接神经网络中,最终输出电子病历的ICD代码。对ICD代码预测模型进行迭代训练,得到干净的训练样本后,模型进行多轮训练,得到训练好的ICD代码预测模型。
对于本发明实施例的基于联合学习和去噪机制的ICD代码预测系统而言,由于其与上面实施例中的基于联合学习和去噪机制的ICD代码预测方法相对应,所以描述的比较简单,相关相似之处请参见上面实施例中基于联合学习和去噪机制的ICD代码预测方法部分的说明即可,此处不再详述。
本发明实施例还公开了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如上文任一实施例所提供的基于联合学习和去噪机制的ICD代码预测方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于联合学习和去噪机制的ICD代码预测方法,其特征在于,包括:
获取电子病历数据集和ICD代码描述文件,并对所述电子病历数据集和ICD代码描述文件进行预处理;
建立基于深度学习网络的ICD代码预测模型,并利用预处理后的所述电子病历数据集和所述ICD代码描述文件对所述ICD代码预测模型进行训练;所述ICD代码预测模型以电子病历和ICD代码描述文件作为输入,使用基于双路注意力机制循环神经网络捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性,得到标签注意力矩阵和交叉注意力矩阵;将标签注意力矩阵和交叉注意力矩阵馈送到联合学习模型中,得到标签注意力矩阵的权重和交叉注意力矩阵的权重;基于标签注意力矩阵的权重和交叉注意力矩阵的权重对所述标签注意力矩阵和所述交叉注意力矩阵进行重构,得到ICD代码的注意力矩阵;对所述ICD代码的注意力矩阵进行去噪,再将去噪之后的结果输入到全连接神经网络中,最终输出电子病历的ICD代码;
获取待预测电子病历,将所述待预测电子病历输入训练好的所述ICD代码预测模型中,得到与所述待预测电子病例匹配的ICD代码。
2.根据权利要求1所述的一种基于联合学习和去噪机制的ICD代码预测方法,其特征在于,所述对所述电子病历数据集和ICD代码描述文件进行预处理,包括:
将获取的电子病历数据集划分为训练集、验证集和测试集,测试集中的数据不存在于训练集和验证集;将ICD代码描述按照类别分为19类;
将电子病历和ICD代码描述文件的原始语料转化为深度学习网络能够接受的输入,删除电子病历中的停用词,构建电子病历和ICD代码描述的词库文件。
3.根据权利要求2所述的一种基于联合学习和去噪机制的ICD代码预测方法,其特征在于,在使用基于双路注意力机制循环神经网络捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性之前,还包括:
将预处理之后的电子病历输入到clinical BERT预训练模型,插入分隔符,学习连续的提示,构造基于提示的微调方法,以提取整个电子病历文本的特征,输出电子病历词向量文件,固定模型初始参数;采用词嵌入方式处理预处理之后的ICD代码描述文件,输出ICD代码词向量文件。
4.根据权利要求3所述的一种基于联合学习和去噪机制的ICD代码预测方法,其特征在于,得到电子病历词向量文件和ICD代码词向量文件之后,在使用基于双路注意力机制循环神经网络捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性之前,还包括:
将所述电子病历词向量文件和所述ICD代码词向量文件输入残差神经网络中提取特征;
将提取出的特征输入图长短期记忆网络,学习电子病历的上下文信息,输出特征向量。
5.根据权利要求1所述的一种基于联合学习和去噪机制的ICD代码预测方法,其特征在于,对所述ICD代码的注意力矩阵进行去噪,包括:设置截断损失函数,将训练样本的损失进行排序,确定损失高于阈值的样本,将该部分样本归类为噪声,并在损失函数的指导下完成动态丢弃,实现模型的去噪。
7.一种基于联合学习和去噪机制的ICD代码预测系统,其特征在于,包括:
数据预处理模块,用于获取电子病历数据集和ICD代码描述文件,并对所述电子病历数据集和ICD代码描述文件进行预处理;
模型建立及训练模块,用于建立基于深度学习网络的ICD代码预测模型,用于利用预处理后的所述电子病历数据集和ICD代码描述文件对所述ICD代码预测模型进行训练;
模型预测模块,用于利用训练好的所述ICD代码预测模型进行待预测电子病历的ICD代码预测,得到与待预测电子病例匹配的ICD代码;
其中,所述模型建立及训练模块具体包括:
双路注意力机制子模块,用于使用基于双路注意力机制循环神经网络捕捉ICD代码描述文件和电子病历文本中的数据和特征的内部相关性,得到标签注意力矩阵和交叉注意力矩阵;
联合学习子模块,用于将所述双路注意力机制子模块得到的标签注意力矩阵和交叉注意力矩阵馈送到联合学习模型中,得到标签注意力矩阵的权重和交叉注意力矩阵的权重;基于标签注意力矩阵的权重和交叉注意力矩阵的权重对所述标签注意力矩阵和交叉注意力矩阵进行重构,得到ICD代码的注意力矩阵;
去噪子模块,用于对所述联合学习子模块得到的ICD代码的注意力矩阵进行去噪;
预测子模块,用于将所述去噪子模块去噪之后的结果输入到全连接神经网络中,最终输出电子病历的ICD代码。
8.根据权利要求7所述的一种基于联合学习和去噪机制的ICD代码预测系统,其特征在于,数据预处理模块,包括:
数据集划分子模块,用于将获取的电子病历数据集划分为训练集、验证集和测试集,测试集中的数据不存在于训练集和验证集;将ICD代码描述按照类别分为19类;
数据处理子模块,用于将电子病历和ICD代码描述文件的原始语料转化为深度学习网络能够接受的输入,删除电子病历中的停用词,构建模型特定于数据集的词库文件。
9.根据权利要求8所述的一种基于联合学习和去噪机制的ICD代码预测系统,其特征在于,模型建立及训练模块还包括:
预训练子模块,用于将预处理之后的电子病历输入到clinical BERT预训练模型,插入分隔符,学习连续的提示,构造基于提示的微调方法,以提取整个电子病历文本的特征,输出电子病历词向量文件,固定模型初始参数;采用词嵌入方式处理预处理之后的ICD代码描述文件,输出ICD代码词向量文件;
数据集成子模块,用于将所述电子病历词向量文件和所述ICD代码词向量文件输入残差神经网络中提取特征;再将模块提取出的特征输入图长短期记忆网络,学习电子病历的上下文信息,输出特征向量。
10.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如权利要求1~6任一项所述的基于联合学习和去噪机制的ICD代码预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111396853.8A CN114023412A (zh) | 2021-11-23 | 2021-11-23 | 基于联合学习和去噪机制的icd代码预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111396853.8A CN114023412A (zh) | 2021-11-23 | 2021-11-23 | 基于联合学习和去噪机制的icd代码预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114023412A true CN114023412A (zh) | 2022-02-08 |
Family
ID=80066047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111396853.8A Pending CN114023412A (zh) | 2021-11-23 | 2021-11-23 | 基于联合学习和去噪机制的icd代码预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114023412A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114169339A (zh) * | 2022-02-14 | 2022-03-11 | 北京智源人工智能研究院 | 医疗命名实体识别模型训练方法、识别方法及联邦学习系统 |
CN114943314A (zh) * | 2022-07-26 | 2022-08-26 | 牛津大学(苏州)科技有限公司 | 基于icd诊断码的对象划分方法、存储介质及电子病历系统 |
CN115019923A (zh) * | 2022-07-11 | 2022-09-06 | 中南大学 | 一种基于对比学习的电子病历数据预训练方法 |
CN116127402A (zh) * | 2022-09-08 | 2023-05-16 | 天津大学 | 一种融合icd层级特征的drg自动分组方法及系统 |
CN116820429A (zh) * | 2023-08-28 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 代码处理模型的训练方法、装置、电子设备及存储介质 |
-
2021
- 2021-11-23 CN CN202111396853.8A patent/CN114023412A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114169339A (zh) * | 2022-02-14 | 2022-03-11 | 北京智源人工智能研究院 | 医疗命名实体识别模型训练方法、识别方法及联邦学习系统 |
CN114169339B (zh) * | 2022-02-14 | 2022-05-17 | 北京智源人工智能研究院 | 医疗命名实体识别模型训练方法、识别方法及联邦学习系统 |
CN115019923A (zh) * | 2022-07-11 | 2022-09-06 | 中南大学 | 一种基于对比学习的电子病历数据预训练方法 |
CN115019923B (zh) * | 2022-07-11 | 2023-04-28 | 中南大学 | 一种基于对比学习的电子病历数据预训练方法 |
CN114943314A (zh) * | 2022-07-26 | 2022-08-26 | 牛津大学(苏州)科技有限公司 | 基于icd诊断码的对象划分方法、存储介质及电子病历系统 |
CN116127402A (zh) * | 2022-09-08 | 2023-05-16 | 天津大学 | 一种融合icd层级特征的drg自动分组方法及系统 |
CN116127402B (zh) * | 2022-09-08 | 2023-08-22 | 天津大学 | 一种融合icd层级特征的drg自动分组方法及系统 |
CN116820429A (zh) * | 2023-08-28 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 代码处理模型的训练方法、装置、电子设备及存储介质 |
CN116820429B (zh) * | 2023-08-28 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 代码处理模型的训练方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN114023412A (zh) | 基于联合学习和去噪机制的icd代码预测方法及系统 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN112131383B (zh) | 特定目标的情感极性分类方法 | |
KR20210042393A (ko) | 컴퓨터 구현 선행 기술 검색을 수행하기 위한 시스템들 및 방법들 | |
CN110427486B (zh) | 身体病况文本的分类方法、装置及设备 | |
Carchiolo et al. | Medical prescription classification: a NLP-based approach | |
CN109993227B (zh) | 自动添加国际疾病分类编码的方法、系统、装置和介质 | |
CN111177375B (zh) | 一种电子文档分类方法及装置 | |
CN112530584A (zh) | 一种医疗诊断辅助方法及系统 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Lyndon et al. | Neural Captioning for the ImageCLEF 2017 Medical Image Challenges. | |
Hsu et al. | Multi-label classification of ICD coding using deep learning | |
CN110299194B (zh) | 基于综合特征表示与改进宽深度模型的相似病例推荐方法 | |
CN115130038A (zh) | 网页分类方法及装置 | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
Baboo et al. | Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers | |
CN113780418A (zh) | 一种数据的筛选方法、系统、设备和存储介质 | |
CN112883736A (zh) | 医疗实体关系抽取方法和装置 | |
CN115062602B (zh) | 对比学习的样本构造方法、装置及计算机设备 | |
CN116932686A (zh) | 主题挖掘方法、装置、电子设备及存储介质 | |
CN116843995A (zh) | 细胞影像学预训练模型构建方法和装置 | |
CN114757310B (zh) | 情感识别模型及其训练方法、装置、设备及可读存储介质 | |
Lauren et al. | Convolutional neural network for clinical narrative categorization | |
Suganthi et al. | An offline English optical character recognition and NER using LSTM and adaptive neuro-fuzzy inference system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |