CN109460473B - 基于症状提取和特征表示的电子病历多标签分类方法 - Google Patents

基于症状提取和特征表示的电子病历多标签分类方法 Download PDF

Info

Publication number
CN109460473B
CN109460473B CN201811388476.1A CN201811388476A CN109460473B CN 109460473 B CN109460473 B CN 109460473B CN 201811388476 A CN201811388476 A CN 201811388476A CN 109460473 B CN109460473 B CN 109460473B
Authority
CN
China
Prior art keywords
symptom
electronic medical
vector
medical record
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811388476.1A
Other languages
English (en)
Other versions
CN109460473A (zh
Inventor
李敏
郭东霖
卢长利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN CREATOR INFORMATION TECHNOLOGIES CO LTD
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201811388476.1A priority Critical patent/CN109460473B/zh
Publication of CN109460473A publication Critical patent/CN109460473A/zh
Application granted granted Critical
Publication of CN109460473B publication Critical patent/CN109460473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种基于症状提取和特征表示的电子病历多标签分类方法,考虑到疾病与症状以及症状间的关联关系对电子病历的疾病标签多分类问题的影响,采用两种不同的症状表征方法:使用TF‑IDF构建症状向量以及使用word2vec学习症状向量。将从电子病历中抽取的两种症状向量序列分别作为所述两个双向LSTM模型的输入序列,训练两个双向LSTM模型;对于未知疾病标签的电子病历,将从其中提取的症状对应的两种症状向量构成两种症状向量序列,分别输入两个训练好的双向LSTM模型,得到两个概率向量;对两个概率向量进行加权组合,得到最终的分类向量。本方法分类效果和适用性好。

Description

基于症状提取和特征表示的电子病历多标签分类方法
技术领域
本发明属于医疗大数据分析领域,具体涉及一种基于症状提取和特征表示的电子病历多标签分类方法。
背景技术
电子病历(Electronic Medical Record,EMR)的多标签分类是医学应用领域中的一项重要任务,其目的是基于电子病历中的症状、检验检测指标、药物、文本等信息自动为电子病历生成疾病标签,不仅可以节省大规模电子病历管理维护的成本,还可以为医学知识挖掘及应用提供便利。基于电子病历的多标签分类也可用于辅助诊断系统、医院导诊系统,极大的提高医生工作效率和缩短病人就诊时间。电子病历的多标签分类依赖于从病历文本中提取的特征,目前存在的方法有基于整个文本信息的,但全文本数据存在大量冗余信息影响分类效果;也有基于文本中记录的检验检测指标、临床数据、医疗编码以及药物等指标信息,但是由于部分电子病历缺乏相关信息,使得这些方法无法使用。
因此,有必要提供一种分类效果和适用性好的电子病历分类方法。
发明内容
本发明所解决的技术问题是,针对现有技术的不足,提供一种基于症状提取和特征表示的电子病历多标签分类方法,分类效果和适用性好。
本发明的技术方案为:
基于症状提取和特征表示的电子病历多标签分类方法,包括以下步骤:
步骤1、获取已知疾病标签的电子病历集合作为样本集;
步骤2、从样本集中提取症状序列(所有的症状构成的序列);将样本集中各个样本与疾病标签的映射关系转换为症状与疾病标签的映射关系;
对于症状i,统计其与多少疾病标签存在映射关系,以及与每个疾病标签存在映射关系的次数(若从一个样本中提取出了症状i,且该样本带有疾病标签j,则认为症状i与疾病标签j存在一次映射关系),并根据统计数据使用TF-IDF模型构建其第一症状向量x1i,其中i=1,2,…,M,M为所有症状的个数;
由所有症状的第一症状向量构成症状向量序列X1,X1={x11,x12,…,x1i,…,x1M};
步骤3、基于样本集中的电子病历文本训练word2vec模型,训练完成之后,使用word2vec模型将每个症状映射为一个症状向量,称为第二症状向量,其中症状i映射得到的第二症状向量记为x2i;由所有症状的第二症状向量构成症状向量序列X2,X2={x21,x22,…,x2i,…,x2M};
步骤4、对于样本集中的每一个电子病历,分别构建其对应的第一症状向量序列、第二症状向量序列和疾病标签向量;
构建一个电子病历对应的第一症状向量序列和第二症状向量序列的方法为:
首先从其中提取症状序列;然后对于症状序列中的每一个症状k,分别从X1和X2中找出其第一症状向量x1k和第二症状向量x2k;由症状序列中所有症状的第一症状向量构成该电子病历对应的第一症状向量序列X′1={x1k},所有症状的第二症状向量构成该电子病历对应的第二症状向量序列X′2={x2k},其中k∈{1,2,…,M};
构建电子病历的疾病标签向量,其维数等于所有疾病标签的个数N,每一维度对应一个疾病标签,若该电子病历带有某一疾病标签,则疾病标签向量中相应维度的取值为1,若该电子病历不带某一疾病标签,则疾病标签向量中相应维度的取值为0;
步骤5、训练两个双向LSTM(Long Short-Term Memory,长短期记忆)模型;训练过程为:
将样本对应的第一症状向量序列和疾病标签向量作为第一双向LSTM模型的输入序列和输出,训练第一双向LSTM模型;
将样本对应的第二症状向量序列和疾病标签向量作为第二双向LSTM模型的输入序列和输出,训练第二双向LSTM模型;
每一个训练好的双向LSTM模型的输出都是一个概率向量,表示与输入的症状向量序列相应的电子病历与各种疾病标签相关的概率;
步骤6、对于未知疾病标签的电子病历,首先构建其对应的第一症状向量序列和第二症状向量序列(按步骤4中的方法);再将其对应的第一症状向量序列和第二症状向量序列分别输入两个训练好的双向LSTM模型,得到两个概率向量;最后,对两个概率向量进行加权组合,得到最终的分类向量,表征该电子病历与各种疾病标签相关的概率。
进一步地,所述步骤1中,从MIMIC-III数据集中获取出院总结作为样本。
进一步地,所述步骤2和步骤5中,基于Metamap工具从电子病历中提取症状序列。
进一步地,基于Metamap工具从电子病历中提取症状序列前,先根据电子病历各部分的标题过滤掉不包含症状信息的部分,然后使用MetaMap处理,方法为:首先根据语义类型过滤掉与症状无关的实体,筛选出症状实体,再根据上下文环境从筛选出的症状实体中过滤掉在否定语境中的症状实体,从而提取出症状序列。
进一步地,所述步骤2中,第一症状向量x1i=(Wi,1,Wi,2,...,Wi,N),其中Wi,j表示症状i和疾病标签j之间的关联强度,
Figure BDA0001873483000000031
N为所有疾病标签的数量,Di为与症状i存在映射关系的疾病标签数量,TFi,j为带有疾病标签j的电子病历中症状i出现的次数。
进一步地,所述步骤3中,先对电子病历文本进行预处理,去除文本中的停用词,再基于预处理后的文本训练word2vec模型。
进一步地,所述步骤6中,对两个概率向量进行加权组合计算最终的分类向量时,两个概率向量的权重均设置为0.5。
本发明基于从电子病历中抽取的症状序列并结合两种症状表示方法进行病历的多标签分类。该方法考虑到疾病与症状以及症状间的关联关系对电子病历的疾病标签多分类问题的影响采用两种不同的症状表征方法:使用TF-IDF构建症状向量以及使用word2vec学习症状向量。为了更好的从症状序列中提取特征,本发明结合两种症状向量构建方法使用双向LSTM对症状序列建模,LSTM模型能够处理不同长度的症状序列。本方法不仅避免了文本数据的冗余信息对多标签分类的影响,还解决了在检验检测信息等指标缺失的情况下将多标签分类方法应用于疾病辅助诊断的问题。
以下对各主要步骤进行详细说明。
一、症状的提取
临床记录中文本记录了患者病情,然而,由于文本中语句的多样性和句法的多样性,很难从语料库中准确提取症状。比如,“breath with difficulty”、“difficultbreathing”和“dyspnea”均为呼吸困难的意思。书写表达的不规范也给症状的识别带来了困难。在抽取症状时,应注意症状的不规则性和陈诉的多样性。为了提高抽取症状实体的效率和准确率,使用现有的技术,如NLTK和MetaMap。NLTK是一个用于符号统计和自然语言处理的工具包。MetaMap则用于在文本中识别统一医学语言系统(UMLS)中所包含的实体。UMLS包含超过100万个生物医学实体和500万个实体名称,每个实体都有语义类型,如临床属性、符号或症状、临床药物等。MetaMap的重要特性是它可以识别UMLS中实体的变体和首字母缩写。为了提高MetaMap的正确性和有效性,本发明对医学文本中没有症状实体的部分以及在否定语境中的症状实体进行了过滤。
在MIMIC-III中电子病历分为护士笔记、出院总结等不同类型,本发明使用了出院总结。MIMIC-III中每个出院总结都有其对应的疾病标签即ICD-9标签。从MIMIC-III数据集中的出院总结中提取所有症状实体。虽然电子病历是无结构的文本,但是MIMIC-III的出院总结被划分为不同的部分,每个部分都有相关的标题,如当前病史,既往病史、社会史、治疗流程、入院用药、出院诊断等,为了提高处理效率,本发明首先根据标题过滤掉不包含症状信息的部分,如社会病史、入院用药和出院诊断;然后使用MetaMap处理;MetaMap不仅可以识别文本中的UMLS实体词和UMLS实体词对应的语义类型,还可以判断该实体词上下文环境是否定还是肯定,本发明首先根据语义类型过滤掉与症状无关的实体,提取症状实体,再根据上下文环境过滤掉在否定语境中的症状实体,最终得到本发明所需的所有症状实体。比如,对于“病人报告在入院前有出汗、咳嗽和上背部疼痛症状。并否认出现胸痛、恶心/呕吐、腹泻和排尿困难的症状”这一临床文本,则需要过滤掉“胸痛”、“恶心/呕吐”、“腹泻”和“排尿困难”等患者否定的症状。
二、症状的向量表征
症状的向量表征是本发明中最为关键的一步,因为它决定着多标签分类模型是否能准确提取特征。在本发明中使用了两种症状表示方案。考虑到当患者出现某些症状时,可以根据症状和疾病之间的关系推断出潜在的疾病标签,本发明使用了基于TF-IDF的症状表示,其通过统计方法获得症状和疾病之间的关联强度。同时,鉴于症状之间的关联对疾病标签推断也具有潜在影响,本发明还使用了Word2Vec来获得可以量化症状之间相似性的症状表示。
(1)TF-IDF(Term Frequency-inverse Document Frequency,词频-逆向文件频率)
在之前的步骤一中使用MetaMap提取电子病历中存在的症状实体后,将电子病历与疾病标签的映射关系转换为症状实体与疾病标签的映射关系。所有电子病历与疾病标签的映射都转换为症状实体与疾病标签的映射关系后,就可以统计出症状i与哪些疾病相关联。
TF-IDF用于将文本文档转化为标识符的特征向量。本发明使用TF-IDF作为症状的向量表示方案,并以此构建症状和疾病之间的关系模型。从出院总结中提取出所有症状之后,每个症状i由一个向量表示,具体表示形式如下:
Si=(Wi,1,Wi,2,...,Wi,N) (1)
Wi,j为症状i和疾病标签j之间的关联强度,为了获得连续的关联强度,本发明使用TF-IDF来量化关联的强度。
Figure BDA0001873483000000041
N为所有疾病标签的个数,Di为与症状i相关联的疾病标签数量(与症状i存在映射关系的疾病标签数量),TFi,j为带有疾病标签j的电子病历中症状i出现的次数。
选择TF-IDF作为症状的表示方案是因为Wi,j能准确的量化症状与疾病标签之间的关联强度。当某一症状与多个疾病标签相关联时,Di将偏大,Wi,j将偏小,则该症状的疾病标签推断分类能力将偏弱。
(2)词向量
由于疾病通常伴有多种症状,因此症状之间的关系可以作为疾病标签推断有利依据。例如,咳嗽、呼吸短促和视力下降是常见的症状。通常咳嗽和呼吸短促与各种疾病有关,如支气管炎、肺炎和哮喘。在诊断过程中,这两种症状可能同时出现。即使患者没有同时出现这两种症状,医生通常也会在电子病历中记录相似症状的表现情况。因此,症状之间的关联为疾病推断提供了有利的依据。Word2Vec模型是无监督人工神经网络(ANN)框架,用于获得能够量化语义相似性的词向量表示。为了表示症状之间的相似性和差异性,本发明使用出院总结训练Word2Vec模型,获取出院总结中所有词的词向量,从而得到症状的词向量(一个症状对应一个词向量,所有症状对应的词向量的维度相等;相似性高的两个症状,它们对应的词向量欧氏距离小),即另一种症状向量表示方案,在此之前,需要去除出院总结中的停用词。
三、双向LSTM(BiLSTM)模型
在本发明中,电子病历的多标签分类问题针对给定电子病历,根据从出院总结中提取的症状序列推断该病历的疾病标签,最后选出概率大于指定阈值的疾病标签作为多标签分类结果。
深度学习技术已经广泛应用于临床领域,尤其是循环神经网络,它能高效的处理序列任务、视觉任务、语音任务和自然语言处理任务。然而,在医学应用领域,很多任务处理的序列数据存在长期依赖。循环神经网络处理较长的序列的能力受到梯度下降问题的限制。为了解决这一问题,本发明使用了具有双向结构的长短期记忆网络(LSTM)。双向结构能够提取全局特征,在长序列处理中得到了广泛的应用。LSTM同时也解决了长期依赖的问题。以下公式给出了每个步骤的计算流程:
ft=σ(Wf1·xt+Wf2·ht-1+bf) (3)
it=σ(Wi1·xt+Wi2·ht-1+bi) (4)
ot=σ(Wo1·xt+Wo2·ht-1+bo) (5)
gt=tanh(Wg1·xt+Wg2·ht-1+bg) (6)
ct=ft·ct-1+it·gt (7)
ht=ot·tanh(ct) (8)
其中,xt表示第t步输入的症状向量;ft、it、ot、gt、ct、ht分别表示第t步的遗忘门、输入门、输出门、中间变量、细胞状态(cell state)和隐藏状态(hidden state);f、i和o用于控制数据流在LSTM中的传递,c和h表示输入数据在LSTM中的状态;t取值为1到症状序列的长度;Wf1和Wf2、Wi1和Wi2、Wo1和Wo2、Wg1和Wg2分别为遗忘门、输入门、输出门、中间变量的两个权重矩阵,bf、bi、bo和bg分别为遗忘门、输入门、输出门、中间变量的偏置向量,权重矩阵和偏置是需要训练的参数,通过正太分布进行初始化,使用adam算法迭代更新;σ(·)和tanh(·)为激活函数,σ(·)表示sigmoid函数,tanh(·)为双切正切函数,取值范围为[-1,1];h0、c0设置为满足正太分布的随机值;
本发明将正向LSTM和反向LSTM的最终输出的隐藏状态拼接为输入的症状向量序列的全局特征(将两种类型的症状向量序列分别输入两个双向LSTM模型,可以获得两种类型的全局特征),然后把全局特征放到带有sigmoid激活单元的输出层,得到概率向量,概率向量的每一维度的值表示输入的症状向量序列与该维度对应的疾病标签相关的概率;具体描述如下:
1)将症状向量序列中的第一至最后一个症状向量按顺序依次作为第一至最后一步的输入双向LSTM模型的症状向量,最后一步得到的ht即为正向LSTM的最终输出的隐藏状态,记为hforward
将症状向量序列中的第一至最后一个症状向量按倒序依次作为第一至最后一步的输入双向LSTM模型的症状向量,最后一步得到的ht即为反向LSTM的最终输出的隐藏状态,记为hbackward
2)将hforward和hbackward拼接为症状序列的全局特征,记为hconcatenate;设hforward和hbackward的维度为l,则hconcatenate的维度长度为2l;
3)把全局特征hconcatenate放到输出层,在输出层,hconcatenate首先被映射为维度为N(所有疾病标签的数量)的输出向量output(该过程可以表示为用大小为N×2l的参数矩阵W与hconcatenate相乘,得到output),此时输出向量中元素的取值范围为实数域;然后通过Sigmoid函数将output的每一维度的值从实数域映射到0-1之间,得到概率向量。
对于未知疾病标签的电子病历,将从中提取的症状序列对应的两种症状向量序列,分别输入两个训练好的双向LSTM模型,得到两个概率向量;最后对两个概率向量进行加权组合,得到最终的分类向量,表征该电子病历与各种疾病相关的概率。
有益效果:
本发明基于症状实体和特征表示进行电子病历的多标签分类。
因为症状信息反应了疾病的存在和特点以及病人的状况,所以作为初步诊断所依赖的可靠信息,症状会被记录在病历中。本发明通过症状进行电子病历的多标签的分类更加可靠,适用性更好。
不同的症状表示方法会影响电子病历的分类效果。本发明考虑症状与疾病的关联强度对分类的影响,使用TF-IDF构建症状向量作为输入训练双向LSTM模型;考虑到症状间的关联关系对分类的影响,使用了word2vec学习症状向量作为输入训练双向LSTM模型。最后结合已训练好的两个双向LSTM模型做最终的多标签分类。
因此,本发明不仅提取了电子病历文本中的症状作为特征,还考虑了症状与疾病的关联关系、症状间的关联关系对分类的影响,充分发挥了症状在电子病历分类中的作用,方法有效且准确性高。此外本方法不仅避免了全文本数据中冗余信息对分类的影响,还可以应用在病历文本中检验检测信息缺失的情况下电子病历的多标签分类。
附图说明
图1:本发明的流程图;
图2:双向LSTM网络结构图;
图3:不同权重分布的组合结果;图3(a)~图3(d)分别为第一双向LSTM模型(BiLSTM+TF-IDF)取不同权重时MiF1、Micro AUC、MaF1、Macro AUC这4个评价指标的结果。
具体实施方式
以下结合附图和具体实施方式对本发明进行进一步具体说明。
本发明公开了一种基于症状提取以其表征模型并使用双向循环的电子病历多标签分类方案。不仅症状与疾病之间的关联关系对电子病历的多标签分类很重要,同样,症状之间的关联关系也影响着电子病历的多标签分类,基于此,本发明结合了考虑了症状与疾病之间的关联关系的TF-IDF症状表示方案和考虑了症状之间的关联关系的Word2Vec症状表示方案。使用了MetaMap提取电子病历中的症状实体。采用了双向长短期记忆网络(BiLSTM)对提取得到的症状序列进行建模,模型输出所有标签的概率并根据阈值选择相关标签。本发明根据电子病历中症状实体进行多标签分类可以避免文本冗余信息的干扰提高多标签分类效果。
本发明有效性验证:
为了验证使用本发明【以下称为BiLSTM+SymVec(TF-IDF+Word2Vec)】进行多标签分类的有效性和相比于其他方法的性能优越性,将本方法应用于MINIC-III数据集的出院总结中常见的50种疾病和100种疾病标签进行分类。将方法BiLSTM+SymVec(TF-IDF+Word2Vec)与BiLSTM+SymVec、BiLSTM+SymVec(TF-IDF)、BiLSTM+SymVec(Word2Vec)和DeepLabeler等4个其他方法在预测的微平均准确率(MiP)、微平均召回率(MiR)、微平均F1(MiF1)、微平均曲线下面积(Micro AUC)、宏平均准确率(MaP)、宏平均召回率(MaR)、宏平均F1(MaF1)和宏平均曲线下面积(Macro AUC)等8个评价指标进行了比较。其中MiP、MiR、MiF1、MaP、MaR和MaF1的计算公式如下:
Figure BDA0001873483000000081
Figure BDA0001873483000000082
Figure BDA0001873483000000083
Figure BDA0001873483000000084
Figure BDA0001873483000000085
Figure BDA0001873483000000086
其中,
Figure BDA0001873483000000087
表示样本j与疾病标签i是否相关的真实值,
Figure BDA0001873483000000088
有两种取值,即0和1,
Figure BDA0001873483000000089
表示样本j与疾病标签i无关,
Figure BDA00018734830000000810
表示样本j与疾病标签i相关;
Figure BDA00018734830000000811
表示模型对样本j与疾病标签i是否相关的预测值,若通过模型输出的两者相关概率小于0.5,则
Figure BDA00018734830000000812
表示模型预测样本j与疾病标签i无关,若通过模型输出的两者相关概率大于或等于0.5,则
Figure BDA00018734830000000813
表示模型预测该样本j与疾病标签i相关。
DeepLabeler和BiLSTM+Word2Vec都以全文本作为输入,其中BiLSTM+Word2Vec使用Word2Vec来表示全文的单词序列,使用全文的单词序列作为输入。为了与这两个模型进行比较,本发明使用了不同症状表示方案的BiLSTM:使用TF-IDF的BiLSTM和使用Word2Vec的BiLSTM。然后将这两个模型组合为BiLSTM+SymVec(TF-IDF+Word2Vec)即本发明中使用的模型,其为BiLSTM+SymVec(TF-IDF)和BiLSTM+SymVec(Word2Vec)的输出得分的加权和,权重为0.5。
表1不同模型在50种常见疾病标签的分类性能(微平均)
Figure BDA00018734830000000814
Figure BDA0001873483000000091
表2不同模型在100种常见疾病标签的分类性能(微平均)
Figure BDA0001873483000000092
表3不同模型在50种常见疾病标签的分类性能(宏平均)
Figure BDA0001873483000000093
Figure BDA0001873483000000101
表4不同模型在100种常见疾病标签的分类性能(宏平均)
Figure BDA0001873483000000102
如表1所示,本发明提出的模型优于DeepLabeler和BiLSTM+Word2Vec,这说明症状在多标签分类中起着重要的作用。与仅使用TF-IDF和Word2Vec的BiLSTM相比,BiLSTM+SymVec(TF-IDF+Word2Vec)的结果得到进一步改善。这是因为BiLSTM可以很好地从TF-IDF和Word2Vec的症状表示方案中提取不同类型的全局特征。本发明还对100种常见的疾病标签进行了相同的实验,如表2所示,本发明的模型在所有指标上的表现也都优于其他模型,进一步表明模型BiLSTM+SymVec(TF-IDF+Word2Vec)是最好的。表1和表2的结果显示,不管是在50种常见疾病还是在100种常见疾病的多标签分类的表现,BiLSTM+SymVec都要优于DeepLabeler和BiLSTM+Word2Vec,尤其是组合了TF-IDF和Word2Vec的BiLSTM+SymVec(TF-IDF+Word2Vec)的结果是最好的。多标签分类的宏平均评估结果如表3和表4所示,可得到与前面微平均一致的结论。但宏平均各项指标的值都比微平均小,尤其是在常见100种疾病标签的分类结果。原因是宏平均指标更容易受到样本数较小标签的影响,微平均指标更容易受到样本数较多的标签的影响。
为了进一步分析TF-IDF和Word2Vec的权重变化对多标签分类结果的影响,比较了BiLSTM+SymVec(TF-IDF+Word2Vec)与不同权重分布的结果。
如图3所示,当第一双向LSTM模型(BiLSTM+TF-IDF)的权重从0.3变化为0.8时,所有四个指标的结果都相当相近。当权重在0.5和0.7之间时,结果最佳。因此,在本发明中,将0.5设置为默认权重。
综上所述,本发明所提出的基于双向循环和症状提取的电子病历多标签分类方法在预测的性能、准确性、实际应用等方面都具有重要作用。

Claims (7)

1.基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,包括以下步骤:
步骤1、获取已知疾病标签的电子病历集合作为样本集;
步骤2、从样本集中提取症状序列;将样本集中各个样本与疾病标签的映射关系转换为症状与疾病标签的映射关系;
对于症状i,统计其与多少疾病标签存在映射关系,以及与每个疾病标签存在映射关系的次数,并根据统计数据使用TF-IDF模型构建其第一症状向量x1i,其中i=1,2,…,M,M为所有症状的个数;
由所有症状的第一症状向量构成症状向量序列X1,X1={x11,x12,…,x1i,…,x1M};
步骤3、基于样本集中的电子病历文本训练word2vec模型,训练完成之后,使用word2vec模型将每个症状映射为一个症状向量,称为第二症状向量,其中症状i映射得到的第二症状向量记为x2i;由所有症状的第二症状向量构成症状向量序列X2,X2={x21,x22,…,x2i,…,x2M};
步骤4、对于样本集中的每一个电子病历,分别构建其对应的第一症状向量序列、第二症状向量序列和疾病标签向量;
构建一个电子病历对应的第一症状向量序列和第二症状向量序列的方法为:
首先从其中提取症状序列;然后对于症状序列中的每一个症状k,分别从X1和X2中找出其第一症状向量x1k和第二症状向量x2k;由症状序列中所有症状的第一症状向量构成该电子病历对应的第一症状向量序列X′1={x1k},所有症状的第二症状向量构成该电子病历对应的第二症状向量序列X′2={x2k},其中k∈{1,2,…,M};
构建电子病历的疾病标签向量,其维数等于所有疾病标签的个数N,每一维度对应一个疾病标签,若该电子病历带有某一疾病标签,则疾病标签向量中相应维度的取值为1,若该电子病历不带某一疾病标签,则疾病标签向量中相应维度的取值为0;
步骤5、训练两个双向LSTM模型;训练过程为:
将样本对应的第一症状向量序列和疾病标签向量作为第一双向LSTM模型的输入序列和输出,训练第一双向LSTM模型;
将样本对应的第二症状向量序列和疾病标签向量作为第二双向LSTM模型的输入序列和输出,训练第二双向LSTM模型;
每一个训练好的双向LSTM模型的输出都是一个概率向量,表示与输入的症状向量序列相应的电子病历与各种疾病标签相关的概率;
步骤6、对于未知疾病标签的电子病历,首先构建其对应的第一症状向量序列和第二症状向量序列;再将其对应的第一症状向量序列和第二症状向量序列分别输入两个训练好的双向LSTM模型,得到两个概率向量;最后,对两个概率向量进行加权组合,得到最终的分类向量,表征该电子病历与各种疾病标签相关的概率。
2.根据权利要求1所述的基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,所述步骤1中,从MIMIC-III数据集中获取出院总结作为样本。
3.根据权利要求1所述的基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,所述步骤2和步骤5中,基于Metamap工具从电子病历中提取症状序列。
4.根据权利要求3所述的基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,基于Metamap工具从电子病历中提取症状序列前,先根据电子病历各部分的标题过滤掉不包含症状信息的部分,然后使用MetaMap处理,方法为:首先根据语义类型过滤掉与症状无关的实体,筛选出症状实体,再根据上下文环境从筛选出的症状实体中过滤掉在否定语境中的症状实体,从而提取出症状序列。
5.根据权利要求1所述的基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,所述步骤2中,第一症状向量x1i=(Wi,1,Wi,2,...,Wi,N),其中Wi,j表示症状i和疾病标签j之间的关联强度,
Figure FDA0001873482990000021
N为所有疾病标签的数量,Di为与症状i存在映射关系的疾病标签数量,TFi,j为带有疾病标签j的电子病历中症状i出现的次数。
6.根据权利要求1所述的基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,所述步骤3中,先对电子病历文本进行预处理,去除文本中的停用词,再基于预处理后的文本训练word2vec模型。
7.根据权利要求1所述的基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,所述步骤6中,对两个概率向量进行加权组合计算最终的分类向量时,两个概率向量的权重均设置为0.5。
CN201811388476.1A 2018-11-21 2018-11-21 基于症状提取和特征表示的电子病历多标签分类方法 Active CN109460473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811388476.1A CN109460473B (zh) 2018-11-21 2018-11-21 基于症状提取和特征表示的电子病历多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811388476.1A CN109460473B (zh) 2018-11-21 2018-11-21 基于症状提取和特征表示的电子病历多标签分类方法

Publications (2)

Publication Number Publication Date
CN109460473A CN109460473A (zh) 2019-03-12
CN109460473B true CN109460473B (zh) 2021-11-02

Family

ID=65611164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811388476.1A Active CN109460473B (zh) 2018-11-21 2018-11-21 基于症状提取和特征表示的电子病历多标签分类方法

Country Status (1)

Country Link
CN (1) CN109460473B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993227B (zh) * 2019-03-29 2021-09-24 京东方科技集团股份有限公司 自动添加国际疾病分类编码的方法、系统、装置和介质
CN110123274A (zh) * 2019-04-29 2019-08-16 上海电气集团股份有限公司 一种脓毒血症的监测系统
CN110222709B (zh) * 2019-04-29 2022-01-25 上海暖哇科技有限公司 一种多标签智能打标方法及系统
CN110491499A (zh) * 2019-07-10 2019-11-22 厦门大学 面向标注电子病历的临床辅助决策方法及系统
CN110427486B (zh) * 2019-07-25 2022-03-01 北京百度网讯科技有限公司 身体病况文本的分类方法、装置及设备
CN110391026B (zh) * 2019-07-25 2022-04-26 北京百度网讯科技有限公司 基于医疗概率图的信息分类方法、装置及设备
CN110600123A (zh) * 2019-08-29 2019-12-20 成都信息工程大学 一种中医临床辅助诊断方法
CN110688487A (zh) * 2019-09-29 2020-01-14 中国建设银行股份有限公司 一种文本分类的方法和装置
CN111291550B (zh) * 2020-01-17 2021-09-03 北方工业大学 一种中文实体提取方法及装置
CN112331287A (zh) * 2020-04-26 2021-02-05 吴九云 基于人工智能的智慧医疗病历管理方法及系统
CN113627449A (zh) * 2020-05-07 2021-11-09 阿里巴巴集团控股有限公司 模型训练方法及装置、标签确定方法及装置
CN111627561B (zh) * 2020-05-25 2023-05-12 讯飞医疗科技股份有限公司 标准症状抽取方法、装置、电子设备和存储介质
CN111785385A (zh) * 2020-06-29 2020-10-16 微医云(杭州)控股有限公司 疾病分类方法、装置、设备和存储介质
CN111785369B (zh) * 2020-06-30 2024-04-05 讯飞医疗科技股份有限公司 诊断预测方法、相关设备及可读存储介质
CN112016295B (zh) * 2020-09-04 2024-02-23 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质
CN112182217B (zh) * 2020-09-28 2024-07-12 云知声智能科技股份有限公司 多标签文本类别的识别方法、装置、设备和存储介质
CN112287665B (zh) * 2020-10-19 2024-05-03 南京南邮信息产业技术研究院有限公司 基于自然语言处理和集成训练的慢病数据分析方法及系统
CN112308131B (zh) * 2020-10-29 2022-09-27 腾讯科技(深圳)有限公司 样本拒识方法、装置、设备及存储介质
CN114048320B (zh) * 2022-01-12 2022-03-29 成都信息工程大学 一种基于课程学习的多标签国际疾病分类训练方法
CN116543918B (zh) * 2023-07-04 2023-09-22 武汉大学人民医院(湖北省人民医院) 多模态疾病特征的提取方法及装置
CN116578711B (zh) * 2023-07-06 2023-10-27 武汉楚精灵医疗科技有限公司 腹痛特征提取方法、装置、电子设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649413A (zh) * 2015-11-04 2017-05-10 阿里巴巴集团控股有限公司 一种网页标签的分组方法和装置
US9767182B1 (en) * 2016-10-28 2017-09-19 Searchmetrics Gmbh Classification of search queries
US11182435B2 (en) * 2016-11-25 2021-11-23 Nippon Telegraph And Telephone Corporation Model generation device, text search device, model generation method, text search method, data structure, and program
CN106649818B (zh) * 2016-12-29 2020-05-15 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
US11537845B2 (en) * 2017-04-12 2022-12-27 Yodlee, Inc. Neural networks for information extraction from transaction data
CN107798624B (zh) * 2017-10-30 2021-09-28 北京航空航天大学 一种软件问答社区中的技术标签推荐方法
CN107832400B (zh) * 2017-11-01 2019-04-16 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108268444B (zh) * 2018-01-10 2021-11-02 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
CN108520780B (zh) * 2018-03-07 2021-08-06 中国科学院计算技术研究所 一种基于迁移学习的医学数据处理和系统
CN108764280B (zh) * 2018-04-17 2021-04-27 中国科学院计算技术研究所 一种基于症状向量的医学数据处理方法和系统

Also Published As

Publication number Publication date
CN109460473A (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
CN109460473B (zh) 基于症状提取和特征表示的电子病历多标签分类方法
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
US20240203599A1 (en) Method and system of for predicting disease risk based on multimodal fusion
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
Amir et al. Quantifying mental health from social media with neural user embeddings
CN109949936B (zh) 一种基于深度学习混合模型的再住院风险预测方法
Lin et al. User-level psychological stress detection from social media using deep neural network
Yao et al. A convolutional neural network model for online medical guidance
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
Fang et al. Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis.
CN109635280A (zh) 一种基于标注的事件抽取方法
CN106874643A (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN109036577A (zh) 糖尿病并发症分析方法及装置
CN114628008B (zh) 一种基于异质图注意力网络的社交用户抑郁倾向检测方法
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
CN114188022A (zh) 一种基于TextCNN模型的临床儿童咳嗽智能预诊断系统
Ma et al. Constructing a semantic graph with depression symptoms extraction from twitter
Shi et al. DeepDiagnosis: DNN-based diagnosis prediction from pediatric big healthcare data
CN112069825A (zh) 面向警情笔录数据的实体关系联合抽取方法
CN117194604B (zh) 一种智慧医疗病患问诊语料库构建方法
Leng et al. Bi-level artificial intelligence model for risk classification of acute respiratory diseases based on Chinese clinical data
Wei et al. Embedding electronic health records for clinical information retrieval
CN113284627A (zh) 基于患者表征学习的用药推荐方法
Hua et al. A character-level method for text classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221101

Address after: No. 678, Qingshan Road, Yuelu District, Changsha City, Hunan Province 410006

Patentee after: HUNAN CREATOR INFORMATION TECHNOLOGIES Co.,Ltd.

Address before: Yuelu District City, Hunan province 410083 Changsha Lushan Road No. 932

Patentee before: CENTRAL SOUTH University

TR01 Transfer of patent right