CN109460473B - 基于症状提取和特征表示的电子病历多标签分类方法 - Google Patents
基于症状提取和特征表示的电子病历多标签分类方法 Download PDFInfo
- Publication number
- CN109460473B CN109460473B CN201811388476.1A CN201811388476A CN109460473B CN 109460473 B CN109460473 B CN 109460473B CN 201811388476 A CN201811388476 A CN 201811388476A CN 109460473 B CN109460473 B CN 109460473B
- Authority
- CN
- China
- Prior art keywords
- symptom
- electronic medical
- vector
- medical record
- disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000024891 symptom Diseases 0.000 title claims abstract description 239
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000605 extraction Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 127
- 201000010099 disease Diseases 0.000 claims abstract description 108
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 108
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 17
- 208000028659 discharge Diseases 0.000 description 14
- 238000003745 diagnosis Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 208000000059 Dyspnea Diseases 0.000 description 4
- 206010013975 Dyspnoeas Diseases 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 206010011224 Cough Diseases 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 101150039067 maf-1 gene Proteins 0.000 description 3
- 206010008479 Chest Pain Diseases 0.000 description 2
- 206010012735 Diarrhoea Diseases 0.000 description 2
- 206010028817 Nausea and vomiting symptoms Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 206010013990 dysuria Diseases 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 208000013220 shortness of breath Diseases 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000008035 Back Pain Diseases 0.000 description 1
- 201000004569 Blindness Diseases 0.000 description 1
- 208000008454 Hyperhidrosis Diseases 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 206010006451 bronchitis Diseases 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 229940121657 clinical drug Drugs 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000035900 sweating Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种基于症状提取和特征表示的电子病历多标签分类方法,考虑到疾病与症状以及症状间的关联关系对电子病历的疾病标签多分类问题的影响,采用两种不同的症状表征方法:使用TF‑IDF构建症状向量以及使用word2vec学习症状向量。将从电子病历中抽取的两种症状向量序列分别作为所述两个双向LSTM模型的输入序列,训练两个双向LSTM模型;对于未知疾病标签的电子病历,将从其中提取的症状对应的两种症状向量构成两种症状向量序列,分别输入两个训练好的双向LSTM模型,得到两个概率向量;对两个概率向量进行加权组合,得到最终的分类向量。本方法分类效果和适用性好。
Description
技术领域
本发明属于医疗大数据分析领域,具体涉及一种基于症状提取和特征表示的电子病历多标签分类方法。
背景技术
电子病历(Electronic Medical Record,EMR)的多标签分类是医学应用领域中的一项重要任务,其目的是基于电子病历中的症状、检验检测指标、药物、文本等信息自动为电子病历生成疾病标签,不仅可以节省大规模电子病历管理维护的成本,还可以为医学知识挖掘及应用提供便利。基于电子病历的多标签分类也可用于辅助诊断系统、医院导诊系统,极大的提高医生工作效率和缩短病人就诊时间。电子病历的多标签分类依赖于从病历文本中提取的特征,目前存在的方法有基于整个文本信息的,但全文本数据存在大量冗余信息影响分类效果;也有基于文本中记录的检验检测指标、临床数据、医疗编码以及药物等指标信息,但是由于部分电子病历缺乏相关信息,使得这些方法无法使用。
因此,有必要提供一种分类效果和适用性好的电子病历分类方法。
发明内容
本发明所解决的技术问题是,针对现有技术的不足,提供一种基于症状提取和特征表示的电子病历多标签分类方法,分类效果和适用性好。
本发明的技术方案为:
基于症状提取和特征表示的电子病历多标签分类方法,包括以下步骤:
步骤1、获取已知疾病标签的电子病历集合作为样本集;
步骤2、从样本集中提取症状序列(所有的症状构成的序列);将样本集中各个样本与疾病标签的映射关系转换为症状与疾病标签的映射关系;
对于症状i,统计其与多少疾病标签存在映射关系,以及与每个疾病标签存在映射关系的次数(若从一个样本中提取出了症状i,且该样本带有疾病标签j,则认为症状i与疾病标签j存在一次映射关系),并根据统计数据使用TF-IDF模型构建其第一症状向量x1i,其中i=1,2,…,M,M为所有症状的个数;
由所有症状的第一症状向量构成症状向量序列X1,X1={x11,x12,…,x1i,…,x1M};
步骤3、基于样本集中的电子病历文本训练word2vec模型,训练完成之后,使用word2vec模型将每个症状映射为一个症状向量,称为第二症状向量,其中症状i映射得到的第二症状向量记为x2i;由所有症状的第二症状向量构成症状向量序列X2,X2={x21,x22,…,x2i,…,x2M};
步骤4、对于样本集中的每一个电子病历,分别构建其对应的第一症状向量序列、第二症状向量序列和疾病标签向量;
构建一个电子病历对应的第一症状向量序列和第二症状向量序列的方法为:
首先从其中提取症状序列;然后对于症状序列中的每一个症状k,分别从X1和X2中找出其第一症状向量x1k和第二症状向量x2k;由症状序列中所有症状的第一症状向量构成该电子病历对应的第一症状向量序列X′1={x1k},所有症状的第二症状向量构成该电子病历对应的第二症状向量序列X′2={x2k},其中k∈{1,2,…,M};
构建电子病历的疾病标签向量,其维数等于所有疾病标签的个数N,每一维度对应一个疾病标签,若该电子病历带有某一疾病标签,则疾病标签向量中相应维度的取值为1,若该电子病历不带某一疾病标签,则疾病标签向量中相应维度的取值为0;
步骤5、训练两个双向LSTM(Long Short-Term Memory,长短期记忆)模型;训练过程为:
将样本对应的第一症状向量序列和疾病标签向量作为第一双向LSTM模型的输入序列和输出,训练第一双向LSTM模型;
将样本对应的第二症状向量序列和疾病标签向量作为第二双向LSTM模型的输入序列和输出,训练第二双向LSTM模型;
每一个训练好的双向LSTM模型的输出都是一个概率向量,表示与输入的症状向量序列相应的电子病历与各种疾病标签相关的概率;
步骤6、对于未知疾病标签的电子病历,首先构建其对应的第一症状向量序列和第二症状向量序列(按步骤4中的方法);再将其对应的第一症状向量序列和第二症状向量序列分别输入两个训练好的双向LSTM模型,得到两个概率向量;最后,对两个概率向量进行加权组合,得到最终的分类向量,表征该电子病历与各种疾病标签相关的概率。
进一步地,所述步骤1中,从MIMIC-III数据集中获取出院总结作为样本。
进一步地,所述步骤2和步骤5中,基于Metamap工具从电子病历中提取症状序列。
进一步地,基于Metamap工具从电子病历中提取症状序列前,先根据电子病历各部分的标题过滤掉不包含症状信息的部分,然后使用MetaMap处理,方法为:首先根据语义类型过滤掉与症状无关的实体,筛选出症状实体,再根据上下文环境从筛选出的症状实体中过滤掉在否定语境中的症状实体,从而提取出症状序列。
进一步地,所述步骤2中,第一症状向量x1i=(Wi,1,Wi,2,...,Wi,N),其中Wi,j表示症状i和疾病标签j之间的关联强度,N为所有疾病标签的数量,Di为与症状i存在映射关系的疾病标签数量,TFi,j为带有疾病标签j的电子病历中症状i出现的次数。
进一步地,所述步骤3中,先对电子病历文本进行预处理,去除文本中的停用词,再基于预处理后的文本训练word2vec模型。
进一步地,所述步骤6中,对两个概率向量进行加权组合计算最终的分类向量时,两个概率向量的权重均设置为0.5。
本发明基于从电子病历中抽取的症状序列并结合两种症状表示方法进行病历的多标签分类。该方法考虑到疾病与症状以及症状间的关联关系对电子病历的疾病标签多分类问题的影响采用两种不同的症状表征方法:使用TF-IDF构建症状向量以及使用word2vec学习症状向量。为了更好的从症状序列中提取特征,本发明结合两种症状向量构建方法使用双向LSTM对症状序列建模,LSTM模型能够处理不同长度的症状序列。本方法不仅避免了文本数据的冗余信息对多标签分类的影响,还解决了在检验检测信息等指标缺失的情况下将多标签分类方法应用于疾病辅助诊断的问题。
以下对各主要步骤进行详细说明。
一、症状的提取
临床记录中文本记录了患者病情,然而,由于文本中语句的多样性和句法的多样性,很难从语料库中准确提取症状。比如,“breath with difficulty”、“difficultbreathing”和“dyspnea”均为呼吸困难的意思。书写表达的不规范也给症状的识别带来了困难。在抽取症状时,应注意症状的不规则性和陈诉的多样性。为了提高抽取症状实体的效率和准确率,使用现有的技术,如NLTK和MetaMap。NLTK是一个用于符号统计和自然语言处理的工具包。MetaMap则用于在文本中识别统一医学语言系统(UMLS)中所包含的实体。UMLS包含超过100万个生物医学实体和500万个实体名称,每个实体都有语义类型,如临床属性、符号或症状、临床药物等。MetaMap的重要特性是它可以识别UMLS中实体的变体和首字母缩写。为了提高MetaMap的正确性和有效性,本发明对医学文本中没有症状实体的部分以及在否定语境中的症状实体进行了过滤。
在MIMIC-III中电子病历分为护士笔记、出院总结等不同类型,本发明使用了出院总结。MIMIC-III中每个出院总结都有其对应的疾病标签即ICD-9标签。从MIMIC-III数据集中的出院总结中提取所有症状实体。虽然电子病历是无结构的文本,但是MIMIC-III的出院总结被划分为不同的部分,每个部分都有相关的标题,如当前病史,既往病史、社会史、治疗流程、入院用药、出院诊断等,为了提高处理效率,本发明首先根据标题过滤掉不包含症状信息的部分,如社会病史、入院用药和出院诊断;然后使用MetaMap处理;MetaMap不仅可以识别文本中的UMLS实体词和UMLS实体词对应的语义类型,还可以判断该实体词上下文环境是否定还是肯定,本发明首先根据语义类型过滤掉与症状无关的实体,提取症状实体,再根据上下文环境过滤掉在否定语境中的症状实体,最终得到本发明所需的所有症状实体。比如,对于“病人报告在入院前有出汗、咳嗽和上背部疼痛症状。并否认出现胸痛、恶心/呕吐、腹泻和排尿困难的症状”这一临床文本,则需要过滤掉“胸痛”、“恶心/呕吐”、“腹泻”和“排尿困难”等患者否定的症状。
二、症状的向量表征
症状的向量表征是本发明中最为关键的一步,因为它决定着多标签分类模型是否能准确提取特征。在本发明中使用了两种症状表示方案。考虑到当患者出现某些症状时,可以根据症状和疾病之间的关系推断出潜在的疾病标签,本发明使用了基于TF-IDF的症状表示,其通过统计方法获得症状和疾病之间的关联强度。同时,鉴于症状之间的关联对疾病标签推断也具有潜在影响,本发明还使用了Word2Vec来获得可以量化症状之间相似性的症状表示。
(1)TF-IDF(Term Frequency-inverse Document Frequency,词频-逆向文件频率)
在之前的步骤一中使用MetaMap提取电子病历中存在的症状实体后,将电子病历与疾病标签的映射关系转换为症状实体与疾病标签的映射关系。所有电子病历与疾病标签的映射都转换为症状实体与疾病标签的映射关系后,就可以统计出症状i与哪些疾病相关联。
TF-IDF用于将文本文档转化为标识符的特征向量。本发明使用TF-IDF作为症状的向量表示方案,并以此构建症状和疾病之间的关系模型。从出院总结中提取出所有症状之后,每个症状i由一个向量表示,具体表示形式如下:
Si=(Wi,1,Wi,2,...,Wi,N) (1)
Wi,j为症状i和疾病标签j之间的关联强度,为了获得连续的关联强度,本发明使用TF-IDF来量化关联的强度。
N为所有疾病标签的个数,Di为与症状i相关联的疾病标签数量(与症状i存在映射关系的疾病标签数量),TFi,j为带有疾病标签j的电子病历中症状i出现的次数。
选择TF-IDF作为症状的表示方案是因为Wi,j能准确的量化症状与疾病标签之间的关联强度。当某一症状与多个疾病标签相关联时,Di将偏大,Wi,j将偏小,则该症状的疾病标签推断分类能力将偏弱。
(2)词向量
由于疾病通常伴有多种症状,因此症状之间的关系可以作为疾病标签推断有利依据。例如,咳嗽、呼吸短促和视力下降是常见的症状。通常咳嗽和呼吸短促与各种疾病有关,如支气管炎、肺炎和哮喘。在诊断过程中,这两种症状可能同时出现。即使患者没有同时出现这两种症状,医生通常也会在电子病历中记录相似症状的表现情况。因此,症状之间的关联为疾病推断提供了有利的依据。Word2Vec模型是无监督人工神经网络(ANN)框架,用于获得能够量化语义相似性的词向量表示。为了表示症状之间的相似性和差异性,本发明使用出院总结训练Word2Vec模型,获取出院总结中所有词的词向量,从而得到症状的词向量(一个症状对应一个词向量,所有症状对应的词向量的维度相等;相似性高的两个症状,它们对应的词向量欧氏距离小),即另一种症状向量表示方案,在此之前,需要去除出院总结中的停用词。
三、双向LSTM(BiLSTM)模型
在本发明中,电子病历的多标签分类问题针对给定电子病历,根据从出院总结中提取的症状序列推断该病历的疾病标签,最后选出概率大于指定阈值的疾病标签作为多标签分类结果。
深度学习技术已经广泛应用于临床领域,尤其是循环神经网络,它能高效的处理序列任务、视觉任务、语音任务和自然语言处理任务。然而,在医学应用领域,很多任务处理的序列数据存在长期依赖。循环神经网络处理较长的序列的能力受到梯度下降问题的限制。为了解决这一问题,本发明使用了具有双向结构的长短期记忆网络(LSTM)。双向结构能够提取全局特征,在长序列处理中得到了广泛的应用。LSTM同时也解决了长期依赖的问题。以下公式给出了每个步骤的计算流程:
ft=σ(Wf1·xt+Wf2·ht-1+bf) (3)
it=σ(Wi1·xt+Wi2·ht-1+bi) (4)
ot=σ(Wo1·xt+Wo2·ht-1+bo) (5)
gt=tanh(Wg1·xt+Wg2·ht-1+bg) (6)
ct=ft·ct-1+it·gt (7)
ht=ot·tanh(ct) (8)
其中,xt表示第t步输入的症状向量;ft、it、ot、gt、ct、ht分别表示第t步的遗忘门、输入门、输出门、中间变量、细胞状态(cell state)和隐藏状态(hidden state);f、i和o用于控制数据流在LSTM中的传递,c和h表示输入数据在LSTM中的状态;t取值为1到症状序列的长度;Wf1和Wf2、Wi1和Wi2、Wo1和Wo2、Wg1和Wg2分别为遗忘门、输入门、输出门、中间变量的两个权重矩阵,bf、bi、bo和bg分别为遗忘门、输入门、输出门、中间变量的偏置向量,权重矩阵和偏置是需要训练的参数,通过正太分布进行初始化,使用adam算法迭代更新;σ(·)和tanh(·)为激活函数,σ(·)表示sigmoid函数,tanh(·)为双切正切函数,取值范围为[-1,1];h0、c0设置为满足正太分布的随机值;
本发明将正向LSTM和反向LSTM的最终输出的隐藏状态拼接为输入的症状向量序列的全局特征(将两种类型的症状向量序列分别输入两个双向LSTM模型,可以获得两种类型的全局特征),然后把全局特征放到带有sigmoid激活单元的输出层,得到概率向量,概率向量的每一维度的值表示输入的症状向量序列与该维度对应的疾病标签相关的概率;具体描述如下:
1)将症状向量序列中的第一至最后一个症状向量按顺序依次作为第一至最后一步的输入双向LSTM模型的症状向量,最后一步得到的ht即为正向LSTM的最终输出的隐藏状态,记为hforward;
将症状向量序列中的第一至最后一个症状向量按倒序依次作为第一至最后一步的输入双向LSTM模型的症状向量,最后一步得到的ht即为反向LSTM的最终输出的隐藏状态,记为hbackward;
2)将hforward和hbackward拼接为症状序列的全局特征,记为hconcatenate;设hforward和hbackward的维度为l,则hconcatenate的维度长度为2l;
3)把全局特征hconcatenate放到输出层,在输出层,hconcatenate首先被映射为维度为N(所有疾病标签的数量)的输出向量output(该过程可以表示为用大小为N×2l的参数矩阵W与hconcatenate相乘,得到output),此时输出向量中元素的取值范围为实数域;然后通过Sigmoid函数将output的每一维度的值从实数域映射到0-1之间,得到概率向量。
对于未知疾病标签的电子病历,将从中提取的症状序列对应的两种症状向量序列,分别输入两个训练好的双向LSTM模型,得到两个概率向量;最后对两个概率向量进行加权组合,得到最终的分类向量,表征该电子病历与各种疾病相关的概率。
有益效果:
本发明基于症状实体和特征表示进行电子病历的多标签分类。
因为症状信息反应了疾病的存在和特点以及病人的状况,所以作为初步诊断所依赖的可靠信息,症状会被记录在病历中。本发明通过症状进行电子病历的多标签的分类更加可靠,适用性更好。
不同的症状表示方法会影响电子病历的分类效果。本发明考虑症状与疾病的关联强度对分类的影响,使用TF-IDF构建症状向量作为输入训练双向LSTM模型;考虑到症状间的关联关系对分类的影响,使用了word2vec学习症状向量作为输入训练双向LSTM模型。最后结合已训练好的两个双向LSTM模型做最终的多标签分类。
因此,本发明不仅提取了电子病历文本中的症状作为特征,还考虑了症状与疾病的关联关系、症状间的关联关系对分类的影响,充分发挥了症状在电子病历分类中的作用,方法有效且准确性高。此外本方法不仅避免了全文本数据中冗余信息对分类的影响,还可以应用在病历文本中检验检测信息缺失的情况下电子病历的多标签分类。
附图说明
图1:本发明的流程图;
图2:双向LSTM网络结构图;
图3:不同权重分布的组合结果;图3(a)~图3(d)分别为第一双向LSTM模型(BiLSTM+TF-IDF)取不同权重时MiF1、Micro AUC、MaF1、Macro AUC这4个评价指标的结果。
具体实施方式
以下结合附图和具体实施方式对本发明进行进一步具体说明。
本发明公开了一种基于症状提取以其表征模型并使用双向循环的电子病历多标签分类方案。不仅症状与疾病之间的关联关系对电子病历的多标签分类很重要,同样,症状之间的关联关系也影响着电子病历的多标签分类,基于此,本发明结合了考虑了症状与疾病之间的关联关系的TF-IDF症状表示方案和考虑了症状之间的关联关系的Word2Vec症状表示方案。使用了MetaMap提取电子病历中的症状实体。采用了双向长短期记忆网络(BiLSTM)对提取得到的症状序列进行建模,模型输出所有标签的概率并根据阈值选择相关标签。本发明根据电子病历中症状实体进行多标签分类可以避免文本冗余信息的干扰提高多标签分类效果。
本发明有效性验证:
为了验证使用本发明【以下称为BiLSTM+SymVec(TF-IDF+Word2Vec)】进行多标签分类的有效性和相比于其他方法的性能优越性,将本方法应用于MINIC-III数据集的出院总结中常见的50种疾病和100种疾病标签进行分类。将方法BiLSTM+SymVec(TF-IDF+Word2Vec)与BiLSTM+SymVec、BiLSTM+SymVec(TF-IDF)、BiLSTM+SymVec(Word2Vec)和DeepLabeler等4个其他方法在预测的微平均准确率(MiP)、微平均召回率(MiR)、微平均F1(MiF1)、微平均曲线下面积(Micro AUC)、宏平均准确率(MaP)、宏平均召回率(MaR)、宏平均F1(MaF1)和宏平均曲线下面积(Macro AUC)等8个评价指标进行了比较。其中MiP、MiR、MiF1、MaP、MaR和MaF1的计算公式如下:
其中,表示样本j与疾病标签i是否相关的真实值,有两种取值,即0和1,表示样本j与疾病标签i无关,表示样本j与疾病标签i相关;表示模型对样本j与疾病标签i是否相关的预测值,若通过模型输出的两者相关概率小于0.5,则表示模型预测样本j与疾病标签i无关,若通过模型输出的两者相关概率大于或等于0.5,则表示模型预测该样本j与疾病标签i相关。
DeepLabeler和BiLSTM+Word2Vec都以全文本作为输入,其中BiLSTM+Word2Vec使用Word2Vec来表示全文的单词序列,使用全文的单词序列作为输入。为了与这两个模型进行比较,本发明使用了不同症状表示方案的BiLSTM:使用TF-IDF的BiLSTM和使用Word2Vec的BiLSTM。然后将这两个模型组合为BiLSTM+SymVec(TF-IDF+Word2Vec)即本发明中使用的模型,其为BiLSTM+SymVec(TF-IDF)和BiLSTM+SymVec(Word2Vec)的输出得分的加权和,权重为0.5。
表1不同模型在50种常见疾病标签的分类性能(微平均)
表2不同模型在100种常见疾病标签的分类性能(微平均)
表3不同模型在50种常见疾病标签的分类性能(宏平均)
表4不同模型在100种常见疾病标签的分类性能(宏平均)
如表1所示,本发明提出的模型优于DeepLabeler和BiLSTM+Word2Vec,这说明症状在多标签分类中起着重要的作用。与仅使用TF-IDF和Word2Vec的BiLSTM相比,BiLSTM+SymVec(TF-IDF+Word2Vec)的结果得到进一步改善。这是因为BiLSTM可以很好地从TF-IDF和Word2Vec的症状表示方案中提取不同类型的全局特征。本发明还对100种常见的疾病标签进行了相同的实验,如表2所示,本发明的模型在所有指标上的表现也都优于其他模型,进一步表明模型BiLSTM+SymVec(TF-IDF+Word2Vec)是最好的。表1和表2的结果显示,不管是在50种常见疾病还是在100种常见疾病的多标签分类的表现,BiLSTM+SymVec都要优于DeepLabeler和BiLSTM+Word2Vec,尤其是组合了TF-IDF和Word2Vec的BiLSTM+SymVec(TF-IDF+Word2Vec)的结果是最好的。多标签分类的宏平均评估结果如表3和表4所示,可得到与前面微平均一致的结论。但宏平均各项指标的值都比微平均小,尤其是在常见100种疾病标签的分类结果。原因是宏平均指标更容易受到样本数较小标签的影响,微平均指标更容易受到样本数较多的标签的影响。
为了进一步分析TF-IDF和Word2Vec的权重变化对多标签分类结果的影响,比较了BiLSTM+SymVec(TF-IDF+Word2Vec)与不同权重分布的结果。
如图3所示,当第一双向LSTM模型(BiLSTM+TF-IDF)的权重从0.3变化为0.8时,所有四个指标的结果都相当相近。当权重在0.5和0.7之间时,结果最佳。因此,在本发明中,将0.5设置为默认权重。
综上所述,本发明所提出的基于双向循环和症状提取的电子病历多标签分类方法在预测的性能、准确性、实际应用等方面都具有重要作用。
Claims (7)
1.基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,包括以下步骤:
步骤1、获取已知疾病标签的电子病历集合作为样本集;
步骤2、从样本集中提取症状序列;将样本集中各个样本与疾病标签的映射关系转换为症状与疾病标签的映射关系;
对于症状i,统计其与多少疾病标签存在映射关系,以及与每个疾病标签存在映射关系的次数,并根据统计数据使用TF-IDF模型构建其第一症状向量x1i,其中i=1,2,…,M,M为所有症状的个数;
由所有症状的第一症状向量构成症状向量序列X1,X1={x11,x12,…,x1i,…,x1M};
步骤3、基于样本集中的电子病历文本训练word2vec模型,训练完成之后,使用word2vec模型将每个症状映射为一个症状向量,称为第二症状向量,其中症状i映射得到的第二症状向量记为x2i;由所有症状的第二症状向量构成症状向量序列X2,X2={x21,x22,…,x2i,…,x2M};
步骤4、对于样本集中的每一个电子病历,分别构建其对应的第一症状向量序列、第二症状向量序列和疾病标签向量;
构建一个电子病历对应的第一症状向量序列和第二症状向量序列的方法为:
首先从其中提取症状序列;然后对于症状序列中的每一个症状k,分别从X1和X2中找出其第一症状向量x1k和第二症状向量x2k;由症状序列中所有症状的第一症状向量构成该电子病历对应的第一症状向量序列X′1={x1k},所有症状的第二症状向量构成该电子病历对应的第二症状向量序列X′2={x2k},其中k∈{1,2,…,M};
构建电子病历的疾病标签向量,其维数等于所有疾病标签的个数N,每一维度对应一个疾病标签,若该电子病历带有某一疾病标签,则疾病标签向量中相应维度的取值为1,若该电子病历不带某一疾病标签,则疾病标签向量中相应维度的取值为0;
步骤5、训练两个双向LSTM模型;训练过程为:
将样本对应的第一症状向量序列和疾病标签向量作为第一双向LSTM模型的输入序列和输出,训练第一双向LSTM模型;
将样本对应的第二症状向量序列和疾病标签向量作为第二双向LSTM模型的输入序列和输出,训练第二双向LSTM模型;
每一个训练好的双向LSTM模型的输出都是一个概率向量,表示与输入的症状向量序列相应的电子病历与各种疾病标签相关的概率;
步骤6、对于未知疾病标签的电子病历,首先构建其对应的第一症状向量序列和第二症状向量序列;再将其对应的第一症状向量序列和第二症状向量序列分别输入两个训练好的双向LSTM模型,得到两个概率向量;最后,对两个概率向量进行加权组合,得到最终的分类向量,表征该电子病历与各种疾病标签相关的概率。
2.根据权利要求1所述的基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,所述步骤1中,从MIMIC-III数据集中获取出院总结作为样本。
3.根据权利要求1所述的基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,所述步骤2和步骤5中,基于Metamap工具从电子病历中提取症状序列。
4.根据权利要求3所述的基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,基于Metamap工具从电子病历中提取症状序列前,先根据电子病历各部分的标题过滤掉不包含症状信息的部分,然后使用MetaMap处理,方法为:首先根据语义类型过滤掉与症状无关的实体,筛选出症状实体,再根据上下文环境从筛选出的症状实体中过滤掉在否定语境中的症状实体,从而提取出症状序列。
6.根据权利要求1所述的基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,所述步骤3中,先对电子病历文本进行预处理,去除文本中的停用词,再基于预处理后的文本训练word2vec模型。
7.根据权利要求1所述的基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,所述步骤6中,对两个概率向量进行加权组合计算最终的分类向量时,两个概率向量的权重均设置为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811388476.1A CN109460473B (zh) | 2018-11-21 | 2018-11-21 | 基于症状提取和特征表示的电子病历多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811388476.1A CN109460473B (zh) | 2018-11-21 | 2018-11-21 | 基于症状提取和特征表示的电子病历多标签分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109460473A CN109460473A (zh) | 2019-03-12 |
CN109460473B true CN109460473B (zh) | 2021-11-02 |
Family
ID=65611164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811388476.1A Active CN109460473B (zh) | 2018-11-21 | 2018-11-21 | 基于症状提取和特征表示的电子病历多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109460473B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993227B (zh) * | 2019-03-29 | 2021-09-24 | 京东方科技集团股份有限公司 | 自动添加国际疾病分类编码的方法、系统、装置和介质 |
CN110123274A (zh) * | 2019-04-29 | 2019-08-16 | 上海电气集团股份有限公司 | 一种脓毒血症的监测系统 |
CN110222709B (zh) * | 2019-04-29 | 2022-01-25 | 上海暖哇科技有限公司 | 一种多标签智能打标方法及系统 |
CN110491499A (zh) * | 2019-07-10 | 2019-11-22 | 厦门大学 | 面向标注电子病历的临床辅助决策方法及系统 |
CN110427486B (zh) * | 2019-07-25 | 2022-03-01 | 北京百度网讯科技有限公司 | 身体病况文本的分类方法、装置及设备 |
CN110391026B (zh) * | 2019-07-25 | 2022-04-26 | 北京百度网讯科技有限公司 | 基于医疗概率图的信息分类方法、装置及设备 |
CN110600123A (zh) * | 2019-08-29 | 2019-12-20 | 成都信息工程大学 | 一种中医临床辅助诊断方法 |
CN110688487A (zh) * | 2019-09-29 | 2020-01-14 | 中国建设银行股份有限公司 | 一种文本分类的方法和装置 |
CN111291550B (zh) * | 2020-01-17 | 2021-09-03 | 北方工业大学 | 一种中文实体提取方法及装置 |
CN112331287A (zh) * | 2020-04-26 | 2021-02-05 | 吴九云 | 基于人工智能的智慧医疗病历管理方法及系统 |
CN113627449A (zh) * | 2020-05-07 | 2021-11-09 | 阿里巴巴集团控股有限公司 | 模型训练方法及装置、标签确定方法及装置 |
CN111627561B (zh) * | 2020-05-25 | 2023-05-12 | 讯飞医疗科技股份有限公司 | 标准症状抽取方法、装置、电子设备和存储介质 |
CN111785385A (zh) * | 2020-06-29 | 2020-10-16 | 微医云(杭州)控股有限公司 | 疾病分类方法、装置、设备和存储介质 |
CN111785369B (zh) * | 2020-06-30 | 2024-04-05 | 讯飞医疗科技股份有限公司 | 诊断预测方法、相关设备及可读存储介质 |
CN112016295B (zh) * | 2020-09-04 | 2024-02-23 | 平安科技(深圳)有限公司 | 症状数据处理方法、装置、计算机设备及存储介质 |
CN112182217B (zh) * | 2020-09-28 | 2024-07-12 | 云知声智能科技股份有限公司 | 多标签文本类别的识别方法、装置、设备和存储介质 |
CN112287665B (zh) * | 2020-10-19 | 2024-05-03 | 南京南邮信息产业技术研究院有限公司 | 基于自然语言处理和集成训练的慢病数据分析方法及系统 |
CN112308131B (zh) * | 2020-10-29 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 样本拒识方法、装置、设备及存储介质 |
CN114048320B (zh) * | 2022-01-12 | 2022-03-29 | 成都信息工程大学 | 一种基于课程学习的多标签国际疾病分类训练方法 |
CN116543918B (zh) * | 2023-07-04 | 2023-09-22 | 武汉大学人民医院(湖北省人民医院) | 多模态疾病特征的提取方法及装置 |
CN116578711B (zh) * | 2023-07-06 | 2023-10-27 | 武汉楚精灵医疗科技有限公司 | 腹痛特征提取方法、装置、电子设备及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649413A (zh) * | 2015-11-04 | 2017-05-10 | 阿里巴巴集团控股有限公司 | 一种网页标签的分组方法和装置 |
US9767182B1 (en) * | 2016-10-28 | 2017-09-19 | Searchmetrics Gmbh | Classification of search queries |
US11182435B2 (en) * | 2016-11-25 | 2021-11-23 | Nippon Telegraph And Telephone Corporation | Model generation device, text search device, model generation method, text search method, data structure, and program |
CN106649818B (zh) * | 2016-12-29 | 2020-05-15 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
US11537845B2 (en) * | 2017-04-12 | 2022-12-27 | Yodlee, Inc. | Neural networks for information extraction from transaction data |
CN107798624B (zh) * | 2017-10-30 | 2021-09-28 | 北京航空航天大学 | 一种软件问答社区中的技术标签推荐方法 |
CN107832400B (zh) * | 2017-11-01 | 2019-04-16 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108268444B (zh) * | 2018-01-10 | 2021-11-02 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
CN108520780B (zh) * | 2018-03-07 | 2021-08-06 | 中国科学院计算技术研究所 | 一种基于迁移学习的医学数据处理和系统 |
CN108764280B (zh) * | 2018-04-17 | 2021-04-27 | 中国科学院计算技术研究所 | 一种基于症状向量的医学数据处理方法和系统 |
-
2018
- 2018-11-21 CN CN201811388476.1A patent/CN109460473B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109460473A (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460473B (zh) | 基于症状提取和特征表示的电子病历多标签分类方法 | |
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
US20240203599A1 (en) | Method and system of for predicting disease risk based on multimodal fusion | |
CN111382272B (zh) | 一种基于知识图谱的电子病历icd自动编码方法 | |
Amir et al. | Quantifying mental health from social media with neural user embeddings | |
CN109949936B (zh) | 一种基于深度学习混合模型的再住院风险预测方法 | |
Lin et al. | User-level psychological stress detection from social media using deep neural network | |
Yao et al. | A convolutional neural network model for online medical guidance | |
CN110705293A (zh) | 基于预训练语言模型的电子病历文本命名实体识别方法 | |
Fang et al. | Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis. | |
CN109635280A (zh) | 一种基于标注的事件抽取方法 | |
CN106874643A (zh) | 基于词向量自动构建知识库实现辅助诊疗的方法和系统 | |
CN109036577A (zh) | 糖尿病并发症分析方法及装置 | |
CN114628008B (zh) | 一种基于异质图注意力网络的社交用户抑郁倾向检测方法 | |
CN113449204B (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN112541066A (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
CN114188022A (zh) | 一种基于TextCNN模型的临床儿童咳嗽智能预诊断系统 | |
Ma et al. | Constructing a semantic graph with depression symptoms extraction from twitter | |
Shi et al. | DeepDiagnosis: DNN-based diagnosis prediction from pediatric big healthcare data | |
CN112069825A (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
CN117194604B (zh) | 一种智慧医疗病患问诊语料库构建方法 | |
Leng et al. | Bi-level artificial intelligence model for risk classification of acute respiratory diseases based on Chinese clinical data | |
Wei et al. | Embedding electronic health records for clinical information retrieval | |
CN113284627A (zh) | 基于患者表征学习的用药推荐方法 | |
Hua et al. | A character-level method for text classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221101 Address after: No. 678, Qingshan Road, Yuelu District, Changsha City, Hunan Province 410006 Patentee after: HUNAN CREATOR INFORMATION TECHNOLOGIES Co.,Ltd. Address before: Yuelu District City, Hunan province 410083 Changsha Lushan Road No. 932 Patentee before: CENTRAL SOUTH University |
|
TR01 | Transfer of patent right |