CN115101198B - 一种面向临床问诊记录的疾病预测方法与装置 - Google Patents
一种面向临床问诊记录的疾病预测方法与装置 Download PDFInfo
- Publication number
- CN115101198B CN115101198B CN202210480067.4A CN202210480067A CN115101198B CN 115101198 B CN115101198 B CN 115101198B CN 202210480067 A CN202210480067 A CN 202210480067A CN 115101198 B CN115101198 B CN 115101198B
- Authority
- CN
- China
- Prior art keywords
- abbreviation
- clinical
- data
- vector
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 62
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000013480 data collection Methods 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 82
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种面向临床问诊记录的疾病预测方法与装置,方法包括以下步骤:临床缩略语的自动识别和资料采集;数据预处理;模型训练;模型测试与疾病预测。本发明借助注意力机制对重要内容的关注,构建了基于分层的双向GRU神经网络训练方法,将人借助外部资料理解缩略语本身含义的方式应用到疾病预测方法中,进而保证预测方法的准确性和可解释性。本发明打破了以往只关注源临床文本的方式,设计了自动识别缩略语和收集资料的装置,以扩展缩略语的知识信息,有效地提高缩略语的信息含量,使临床问诊记录整体的信息得到丰富,进一步提高疾病预测的准确性。
Description
技术领域
本发明涉及一种面向临床问诊记录的疾病预测方法与装置,属于互联网和人工智能技术领域。
背景技术
随着人们健康意识的不断提高,临床问诊记录成为了人们评估早期患病风险的重要依据。临床问诊记录中包含着患者的身体状态、患病历史、治疗经过、发病症状描述等信息,这些信息的记录方式通常是非标准的自由文本,记录人经常会使用简短而方便标记的专业术语、缩略词、专业词汇等进行书写,我们将此类短语称为缩略语。缩略语的大量存在会使得临床问诊难以被人们直接理解,为了解决阅读困难和理解偏差,人们通常需要借助有关该缩略语的解释文字、说明文档等资料帮助理解。这种理解信息的方式对人工智能在医疗领域的发展与应用是有启发意义的,借助外部相关的资料,可以帮助人工智能疾病预测模型理解问诊记录中的缩略语,丰富缩略语的特征信息,从而帮助相关模型进行更有效的风险预测。
对于临床问诊记录进行疾病预测的方法一般有基于标准输入结构、人工提取特征的机器学习方法,如随机森林,XGBoost等,也有基于分层神经网络结构的、自动学习特征表示的深度学习方法。机器学习方法通常需要人工将相关数据整理成固定统一的格式,如表格型,数据中的特征也是按照研究的侧重点人工划分并统计标记的。这类方法十分依赖人对数据特征的关注和挖掘,在已经经过特征工程的数据集上可以得到一定的应用。但是在临床问诊记录中,为了记录的方便记录者经常会使用非正式的书写标记、写作风格、冗余信息,此类记录难以通过人工抽取特征来建模疾病预测,完全依赖人工的方式也会十分耗时耗力。
基于分层神经网络结构的、自动学习特征表示的深度学习方法如循环神经网络(Recurrent Neural Network,RNN)、长短期神经网络(Long short-term memory,LSTM)、预训练模型Bert,都是通过建模原始输入的词向量,通过隐藏层的向量融合表示和反向传播等机制自动地抽取原始输入的特征表示,进一步应用到各种非标准输入的各种任务中去,如推理、预测分类等,不需要依赖人工进行特征工程,只需要简单的预处理等工作,这对很多人工智能对临床问诊记录做疾病预测是十分契合的。然而,多数研究者都将研究的重点集中在如何利用注意力机制获取记录中的重要信息或学习更多更复杂向量表示融合进隐藏层信息上。这种做法只注重从原文信息上关注重点部分,缺乏信息的缩略语等标记容易因为得信息不充分而得不到应有的关注,导致一些重点的缩略语无法对疾病预测结果产生有效影响,进而直接影响预测的准确性。
发明内容
针对现有技术中存在的问题,本发明在深度学习的相关模型基础上,尝试将人们常用的查资料的理解缩略语的方式应用到模型的疾病预测任务中,借助外部的相关资料丰富缩略语的信息表达,为疾病预测任务提供信息指导以提高模型预测的准确性。基于这种思想,本发明提出了一种面向临床问诊记录的疾病预测方法与装置,利用分层双向的GRU神经网络得到词向量表示,设计了自动识别临床缩略语和自动收集缩略语拓展资料的程序,打破传统的方法中只关注和依赖源文本的方式,自动扩展和丰富临床缩略语所包含的信息,并借助注意力机制对向量进行加权计算,进而提升疾病预测任务的准确性。
为了达到上述目的,本发明提供如下技术方案:
一种面向临床问诊记录的疾病预测方法,包括如下步骤:
步骤1:临床缩略语的自动识别和资料采集
通过专业的缩略语词典和自建缩略语资料库自动识别临床问诊记录中的缩略语,建立对应的缩略语标记列表,之后通过自动采集装置从专业网站、专业缩略语词典、临床资料库中搜索收集相关解释资料;
步骤2:数据预处理
对数据集中每一个临床问诊记录进行预处理,将预处理后的数据进行分割形成训练集、验证集和测试集;
步骤3:模型训练
首先将步骤2预处理的模型输入数据送入BERT模型进行词向量编码,得到临床问诊记录和缩略语拓展资料的单词向量表示,将临床问诊记录的单词向量表示输入进双向GRU神经网络对词向量进行嵌入,获得临床问诊记录的上下文语义表示;同时,对缩略语的拓展资料进行相同的处理,得到缩略语拓展资料的上下文语义表示;然后使用步骤2的缩略语位置标记取出临床问诊记录上下文语义向量中的缩略语上下文语义向量,利用注意力机制对缩略语上下文语义向量和对应拓展资料的上下文语义表示进行加权计算,得到融入拓展资料信息的缩略语特征向量,再通过设置自学习的参数矩阵自动学习缩略语特征向量对预测结果的影响程度;之后将融合拓展资料后的特征嵌入表示替换缩略语上下文语义向量,接着将临床文本语义向量经过双向GRU神经网络获得临床问诊记录的特征向量序列,并再次利用Attention机制将文本特征向量与预测结果做注意力加权计算,通过全连接神经网络和激活函数得到疾病预测结果,模型的训练是通过损失函数损失计算反向传递更新各权重参数,得到训练好的模型;
步骤4:模型测试与疾病预测
根据训练所得到的最佳模型,对待测试数据集进行预测检验:先对测试文本进行预处理,然后根据步骤2构建模型的输入形式,最后根据步骤3中训练好的疾病预测模型,得到疾病预测结果。
进一步的,所述步骤2中预处理包含:数据清洗、停用词处理、标记缩略语的位置、将缩略语对应资料规格化处理并存放、对模型输入数据进行格式处理。
进一步的,所述步骤3具体包括如下子步骤:
子步骤3-1,构建临床问诊记录编码层
一个长度为n的临床记录文本,其输入序列表示为x=<x1,x2,...,xn>,将其输入进BERT模型得到临床记录文本词向量h=<h1,h2,…,hn>,通过双向GRU神经网络之后,得到临床记录的上下文语义表示向量Hgru,并使用步骤2的缩略语位置标记从Hgru中取出缩略语的上下文语义向量Hgru-abb;上述通过双向GRU融入临床问诊记录上下文信息的过程公式为:
子步骤3-2,获得缩略语拓展资料的上下文语义表示
采用另一个双层GRU神经网络对临床缩略语拓展资料进行嵌入表示,和步骤3-1公式相同,得到拓展资料的上下文语义表示Hdata;
子步骤3-3,结合注意力机制对缩略语拓展资料进行提取
借助注意力机制计算缩略语上下文语义向量和缩略语,来建模上述缩略语拓展资料和缩略语上下文语义向量相互影响的关系;其中注意力机制在本步骤中的计算方式如下:
Hattr=softmax[WqHgru-abb(WkHdata)T]WvHdata(4)
临床问诊记录的缩略语上下文语义向量作为Query查询向量Wq,将拓展资料向量作为待匹配的[key,value],即被查询信息与其他信息相关性的向量Wk和被查询信息的向量Wv;通过相似性计算得到有关临床问诊记录上下文的缩略语上下文语义向量和缩略语拓展资料向量的相关性,用softmax将相关性数值归一化为影响因子参数,最后通过该参数将两者信息加权计算进行融合,即融合拓展资料信息的缩略语向量化表示Hattr;
子步骤3-4,对融入了拓展资料的缩略语向量化表示Hattr和原缩略语词上下文语义向量Hgry-abb进行融合,得到融合拓展资料后的特征嵌入表示Habb,对应的公式为:
Habb=WaHgru-abb+WbHattr(5)
其中,Wa表示原缩略语向量表示Hgru-abb的对预测结果的影响程度,Wb表示拓展资料的向量化表示Hattr对预测结果的影响程度,两者都是可学习的参数矩阵;
子步骤3-5,最后将融合拓展资料后的特征嵌入表示Habb替换原有的临床问诊记录Hgru的缩略语上下文语义向量,然后将临床问诊记录的上下文语义表示通过双向GRU神经网络,得到融合拓展资料和问诊记录上下文的特征向量序列,再次通过注意力机制加权计算得到用于预测的结果序列,并通过全连接神经网络和激活函数得到疾病预测结果;
子步骤3-6,训练损失
采用随机初始化的方式对所有的参数进行初始化,使用Adam优化器加快模型的收敛速度,设置学习率会随训练步数的增加而逐渐衰减,使用交叉熵作为模型的损失函数,同时模型训练结束时保存在验证集上表现最好的模型。
进一步的,所述步骤4中还利用准确率、召回率和F1 Score评价标准进行评价,检验预测方法的性能。
进一步的,具体评价方法为:
其中,TP表示正类被正确预测为正类的数量,对应着患病预测和真实患病分类吻合的数量;FP表示正类被错误预测为负类的数量,对应着患病预测和真实患病分类不吻合的数量,FN表示负类被错误预测为正类的数量。
本发明还提供了一种面向临床问诊记录的疾病预测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述面向临床问诊记录的疾病预测方法。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明借助注意力机制对重要内容的关注,构建了基于分层的双向GRU神经网络训练方法,将人借助外部资料理解缩略语本身含义的方式应用到疾病预测方法中,进而保证预测方法的准确性和可解释性。
2.本发明打破了以往只关注源临床文本的方式,设计了自动识别缩略语和收集资料的装置,以扩展缩略语的知识信息,有效地提高缩略语的信息含量,使临床问诊记录整体的信息得到丰富,进一步提高疾病预测的准确性。
3.本发明避免了传统临床问诊预测方法过度依赖海量的标准数据的问题,通过识别和拓展缩略语的专业资料来丰富其特征信息,在一定程度上可以改善传统方法在小数据量的训练任务上表现不佳等问题,进而提升下游任务如分类预测任务的准确性。
附图说明
图1为本发明提供的面向临床问诊记录的疾病预测方法流程图。
图2为本发明的整体模型图。
图3为临床缩略语自动识别和自动收集拓展资料装置图。
图4为结合注意力机制的分层GRU神经网络模型架构图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供的一种面向临床问诊记录的疾病预测方法,其流程如图1所示,首先对临床问诊记录中的缩略语进行自动识别,并自动收集拓展资料,之后对所有数据进行预处理;接着,模型主要为两层的GRU神经网络,上下层的隐层均使用双向的GRU模型做上下文的信息融合转换。上层是问诊记录原文的编码表示层,下层是各扩展资料的编码表示层,上下层的层级交点是原问诊记录的缩略语,下层借助注意力机制帮助模型筛选拓展资料中的重要信息,聚焦真正有用的资料内容可以促进训练时模型权重的合理分配,上层融合下层提供的关于缩略语的特征向量,之后借助注意力机制分配权重进行训练,从而得到最终的问诊记录整体特征向量表示,最后通过softmax归一化之后做疾病预测。本发明具体模型参见图2、图3、图4,方法的详细实施步骤如下:
步骤1,临床缩略语的自动识别和资料采集
通过专业的缩略语词典和自建缩略语资料库自动识别临床问诊记录中的缩略语,建立对应的缩略语标记列表。本发明设计了一种基于规则和专业词典的缩略语识别器(如图3所示),借助已经收集的缩略语词典,通过编写相应的程序使用正则化方式自动地识别存在于问诊记录中的缩略语,这样的自动化识别方式可以省去人工的处理,而且比人工更为高效,且因为词典是耦合于程序的,可以不断地更新和丰富。随后通过自动采集装置从专业网站、专业缩略语词典、临床资料库等各资料来源途径中搜索收集相关解释资料。本发明同时筛选了若干资料来源途径,包括权威的医学百科网站、常用的医学缩略语词典以及临床资料库来帮助补充相关的资料。这里的资料搜索是利用爬虫程序完成的,既可以抓取网页数据,也可以配置和访问自建资料库。补充资料的内容十分影响缩略语向量表达的有效性,为了更好的实际效果,在多途径获取到相关资料之后,资料搜索程序会将他们拼接起来以丰富补充资料的内容。
步骤2,数据预处理。为了能保证数据更适用于所设计的模型训练,对数据集中每一个临床问诊记录进行预处理,首先对数据进行数据清洗,包括数据集中临床问诊记录、缩略语拓展资料,然后进行停用词处理、标记缩略语的位置、将缩略语对应资料规格化处理并存放、对模型输入数据进行格式处理。最后将所有得到的数据按照8:1:1进行分割形成训练集、验证集和测试集。
步骤3,模型构建和训练。利用步骤2处理后的数据集对分层双向GRU模型进行训练,该步骤的实施可以分为以下子步骤:
子步骤3-1,构建临床问诊记录编码层。一个长度为n的临床记录文本,其输入序列可以表示为x=<x1,x2,...,xn>,将其输入进BERT模型得到临床记录文本词向量h=<h1,h2,…,hn>,通过双向GRU神经网络之后,得到临床记录的上下文语义表示向量Hgru,并使用步骤2的缩略语位置标记从Hgru中取出缩略语的上下文语义向量Hgru-abb。上述通过双向GRU融入临床问诊记录上下文信息的过程公式为:
子步骤3-2,获得缩略语拓展资料的上下文语义表示。本发明实施采用另一个双层GRU神经网络编码器对临床缩略语拓展资料进行嵌入表示,和步骤3-1公式相同,得到拓展资料Hdata。
子步骤3-3,结合注意力机制对缩略语拓展资料进行提取。借助注意力机制计算缩略语上下文语义向量和缩略语,来建模上述缩略语拓展资料和缩略语上下文语义向量相互影响的关系。其中注意力机制在本步骤中的计算方式如下:
Hattr=softmax[WqHgru-abb(WkHdata)T]WvHdata(4)
临床问诊记录的缩略语上下文语义向量作为Query查询向量Wq,将拓展资料向量作为待匹配的[key,value],即被查询信息与其他信息相关性的向量Wk和被查询信息的向量Wv。通过相似性计算得到有关临床问诊记录上下文的缩略语上下文语义向量和缩略语拓展资料向量的相关性,用softmax将相关性数值归一化为影响因子参数,最后通过该参数将两者信息加权计算进行融合,即融合拓展资料信息的缩略语向量化表示Hattr。
子步骤3-4,对融入了拓展资料的缩略语向量化表示Hattr和原缩略语词上下文语义向量Hgry-abb进行融合。为了让模型自动学习资料对预测结果应有的影响,在本步骤设置了两个可学习的参数矩阵Wa和Wb,分别对应着原缩略语上下文语义向量Hgru-abb的对预测结果的影响程度,和融合拓展资料信息的缩略语向量化表示Hattr对预测结果的影响程度,两者都是可学习的参数矩阵,得到融合拓展资料后的特征嵌入表示Habb,对应的公式为:
Habb=WaHgru-abb+WbHattr(5)
子步骤3-5,最后将融合拓展资料后的特征嵌入表示Habb替换原有的临床问诊记录Hgru的缩略语上下文语义向量,然后将临床问诊记录的上下文语义表示通过双向GRU神经网络,得到融合拓展资料和问诊记录上下文的特征向量序列,再次通过注意力机制加权计算得到用于预测的结果序列,并通过全连接神经网络和激活函数得到疾病预测结果。
子步骤3-6,训练损失。本实例采用随机初始化的方式对所有的参数进行初始化,实验使用Adam优化器加快模型的收敛速度,初始学习率设置为0.001,同时设置了学习率会随训练步数的增加而逐渐衰减;将dropout设置为0.3,缓解训练中的过拟合问题,将batch_size设置为128,使用交叉熵作为模型的损失函数,同时模型训练结束时保存在验证集上表现最好的模型。
步骤4,疾病预测与模型测试。根据步骤3所得到的最佳验证模型,对测试数据集进行预测得到疾病预测结果。首先对数据进行步骤2的数据处理,并构建模型的输入形式,输入到步骤3的模型中,从而得到疾病预测结果,并与测试输入的标签做比较,检验模型的有效性。具体的评估计算方法为:
TP表示正类被正确预测为正类的数量,对应着患病预测和真实患病分类吻合的数量;FP表示正类被错误预测为负类的数量,对应着患病预测和真实患病分类不吻合的数量,FN表示负类被错误预测为正类的数量。
基于相同的发明构思,本发明一种面向临床问诊记录的疾病预测装置,该装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时可以实现上述的面向临床问诊记录的疾病预测方法。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (5)
1.一种面向临床问诊记录的疾病预测方法,其特征在于,包括如下步骤:
步骤1:临床缩略语的自动识别和资料采集
通过专业的缩略语词典和自建缩略语资料库自动识别临床问诊记录中的缩略语,建立对应的缩略语标记列表,之后通过自动采集装置从专业网站、专业缩略语词典、临床资料库中搜索收集相关解释资料;
步骤2:数据预处理
对数据集中每一个临床问诊记录进行预处理,将预处理后的数据进行分割形成训练集、验证集和测试集;
步骤3:模型训练
将步骤2预处理的模型输入数据送入BERT模型进行词向量编码,得到临床问诊记录和缩略语拓展资料的单词向量表示,然后将临床问诊记录的单词向量表示输入进双向GRU神经网络对词向量进行嵌入,获得临床问诊记录的上下文语义表示;同时,对缩略语的拓展资料进行相同的处理,得到缩略语拓展资料的上下文语义表示;然后使用步骤2的缩略语位置标记取出临床问诊记录上下文语义向量中的缩略语上下文语义向量,利用注意力机制对缩略语上下文语义向量和对应拓展资料的上下文语义表示进行加权计算,得到融入拓展资料信息的缩略语特征向量,再通过设置自学习的参数矩阵自动学习缩略语特征向量对预测结果的影响程度;之后将融合拓展资料后的特征嵌入表示替换缩略语上下文语义向量,接着将临床文本语义向量经过双向GRU神经网络获得临床问诊记录的特征向量序列,并再次利用Attention机制将文本特征向量与预测结果做注意力加权计算,通过全连接神经网络和激活函数得到疾病预测结果,模型的训练是通过损失函数损失计算反向传递更新各权重参数,得到训练好的模型;具体包括如下子步骤:
子步骤3-1,构建临床问诊记录编码层
一个长度为n的临床记录文本,其输入序列表示为x=<x1,x2,...,xn>,将其输入进BERT模型得到临床记录文本词向量h=<h1,h2,...,hn>,通过双向GRU神经网络之后,得到临床记录的上下文语义表示向量Hgru,并使用步骤2的缩略语位置标记从Hgru中取出缩略语的上下文语义向量Hgru-abb;上述通过双向GRU融入临床问诊记录上下文信息的过程公式为:
子步骤3-2,获得缩略语拓展资料的上下文语义表示
采用另一个双层GRU神经网络编码器对临床缩略语拓展资料进行嵌入表示,和步骤3-1公式相同,得到拓展资料Hdata;
子步骤3-3,结合注意力机制对缩略语拓展资料进行提取
借助注意力机制计算缩略语上下文语义向量和缩略语,来建模上述缩略语拓展资料和缩略语上下文语义向量相互影响的关系;其中注意力机制在本步骤中的计算方式如下:
Hattr=softmax[WqHgru-abb(WkHdata)T]WvHdata(4)
临床问诊记录的缩略语上下文语义向量作为Query查询向量Wq,将拓展资料向量作为待匹配的[key,value],即被查询信息与其他信息相关性的向量Wk和被查询信息的向量Wv;通过相似性计算得到有关临床问诊记录上下文的缩略语上下文语义向量和缩略语拓展资料向量的相关性,用softmax将相关性数值归一化为影响因子参数,最后通过该参数将两者信息加权计算进行融合,即融合拓展资料信息的缩略语向量化表示Hattr;
子步骤3-4,对融入了拓展资料的缩略语向量化表示Hattr和原缩略语词上下文语义向量Hgru-abb进行融合,得到融合拓展资料后的特征嵌入表示Habb,对应的公式为:
Habb=WaHgru-abb+WbHattr(5)
其中,Wa表示原缩略语向量表示Hgru-abb的对预测结果的影响程度,Wb表示拓展资料的向量化表示Hattr对预测结果的影响程度,两者都是可学习的参数矩阵;
子步骤3-5,最后将融合拓展资料后的特征嵌入表示Habb替换原有的临床问诊记录Hgru的缩略语上下文语义向量,然后将临床问诊记录的上下文语义表示通过双向GRU神经网络,得到融合拓展资料和问诊记录上下文的特征向量序列,再次通过注意力机制加权计算得到用于预测的结果序列,并通过全连接神经网络和激活函数得到疾病预测结果;
子步骤3-6,训练损失
采用随机初始化的方式对所有的参数进行初始化,使用Adam优化器加快模型的收敛速度,设置学习率会随训练步数的增加而逐渐衰减,使用交叉熵作为模型的损失函数,同时模型训练结束时保存在验证集上表现最好的模型;
步骤4:疾病预测与模型测试
根据训练所得到的最佳模型,对待测试数据集进行预测检验:先对测试文本进行预处理,然后根据步骤2构建模型的输入形式,最后根据步骤3中训练好的疾病预测模型,得到疾病预测结果。
2.根据权利要求1所述的面向临床问诊记录的疾病预测方法,其特征在于,所述步骤2中预处理包含:数据清洗、停用词处理、标记缩略语的位置、将缩略语对应资料规格化处理并存放、对模型输入数据进行格式处理。
3.根据权利要求1所述的面向临床问诊记录的疾病预测方法,其特征在于,所述步骤4中还利用准确率、召回率和F1 Score评价标准进行评价,检验预测方法的性能。
4.根据权利要求3所述的面向临床问诊记录的疾病预测方法,其特征在于,具体评价方法为:
其中,TP表示正类被正确预测为正类的数量,对应着患病预测和真实患病分类吻合的数量;FP表示正类被错误预测为负类的数量,对应着患病预测和真实患病分类不吻合的数量,FN表示负类被错误预测为正类的数量。
5.一种面向临床问诊记录的疾病预测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:该计算机程序被加载至处理器时实现权利要求1-4中任意一项所述的面向临床问诊记录的疾病预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210480067.4A CN115101198B (zh) | 2022-05-05 | 2022-05-05 | 一种面向临床问诊记录的疾病预测方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210480067.4A CN115101198B (zh) | 2022-05-05 | 2022-05-05 | 一种面向临床问诊记录的疾病预测方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115101198A CN115101198A (zh) | 2022-09-23 |
CN115101198B true CN115101198B (zh) | 2024-06-21 |
Family
ID=83287153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210480067.4A Active CN115101198B (zh) | 2022-05-05 | 2022-05-05 | 一种面向临床问诊记录的疾病预测方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115101198B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977361B (zh) * | 2017-12-06 | 2021-05-18 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN112562849B (zh) * | 2020-12-08 | 2023-11-17 | 中国科学技术大学 | 一种基于层次结构和共现结构的临床自动诊断方法及系统 |
CN113077901B (zh) * | 2021-03-31 | 2022-05-10 | 厦门大学 | 一种电子病历分析装置和方法 |
CN114188022A (zh) * | 2021-12-13 | 2022-03-15 | 浙江大学 | 一种基于TextCNN模型的临床儿童咳嗽智能预诊断系统 |
-
2022
- 2022-05-05 CN CN202210480067.4A patent/CN115101198B/zh active Active
Non-Patent Citations (2)
Title |
---|
基于BERT的中文电子病历命名实体识别;李灵芳;杨佳琦;李宝山;杜永兴;胡伟健;;内蒙古科技大学学报;20200315(第01期);全文 * |
融入语言模型和注意力机制的临床电子病历命名实体识别;唐国强;高大启;阮彤;叶琪;王祺;;计算机科学;20191122(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115101198A (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
CN110532557B (zh) | 一种无监督的文本相似度计算方法 | |
CN111444726A (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN110825721A (zh) | 大数据环境下高血压知识库构建与系统集成方法 | |
CN106557462A (zh) | 命名实体识别方法和系统 | |
CN111813950B (zh) | 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法 | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN113806563A (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口系统 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN113168499A (zh) | 检索专利文档的方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
Shi | Application of big data language recognition technology and GPU parallel computing in English teaching visualization system | |
CN115545021A (zh) | 一种基于深度学习的临床术语识别方法与装置 | |
CN117648429A (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN113377844A (zh) | 面向大型关系型数据库的对话式数据模糊检索方法及装置 | |
CN112507717A (zh) | 融合实体关键字特征的医疗领域实体分类方法 | |
CN115101198B (zh) | 一种面向临床问诊记录的疾病预测方法与装置 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |