CN111696674B - 一种电子病历的深度学习方法及系统 - Google Patents
一种电子病历的深度学习方法及系统 Download PDFInfo
- Publication number
- CN111696674B CN111696674B CN202010536344.XA CN202010536344A CN111696674B CN 111696674 B CN111696674 B CN 111696674B CN 202010536344 A CN202010536344 A CN 202010536344A CN 111696674 B CN111696674 B CN 111696674B
- Authority
- CN
- China
- Prior art keywords
- electronic medical
- medical record
- word
- data set
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 102
- 230000014509 gene expression Effects 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 15
- 238000012217 deletion Methods 0.000 claims abstract description 15
- 230000037430 deletion Effects 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- 239000010410 layer Substances 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 21
- 239000002356 single layer Substances 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 9
- 238000011835 investigation Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 206010019468 Hemiplegia Diseases 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 230000002490 cerebral effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 206010008190 Cerebrovascular accident Diseases 0.000 description 3
- 208000006011 Stroke Diseases 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 208000033952 Paralysis flaccid Diseases 0.000 description 2
- 210000004204 blood vessel Anatomy 0.000 description 2
- 208000028331 flaccid paralysis Diseases 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000001148 spastic effect Effects 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 208000035474 group of disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000451 tissue damage Effects 0.000 description 1
- 231100000827 tissue damage Toxicity 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种电子病历的深度学习方法及系统,S1:采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集,将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;S2:将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示;S3:采用双向GRU网络和注意力机制构建模型,并将所述电子病历词向量表示输入所述模型进行训练得到预测模型;S4:将新采集的电子病历数据通过步骤S1,S2进行预处理和词向量表示后,输入所述预测模型,得到预测结果;考虑不同词语及不同句子对结果预测的影响力不同,采用词层面和句子层面多层次注意力模型进行特征提取,提高预测准确率。
Description
技术领域
本发明涉及深度学习领域,具体涉及一种电子病历的深度学习方法及系统。
背景技术
脑卒中是一种急性脑血管疾病,是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一组疾病,且严重时会导致死亡,且脑卒中患者大多会造成偏瘫,因此能够及时了解自身是否存在脑卒中的偏瘫可能性,从而进行及时的就医治疗。随着机器学习、数据挖掘等技术在医疗领域的应用,基于患者情况实现计算机辅助诊断成为可能,但是这类方法主要使用患者医学信息进行特征提取,然后将特征提取结果进行分类,成本相对较高且不方便。且现有的机器学习方法无法判断偏瘫的程度。
发明内容
本发明所要解决的技术问题是如何通过电子病历中的查体情况和评估结果对偏瘫程度进行预测的问题,目的在于提供一种电子病历的深度学习方法及系统,解决上述问题。
本发明通过下述技术方案实现:
一种电子病历的深度学习方法,包括:
S1:采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集,将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;
S2:将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示;
S3:采用双向GRU网络和注意力机制构建模型,并将所述电子病历词向量表示输入所述模型进行训练得到预测模型;
S4:将新采集的电子病历数据通过步骤S1,S2进行预处理和词向量表示后,输入所述预测模型,得到预测结果。
本发明通过将电子病例中的专科查体结果和评估结果作为深度学习的训练数据,因为评估结果和专科查体结果中的数据内容存在文字描述,因此需要对所述专科查体结果和评估结果进行数据预处理和词向量转化,且在训练集中需要两种数据作为迭代学习的参考标准,因此需要将采集到的电子病历数据集中缺少专科查体结果或评估结果任意一项的数据删除,且因为电子病历中的专科查体结果和评估结果是由不同的医师撰写得到的,因此需要对专科查体结果和评估结果的具体内容进行表达统一的操作,并删除非必要的符号和停顿词,便于后面进行词向量转化时的操作。
进一步的,所述S1包括:
S11:将所述电子病历数据集中缺少专科查体结果或评估结果的数据进行删除;
S12:将进行数据删除后的电子病历数据集进行表达统一的操作;
S13:将进行表达统一操作后的电子病历数据集进行分词处理、标点符号去除和停用词过滤操作。
本发明采用python的第三方库jieba对电子病历中的查专科查体结果和评估结果的文本信息进行分词处理;经过分词处理后,文本还存在一些不具有任何信息的词语,如“的”、“及”、“及其”等,属于冗余信息,通过导入停用词表,将这些词语剔除。
将患者查体与评估结果看为一个文档,其中的每个词、句看为组成文档的词与句;
进一步的,所述S2包括:
S21:将所述电子病历数据集中每一个电子病历数据的专科查体结果与评估结果作为文档并进行词句划分;
S22:使用word2vec将进行词句划分后的所有文档进行分析得到词嵌入矩阵,根据所述词嵌入矩阵和词的一维one-hot向量得到电子病历词向量表示。
进一步的,假设每个文档中含有L个句子,第i个句子表示为si,i∈[1,L],设句子si中有T个单词,第t个单词的一维one-hot向量可表示为wit,t∈[1,T],使用word2vec得到词嵌入矩阵We,该矩阵与第t个单词的one-hot向量相乘即得到所述电子病历词向量表示:
xit=Wewit,t∈[1,T]
其中,xit表示词向量表示,We表示词嵌入矩阵,wit表示一维one-hot向量。
进一步的,所述S3包括:
S31:建立双向GRU网络;
S32:基于双向GRU网络及多重注意力机制提取所述电子病历词向量表示的特征;
S33:根据提取的特征建立预测模型后,将电子病历词向量表示数据集进行所述预测模型的训练。
本发明使用双向GRU网络,对单词正反两个方向的上下文信息进行汇总,得到单词特征hit,GRU网络模型中有两个门函数:分别是更新门zt和重置门rt,xt表示t时刻GRU网络的输入,ht表示t时刻的状态信息,表示当前记忆内容。
更新门
在时间步长t处,更新门计算公式如下,其中Wz表示更新门的权重,σ表示Sigmoid激活函数:
zt=σ(Wz·[ht-1,xt])
重置门
在时间步长t处,重置门计算公式如下,其中Wr表示重置门的权重:
rt=σ(Wr·[ht-1,xt])
当前记忆内容
当前记忆内容计算公式如下:
其中表示当前时刻输入数据生成当前状态信息的权重,tanh为双曲正切函数激活函数,计算如下:
进一步的,所述S31中双向GRU网络:
其中,ht表示当前时间步的状态信息,zt表示GRU网络的更新门,ht-1表示上一时刻的状态信息,表示当前记忆内容,xt表示t时刻GRU网络的输入。
本发明用ht=GRU(xt)表示GRU的传播过程。
进一步的,所述S32包括:
S321:提取单词的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到词向量特征,将所述词向量特征输入单层感知机后得到隐层表达,将所述隐层表达与单词上下文向量进行归一化操作得到归一化注意力权重;
S322:通过所述词向量特征和归一化注意力权重得到句子,提取句子的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到句子向量特征,将所述句子向量特征输入单层感知机后得到隐层表达,将所述隐层表达与句子上下文向量进行归一化操作得到句子归一化注意力权重;
S323:使用句子归一化注意力权重和句子向量特征得到电子病历词向量表示的特征。
使用GRU进行单词的前向传播,得到单词的前向传播特征
使用GRU进行单词的后向传播,得到单词的后向传播特征
进一步的,所述词向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
因为不同单词对预测结果的影响力不同,比如查体情况中“较差”、“无力”这种词汇更能反映患者身体状况,本发明通过增加注意力机制将对预测影响力更大的单词赋予更高的权重。
将词向量特征hit输入单层感知机,得到其隐层表达uit:
uit=tanh(Wwhit+bw)
其中Ww为权重系数,bw为偏置系数,Ww和bw都可以通过网络训练自动获得。
使用隐层表达uit和一个随机初始化的单词上下文向量uw通过softmax函数得到所述归一化注意力权重:
其中,uit表示单层感知机得到的隐层表达,uw表示单词上下文向量,T表示矩阵的转置运算。
通过所述词向量特征和归一化注意力权重得到句子:
使用与S321相同操作得到句子向量特征hi
进一步的,所述句子向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
将句子特征hi输入单层感知机,得到hi的隐层表达ui:
ui=tanh(Wshi+bs)
其中Ws为权重系数,bs为偏置系数,Ws和bs都可以通过网络训练自动获得。
引入注意力机制计算句子权重,句子级别上下文向量us通过随机初始化得到,通过softmax函数得到所述句子归一化注意力权重:
其中,ui表示单层感知机得到的隐层表达,us表示句子上下文向量,T表示矩阵的转置运算。
使用句子归一化注意力权重和句子向量特征得到电子病历词向量表示的特征:
通过softmax对上一步得到的患者特征进行分类:
p=softmax(Wcv+bc)
其中Wc为权重系数,bc为偏置系数,可以通过网络训练自动获得。p为一个1×3大小的矩阵,每个数值对应属于软瘫期、痉挛期和恢复期的概率,概率最大值即为对应的预测结果y′n。
使用N个训练样本对预测模型进行训练,将真实结果yn和模型预测分期结果y′n之间的交叉熵作为损失函数,定义如下:
其中,θ表示模型中所有待训练参数,包括神经元连接权重及偏置。
根据计算的代价值通过梯度下降方法反向传播至输入层,对网络参数进行迭代更新,使得代价最小,完成模型训练过程,保存模型参数。
一种电子病历的深度学习系统,包括:
采集模块,用于采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集;
预处理模块,用于将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;
数据处理模块,用于将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示数据集;
训练模块,用于将所述电子病历词向量表示数据集输入模型进行训练得到预测模型;
预测模块,用于将新采集的电子病历数据通过预处理模块和数据处理模块进行预处理和词向量表示后,输入训练模块,得到预测结果。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种电子病历的深度学习方法及系统,采用自然语言处理解决由于电子病历的评估项目不同而导致预测模型的输入长度不一致的问题;
2、本发明一种电子病历的深度学习方法及系统,考虑不同词语及不同句子对结果预测的影响力不同,采用词层面和句子层面多层次注意力模型进行特征提取,提高预测准确率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明流程图;
图2为本发明系统结构示意图;
图3为本发明另一流程示意图;
图4为本发明预测模型示意图;
图5为本发明GRU网络的单元结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1,图3所示,一种电子病历的深度学习方法,包括:
S1:采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集,将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;
S2:将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示;
S3:采用双向GRU网络和注意力机制构建模型,并将所述电子病历词向量表示输入所述模型进行训练得到预测模型;
S4:将新采集的电子病历数据通过步骤S1,S2进行预处理和词向量表示后,输入所述预测模型,得到预测结果。
进一步的,所述S1包括:
S11:将所述电子病历数据集中缺少专科查体结果或评估结果的数据进行删除;
S12:将进行数据删除后的电子病历数据集进行表达统一的操作;
S13:将进行表达统一操作后的电子病历数据集进行分词处理、标点符号去除和停用词过滤操作。
采用python的第三方库jieba对电子病历中的查专科查体结果和评估结果的文本信息进行分词处理;经过分词处理后,文本还存在一些不具有任何信息的词语,如“的”、“及”、“及其”等,属于冗余信息,通过导入停用词表,将这些词语剔除。
将患者查体与评估结果看为一个文档,其中的每个词、句看为组成文档的词与句;
进一步的,所述S2包括:
S21:将所述电子病历数据集中每一个电子病历数据的专科查体结果与评估结果作为文档并进行词句划分;
S22:使用word2vec将进行词句划分后的所有文档进行分析得到词嵌入矩阵,根据所述词嵌入矩阵和所述词的一维one-hot向量得到电子病历词向量表示。
进一步的,假设每个文档中含有L个句子,第i个句子表示为si,i∈[1,L],设句子si中有T个单词,第t个单词的一维one-hot向量可表示为wit,t∈[1,T],使用word2vec得到词嵌入矩阵We,该矩阵与第t个单词的one-hot向量相乘即得到所述电子病历词向量表示:
xit=Wewit,t∈[1,T]
其中,xit表示词向量表示,We表示词嵌入矩阵,wit表示一维one-hot向量。
进一步的,所述S3包括:
S31:建立双向GRU网络;
S32:基于双向GRU网络及多重注意力机制提取所述电子病历词向量表示的特征;
S33:根据提取的特征建立预测模型后,将电子病历词向量表示数据集进行所述预测模型的训练。
本发明使用双向GRU网络,对单词正反两个方向的上下文信息进行汇总,得到单词特征hit,一个GRU单元结构如图5所示,GRU网络模型中有两个门函数:分别是更新门zt和重置门rt,xt表示t时刻GRU网络的输入,ht表示t时刻的状态信息,表示当前记忆内容。
更新门
在时间步长t处,更新门计算公式如下,其中Wz表示更新门的权重,σ表示Sigmoid激活函数:
zt=σ(Wz·[ht-1,xt])
重置门
在时间步长t处,重置门计算公式如下,其中Wr表示重置门的权重:
rt=σ(Wr·[ht-1,xt])
当前记忆内容
当前记忆内容计算公式如下:
其中表示当前时刻输入数据生成当前状态信息的权重,tanh为双曲正切函数激活函数,计算如下:
如图4所示,进一步的,所述S31中双向GRU网络:
其中,ht表示当前时间步的状态信息,zt表示GRU网络的更新门,ht-1表示上一时刻的状态信息,表示当前记忆内容,xt表示t时刻GRU网络的输入。
本发明用ht=GRU(xt)表示GRU的传播过程。
进一步的,所述S32包括:
S321:提取单词的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到词向量特征,将所述词向量特征输入单层感知机后得到隐层表达,将所述隐层表达与单词上下文向量进行归一化操作得到归一化注意力权重;
S322:通过所述词向量特征和归一化注意力权重得到句子,提取句子的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到句子向量特征,将所述句子向量特征输入单层感知机后得到隐层表达,将所述隐层表达与句子上下文向量进行归一化操作得到句子归一化注意力权重;
S323:使用句子归一化注意力权重和句子向量特征得到电子病历词向量表示的特征。
使用GRU进行单词的前向传播,得到单词的前向传播特征
使用GRU进行单词的后向传播,得到单词的后向传播特征
进一步的,所述词向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
因为不同单词对预测结果的影响力不同,比如查体情况中“较差”、“无力”这种词汇更能反映患者身体状况,本发明通过增加注意力机制将对预测影响力更大的单词赋予更高的权重。
将词向量特征hit输入单层感知机,得到其隐层表达uit:
uit=tanh(Wwhit+bw)
其中Ww为权重系数,bw为偏置系数,Ww和bw都可以通过网络训练自动获得。
使用隐层表达uit和一个随机初始化的单词上下文向量uw通过softmax函数得到所述归一化注意力权重:
其中,uit表示单层感知机得到的隐层表达,uw表示单词上下文向量,T表示矩阵的转置运算。
通过所述词向量特征和归一化注意力权重得到句子:
使用与S321相同操作得到句子向量特征hi
进一步的,所述句子向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
将句子特征hi输入单层感知机,得到hi的隐层表达ui:
ui=tanh(Wshi+bs)
其中Ws为权重系数,bs为偏置系数,Ws和bs都可以通过网络训练自动获得。
引入注意力机制计算句子权重,句子级别上下文向量us通过随机初始化得到,通过softmax函数得到所述句子归一化注意力权重:
其中,ui表示单层感知机得到的隐层表达,us表示句子上下文向量,T表示矩阵的转置运算。
使用句子归一化注意力权重和句子向量特征得到电子病历词向量表示的特征:
通过softmax对上一步得到的患者特征进行分类:
p=softmax(Wcv+bc)
其中Wc为权重系数,bc为偏置系数,可以通过网络训练自动获得。p为一个1×3大小的矩阵,每个数值对应属于软瘫期、痉挛期和恢复期的概率,概率最大值即为对应的预测结果y′n。
使用N个训练样本对预测模型进行训练,将真实结果yn和模型预测分期结果y′n之间的交叉熵作为损失函数,定义如下:
其中,θ表示模型中所有待训练参数,包括神经元连接权重及偏置。
根据计算的代价值通过梯度下降方法反向传播至输入层,对网络参数进行迭代更新,使得代价最小,完成模型训练过程,保存模型参数。
如图2所示,一种电子病历的深度学习系统,包括:
采集模块,用于采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集;
预处理模块,用于将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;
数据处理模块,用于将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示数据集;
训练模块,用于将所述电子病历词向量表示数据集输入模型进行训练得到预测模型;
预测模块,用于将新采集的电子病历数据通过预处理模块和数据处理模块进行预处理和词向量表示后,输入训练模块,得到预测结果。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种电子病历的深度学习方法,其特征在于,包括:
S1:采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集,将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;
S2:将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示数据集;
S3:采用双向GRU网络和注意力机制构建模型,并将所述电子病历词向量表示数据集输入所述模型进行训练得到预测模型;
S4:将新采集的电子病历数据通过步骤S1,S2进行预处理和词向量表示后,输入所述预测模型,得到预测结果;
其中,所述S3包括:
S31:建立双向GRU网络;
S32:基于双向GRU网络及多重注意力机制提取所述电子病历词向量表示数据集的特征;
S33:根据提取的特征建立预测模型后,将电子病历词向量表示数据集进行所述预测模型的训练;
其中,所述S32包括:
S321:提取单词的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到词向量特征,将所述词向量特征输入单层感知机后得到隐层表达,将所述隐层表达与单词上下文向量进行归一化操作得到归一化注意力权重;
S322:通过所述词向量特征和归一化注意力权重得到句子,提取句子的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到句子向量特征,将所述句子向量特征输入单层感知机后得到隐层表达,将所述隐层表达与句子上下文向量进行归一化操作得到句子归一化注意力权重;
S323:使用句子归一化注意力权重和句子向量特征得到电子病历词向量表示数据集的特征。
2.根据权利要求1所述的一种电子病历的深度学习方法,其特征在于,所述S1包括:
S11:将所述电子病历数据集中缺少专科查体结果或评估结果的数据进行删除;
S12:将进行数据删除后的电子病历数据集进行表达统一的操作;
S13:将进行表达统一操作后的电子病历数据集进行分词处理、标点符号去除和停用词过滤操作。
3.根据权利要求1所述的一种电子病历的深度学习方法,其特征在于,所述S2包括:
S21:将所述电子病历数据集的专科查体结果与评估结果作为文档并进行词句划分;
S22:使用word2vec将进行词句划分后的文档进行分析得到词嵌入矩阵,根据所述词嵌入矩阵和所述词的一维one-hot向量得到电子病历词向量表示数据集。
4.根据权利要求3所述的一种电子病历的深度学习方法,其特征在于,所述电子病历词向量表示数据集:
xit=Wewit,t∈[1,T]
其中,xit表示词向量表示,We表示词嵌入矩阵,wit表示一维one-hot向量。
5.根据权利要求1所述的一种电子病历的深度学习方法,其特征在于,所述S31中双向GRU网络:
其中,ht表示当前时间步的状态信息,zt表示GRU网络的更新门,ht-1表示上一时刻的状态信息,表示当前记忆内容,xt表示t时刻GRU网络的输入。
6.根据权利要求1所述的一种电子病历的深度学习方法,其特征在于,所述词向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
所述归一化注意力权重:
其中,uit表示单层感知机的到隐层表达,uw表示单词上下文向量,T表示矩阵的转置运算。
7.根据权利要求1所述的一种电子病历的深度学习方法,其特征在于,所述句子向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
所述句子归一化注意力权重:
其中,ui表示单层感知机的到隐层表达,us表示句子上下文向量,T表示矩阵的转置运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536344.XA CN111696674B (zh) | 2020-06-12 | 2020-06-12 | 一种电子病历的深度学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536344.XA CN111696674B (zh) | 2020-06-12 | 2020-06-12 | 一种电子病历的深度学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111696674A CN111696674A (zh) | 2020-09-22 |
CN111696674B true CN111696674B (zh) | 2023-09-08 |
Family
ID=72480669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010536344.XA Active CN111696674B (zh) | 2020-06-12 | 2020-06-12 | 一种电子病历的深度学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111696674B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700832A (zh) * | 2021-01-06 | 2021-04-23 | 北京左医科技有限公司 | 个性化电子病例生成方法及系统 |
CN112951417B (zh) * | 2021-04-15 | 2022-06-28 | 北京理工大学 | 一种医疗时序数据医学特征交互表示方法 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955952A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的信息提取方法 |
WO2016192612A1 (zh) * | 2015-06-02 | 2016-12-08 | 陈宽 | 基于深度学习对医疗数据进行分析的方法及其智能分析仪 |
CN107145746A (zh) * | 2017-05-09 | 2017-09-08 | 北京大数医达科技有限公司 | 一种病情描述的智能分析方法及系统 |
CN107977352A (zh) * | 2016-10-21 | 2018-05-01 | 富士通株式会社 | 信息处理装置和方法 |
CN108288502A (zh) * | 2018-04-11 | 2018-07-17 | 平安科技(深圳)有限公司 | 疾病预测方法及装置、计算机装置及可读存储介质 |
WO2018134682A1 (en) * | 2017-01-23 | 2018-07-26 | Ucb Biopharma Sprl | Method and system for predicting refractory epilepsy status |
CN108647828A (zh) * | 2018-05-15 | 2018-10-12 | 中山大学 | 一种结合新闻语料和股市交易数据的股票预测方法 |
CN108804718A (zh) * | 2018-06-11 | 2018-11-13 | 线粒体(北京)科技有限公司 | 数据推送方法、装置、电子设备及计算机可读存储介质 |
CN109117864A (zh) * | 2018-07-13 | 2019-01-01 | 华南理工大学 | 基于异构特征融合的冠心病风险预测方法、模型及系统 |
CN109273062A (zh) * | 2018-08-09 | 2019-01-25 | 北京爱医声科技有限公司 | Icd智能辅助编码系统 |
CN109754852A (zh) * | 2019-01-08 | 2019-05-14 | 中南大学 | 基于电子病历的心血管疾病风险预测方法 |
CN109949929A (zh) * | 2019-03-19 | 2019-06-28 | 挂号网(杭州)科技有限公司 | 一种基于深度学习大规模病历的辅助诊断系统 |
CN110111901A (zh) * | 2019-05-16 | 2019-08-09 | 湖南大学 | 基于rnn神经网络的可迁移病人分类系统 |
CN110322962A (zh) * | 2019-07-03 | 2019-10-11 | 重庆邮电大学 | 一种自动生成诊断结果的方法、系统及计算机设备 |
EP3567605A1 (en) * | 2018-05-08 | 2019-11-13 | Siemens Healthcare GmbH | Structured report data from a medical text report |
CN110491499A (zh) * | 2019-07-10 | 2019-11-22 | 厦门大学 | 面向标注电子病历的临床辅助决策方法及系统 |
CN110580340A (zh) * | 2019-08-29 | 2019-12-17 | 桂林电子科技大学 | 一种基于多注意力机制的神经网络关系抽取方法 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110807320A (zh) * | 2019-11-11 | 2020-02-18 | 北京工商大学 | 基于cnn双向gru注意力机制的短文本情感分析方法 |
CN111222340A (zh) * | 2020-01-15 | 2020-06-02 | 东华大学 | 基于多标准主动学习的乳腺电子病历实体识别系统 |
KR20200063364A (ko) * | 2018-11-23 | 2020-06-05 | 네이버 주식회사 | 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템 |
-
2020
- 2020-06-12 CN CN202010536344.XA patent/CN111696674B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016192612A1 (zh) * | 2015-06-02 | 2016-12-08 | 陈宽 | 基于深度学习对医疗数据进行分析的方法及其智能分析仪 |
CN105955952A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的信息提取方法 |
CN107977352A (zh) * | 2016-10-21 | 2018-05-01 | 富士通株式会社 | 信息处理装置和方法 |
WO2018134682A1 (en) * | 2017-01-23 | 2018-07-26 | Ucb Biopharma Sprl | Method and system for predicting refractory epilepsy status |
CN107145746A (zh) * | 2017-05-09 | 2017-09-08 | 北京大数医达科技有限公司 | 一种病情描述的智能分析方法及系统 |
CN108288502A (zh) * | 2018-04-11 | 2018-07-17 | 平安科技(深圳)有限公司 | 疾病预测方法及装置、计算机装置及可读存储介质 |
EP3567605A1 (en) * | 2018-05-08 | 2019-11-13 | Siemens Healthcare GmbH | Structured report data from a medical text report |
CN108647828A (zh) * | 2018-05-15 | 2018-10-12 | 中山大学 | 一种结合新闻语料和股市交易数据的股票预测方法 |
CN108804718A (zh) * | 2018-06-11 | 2018-11-13 | 线粒体(北京)科技有限公司 | 数据推送方法、装置、电子设备及计算机可读存储介质 |
CN109117864A (zh) * | 2018-07-13 | 2019-01-01 | 华南理工大学 | 基于异构特征融合的冠心病风险预测方法、模型及系统 |
CN109273062A (zh) * | 2018-08-09 | 2019-01-25 | 北京爱医声科技有限公司 | Icd智能辅助编码系统 |
KR20200063364A (ko) * | 2018-11-23 | 2020-06-05 | 네이버 주식회사 | 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템 |
CN109754852A (zh) * | 2019-01-08 | 2019-05-14 | 中南大学 | 基于电子病历的心血管疾病风险预测方法 |
CN109949929A (zh) * | 2019-03-19 | 2019-06-28 | 挂号网(杭州)科技有限公司 | 一种基于深度学习大规模病历的辅助诊断系统 |
CN110111901A (zh) * | 2019-05-16 | 2019-08-09 | 湖南大学 | 基于rnn神经网络的可迁移病人分类系统 |
CN110322962A (zh) * | 2019-07-03 | 2019-10-11 | 重庆邮电大学 | 一种自动生成诊断结果的方法、系统及计算机设备 |
CN110491499A (zh) * | 2019-07-10 | 2019-11-22 | 厦门大学 | 面向标注电子病历的临床辅助决策方法及系统 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110580340A (zh) * | 2019-08-29 | 2019-12-17 | 桂林电子科技大学 | 一种基于多注意力机制的神经网络关系抽取方法 |
CN110807320A (zh) * | 2019-11-11 | 2020-02-18 | 北京工商大学 | 基于cnn双向gru注意力机制的短文本情感分析方法 |
CN111222340A (zh) * | 2020-01-15 | 2020-06-02 | 东华大学 | 基于多标准主动学习的乳腺电子病历实体识别系统 |
Non-Patent Citations (1)
Title |
---|
乔霓丹.《深度学习与医学大数据》.上海科学技术出版社,2019,(第1版),第119-120页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111696674A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929420B2 (en) | Structured report data from a medical text report | |
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN109599185B (zh) | 疾病数据处理方法、装置、电子设备及计算机可读介质 | |
CN111316281B (zh) | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 | |
CN111540468B (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
CN110534192B (zh) | 一种基于深度学习的肺结节良恶性识别方法 | |
EP3734604A1 (en) | Method and system for supporting medical decision making | |
Yu et al. | Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN | |
Carvalho et al. | An approach to the classification of COVID-19 based on CT scans using convolutional features and genetic algorithms | |
CN111192680A (zh) | 一种基于深度学习和集成分类的智能辅助诊断方法 | |
Lee et al. | Machine learning in relation to emergency medicine clinical and operational scenarios: an overview | |
WO2020057052A1 (en) | Machine-aided dialog system and medical condition inquiry apparatus and method | |
CN111696674B (zh) | 一种电子病历的深度学习方法及系统 | |
CN112037909B (zh) | 诊断信息复核系统 | |
CN115472252A (zh) | 基于对话的电子病历生成方法、装置、设备和存储介质 | |
He et al. | Deep learning analytics for diagnostic support of breast cancer disease management | |
CN112541066A (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
CN116580849A (zh) | 医疗数据的采集分析系统及其方法 | |
CN112216379A (zh) | 一种基于智能联合学习的疾病诊断系统 | |
Chen et al. | Breast cancer classification with electronic medical records using hierarchical attention bidirectional networks | |
CN113094476A (zh) | 基于自然语言处理风险预警方法、系统、设备及介质 | |
CN116403706A (zh) | 一种融合知识扩展和卷积神经网络的糖尿病预测方法 | |
CN110633368A (zh) | 早期结直肠癌非结构化数据的深度学习分类方法 | |
Li et al. | KTI-RNN: Recognition of Heart Failure from Clinical Notes | |
CN112989048A (zh) | 一种基于密集连接卷积的网络安全领域关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |