CN111696674B - 一种电子病历的深度学习方法及系统 - Google Patents

一种电子病历的深度学习方法及系统 Download PDF

Info

Publication number
CN111696674B
CN111696674B CN202010536344.XA CN202010536344A CN111696674B CN 111696674 B CN111696674 B CN 111696674B CN 202010536344 A CN202010536344 A CN 202010536344A CN 111696674 B CN111696674 B CN 111696674B
Authority
CN
China
Prior art keywords
electronic medical
medical record
word
data set
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010536344.XA
Other languages
English (en)
Other versions
CN111696674A (zh
Inventor
杨尚明
曹晨
刘勇国
李巧勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010536344.XA priority Critical patent/CN111696674B/zh
Publication of CN111696674A publication Critical patent/CN111696674A/zh
Application granted granted Critical
Publication of CN111696674B publication Critical patent/CN111696674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种电子病历的深度学习方法及系统,S1:采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集,将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;S2:将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示;S3:采用双向GRU网络和注意力机制构建模型,并将所述电子病历词向量表示输入所述模型进行训练得到预测模型;S4:将新采集的电子病历数据通过步骤S1,S2进行预处理和词向量表示后,输入所述预测模型,得到预测结果;考虑不同词语及不同句子对结果预测的影响力不同,采用词层面和句子层面多层次注意力模型进行特征提取,提高预测准确率。

Description

一种电子病历的深度学习方法及系统
技术领域
本发明涉及深度学习领域,具体涉及一种电子病历的深度学习方法及系统。
背景技术
脑卒中是一种急性脑血管疾病,是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一组疾病,且严重时会导致死亡,且脑卒中患者大多会造成偏瘫,因此能够及时了解自身是否存在脑卒中的偏瘫可能性,从而进行及时的就医治疗。随着机器学习、数据挖掘等技术在医疗领域的应用,基于患者情况实现计算机辅助诊断成为可能,但是这类方法主要使用患者医学信息进行特征提取,然后将特征提取结果进行分类,成本相对较高且不方便。且现有的机器学习方法无法判断偏瘫的程度。
发明内容
本发明所要解决的技术问题是如何通过电子病历中的查体情况和评估结果对偏瘫程度进行预测的问题,目的在于提供一种电子病历的深度学习方法及系统,解决上述问题。
本发明通过下述技术方案实现:
一种电子病历的深度学习方法,包括:
S1:采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集,将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;
S2:将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示;
S3:采用双向GRU网络和注意力机制构建模型,并将所述电子病历词向量表示输入所述模型进行训练得到预测模型;
S4:将新采集的电子病历数据通过步骤S1,S2进行预处理和词向量表示后,输入所述预测模型,得到预测结果。
本发明通过将电子病例中的专科查体结果和评估结果作为深度学习的训练数据,因为评估结果和专科查体结果中的数据内容存在文字描述,因此需要对所述专科查体结果和评估结果进行数据预处理和词向量转化,且在训练集中需要两种数据作为迭代学习的参考标准,因此需要将采集到的电子病历数据集中缺少专科查体结果或评估结果任意一项的数据删除,且因为电子病历中的专科查体结果和评估结果是由不同的医师撰写得到的,因此需要对专科查体结果和评估结果的具体内容进行表达统一的操作,并删除非必要的符号和停顿词,便于后面进行词向量转化时的操作。
进一步的,所述S1包括:
S11:将所述电子病历数据集中缺少专科查体结果或评估结果的数据进行删除;
S12:将进行数据删除后的电子病历数据集进行表达统一的操作;
S13:将进行表达统一操作后的电子病历数据集进行分词处理、标点符号去除和停用词过滤操作。
本发明采用python的第三方库jieba对电子病历中的查专科查体结果和评估结果的文本信息进行分词处理;经过分词处理后,文本还存在一些不具有任何信息的词语,如“的”、“及”、“及其”等,属于冗余信息,通过导入停用词表,将这些词语剔除。
将患者查体与评估结果看为一个文档,其中的每个词、句看为组成文档的词与句;
进一步的,所述S2包括:
S21:将所述电子病历数据集中每一个电子病历数据的专科查体结果与评估结果作为文档并进行词句划分;
S22:使用word2vec将进行词句划分后的所有文档进行分析得到词嵌入矩阵,根据所述词嵌入矩阵和词的一维one-hot向量得到电子病历词向量表示。
进一步的,假设每个文档中含有L个句子,第i个句子表示为si,i∈[1,L],设句子si中有T个单词,第t个单词的一维one-hot向量可表示为wit,t∈[1,T],使用word2vec得到词嵌入矩阵We,该矩阵与第t个单词的one-hot向量相乘即得到所述电子病历词向量表示:
xit=Wewit,t∈[1,T]
其中,xit表示词向量表示,We表示词嵌入矩阵,wit表示一维one-hot向量。
进一步的,所述S3包括:
S31:建立双向GRU网络;
S32:基于双向GRU网络及多重注意力机制提取所述电子病历词向量表示的特征;
S33:根据提取的特征建立预测模型后,将电子病历词向量表示数据集进行所述预测模型的训练。
本发明使用双向GRU网络,对单词正反两个方向的上下文信息进行汇总,得到单词特征hit,GRU网络模型中有两个门函数:分别是更新门zt和重置门rt,xt表示t时刻GRU网络的输入,ht表示t时刻的状态信息,表示当前记忆内容。
更新门
在时间步长t处,更新门计算公式如下,其中Wz表示更新门的权重,σ表示Sigmoid激活函数:
zt=σ(Wz·[ht-1,xt])
重置门
在时间步长t处,重置门计算公式如下,其中Wr表示重置门的权重:
rt=σ(Wr·[ht-1,xt])
当前记忆内容
当前记忆内容计算公式如下:
其中表示当前时刻输入数据生成当前状态信息的权重,tanh为双曲正切函数激活函数,计算如下:
进一步的,所述S31中双向GRU网络:
其中,ht表示当前时间步的状态信息,zt表示GRU网络的更新门,ht-1表示上一时刻的状态信息,表示当前记忆内容,xt表示t时刻GRU网络的输入。
本发明用ht=GRU(xt)表示GRU的传播过程。
进一步的,所述S32包括:
S321:提取单词的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到词向量特征,将所述词向量特征输入单层感知机后得到隐层表达,将所述隐层表达与单词上下文向量进行归一化操作得到归一化注意力权重;
S322:通过所述词向量特征和归一化注意力权重得到句子,提取句子的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到句子向量特征,将所述句子向量特征输入单层感知机后得到隐层表达,将所述隐层表达与句子上下文向量进行归一化操作得到句子归一化注意力权重;
S323:使用句子归一化注意力权重和句子向量特征得到电子病历词向量表示的特征。
使用GRU进行单词的前向传播,得到单词的前向传播特征
使用GRU进行单词的后向传播,得到单词的后向传播特征
进一步的,所述词向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
因为不同单词对预测结果的影响力不同,比如查体情况中“较差”、“无力”这种词汇更能反映患者身体状况,本发明通过增加注意力机制将对预测影响力更大的单词赋予更高的权重。
将词向量特征hit输入单层感知机,得到其隐层表达uit
uit=tanh(Wwhit+bw)
其中Ww为权重系数,bw为偏置系数,Ww和bw都可以通过网络训练自动获得。
使用隐层表达uit和一个随机初始化的单词上下文向量uw通过softmax函数得到所述归一化注意力权重:
其中,uit表示单层感知机得到的隐层表达,uw表示单词上下文向量,T表示矩阵的转置运算。
通过所述词向量特征和归一化注意力权重得到句子:
使用与S321相同操作得到句子向量特征hi
进一步的,所述句子向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
将句子特征hi输入单层感知机,得到hi的隐层表达ui
ui=tanh(Wshi+bs)
其中Ws为权重系数,bs为偏置系数,Ws和bs都可以通过网络训练自动获得。
引入注意力机制计算句子权重,句子级别上下文向量us通过随机初始化得到,通过softmax函数得到所述句子归一化注意力权重:
其中,ui表示单层感知机得到的隐层表达,us表示句子上下文向量,T表示矩阵的转置运算。
使用句子归一化注意力权重和句子向量特征得到电子病历词向量表示的特征:
通过softmax对上一步得到的患者特征进行分类:
p=softmax(Wcv+bc)
其中Wc为权重系数,bc为偏置系数,可以通过网络训练自动获得。p为一个1×3大小的矩阵,每个数值对应属于软瘫期、痉挛期和恢复期的概率,概率最大值即为对应的预测结果y′n
使用N个训练样本对预测模型进行训练,将真实结果yn和模型预测分期结果y′n之间的交叉熵作为损失函数,定义如下:
其中,θ表示模型中所有待训练参数,包括神经元连接权重及偏置。
根据计算的代价值通过梯度下降方法反向传播至输入层,对网络参数进行迭代更新,使得代价最小,完成模型训练过程,保存模型参数。
一种电子病历的深度学习系统,包括:
采集模块,用于采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集;
预处理模块,用于将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;
数据处理模块,用于将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示数据集;
训练模块,用于将所述电子病历词向量表示数据集输入模型进行训练得到预测模型;
预测模块,用于将新采集的电子病历数据通过预处理模块和数据处理模块进行预处理和词向量表示后,输入训练模块,得到预测结果。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种电子病历的深度学习方法及系统,采用自然语言处理解决由于电子病历的评估项目不同而导致预测模型的输入长度不一致的问题;
2、本发明一种电子病历的深度学习方法及系统,考虑不同词语及不同句子对结果预测的影响力不同,采用词层面和句子层面多层次注意力模型进行特征提取,提高预测准确率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明流程图;
图2为本发明系统结构示意图;
图3为本发明另一流程示意图;
图4为本发明预测模型示意图;
图5为本发明GRU网络的单元结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1,图3所示,一种电子病历的深度学习方法,包括:
S1:采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集,将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;
S2:将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示;
S3:采用双向GRU网络和注意力机制构建模型,并将所述电子病历词向量表示输入所述模型进行训练得到预测模型;
S4:将新采集的电子病历数据通过步骤S1,S2进行预处理和词向量表示后,输入所述预测模型,得到预测结果。
进一步的,所述S1包括:
S11:将所述电子病历数据集中缺少专科查体结果或评估结果的数据进行删除;
S12:将进行数据删除后的电子病历数据集进行表达统一的操作;
S13:将进行表达统一操作后的电子病历数据集进行分词处理、标点符号去除和停用词过滤操作。
采用python的第三方库jieba对电子病历中的查专科查体结果和评估结果的文本信息进行分词处理;经过分词处理后,文本还存在一些不具有任何信息的词语,如“的”、“及”、“及其”等,属于冗余信息,通过导入停用词表,将这些词语剔除。
将患者查体与评估结果看为一个文档,其中的每个词、句看为组成文档的词与句;
进一步的,所述S2包括:
S21:将所述电子病历数据集中每一个电子病历数据的专科查体结果与评估结果作为文档并进行词句划分;
S22:使用word2vec将进行词句划分后的所有文档进行分析得到词嵌入矩阵,根据所述词嵌入矩阵和所述词的一维one-hot向量得到电子病历词向量表示。
进一步的,假设每个文档中含有L个句子,第i个句子表示为si,i∈[1,L],设句子si中有T个单词,第t个单词的一维one-hot向量可表示为wit,t∈[1,T],使用word2vec得到词嵌入矩阵We,该矩阵与第t个单词的one-hot向量相乘即得到所述电子病历词向量表示:
xit=Wewit,t∈[1,T]
其中,xit表示词向量表示,We表示词嵌入矩阵,wit表示一维one-hot向量。
进一步的,所述S3包括:
S31:建立双向GRU网络;
S32:基于双向GRU网络及多重注意力机制提取所述电子病历词向量表示的特征;
S33:根据提取的特征建立预测模型后,将电子病历词向量表示数据集进行所述预测模型的训练。
本发明使用双向GRU网络,对单词正反两个方向的上下文信息进行汇总,得到单词特征hit,一个GRU单元结构如图5所示,GRU网络模型中有两个门函数:分别是更新门zt和重置门rt,xt表示t时刻GRU网络的输入,ht表示t时刻的状态信息,表示当前记忆内容。
更新门
在时间步长t处,更新门计算公式如下,其中Wz表示更新门的权重,σ表示Sigmoid激活函数:
zt=σ(Wz·[ht-1,xt])
重置门
在时间步长t处,重置门计算公式如下,其中Wr表示重置门的权重:
rt=σ(Wr·[ht-1,xt])
当前记忆内容
当前记忆内容计算公式如下:
其中表示当前时刻输入数据生成当前状态信息的权重,tanh为双曲正切函数激活函数,计算如下:
如图4所示,进一步的,所述S31中双向GRU网络:
其中,ht表示当前时间步的状态信息,zt表示GRU网络的更新门,ht-1表示上一时刻的状态信息,表示当前记忆内容,xt表示t时刻GRU网络的输入。
本发明用ht=GRU(xt)表示GRU的传播过程。
进一步的,所述S32包括:
S321:提取单词的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到词向量特征,将所述词向量特征输入单层感知机后得到隐层表达,将所述隐层表达与单词上下文向量进行归一化操作得到归一化注意力权重;
S322:通过所述词向量特征和归一化注意力权重得到句子,提取句子的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到句子向量特征,将所述句子向量特征输入单层感知机后得到隐层表达,将所述隐层表达与句子上下文向量进行归一化操作得到句子归一化注意力权重;
S323:使用句子归一化注意力权重和句子向量特征得到电子病历词向量表示的特征。
使用GRU进行单词的前向传播,得到单词的前向传播特征
使用GRU进行单词的后向传播,得到单词的后向传播特征
进一步的,所述词向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
因为不同单词对预测结果的影响力不同,比如查体情况中“较差”、“无力”这种词汇更能反映患者身体状况,本发明通过增加注意力机制将对预测影响力更大的单词赋予更高的权重。
将词向量特征hit输入单层感知机,得到其隐层表达uit
uit=tanh(Wwhit+bw)
其中Ww为权重系数,bw为偏置系数,Ww和bw都可以通过网络训练自动获得。
使用隐层表达uit和一个随机初始化的单词上下文向量uw通过softmax函数得到所述归一化注意力权重:
其中,uit表示单层感知机得到的隐层表达,uw表示单词上下文向量,T表示矩阵的转置运算。
通过所述词向量特征和归一化注意力权重得到句子:
使用与S321相同操作得到句子向量特征hi
进一步的,所述句子向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
将句子特征hi输入单层感知机,得到hi的隐层表达ui
ui=tanh(Wshi+bs)
其中Ws为权重系数,bs为偏置系数,Ws和bs都可以通过网络训练自动获得。
引入注意力机制计算句子权重,句子级别上下文向量us通过随机初始化得到,通过softmax函数得到所述句子归一化注意力权重:
其中,ui表示单层感知机得到的隐层表达,us表示句子上下文向量,T表示矩阵的转置运算。
使用句子归一化注意力权重和句子向量特征得到电子病历词向量表示的特征:
通过softmax对上一步得到的患者特征进行分类:
p=softmax(Wcv+bc)
其中Wc为权重系数,bc为偏置系数,可以通过网络训练自动获得。p为一个1×3大小的矩阵,每个数值对应属于软瘫期、痉挛期和恢复期的概率,概率最大值即为对应的预测结果y′n
使用N个训练样本对预测模型进行训练,将真实结果yn和模型预测分期结果y′n之间的交叉熵作为损失函数,定义如下:
其中,θ表示模型中所有待训练参数,包括神经元连接权重及偏置。
根据计算的代价值通过梯度下降方法反向传播至输入层,对网络参数进行迭代更新,使得代价最小,完成模型训练过程,保存模型参数。
如图2所示,一种电子病历的深度学习系统,包括:
采集模块,用于采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集;
预处理模块,用于将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;
数据处理模块,用于将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示数据集;
训练模块,用于将所述电子病历词向量表示数据集输入模型进行训练得到预测模型;
预测模块,用于将新采集的电子病历数据通过预处理模块和数据处理模块进行预处理和词向量表示后,输入训练模块,得到预测结果。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种电子病历的深度学习方法,其特征在于,包括:
S1:采集电子病历系统中多个患者的专科查体结果与评估结果得到电子病历数据集,将所述电子病历数据集进行缺失数据删除和数据表达统一预处理操作;
S2:将进行预处理操作后的电子病历数据集进行词向量转化操作得到电子病历词向量表示数据集;
S3:采用双向GRU网络和注意力机制构建模型,并将所述电子病历词向量表示数据集输入所述模型进行训练得到预测模型;
S4:将新采集的电子病历数据通过步骤S1,S2进行预处理和词向量表示后,输入所述预测模型,得到预测结果;
其中,所述S3包括:
S31:建立双向GRU网络;
S32:基于双向GRU网络及多重注意力机制提取所述电子病历词向量表示数据集的特征;
S33:根据提取的特征建立预测模型后,将电子病历词向量表示数据集进行所述预测模型的训练;
其中,所述S32包括:
S321:提取单词的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到词向量特征,将所述词向量特征输入单层感知机后得到隐层表达,将所述隐层表达与单词上下文向量进行归一化操作得到归一化注意力权重;
S322:通过所述词向量特征和归一化注意力权重得到句子,提取句子的前向传播特征和后向传播特征并将所述前向传播特征和后向传播特征进行拼接得到句子向量特征,将所述句子向量特征输入单层感知机后得到隐层表达,将所述隐层表达与句子上下文向量进行归一化操作得到句子归一化注意力权重;
S323:使用句子归一化注意力权重和句子向量特征得到电子病历词向量表示数据集的特征。
2.根据权利要求1所述的一种电子病历的深度学习方法,其特征在于,所述S1包括:
S11:将所述电子病历数据集中缺少专科查体结果或评估结果的数据进行删除;
S12:将进行数据删除后的电子病历数据集进行表达统一的操作;
S13:将进行表达统一操作后的电子病历数据集进行分词处理、标点符号去除和停用词过滤操作。
3.根据权利要求1所述的一种电子病历的深度学习方法,其特征在于,所述S2包括:
S21:将所述电子病历数据集的专科查体结果与评估结果作为文档并进行词句划分;
S22:使用word2vec将进行词句划分后的文档进行分析得到词嵌入矩阵,根据所述词嵌入矩阵和所述词的一维one-hot向量得到电子病历词向量表示数据集。
4.根据权利要求3所述的一种电子病历的深度学习方法,其特征在于,所述电子病历词向量表示数据集:
xit=Wewit,t∈[1,T]
其中,xit表示词向量表示,We表示词嵌入矩阵,wit表示一维one-hot向量。
5.根据权利要求1所述的一种电子病历的深度学习方法,其特征在于,所述S31中双向GRU网络:
其中,ht表示当前时间步的状态信息,zt表示GRU网络的更新门,ht-1表示上一时刻的状态信息,表示当前记忆内容,xt表示t时刻GRU网络的输入。
6.根据权利要求1所述的一种电子病历的深度学习方法,其特征在于,所述词向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
所述归一化注意力权重:
其中,uit表示单层感知机的到隐层表达,uw表示单词上下文向量,T表示矩阵的转置运算。
7.根据权利要求1所述的一种电子病历的深度学习方法,其特征在于,所述句子向量特征:
其中,表示前向传播特征,/>表示后向传播特征;
所述句子归一化注意力权重:
其中,ui表示单层感知机的到隐层表达,us表示句子上下文向量,T表示矩阵的转置运算。
CN202010536344.XA 2020-06-12 2020-06-12 一种电子病历的深度学习方法及系统 Active CN111696674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010536344.XA CN111696674B (zh) 2020-06-12 2020-06-12 一种电子病历的深度学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010536344.XA CN111696674B (zh) 2020-06-12 2020-06-12 一种电子病历的深度学习方法及系统

Publications (2)

Publication Number Publication Date
CN111696674A CN111696674A (zh) 2020-09-22
CN111696674B true CN111696674B (zh) 2023-09-08

Family

ID=72480669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010536344.XA Active CN111696674B (zh) 2020-06-12 2020-06-12 一种电子病历的深度学习方法及系统

Country Status (1)

Country Link
CN (1) CN111696674B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700832A (zh) * 2021-01-06 2021-04-23 北京左医科技有限公司 个性化电子病例生成方法及系统
CN112951417B (zh) * 2021-04-15 2022-06-28 北京理工大学 一种医疗时序数据医学特征交互表示方法

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955952A (zh) * 2016-05-03 2016-09-21 成都数联铭品科技有限公司 一种基于双向递归神经网络的信息提取方法
WO2016192612A1 (zh) * 2015-06-02 2016-12-08 陈宽 基于深度学习对医疗数据进行分析的方法及其智能分析仪
CN107145746A (zh) * 2017-05-09 2017-09-08 北京大数医达科技有限公司 一种病情描述的智能分析方法及系统
CN107977352A (zh) * 2016-10-21 2018-05-01 富士通株式会社 信息处理装置和方法
CN108288502A (zh) * 2018-04-11 2018-07-17 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质
WO2018134682A1 (en) * 2017-01-23 2018-07-26 Ucb Biopharma Sprl Method and system for predicting refractory epilepsy status
CN108647828A (zh) * 2018-05-15 2018-10-12 中山大学 一种结合新闻语料和股市交易数据的股票预测方法
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
CN109273062A (zh) * 2018-08-09 2019-01-25 北京爱医声科技有限公司 Icd智能辅助编码系统
CN109754852A (zh) * 2019-01-08 2019-05-14 中南大学 基于电子病历的心血管疾病风险预测方法
CN109949929A (zh) * 2019-03-19 2019-06-28 挂号网(杭州)科技有限公司 一种基于深度学习大规模病历的辅助诊断系统
CN110111901A (zh) * 2019-05-16 2019-08-09 湖南大学 基于rnn神经网络的可迁移病人分类系统
CN110322962A (zh) * 2019-07-03 2019-10-11 重庆邮电大学 一种自动生成诊断结果的方法、系统及计算机设备
EP3567605A1 (en) * 2018-05-08 2019-11-13 Siemens Healthcare GmbH Structured report data from a medical text report
CN110491499A (zh) * 2019-07-10 2019-11-22 厦门大学 面向标注电子病历的临床辅助决策方法及系统
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN110807320A (zh) * 2019-11-11 2020-02-18 北京工商大学 基于cnn双向gru注意力机制的短文本情感分析方法
CN111222340A (zh) * 2020-01-15 2020-06-02 东华大学 基于多标准主动学习的乳腺电子病历实体识别系统
KR20200063364A (ko) * 2018-11-23 2020-06-05 네이버 주식회사 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016192612A1 (zh) * 2015-06-02 2016-12-08 陈宽 基于深度学习对医疗数据进行分析的方法及其智能分析仪
CN105955952A (zh) * 2016-05-03 2016-09-21 成都数联铭品科技有限公司 一种基于双向递归神经网络的信息提取方法
CN107977352A (zh) * 2016-10-21 2018-05-01 富士通株式会社 信息处理装置和方法
WO2018134682A1 (en) * 2017-01-23 2018-07-26 Ucb Biopharma Sprl Method and system for predicting refractory epilepsy status
CN107145746A (zh) * 2017-05-09 2017-09-08 北京大数医达科技有限公司 一种病情描述的智能分析方法及系统
CN108288502A (zh) * 2018-04-11 2018-07-17 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质
EP3567605A1 (en) * 2018-05-08 2019-11-13 Siemens Healthcare GmbH Structured report data from a medical text report
CN108647828A (zh) * 2018-05-15 2018-10-12 中山大学 一种结合新闻语料和股市交易数据的股票预测方法
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
CN109273062A (zh) * 2018-08-09 2019-01-25 北京爱医声科技有限公司 Icd智能辅助编码系统
KR20200063364A (ko) * 2018-11-23 2020-06-05 네이버 주식회사 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템
CN109754852A (zh) * 2019-01-08 2019-05-14 中南大学 基于电子病历的心血管疾病风险预测方法
CN109949929A (zh) * 2019-03-19 2019-06-28 挂号网(杭州)科技有限公司 一种基于深度学习大规模病历的辅助诊断系统
CN110111901A (zh) * 2019-05-16 2019-08-09 湖南大学 基于rnn神经网络的可迁移病人分类系统
CN110322962A (zh) * 2019-07-03 2019-10-11 重庆邮电大学 一种自动生成诊断结果的方法、系统及计算机设备
CN110491499A (zh) * 2019-07-10 2019-11-22 厦门大学 面向标注电子病历的临床辅助决策方法及系统
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法
CN110807320A (zh) * 2019-11-11 2020-02-18 北京工商大学 基于cnn双向gru注意力机制的短文本情感分析方法
CN111222340A (zh) * 2020-01-15 2020-06-02 东华大学 基于多标准主动学习的乳腺电子病历实体识别系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
乔霓丹.《深度学习与医学大数据》.上海科学技术出版社,2019,(第1版),第119-120页. *

Also Published As

Publication number Publication date
CN111696674A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
US10929420B2 (en) Structured report data from a medical text report
CN109697285B (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN109599185B (zh) 疾病数据处理方法、装置、电子设备及计算机可读介质
CN111316281B (zh) 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN110534192B (zh) 一种基于深度学习的肺结节良恶性识别方法
EP3734604A1 (en) Method and system for supporting medical decision making
Yu et al. Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN
Carvalho et al. An approach to the classification of COVID-19 based on CT scans using convolutional features and genetic algorithms
CN111192680A (zh) 一种基于深度学习和集成分类的智能辅助诊断方法
Lee et al. Machine learning in relation to emergency medicine clinical and operational scenarios: an overview
WO2020057052A1 (en) Machine-aided dialog system and medical condition inquiry apparatus and method
CN111696674B (zh) 一种电子病历的深度学习方法及系统
CN112037909B (zh) 诊断信息复核系统
CN115472252A (zh) 基于对话的电子病历生成方法、装置、设备和存储介质
He et al. Deep learning analytics for diagnostic support of breast cancer disease management
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
CN116580849A (zh) 医疗数据的采集分析系统及其方法
CN112216379A (zh) 一种基于智能联合学习的疾病诊断系统
Chen et al. Breast cancer classification with electronic medical records using hierarchical attention bidirectional networks
CN113094476A (zh) 基于自然语言处理风险预警方法、系统、设备及介质
CN116403706A (zh) 一种融合知识扩展和卷积神经网络的糖尿病预测方法
CN110633368A (zh) 早期结直肠癌非结构化数据的深度学习分类方法
Li et al. KTI-RNN: Recognition of Heart Failure from Clinical Notes
CN112989048A (zh) 一种基于密集连接卷积的网络安全领域关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant