CN110111901B - 基于rnn神经网络的可迁移病人分类系统 - Google Patents
基于rnn神经网络的可迁移病人分类系统 Download PDFInfo
- Publication number
- CN110111901B CN110111901B CN201910407569.2A CN201910407569A CN110111901B CN 110111901 B CN110111901 B CN 110111901B CN 201910407569 A CN201910407569 A CN 201910407569A CN 110111901 B CN110111901 B CN 110111901B
- Authority
- CN
- China
- Prior art keywords
- patient
- data
- model
- medical
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000013508 migration Methods 0.000 claims abstract description 12
- 230000005012 migration Effects 0.000 claims abstract description 12
- 238000010276 construction Methods 0.000 claims abstract description 11
- 238000003745 diagnosis Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000013145 classification model Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 6
- 230000000474 nursing effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000003278 mimic effect Effects 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000004083 survival effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract 1
- 230000002457 bidirectional effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明属于医疗数据挖掘领域,具体公开了基于RNN神经网络的可迁移病人分类系统。该系统包括:输入模块、数据处理模块、分类模块;输入模块用于获取原始病历数据;数据处理模块包括数据预处理单元、病人时序序列生成单元,用于将输入模块读入的原始病历数据转换成病人时序序列;分类模块包括模型构建单元、模型预测单元、迁移单元,用于将RNN神经网络与Attention(注意力)机制结合,构建病人分类模型,然后将数据处理模块得到的病人时序序列输入到模型进行训练,最后将训练好的模型迁移到不同数据集上进行病人分类预测。本发明具有通过挖掘电子病历数据,构建病人分类模型,在不同医疗数据集上进行病人死亡风险分类来辅助医生诊疗的优势。
Description
技术领域
本发明涉及医疗数据挖掘领域,特别是涉及基于RNN神经网络的可迁移病人分类系统。
背景技术
住院死亡率作为衡量医疗服务水平的一个指标,在ICU护理中具有重要意义。对ICU病人进行分类预测,将ICU病人划分成是否为死亡高危病人,有助于针对病人制定合理的护理方案。如果是高危病人,则需要加强医疗防护,降低病人死亡风险。病人分类准确率越高,越有助于医生制定科学合理的治疗方案,从而提高诊疗质量,降低ICU住院死亡率,提升医院医疗服务水平。因此,挖掘电子病历数据,选取合适的特征进行病人住院死亡风险分类是一项有价值的工作。
目前,国内外相继出现了一些病人住院死亡分类的系统,但现有的分类系统无法在不同医疗机构的电子病历数据集上进行死亡风险分类,即每个分类系统只适用于单个医院的数据集,对于不同医院的病历数据需要重新开发分类系统,耗时长,资源开销大,极大限制了智慧医疗的发展。
发明内容
为了克服上述现有技术的不足,本发明提供了基于RNN神经网络的可迁移病人分类系统。对不同格式的医疗数据进行处理,按照相关国际编码统一命名,统一取值方式。对不同医疗数据集进行数据同分布处理,从而解决同一个分类系统无法在不同医疗数据集上进行分类的问题。分类系统采用RNN神经网络中的双向门控循环单元结合注意力(Attention)机制进行病人分类。
本发明所采用的技术方案是:
基于RNN神经网络的可迁移病人分类系统,包括:输入模块,数据处理模块,分类模块;
所述输入模块,用于获取医疗数据库中所有原始病历数据;
所述数据处理模块,与输入模块相连,用于对输入模块获取的原始病历数据进行处理,输出病人时序序列;
所述数据处理模块包括:数据预处理单元、病人时序序列生成单元;
所述数据预处理单元,用于对数据库中的病历数据进行筛选,清洗生理特征数据和医疗事件中的噪声数据、缺失数据,对清洗过后的数据按照病人ID进行划分,得到每个病人与住院死亡率预测相关的完整病历信息并进行数据对齐;
所述数据预处理单元包括:数据队列选择器,数据划分器,数据转化器,数据对齐器;
所述数据队列选择器用于从MIMIC-III(Medical Information Mart forIntensive Care III)和EICU(eICU Collaborative Research Database)数据集中筛选出符合条件的病人队列集,所述病人队列集的选择规则为:选取第一次ICU入住的病人记录,去除年龄小于18周岁的病人记录,去除住院期间有转院记录的病人记录,去除有重复住院的病人记录,去除住院ID为空的病人医疗事件记录,去除住院ID未出现在ICU护理信息表中的病人的医疗事件记录,并通过住院ID修复ICU住院ID为空的病人的医疗事件记录,最终得到符合条件的病人队列;
所述数据划分器将数据队列选择器筛选得到的病人队列以病人ID划分,得到每个病人的住院信息、诊断信息、医疗事件信息;
所述数据转化器用于处理数据划分器输出的每个病人记录中不同字段的取值,数据转化器的处理过程为:首先统一特征的取值单位,进而填补缺失值,再去除噪音值,最后对数值型取值中的字符型数据进行转化或剔除;
所述数据对齐器将经过数据转化器处理过后的病人数据,根据各特征与住院死亡率预测的相关性选择最相关的前17个特征,然后取MIMIC-III和EICU数据的最小特征公共子集,最后将选取的特征公共子集的特征值对齐,特征值对齐过程为:首先统一特征取值单位,进而将特征类型转换成相同类型,最后将特征名称映射成标准医学概念;
所述病人时序序列生成单元将每个病人与住院死亡率预测相关的完整病历信息中的诊断代码和医疗事件ID根据国际标准映射成对应的医疗概念,生成每一阶段的病人状态信息,同时将时间信息添加到病人序列中,生成病人时序序列;
所述病人时序序列生成单元包括:病人状态信息生成器,病人时序序列生成器;
所述病人状态信息生成器用于生成每一次ICU入住的病人状态信息,通过将上述得到病人的住院信息和诊断信息按照病人ID进行合并,得到病人该次住院的状态信息;
所述病人时序序列生成器用于生成病人时序序列,对于医疗事件信息,根据每个医疗事件发生的时间,以小时为单位计算出事件发生时间与ICU入住时间的偏移值,然后将时间偏移值加入医疗事件序列中,将每个病人的所有医疗事件按照时间顺序排列,得到病人时序序列;
所述分类模块包括:模型构建单元、模型预测单元、迁移单元,该模块利用循环神经网络构建病人分类模型,利用所述数据处理模块输出的数据进行病人分类;
所述模型构建单元采用循环神经网络(RNN)中的门控循环单元(GRU),并结合注意力(Attention)机制,构建住院死亡率预测模型,模型构建按照如下次序进行:(1)编码实现一个自定义Attention层,(2)依次调用Input层,Masking层,Dropout层,BiGRU(双向门控循环单元)网络层,GRU(门控神经单元)网络层和Attention层搭建预测模型;其中BiGRU层用于向量表征学习,Dropout层用于防止模型过拟合,Attention层用于计算每个特征变量的权重值,然后根据每个特征跟死亡率的相关性调整权重,最后对权重和特征值向量相乘后求和输出;
其中,门控神经单元(GRU)的计算过程为:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
yt=σ(Wo·ht)
其中rt是重置门,zt是更新门,是新的隐藏状态,ht是当前隐藏状态,yt是当前输出,σ是激活函数,是不同的权值矩阵,ht-1是上一层的隐藏状态,xt是当前输入,'.'代表点乘,tanh是正切函数,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多;
其中,Attention机制层的计算过程为:
St=f(St-1,yt-1,ct)
etj=g(St-1,hj)
其中St是解码器在当前t时刻的状态输出,St-1是解码器在t-1时刻的状态输出,yt-1是t-1时刻的标签,f代表一个RNN,ct是上下文信息,hj是第j个输入在编码器中的输出,atj是权重,etj是第j个输入数据在t时刻的最终输出,etk是第k个输入数据在t时刻的最终输出,g代表一个前馈神经网络;
所述模型预测单元将数据处理模块得到的病人时序序列输入到模型构建单元构建的模型,利用训练集数据对模型进行训练,并将测试集读入训练好的模型进行病人分类;其中,病人预测分类过程按照如下次序进行:(1)读入数据处理模块输出的病人时序序列,将读入的数据按照7:3划分成训练集和测试集,(2)对训练集中的数据进行正则化和离散化,其中,连续型数据采用z-score进行正则化,类别型数据进行离散化,采用独热编码方式对离散后的类型数据进行编码,最终得到病人时序序列的向量表示,(3)将转化成向量表示的训练集数据输入到模型中进行模型训练,(4)利用训练好的模型,读入测试集数据,进行病人分类预测;
所述迁移单元,利用迁移学习中的微调策略,将模型预测单元中训练好的模型迁移到其他医疗站点的数据集上进行病人分类,迁移包括以下两部分,(1)从EICU迁移到MIMIC-III,将在EICU上训练好的模型浅层固定,并迁移到MIMIC-III数据集上进行病人分类,(2)从MIMIC-III迁移到EICU,将在MIMIC上训练好的模型浅层固定,并迁移到EICU数据集上进行病人分类。
与现有技术相比,本发明的有益效果是:
本发明将选取不同医疗数据集中的公共医疗字段,将其映射成统一的医疗概念,对特征取值对齐,统一不同医疗数据集的数据分布,采用基于循环神经网络中的双向门控循环神经单元,结合注意力机制,学习各项医疗指标与病人住院死亡率的联系,来进行病人死亡风险分类,获得准确率高、可靠的有益结果。
本发明提供了基于RNN神经网络的可迁移病人分类系统,能够将不同医疗数据集中的医疗字段映射成相同的医疗概念,对来自不同医院的医疗数据进行数据同分布处理,在不同的医疗数据集上实现病人分类模型的迁移。
附图说明
图1为基于RNN神经网络的可迁移病人分类系统组成图。
具体实施方式
下面结合附图对本发明进一步说明。
图1给出了本发明实施例提出的基于RNN神经网络的可迁移病人分类系统组成图。
参照图1,本发明实施例提出的基于RNN神经网络的可迁移病人分类系统,具体包括输入模块,数据处理模块,分类模块;
所述输入模块,用于获取医疗数据库中所有原始病历数据;
所述数据处理模块,与输入模块相连,用于对输入模块获取的原始病历数据进行处理,输出病人时序序列;
所述数据处理模块包括:数据预处理单元、病人时序序列生成单元;
所述数据预处理单元,用于对数据库中的病历数据进行筛选,清洗生理特征数据和医疗事件中的噪声数据、缺失数据,对清洗过后的数据按照病人ID进行划分,得到每个病人与住院死亡率预测相关的完整病历信息并进行数据对齐;
所述数据预处理单元包括:数据队列选择器,数据划分器,数据转化器,数据对齐器;
所述数据队列选择器用于从MIMIC-III(Medical Information Mart forIntensive Care III)和EICU(eICU Collaborative Research Database)数据集中筛选出符合条件的病人队列集,所述病人队列集的选择规则为:选取第一次ICU入住的病人记录,去除年龄小于18周岁的病人记录,去除住院期间有转院记录的病人记录,去除有重复住院的病人记录,去除住院ID为空的病人医疗事件记录,去除住院ID未出现在ICU护理信息表中的病人的医疗事件记录,并通过住院ID修复ICU住院ID为空的病人的医疗事件记录,最终得到符合条件的病人队列;
所述数据划分器将数据队列选择器筛选得到的病人队列以病人ID划分,得到每个病人的住院信息、诊断信息、医疗事件信息;
所述数据转化器用于处理数据划分器输出的每个病人记录中不同字段的取值,数据转化器的处理过程为:首先统一特征的取值单位,进而填补缺失值,再去除噪音值,最后对数值型取值中的字符型数据进行转化或剔除;
所述数据对齐器将经过数据转化器处理过后的病人数据,根据各特征与住院死亡率预测的相关性选择最相关的前17个特征,然后取MIMIC-III和EICU数据的最小特征公共子集,最后将选取的特征公共子集的特征值对齐,特征值对齐过程为:首先统一特征取值单位,进而将特征类型转换成相同类型,最后将特征名称映射成标准医学概念;
所述病人时序序列生成单元将每个病人与住院死亡率预测相关的完整病历信息中的诊断代码和医疗事件ID根据国际标准映射成对应的医疗概念,生成每一阶段的病人状态信息,同时将时间信息添加到病人序列中,生成病人时序序列;
所述病人时序序列生成单元包括:病人状态信息生成器,病人时序序列生成器;
所述病人状态信息生成器用于生成每一次ICU入住的病人状态信息,通过将上述得到病人的住院信息和诊断信息按照病人ID进行合并,得到病人该次住院的状态信息;
所述病人时序序列生成器用于生成病人时序序列,对于医疗事件信息,根据每个医疗事件发生的时间,以小时为单位计算出事件发生时间与ICU入住时间的偏移值,然后将时间偏移值加入医疗事件序列中,将每个病人的所有医疗事件按照时间顺序排列,得到病人时序序列;
所述分类模块包括:模型构建单元、模型预测单元、迁移单元,该模块利用循环神经网络构建病人分类模型,利用所述数据处理模块输出的数据进行病人分类;
所述模型构建单元采用循环神经网络(RNN)中的门控循环单元(GRU),并结合注意力(Attention)机制,构建住院死亡率预测模型,模型构建按照如下次序进行:(1)编码实现一个自定义Attention层,(2)依次调用Input层,Masking层,Dropout层,BiGRU(双向门控循环单元)网络层,GRU(门控神经单元)网络层和Attention层搭建预测模型;其中BiGRU层用于向量表征学习,Dropout层用于防止模型过拟合,Attention层用于计算每个特征变量的权重值,然后根据每个特征跟死亡率的相关性调整权重,最后对权重和特征值向量相乘后求和输出;
其中,门控神经单元(GRU)的计算过程为:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
yt=σ(Wo·ht)
其中rt是重置门,zt是更新门,是新的隐藏状态,ht是当前隐藏状态,yt是当前输出,σ是激活函数,是不同的权值矩阵,ht-1是上一层的隐藏状态,xt是当前输入,'.'代表点乘,tanh是正切函数,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多;
其中,Attention机制层的计算过程为:
St=f(St-1,yt-1,ct)
etj=g(St-1,hj)
其中St是解码器在当前t时刻的状态输出,St-1是解码器在t-1时刻的状态输出,yt-1是t-1时刻的标签,f代表一个RNN,ct是上下文信息,hj是第j个输入在编码器中的输出,atj是权重,etj是第j个输入数据在t时刻的最终输出,etk是第k个输入数据在t时刻的最终输出,g代表一个前馈神经网络;
所述模型预测单元将数据处理模块得到的病人时序序列输入到模型构建单元构建的模型,利用训练集数据对模型进行训练,并将测试集读入训练好的模型进行病人分类;其中,病人预测分类过程按照如下次序进行:(1)读入数据处理模块输出的病人时序序列,将读入的数据按照7:3划分成训练集和测试集,(2)对训练集中的数据进行正则化和离散化,其中,连续型数据采用z-score进行正则化,类别型数据进行离散化,采用独热编码方式对离散后的类型数据进行编码,最终得到病人时序序列的向量表示,(3)将转化成向量表示的训练集数据输入到模型中进行模型训练,(4)利用训练好的模型,读入测试集数据,进行病人分类预测;
所述迁移单元,利用迁移学习中的微调策略,将模型预测单元中训练好的模型迁移到其他医疗站点的数据集上进行病人分类,迁移包括以下两部分,(1)从EICU迁移到MIMIC-III,将在EICU上训练好的模型浅层固定,并迁移到MIMIC-III数据集上进行病人分类,(2)从MIMIC-III迁移到EICU,将在MIMIC上训练好的模型浅层固定,并迁移到EICU数据集上进行病人分类。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (1)
1.基于RNN神经网络的可迁移病人分类系统,其特征在于,包括:输入模块,数据处理模块,分类模块;
所述输入模块,用于获取医疗数据库中所有原始病历数据;
所述数据处理模块,与输入模块相连,用于对输入模块获取的原始病历数据进行处理,输出病人时序序列;
所述数据处理模块包括:数据预处理单元、病人时序序列生成单元;
所述数据预处理单元,用于对数据库中的病历数据进行筛选,清洗生理特征数据和医疗事件中的噪声数据、缺失数据,对清洗过后的数据按照病人ID进行划分,得到每个病人与住院死亡率预测相关的完整病历信息并进行数据对齐;
所述数据预处理单元包括:数据队列选择器,数据划分器,数据转化器,数据对齐器;
所述数据队列选择器用于从MIMIC-III和EICU数据集中筛选出符合条件的病人队列集,所述病人队列集的选择规则为:选取第一次ICU入住的病人记录,去除年龄小于18周岁的病人记录,去除住院期间有转院记录的病人记录,去除有重复住院的病人记录,去除住院ID为空的病人医疗事件记录,去除住院ID未出现在ICU护理信息表中的病人的医疗事件记录,并通过住院ID修复ICU住院ID为空的病人的医疗事件记录,最终得到符合条件的病人队列;
所述数据划分器将数据队列选择器筛选得到的病人队列以病人ID划分,得到每个病人的住院信息、诊断信息、医疗事件信息;
所述数据转化器用于处理数据划分器输出的每个病人记录中不同字段的取值,数据转化器的处理过程为:首先统一特征的取值单位,进而填补缺失值,再去除噪音值,最后对数值型取值中的字符型数据进行转化或剔除;
所述数据对齐器将经过数据转化器处理过后的病人数据,根据各特征与住院死亡率预测的相关性选择最相关的前17个特征,然后取MIMIC-III和EICU数据的最小特征公共子集,最后将选取的特征公共子集的特征值对齐,特征值对齐过程为:首先统一特征取值单位,进而将特征类型转换成相同类型,最后将特征名称映射成标准医学概念;
所述病人时序序列生成单元将每个病人与住院死亡率预测相关的完整病历信息中的诊断代码和医疗事件ID根据国际标准映射成对应的医疗概念,生成每一阶段的病人状态信息,同时将时间信息添加到病人序列中,生成病人时序序列;
所述病人时序序列生成单元包括:病人状态信息生成器,病人时序序列生成器;
所述病人状态信息生成器用于生成每一次ICU入住的病人状态信息,通过将上述得到病人的住院信息和诊断信息按照病人ID进行合并,得到病人该次住院的状态信息;
所述病人时序序列生成器用于生成病人时序序列,对于医疗事件信息,根据每个医疗事件发生的时间,以小时为单位计算出事件发生时间与ICU入住时间的偏移值,然后将时间偏移值加入医疗事件序列中,将每个病人的所有医疗事件按照时间顺序排列,得到病人时序序列;
所述分类模块包括:模型构建单元、模型预测单元、迁移单元,该模块利用循环神经网络构建病人分类模型,利用所述数据处理模块输出的数据进行病人分类;
所述模型构建单元采用循环神经网络RNN中的门控循环单元,并结合注意力Attention机制,构建住院死亡率预测模型,模型构建按照如下次序进行:(1)编码实现一个自定义Attention层,(2)依次调用Input层,Masking层,Dropout层,BiGRU网络层,GRU网络层和Attention层搭建预测模型;其中BiGRU层用于向量表征学习,Dropout层用于防止模型过拟合,Attention层用于计算每个特征变量的权重值,然后根据每个特征跟死亡率的相关性调整权重,最后对权重和特征值向量相乘后求和输出;
其中,门控神经单元的计算过程为:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
yt=σ(Wo·ht)
其中rt是重置门,zt是更新门,是新的隐藏状态,ht是当前隐藏状态,yt是当前输出,σ是激活函数,是不同的权值矩阵,ht-1是上一层的隐藏状态,xt是当前输入,'.'代表点乘,tanh是正切函数,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多;
其中,Attention机制层的计算过程为:
St=f(St-1,yt-1,ct)
etj=g(St-1,hj)
其中St是解码器在当前t时刻的状态输出,St-1是解码器在t-1时刻的状态输出,yt-1是t-1时刻的标签,f代表一个RNN,ct是上下文信息,hj是第j个输入在编码器中的输出,atj是权重,etj是第j个输入数据在t时刻的最终输出,etk是第k个输入数据在t时刻的最终输出,g代表一个前馈神经网络;
所述模型预测单元将数据处理模块得到的病人时序序列输入到模型构建单元构建的模型,利用训练集数据对模型进行训练,并将测试集读入训练好的模型进行病人分类;其中,病人预测分类过程按照如下次序进行:(1)读入数据处理模块输出的病人时序序列,将读入的数据按照7:3划分成训练集和测试集,(2)对训练集中的数据进行正则化和离散化,其中,连续型数据采用z-score进行正则化,类别型数据进行离散化,采用独热编码方式对离散后的类型数据进行编码,最终得到病人时序序列的向量表示,(3)将转化成向量表示的训练集数据输入到模型中进行模型训练,(4)利用训练好的模型,读入测试集数据,进行病人分类预测;
所述迁移单元,利用迁移学习中的微调策略,将模型预测单元中训练好的模型迁移到其他医疗站点的数据集上进行病人分类,迁移包括以下两部分,(1)从EICU迁移到MIMIC-III,将在EICU上训练好的模型浅层固定,并迁移到MIMIC-III数据集上进行病人分类,(2)从MIMIC-III迁移到EICU,将在MIMIC上训练好的模型浅层固定,并迁移到EICU数据集上进行病人分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910407569.2A CN110111901B (zh) | 2019-05-16 | 2019-05-16 | 基于rnn神经网络的可迁移病人分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910407569.2A CN110111901B (zh) | 2019-05-16 | 2019-05-16 | 基于rnn神经网络的可迁移病人分类系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110111901A CN110111901A (zh) | 2019-08-09 |
CN110111901B true CN110111901B (zh) | 2023-04-18 |
Family
ID=67490450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910407569.2A Active CN110111901B (zh) | 2019-05-16 | 2019-05-16 | 基于rnn神经网络的可迁移病人分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110111901B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942831B (zh) * | 2019-11-26 | 2022-10-11 | 北京航空航天大学 | 基于自注意力机制的孕期数据建模方法 |
CN110957015B (zh) * | 2019-12-02 | 2023-04-28 | 南开大学 | 电子医疗记录数据的缺失值填充方法 |
CN111243697A (zh) * | 2020-01-08 | 2020-06-05 | 来康科技有限责任公司 | 一种基于神经网络对目标对象数据进行判断的方法及系统 |
CN111276242A (zh) * | 2020-01-20 | 2020-06-12 | 吉林大学 | 一种针对医院重症监护室患者疾病诊断与病情状态评估建模方法 |
CN111462896B (zh) * | 2020-03-31 | 2023-04-18 | 重庆大学 | 一种基于病案的实时智能辅助icd编码系统和方法 |
CN111612278A (zh) * | 2020-06-01 | 2020-09-01 | 戴松世 | 生命状态预测方法、装置、电子设备及存储介质 |
CN111696674B (zh) * | 2020-06-12 | 2023-09-08 | 电子科技大学 | 一种电子病历的深度学习方法及系统 |
CN112205965B (zh) * | 2020-08-28 | 2022-02-22 | 北京大学 | 基于时间窗口切割的健康风险关键事件检测方法及系统 |
CN112183723B (zh) * | 2020-09-17 | 2022-07-05 | 西北工业大学 | 一种针对临床检测数据缺失问题的数据处理方法 |
CN113782209A (zh) * | 2020-09-25 | 2021-12-10 | 北京大学 | 一种基于循环神经网络的慢性病患者智能预后方法及系统 |
CN112435757B (zh) * | 2020-10-27 | 2024-07-16 | 深圳市利来山科技有限公司 | 一种急性肝炎的预测装置及系统 |
CN114758768A (zh) * | 2020-12-28 | 2022-07-15 | 中国科学院沈阳计算技术研究所有限公司 | 一种基于Bi-GRU的宫颈癌诊疗项目预测方法 |
CN113990502B (zh) * | 2021-10-28 | 2024-08-06 | 浙江大学 | 一种基于异构图神经网络的icu心衰预测系统 |
CN114512185B (zh) * | 2022-01-13 | 2024-04-05 | 湖南大学 | 一种变异数据降维输入的驴种群自然选择分类系统 |
TWI839761B (zh) * | 2022-06-23 | 2024-04-21 | 吳福興 | 基於模型整合之健康醫療事件預測系統及其方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204532A (zh) * | 2016-06-24 | 2016-12-07 | 华南理工大学 | 基于特征数据挖掘及神经网络的肿瘤的分类方法 |
CN107622485A (zh) * | 2017-08-15 | 2018-01-23 | 中国科学院深圳先进技术研究院 | 一种融合深度张量神经网络的医学影像数据分析方法和系统 |
CN108198620A (zh) * | 2018-01-12 | 2018-06-22 | 洛阳飞来石软件开发有限公司 | 一种基于深度学习的皮肤疾病智能辅助诊断系统 |
CN109659033A (zh) * | 2018-12-18 | 2019-04-19 | 浙江大学 | 一种基于循环神经网络的慢性疾病病情变化事件预测装置 |
CN109754012A (zh) * | 2018-12-29 | 2019-05-14 | 新华三大数据技术有限公司 | 实体语义关系分类方法、模型训练方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180211010A1 (en) * | 2017-01-23 | 2018-07-26 | Ucb Biopharma Sprl | Method and system for predicting refractory epilepsy status |
-
2019
- 2019-05-16 CN CN201910407569.2A patent/CN110111901B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204532A (zh) * | 2016-06-24 | 2016-12-07 | 华南理工大学 | 基于特征数据挖掘及神经网络的肿瘤的分类方法 |
CN107622485A (zh) * | 2017-08-15 | 2018-01-23 | 中国科学院深圳先进技术研究院 | 一种融合深度张量神经网络的医学影像数据分析方法和系统 |
CN108198620A (zh) * | 2018-01-12 | 2018-06-22 | 洛阳飞来石软件开发有限公司 | 一种基于深度学习的皮肤疾病智能辅助诊断系统 |
CN109659033A (zh) * | 2018-12-18 | 2019-04-19 | 浙江大学 | 一种基于循环神经网络的慢性疾病病情变化事件预测装置 |
CN109754012A (zh) * | 2018-12-29 | 2019-05-14 | 新华三大数据技术有限公司 | 实体语义关系分类方法、模型训练方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110111901A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111901B (zh) | 基于rnn神经网络的可迁移病人分类系统 | |
CN112199520B (zh) | 基于细粒度相似性矩阵的跨模态哈希检索算法 | |
Lin et al. | Diffusion models for time-series applications: a survey | |
CN110020671B (zh) | 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法 | |
CN108428478B (zh) | 基于异质医疗数据挖掘的甲状腺癌风险预测方法 | |
CN114386528B (zh) | 模型的训练方法和装置、计算机设备、存储介质 | |
CN107833605A (zh) | 一种医院病历信息的编码方法、装置、服务器及系统 | |
CN109994216A (zh) | 一种基于机器学习的icd智能诊断编码方法 | |
CN109448703A (zh) | 结合深度神经网络和主题模型的音频场景识别方法及系统 | |
CN112835709A (zh) | 基于生成对抗网络的云负载时序数据生成方法、系统及介质 | |
Xu et al. | Bipolar fuzzy Petri nets for knowledge representation and acquisition considering non-cooperative behaviors | |
CN117095802B (zh) | 陪护人员的智能管理系统及其方法 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN110164519B (zh) | 一种基于众智网络的用于处理电子病历混合数据的分类方法 | |
Abdelhafeez et al. | A novel approach toward skin cancer classification through fused deep features and neutrosophic environment | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN114359656A (zh) | 一种基于自监督对比学习的黑色素瘤图像识别方法和存储设备 | |
CN116072298B (zh) | 一种基于层级标记分布学习的疾病预测系统 | |
Ning et al. | Research on a vehicle-mounted intelligent TCM syndrome differentiation system based on deep belief network | |
Shakah | Modeling of Healthcare Monitoring System of Smart Cities | |
Yue et al. | Probabilistic linguistic multi-criteria decision-making based on double information under imperfect conditions | |
CN116543917A (zh) | 一种针对异构时间序列数据的信息挖掘方法 | |
CN116955638A (zh) | 知识图谱构建方法、装置、计算机可读介质及电子设备 | |
Gao et al. | A Collaborative Multimodal Learning-Based Framework for COVID-19 Diagnosis | |
Wang et al. | Analysis and design of epidemic disease monitoring cloud platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |