CN110347837B - 一种心血管疾病非计划再住院风险预测方法 - Google Patents

一种心血管疾病非计划再住院风险预测方法 Download PDF

Info

Publication number
CN110347837B
CN110347837B CN201910643706.2A CN201910643706A CN110347837B CN 110347837 B CN110347837 B CN 110347837B CN 201910643706 A CN201910643706 A CN 201910643706A CN 110347837 B CN110347837 B CN 110347837B
Authority
CN
China
Prior art keywords
patient
model
data
hospitalization
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910643706.2A
Other languages
English (en)
Other versions
CN110347837A (zh
Inventor
邱航
陈玉成
蒲晓蓉
刘思
王利亚
罗林
李为昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
West China Hospital of Sichuan University
Original Assignee
University of Electronic Science and Technology of China
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, West China Hospital of Sichuan University filed Critical University of Electronic Science and Technology of China
Priority to CN201910643706.2A priority Critical patent/CN110347837B/zh
Publication of CN110347837A publication Critical patent/CN110347837A/zh
Application granted granted Critical
Publication of CN110347837B publication Critical patent/CN110347837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种心血管疾病非计划再住院风险预测方法,基于与患者健康相关的结构化数据以及非结构化数据构成的多源异构医疗健康数据,应用基于深度神经网络的多模型集成算法,构建非计划再住院风险预测模型。本发明可以准确分析外部环境变化对患者非计划再住院的影响,同时应用文本挖掘技术提取非结构化数据的关键信息,全面挖掘患者健康影响因子。本发明解决了现有技术中缺乏外部环境变化对患者健康的影响分析、非结构化数据信息挖掘不足以及非平衡分类样本预测准确率较低的问题,提升了心血管疾病患者非计划再住院的预测准确性。

Description

一种心血管疾病非计划再住院风险预测方法
技术领域
本发明属于风险预测技术领域,尤其涉及一种心血管疾病非计划再住院风险预测方法。
背景技术
统计数据显示,心血管疾病是全球的头号死因。心血管疾病严重威胁人类健康,特别是50岁以上中老年人健康,具有高患病率、高致残率和高死亡率的特点。心血管疾病的预后管理已成为医学界和专家学者的重要研究方向,也是精准医疗的一个重要研究内容。
非计划再住院风险预测作为精准医疗的一个重要研究内容,是衡量医疗质量的重要依据。非计划再住院是指病人出院31天内因相同疾病或相关疾病非计划再入院。精准预测心血管疾病患者的非计划再住院风险,有利于患者及医生提前采取预防措施,针对性地调整康复项目,提升康复效果。结合医疗健康大数据的特点及非计划再入院风险预测研究基础,目前工作还存在一些问题有待研究,主要体现在以下几个方面:(1)心血管疾病的复发除了与患者自身特征相关,还与外界环境息息相关;(2)医疗健康大数据包含大量非结构化数据,如影像信息、文本信息,对这部分的信息挖掘不足;(3)非计划再住院分类样本具有非平衡性,需采用更有效的机器学习算法,提升对非平衡样本的预测准确率。
鉴于此,本发明将探索外部环境变化对心血管疾病患者非计划再住院风险的影响,挖掘非结构化数据的深层信息,运用混合集成学习算法构建非计划再住院风险预测模型,提升非平衡性分类样本的预测准确率。
发明内容
针对现有技术中的上述不足,本发明提供的一种心血管疾病非计划再住院风险预测方法解决了现有技术中缺乏外部环境变化对患者健康的影响分析、非结构化数据信息挖掘不足以及非平衡分类样本预测准确率较低的问题,提升了心血管疾病患者非计划再住院的预测准确性。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种心血管疾病非计划再住院风险预测方法,包括如下步骤:
S1、获取与患者健康相关的结构化数据以及非结构化数据;
S2、根据患者的ID、入院时间、出院时间以及出院主诊断构建患者的再住院标签集合;
S3、利用文本分词模型Bi-LSTM-CRF对所述非结构化数据的文本数据进行文本分词处理,并根据所述分词处理后的文本数据生成词频矩阵;
S4、根据所述分词处理后的文本数据构建LDA主题模型,并根据所述LDA主题模型以及词频矩阵计算患者的特征向量;
S5、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量,并利用基于深度神经网络的多模型集成算法预测心血管疾病患者非计划再住院风险。
进一步地,所述步骤S1中所述与患者健康相关的结构化数据包括:与患者相关的人口统计信息、常规检查信息、临床诊疗信息、药物治疗信息、家族史信息以及患者所处的外部环境信息;
所述与患者健康相关的非结构化数据包括:与患者相关的医嘱、病程进展以及影像信息的检查结果。
再进一步地,所述步骤S2具体为:
根据患者的ID、入院时间、出院时间以及出院主诊断判断患者第t次因心血管疾病住院与第t+1次因心血管疾病住院的入院时间间隔是否小于31天,若是,则该患者的第t次非计划再住院标签为1,否则该患者的第t次非计划再住院标签为0,从而完成对患者再住院标签集合的构建。
再进一步地,所述步骤S3中对所述文本数据进行文本分词处理包括如下步骤:
S301、利用双向长短期记忆网络模型Bi-LSTM对所述非结构化数据的文本数据进行处理,得到初始文本分词标签;
S302、将所述初始文本分词标签输入至条件随机场模型CRF进行学习得到所述文本分词标签的状态转移矩阵;
S303、利用维特比算法Viterbi对所述状态转移矩阵进行解码,输出文本分词标签序列,从而完成对所述文本数据的分词处理。
再进一步地,所述步骤S4包括如下步骤:
S401、根据所述分词处理后的文本数据构建LDA主题模型;
S402、根据所述分词处理后的文本数据利用所述LDA主题模型以及困惑度计算得到最优主题模型数;
S403、将所述最优主题模型数输入至所述LDA主题模型进行训练,得到训练后的LDA主题模型;
S404、根据所述训练后的LDA主题模型以及词频矩阵计算患者的特征向量。再进一步地,所述步骤S403中训练后的LDA主题模型Topicu的表达式为:
Topicu=αu1*wordu1+…+αuv*worduv+…+αuq*worduq
其中,u为第u个主题模型,αuv为主题模型中关键词worduv的权重,v=1,2,...q,q为构成主题模型的关键词数量,worduv表示主题模型中的关键词。
再进一步地,所述步骤S5包括如下步骤:
S501、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述的患者特征向量获取交叉验证数据子集;
S502、根据所述交叉验证数据子集利用逻辑回归算法LR、支持向量机算法SVM、朴素贝叶斯算法NB、随机森林算法RF以及极端梯度提升算法XGBoost五种算法构建第一阶段分类预测模型,并根据所述第一阶段分类预测模型分别得到第一阶段分类预测模型的再住院风险预测结果;
S503、根据患者的ID合并所述第一阶段分类预测结果及患者的再住院标签集合,形成新的数据集;
S504、利用所述新的数据集构建深度神经网络模型,并通过5折交叉验证优化深度神经网络模型的参数,得到训练后的深度神经网络模型;
S505、将所述新的数据集输入至所述训练后的深度神经网络模型,并根据所述训练后的深度神经网络模型输出心血管疾病患者非计划再住院风险的预测值。
再进一步地,所述步骤S501包括如下步骤:
S5011、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量构建数据集D;
S5012、将所述数据集D划分为5个独立同分布的数据子集Dk={Xk,Yk},从而获取交叉验证数据子集,其中,Xk为患者的特征集合,Yk为患者的再住院标签集合,k为数据子集的个数,且k=1,2,...5。
再进一步地,所述步骤S504中的构建深度神经网络模型包括定义所述深度神经网络模型的目标函数以及所述深度神经网络模型的激活函数。
再进一步,所述深度神经网络模型的目标函数J(W,b)的表达式如下:
Figure GDA0003373555940000051
其中,λ为正则项系数,x′r为患者的特征,yr为患者的再住院标签,m为样本量,nl为神经网络层数,sl为在l层的神经元数量,W和b均为深度神经网络模型的参数,且
Figure GDA0003373555940000052
Figure GDA0003373555940000053
Figure GDA0003373555940000054
为连接第l-1层神经元j与第l层神经元i的关联权重,且j=1,2,…,sl-1,i=1,2,…,sl l=2,3,…,nl
Figure GDA0003373555940000055
为第l层神经元i的偏倚,hW,b表示激活函数;
所述深度神经网络输出层的激活函数hW,b(x′)的表达式如下:
Figure GDA0003373555940000056
其中,
Figure GDA0003373555940000057
为第nl层第i个神经元的输出,f(·)为激活函数,
Figure GDA0003373555940000058
为连接第nl-2层神经元sl-1与第nl-1层神经元i的关联权重,
Figure GDA0003373555940000059
为第nl-1层神经元i的偏倚。
本发明的有益效果:
(1)本发明基于与患者健康相关的结构化数据以及非结构化数据构成的多源异构医疗健康数据,构建非计划再住院风险预测模型,准确分析外部环境变化对患者非计划再住院的影响,同时应用文本挖掘技术提取电子病历非结构化数据的关键信息,全面挖掘患者健康影响因子;
(2)本发明构建Bi-LSTM-CRF模型,捕获文本中词的上下文语义关系,同时学习标签间的顺序性,提升文本信息分词的准确性;
(3)本发明运用主题模型LDA,对潜在主题分类的相关特征进行分析和甄别,确定相关主题,将文本信息转化为机器学习算法能识别的特征向量,同时降低了特征的稀疏性;
(4)本发明构建基于深度神经网络的多模型集成算法,有助于提升非平衡分类样本的预测准确率和样本外推广能力。
附图说明
图1为本发明的方法流程图。
图2为本实施例中文本分词的流程图。
图3为本实施例中利用LDA主题模型对所述分词处理后的文本数据的流程图。
图4为本实施例中基于深度神经网络的多模型集成算法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
本发明基于与患者健康相关的结构化数据以及非结构化数据构成的多源异构医疗健康数据,构建非计划再住院风险预测模型。本发明分析外部环境变化对心血管疾病患者非计划再住院风险的影响,挖掘非结构化数据的深层信息,运用基于深度神经网络的多模型集成算法构建非计划再住院风险预测模型,提升非平衡分类样本的预测准确率。
如图1所示,本发明公开了一种心血管疾病非计划再住院风险预测方法,其实现方法如下:
S1、获取与患者健康相关的结构化数据以及非结构化数据,其中,
所述与患者健康相关的结构化数据包括:与患者相关的人口统计信息、常规检查信息、临床诊疗信息、药物治疗信息、家族史信息以及患者所处的外部环境信息;
所述与患者健康相关的非结构化数据包括:与患者相关的医嘱、病程进展以及影像信息的检查结果。
在具体实施例中,本发明基于与患者相关的结构化数据以及文本数据构成的多源异构医疗健康数据,其具体如下:
(1)获取与患者健康相关的结构化数据:
针对患者个体,提取与患者健康相关的结构化数据,包括:人口统计信息、常规检查信息、临床诊疗信息、药物治疗信息、家族史信息。针对患者所处外部环境,提取与患者健康相关的结构化数据,包括:气象信息,如平均温度、相对湿度;空气污染信息,如PM2.5、PM10、SO2、NO2、O3、CO浓度。根据人群在室外暴露情况不同,选择交通高峰期的空气污染物平均浓度作为衡量患者所处外部环境的空气污染情况,即选择各空气污染物在时间段07:00--09:00、11:00--13:00、17:00--19:00的平均值作为当天的空气污染物浓度。
(2)获取与患者健康相关的非结构化数据:
在具体实施例中,获取与心血管疾病相关的非结构化数据,包括影像信息、医嘱、病程进展等。影像信息,如超声心动图、放射性核素心肌显像、选择性冠状动脉造影和冠状动脉血管镜等检查,提取影像信息的诊断结果,该信息主要采用自然语言文字描述,因此,本发明的非结构化数据主要指文本数据。
S2、根据患者的ID、入院时间、出院时间以及出院主诊断构建患者的再住院标签集合,具体为:
根据患者的ID、入院时间、出院时间以及出院主诊断判断患者第t次因心血管疾病住院与第t+1次因心血管疾病住院的入院时间间隔是否小于31天,若是,则该患者的第t次非计划再住院标签为1,否则该患者的第t次非计划再住院标签为0,从而完成对患者再住院标签集合的构建。
在具体实施例中,基于心血管疾病患者住院记录时间序列,对每个患者是否因心血管疾病31天内再住院打标签。对患者a的na条住院记录
Figure GDA0003373555940000081
xa,t表示患者a的第t次住院记录,若患者第t次因心血管疾病住院,第t+1次也因心血管疾病住院,且第t次的出院时间与第t+1次的入院时间间隔小于31天,则该患者的第t次非计划再住院标签为1,否则,患者的非计划再住院标签为0,患者前t次住院记录作为非计划再住院风险预测模型特征集合。
S3、利用文本分词模型Bi-LSTM-CRF对所述非结构化数据的文本数据进行文本分词处理,并根据所述分词处理后的文本数据生成词频矩阵,如图2所示,其实现方法如下:
S301、利用双向长短期记忆网络模型Bi-LSTM对所述非结构化数据的文本数据进行处理,得到初始文本分词标签;
S302、将所述初始文本分词标签输入至条件随机场模型CRF进行学习得到所述文本分词标签的状态转移矩阵;
S303、利用维特比算法Viterbi对所述状态转移矩阵进行解码,输出文本分词标签序列,从而完成对所述文本数据的分词处理。
在具体实施例中,电子病例中的文本数据通常为短语或句子,不能直接作为特征输入再住院风险预测模型中。针对患者文本数据,先通过中文分词技术提取关键信息,再构建主题模型,将文本数据转化为机器学习算法能识别的特征向量,并降低文本信息的稀疏性。为提升电子病例文本信息分词准确性,本发明构建了Bi-LSTM-CRF模型,双向长短期记忆网络模型(Bi-directional Long Short Term Memory,Bi-LSTM)能捕获到句子中一个词的上下文信息,而条件随机场模型(Conditional Random Fields,CRF)能学习到状态转移矩阵使输出标签时的抉择前后相互关联,从而网络结构能更好地理解语义并实现正确分词。
在具体实施例中,输入患者电子病例文本信息,构建Bi-LSTM模型,使模型通过前向过程提取和后向过程提取学习文本的上下文信息,拼接模型输出的2个患者电子病例文本分词标签,得到隐藏状态序列。假设最开始的一层按照时间的顺序,接下来的一层按照时间的倒序顺序,在时刻为t的隐藏状态定义为
Figure GDA0003373555940000091
Figure GDA0003373555940000092
,则有:
Figure GDA0003373555940000093
Figure GDA0003373555940000094
Figure GDA0003373555940000095
其中,⊕表示向量拼接操作,U(1)、V(1)、β(1)分别为隐藏状态
Figure GDA0003373555940000096
的可学习网络参数,U(2)、V(2)、β(2)分别为隐藏状态
Figure GDA0003373555940000097
的可学习网络参数,xt为患者电子病例文本信息当前时刻的输入。
将Bi-LSTM模型输出的电子病例文本数据初始为分词标签,并连接到CRF模型,CRF将Bi-LSTM在每个t时刻在第c个标签上的输出作为特征函数中的点函数,使原本的CRF中引入非线性,通过Viterbi算法(维特比算法)快速对CRF学习到的状态转移矩阵解码,获得输出分词标签序列,Viterbi算法是目前应用最广的动态规划算法,利用动态规划,可以解决任何一个图中的最短路径问题。
S4、根据所述分词处理后的文本数据构建LDA主题模型,并根据所述LDA主题模型以及词频矩阵计算患者的特征向量,如图3所示,其实现方法如下:
S401、根据所述分词处理后的文本数据构建LDA主题模型;
S402、根据所述分词处理后的文本数据利用所述LDA主题模型以及困惑度计算得到最优主题模型数;
S403、将所述最优主题模型数输入至所述LDA主题模型进行训练,得到训练后的LDA主题模型;
S404、根据所述训练后的LDA主题模型以及词频矩阵计算患者的特征向量。
在具体实施例中,鉴于电子病例文本信息分词结果存在严重的稀疏性,因此构建主题模型,将文本信息转化为机器学习算法能识别的特征向量,同时降低文本信息维度,主题模型从文本挖掘角度,快速提取文本有效特征,发现和识别文档里的主题,挖掘语料里的隐藏信息。隐含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)是一种常用的主题模型,通过LDA主题模型,对文本进行语义分析,对潜在主题分类的相关特征进行分析和甄别,确定相关主题。将研究期间每个患者电子病例的文本信息分词结果作为一个文档,运用LDA模型计算文档之间的语义相似度,寻找字符间的语义主题。
其中,所述训练后的LDA主题模型Topicu的表达式为:
Topicu=αu1*wordu1+…+αuv*worduv+…+αuq*worduq
其中,u为第u个主题模型,αuv为主题模型中关键词worduv的权重,v=1,2,...q,q为构成主题模型的关键词数量,worduv表示主题模型中的关键词。
最优主题模型数l通过LDA主题模型以及困惑度计算得到,其中,困惑度的计算公式为:
Figure GDA0003373555940000101
其中,M是语料库的大小,Nd为第d篇文本的大小,即单词个数,p(w)指训练集中每个词出现的概率,p(w)=p(z|d)*p(w|z),p(z|d)表示一个文档中每个主题出现的概率,p(w|z)表示词典中每一个词在某个主题下出现的概率。
S5、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量,并利用基于深度神经网络的多模型集成算法预测心血管疾病患者非计划再住院风险,如图4所示,其实现方法如下:
S501、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述的患者特征向量获取交叉验证数据子集;
S502、根据所述交叉验证数据子集利用逻辑回归算法LR、支持向量机算法SVM、朴素贝叶斯算法NB、随机森林算法RF以及极端梯度提升算法XGBoost五种算法构建第一阶段分类预测模型,并根据所述第一阶段分类预测模型分别得到第一阶段分类预测模型的再住院风险预测结果;
S503、根据患者的ID合并所述第一阶段分类预测结果及患者的再住院标签集合,形成新的数据集;
S504、利用所述新的数据集构建深度神经网络模型,并通过5折交叉验证优化深度神经网络模型的参数,得到训练后的深度神经网络模型,其中,构建深度神经网络模型包括定义所述深度神经网络模型的目标函数以及所述深度神经网络模型的激活函数;
S505、将所述新的数据集输入至所述训练后的深度神经网络模型,并根据所述训练后的深度神经网络模型输出预测心血管疾病患者非计划再住院风险的预测值。
在具体实施例中,心血管疾病患者的文本数据经Bi-LSTM-CRF模型、主题模型处理得到结构化数据,按患者ID合并患者的再住院标签集合、与患者相关的结构化数据,构成数据集D。将数据集D划分为5个独立同分布的子集{D1,D2,…,D5},其中,Dk={Xk,Yk},Xk为患者的特征集合,Yk为患者的再住院标签集合,k为数据子集的个数,且k=1,2,...5。
在具体实施例中,选择以下五种分类算法作为第一阶段分类预测模型,即逻辑回归(Logistics Regression,LR)、支持向量机(Support Vector Machines,SVM)、朴素贝叶斯(Naive Bayes,NB)、随机森林算法(Random Forests,RF)、极端梯度提升算法(eXtremeGradient Boosting,XGBoost)。给定数据子集{D1,D2,…,D5},选择其中4个子集作为训练集,另外1个子集作为测试集,基于训练集分别训练第一阶段分类预测模型LR、SVM、NB、RF、XGBoost参数,重复五次,得到最优第一阶段分类预测模型参数,将测试集输入训练后的第一阶段分类预测模型,从而得到第一阶段分类预测模型的再住院风险预测结果Zk={z1(Xk),z2(Xk),…,z5(Xk)},其中,Zk为二分类变量。合并预测结果Zk={z1(Xk),z2(Xk),…,z5(Xk)}和对应的患者标签集合Yk,形成新的数据集Dk′,作为深度神经网络模型的输入,其中,Dk′={Zk,Yk}。输入新数据集{D1′,D2′,…,D5′},构建深度神经网络(Deep NeuralNetworks,DNN),并通过5折交叉验证优化模型参数,最后输出患者非计划再住院风险预测结果。
在具体实施例中,神经网络模型容易发生过拟合现象,而正则化可以防止过拟合,提高泛化能力。对新数据集{D1′,D2′,…,D5′},选择其中4个子集作为训练集,另外1个子集作为测试集,基于训练集训练深度神经网络模型的参数,重复5次,得到最优深度神经网络模型参数。新数据集的训练集记为{(x′1,y1),(x′2,y2),...,(x′m,ym)},其中,x′r为输入特征,yr为再住院标签,m为样本量,深度神经网络的目标函数定义为:
Figure GDA0003373555940000121
其中,第一项为均方误差项,第二项为正则化项,λ为正则项系数,权衡均方误差项与正则化项的比重,nl为神经网络层数,sl为在l层的神经元数量,W和b均为深度神经网络模型的参数,且
Figure GDA0003373555940000131
Figure GDA0003373555940000132
Figure GDA0003373555940000133
为连接第l-1层神经元j与第l层神经元i的关联权重,且j=1,2,…,sl-1,i=1,2,…,sl,l=2,3,…,nl
Figure GDA00033735559400001312
为第l层神经元i的偏倚,hW,b表示激活函数。
深度神经网络输出层hW,b(x′)定义为:
hW,b(x′)=f(WTx′+b)
其中,f(·)为激活函数,在具体实施例中,采用Sigmoid函数作为激活函数,即
Figure GDA0003373555940000134
定义第l层第i个神经元的输出为
Figure GDA0003373555940000135
则:
Figure GDA0003373555940000136
对输入层L1,有
Figure GDA0003373555940000137
因此,所述深度神经网络模型的激活函数hW,b(x′)可表示为:
Figure GDA0003373555940000138
其中,
Figure GDA0003373555940000139
为第nl层第i个神经元的输出,f(·)为激活函数,
Figure GDA00033735559400001310
为连接第nl-2层神经元sl-1与第nl-1层神经元i的关联权重,
Figure GDA00033735559400001311
为第nl-1层神经元i的偏倚。
本发明通过以上设计可以准确分析外部环境变化对患者非计划再住院的影响,同时应用文本挖掘技术提取电子病历非结构化数据的关键信息,全面挖掘患者健康影响因子。本发明解决了现有技术中缺乏外部环境变化对患者健康的影响分析、文本数据信息挖掘不足以及非平衡分类样本预测准确率较低的问题,提升了心血管疾病患者非计划再住院的预测准确性。

Claims (7)

1.一种心血管疾病非计划再住院风险预测方法,其特征在于,包括如下步骤:
S1、获取与患者健康相关的结构化数据以及非结构化数据;
S2、根据患者的ID、入院时间、出院时间以及出院主诊断构建患者的再住院标签集合;
S3、利用文本分词模型Bi-LSTM-CRF对所述非结构化数据的文本数据进行文本分词处理,并根据所述分词处理后的文本数据生成词频矩阵;
S4、根据所述分词处理后的文本数据构建LDA主题模型,并根据所述LDA主题模型以及词频矩阵计算患者的特征向量;
S5、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量,并利用基于深度神经网络的多模型集成算法预测心血管疾病患者非计划再住院风险;
所述步骤S5包括如下步骤:
S501、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述的患者特征向量获取交叉验证数据子集;
S502、根据所述交叉验证数据子集利用逻辑回归算法LR、支持向量机算法SVM、朴素贝叶斯算法NB、随机森林算法RF以及极端梯度提升算法XGBoost五种算法构建第一阶段分类预测模型,并根据所述第一阶段分类预测模型分别得到第一阶段分类预测模型的再住院风险预测结果;
S503、根据患者的ID合并所述第一阶段分类预测结果及患者的再住院标签集合,形成新的数据集;
S504、利用所述新的数据集构建深度神经网络模型,并通过5折交叉验证优化深度神经网络模型的参数,得到训练后的深度神经网络模型;
所述步骤S504中的构建深度神经网络模型包括定义所述深度神经网络模型的目标函数以及所述深度神经网络模型的激活函数;
所述深度神经网络模型的目标函数J(W,b)的表达式如下:
Figure FDA0003373555930000021
其中,λ为正则项系数,x′r为患者的特征,yr为患者的再住院标签,m为样本量,nl为神经网络层数,sl为在l层的神经元数量,W和b均为深度神经网络模型的参数,且
Figure FDA0003373555930000022
Figure FDA0003373555930000023
Figure FDA0003373555930000024
为连接第l-1层神经元j与第l层神经元i的关联权重,且j=1,2,…,sl-1,i=1,2,…,sl l=2,3,…,nl
Figure FDA0003373555930000025
为第l层神经元i的偏倚,hW,b表示激活函数;
所述深度神经网络输出层的激活函数hW,b(x′)的表达式如下:
Figure FDA0003373555930000026
其中,
Figure FDA0003373555930000027
为第nl层第i个神经元的输出,f(·)为激活函数,
Figure FDA0003373555930000028
为连接第nl-2层神经元sl-1与第nl-1层神经元i的关联权重,
Figure FDA0003373555930000029
为第nl-1层神经元i的偏倚;
S505、将所述新的数据集输入至所述训练后的深度神经网络模型,并根据所述训练后的深度神经网络模型输出心血管疾病患者非计划再住院风险的预测值。
2.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S1中所述与患者健康相关的结构化数据包括:与患者相关的人口统计信息、常规检查信息、临床诊疗信息、药物治疗信息、家族史信息以及患者所处的外部环境信息;
所述与患者健康相关的非结构化数据包括:与患者相关的医嘱、病程进展以及影像信息的检查结果。
3.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S2具体为:
根据患者的ID、入院时间、出院时间以及出院主诊断判断患者第t次因心血管疾病住院与第t+1次因心血管疾病住院的入院时间间隔是否小于31天,若是,则该患者的第t次非计划再住院标签为1,否则该患者的第t次非计划再住院标签为0,从而完成对患者再住院标签集合的构建。
4.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S3中对所述文本数据进行文本分词处理包括如下步骤:
S301、利用双向长短期记忆网络模型Bi-LSTM对所述非结构化数据的文本数据进行处理,得到初始文本分词标签;
S302、将所述初始文本分词标签输入至条件随机场模型CRF进行学习得到所述文本分词标签的状态转移矩阵;
S303、利用维特比算法Viterbi对所述状态转移矩阵进行解码,输出文本分词标签序列,从而完成对所述文本数据的分词处理。
5.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S4包括如下步骤:
S401、根据所述分词处理后的文本数据构建LDA主题模型;
S402、根据所述分词处理后的文本数据利用所述LDA主题模型以及困惑度计算得到最优主题模型数;
S403、将所述最优主题模型数输入至所述LDA主题模型进行训练,得到训练后的LDA主题模型;
S404、根据所述训练后的LDA主题模型以及词频矩阵计算患者的特征向量。
6.根据权利要求5所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S403中训练后的LDA主题模型Topicu的表达式为:
Topicu=αu1*wordu1+…+αuv*worduv+…+αuq*worduq
其中,u为第u个主题模型,αuv为主题模型中关键词worduv的权重,v=1,2,...q,q为构成主题模型的关键词数量,worduv表示主题模型中的关键词。
7.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S501包括如下步骤:
S5011、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量构建数据集D;
S5012、将所述数据集D划分为5个独立同分布的数据子集Dk={Xk,Yk},从而获取交叉验证数据子集,其中,Xk为患者的特征集合,Yk为患者的再住院标签集合,k为数据子集的个数,且k=1,2,...5。
CN201910643706.2A 2019-07-17 2019-07-17 一种心血管疾病非计划再住院风险预测方法 Active CN110347837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910643706.2A CN110347837B (zh) 2019-07-17 2019-07-17 一种心血管疾病非计划再住院风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910643706.2A CN110347837B (zh) 2019-07-17 2019-07-17 一种心血管疾病非计划再住院风险预测方法

Publications (2)

Publication Number Publication Date
CN110347837A CN110347837A (zh) 2019-10-18
CN110347837B true CN110347837B (zh) 2022-02-18

Family

ID=68175567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910643706.2A Active CN110347837B (zh) 2019-07-17 2019-07-17 一种心血管疾病非计划再住院风险预测方法

Country Status (1)

Country Link
CN (1) CN110347837B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110880362B (zh) * 2019-11-12 2022-10-11 南京航空航天大学 一种大规模医疗数据知识挖掘与治疗方案推荐系统
CN111009327A (zh) * 2019-12-19 2020-04-14 京东方科技集团股份有限公司 一种风险预测方法、装置及系统、介质
CN111048166A (zh) * 2019-12-24 2020-04-21 天津新开心生活科技有限公司 风险级别确定模型训练方法及装置、电子设备、存储介质
CN112002410A (zh) * 2020-08-20 2020-11-27 医渡云(北京)技术有限公司 传染病疾病状态预测方法及装置、存储介质、电子设备
CN112185558A (zh) * 2020-09-22 2021-01-05 珠海中科先进技术研究院有限公司 基于深度学习的心理健康及康复评定方法、装置及介质
CN112017784B (zh) * 2020-10-22 2021-02-09 平安科技(深圳)有限公司 一种基于多模态数据的冠心病风险预测方法及相关设备
CN112530595A (zh) * 2020-12-21 2021-03-19 无锡市第二人民医院 一种基于多分支链式神经网络的心血管疾病分类方法和装置
CN112687376A (zh) * 2021-01-22 2021-04-20 四川大学 一种慢性病群体中资源高消耗人群的个案管理方法
CN113100719A (zh) * 2021-04-08 2021-07-13 中国人民解放军陆军特色医学中心 一种基于机器学习的肾透析患者心血管事件预测系统
CN113223711A (zh) * 2021-04-29 2021-08-06 天津大学 基于多模态数据的再入院预测模型
CN113177359B (zh) * 2021-04-30 2023-04-18 上海电机学院 一种基于假人模型的身体组织状态预测方法
CN113160992A (zh) * 2021-06-15 2021-07-23 四川大学华西医院 住院临床场景的预估方法、系统、计算机设备及存储介质
CN114678125A (zh) * 2022-03-14 2022-06-28 浙江大学 一种急性心脑血管事件风险人群的智能健康管理方法
CN114792568B (zh) * 2022-06-27 2023-06-06 天津幸福生命科技有限公司 住院风险预测方法及装置、存储介质及电子设备
CN115148319A (zh) * 2022-07-25 2022-10-04 哈尔滨理工大学 多临床分期疾病的辅助分类方法、设备及存储介质
CN116487049B (zh) * 2023-06-21 2023-09-08 中国人民解放军总医院 基于决策分析的非计划重返事件处理系统
CN116738320A (zh) * 2023-06-30 2023-09-12 成都市双流区妇幼保健院 一种医疗保健大数据分析方法
CN116959715B (zh) * 2023-09-18 2024-01-09 之江实验室 一种基于时序演进过程解释的疾病预后预测系统
CN117079821B (zh) * 2023-10-12 2023-12-19 北京大学第三医院(北京大学第三临床医学院) 一种患者住院事件预测方法
CN117438023B (zh) * 2023-10-31 2024-04-26 灌云县南岗镇卫生院 基于大数据的医院信息管理方法及系统
CN117373678B (zh) * 2023-12-08 2024-03-05 北京望石智慧科技有限公司 基于突变签名的疾病风险预测模型构建方法及分析方法
CN117809811B (zh) * 2024-02-28 2024-05-10 山东大学第二医院 一种基于人工智能的减重手术术后管理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020454A (zh) * 2012-12-15 2013-04-03 中国科学院深圳先进技术研究院 发病关键因素提取与疾病预警方法及系统
CN105512477A (zh) * 2015-12-03 2016-04-20 万达信息股份有限公司 基于降维组合分类算法非计划性再入院风险评估预测模型
CN106599994A (zh) * 2016-11-23 2017-04-26 电子科技大学 一种基于深度回归网络的视线估计方法
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN107180283A (zh) * 2017-07-05 2017-09-19 山东大学 一种基于最优特征组合的再住院行为预测系统及方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN109949936A (zh) * 2019-03-13 2019-06-28 成都数联易康科技有限公司 一种基于深度学习混合模型的再住院风险预测方法
CN110010248A (zh) * 2019-04-17 2019-07-12 电子科技大学 一种基于代价敏感集成学习模型的再入院风险预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3056328A1 (fr) * 2016-09-16 2018-03-23 L'air Liquide, Societe Anonyme Pour L'etude Et L'exploitation Des Procedes Georges Claude Systeme de traitement de donnees pour predire une hospitalisation ou une re-hospitalisation d’un patient atteint d’une maladie respiratoire chronique
CN106557653B (zh) * 2016-11-15 2017-09-22 合肥工业大学 一种移动医疗智能导医系统及其方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020454A (zh) * 2012-12-15 2013-04-03 中国科学院深圳先进技术研究院 发病关键因素提取与疾病预警方法及系统
CN105512477A (zh) * 2015-12-03 2016-04-20 万达信息股份有限公司 基于降维组合分类算法非计划性再入院风险评估预测模型
CN106599994A (zh) * 2016-11-23 2017-04-26 电子科技大学 一种基于深度回归网络的视线估计方法
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN107180283A (zh) * 2017-07-05 2017-09-19 山东大学 一种基于最优特征组合的再住院行为预测系统及方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN109949936A (zh) * 2019-03-13 2019-06-28 成都数联易康科技有限公司 一种基于深度学习混合模型的再住院风险预测方法
CN110010248A (zh) * 2019-04-17 2019-07-12 电子科技大学 一种基于代价敏感集成学习模型的再入院风险预测方法

Also Published As

Publication number Publication date
CN110347837A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110347837B (zh) 一种心血管疾病非计划再住院风险预测方法
Xu et al. Deep learning based emotion analysis of microblog texts
Ren et al. A sentiment-aware deep learning approach for personality detection from text
Wu et al. A deep architecture for depression detection using posting, behavior, and living environment data
Zhou et al. Recurrent convolutional neural network for answer selection in community question answering
KR102008845B1 (ko) 비정형 데이터의 카테고리 자동분류 방법
CN112579778B (zh) 基于多层次的特征注意力的方面级情感分类方法
Zhang et al. Exploring semi-supervised variational autoencoders for biomedical relation extraction
Dheeraj et al. Negative emotions detection on online mental-health related patients texts using the deep learning with MHA-BCNN model
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
Li et al. UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning
WO2023004528A1 (zh) 一种基于分布式系统的并行化命名实体识别方法及装置
Wei et al. Exploiting the local temporal information for video captioning
Guan et al. Hierarchical neural network for online news popularity prediction
Cao Learning meaning representations for text generation with deep generative models
Moholkar et al. Lioness adapted GWO-based deep belief network enabled with multiple features for a novel question answering system
Liu et al. Network public opinion monitoring system for agriculture products based on big data
CN116204644A (zh) 一种基于VAE和Attention的主题增强文本情感分类方法
Erkantarci et al. An empirical study of sentiment analysis utilizing machine learning and deep learning algorithms
Wu et al. Named entity recognition of rice genes and phenotypes based on BiGRU neural networks
Katranji et al. RNN Encoder-Decoder for the inference of regular human mobility patterns
Jayaraman et al. Text-based personality prediction using XLNet
Mulahuwaish et al. CovidMis20: COVID-19 Misinformation Detection System on Twitter Tweets Using Deep Learning Models
Rezaei et al. Hierarchical three-module method of text classification in web big data
Piao et al. Domain-aware sentiment classification with GRUs and CNNs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant