CN110010248B - 一种基于代价敏感集成学习模型的再入院风险预测方法 - Google Patents

一种基于代价敏感集成学习模型的再入院风险预测方法 Download PDF

Info

Publication number
CN110010248B
CN110010248B CN201910306367.9A CN201910306367A CN110010248B CN 110010248 B CN110010248 B CN 110010248B CN 201910306367 A CN201910306367 A CN 201910306367A CN 110010248 B CN110010248 B CN 110010248B
Authority
CN
China
Prior art keywords
disease
samples
patient
readmission
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910306367.9A
Other languages
English (en)
Other versions
CN110010248A (zh
Inventor
邱航
朱晓娟
罗林
蒲晓蓉
王利亚
陈梦蝶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910306367.9A priority Critical patent/CN110010248B/zh
Publication of CN110010248A publication Critical patent/CN110010248A/zh
Application granted granted Critical
Publication of CN110010248B publication Critical patent/CN110010248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

本发明公开了一种基于代价敏感集成学习模型的再入院风险预测方法;具体步骤包括:1)、获取医疗和外部环境数据信息,构建多源高维特征矩阵;2)、基于自动编码器的高维特征矩阵非线性压缩表示;3)、构建以代价敏感支持向量机为弱学习器的集成学习模型;4)、预测集经过步骤1、步骤2特征处理,输入训练模型,得到再入院风险预测结果。本发明针对患者人口学信息、既往住院史、家族史以及外部环境特征,构建多源高维特征矩阵,提取更多有助于全面反映患者健康状况的特征信息;基于自动编码器的高维特征矩阵非线性压缩表示,实现对稀疏特征的降维;针对样本不均衡问题,构建以代价敏感支持向量机为弱学习器的集成学习模型,提高再入院风险识别精度。

Description

一种基于代价敏感集成学习模型的再入院风险预测方法
技术领域
本发明涉及一种再入院风险预测方法,具体来讲是一种基于代价敏感集成学习模型的再入院风险预测方法。
背景技术
再入院率是反映医院医疗质量和管理水平的重要指标,再入院风险预测能够提前判别高风险再入院人群,并有针对性地采取随访、干预措施,在降低医疗成本的同时有效提高医疗服务质量。随着机器学习、数据挖掘技术的不断发展,这些技术在再入院风险研究领域也得到了应用,预测精度相比于传统的统计回归方法有较大提升,但仍然存在许多不足:
(1)再入院预测使用的数据特征具有局限性。再入院信息主要包括患者个体基本信息、历史住院信息等,家族史信息以及外部环境特征未得到充分利用。
(2)针对高维特征空间的线性降维方法难以捕捉嵌入在数据集中的非线性结构以及特征间的内在结构。
(3)再入院患者的数据样本是典型的类别不均衡样本,当样本出现不平衡情况时,传统的机器学习模型更加偏向于预测多数类样本,从而降低了少数类样本的预测精度。
鉴于此,本发明针对住院患者的诊疗信息、家族史信息以及外部环境数据进行深入研究,提取更多有助于全面反映患者健康状况的特征信息,并将这些特征信息融合为高维特征矩阵,然后构建自动编码器模型对特征进行降维。基于多源信息特征,本发明将针对样本不均衡问题构建代价敏感学习模型,提高模型对具有再入院风险患者的识别精度。
发明内容
因此,为了解决上述不足,本发明在此提供一种基于代价敏感集成学习模型的再入院风险预测方法;针对住院患者的诊疗信息、家族史信息以及外部环境数据进行深入研究,提取更多有助于全面反映患者健康状况的特征信息,并将这些特征信息融合为高维特征矩阵,然后构建自动编码器模型对特征进行降维。基于多源信息特征,本发明将针对样本不均衡问题构建代价敏感学习模型,提高模型对具有再入院风险患者的识别精度。
本发明是这样实现的,构造一种基于代价敏感集成学习模型的再入院风险预测方法,其特征在于:具体步骤包括;
1)、获取医疗和外部环境数据信息,构建多源高维特征矩阵;
2)、基于自动编码器的高维特征矩阵非线性压缩表示;
3)、构建以代价敏感支持向量机为弱学习器的集成学习模型;
4)、预测集经过步骤1、步骤2特征处理,输入训练模型,得到再入院风险预测结果。
根据本发明所述一种基于代价敏感集成学习模型的再入院风险预测方法,其特征在于:对于步骤1来讲,包括如下内容;
1.1)疾病诊断信息及手术操作信息字典表示:
疾病编码以国际疾病分类ICD-10的三位代码类目表为标准,手术操作编码以ICD-9-CM-3的两位类目表为标准,出院病情共四种类型:治愈、好转、未愈、其他,将其划分为两类并表示为:{治愈/好转:0,未愈/其他:1},分别构建疾病编码字典、手术编码字典以及疾病诊断_出院病情字典,字典的键(key)为疾病或手术编码,字典的值(value)为出现次数;字典初始化为:
疾病编码字典:dict_1={A00:0,A01:0,…,Z98:0,Z99:0}
手术编码字典:dict_2={00:0,01:0,…,98:0,99:0}
疾病诊断_出院病情字典:dict_3={A00_0:0,A00_1:0,A01_0:0,A01_1:0,…,Z99_0:0,Z99_1:0},其中A00_0表示疾病诊断为A00,出院病情为0。
第k条住院记录的出院诊断疾病编码为:c={c1,c2,c3…,cm},手术编码为:p={p1,p2,p3…,pn},疾病诊断以及对应的出院病情为c_q={c1_q1,c2_q2…,cm_qm};采用以下规则进行字典映射:
①if dict_1k[i].key==cj→dict_1k[i].value=1;
else dict_1k[i].value=0
②if dict_2k[i].key==pj→dict_2k[i].value=1;
else dict_2k[i].value=0;
③if dict_3k[i].key==cj_qj→dict_3k[i].value=1;
else dict_3k[i].value=0
1.2)构建患者家族成员疾病史特征:
根据患者身份证号关联全员人口库数据,获取患者家族成员的身份证号;再依据家族成员的身份证号关联其既往住院信息;第k条记录的出院主诊断疾病编码为ck,对应的家族成员住院信息中所有的出院诊断疾病编码集合为Rk={rk1,rk2,rk3,…,rkm};构建家族成员关联特征xr,第k条住院记录的xr特征取值规则为:
if ck∈Rk→xrk=1;
else xrk=0;
1.3)构建基于空间和时间维度的外部环境特征;
环境特征空间维度匹配:为了更加精确反映患者的环境暴露情况,根据患者的家庭住址信息以及环境监测站点地址信息,将每位患者匹配到与其家庭住址最近的监测站点;
环境特征时间维度匹配:第k条住院记录的出院时间为tk,时间窗口定义为tk~tk+30,则环境因素特征xenv取值为时间窗口内每种环境变量的均值:
Figure BDA0002029948920000031
其中,val(pt)表示环境变量p在第t日的取值;
1.4)构建多源高维特征矩阵;
将步骤1.1~1.3构建的多源信息特征以及患者基本信息特征xbasic组合为高维特征矩阵;具体的处理方式为:
针对步骤1.1中字典特征dict1,dict2,dict3,将字典的键(key)作为矩阵的列取值,字典的值(value)作为矩阵的行取值,得到关于患者患病情况的特征矩阵matrix1=[dict1,dict2,dict3];
将xbasic,xr,xenv,matrix1合并为高维特征矩阵X=[xbasic,xr,xenv,matrix1];
1.5)设定30天非计划性再入院患者标签;
对患者多次住院记录进行分析,滑动窗口设为30天;第i位患者既往住院记录表示为:Si={s1:(x1,t11,t12,d1,y1),s2:(x2,t21,t22,d2,y2),…,sv:(xv,tv1,tv2,dv,yv)},其中,xv表示患者第v次住院的多维度数据特征;tv1表示第v次住院的住院时间,tv2表示第v次住院的出院时间;dv表示第v次住院的出院主要诊断,yv表示再入院标签;则再入院标签规则表示为:
①if(time_diff(tk+1,1-tk,2)≤30)&disease_diff(dk+1,dk)≤1→yk=1(再入院);
②if(time_diff(tk+1,1-tk,2)≤30)&disease_diff(dk+1,dk)>1→yk=0(非再入院);
③if(time_diff(tk+1,1-tk,2)>30)→yk=0(非再入院);
④每位患者最近一次住院记录sv可作为预测数据,yv=NULL;
其中,k=1,2,…,v-1;time_diff(t1,t2)为日期t1和日期t2之间的间隔天数;
disease_diff(d1,d2)为疾病d1和疾病d2之间的相似度。以国际ICD-10疾病编码为标准,疾病相似度具体的计算方式为:
①if d1,d2疾病编码属于同一章→disease_diff(d1,d2)≤1;
②if d1,d2疾病编码不属于同一章→disease_diff(d1,d2)>1。
根据本发明所述一种基于代价敏感集成学习模型的再入院风险预测方法,其特征在于:步骤2对应的基于自动编码器的高维特征矩阵非线性压缩表示,具体步骤为:
2.1)编码阶段;输入步骤1.4中得到的高维特征矩阵X,输出涵盖原始特征信息的压缩表示X’,模型定义为:
X′=f(X)=s(WX+b)
其中,s为sigmoid激活函数;
2.2)解码阶段;利用新的特征X’对原始输入信息进行重构,模型定义为:
Z=g(X′)=s(W′X′+b′)
2.3)定义损失函数;重构的目的是使Z与X尽可能一致,采用负对数似然损失函数:
Figure BDA0002029948920000041
2.4)利用小批量梯度下降法优化目标,得到模型参数W,b,W’,b’,输出高维特征矩阵的压缩表示X’。
根据本发明所述一种基于代价敏感集成学习模型的再入院风险预测方法,其特征在于:对于步骤3来讲,构建以代价敏感支持向量机(Cost Sensitive-Support VectorMachine,CS-SVM)为弱学习器的AdaBoost集成学习模型;模型输入为步骤2中经过自动编码器压缩表示的新特征X’;模型输出为患者再入院风险预测的分类结果。模型中涉及的多数类样本为阴性样本(y-),少数类样本为阳性样本(y+);具体步骤为;
3.1)构建代价敏感支持向量机CS-SVM模型;
3.1.1支持向量机SVM的目的是找到一个超平面划分两类样本点,并且使得距离超平面最近的样本点到超平面的距离最远;硬间隔SVM需要数据完全线性可分,但通常的样本数据并非线性可分,所以引入了松弛变量ξ和惩罚因子C,即软间隔SVM;模型表示为:
Figure BDA0002029948920000051
s.t.yi(w·xi+b)≥1-ξi
ξi≥0i=1,2,...,m
其中,w,b为SVM模型超平面参数;xi为患者i的输入特征,yi为患者i的再入院标签;
3.1.2设置代价矩阵;在代价敏感学习模型中,对阳性样本误分和阴性样本误分分别设置不同的代价;C1为阳性样本误分的惩罚因子,C2为阴性样本误分的惩罚因子;
3.1.3代价敏感SVM中,将阳性样本(再入院样本,y+)误分为阴性(非再入院,y-)具有更大的代价,因此改进3.1.1中的软间隔SVM模型:
Figure BDA0002029948920000052
s.t.yi(w·xi+b)≥1-ξi
ξi≥0i=1,2,...,m
3.1.4 CS-SVM参数求解;参数求解过程与软间隔SVM求解过程相似,利用拉格朗日乘子法求解有约束的凸优化问题:
Figure BDA0002029948920000053
s.t.ξii,ri≥0i=1,2,...,m
将上述极小-极大问题转换为对偶问题并求解得到关于拉格朗日乘子的约束优化问题:
Figure BDA0002029948920000061
Figure BDA0002029948920000062
0≤αi≤C1 i∈y+
0≤αi≤C2 i∈y-
然后再采用序列最小优化算法(Sequential minimal optimization,SMO)算法求得使上式取得最大值的拉格朗日乘子αi,从而求得超平面参数w,b;
3.2)以CS-SVM为弱学习器构建Adaboost集成学习模型;
3.2.1输入经过压缩表示后的样本数据,并初始化样本权重及弱学习器的代价系数:
Figure BDA0002029948920000063
Figure BDA0002029948920000064
其中,m为样本数量;m1为多数类样本(y-)数量;m2为少数类样本(y+)数量;
3.2.2使用带有权值的样本训练弱分类器Gt(x)并计算训练误差:
Figure BDA0002029948920000065
其中
Figure BDA0002029948920000066
3.2.3设置弱学习器的权重:
Figure BDA0002029948920000067
3.2.4更新下一个弱学习器的样本权重
Dt+1=(wt+1,1,wt+1,2,...,wt+1,m)
Figure BDA0002029948920000071
3.2.5更新下一个弱学习器CS-SVM中不同类别错分的代价
Figure BDA0002029948920000072
第t+1个基学习器的代价更新公式为,
Figure BDA0002029948920000073
其中
Figure BDA0002029948920000074
代表第t个基学习器训练结束后误分的多数类样本占总体多数类样本的比值;
Figure BDA0002029948920000075
代表第t个基学习器训练结束后误分的少数类样本占总体少数类样本的比值;
该更新公式有三种情况:
①当误分的少数类样本(y+)所占比例大于误分的多数类样本(y-)所占比例,即
Figure BDA0002029948920000076
时,仍然赋予少数类样本较大的代价,即C1>C2=1;
②反之,当误分的少数类样本(y+)所占比例小于误分的多数类样本(y-)所占比例,即
Figure BDA0002029948920000077
时,说明此时模型对少数类样本的关注过大,导致许多阴性样本被误分为阳性,因此适当增大阴性样本误分的代价,即C1<C2=1;
③当误分的少数类样本(y+)所占比例等于误分的多数类样本(y-)所占比例时,模型达到平衡状态,此时对所有误分样本设置相同的代价,即C1=C2=1;
3.2.6重复步骤3.2.2~3.2.5直到弱学习器个数达到指定个数n;
最终的模型为:
Figure BDA0002029948920000078
预测结果为:
Figure BDA0002029948920000081
其中sign为符号函数。
本发明具有如下优点:本发明公开了一种基于代价敏感集成学习模型的再入院风险预测方法;具体步骤包括:1)、获取医疗和外部环境数据信息,构建多源高维特征矩阵;2)、基于自动编码器的高维特征矩阵非线性压缩表示;3)、构建以代价敏感支持向量机为弱学习器的集成学习模型;4)、预测集经过步骤1、步骤2特征处理,输入训练模型,得到再入院风险预测结果。本发明针对患者人口学特征、既往住院史、家族史以及外部环境特征,构建多源高维特征矩阵,提取更多有助于全面反映患者健康状况的特征信息;基于自动编码器的高维特征矩阵非线性压缩表示,实现对稀疏性特征的降维;针对样本不均衡问题,构建以代价敏感支持向量机为弱学习器的集成学习模型,提高再入院风险识别精度。
附图说明
图1是基于代价敏感集成学习模型的再入院风险预测方法流程图;
图2是疾病诊断、手术操作以及出院病情信息特征提取流程图;
图3是家族成员住院信息特征提取流程图;
图4是外部环境信息特征提取流程图;
图5是自动编码器降维过程示意图;
图6是基于CS-SVM的AdaBoost集成学习模型构建流程。
具体实施方式
下面将结合附图1-图6对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过改进在此提供一种基于代价敏感集成学习模型的再入院风险预测方法具体实现步骤如下;
步骤1,获取医疗和外部环境数据信息,构建多源高维特征矩阵;
1.1)疾病诊断信息及手术操作信息字典表示;
疾病编码以国际疾病分类ICD-10的三位代码类目表为标准,手术操作编码以ICD-9-CM-3的两位类目表为标准。出院病情共四种类型:治愈、好转、未愈、其他,将其划分为两类并表示为:{治愈/好转:0,未愈/其他:1}。分别构建疾病编码字典、手术编码字典以及疾病诊断_出院病情字典,字典的键(key)为疾病或手术编码,字典的值(value)为出现次数。字典初始化为:
疾病编码字典:dict_1={A00:0,A01:0,…,Z98:0,Z99:0}
手术编码字典:dict_2={00:0,01:0,…,98:0,99:0}
疾病诊断_出院病情字典:dict_3={A00_0:0,A00_1:0,A01_0:0,A01_1:0,…,Z99_0:0,Z99_1:0},其中A00_0表示疾病诊断为A00,出院病情为0。
第k条住院记录的出院诊断疾病编码为:c={c1,c2,c3…,cm},手术编码为:p={p1,p2,p3…,pn},疾病诊断以及对应的出院病情为c_q={c1_q1,c2_q2…,cm_qm}。
采用以下规则进行字典映射:
①if dict_1k[i].key==cj→dict_1k[i].value=1;
else dict_1k[i].value=0
②if dict_2k[i].key==pj→dict_2k[i].value=1;
else dict_2k[i].value=0;
③if dict_3k[i].key==cj_qj→dict_3k[i].value=1;
else dict_3k[i].value=0
1.2)构建患者家族成员疾病史特征;
根据患者身份证号关联全员人口库数据,获取患者家族成员的身份证号。再依据家族成员的身份证号关联其既往住院信息。第k条记录的出院主诊断疾病编码为ck,对应的家族成员住院信息中所有的出院诊断疾病编码集合为Rk={rk1,rk2,rk3,…,rkm}。构建家族成员关联特征xr,第k条住院记录的xr特征取值规则为:
if ck∈Rk→xrk=1;
else xrk=0;
1.3)构建基于空间和时间维度的外部环境特征;
各监测站点空气污染物信息包括:AQI,PM2.5,PM10,PMC(PM10-PM2.5浓度),CO,NO2,SO2,O3。
各监测站点气象信息包括:温度、降水、相对湿度、压强、日照。
环境特征空间维度匹配:为了更加精确反映患者的环境暴露情况,根据患者的家庭住址信息以及环境监测站点地址信息,将每位患者匹配到与其家庭住址最近的监测站点。
环境特征时间维度匹配:第k条住院记录的出院时间为tk,时间窗口定义为tk~tk+30,则环境因素特征xenv取值为时间窗口内每种环境变量的均值:
Figure BDA0002029948920000101
其中,val(pt)表示环境变量p在第t日的取值。
1.4)构建多源高维特征矩阵;
将步骤1.1~1.3构建的多源信息特征以及患者基本信息特征xbasic组合为高维特征矩阵;具体的处理方式为:
针对步骤1.1中字典特征dict1,dict2,dict3,将字典的键(key)作为矩阵的列取值,字典的值(value)作为矩阵的行取值,得到关于患者患病情况的特征矩阵matrix1=[dict1,dict2,dict3];
将xbasic,xr,xenv,matrix1合并为高维特征矩阵X=[xbasic,xr,xenv,matrix1]。
1.5)设定30天非计划性再入院患者标签;
对患者多次住院记录进行分析,滑动窗口设为30天。第i位患者既往住院记录表示为:Si={s1:(x1,t11,t12,d1,y1),s2:(x2,t21,t22,d2,y2),…,sv:(xv,tv1,tv2,dv,yv)},其中,xv表示患者第v次住院的多维度数据特征;tv1表示第v次住院的住院时间,tv2表示第v次住院的出院时间;dv表示第v次住院的出院主要诊断,yv表示再入院标签。则再入院标签规则表示为:
①if(time_diff(tk+1,1-tk,2)≤30)&disease_diff(dk+1,dk)≤1→yk=1(再入院);
②if(time_diff(tk+1,1-tk,2)≤30)&disease_diff(dk+1,dk)>1→yk=0(非再入院);
③if(time_diff(tk+1,1-tk,2)>30)→yk=0(非再入院);
④每位患者最近一次住院记录sv可作为预测数据,yv=NULL;
其中,k=1,2,…,v-1;time_diff(t1,t2)为日期t1和日期t2之间的间隔天数;
disease_diff(d1,d2)为疾病d1和疾病d2之间的相似度。以国际ICD-10疾病编码为标准,疾病相似度具体的计算方式为:
①if d1,d2疾病编码属于同一章→disease_diff(d1,d2)≤1;
②if d1,d2疾病编码不属于同一章→disease_diff(d1,d2)>1。
步骤2,基于自动编码器的高维特征矩阵非线性压缩表示;
自动编码器是一种无监督神经网络模型,它可以学习到输入数据的隐含特征,即编码(encoding),同时学习到的新特征可以重构原始输入数据,即解码(decoding)。自编码网络通过非线性映射,可以将高维特征空间降到具有一定维数的低维嵌套结构上,且尽量不损失数据信息。基于自动编码器的高维特征矩阵非线性压缩表示,具体步骤为:
2.1)编码阶段;输入步骤1.4中得到的高维特征矩阵X,输出涵盖原始特征信息的压缩表示X’,模型定义为:
X′=f(X)=s(WX+b)
其中,s为sigmoid激活函数;
2.2)解码阶段;利用新的特征X’对原始输入信息进行重构,模型定义为:
Z=g(X′)=s(W′X′+b′)
2.3)定义损失函数;重构的目的是使Z与X尽可能一致,采用负对数似然损失函数:
Figure BDA0002029948920000111
2.4)利用小批量梯度下降法优化目标,得到模型参数W,b,W’,b’,输出高维特征矩阵的压缩表示X’。
步骤3,构建以代价敏感支持向量机为弱学习器的集成学习模型;
针对再入院样本类别不均衡问题,本发明构建一种以代价敏感支持向量机(CostSensitive-Support Vector Machine,CS-SVM)为弱学习器的AdaBoost集成学习模型。模型输入为步骤2中经过自动编码器压缩表示的新特征X’;模型输出为患者再入院风险预测的分类结果。模型中涉及的多数类样本为阴性样本(y-),少数类样本为阳性样本(y+)。
3.1)构建代价敏感支持向量机CS-SVM模型;
3.1.1支持向量机SVM的目的是找到一个超平面划分两类样本点,并且使得距离超平面最近的样本点到超平面的距离最远。硬间隔SVM需要数据完全线性可分,但通常的样本数据并非线性可分,所以引入了松弛变量ξ和惩罚因子C,即软间隔SVM。模型表示为:
Figure BDA0002029948920000121
s.t.yi(w·xi+b)≥1-ξi
ξi≥0i=1,2,...,m
其中,w,b为SVM模型超平面参数;xi为患者i的输入特征,yi为患者i的再入院标签。
3.1.2设置代价矩阵;在代价敏感学习模型中,对阳性样本误分和阴性样本误分分别设置不同的代价,代价矩阵设置为:
Figure BDA0002029948920000122
其中,C1为阳性样本误分的惩罚因子,C2为阴性样本误分的惩罚因子。
3.1.3代价敏感SVM中,将阳性样本(再入院样本,y+)误分为阴性(非再入院,y-)具有更大的代价,因此改进3.1.1中的软间隔SVM模型:
Figure BDA0002029948920000123
s.t.yi(w·xi+b)≥1-ξi
ξi≥0i=1,2,...,m;
3.1.4 CS-SVM参数求解;
参数求解过程与软间隔SVM求解过程相似,利用拉格朗日乘子法求解有约束的凸优化问题:
Figure BDA0002029948920000131
s.t.ξii,ri≥0i=1,2,...,m
将上述极小-极大问题转换为对偶问题并求解得到关于拉格朗日乘子的约束优化问题:
Figure BDA0002029948920000132
Figure BDA0002029948920000133
0≤αi≤C1 i∈y+
0≤αi≤C2 i∈y-
然后再采用序列最小优化算法(Sequential minimal optimization,SMO)算法求得使上式取得最大值的拉格朗日乘子αi,从而求得超平面参数w,b。
3.2)以CS-SVM为弱学习器构建Adaboost集成学习模型;
AdaBoost属于Boosting框架下的一种集成学习模型。模型根据每一次迭代的基学习器的学习效果调整学习器的权重以及下一个基学习器的样本权重。具体而言,针对训练误差小的学习器赋予较大的权重,而训练误差大的学习器赋予较小的权重;对于错分样本增大样本权重,对于正确分类的样本减小相应的权重。最终的预测模型是多个基学习器的加权组合。
以CS-SVM为基学习器的AdaBoost模型不仅在模型迭代过程中更新样本分布权重,同时根据每一次基学习器预测结果更新CS-SVM的代价系数,即自适应更新样本权重和代价系数。CS-SVM模型可以着重关注样本不均衡导致的阴性样本分类误差较大问题,而AdaBoost模型通过调整样本分布权重,可以对整体错分样本进一步关注,同时在迭代过程中自适应调整CS-SVM的代价矩阵,提高模型预测精度,降低偏倚。具体的模型构建和参数更新步骤为:
3.2.1输入经过压缩表示后的样本数据,并初始化样本权重:
Figure BDA0002029948920000134
假设原始数据样本的多数类样本(y-)数量为m1,少数类样本(y+)数量为m2。则初始化弱学习器CS-SVM代价系数为:
Figure BDA0002029948920000141
3.2.2使用带有权值的样本训练弱分类器Gt(x)并计算训练误差:
Figure BDA0002029948920000142
其中
Figure BDA0002029948920000143
3.2.3设置弱学习器的权重:
Figure BDA0002029948920000144
3.2.4更新下一个弱学习器的样本权重
Dt+1=(wt+1,1,wt+1,2,...,wt+1,m)
Figure BDA0002029948920000145
3.2.5更新下一个弱学习器CS-SVM中不同类别错分的代价
Figure BDA0002029948920000146
其中
Figure BDA0002029948920000147
代表第t个基学习器训练结束后误分的多数类样本占总体多数类样本的比值;
Figure BDA0002029948920000148
代表第t个基学习器训练结束后误分的少数类样本占总体少数类样本的比值。
第t+1个基学习器的代价更新公式为,
Figure BDA0002029948920000149
该更新公式有三种情况:
④当误分的少数类样本(y+)所占比例大于误分的多数类样本(y-)所占比例,即
Figure BDA0002029948920000151
时,仍然赋予少数类样本较大的代价,即C1>C2=1;
⑤反之,当误分的少数类样本(y+)所占比例小于误分的多数类样本(y-)所占比例,即
Figure BDA0002029948920000152
时,说明此时模型对少数类样本的关注过大,导致许多阴性样本被误分为阳性,因此适当增大阴性样本误分的代价,即C1<C2=1。
⑥当误分的少数类样本(y+)所占比例等于误分的多数类样本(y-)所占比例时,模型达到平衡状态,此时对所有误分样本设置相同的代价,即C1=C2=1。
3.2.6重复步骤3.2.2~3.2.5直到弱学习器个数达到指定个数n。
最终的模型为:
Figure BDA0002029948920000153
预测结果为:
Figure BDA0002029948920000154
其中sign为符号函数。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (3)

1.一种基于代价敏感集成学习模型的再入院风险预测方法,其特征在于:具体步骤包括;
1)、获取医疗和外部环境数据信息,构建多源高维特征矩阵;
对于步骤1来讲,包括如下内容;
1.1)疾病诊断信息及手术操作信息字典表示:
疾病编码以国际疾病分类ICD-10的三位代码类目表为标准,手术操作编码以ICD-9-CM-3的两位类目表为标准,出院病情共四种类型:治愈、好转、未愈、其他,将其划分为两类并表示为:{治愈/好转:0,未愈/其他:1},分别构建疾病编码字典、手术编码字典以及疾病诊断_出院病情字典,字典的键(key)分别为疾病编码、手术编码以及疾病诊断_出院病情,字典的值(value)为出现次数;字典初始化为:
疾病编码字典:dict_1={A00:0,A01:0,…,Z98:0,Z99:0},其中A00:0表示疾病诊断为A00出现0次;
手术编码字典:dict_2={00:0,01:0,…,98:0,99:0},其中00:0表示手术编码为00出现0次;
疾病诊断_出院病情字典:dict_3={A00_0:0,A00_1:0,A01_0:0,A01_1:0,…,Z99_0:0,Z99_1:0},其中A00_0:0表示疾病诊断为A00且出院病情为0出现0次;
第k条住院记录的出院诊断疾病编码为:c={c1,c2,c3…,cm},手术编码为:p={p1,p2,p3…,pn},疾病诊断以及对应的出院病情为c_q={c1_q1,c2_q2…,cm_qm};第k条住院记录的第j个出院诊断疾病编码、手术编码和疾病诊断以及对应的出院病情采用以下规则进行字典映射:
①if dict_1k[i].key==cj→dict_1k[i].value=1;
else dict_1k[i].value=0
②if dict_2k[i].key==pj→dict_2k[i].value=1;
else dict_2k[i].value=0;
③if dict_3k[i].key==cj_qj→dict_3k[i].value=1;
else dict_3k[i].value=0
1.2)构建患者家族成员疾病史特征:
根据患者身份证号关联全员人口库数据,获取患者家族成员的身份证号;再依据家族成员的身份证号关联其既往住院信息;第k条记录的出院主诊断疾病编码为ck,对应的家族成员住院信息中所有的出院诊断疾病编码集合为Rk={rk1,rk2,rk3,…,rkm};构建家族成员关联特征xr,第k条住院记录的xr特征取值规则为:
if ck∈Rk→xrk=1;
else xrk=0;
1.3)构建基于空间和时间维度的外部环境特征;
环境特征空间维度匹配:为了更加精确反映患者的环境暴露情况,根据患者的家庭住址信息以及环境监测站点地址信息,将每位患者匹配到与其家庭住址最近的监测站点;
环境特征时间维度匹配:第k条住院记录的出院时间为tk,时间窗口定义为tk~tk+30,则环境因素特征xenv取值为时间窗口内每种环境变量的均值:
Figure FDA0003796928040000021
其中,val(pt)表示环境变量p在第t日的取值;
1.4)构建多源高维特征矩阵;
将步骤1.1~1.3构建的多源信息特征以及患者基本信息特征xbasic组合为高维特征矩阵;具体的处理方式为:
针对步骤1.1中字典特征dict_1,dict_2,dict_3,将字典的键(key)作为矩阵的列取值,字典的值(value)作为矩阵的行取值,得到关于患者患病情况的特征矩阵matrix1=[dict_1,dict_2,dict_3];
将xbasic,xr,xenv,matrix1合并为高维特征矩阵X=[xbasic,xr,xenv,matrix1];
1.5)设定30天再入院标签;
第i位患者的v次住院记录表示为:Si={s1:(x1,t1,1,t1,2,d1,y1),s2:(x2,t2,1,t2,2,d2,y2),…,sv:(xv,tv,1,tv,2,dv,yv)},其中,xv表示患者第v次住院的多维度数据特征;tv,1表示第v次住院的入院时间,tv,2表示第v次住院的出院时间;dv表示第v次住院的出院主要诊断,yv表示第v次住院的出院时间点未来30天再入院标签;对患者多次住院记录进行分析,滑动窗口设为30天,患者第k次住院的出院时间点未来30天再入院标签yk规则表示为:
①if(time_diff(tk+1,1-tk,2)≤30)&disease_diff(dk+1,dk)≤1→yk=1,再入院;
②if(time_diff(tk+1,1-tk,2)≤30)&disease_diff(dk+1,dk)>1→yk=0,非再入院;
③if(time_diff(tk+1,1-tk,2)>30)→yk=0,非再入院;
④每位患者最近一次住院记录sv作为预测数据,yv=NULL;
其中,k=1,2,…,v-1;time_diff(t1,t2)为日期t1和日期t2之间的间隔天数;
disease_diff(d1,d2)为疾病d1和疾病d2之间的相似度;以国际ICD-10疾病编码为标准,疾病相似度具体的计算方式为:
①if d1,d2疾病编码属于同一章→disease_diff(d1,d2)≤1;
②if d1,d2疾病编码不属于同一章→disease_diff(d1,d2)>1;
2)、基于自动编码器对高维特征矩阵进行非线性压缩;
3)、构建以代价敏感支持向量机为弱学习器的集成学习模型;
4)、测试集经过步骤1、步骤2特征处理,输入训练模型,得到再入院风险预测结果。
2.根据权利要求1所述一种基于代价敏感集成学习模型的再入院风险预测方法,其特征在于:步骤2采用自动编码器对高维特征矩阵进行非线性压缩,具体步骤为:
2.1)编码阶段;输入步骤1.4中得到的高维特征矩阵X,输出涵盖原始特征信息的非线性压缩表示X’,模型定义为:
X′=f(X)=s(WX+b)
其中,s为sigmoid激活函数;
2.2)解码阶段;利用新的特征X’对原始输入信息进行重构,模型定义为:
Z=g(X′)=s(W′X′+b′)
2.3)定义损失函数;重构的目的是使Z与X尽可能一致,采用负对数似然损失函数:
Figure FDA0003796928040000041
其中,Xk表示第k个样本的高维特征矩阵,Zk表示对Xk’进行解码后的结果,d表示样本总量;
2.4)利用小批量梯度下降法优化目标,得到模型参数W,b,W’,b’,输出高维特征矩阵的非线性压缩X’。
3.根据权利要求1所述一种基于代价敏感集成学习模型的再入院风险预测方法,其特征在于:对于步骤3来讲,构建以代价敏感支持向量机为弱学习器的AdaBoost集成学习模型;模型输入为步骤2中经过自动编码器非线性压缩的X’;模型输出为患者再入院风险预测的分类结果;模型中涉及的多数类样本为阴性样本y-,少数类样本为阳性样本y+;具体步骤为;
3.1)构建代价敏感支持向量机CS-SVM模型;
3.1.1设置代价;C1为阳性样本误分的惩罚因子,C2为阴性样本误分的惩罚因子;
3.1.2引入代价因子,构建CS-SVM模型:
Figure FDA0003796928040000042
s.t.yi(w·xi+b)≥1-ξi
ξi≥0i=1,2,...,m
其中,xi表示i个样本,ξi表示SVM模型中用于计算目标函数值的松弛变量;
3.1.3 CS-SVM参数求解;利用拉格朗日乘子法将有约束的凸优化问题转换为对偶问题并求解得到关于拉格朗日乘子的约束优化问题,然后再采用序列最小优化算法求得超平面参数w,b;
3.2)以CS-SVM为弱学习器构建Adaboost集成学习模型;
3.2.1输入经过非线性压缩后的样本数据X’,并初始化样本权重以及弱学习器的代价系数:
Figure FDA0003796928040000043
Figure FDA0003796928040000051
其中,m为样本数量;m1为多数类样本y-数量;m2为少数类样本y+数量;w1m表示初始化基学习器中第i个样本的权重;C1 (1)表示初始化时阳性样本y+误分的惩罚因子;C2 (1)表示初始化时阴性样本y-误分的惩罚因子;
3.2.2使用带有权值的样本训练弱分类器Gt(x)并计算训练误差:
Figure FDA0003796928040000052
其中
Figure FDA0003796928040000053
其中,xi表示第i个样本;yi表示第i个样本的真实标签值;wti表示第t个弱分类器迭代中第i个样本的权重;
3.2.3设置弱学习器的权重:
Figure FDA0003796928040000054
3.2.4更新下一个弱分类器的样本权重:
Dt+1=(wt+1,1,wt+1,2,...,wt+1,m)
Figure FDA0003796928040000055
其中,Zt表示第t轮弱分类器迭代中的规范化因子,xi和yi的定义同3.2.2;
3.2.5更新下一个弱分类器CS-SVM中不同类别错分的代价:
Figure FDA0003796928040000056
第t+1个基学习器的代价更新公式为:
Figure FDA0003796928040000061
其中
Figure FDA0003796928040000062
代表第t个基学习器训练结束后误分的多数类样本占总体多数类样本的比值;
Figure FDA0003796928040000063
代表第t个基学习器训练结束后误分的少数类样本占总体少数类样本的比值;
3.2.6重复步骤3.2.2~3.2.5直到弱分类器个数达到指定个数n;
最终,基于代价敏感集成学习模型表示为:
Figure FDA0003796928040000064
预测结果为:
Figure FDA0003796928040000065
CN201910306367.9A 2019-04-17 2019-04-17 一种基于代价敏感集成学习模型的再入院风险预测方法 Active CN110010248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910306367.9A CN110010248B (zh) 2019-04-17 2019-04-17 一种基于代价敏感集成学习模型的再入院风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910306367.9A CN110010248B (zh) 2019-04-17 2019-04-17 一种基于代价敏感集成学习模型的再入院风险预测方法

Publications (2)

Publication Number Publication Date
CN110010248A CN110010248A (zh) 2019-07-12
CN110010248B true CN110010248B (zh) 2023-01-10

Family

ID=67172346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910306367.9A Active CN110010248B (zh) 2019-04-17 2019-04-17 一种基于代价敏感集成学习模型的再入院风险预测方法

Country Status (1)

Country Link
CN (1) CN110010248B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347837B (zh) * 2019-07-17 2022-02-18 电子科技大学 一种心血管疾病非计划再住院风险预测方法
CN111803804B (zh) * 2020-06-19 2023-04-07 山东省肿瘤防治研究院(山东省肿瘤医院) 自适应放疗系统、存储介质及设备
CN112560900B (zh) * 2020-09-08 2023-01-20 同济大学 一种面向样本不均衡的多疾病分类器设计方法
CN112086195B (zh) * 2020-09-16 2023-04-07 电子科技大学 一种基于自适应集成学习模型的再入院风险预测方法
CN113223711A (zh) * 2021-04-29 2021-08-06 天津大学 基于多模态数据的再入院预测模型
CN113052271B (zh) * 2021-05-14 2022-02-15 江南大学 基于深度神经网络的生物发酵数据预测方法
CN115019916A (zh) * 2022-05-27 2022-09-06 山东大学 血流感染致病菌预测方法及系统
CN115374859A (zh) * 2022-08-24 2022-11-22 东北大学 一种针对非平衡、多类别的复杂工业数据的分类方法
CN115690109B (zh) * 2023-01-04 2023-03-14 杭州华得森生物技术有限公司 基于计算生物的肿瘤细胞检测设备及其方法
CN117291314B (zh) * 2023-11-24 2024-03-05 山东理工昊明新能源有限公司 能源风险识别模型的构建方法、能源风险识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512477A (zh) * 2015-12-03 2016-04-20 万达信息股份有限公司 基于降维组合分类算法非计划性再入院风险评估预测模型
CN105868583A (zh) * 2016-04-06 2016-08-17 东北师范大学 一种基于序列使用代价敏感集成和聚类预测表位的方法
CN106202891A (zh) * 2016-06-30 2016-12-07 电子科技大学 一种面向医疗质量评价的大数据挖掘方法
CN107180283A (zh) * 2017-07-05 2017-09-19 山东大学 一种基于最优特征组合的再住院行为预测系统及方法
CN108846503A (zh) * 2018-05-17 2018-11-20 电子科技大学 一种基于神经网络的呼吸系统疾病患病人次动态预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140108042A1 (en) * 2012-10-11 2014-04-17 Jayaram Reddy Methods and systems for determining health risk score, risk of hospitalization and forecasting healthcare cost

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512477A (zh) * 2015-12-03 2016-04-20 万达信息股份有限公司 基于降维组合分类算法非计划性再入院风险评估预测模型
CN105868583A (zh) * 2016-04-06 2016-08-17 东北师范大学 一种基于序列使用代价敏感集成和聚类预测表位的方法
CN106202891A (zh) * 2016-06-30 2016-12-07 电子科技大学 一种面向医疗质量评价的大数据挖掘方法
CN107180283A (zh) * 2017-07-05 2017-09-19 山东大学 一种基于最优特征组合的再住院行为预测系统及方法
CN108846503A (zh) * 2018-05-17 2018-11-20 电子科技大学 一种基于神经网络的呼吸系统疾病患病人次动态预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Attributable risk of hospital admissions for overall and specific mental disorders due to particulate matter pollution: A time-series study in Chengdu, China";Hang Qiu 等;《Environmental Research》;20190331;第170卷;第230-237页 *
"Predicting Hospital Readmission Within Thirty-Days";Al Ghamdi 等;《JOURNAL OF MEDICAL IMAGING AND HEALTH INFORMATICS》;20170601;第7卷(第3期);第696-703页 *
"Risks of hospital admissions from a spectrum of causes associated with particulate matter pollution";Xiaojuan Zhu 等;《Science of The Total Environment》;20190331;第656卷;第90-100页 *
"基于代价敏感性随机森林与支持向量机的肝硬化并发肝性脑病风险预测模型研究";李欣欣;《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》;20181015(第10期);第E064-34页 *
"基于梯度提升决策树的患者30天再入院预测模型研究";杜国栋;《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》;20190115(第01期);第E053-358页 *

Also Published As

Publication number Publication date
CN110010248A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110010248B (zh) 一种基于代价敏感集成学习模型的再入院风险预测方法
Bi et al. What is machine learning? A primer for the epidemiologist
CN109949936B (zh) 一种基于深度学习混合模型的再住院风险预测方法
CN113040711B (zh) 一种脑卒中发病风险预测系统、设备、存储介质
CN110334843A (zh) 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置
CN111161814A (zh) 一种基于卷积神经网络的DRGs自动分组方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN112086195B (zh) 一种基于自适应集成学习模型的再入院风险预测方法
CN111061700A (zh) 基于相似性学习的就医迁移方案推荐方法及系统
CN111477328B (zh) 一种非接触式的心理状态预测方法
Tavakoli Seq2image: Sequence analysis using visualization and deep convolutional neural network
Arowolo et al. A hybrid dimensionality reduction model for classification of microarray dataset
CN110543566B (zh) 一种基于自注意力近邻关系编码的意图分类方法
CN115271063A (zh) 基于特征原型投影的类间相似性知识蒸馏方法与模型
CN105426836A (zh) 一种基于分部式模型和稀疏成分分析的单样本人脸识别方法
CN110335160A (zh) 一种基于分组和注意力改进Bi-GRU的就医迁移行为预测方法及系统
Jin et al. A weighting method for feature dimension by semisupervised learning with entropy
CN112884570A (zh) 一种模型安全性的确定方法、装置和设备
CN110633368A (zh) 早期结直肠癌非结构化数据的深度学习分类方法
CN115424696A (zh) 一种基于迁移学习的中医罕见病中药处方生成方法和系统
CN115083550A (zh) 基于多源信息的病人相似度分类方法
CN111402953B (zh) 基于层次注意力网络的蛋白质序列分类方法
CN110265151B (zh) 一种基于ehr中异构时态数据的学习方法
CN112347162A (zh) 一种基于在线学习的多元时序数据规则挖掘方法
CN117079821B (zh) 一种患者住院事件预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant