CN110010248B

CN110010248B - 一种基于代价敏感集成学习模型的再入院风险预测方法

Info

Publication number: CN110010248B
Application number: CN201910306367.9A
Authority: CN
Inventors: 邱航; 朱晓娟; 罗林; 蒲晓蓉; 王利亚; 陈梦蝶
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2023-01-10
Anticipated expiration: 2039-04-17
Also published as: CN110010248A

Abstract

本发明公开了一种基于代价敏感集成学习模型的再入院风险预测方法；具体步骤包括：1)、获取医疗和外部环境数据信息，构建多源高维特征矩阵；2)、基于自动编码器的高维特征矩阵非线性压缩表示；3)、构建以代价敏感支持向量机为弱学习器的集成学习模型；4)、预测集经过步骤1、步骤2特征处理，输入训练模型，得到再入院风险预测结果。本发明针对患者人口学信息、既往住院史、家族史以及外部环境特征，构建多源高维特征矩阵，提取更多有助于全面反映患者健康状况的特征信息；基于自动编码器的高维特征矩阵非线性压缩表示，实现对稀疏特征的降维；针对样本不均衡问题，构建以代价敏感支持向量机为弱学习器的集成学习模型，提高再入院风险识别精度。

Description

一种基于代价敏感集成学习模型的再入院风险预测方法

技术领域

本发明涉及一种再入院风险预测方法，具体来讲是一种基于代价敏感集成学习模型的再入院风险预测方法。

背景技术

再入院率是反映医院医疗质量和管理水平的重要指标，再入院风险预测能够提前判别高风险再入院人群，并有针对性地采取随访、干预措施，在降低医疗成本的同时有效提高医疗服务质量。随着机器学习、数据挖掘技术的不断发展，这些技术在再入院风险研究领域也得到了应用，预测精度相比于传统的统计回归方法有较大提升，但仍然存在许多不足：

(1)再入院预测使用的数据特征具有局限性。再入院信息主要包括患者个体基本信息、历史住院信息等，家族史信息以及外部环境特征未得到充分利用。

(2)针对高维特征空间的线性降维方法难以捕捉嵌入在数据集中的非线性结构以及特征间的内在结构。

(3)再入院患者的数据样本是典型的类别不均衡样本，当样本出现不平衡情况时，传统的机器学习模型更加偏向于预测多数类样本，从而降低了少数类样本的预测精度。

鉴于此，本发明针对住院患者的诊疗信息、家族史信息以及外部环境数据进行深入研究，提取更多有助于全面反映患者健康状况的特征信息，并将这些特征信息融合为高维特征矩阵，然后构建自动编码器模型对特征进行降维。基于多源信息特征，本发明将针对样本不均衡问题构建代价敏感学习模型，提高模型对具有再入院风险患者的识别精度。

发明内容

因此，为了解决上述不足，本发明在此提供一种基于代价敏感集成学习模型的再入院风险预测方法；针对住院患者的诊疗信息、家族史信息以及外部环境数据进行深入研究，提取更多有助于全面反映患者健康状况的特征信息，并将这些特征信息融合为高维特征矩阵，然后构建自动编码器模型对特征进行降维。基于多源信息特征，本发明将针对样本不均衡问题构建代价敏感学习模型，提高模型对具有再入院风险患者的识别精度。

本发明是这样实现的，构造一种基于代价敏感集成学习模型的再入院风险预测方法，其特征在于：具体步骤包括；

1)、获取医疗和外部环境数据信息，构建多源高维特征矩阵；

2)、基于自动编码器的高维特征矩阵非线性压缩表示；

3)、构建以代价敏感支持向量机为弱学习器的集成学习模型；

4)、预测集经过步骤1、步骤2特征处理，输入训练模型，得到再入院风险预测结果。

根据本发明所述一种基于代价敏感集成学习模型的再入院风险预测方法，其特征在于：对于步骤1来讲，包括如下内容；

1.1)疾病诊断信息及手术操作信息字典表示：

疾病编码以国际疾病分类ICD-10的三位代码类目表为标准，手术操作编码以ICD-9-CM-3的两位类目表为标准，出院病情共四种类型：治愈、好转、未愈、其他，将其划分为两类并表示为：{治愈/好转：0，未愈/其他：1}，分别构建疾病编码字典、手术编码字典以及疾病诊断_出院病情字典，字典的键(key)为疾病或手术编码，字典的值(value)为出现次数；字典初始化为：

疾病编码字典：dict_1＝{A00:0,A01:0,…,Z98:0,Z99:0}

手术编码字典：dict_2＝{00:0,01:0,…,98:0,99:0}

疾病诊断_出院病情字典：dict_3＝{A00_0:0,A00_1:0,A01_0:0,A01_1:0,…,Z99_0:0,Z99_1:0}，其中A00_0表示疾病诊断为A00，出院病情为0。

第k条住院记录的出院诊断疾病编码为：c＝{c₁,c₂,c₃…,c_m}，手术编码为：p＝{p₁,p₂,p₃…,p_n}，疾病诊断以及对应的出院病情为c_q＝{c₁_q₁,c₂_q₂…,c_m_q_m}；采用以下规则进行字典映射：

①if dict_1_k[i].key＝＝c_j→dict_1_k[i].value＝1；

else dict_1_k[i].value＝0

②if dict_2_k[i].key＝＝p_j→dict_2_k[i].value＝1；

else dict_2_k[i].value＝0；

③if dict_3_k[i].key＝＝c_j_q_j→dict_3_k[i].value＝1；

else dict_3_k[i].value＝0

1.2)构建患者家族成员疾病史特征：

根据患者身份证号关联全员人口库数据，获取患者家族成员的身份证号；再依据家族成员的身份证号关联其既往住院信息；第k条记录的出院主诊断疾病编码为c_k，对应的家族成员住院信息中所有的出院诊断疾病编码集合为R_k＝{r_k1,r_k2,r_k3,…,r_km}；构建家族成员关联特征x_r，第k条住院记录的x_r特征取值规则为：

if c_k∈R_k→x_rk＝1；

else x_rk＝0；

1.3)构建基于空间和时间维度的外部环境特征；

环境特征空间维度匹配：为了更加精确反映患者的环境暴露情况，根据患者的家庭住址信息以及环境监测站点地址信息，将每位患者匹配到与其家庭住址最近的监测站点；

环境特征时间维度匹配：第k条住院记录的出院时间为t_k，时间窗口定义为t_k～t_k+30，则环境因素特征x_env取值为时间窗口内每种环境变量的均值：

其中，val(p_t)表示环境变量p在第t日的取值；

1.4)构建多源高维特征矩阵；

将步骤1.1～1.3构建的多源信息特征以及患者基本信息特征x_basic组合为高维特征矩阵；具体的处理方式为：

针对步骤1.1中字典特征dict1，dict2，dict3，将字典的键(key)作为矩阵的列取值，字典的值(value)作为矩阵的行取值，得到关于患者患病情况的特征矩阵matrix₁＝[dict1,dict2,dict3]；

将x_basic，x_r，x_env，matrix₁合并为高维特征矩阵X＝[x_basic,x_r,x_env,matrix₁]；

1.5)设定30天非计划性再入院患者标签；

对患者多次住院记录进行分析，滑动窗口设为30天；第i位患者既往住院记录表示为:S_i＝{s₁:(x₁,t₁₁,t₁₂,d₁,y₁),s₂:(x₂,t₂₁,t₂₂,d₂,y₂),…,s_v:(x_v,t_v1,t_v2,d_v,y_v)},其中，x_v表示患者第v次住院的多维度数据特征；t_v1表示第v次住院的住院时间，t_v2表示第v次住院的出院时间；d_v表示第v次住院的出院主要诊断，y_v表示再入院标签；则再入院标签规则表示为：

①if(time_diff(t_k+1,1-t_k,2)≤30)&disease_diff(d_k+1,d_k)≤1→y_k＝1(再入院)；

②if(time_diff(t_k+1,1-t_k,2)≤30)&disease_diff(d_k+1,d_k)>1→y_k＝0(非再入院)；

③if(time_diff(t_k+1,1-t_k,2)>30)→y_k＝0(非再入院)；

④每位患者最近一次住院记录s_v可作为预测数据，y_v＝NULL；

其中，k＝1,2,…,v-1；time_diff(t₁,t₂)为日期t₁和日期t₂之间的间隔天数；

disease_diff(d₁,d₂)为疾病d₁和疾病d₂之间的相似度。以国际ICD-10疾病编码为标准，疾病相似度具体的计算方式为：

①if d₁,d₂疾病编码属于同一章→disease_diff(d₁,d₂)≤1；

②if d₁,d₂疾病编码不属于同一章→disease_diff(d₁,d₂)>1。

根据本发明所述一种基于代价敏感集成学习模型的再入院风险预测方法，其特征在于：步骤2对应的基于自动编码器的高维特征矩阵非线性压缩表示，具体步骤为：

2.1)编码阶段；输入步骤1.4中得到的高维特征矩阵X，输出涵盖原始特征信息的压缩表示X’，模型定义为：

X′＝f(X)＝s(WX+b)

其中，s为sigmoid激活函数；

2.2)解码阶段；利用新的特征X’对原始输入信息进行重构，模型定义为：

Z＝g(X′)＝s(W′X′+b′)

2.3)定义损失函数；重构的目的是使Z与X尽可能一致，采用负对数似然损失函数：

2.4)利用小批量梯度下降法优化目标，得到模型参数W，b，W’，b’，输出高维特征矩阵的压缩表示X’。

根据本发明所述一种基于代价敏感集成学习模型的再入院风险预测方法，其特征在于：对于步骤3来讲，构建以代价敏感支持向量机(Cost Sensitive-Support VectorMachine，CS-SVM)为弱学习器的AdaBoost集成学习模型；模型输入为步骤2中经过自动编码器压缩表示的新特征X’；模型输出为患者再入院风险预测的分类结果。模型中涉及的多数类样本为阴性样本(y^-)，少数类样本为阳性样本(y⁺)；具体步骤为；

3.1)构建代价敏感支持向量机CS-SVM模型；

3.1.1支持向量机SVM的目的是找到一个超平面划分两类样本点，并且使得距离超平面最近的样本点到超平面的距离最远；硬间隔SVM需要数据完全线性可分，但通常的样本数据并非线性可分，所以引入了松弛变量ξ和惩罚因子C，即软间隔SVM；模型表示为：

s.t.y_i(w·x_i+b)≥1-ξ_i

ξ_i≥0i＝1,2,...,m

其中，w，b为SVM模型超平面参数；x_i为患者i的输入特征，y_i为患者i的再入院标签；

3.1.2设置代价矩阵；在代价敏感学习模型中，对阳性样本误分和阴性样本误分分别设置不同的代价；C₁为阳性样本误分的惩罚因子，C₂为阴性样本误分的惩罚因子；

3.1.3代价敏感SVM中，将阳性样本(再入院样本，y⁺)误分为阴性(非再入院，y^-)具有更大的代价，因此改进3.1.1中的软间隔SVM模型：

s.t.y_i(w·x_i+b)≥1-ξ_i

ξ_i≥0i＝1,2,...,m

3.1.4 CS-SVM参数求解；参数求解过程与软间隔SVM求解过程相似，利用拉格朗日乘子法求解有约束的凸优化问题：

s.t.ξ_i,α_i,r_i≥0i＝1,2,...,m

将上述极小-极大问题转换为对偶问题并求解得到关于拉格朗日乘子的约束优化问题：

0≤α_i≤C₁ i∈y⁺

0≤α_i≤C₂ i∈y^-

然后再采用序列最小优化算法(Sequential minimal optimization,SMO)算法求得使上式取得最大值的拉格朗日乘子α_i，从而求得超平面参数w，b；

3.2)以CS-SVM为弱学习器构建Adaboost集成学习模型；

3.2.1输入经过压缩表示后的样本数据，并初始化样本权重及弱学习器的代价系数：

其中，m为样本数量；m₁为多数类样本(y^-)数量；m₂为少数类样本(y⁺)数量；

3.2.2使用带有权值的样本训练弱分类器G_t(x)并计算训练误差：

其中

3.2.3设置弱学习器的权重：

3.2.4更新下一个弱学习器的样本权重

D_t+1＝(w_t+1,1,w_t+1,2,...,w_t+1,m)

3.2.5更新下一个弱学习器CS-SVM中不同类别错分的代价

令

第t+1个基学习器的代价更新公式为，

其中

代表第t个基学习器训练结束后误分的多数类样本占总体多数类样本的比值；

代表第t个基学习器训练结束后误分的少数类样本占总体少数类样本的比值；

该更新公式有三种情况：

①当误分的少数类样本(y⁺)所占比例大于误分的多数类样本(y^-)所占比例，即

时，仍然赋予少数类样本较大的代价，即C₁>C₂＝1；

②反之，当误分的少数类样本(y⁺)所占比例小于误分的多数类样本(y^-)所占比例，即

时，说明此时模型对少数类样本的关注过大，导致许多阴性样本被误分为阳性，因此适当增大阴性样本误分的代价，即C₁<C₂＝1；

③当误分的少数类样本(y⁺)所占比例等于误分的多数类样本(y^-)所占比例时，模型达到平衡状态，此时对所有误分样本设置相同的代价，即C₁＝C₂＝1；

3.2.6重复步骤3.2.2～3.2.5直到弱学习器个数达到指定个数n；

最终的模型为：

预测结果为：

其中sign为符号函数。

本发明具有如下优点：本发明公开了一种基于代价敏感集成学习模型的再入院风险预测方法；具体步骤包括：1)、获取医疗和外部环境数据信息，构建多源高维特征矩阵；2)、基于自动编码器的高维特征矩阵非线性压缩表示；3)、构建以代价敏感支持向量机为弱学习器的集成学习模型；4)、预测集经过步骤1、步骤2特征处理，输入训练模型，得到再入院风险预测结果。本发明针对患者人口学特征、既往住院史、家族史以及外部环境特征，构建多源高维特征矩阵，提取更多有助于全面反映患者健康状况的特征信息；基于自动编码器的高维特征矩阵非线性压缩表示，实现对稀疏性特征的降维；针对样本不均衡问题，构建以代价敏感支持向量机为弱学习器的集成学习模型，提高再入院风险识别精度。

附图说明

图1是基于代价敏感集成学习模型的再入院风险预测方法流程图；

图2是疾病诊断、手术操作以及出院病情信息特征提取流程图；

图3是家族成员住院信息特征提取流程图；

图4是外部环境信息特征提取流程图；

图5是自动编码器降维过程示意图；

图6是基于CS-SVM的AdaBoost集成学习模型构建流程。

具体实施方式

下面将结合附图1-图6对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种基于代价敏感集成学习模型的再入院风险预测方法具体实现步骤如下；

步骤1，获取医疗和外部环境数据信息，构建多源高维特征矩阵；

1.1)疾病诊断信息及手术操作信息字典表示；

疾病编码以国际疾病分类ICD-10的三位代码类目表为标准，手术操作编码以ICD-9-CM-3的两位类目表为标准。出院病情共四种类型：治愈、好转、未愈、其他，将其划分为两类并表示为：{治愈/好转：0，未愈/其他：1}。分别构建疾病编码字典、手术编码字典以及疾病诊断_出院病情字典，字典的键(key)为疾病或手术编码，字典的值(value)为出现次数。字典初始化为：

疾病编码字典：dict_1＝{A00:0,A01:0,…,Z98:0,Z99:0}

手术编码字典：dict_2＝{00:0,01:0,…,98:0,99:0}

第k条住院记录的出院诊断疾病编码为：c＝{c₁,c₂,c₃…,c_m}，手术编码为：p＝{p₁,p₂,p₃…,p_n}，疾病诊断以及对应的出院病情为c_q＝{c₁_q₁,c₂_q₂…,c_m_q_m}。

采用以下规则进行字典映射：

①if dict_1_k[i].key＝＝c_j→dict_1_k[i].value＝1；

else dict_1_k[i].value＝0

②if dict_2_k[i].key＝＝p_j→dict_2_k[i].value＝1；

else dict_2_k[i].value＝0；

③if dict_3_k[i].key＝＝c_j_q_j→dict_3_k[i].value＝1；

else dict_3_k[i].value＝0

1.2)构建患者家族成员疾病史特征；

根据患者身份证号关联全员人口库数据，获取患者家族成员的身份证号。再依据家族成员的身份证号关联其既往住院信息。第k条记录的出院主诊断疾病编码为c_k，对应的家族成员住院信息中所有的出院诊断疾病编码集合为R_k＝{r_k1,r_k2,r_k3,…,r_km}。构建家族成员关联特征x_r，第k条住院记录的x_r特征取值规则为：

if c_k∈R_k→x_rk＝1；

else x_rk＝0；

1.3)构建基于空间和时间维度的外部环境特征；

各监测站点空气污染物信息包括：AQI，PM2.5，PM10，PMC(PM10-PM2.5浓度)，CO，NO2，SO2，O3。

各监测站点气象信息包括：温度、降水、相对湿度、压强、日照。

环境特征空间维度匹配：为了更加精确反映患者的环境暴露情况，根据患者的家庭住址信息以及环境监测站点地址信息，将每位患者匹配到与其家庭住址最近的监测站点。

其中，val(p_t)表示环境变量p在第t日的取值。

1.4)构建多源高维特征矩阵；

将x_basic，x_r，x_env，matrix₁合并为高维特征矩阵X＝[x_basic,x_r,x_env,matrix₁]。

1.5)设定30天非计划性再入院患者标签；

对患者多次住院记录进行分析，滑动窗口设为30天。第i位患者既往住院记录表示为:S_i＝{s₁:(x₁,t₁₁,t₁₂,d₁,y₁),s₂:(x₂,t₂₁,t₂₂,d₂,y₂),…,s_v:(x_v,t_v1,t_v2,d_v,y_v)},其中，x_v表示患者第v次住院的多维度数据特征；t_v1表示第v次住院的住院时间，t_v2表示第v次住院的出院时间；d_v表示第v次住院的出院主要诊断，y_v表示再入院标签。则再入院标签规则表示为：

③if(time_diff(t_k+1,1-t_k,2)>30)→y_k＝0(非再入院)；

④每位患者最近一次住院记录s_v可作为预测数据，y_v＝NULL；

①if d₁,d₂疾病编码属于同一章→disease_diff(d₁,d₂)≤1；

②if d₁,d₂疾病编码不属于同一章→disease_diff(d₁,d₂)>1。

步骤2，基于自动编码器的高维特征矩阵非线性压缩表示；

自动编码器是一种无监督神经网络模型，它可以学习到输入数据的隐含特征，即编码(encoding)，同时学习到的新特征可以重构原始输入数据，即解码(decoding)。自编码网络通过非线性映射，可以将高维特征空间降到具有一定维数的低维嵌套结构上，且尽量不损失数据信息。基于自动编码器的高维特征矩阵非线性压缩表示，具体步骤为：

X′＝f(X)＝s(WX+b)

其中，s为sigmoid激活函数；

Z＝g(X′)＝s(W′X′+b′)

步骤3，构建以代价敏感支持向量机为弱学习器的集成学习模型；

针对再入院样本类别不均衡问题，本发明构建一种以代价敏感支持向量机(CostSensitive-Support Vector Machine，CS-SVM)为弱学习器的AdaBoost集成学习模型。模型输入为步骤2中经过自动编码器压缩表示的新特征X’；模型输出为患者再入院风险预测的分类结果。模型中涉及的多数类样本为阴性样本(y^-)，少数类样本为阳性样本(y⁺)。

3.1)构建代价敏感支持向量机CS-SVM模型；

3.1.1支持向量机SVM的目的是找到一个超平面划分两类样本点，并且使得距离超平面最近的样本点到超平面的距离最远。硬间隔SVM需要数据完全线性可分，但通常的样本数据并非线性可分，所以引入了松弛变量ξ和惩罚因子C，即软间隔SVM。模型表示为：

s.t.y_i(w·x_i+b)≥1-ξ_i

ξ_i≥0i＝1,2,...,m

其中，w，b为SVM模型超平面参数；x_i为患者i的输入特征，y_i为患者i的再入院标签。

3.1.2设置代价矩阵；在代价敏感学习模型中，对阳性样本误分和阴性样本误分分别设置不同的代价，代价矩阵设置为：

其中，C₁为阳性样本误分的惩罚因子，C₂为阴性样本误分的惩罚因子。

s.t.y_i(w·x_i+b)≥1-ξ_i

ξ_i≥0i＝1,2,...,m；

3.1.4 CS-SVM参数求解；

参数求解过程与软间隔SVM求解过程相似，利用拉格朗日乘子法求解有约束的凸优化问题：

s.t.ξ_i,α_i,r_i≥0i＝1,2,...,m

0≤α_i≤C₁ i∈y⁺

0≤α_i≤C₂ i∈y^-

然后再采用序列最小优化算法(Sequential minimal optimization,SMO)算法求得使上式取得最大值的拉格朗日乘子α_i，从而求得超平面参数w，b。

3.2)以CS-SVM为弱学习器构建Adaboost集成学习模型；

AdaBoost属于Boosting框架下的一种集成学习模型。模型根据每一次迭代的基学习器的学习效果调整学习器的权重以及下一个基学习器的样本权重。具体而言，针对训练误差小的学习器赋予较大的权重，而训练误差大的学习器赋予较小的权重；对于错分样本增大样本权重，对于正确分类的样本减小相应的权重。最终的预测模型是多个基学习器的加权组合。

以CS-SVM为基学习器的AdaBoost模型不仅在模型迭代过程中更新样本分布权重，同时根据每一次基学习器预测结果更新CS-SVM的代价系数，即自适应更新样本权重和代价系数。CS-SVM模型可以着重关注样本不均衡导致的阴性样本分类误差较大问题，而AdaBoost模型通过调整样本分布权重，可以对整体错分样本进一步关注，同时在迭代过程中自适应调整CS-SVM的代价矩阵，提高模型预测精度，降低偏倚。具体的模型构建和参数更新步骤为：

3.2.1输入经过压缩表示后的样本数据，并初始化样本权重：

假设原始数据样本的多数类样本(y^-)数量为m₁，少数类样本(y⁺)数量为m₂。则初始化弱学习器CS-SVM代价系数为：

其中

3.2.3设置弱学习器的权重：

3.2.4更新下一个弱学习器的样本权重

D_t+1＝(w_t+1,1,w_t+1,2,...,w_t+1,m)

3.2.5更新下一个弱学习器CS-SVM中不同类别错分的代价

令

其中

代表第t个基学习器训练结束后误分的少数类样本占总体少数类样本的比值。

第t+1个基学习器的代价更新公式为，

该更新公式有三种情况：

④当误分的少数类样本(y⁺)所占比例大于误分的多数类样本(y^-)所占比例，即

时，仍然赋予少数类样本较大的代价，即C₁>C₂＝1；

⑤反之，当误分的少数类样本(y⁺)所占比例小于误分的多数类样本(y^-)所占比例，即

时，说明此时模型对少数类样本的关注过大，导致许多阴性样本被误分为阳性，因此适当增大阴性样本误分的代价，即C₁<C₂＝1。

⑥当误分的少数类样本(y⁺)所占比例等于误分的多数类样本(y^-)所占比例时，模型达到平衡状态，此时对所有误分样本设置相同的代价，即C₁＝C₂＝1。

3.2.6重复步骤3.2.2～3.2.5直到弱学习器个数达到指定个数n。

最终的模型为：

预测结果为：

其中sign为符号函数。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于代价敏感集成学习模型的再入院风险预测方法，其特征在于：具体步骤包括；

对于步骤1来讲，包括如下内容；

1.1)疾病诊断信息及手术操作信息字典表示：

疾病编码以国际疾病分类ICD-10的三位代码类目表为标准，手术操作编码以ICD-9-CM-3的两位类目表为标准，出院病情共四种类型：治愈、好转、未愈、其他，将其划分为两类并表示为：{治愈/好转：0，未愈/其他：1}，分别构建疾病编码字典、手术编码字典以及疾病诊断_出院病情字典，字典的键(key)分别为疾病编码、手术编码以及疾病诊断_出院病情，字典的值(value)为出现次数；字典初始化为：

疾病编码字典：dict_1＝{A00:0,A01:0,…,Z98:0,Z99:0}，其中A00:0表示疾病诊断为A00出现0次；

手术编码字典：dict_2＝{00:0,01:0,…,98:0,99:0}，其中00:0表示手术编码为00出现0次；

疾病诊断_出院病情字典：dict_3＝{A00_0:0,A00_1:0,A01_0:0,A01_1:0,…,Z99_0:0,Z99_1:0}，其中A00_0:0表示疾病诊断为A00且出院病情为0出现0次；

第k条住院记录的出院诊断疾病编码为：c＝{c₁,c₂,c₃…,c_m}，手术编码为：p＝{p₁,p₂,p₃…,p_n}，疾病诊断以及对应的出院病情为c_q＝{c₁_q₁,c₂_q₂…,c_m_q_m}；第k条住院记录的第j个出院诊断疾病编码、手术编码和疾病诊断以及对应的出院病情采用以下规则进行字典映射：

①if dict_1_k[i].key＝＝c_j→dict_1_k[i].value＝1；

else dict_1_k[i].value＝0

②if dict_2_k[i].key＝＝p_j→dict_2_k[i].value＝1；

else dict_2_k[i].value＝0；

③if dict_3_k[i].key＝＝c_j_q_j→dict_3_k[i].value＝1；

else dict_3_k[i].value＝0

1.2)构建患者家族成员疾病史特征：

if c_k∈R_k→x_rk＝1；

else x_rk＝0；

1.3)构建基于空间和时间维度的外部环境特征；

其中，val(p_t)表示环境变量p在第t日的取值；

1.4)构建多源高维特征矩阵；

针对步骤1.1中字典特征dict_1，dict_2，dict_3，将字典的键(key)作为矩阵的列取值，字典的值(value)作为矩阵的行取值，得到关于患者患病情况的特征矩阵matrix₁＝[dict_1,dict_2,dict_3]；

1.5)设定30天再入院标签；

第i位患者的v次住院记录表示为:S_i＝{s₁:(x₁,t_1,1,t_1,2,d₁,y₁),s₂:(x₂,t_2,1,t_2,2,d₂,y₂),…,s_v:(x_v,t_v,1,t_v,2,d_v,y_v)},其中，x_v表示患者第v次住院的多维度数据特征；t_v,1表示第v次住院的入院时间，t_v,2表示第v次住院的出院时间；d_v表示第v次住院的出院主要诊断，y_v表示第v次住院的出院时间点未来30天再入院标签；对患者多次住院记录进行分析，滑动窗口设为30天，患者第k次住院的出院时间点未来30天再入院标签y_k规则表示为：

①if(time_diff(t_k+1,1-t_k,2)≤30)&disease_diff(d_k+1,d_k)≤1→y_k＝1，再入院；

②if(time_diff(t_k+1,1-t_k,2)≤30)&disease_diff(d_k+1,d_k)>1→y_k＝0，非再入院；

③if(time_diff(t_k+1,1-t_k,2)>30)→y_k＝0，非再入院；

④每位患者最近一次住院记录s_v作为预测数据，y_v＝NULL；

disease_diff(d₁,d₂)为疾病d₁和疾病d₂之间的相似度；以国际ICD-10疾病编码为标准，疾病相似度具体的计算方式为：

①if d₁,d₂疾病编码属于同一章→disease_diff(d₁,d₂)≤1；

②if d₁,d₂疾病编码不属于同一章→disease_diff(d₁,d₂)>1；

2)、基于自动编码器对高维特征矩阵进行非线性压缩；

4)、测试集经过步骤1、步骤2特征处理，输入训练模型，得到再入院风险预测结果。

2.根据权利要求1所述一种基于代价敏感集成学习模型的再入院风险预测方法，其特征在于：步骤2采用自动编码器对高维特征矩阵进行非线性压缩，具体步骤为：

2.1)编码阶段；输入步骤1.4中得到的高维特征矩阵X，输出涵盖原始特征信息的非线性压缩表示X’，模型定义为：

X′＝f(X)＝s(WX+b)

其中，s为sigmoid激活函数；

Z＝g(X′)＝s(W′X′+b′)

其中，X_k表示第k个样本的高维特征矩阵，Z_k表示对X_k’进行解码后的结果，d表示样本总量；

2.4)利用小批量梯度下降法优化目标，得到模型参数W，b，W’，b’，输出高维特征矩阵的非线性压缩X’。

3.根据权利要求1所述一种基于代价敏感集成学习模型的再入院风险预测方法，其特征在于：对于步骤3来讲，构建以代价敏感支持向量机为弱学习器的AdaBoost集成学习模型；模型输入为步骤2中经过自动编码器非线性压缩的X’；模型输出为患者再入院风险预测的分类结果；模型中涉及的多数类样本为阴性样本y-，少数类样本为阳性样本y+；具体步骤为；

3.1)构建代价敏感支持向量机CS-SVM模型；

3.1.1设置代价；C₁为阳性样本误分的惩罚因子，C₂为阴性样本误分的惩罚因子；

3.1.2引入代价因子，构建CS-SVM模型：