CN105512477B

CN105512477B - 基于降维组合分类算法非计划性再入院风险评估预测模型

Info

Publication number: CN105512477B
Application number: CN201510876357.0A
Authority: CN
Inventors: 杨冬艳; 李光亚; 陈诚; 马成龙; 张敬谊; 张鑫金
Original assignee: WANDA INFORMATION CO Ltd
Current assignee: WANDA INFORMATION CO Ltd
Priority date: 2015-12-03
Filing date: 2015-12-03
Publication date: 2018-11-06
Anticipated expiration: 2035-12-03
Also published as: CN105512477A

Abstract

随着医疗信息化的不断发展，已经实现了海量数据的存储和处理，然而面对海量的医疗数据，如何高效率、高精度的完成对患者的识别和分类，已经成为医疗行业的重大挑战。本发明针对患者的非计划性再入院情况进行数据降维组合分类，开展深入的研究。本发明通过将患者的临床资料信息、就诊信息、用药信息、体征信息、并发症和合并症信息、实验室数据等指标纳入风险预测模型，合理的考虑影响患者非计划性再入院的因素，通过拉普拉斯特征降维方法对数据进行降维，并在此基础上构建基于Logistic回归模型的惩罚似然估计对非计划性再入院情况进行概率分类预测，从而了解各影响因素与患者再入院之间的关系及相关程度。

Description

基于降维组合分类算法非计划性再入院风险评估预测模型

技术领域

本发明涉及一种基于大样本、高维度情况下利用基于降维组合分类算法的患者非计划性再入院风险评估预测模型，通过对患者再入院的影响因素及相关程度进行分析，构建患者非计划性再入院的评估指标体系，从而对患者的再入院情况进行分类预测的方法。

背景技术

随着医疗信息化的不断发展，已经实现了海量数据的存储和处理，然而面对海量的医疗数据，如何高效率、高精度的完成对患者的识别和分类，已经成为医疗行业的重大挑战。

发明内容

本发明的目的是提供一种基于大样本、高维度情况下利用基于降维组合分类算法的患者非计划性再入院风险评估预测方法。

为了达到上述目的，本发明的技术方案是提供了一种基于降维组合分类算法的非计划性再入院风险评估预测方法，其特征在于，包括以下步骤：

步骤1、获取历史的入院患者信息，构建入院患者信息的高维空间特征矩阵；

步骤2、运用拉普拉斯特征映射方法对高维空间特征矩阵进行降维，得到拉普拉斯降维得分矩阵；

步骤3、构建训练集，训练集包括输入向量矩阵及输出变量，输入向量为由降维模块中得到的拉普拉斯降维得分矩阵构成，输出变量为患者非计划性再入院的概率值；

步骤4、构建Logistic回归模型后，采用训练集对Logistic回归模型进行训练，利用拉普拉斯降维得分矩阵构建Logistic回归模型对数据进行分类，分类的结果为二值变量，取值为0和1，其中1表示患者在某段时间内会发生非计划性再入院，而0表示患者在某段内不会发生非计划性再入院；

步骤5、针对新的入院患者信息，利用训练后的Logistic回归模型对当前入院患者的非计划性再入院风险进行评估预测。

优选地，在所述步骤1中，所述入院患者信息包括入院患者的人口特征数据信息、患者的用药情况数据信息、患者的门诊和住院情况数据信息、患者的体征信息、患者的并发症和合并症数据信息、患者的入院情况和出院转归以及患者的检验检查数据信息。

优选地，在所述步骤1中，得到所述高维空间特征矩阵后，对其中非0-1的矩阵的信息因子进行归一化处理，并计算归一化后的决策矩阵的相关系数矩阵，确定各项因子之间的相关系数，以及各项因子与患者再入院情况之间的相关系数，据此判断各项影响因子与患者再入院关系的大小，以及影响的重要程度。

优选地，所述步骤2包括：

步骤2.1、计算高维空间特征矩阵中给定的数据点x_i的k个近邻点，构建一个无向的邻域图G，邻域图G的节点表示n个样本点，且它的所对应的边表示数据点之间的近邻关系；

步骤2.2、计算近邻点之间的权值，构建出权值矩阵W；

步骤2.3、对LY＝λDY进行求解，得到的前d个最大的特征根λ所对应的特征向量即为所述拉普拉斯降维得分矩阵，式中，D为通过权值矩阵W计算所得到的对角矩阵，L＝D-W为拉普拉斯矩阵。

优选地，所述Logistic回归模型表示为：

式中，p_i为在各特征变量的相互作用下患者发生非计划性再入院的概率，且x_i表示患者患者的第i个特征因子，ε_i为第i个患者的特征因子的随机误差，为患者非计划性再入院发生比，β为待估计的参数，表示在某一个因子改变一个单位时log it(p_i)的改变量。

优选地，在所述步骤2中，在降维的过程中利用线性逼近的思想，在降维过程中引入投影矩阵，即高维空间X到低维空间Y的投影可以通过线性变换Y＝P^TX实现，其中P为投影矩阵。

优选地，所述Logistic回归模型以极大似然估计为基础，结合经验似然估计和惩罚似然的思想，用经验似然估计方法取代惩罚似然方法中的极大似然方法。

本发明在对现有患者的分类进行研究的基础上，针对患者的非计划性再入院情况进行数据降维组合分类，开展深入的研究。影响患者非计划性再入院率，进而影响预后的因素不仅包含患者的性别、年龄等人口学特征，还包含患者的教育程度、用药情况、生活习惯、医保状况、并发症的情况以及经济情况等各种各样的因素，单一的考虑任何一种因素或者只考虑其中的几种因素都是不全面的。本发明通过将患者的临床资料信息、就诊信息、用药信息、体征信息、并发症和合并症信息、实验室数据等指标纳入风险预测模型，合理的考虑影响患者非计划性再入院的因素，通过拉普拉斯特征降维方法对数据进行降维，并在此基础上构建基于Logistic回归模型的惩罚似然估计对高血压患者的非计划性再入院情况进行概率分类预测，并对分类预测的效果进行评估，从而了解各影响因素与患者再入院之间的关系及相关程度，为改善患者的再入院情况以及预后等提供科学依据。

附图说明

图1为本发明提供的一种基于回归的患者非计划性再入院风险评估预测模型的原理图；

图2为本发明提供的回归预测模型效果的P-P图；

图3为本发明提供的回归预测模型残差分布的P-P图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例作详细说明如下。

本发明提供了一种基于大样本、高维度情况下利用拉普拉斯特征提取方法对数据进行降维，并在此基础上构建Logistic回归模型对高血压患者的再入院情况进行概率分类预测，并对预测效果进行评估的方法，其特征在于，包括：

输入输出数据模块，该输入输出数据模块的输入数据为：整理好的入院患者的人口特征数据信息、患者的用药情况数据信息、患者的门诊和住院情况数据信息、患者的体征信息、患者的并发症和合并症数据信息、患者的入院情况和出院转归以及患者的检验检查数据信息等；该输入输出数据模块的输出数据为：患者非计划性再入院情况的概率值；

数据采集和预处理模块，用于：构建入院患者信息的特征矩阵，对其中非0-1的矩阵的信息因子进行归一化处理，并计算归一化后的决策矩阵的相关系数矩阵，确定各项因子之间的相关系数，以及各项因子与患者再入院情况之间的相关系数，据此判断各项影响因子与患者再入院关系的大小，以及影响的重要程度；

降维模块，用于：运用拉普拉斯特征映射方法对患者的特征信息数据进行降维，其核心思想是通过嵌入算法保持数据点之间的局部结构，将高维空间中离的很近的数据点对应于低维空间的投影点的距离也离的很近。拉普拉斯算法的基本步骤如下所示：

步骤1：计算由住院患者所组成的高维空间中给定的数据点x_i的k个近邻点，构建一个无向的邻域图G，G的节点表示n个样本点，且它的所对应的边表示数据点之间的近邻关系；

步骤2：计算近邻数据点之间的权值，构建出权值矩阵W_ij。权值矩阵的构造一般采取以下两种方式：1)若数据点x_i和数据点x_j在领域图G中互为近邻点，则W_ij＝1，否则W_ij＝0；2)热核函数：若数据点x_i和数据点x_j在领域图G中互为近邻点，则权重(其中参数σ为实数)，否则W_ij＝0；

步骤3：计算高维数据的低维表示。拉普拉斯的目标函数定义为：

其中

因此拉普拉斯的降维问题最终转换为求解以下特征值分解的问题：

LY＝λDY

这里D_ii＝∑_jW_ij为通过权值矩阵计算所得到的对角矩阵，L＝D-W为拉普拉斯矩阵，对上式进行求解得到的前d个最大的特征根所对应的特征向量即为数据降维的结果。

数据分区模块，采用交叉验证的方法将输入向量矩阵及输出变量分为训练集和测试集，输入向量为由降维模块中得到的拉普拉斯降维得分矩阵构成，输出变量为患者非计划性再入院的概率值；

构建Logistic回归分类模块，用于：对于高维数据，尤其是大样本数据集，传统的Logistic回归分类方法往往会遇到以下几个方面的问题：(1)高维数据会产生大量参数；(2)随着数据维数的增高，多重共线性的现象也将愈加严重；(3)当变量的维数很高时，容易导致数据过拟合，即训练集的误差会下降，而测试集的误差在下降到一定程度后反而会上升；(4)维数过高会给计算打来很大的负担，容易导致奇异的协方差矩阵。

为了使Logistic回归模型能够应用于高维分类问题中，本发明利用基于Logistic回归模型的惩罚似然方法对患者的非计划性再入院情况进行预测。针对拉普拉斯特征降维之后的得分矩阵构建Logistic回归模型对数据进行分类，分类的结果为二值变量，取值为0和1，其中1表示患者在两年内会发生非计划性再入院，而0表示患者在两年内不会发生非计划性再入院。可以表示为：

其中，p_i为在各特征变量的相互作用下患者发生非计划性再入院的概率，且x_i表示患者的第i个特征因子，ε_i为第i个患者的特征因子的随机误差，为患者非计划性再入院发生比，β为待估计的参数，表示在某一个因子改变一个单位时log it(p_i)的改变量。Logistic回归模型中的参数估计值β得到的时候，由公式可以得到Logistic回归模型的分类概率p_i。

模型预测能力评估模块，训练过的Logistic回归分类模型学习了患者的人口特征、病症特征以及临床路径等特征参数，并将训练结果反馈到电子病历中，针对新患者再进行非计划性再入院的情况进行预测，从而实现优化患者再入院情况的目的。

模型的有效性检验模块，使用残差P-P图来检验Logistic回归模型预测的有效性。残差P-P图可以考察模型预测的残差是否符合正态分布。图形的纵轴为正态分布下的期望累积概率，横轴为残差实际的累积概率。当残差分布的曲线与代表正态分布的曲线的重合度越高说明残差分布与正态分布越一致。

降维模块，其实施过程包括：

在数据降维的过程中利用线性逼近的思想，在降维过程中引入投影矩阵，即高维空间到低维空间的投影可以通过线性变换Y＝P^TX实现，其中P为投影矩阵，则拉普拉斯变换的目标函数变为：

这里，Tr表示矩阵的迹，D和L分别为对角矩阵和拉普拉斯矩阵，为避免出现奇异解，引入约束条件P^TXDX^TP＝I，则优化目标函数为：

s.t.P^TXDX^TP＝I

利用Lagrange方法，即可求解得到最小值的投影矩阵。

Logistic回归模型的实施过程包括：利用对数似然估计方法对参数值β进行估计，则β的参数似然估计函数为

则β的对数似然估计函数为：

关于参数β求导后可得到估计方程为：

其中，τ′(z)表示为：

经过计算之后，估计方程可以简化为：

Logistic回归模型以极大似然估计为基础，结合经验似然估计和惩罚似然的思想，用经验似然估计方法取代惩罚似然方法中的极大似然方法。对于Logistic回归模型来说，参数β的对数似然函数为：可以得到参数β 的惩罚似然函数估计值为：

由Logistic回归模型的惩罚似然估计可以看出，惩罚似然方法的框架是由两部分组成的，前面的部分为对数似然函数，这是由各自模型的最大似然函数形式决定的，这一部分可以相当于一个损失函数；后面的部分是惩罚函数，惩罚函数有多种形式，不同的惩罚函数会对结果造成不同的影响。本发明的惩罚经验似然方法是在惩罚似然思想的基础上，将经验似然方法运用到Logistic回归模型中对参数进行估计。

以下利用2011-2012年上海市三甲医院的1218904名高血压患者的住院数据，删除掉患者信息都缺失的数据，最终选取336584名患者为研究对象，通过对影响患者两年内的非计划性再入院率，进而影响患者预后的因素不仅包含患者的性别、年龄等人口学特征、还包含患者的教育程度、用药情况、生活习惯、医保状况、并发症的情况以及经济情况等各种各样的因素进行详细的分析，选取患者的临床资料信息、就诊信息、用药信息、特征信息、并发症和合并症信息、实验室数据等指标纳入风险预测模型，合理的考虑影响患者再入院的因素，通过拉普拉斯特征降维方法对数据进行降维，并在此基础上构建Logistic回归模型的经验惩罚似然函数对高血压患者的非计划性再入院情况进行概率分类预测，并对分类预测的效果进行评估，从而了解各影响因素与患者非计划性再入院之间的关系及相关程度，为改善患者的再入院情况以及预后等提供科学依据。

结合图1，本发明提供的一种基于降维组合分类算法的患者非计划性再入院风险评估预测方法的具体实施步骤为：

步骤1：整理高血压患者的信息数据，包含患者的人口学信息：性别、年龄等因素；患者的并发症信息：包含糖尿病、慢性肾病、冠心病、心肌梗死、高血脂等并发症因素；患者的用药数据：依据《高血压指南(2010版)》选取包含钙通道阻滞剂、ACEI、ARB、利尿剂和受体阻滞剂以及其他等高血压用药以及药物的组合形式共36种用药类别；患者的检验检查数据共24项；患者的体征数据共30项；患者的就诊数据：包含患者的门诊和住院情况数据信息共7项。将这104项患者数据信息作为输入数据，患者的再入院情况作为输出数据。

步骤2、对数据进行预处理，对数据进行归一化处理，确保数据不受量纲的影响，并在此基础上求取相应的相关系数矩阵，依据各指标与患者再入院情况的相关系数判断各指标的重要程度，由此判断对患者再入院影响最大的因素依次为：患者最后一次入院之前的就诊情况包括患者的门诊和住院信息情况、患者的并发症情况、患者的体征情况、患者的年龄情况、患者的用药情况、患者的体征情况、患者的性别等。

步骤3、在此基础上运用KMO和Bartlett的检验方法对数据进行分析：

表1 KMO和Bartlett的检验

由表可知，Bartlett检验统计量的观测值为3561096.166，相应的概率P值为0.000，在显著性水平α＝0.01的情况下，拒绝原假设，认为相关性矩阵与单位矩阵有显著性差异，适合进行拉普拉斯特征降维。

步骤4、拉普拉斯特征降维方法：利用计算高维空间中给定的数据点之间的距离，并将该距离作为各个数据点之间的权值作为数据点之间的近邻关系，构建出权值矩阵W_ij，并利用线性逼近的思想，通过特征值分解的方法计算目标函数求得拉普拉斯矩阵，并最终利用Lagrange方法，求解高维矩阵在低维空间上的的投影矩阵，实现对数据的降维。利用该降维方法，选取累积方差贡献度大于等于80％的原则提取患者的特征，共提取51个患者的特征，该51个特征可以用原104个患者的数据特征表示出来。

步骤4、数据分区：将每项患者的数据特征因子按照拉普拉斯数据降维方法提取的数据特征组合构成输入向量矩阵，将患者两年内的再入院情况作为输出变量，为了降低参数的影响，选用随机抽样的方法将数据分为训练集和测试集，其中训练组的患者为80％，包含患者的样本数为269114名，测试组的患者为20％，包换患者的样本数为67470名，即对每个患者的数据划分标签，在训练集上构建相应的Logistic回归分类模型的经验惩罚似然函数，并在测试集对患者的分类情况进行预测；

步骤5、Logistic回归模型构建：在拉普拉斯特征降维的基础上，对高血压患者的两年内非计划性再入院情况数据使用Logistic回归模型的经验惩罚似然函数进行建模研究，使用惩罚经验似然方法来进行模型的变量选择和参数估计。之后对该数据的分类问题进行研究，最终得到分类的误判率。

表2高血压患者再入院情况的Logistic回归模型的参数估计

通过Logistic回归模型的惩罚经验似然方法对拉普拉斯特征降维之后得到的特征因子进行回归分析，得到了包含常数项的各个特征因子的回归系数、回归系数的标准误差，Wald检验统计量的观测值、Wald检验统计量的P值，由该表可以看出所有特征因子以及常数项的Wald检验统计量的P值都为0.000，在0.05的显著性水平下都通过检验，表明该模型的Logit线性关系显著，模型合理。

由Logistic回归模型的惩罚经验似然方法得到的模型如下：

表3模型拟合优度检验

步骤	-2对数似然值	Cox&Snell R方	Nagelkerke R方
				1	19127.435^a	.722	.977

该表显示了Logistic回归模型的拟合优度方面的测度指标，最终模型的-2倍的对数似然估计值为19127.435，所对应的Cox&Snell R方和Nagelkerke R方都比较大，尤其是Nagelkerke R方值接近于1，说明了模型的拟合优度总体较好。

表4 Hosmer和Lemeshow检验

步骤	卡方	df	Sig.
				1	9343.671	8	.000

该表显示Hosmer-Lemeshow检查的结果。在该模型中，Hosmer-Lemeshow统计量的观测值为9343.671，概率P值为0.000，在0.01的显著性水平下，拒绝原假设，模型的拟合优度较好。认为由模型预测得到的患者的再入院情况的预测值能够较好的反应患者的实际值的分布情况。

步骤6：模型预测效果评估：将Logistic回归模型的惩罚经验似然方法应用到高维数据的分类问题中，构造Logistic回归模型的惩罚经验似然函数，应用该方法对高血压患者两年内的非计划性再入院情况预测，应用该模型选择出重要的影响变量并通过不断调整参数改进模型的分类效果。保存Logistic回归模型的训练结果，并将测试集的数据代入到该模型中，对模型的测试效果进行评估，模型的预测结果如下表所示：

表5 Logistic回归模型分类结果表

在该表中，符号0表示该患者再入院的概率较低，符号1表示该患者再入院的概率较高，概率值大于0.5的患者记录为再入院的患者，由该表可以看出，模型总的预测效果为98.72％，其中两年内无再入院情况的患者的预测的准确率为98.74％，而两年内有再入院的情况的患者的预测准确率为98.69％，在67470名患者中只有1312名患者没有得到正确分类，模型整体预测的精度较高。

步骤六：模型的有效性检验：首先检验Logistic回归模型的预测有效性。使用残差P-P图可以考察模型预测的残差是否符合正态分布。P-P图的纵轴为正态分布下的期望累积概率，横轴为残差实际的累积概率。当残差分布的曲线与代表正态分布的曲线的重合度越高说明残差分布与正态分布越一致。如图2和图3可以看出，模型的残差曲线分布与代表正态分布的斜线重合度很高，说明Logistic回归模型的预测值残差分布较合理。

Claims

1.一种基于降维组合分类算法的非计划性再入院风险评估预测方法，其特征在于，包括以下步骤：

步骤2、运用拉普拉斯特征映射方法对高维空间特征矩阵进行降维，得到拉普拉斯降维得分矩阵，步骤2包括：

步骤2.2、计算近邻点之间的权值，构建出权值矩阵W；

步骤2.3、对LY＝λDY进行求解，得到的前d个最大的特征根λ所对应的特征向量即为所述拉普拉斯降维得分矩阵，式中，D为通过权值矩阵W计算所得到的对角矩阵，L＝D-W为拉普拉斯矩阵

所述Logistic回归模型表示为：

式中，p_i为在各特征变量的相互作用下患者发生非计划性再入院的概率，且x_i表示患者患者的第i个特征因子，ε_i为第i个患者的特征因子的随机误差，为患者非计划性再入院发生比，β为待估计的参数，表示在某一个因子改变一个单位时logit(p_i)的改变量

2.如权利要求1所述的一种基于降维组合分类算法的非计划性再入院风险评估预测方法，其特征在于，在所述步骤1中，所述入院患者信息包括入院患者的人口特征数据信息、患者的用药情况数据信息、患者的门诊和住院情况数据信息、患者的体征信息、患者的并发症和合并症数据信息、患者的入院情况和出院转归以及患者的检验检查数据信息。

3.如权利要求1所述的一种基于降维组合分类算法的非计划性再入院风险评估预测方法，其特征在于，在所述步骤1中，得到所述高维空间特征矩阵后，对其中非0-1的矩阵的信息因子进行归一化处理，并计算归一化后的决策矩阵的相关系数矩阵，确定各项因子之间的相关系数，以及各项因子与患者再入院情况之间的相关系数，据此判断各项影响因子与患者再入院关系的大小，以及影响的重要程度。

4.如权利要求1所述的一种基于降维组合分类算法的非计划性再入院风险评估预测方法，其特征在于，在所述步骤2中，在降维的过程中利用线性逼近的思想，在降维过程中引入投影矩阵，即高维空间X到低维空间Y的投影可以通过线性变换Y＝P^TX实现，其中P为投影矩阵。