CN104992058A

CN104992058A - 疾病风险调整模型建立方法

Info

Publication number: CN104992058A
Application number: CN201510357827.2A
Authority: CN
Inventors: 杨思坦; 李涛; 陶金蓝; 陈霞
Original assignee: Chengdu Hou Li Information Technology Co Ltd
Current assignee: Zhongke Houli information technology (Chengdu) Co.,Ltd.
Priority date: 2015-06-25
Filing date: 2015-06-25
Publication date: 2015-10-21
Anticipated expiration: 2035-06-25
Also published as: CN104992058B

Abstract

本发明公开了一种疾病风险调整模型建立方法，该方法针对某个医院或者某一地区所有医院住院病人的历史性数据，将病人入院时伴随的合并症/并发症，病人个体的人口特征，以及入院状态来源等整合成疾病治疗的影响变量因素，按疾病诊断相关分组DRG类别和这些病人最终的治疗信息，分别建立统计模型对医院病人的死亡率、住院周期和住院医疗成本进行数值预测和分析。该风险调整模型创新的利用了病人入院的合并/并发症和其他住院信息变量，采用了经典统计学中的检验和回归方法，并结合LASSO方法进行建模，避免了因变量过多而产生的过度拟合，达到了对病人死亡率、住院周期和成本的定量预测，从而为医疗分析和医院管理创造了新的手段和途径。

Description

疾病风险调整模型建立方法

技术领域

本发明涉及一种疾病风险调整模型建立方法。

背景技术

近年来由于国内医院IT技术的迅猛发展，已经初步地完成了病人和疾病的原始数据积累，然而苦于没有方法学，不能够将这些数据有效地提炼成为指导信息和医院管理的决策依据，致使绝大部分数据只能储存在医院的数据仓库中，浪费了资源。如果能够充分地借鉴美国政府对医院管理的成功模式和优秀的方法学，再加以本土化改良，不但能够让国内的医疗管理机构增加有效的监控途径和手段，而且还能促使医院加快从粗放向精细化管理模式转型的步伐。

近来政府积极倡导和鼓励传统行业向“互联网+”的转型，充分利用数字科技提高医院的医疗质量，营运效率和减少医疗资源浪费已经成为时代潮流，把握时机，借鉴先进经验，建立标准模式，将会占有先发优势，引领行业的改革浪潮。

临床医学的多学科和疾病的复杂性增加了数据深度分析和提纯为管理决策支持依据的难度，与其他行业的数据相比较，医疗数据具有非叠加性(如财务数据)和非直接可比性(如数据大小)特点，由于每个医院入院病人人群和疾病程度差异，通过直接采用死亡率、住院天数和成本等数据对病种、医生、科室和医院之间的绩效比较评估是不合理的。譬如说由于接受大量转院病人和收治病情更加严重的病人人群，四川华西医院就不能够直接同某个县级医院进行简单的绩效评估。

为了有效解决临床数据不平的困境，医院通常采用的评估模式之一有以资源使用为标准的疾病群组归纳方法，如各类DRG和DCG等，然后将治疗中使用的医疗成本，经过分析，获得疾病群组的案例复杂性指数(CMI)。通过医疗资源成本使用情况倒推出住院疾病群组的病情程度，从而实现医院和科室在同一个体系内的评估。然而以CMI计算的方法在评价医疗质量、营运效率以及合理性用药等方面有其先天性不足，首先这种模式并未考虑到疾病本身的特性和其他临床相关性影响因素，不符合医疗规律；其次过度检查和治疗而导致的虚高成本治疗本身也会增加模型不稳定性，从而导致判断结果的偏差。

目前建立的统计模型以线性回归模型为主，主要强调线性模型稳定、预测方差较小的特点，以及避免因为变量过多而带来的过度拟合。疾病数据具有如下特点：

模型的独立变量(independent variable)由两种类型组成：离散变量：病人死亡率(也属于二分变量)；连续变量：住院天数和住院成本。模型的预测变量(dependent variables)由病人的人口统计、出入院信息和疾病的合并发症等数据组成，每个变量都是离散型变量，其中每个变量数值为1时代表出现该合并或者并发症，0代表未出现症状。由于模型完全依靠病人的人口统计、出入院信息和疾病的合并发症等数据来进行预测，能选择的模型类型也相对局限于数据的简单信息量，特别是局限于预测变量的离散特点，所以在预测连续性变量的时候模型方差应该会比较大，而更适合预测离散的结果或者对结果进行初步的分析。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种新型的疾病风险调整模型建立方法，采用国际疾病合并发症的集合标准，对同一相关疾病群组DRG中病人的人口统计信息、出入院情况、社会经济状况、疾病和有关健康问题的国际统计分类ICD诊断或手术编码等进行群组集合，形成不同类别的变量，在同一DRG群组中，通过统计模型对病人死亡率、住院天数和医疗成本进行数值预测和分析。该风险调整模型创新的利用了病人入院的合并/并发症和其他变量，采用了经典统计学中的检验和回归方法，并结合近年来发展的LASSO方法进行建模，避免了因变量过多而产生的过度拟合，达到了对病人死亡率、住院周期和成本这些重要医疗信息的定量预测，从而为医疗分析和医院管理创造了新的手段和途径。

本发明的目的是通过以下技术方案来实现的：疾病风险调整模型建立方法，包括以下步骤：

S1.产生数据：采用国际疾病合并发症的集合标准，对同一相关疾病群组DRG中病人的人口统计信息、出入院情况、社会经济状况、疾病和有关健康问题的国际统计分类ICD诊断或手术编码等进行群组集合，形成不同类别的变量；

S2.数据处理：在同一DRG群组中，通过统计学算法对病人死亡率、住院天数和成本具有统计学显著意义的合并发症群和其他类别变量进行统计预处理；

S3.模型建立：进行统计学模型的建立，死亡率数据采用逻辑回归模型，住院天数和成本数据采用多元线性回归模型。建模中运用基于统计LASSO方法的变量选择方法，并结合临床经验分析，然后得到选中的显著性变量在模型中的系数，从而完成建模。

步骤S1中对同一相关疾病群组DRG中形成的变量具体为：

(1)病人的人口统计信息变量：包括病人年龄、性别、民族等。

(2)病人的出入院情况变量：包括入院途径、出院去处、入院时病情状态等。

(3)疾病的合并发症变量：包括采用国际疾病合并发症的集合标准对病人入院的疾病和有关健康问题的国际统计分类ICD诊断或手术编码进行群组集合。

步骤S2中针对不同模型进行了如下的统计预处理：

(1)采用统计检验筛选出对死亡率、住院天数和医疗成本有显著性影响的变量。

(2)对有强相关联性的变量进行处理。强相关联性变量是指在模型中两个或者多个变量在统计学意义上具有强的相似性。

具体针对不同模型的操作包括：

死亡率模型的预处理：

(1)采用卡方检验Chi-squared检验，假定值p-value设定为0.05，为保留较多变量，未考虑P值的多重检验校正multiple testing correction；

(2)采用方差膨胀因子Variance Inflation Factor(VIF)作为检验标准，VIF的临界值取为5，对VIF＞5的预测变量进行删除。

住院天数和成本模型的预处理：

(1)考虑到住院天数和成本的原始分布不明确，对住院天数和成本数据进行对数变换logtransformation，使得变换后的数据更可能符合正态分布，从而更符合线性回归模型的假设。

(2)采用t-test(t检验)检验发生合并发症和未发生症状的两个群体的病人住院天数有无显著区别，假定值p-value设定为0.05，为保留较多变量，未考虑P值的多重检验校正multipletesting correction。

(3)采用方差膨胀因子Variance Inflation Factor作为检验标准，VIF的临界值取为5，对VIF＞5的预测变量进行删除。

以上模型中的Variance Inflation Factor(VIF)处理采用循环迭代的方法进行删除，即首先计算每一个预测变量相对于其他所有预测变量的VIF值，然后得到所有VIF值后去掉最大的，再重新计算余下变量的VIF值，直到所有变量的max VIF＜5。

步骤S3中所述的模型建立过程包括以下环节：

(1)利用LASSO生成预测变量重要性列表：由于LASSO独有的放缩系数，在放缩系数从0(没有放缩)到最大值(最大放缩)的过程中，每个预测变量在模型中出现的次数可以被统计。相对重要的变量应该会比相对不重要的变量出现的次数更多，比如最重要的变量一般会出现在各个模型中不论放缩值的大小。所以可以根据变量出现次数进行排序列表：从出现次数最多的到出现次数最少的。这个列表可以从一个方面反映在线性回归中，各个变量对独立变量的影响大小。其中影响为0(出现次数为0)的变量是使用LASSO后就直接删除的变量。

(2)结合临床经验确定重要性列表的临界值(小于临界值的变量被删除)：死亡率模型的临界值：如果预测变量是急性疾病类的合并发症变量，而且后面连续三个变量为慢性疾病类和/或与当前疾病非关联的合并发症，判断为后面三个变量，以及之后的所有变量对病人当前疾病导致死亡的影响忽略不计。从急性疾病类的合并发症变量之后的第一个变量开始(不包括)删除。住院天数和成本模型的临界值：无论是急性或慢性疾病类的合并发症变量，对治疗所使用的资源均会产生强弱不同的影响，所以临界值定义为0。

(3)确定预测变量的选择：在预测变量选择确定以后，这些变量会被用来以LASSO的方法重新建立线性回归模型。这里用到的方法是对原来所有预测变量(预处理后的)的系数进行重新调整。在重要性中判定为不重要的变量其系数被强制设置为0，从而排除掉进入最终模型的可能。另外，其他选中变量的系数范围也会进行规定，达到严格控制最终模型质量的目的。系数范围的规定原则是变量的系数符号必须与两个标准保持一致：

第一条标准：系数符号必须与预处理中统计检验量的符号一致。

第二条标准：系数符号必须与临床判断的结果保持一致。

第二条标准针对变量实际的临床意义进行规定。比如合并并发症变量的符号(除特殊病例外)一般规定为正(>0)，即出现症状会增大死亡的风险，增加住院天数和住院成本。这样符号的规定也符合对合并并发症的一般理解。另外，比如对于某些病例，不同年龄段的风险大小在临床上有一致的理解(例如年龄大会增加风险和成本)，在这种情况下，系数符号的设定也应该和临床认识一致。

(4)建立回归模型：模型中放缩参数的优化利用了Cross-Validation(一般是5倍和10倍)的方法，优化参数的标准根据数据类型定义：离散独立变量使用Misclassification Error，而连续独立变量使用Mean Squared Error。使得错误率最小的参数选为最终模型使用的放缩参数，建模完成。

本发明的有益效果是：提供了一种新型的疾病风险调整模型建立方法，采用国际疾病合并发症的集合标准，对同一相关疾病群组DRG中病人的人口统计信息、出入院情况、社会经济状况、疾病和有关健康问题的国际统计分类ICD诊断或手术编码等进行群组集合，形成不同类别的变量，在同一DRG群组中，通过统计模型对病人死亡率、住院天数和医疗成本进行数值预测和分析。该风险调整模型创新的利用了病人入院的合并/并发症和其他变量，采用了经典统计学中的检验和回归方法，并结合近年来发展的LASSO方法进行建模，避免了因变量过多而产生的过度拟合，提高了模型准确性和可靠性，达到了对病人死亡率、住院周期和成本这些重要医疗信息的定量预测，从而为医疗分析和医院管理创造了新的手段和途径。

在建立统计模型之前，对数据特别是预测变量进行预处理，特别是在疾病风险问题中，变量的个数都在上百个，而由于变量都是0/1型变量，变量之间可能会存在很强的相关性。另外，变量过多会使得建模出现过度拟合(overfitting)，使得模型在新数据上的预测性下降。

在对疾病风险数据的分析中，常用的stepwise selection结合AIC或者BIC的方法能会忽略数据中包含的原始疾病信息，而单纯从数据的数值上出发去选择模型。但由于数据的预测变量都是0/1类型变量，数值本身并不包含太多的信息，所以单纯从数值上去分析的做法可能会导致对模型选择的不准确。所以，利用LASSO方法进行模型选择。

附图说明

图1为疾病风险调整模型建立流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，疾病风险调整模型建立方法，包括以下步骤：

S1：产生数据：采用国际疾病合并发症的集合标准，对同一相关疾病群组DRG中病人的人口统计信息、出入院情况、社会经济状况、疾病和有关健康问题的国际统计分类ICD诊断或手术编码等进行群组集合，形成不同类别的变量。例见下表所示。

细菌性心内膜炎合并发症群组(ICD9编码)

病人基本人口统计信息和入院状态变量(部分)

S2：数据处理：在同一DRG群组中，通过统计学算法对病人死亡率、住院天数和成本具有统计学显著意义的合并发症群和其他类别变量进行统计预处理；

预处理的步骤如下：

(1)筛选出和独立变量有显著相关的预测变量。筛选的过程是一对一的，在这一步忽略了预测变量之间的关系，而仅仅从单个预测变量对独立变量的影响出发。

(2)计算预测变量之间的相关性，排除掉有强相关性的变量，保证所有变量最大的相关性小于一个临界值。

针对不同模型的不同预处理方法：

死亡率模型：

(1)采用了Chi-squared检验两个离散变量之间的相关联性，p-value设定为0.05，为保留更多的预测变量，未考虑P值的multiple testing correction。

(2)采用了传统的Variance Inflation Factor(VIF)作为检验标准，VIF的临界值取为5，对VIF>5的预测变量进行删除(详见例一)。

住院天数和成本模型：

(1)考虑到住院天数和成本的原始分布不明确(基本不可能是正态分布)，对住院天数和成本数据进行了Log transformation，使得变化后的数据更可能符合正态分布，从而更符合线性回归模型的假设。

(2)采用了t-test检验两个群体(发生合并并发症和未发生症状)病人住院天数有无显著区别。P-value设定为0.05，为保留更多的预测变量，未考虑P值的multiple testing correction。

(3)采用了Variance Inflation Factor(VIF)作为检验标准，VIF的临界值取为5，对VIF>5的预测变量进行删除。

以上模型中的VIF处理采用了循环迭代的方法进行删除，即首先计算每一个预测变量(相对于其他所有预测变量)的VIF值，然后得到的所有VIF值后去掉最大的，再重新计算余下变量的VIF值，直到所有变量的max VIF<5。

S3：进行统计学模型的建立，死亡率数据采用逻辑回归模型，住院天数和成本数据采用多元线性回归模型，然后得到选中的显著性变量在模型中的系数，形成预测值的量化公式。

合并发症变量在不同模型的影响：与病人当前疾病相关联的合并症/并发症为病人的伴随性疾病的两种不同状态，由病人当前疾病引发状态改变，反过来又会对治疗结果产生影响，但结果对象和程度不同。并发症与合并症相比，对当前疾病导致的病人死亡有更加强的作用。但两者均对当前疾病导致的住院天数和成本等医疗资源使用有作用，但无法简单地分辨出强弱大小，需要视其与病人当前疾病的共同作用而定。

模型建立过程包括以下环节：

(1)统计LASSO模型：利用LASSO生成预测变量重要性列表(详见例二)：由于LASSO独有的放缩系数，在放缩系数从0(没有放缩)到最大值(最大放缩)的过程中，每个预测变量在模型中出现的次数可以被统计。相对重要的变量应该会比相对不重要的变量出现的次数更多，比如最重要的变量一般会出现在各个模型中不论放缩值的大小。所以可以根据变量出现次数进行排序列表：从出现次数最多的到出现次数最少的。这个列表可以从一个方面反映在线性回归中，各个变量对独立变量的影响大小。其中影响为0(出现次数为0)的变量是使用LASSO后就直接删除的变量。

(2)结合临床经验确定重要性列表的临界值(小于临界值的变量被删除)：死亡率模型的临界值：如果预测变量是急性疾病类的合并发症变量，而且后面连续三个变量为慢性疾病类和/或与当前疾病非关联的合并发症，判断为后面三个变量，以及之后的所有变量对病人当前疾病导致死亡的影响忽略不计。从急性疾病类的合并发症变量之后的第一个变量开始(不包括)删除(见例三)。

住院天数和成本模型的临界值：无论是急性或慢性疾病类的合并发症变量，对治疗所使用的资源均会产生强弱不同的影响，所以临界值定义为0。

(3)确定预测变量的选择：在预测变量选择确定以后，这些变量会被用来以LASSO的方法重新建立线性回归模型。这里用到的方法是对原来所有预测变量(预处理后的)的系数进行重新调整。在重要性中判定为不重要的变量其系数被强制设置为0，从而排除掉进入最终模型的可能。另外，其他选中变量的系数范围也会进行规定，达到严格控制最终模型质量的目的。系数范围的规定原则是跟变量的系数符号必须与两个标准保持一致：

第一条标准:系数符号必须与预处理中统计检验量的符号一致。

第二条标准:系数符号必须与临床判断的结果保持一致。

全疾病的风险模型分三大类，共800多个模型单元，覆盖所有病种诊断、DRG和MDC，根据医院病人历史性数据可以准确地判断出当年病人在死亡、住院天数和医疗成本等方面的预期值，有效地提供了疾病风险程度可量化的依据。

实施方法案例

例一：肾脏衰竭死亡率模型的预测变量相关联性分析

模型#218：DRG 682,683,684

数据来源：美国德州医学中心赫尔曼纪念医院

病人样本数：2587出院时间7/1/2004-6/30/2014

筛选出的显著性变量数：37

强相关联变量数：4

统计学方法：Variance Inflation Factor(VIF)

注：从筛选出的37个变量中再进行强相关联性的检测，下方值为VIF值，VIF＞5的变量被标注。

例二：肾脏衰竭病人死亡率模型预测变量重要性列表

模型#218：DRG 682,683,684

数据来源：美国德州医学中心赫尔曼纪念医院

病人样本数：2587出院时间7/1/2004-6/30/2014

模型变量总数：280

筛选出的显著性变量数：37

统计学方法：LASSO

注：变量下方的数值代表变量重要性，数值越高变量对模型影响越大。

例三：肾脏衰竭死亡率模型的预测变量选择

模型#218：DRG 682,683,684

数据来源：美国德州医学中心赫尔曼纪念医院

病人样本数：2587出院时间7/1/2004-6/30/2014

模型变量总数：280

筛选出的显著性变量数：37

统计学方法：LASSO

注：结合模型和临床经验，变量横纹肌溶解症、慢性肝病和之后的变量被删除；强关联性变量-器官内置管也被删除。

例四：DMIAES病死亡率模型#22：(病人年龄≥18)急性缺血性中风及使用溶解血栓剂伴严重合并发症(MSDRG 61)，合并发症(MSDRG 62)，无合并发症(MSDRG 63)。

数据来源：美国德州医学中心赫尔曼纪念医院

建模样本中的病人数：996样本时间7/1/2004-6/30/2014

模型类别：逻辑回归模型

在建模样本中的拟合度：C-Index＝0.890

模型中病人死亡平均预期率：68.4％

无疾病变量时病人病死预值是1.54％，有多个疾病变量时的预值升到64.14％。

例四示采用疾病风险调整模型对两个不同的急性缺血性中风病人入院时的风险预测，由于病人的年龄、性别、合并发症和疾病程度等差异导致病死亡的不同的疾病风险系数。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.疾病风险调整模型建立方法，其特征在于，包括以下步骤：

S1. 产生数据：采用国际疾病合并发症的集合标准，对同一相关疾病群组DRG中病人的人口统计信息、出入院情况、社会经济状况、疾病和有关健康问题的国际统计分类ICD诊断或手术编码进行群组集合，形成不同类别的变量；

S2. 数据处理：在同一DRG群组中，通过统计学算法对病人死亡率、住院天数和成本具有统计学显著意义的合并发症群和其他类别变量进行统计预处理；

S3. 模型建立：进行统计学模型的建立，死亡率数据采用逻辑回归模型，住院天数和成本数据采用多元线性回归模型，建模中运用基于统计LASSO方法的变量选择方法，并结合临床经验分析，然后得到选中的显著性变量在模型中的系数，从而完成建模。

2.根据权利要求1所述的疾病风险调整模型建立方法，其特征在于：步骤S1中对同一相关疾病群组DRG中形成的变量具体为：

（1）病人的人口统计信息变量：包括病人年龄、性别、民族；

（2）病人的出入院情况变量：包括入院途径、出院去处、入院时病情状态；

（3）疾病的合并发症变量：包括采用国际疾病合并发症的集合标准对病人入院的疾病和有关健康问题的国际统计分类ICD诊断或手术编码进行群组集合。

3.根据权利要求1所述的疾病风险调整模型建立方法，其特征在于：步骤S2中所述的统计预处理步骤针对不同模型进行如下的统计预处理：

（1）采用统计检验筛选出对死亡率、住院天数和医疗成本有显著性影响的变量；

（2）对有强相关联性的变量进行处理，强相关联性变量是指在模型中两个或者多个变量在统计学意义上具有强的相似性；

具体针对不同模型的操作包括：

死亡率模型的预处理：

（1）采用Chi-squared检验，假定值p-value设定为0.05，为保留较多变量，未考虑P值的multiple testing correction；

（2）采用Variance Inflation Factor作为检验标准，VIF的临界值取为5，对VIF＞5的预测变量进行删除；

住院天数和成本模型的预处理：

（1）考虑到住院天数和成本的原始分布不明确，对住院天数和成本数据进行对数变换log transformation，使得变换后的数据更可能符合正态分布，从而更符合线性回归模型的假设；

（2）采用t-test检验发生合并发症和未发生症状的两个群体的病人住院天数有无显著区别，假定值p-value设定为0.05，为保留较多变量，未考虑P值的multiple testing correction；

（3）采用Variance Inflation Factor作为检验标准，VIF的临界值取为5，对VIF＞5的预测变量进行删除；

以上模型中的Variance Inflation Factor处理采用循环迭代的方法进行删除，即首先计算每一个预测变量相对于其他所有预测变量的VIF值，然后得到所有VIF值后去掉最大的，再重新计算余下变量的VIF值，直到所有变量的max VIF＜5。

4.根据权利要求1所述的疾病风险调整模型建立方法，其特征在于：步骤S3中所述的模型建立过程包括以下环节：

(1) 利用LASSO生成预测变量重要性列表：由于LASSO独有的放缩系数，在放缩系数从0到最大值的过程中，统计每个预测变量在模型中出现的次数，根据预测变量出现次数进行排序列表，得到预测变量重要性列表；预测变量重要性列表能够从一个方面反映在线性回归中，各个变量对独立变量的影响大小，其中影响为0的变量是使用LASSO后就直接删除的变量；

(2) 结合临床经验确定重要性列表的临界值：

死亡率模型的临界值：如果预测变量是急性疾病类的合并发症变量，而且后面连续三个变量为慢性疾病类和/或与当前疾病非关联的合并发症，判断为后面三个变量，以及之后的所有变量对病人当前疾病导致死亡的影响忽略不计，从急性疾病类的合并发症变量之后的第一个变量开始删除；

住院天数和成本模型的临界值：无论是急性或慢性疾病类的合并发症变量，对治疗所使用的资源均会产生强弱不同的影响，所以临界值定义为0；

(3) 确定预测变量的选择：在预测变量选择确定以后，这些变量会被用来以LASSO的方法重新建立线性回归模型，这里用到的方法是对原来所有预处理后的预测变量的系数进行重新调整，在重要性中判定为不重要的变量其系数被强制设置为0，从而排除掉进入最终模型的可能；另外，其他选中变量的系数范围也会进行规定，达到严格控制最终模型质量的目的，系数范围的规定原则是变量的系数符号必须与两个标准保持一致：

第一条标准：系数符号必须与预处理中统计检验量的符号一致；

第二条标准：系数符号必须与临床判断的结果保持一致；

第二条标准针对变量实际的临床意义进行规定；

(4) 建立回归模型：模型中放缩参数的优化利用Cross-Validation的方法，优化参数的标准根据数据类型定义：离散独立变量使用Misclassification Error，而连续独立变量使用Mean Squared Error，使得错误率最小的参数选为最终模型使用的放缩参数，建模完成。