CN108682457A - 患者长期预后定量预测和干预系统及方法 - Google Patents

患者长期预后定量预测和干预系统及方法 Download PDF

Info

Publication number
CN108682457A
CN108682457A CN201810345624.5A CN201810345624A CN108682457A CN 108682457 A CN108682457 A CN 108682457A CN 201810345624 A CN201810345624 A CN 201810345624A CN 108682457 A CN108682457 A CN 108682457A
Authority
CN
China
Prior art keywords
patient
risks
cox
rank
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810345624.5A
Other languages
English (en)
Other versions
CN108682457B (zh
Inventor
蒋立新
李静
胡爽
郑昕
蒋子涵
李希
路甲鹏
苏萌
白雪珂
吴超群
王茜颖
李冶铜
邢超
王云
哈伦·克鲁姆霍兹
莎朗丽萨·诺曼德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuwai Hospital of CAMS and PUMC
Original Assignee
Fuwai Hospital of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuwai Hospital of CAMS and PUMC filed Critical Fuwai Hospital of CAMS and PUMC
Priority to CN201810345624.5A priority Critical patent/CN108682457B/zh
Publication of CN108682457A publication Critical patent/CN108682457A/zh
Application granted granted Critical
Publication of CN108682457B publication Critical patent/CN108682457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种患者长期预后定量预测和干预方法,包括:录入新增患者信息以更新数据库;利用训练数据库选择危险因素;将COX危险分级和LCA危险分级结合得到患者的综合危险分级,并确定患者的危险评分计算方法;计算患者的综合危险分级和危险评分,在患者出院时,医生根据综合分级和危险评分进行干预。本发明还提供了一种患者长期预后定量预测和干预系统。本发明的有益效果:变量选取充分考虑了估计的随机性,模型更可靠,采用LCA危险分级对COX危险分级作校正和补充,使分级更侧重患者本身特征,分级方法更可靠,有效克服在长期内患者发生不良事件的可靠性较差的影响,并有针对性地对患者进行出院教育和医生干预,有效降低患者出院后面临的危险。

Description

患者长期预后定量预测和干预系统及方法
技术领域
本发明涉及一种患者长期预后定量预测和干预系统及方法。
背景技术
病人在出院后依然面临着危险。研究指出,在美国大约有20%的病人会在出院后的30天内再入院,中国心力衰竭患者1年内的再入院或死亡率达 34.3%。病人出院时缺乏有效的干预措施以及出院后缺乏连续系统的护理是发生不良事件一个主要根源。因而,研究病人出院后的危险因素并采取系统的干预措施是很必要的。
现有的关于病人出院后危险的研究,局限于建立预测模型,且主要是关于死亡的短期预测模型。采用这种方法的缺陷在于:(1)一般使用传统的 logistic回归模型逐步法来选择危险因素,一旦一个变量在某一步被剔除,有可能没有机会再次进入模型,因而变量选取的好坏与剔除变量的准则和允许变量进入的准则有关,有可能会遗漏重要的变量,导致该方法选择模型不稳定;(2)利用病人出院后是否发生不良事件的实际观测值来建立模型,前提假设是所有观测到的不良事件都是合理的,而在长期模型中,这种假设本身有很大的局限性,相比于短期,患者在长期是否发生不良事件具有更大的不确定性,很有可能出院时身体状况比较好的患者发生了不良事件,而出院时身体状况不佳的患者没有发生不良事件。仅根据观测到的结局事件建立模型,没有考虑到在长期发生不良事件本身的不确定性,导致所建模型有可能无法抓住数据的本质特征。
发明内容
为解决上述问题,本发明的目的在于提供一种患者长期预后定量预测和干预系统及方法,变量选取充分考虑了估计的不确定性,使建立的模型更加可靠,采用基于人工智能的无监督的机器学习LCA危险分级对传统的基于 COX回归模型的危险分级作校正和补充,使得危险分级更加侧重患者本身的特征,分级方法更可靠,有效克服了在长期内患者发生不良事件的不确定性的影响。在患者出院时,能更有针对性地对患者进行出院教育和医生干预,有效降低患者出院后面临的危险。
本发明提供了一种患者长期预后定量预测和干预方法,该方法包括以下步骤:
步骤1,将新患者信息补充到数据库以更新数据库;
步骤2,利用训练数据库,通过COX回归模型和马尔可夫链蒙特卡洛模拟方法得到影响结局变量的危险因素;
步骤3,利用训练数据库和步骤2得到的危险因素,采用基于无监督机器学习方法的LCA危险分级对基于COX回归模型的危险分级进行校正和补充,得到综合危险分级,并确定危险评分计算方法;
步骤4,根据步骤3确定的危险分级和危险评分算法,计算患者的危险分级和危险评分,将患者按照发生不良事件的危险大小划分为高危、中危、低危,在患者出院时,医生根据患者的危险分级和危险评分进行干预。
作为本发明进一步的改进,步骤2包括:
步骤21,从训练数据库中确定备选变量、结局事件和预测期限;
步骤22,采用COX回归模型从备选变量中初筛变量:
假设患者在时刻t发生结局事件的强度为λ(t),即为危险函数,COX回归模型假设危险函数λ(t)与解释变量x=(x1,x2,...,xp)有关,记为λ(t;x),λ(t;x)=λ0(t)exp(xTβ),式中λ0(t)为基线危险函数,即在时刻t当x=0时的危险函数,x为p维解释向量,β为未知参数即为备选变量;
记Tsurv为生存时间,Tcens为删失时间,T=min(Tsurv,Tcens), D=1表示发生了事件,D=0表示删失,x=(x1,x2,...,xp)为p维解释向量,假设 (t1,d1,x1),(t2,d2,x2),...,(tn,dn,xn)为3维随机向量(T,D,X)的n个不相关的观测值,则COX回归模型的部分对数似然函数为:
其中R(ti)为在ti时刻前既未发生事件也未删失的在危人群,求出上述部分对数似然函数的极大似然估计作为相应解释变量的回归系数估计值
求出回归系数估计值的标准差,构造卡方分布并得到相应的P值;
根据P值大小并结合预先设定的阈值,从备选变量中初步筛选出初筛变量;
步骤23,采用马尔可夫链蒙特卡洛算法对步骤22得到的初筛变量进行精选,获得精选变量:
假设训练数据库中的样本量为N,经COX回归模型初步筛选出的变量共有M个,依次记为(x1,x2,...,xM),其对应的系数记为(β12,...,βM);
采用Metropolis-Hastings抽样算法进行抽样,将(β01,...,βM)的初始值设为0,从(β01,...,βM)的后验分布抽取10000个随机样本;如果某个解释变量xi对应的系数βi大于0,表示此解释变量与结局变量正相关,小于0表示与结局变量负相关,等于0表示与结局变量不相关,其中(i=1,2,...,M),在系数βi的10000 次随机抽样中,如果大于0的概率在0.9以上,或者小于0的概率在0.9以上,则说明此解释变量与结局变量的关系稳定且显著,将该系数所对应的解释变量保留,否则剔除,如此获取最终的精选变量;
步骤24,加入特色变量;
步骤25,将步骤23中的精选变量和步骤24中的特色变量合并,得到最终确定的危险因素,假设有Q个,记为X=(X1,X2,...,XQ);
步骤26,采用Test和Validation数据库验证最终确定的危险因素。
作为本发明进一步的改进,步骤3包括:
步骤31,利用训练数据库和步骤2得到的危险因素建立COX回归模型,获取COX危险分级的参数:
假设训练数据库的样本量为N,总共有Q个危险因素,计算每个危险因素对应的回归系数,记为其中T表示矩阵的转置;
计算每个患者在预测期限内没有发生结局事件的预测概率,记为则发生结局事件的预测概率为其中,均为N×1维的列向量;
计算在预测期限末的基线危险函数的值,记为
将所有N个预测概率从大到小排序,求出其9个10分位点,记为
步骤32,建立COX危险分级算法,获取患者的COX危险分级:
当增加新患者时,假设其Q个危险因素的取值为X=(X1,X2,...,XQ);
计算其中T表示矩阵的转置;
计算新患者在预测期限内没有发生结局事件的预测概率此新患者发生结局事件的预测概率为
计算此新患者的COX危险分级,记为COX_RANK:
时,COX_RANK=1;
时,COX_RANK=2;
时,COX_RANK=3;
时,COX_RANK=4;
时,COX_RANK=5;
时,COX_RANK=6;
时,COXRANK=7;
时,COXRANK=8;
时,COX_RANK=9;
时,COX_RANK=10;
步骤33,利用训练数据库和步骤2得到的危险因素,建立LCA模型,获取患者LCA危险分级的参数:
假设共有Q个解释变量,将患者分为R组,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中,p=1,2,...,Q, r=1,2,...,R;
步骤34,建立LCA危险分级算法,获取患者的LCA危险分级:
增加新患者时,假设其Q个危险因素的取值为X=(X1,X2,...,XQ)T,计算此患者在第r组的后验概率
找到使取最大的r值,即为此患者的LCA危险分级,记为LCA_RANK
步骤35,利用训练数据库中患者的COX_RANK和LCA_RANK,建立LCA 模型,获取将患者综合危险分级的参数:
以训练数据库中患者的COX_RANK和LCA_RANK为变量,建立LCA模型,将患者分为3组,记为RISK_RANK,取值1/2/3,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中r=1,2,3, p=1,2;
在训练数据库中计算RISK_RANK每组的结局事件发生率,结局事件发生率最高的RISK_RANK组为高危组,结局事件发生率最低的RISK_RANK组为低危组,其余为中危组,如此建立起RISK_RANK的取值1/2/3与高危、中危、低危的对应关系;
步骤36,建立患者综合危险分级算法,获取患者综合危险分级:
增加新患者时,按照步骤32的算法计算其COX_RANK,按照步骤34的算法计算其LCA_RANK,然后根据步骤35得到的患者综合危险分级的参数,获取患者综合危险分级,具体步骤为:
以COX_RANK和LCA_RANK为变量,计算此患者在第r组的后验概率
找到使取最大的r值,即为此患者的RISK_RANK;
按照步骤35确定的RISK_RANK与高危/中危/低危的对应关系,获取此患者的综合危险分级;
步骤37,计算患者的危险评分:将COX回归模型中每一个危险因素的系数除以所有系数绝对值的总和,得到S1;S1乘以100,得到S2;将S2取整数部分,得到对应于此危险因素的危险评分;将患者的每个危险因素的取值与此危险因素对应的危险评分相乘,并将所有危险评分相加,得到此患者的危险评分。
作为本发明进一步的改进,步骤2中:备选变量包括:病人的人口学特征、病史、入院特征、院内并发症、治疗和出院带药;结局事件包括:患者在出院后366天内发生的死亡、再发心梗、心衰和卒中,如果某患者在出院后发生了以上4种终点事件的任何一种,则这位患者的终点事件记为1,否则记为0;预测期限:出院后366天内。
作为本发明进一步的改进,步骤2中:从训练数据库中确定备选变量时,对于频率<1%的变量、缺乏临床意义的变量、与结局事件的双边分析认为质量不可靠的变量以及难于获取的变量均剔除。
本发明还提供了一种患者长期预后定量预测和干预系统,包括:
数据收集系统,其用于将新患者信息补充到数据库以更新数据库;
训练系统,其用于利用训练数据库,通过COX回归模型和马尔可夫链蒙特卡洛模拟方法得到影响结局变量的危险因素;
危险分级系统,其用于利用训练数据库和训练系统得到的危险因素,采用基于无监督机器学习方法的LCA危险分级对基于COX回归模型的危险分级进行校正和补充,得到综合危险分级,并确定患者的危险评分计算方法;
干预系统,其用于根据确定的危险分级和危险评分计算方法,在新患者出院时,计算此患者的危险分级和危险评分,将患者按照发生不良事件的危险大小划分为高危、中危、低危,医生根据患者的危险分级和危险评分进行干预。
作为本发明进一步的改进,训练系统包括:
确定模块,其用于从训练数据库中确定备选变量、结局事件和预测期限;
初筛模块,其用于采用COX回归模型从备选变量中初筛变量,具体包括:
假设患者在时刻t发生结局事件的强度为λ(t),即为危险函数,COX回归模型假设危险函数λ(t)与解释变量x=(x1,x2,...,xp)有关,记为λ(t;x),λ(t;x)=λ0(t)exp(xTβ),式中λ0(t)为基线危险函数,即在时刻t当x=0时的危险函数,x为p维解释向量,β为未知参数即为备选变量;
记Tsurv为生存时间,Tcens为删失时间,T=min(Tsurv,Tcens), D=1表示发生了事件,D=0表示删失,x=(x1,x2,...,xp)为p维解释向量,假设 (t1,d1,x1),(t2,d2,x2),...,(tn,dn,xn)为3维随机向量(T,D,X)的n个不相关的观测值,则COX回归模型的部分对数似然函数为:
其中R(ti)为在ti时刻前既未发生事件也未删失的在危人群,求出上述部分对数似然函数的极大似然估计作为相应解释变量的回归系数估计值
求出回归系数估计值的标准差,构造卡方分布并得到相应的P值;
根据P值大小并结合预先设定的阈值,从备选变量中初步筛选出初筛变量;
精选模块,其用于采用马尔可夫链蒙特卡洛算法对初筛变量进行精选,获得精选变量,具体包括:
假设训练数据库中的样本量为N,经COX回归模型初步筛选出的变量共有M个,依次记为(x1,x2,...,xM),其对应的系数记为(β12,...,βM);
采用Metropolis-Hastings抽样算法进行抽样,将(β01,...,βM)的初始值设为0,从(β01,...,βM)的后验分布抽取10000个随机样本;如果某个解释变量xi对应的系数βi大于0,表示此解释变量与结局变量正相关,小于0表示与结局变量负相关,等于0表示与结局变量不相关,其中(i=1,2,...,M),在系数βi的10000 次随机抽样中,如果大于0的概率在0.9以上,或者小于0的概率在0.9以上,则说明此解释变量与结局变量的关系稳定且显著,将该系数所对应的解释变量保留,否则剔除,如此获取最终的精选变量;
特色模块,其用于加入特色变量;
变量综合模块,其用于将精选模块中的精选变量和特色模块中的特色变量合并,得到最终的危险因素,假设有Q个,记为X=(X1,X2,...,XQ);
验证模块,其用于采用Test和Validation数据库验证最终获得的危险因素。
作为本发明进一步的改进,危险分级系统包括:
COX危险分级参数模块,其用于利用训练数据库和训练系统得到的危险因素建立COX回归模型,获取COX危险分级参数,具体包括:
假设训练数据库的样本量为N,总共有Q个危险因素,计算每个危险因素对应的回归系数,记为其中T表示矩阵的转置;
计算每个患者在预测期限内没有发生结局事件的预测概率,记为则发生结局事件的预测概率为其中,均为N×1维的列向量;
计算在预测期限末的基线危险函数的值,记为
将所有N个预测概率从大到小排序,求出其9个10分位点,记为
COX危险分级模块,其用于建立COX危险分级算法,获取患者的COX 危险分级,具体包括:
当增加新患者时,假设其Q个危险因素的取值为X=(X1,X2,...,XQ);
计算其中T表示矩阵的转置;
计算新患者在预测期限内没有发生结局事件的预测概率此新患者发生结局事件的预测概率为
计算此新患者的COX危险分级,记为COX_RANK:
时,COX_RANK=1;
时,COX_RANK=2;
时,COX_RANK=3;
时,COX_RANK=4;
时,COX_RANK=5;
时,COX_RANK=6;
时,COXRANK=7;
时,COXRANK=8;
时,COX_RANK=9;
时,COX_RANK=10;
LCA危险分级参数模块,其用于利用训练数据库和训练系统得到的危险因素,建立LCA模型,获取患者的LCA危险分级的参数:
假设共有Q个解释变量,将患者分为R组,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中,p=1,2,...,Q, r=1,2,...,R;
LCA危险分级模块,其用于建立LCA危险分级算法,获取患者的LCA 危险分级:
增加新患者时,假设其Q个危险因素的取值为X=(X1,X2,...,XQ)T,计算此患者在第r组的后验概率
找到使取最大的r值,即为此患者的LCA危险分级,记为LCA_RANK
综合危险分级参数模块,其用于利用训练数据库中患者的COX_RANK和LCA_RANK,建立LCA模型,获取将患者综合危险分级的参数:
以训练数据库中患者的COX_RANK和LCA_RANK为变量,建立LCA模型,将患者分为3组,记为RISK_RANK,取值1/2/3,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中r=1,2,3, p=1,2;
在训练数据库中计算RISK_RANK每组的结局事件发生率,结局事件发生率最高的RISK_RANK组为高危组,结局事件发生率最低的RISK_RANK组为低危组,其余为中危组,如此建立起RISK_RANK的取值1/2/3与高危、中危、低危的对应关系;
综合危险分级模块,其用于建立患者综合危险分级算法,获取患者综合危险分级:
增加新患者时,按照COX危险分级模块计算其COX_RANK,按照LCA 危险分级模块计算其LCA_RANK,然后根据综合危险分级的参数,获取患者综合危险分级,具体步骤为:
以COX_RANK和LCA_RANK为变量,计算此患者在第r组的后验概率
找到使取最大的r值,即为此患者的RISK_RANK;
按照综合危险分级参数模块确定的RISK_RANK与高危/中危/低危的对应关系,获取此患者的综合危险分级;
危险评分模块,其用于计算患者的危险评分,具体包括:
将COX回归模型中每一个危险因素的系数除以所有系数绝对值的总和,得到S1;S1乘以100,得到S2;将S2取整数部分,得到对应于此危险因素的危险评分;将患者的每个危险因素的取值与该危险因素对应的危险评分相乘,并将所有危险评分相加,得到此患者的危险评分。
作为本发明进一步的改进,确定模块中:备选变量包括:病人的人口学特征、病史、入院特征、院内并发症、治疗和出院带药;结局事件包括:患者在出院后366天内发生的死亡、再发心梗、心衰和卒中,如果某患者在出院后发生了以上4种终点事件的任何一种,则这位患者的终点事件记为1,否则记为0;预测期限:出院后366天内。
作为本发明进一步的改进,确定模块中:从训练数据库中确定备选变量时,对于频率,<1%的变量、缺乏临床意义的变量、与结局事件的双边分析认为质量不可靠的变量以及难于获取的变量均剔除。
本发明的有益效果为:
1、数据收集系统会在初始数据库的基础上,自动将医生录入的新患者信息补充到数据库,系统会定期更新模型的参数,使系统具备自学习功能。
2、训练系统利用训练数据库,选择影响患者出院后发生不良事件的危险因素,分两步进行,首先使用COX回归模型的逐步法作变量初筛,将明显无关的变量去掉;其次采用马尔可夫链蒙特卡洛模拟方法对初选的变量精选,这种方法充分考虑到估计的不确定性,使最终所得到的模型更加可靠。
3、危险分级系统采用基于人工智能的无监督的机器学习方法的LCA危险分级对传统的基于COX回归模型的危险分级作校正和补充。LCA危险分级仅利用患者特征对患者出院后发生不良事件进行危险分级,而没有利用患者是否发生不良事件的信息,因而更加侧重患者本身的特征。本发明将COX 危险分级和LCA危险分级结合起来,COX危险分级和LCA危险分级同时认为高危则为高危,同时认为是低危则为低危,强化了患者本身特征在危险分级中的作用,可以部分克服长期预测模型中患者是否发生结局事件不可靠性强造成的困难。
4、干预系统根据患者的危险分级和危险评分,更有针对性地对患者进行出院教育和医生干预,有效降低患者出院后面临的危险。
5、国际上很少有关于患者出院后的长期与后预测模型。本发明所使用的危险因素很容易从患者的病历中提取到。因而,本发明的预测方法能够很方便地延伸推广到西方发达国家以及沿线国家。根据患者的危险分级和危险评分,更有针对性地进行患者教育和出院干预,降低患者出院后面临的危险。
附图说明
图1为本发明实施例所述的一种患者长期预后定量预测和干预方法的流程示意图;
图2为图1中步骤2的具体流程图;
图3为图1中步骤3的具体流程图;
图4为图1中步骤4的具体流程图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
如图1所示,本发明实施例所述的一种患者长期预后定量预测和干预方法,该方法包括以下步骤:
步骤1,将新患者信息补充到数据库以更新数据库。
该数据库为所有患者信息数据的总数据库,要想得到有代表性的变量,训练数据库的选择很重要,本发明选择有代表性的人群作为训练数据库,即从数据库中选取有代表性的人群的数据作为训练数据库。
步骤2,利用训练数据库,通过COX回归模型和马尔可夫链蒙特卡洛模拟方法得到影响结局变量的危险因素,如图2所示,具体包括:
步骤21,从训练数据库中确定备选变量、结局事件和预测期限。
为了防止遗失重要的变量,本发明将所有可能收集到的相关变量作为备选变量。本发明的备选变量来源于临床判断、医学文献以及与结局事件的双边分析,包含了病人的人口学特征、病史、入院特征、院内并发症、治疗、出院带药,以及中国特色变量等。对于频率<1%的变量、缺乏临床意义的变量、与结局事件的双边分析认为质量不可靠的变量以及难于获取的变量均剔除。
本发明的结局事件包括:患者在出院后366天内发生的死亡、再发心梗、心衰和卒中,如果某患者在出院后发生了以上4种终点事件的任何一种,则这位患者的结局事件记为1,否则记为0;患者在出院后长期内发生不良事件的不可靠性更强,需要更为可靠的统计模型。本发明的预测期限为患者出院后366天内。
步骤22,采用COX回归模型从备选变量中初筛变量:
假设患者在时刻t发生结局事件的强度为λ(t),即为危险函数,COX回归模型假设危险函数λ(t)与解释变量x=(x1,x2,...,xp)有关,记为λ(t;x),
λ(t;x)=λ0(t)exp(xTβ),式中λ0(t)为基线危险函数,即在时刻t当x=0时的危险函数,x为p维解释向量,β为未知参数即为备选变量;
记Tsurv为生存时间,Tcens为删失时间,T=min(Tsurv,Tcens), D=1表示发生了事件,D=0表示删失,x=(x1,x2,...,xp)为p维解释向量,假设 (t1,d1,x1),(t2,d2,x2),...,(tn,dn,xn)为3维随机向量(T,D,X)的n个不相关的观测值,则COX回归模型的部分对数似然函数为:
其中R(ti)为在ti时刻前既未发生事件也未删失的在危人群,求出上述部分对数似然函数的极大似然估计作为相应解释变量的回归系数估计值
求出回归系数估计值的标准差,构造卡方分布并得到相应的P值;根据 P值大小并结合预先设定的阈值,从备选变量中初步筛选出初筛变量;
COX回归模型采用常规的逐步法选择变量。筛选准则是:变量进入模型要求p值<0.35,保留在模型中要求p值<0.25。仅剔除明显无关的变量。
步骤23,采用马尔可夫链蒙特卡洛算法对步骤22得到的初筛变量进行精选,获得精选变量:
假设训练数据库中的样本量为N,经COX回归模型初步筛选出的变量共有M个,依次记为(x1,x2,...,xM),其对应的系数记为(β12,...,βM);
采用Metropolis-Hastings抽样算法进行抽样,将(β01,...,βM)的初始值设为0,从(β01,...,βM)的后验分布抽取10000个随机样本;如果某个解释变量xi对应的系数βi大于0,表示此解释变量与结局变量正相关,小于0表示与结局变量负相关,等于0表示与结局变量不相关,其中(i=1,2,...,M),在系数βi的10000 次随机抽样中,如果大于0的概率在0.9以上,或者小于0的概率在0.9以上,则说明此解释变量与结局变量的关系稳定且显著,将该系数所对应的解释变量保留,否则剔除,如此获取最终的精选变量;
步骤24,加入特色变量;
为了更好适应中国国情,本发明在选择变量时加入中国医疗体系特有的变量,比如医保种类,住院时长等,使模型更适合中国国情,中国的住院时长一般是国际通常标准的2倍,也可算作特色变量,当然并不仅限于上述几种变量,可根据需求进行选择。
步骤25,将步骤23中的精选变量和步骤24中的特色变量合并,得到最终确定的危险因素,假设有Q个,记为X=(X1,X2,...,XQ)。
步骤26,采用Test和Validation数据库验证最终确定的危险因素。
本发明采用数据库Test和Validation数据库来验证模型,确保所选择的变量不局限于建模数据库,有很好的预测功能。一般情况下仅用一个数据库来验证模型即可。在验证时,Test和Validation数据库也是从总的数据库中选取的部分数据来作为验证数据库。
步骤3,利用训练数据库和步骤2得到的危险因素,采用基于无监督机器学习方法的LCA危险分级对COX危险分级进行校正和补充,得到综合危险分级,并确定危险评分计算方法,如图3所示,具体包括:
步骤31,利用训练数据库和步骤2得到的危险因素建立COX回归模型,获取COX危险分级的参数:
假设训练数据库的样本量为N,总共有Q个危险因素,计算每个危险因素对应的回归系数,记为其中T表示矩阵的转置;
计算每个患者在预测期限内没有发生结局事件的预测概率,记为则发生结局事件的预测概率为其中,均为N×1维的列向量;
计算在预测期限末的基线危险函数的值,记为
将所有N个预测概率从大到小排序,求出其9个10分位点,记为
步骤32,建立COX危险分级算法,获取患者的COX危险分级:
建立COX危险分级算法,获取患者的COX危险分级:
当增加新患者时,假设其Q个危险因素的取值为X=(X1,X2,...,XQ);
计算其中T表示矩阵的转置;
计算新患者在预测期限内没有发生结局事件的预测概率此新患者发生结局事件的预测概率为
计算此新患者的COX危险分级,记为COX_RANK:
时,COX_RANK=1;
时,COX_RANK=2;
时,COX_RANK=3;
时,COX_RANK=4;
时,COX_RANK=5;
时,COX_RANK=6;
时,COXRANK=7;
时,COXRANK=8;
时,COX_RANK=9;
时,COX_RANK=10;
步骤33,利用训练数据库和步骤2得到的危险因素,建立LCA模型,获取患者LCA危险分级的参数:
假设共有Q个解释变量,将患者分为R组,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中,p=1,2,...,Q, r=1,2,...,R;
步骤34,建立LCA危险分级算法,获取LCA危险分级:
增加新患者时,假设其Q个危险因素的取值为X=(X1,X2,...,XQ)T,计算此患者在第r组的后验概率
找到使取最大的r值,即为此患者的LCA危险分级,记为LCA_RANK
LCA分析为基于机器学习的无监督机器学习方法,并没有利用患者是否发生不良事件的结局信息。患者在人口学特征、病史以及院内治疗、院内并发症之间的差异,与患者出院后的不良事件发生有很强的关联性。有些患者在这些因素表现得很相似,而有些患者会相差较远。本发明利用LCA危险分级对COX危险分级进行校正和补充,得到更为可靠的危险分级算法。
步骤35,利用训练数据库中患者的COX_RANK和LCA_RANK,建立LCA 模型,获取将患者综合危险分级的参数:
以训练数据库中患者的COX_RANK和LCA_RANK为变量,建立LCA模型,将患者分为3组,记为RISK_RANK,取值1/2/3,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中r=1,2,3, p=1,2;
在训练数据库中计算RISK_RANK每组的结局事件发生率,结局事件发生率最高的RISK_RANK组为高危组,结局事件发生率最低的RISK_RANK组为低危组,其余为中危组,如此建立起RISK_RANK的取值1/2/3与高危、中危、低危的对应关系;
步骤36,建立综合危险分级算法,获取综合危险分级:
增加新患者时,按照步骤32的算法计算其COX_RANK,按照步骤34的算法计算其LCA_RANK,然后根据步骤35得到的患者综合危险分级的参数,获取患者综合危险分级,具体步骤为:
以COX_RANK和LCA_RANK为变量,计算此患者在第r组的后验概率
找到使取最大的r值,即为此患者的RISK_RANK;
按照步骤35确定的RISK_RANK与高危/中危/低危的对应关系,获取此患者的综合危险分级;
步骤37,计算患者的危险评分:
将COX回归模型中每一个危险因素的系数除以所有系数绝对值的总和,得到S1;S1乘以100,得到S2;将S2取整数部分,得到对应于此危险因素的危险评分;将患者的每个危险因素的取值与对应的评分相乘,并将所有危险评分相加,得到此患者的危险评分。
步骤4,如图4所示,计算患者的危险分级和危险评分,将患者按照发生不良事件的危险大小划分为高危、中危、低危。在患者出院时,医生根据患者的危险分级和危险评分进行干预。
当一名患者出院,医生会在录入此病人的相关信息,这些信息会自动转入数据库,系统定期更新训练系统和危险分级系统和危险评分系统的参数值,使系统具有自学习功能。当一名新患者的信息进入系统,计算该患者的危险分级和危险评分,并将患者按照出院后发生不良事件危险的大小分为高危、中危,低危。有针对性地对病人做出院教育,通过对可控的危险因素的控制,降低病人在出院后面临的危险。对于评为高危的病人,更应加强教育,必要时可以请基层医生及时随访,做好患者出院后的危险防护,提升病人的生活质量。将出院带药嵌入医生的诊疗系统中,提示医生在患者出院时整合病人的药物,使患者出院后也能按时服用药物,降低患者出院后面临的危险。
本发明的一种患者长期预后定量预测和干预系统,包括:
数据收集系统,其用于将新患者信息补充到数据库以更新数据库。系统会定期更新模型的参数,使系统具备自学习功能。
训练系统,其用于利用训练数据库,通过COX回归模型和马尔可夫链蒙特卡洛模拟方法得到影响结局变量的危险因素,使最终所得到的模型更加可靠。
危险分级系统,其用于利用训练数据库和训练系统得到的危险因素,采用基于无监督机器学习方法的LCA危险分级对COX危险分级进行校正和补充,得到综合危险分级,并确定患者的危险评分计算方法。由于LCA危险分级仅利用患者的特征来对患者出院后面临的危险进行分类,而没有利用患者是否发生不良事件的信息,使得这种危险分级更加侧重患者本身的特征。COX 危险分级和LCA危险分级同时认为高危则为高危,同时认为是低危则为低危。危险分级方法更加可靠。系统每输入一位新患者的数据,本系统可以直接对其危险分级和危险评分。
干预系统,其用于在患者出院时,将患者信息录入系统,计算此患者的危险分级和危险评分,医生根据患者的危险分级和危险评分进行干预,教育病人及家属对可控的危险因素进行控制,从而降低患者在出院后面临的危险。另外,患者出院时的药物整合对降低病人出院后的危险具有重要意义,一些需要长期服用的药物不能因为出院而中断,长期研究表明,至少有一种出院带药的病人,其预测的出院后发生事件的概率可以显著降低,尤其是针对高危病人。因此,本发明的干预系统将出院带药嵌入医生的诊疗系统中,提示医生在患者出院时整合病人的药物,使患者出院后也能按时服用药物,降低患者出院后面临的危险。
进一步的,训练系统包括:
确定模块,其用于从训练数据库中确定备选变量、结局事件和预测期限;
其中:备选变量包括:患者的人口学特征、病史、入院特征、院内并发症、治疗和出院带药,等;结局事件包括:患者在出院后366天内发生的死亡、再发心梗、心衰和卒中,如果某患者在出院后发生了以上4种终点事件的任何一种,则这位患者的终点事件记为1,否则记为0;预测期限:出院后 366天内。从训练数据库中确定备选变量时,对于频率<1%的变量、缺乏临床意义的变量、与结局事件的双边分析认为质量不可靠的变量以及难于获取的变量均剔除。
初筛模块,其用于采用COX回归模型从备选变量中初筛变量,具体包括:
假设患者在时刻t发生结局事件的强度为λ(t),即为危险函数,COX回归模型假设危险函数λ(t)与解释变量x=(x1,x2,...,xp)有关,记为λ(t;x),λ(t;x)=λ0(t)exp(xTβ),式中λ0(t)为基线危险函数,即在时刻t当x=0时的危险函数,x为p维解释向量,β为未知参数即为备选变量;
记Tsurv为生存时间,Tcens为删失时间,T=min(Tsurv,Tcens), D=1表示发生了事件,D=0表示删失,x=(x1,x2,...,xp)为p维解释向量,假设 (t1,d1,x1),(t2,d2,x2),...,(tn,dn,xn)为3维随机向量(T,D,X)的n个不相关的观测值,则COX回归模型的部分对数似然函数为:
其中R(ti)为在ti时刻前既未发生事件也未删失的在危人群,求出上述部分对数似然函数的极大似然估计作为相应解释变量的回归系数估计值
求出回归系数估计值的标准差,构造卡方分布并得到相应的P值;
根据P值大小并结合预先设定的阈值,从备选变量中初步筛选出初筛变量;
精选模块,其用于采用马尔可夫链蒙特卡洛算法对初筛变量进行精选,获得精选变量,具体包括:
假设训练数据库中的样本量为N,经COX回归模型初步筛选出的变量共有M个,依次记为(x1,x2,...,xM),其对应的系数记为(β12,...,βM);
采用Metropolis-Hastings抽样算法进行抽样,将(β01,...,βM)的初始值设为0,从(β01,...,βM)的后验分布抽取10000个随机样本;如果某个解释变量xi对应的系数βi大于0,表示此解释变量与结局变量正相关,小于0表示与结局变量负相关,等于0表示与结局变量不相关,其中(i=1,2,...,M),在系数βi的10000 次随机抽样中,如果大于0的概率在0.9以上,或者小于0的概率在0.9以上,则说明此解释变量与结局变量的关系稳定且显著,将该系数所对应的解释变量保留,否则剔除,如此获取最终的精选变量;
特色模块,其用于加入特色变量;
变量综合模块,其用于将精选模块中的精选变量和特色模块中的特色变量合并,得到最终确定的危险因素,假设有Q个,记为X=(X1,X2,...,XQ)。
验证模块,其用于采用Test和Validation数据库验证最终确定的危险因素。
进一步的,危险分级系统包括:
COX危险分级参数模块,其用于利用训练数据库和训练系统得到的危险因素建立COX回归模型,获取COX危险分级的参数,具体包括:
假设训练数据库的样本量为N,总共有Q个危险因素,计算每个危险因素对应的回归系数,记为其中T表示矩阵的转置;
计算每个患者在预测期限内没有发生结局事件的预测概率,记为则发生结局事件的预测概率为其中,均为N×1维的列向量;
计算在预测期限末的基线危险函数的值,记为
将所有N个预测概率从大到小排序,求出其9个10分位点,记为
COX危险分级模块,其用于建立COX危险分级算法,获取患者的COX 危险分级,具体包括:
当增加新患者时,假设其Q个危险因素的取值为X=(X1,X2,...,XQ);
计算其中T表示矩阵的转置;
计算新患者在预测期限内没有发生结局事件的预测概率此新患者发生结局事件的预测概率为
计算此新患者的COX危险分级,记为COX_RANK:
时,COX_RANK=1;
时,COX_RANK=2;
时,COX_RANK=3;
时,COX_RANK=4;
时,COX_RANK=5;
时,COX_RANK=6;
时,COXRANK=7;
时,COXRANK=8;
时,COX_RANK=9;
时,COX_RANK=10;
LCA危险分级参数模块,其用于利用训练数据库和训练系统得到的危险因素,建立LCA模型,获取患者LCA危险分级的参数:
假设共有Q个解释变量,将患者分为R组,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中,p=1,2,...,Q, r=1,2,...,R;
LCA危险分级模块,其用于建立LCA危险分级算法,获取患者的LCA 危险分级:
增加新患者时假设其Q个危险因素的取值为X=(X1,X2,...,XQ)T,计算此患者在第r组的后验概率
找到使取最大的r值,即为此患者的LCA危险分级,记为LCA_RANK;
综合危险分级参数模块,其用于利用训练数据库中患者的COX_RANK和 LCA_RANK,建立LCA模型,获取将患者综合危险分级的参数:
以训练数据库中患者的COX_RANK和LCA_RANK为变量,建立LCA模型,将患者分为3组,记为RISK_RANK,取值1/2/3,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中r=1,2,3, p=1,2;
在训练数据库中计算RISK_RANK每组的结局事件发生率,结局事件发生率最高的RISK_RANK组为高危组,结局事件发生率最低的RISK_RANK组为低危组,其余为中危组,如此建立起RISK_RANK的取值1/2/3与高危、中危、低危的对应关系;
综合危险分级模块,其用于建立患者综合危险分级算法,获取患者综合危险分级:
增加新患者时,按照COX危险分级模块计算其COX_RANK,按照LCA 危险分级模块计算其LCA_RANK,然后根据综合危险分级的参数,获取患者综合危险分级,具体步骤为:
以COX_RANK和LCA_RANK为变量,计算此患者在第r组的后验概率
找到使取最大的r值,即为此患者的RISK_RANK;
按照综合危险分级参数模块确定的RISK_RANK与高危/中危/低危的对应关系,获取此患者的综合危险分级;
危险评分模块,其用于计算患者的危险评分,具体包括:
将COX回归模型中每一个危险因素的系数除以所有系数绝对值的总和,得到S1;S1乘以100,得到S2;将S2取整数部分,得到对应于此危险因素的危险评分;将患者的每个危险因素的取值与对应的评分相乘,并将所有危险评分相加,得到此患者的危险评分。
具体应用时,以下面的实施方式为例具体说明,该实施例主要用于使用中国AMI患者数据库,得到适合中国AMI患者的危险因素,计算过程采用 SAS9.4完成。
首先确定训练数据库,采用中国AMI患者数据库,包括大约5900例在2012 年12月30日到2014年7月17日期间从全国63家急诊医院随机选取的18岁及以上的急性心肌梗死患者。收集了入选患者的诊疗措施和临床结局的详尽数据,以及患者出院后1年的随访数据。患者住院期间的诊疗信息通过扫描其住院病历,然后统一组织病历信息提取获得,经过复核,要求关键变量的信息提取正确率至少达到98%。患者出院后的信息来自于患者出院后的1个月、6个月和 12个月的面对面随访调查,如果面访不可行,则进行电话随访,只有患者5次没有接受电话随访才确定为失访。排除了1562位未接受出院后随访调查的病人,转出至其他医院的723人,还有院内死亡的287人。剩下的大约4227名病人为研究人群。通过产生随机数,将总数据库随机分成3组,其中一半用于建模,另一半用于验证模型:(1)Training数据库,样本量2113,用于建模;(2) Test数据库,样本量1057,用于验证模型;(3)Validation数据库,样本量1057,用于再验证模型。
明确备选变量,结局事件和预测期限。备选变量如如表1所示。结局事件,包括患者在出院后366天内发生的死亡、再发心梗、心衰、卒中。如果发生了以上4种事件的人和一种,则这位患者的结局事件记为1,否则记为0。预测期限为出院后366天内。
表1
采用COX回归模型初筛变量:在训练数据库中,共有2113个观测。采用 COX回归模型的逐步法进行变量选择,共选出23个变量,如表2所示。
表2
采用马尔可夫链蒙特卡洛算法对初筛变量进行精选:从23个解释变量的回归系数的后验分布中抽取10000个随机样本。如果系数大于0,则认为此解释变量与结局变量正相关,小于0则认为负相关,等于0则认为不相关。如果某一系数在10000次的随机抽样中,大于0的概率大于0.9,或者小于0的概率大于0.9,则认为此变量与结局变量的相关性重要且稳定,入选最终模型,否则剔除。结果有如下20个变量入选最终的模型,如表3所示。
表3
加入中国特色变量,如表4所示。
表4
编号 含义 变量名
1 保险类型:新农合 Insurance_farmer
2 住院时长 LOS
如上所示,最终确定了22个变量。此模型的C-统计量的值0.79(0.75-0.83)。 C-统计量是ROC曲线下面积,在0到1之间取值,越接近1,说明模型的灵敏度和特异度都比较高,模型的表现越好。表5为使用最终选定的变量所得到的参数估计值。
表5
患者在出院后第30、60、90、182、270、366天的C-统计量在0.79(0.75-0.83) 和0.75(0.71-0.79)之间取值。表明所选择的危险因素在整个预测期限内均表现较好。
模拟验证:用Test和Validation数据库两次验证所选择的模型,其C-统计量分别是0.73(0.68-0.78),0.77(0.70-0.83),说明所选择的模型具有较好的外延性。
获取COX危险分级参数:危险因素的系数估计值如表5所示, 如表6所示,共有2113行,仅展示前10 行。基线危险函数如表7所示,共有2113行,仅展示前10行,将从小到大排序,求出9个10分位点,分别为:
表6
表7
获取COX危险分级:计算XBETA,此患者出院后366内天没有发生事件的预测概率此患者的COX危险分级算法如下:
如果则COX_RANK=1;
如果则COX_RANK=2;如果则COX_RANK=3;如果并且则COX_RANK=4;如果 则COX_RANK=5;如果则 COX_RANK=6;如果则COX_RANK=7;如果则COX_RANK=8;如果则COX_RANK=9;如果则COX_RANK= 10。
获取LCA危险分级参数:使用训练数据库以及最终确定的22个危险因素来做LCA分析,得到LCA危险分级所用参数的估计值如表8所示。
表8
获取LCA危险分级:在本实施例中,将LCA分组分为10组。如表9所示,假设某患者的危险因素取值为RESPCAT列,变量名的后缀“_L”,表示将原变量的值加1,这是SAS中LCA过程的要求。根据表8,其中ESTLC1对应各变量在第一组的概率,则此患者在第一组的概率为ESTLC1列对应的各数的乘积 0.085040×0.000531×…×0.999936,依此类推,可以得到此患者在10组中的后验概率,将此10个概率标准化为和为1,即可得表10。根据表10,此患者在第7组的后验概率最大,应分在第7组,记为LCA_RANK=7。
表9
表10
LCA分组 后验概率
ESTLC1 0.000043
ESTLC2 0.000000
ESTLC3 0.000000
ESTLC4 0.014321
ESTLC4 0.014321
ESTLC6 0.000000
ESTLC7 0.662425
ESTLC8 0.000000
ESTLC9 0.301607
ESTLC10 0.007281
获取综合危险分级参数:以COX_RANK和LCA_RANK为变量,将患者分为 3组,记为RISK_RANK,如果某患者的COX_RANK=2,LCA_RANK=10,则其在第1组的后验概率为0.258571×0.000093×0.285899,同理可得在第2组和第3组的后验概率。分组参数如表11所示。
表11
PARAM VARIABLE RESPCAT ESTLC1 ESTLC2 ESTLC3
GAMMA 0.258571 0.466259 0.275170
RHO COXRANK 1 0.000099 0.184651 0.000089
RHO LCARANK 1 0.008354 0.359219 0.112777
RHO COXRANK 2 0.000093 0.198850 0.000117
RHO LCARANK 2 0.047136 0.319408 0.174729
RHO COXRANK 3 0.006434 0.186211 0.041364
RHO LCARANK 3 0.037826 0.117775 0.086526
RHO COXRANK 4 0.006739 0.159149 0.086921
RHO LCARANK 4 0.047534 0.024133 0.101898
RHO COXRANK 5 0.001136 0.095580 0.194717
RHO LCARANK 5 0.005624 0.064231 0.011444
RHO COXRANK 6 0.032285 0.054982 0.234221
RHO LCARANK 6 0.106084 0.000137 0.464145
RHO COXRANK 7 0.072188 0.075765 0.171834
RHO LCARANK 7 0.149037 0.102930 0.017485
RHO COXRANK 8 0.171690 0.022509 0.171988
RHO LCARANK 8 0.108755 0.012001 0.008171
RHO COXRANK 9 0.262475 0.019011 0.085724
RHO LCARANK 9 0.203753 0.000030 0.021725
RHO COXRANK 10 0.446862 0.003294 0.013025
RHO LCARANK 10 0.285899 0.000137 0.001100
在训练数据库,当RISK_RANK=1时,结局事件发生为20.35%;当 RISK_RANK=2时,结局事件发生率为3.33%;当RISK_RANK=3时,结局事件发生率为5.69%。
因而,有如下的危险分组对应关系:RISK_RANK=1,高危组; RISK_RANK=2,低危组;RISK_RANK=3,中危组。
获取综合危险分级:根据表11可知,上述患者在第二组的后验概率最大, RISK_RANK=2,属于低危。
获取危险评分:每个危险因素的危险评分如表12所示。
表12
当患者准备出院,可以一次采取如下干预措施:1)通过数据收集系统录入患者相关信息;2)通过危险分级系统确定的算法,计算患者的危险分级和危险评分;3)根据患者的危险分级和危险评分,采取干预措施,对病人进行出院教育;4)医生根据诊治平台的提示,给病人出院带药,进一步降低病人出院后面临的危险;5)将患者的信息转入数据库,使系统具有自学习的功能。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种患者长期预后定量预测和干预方法,其特征在于,该方法包括以下步骤:
步骤1,将新患者信息补充到数据库以更新数据库;
步骤2,利用训练数据库,通过COX回归模型和马尔可夫链蒙特卡洛模拟方法得到影响结局变量的危险因素;
步骤3,利用训练数据库和步骤2得到的危险因素,采用基于无监督机器学习方法的LCA危险分级对基于COX回归模型的危险分级进行校正和补充,得到综合危险分级,并确定患者的危险评分计算方法;
步骤4,根据步骤3确定的危险分级和危险评分计算方法,在新患者出院时,计算此患者的危险分级和危险评分,将患者按照发生不良事件的危险大小划分为高危、中危、低危,在患者出院时,医生根据患者的危险分级和危险评分进行干预。
2.根据权利要求1所述的患者长期预后定量预测和干预方法,其特征在于,步骤2包括:
步骤21,从训练数据库中确定备选变量、结局事件和预测期限;
步骤22,采用COX回归模型从备选变量中初筛变量:
假设患者在时刻t发生结局事件的强度为λ(t),即为危险函数,COX回归模型假设危险函数λ(t)与解释变量x=(x1,x2,...,xp)有关,记为λ(t;x),λ(t;x)=λ0(t)exp(xTβ),式中λ0(t)为基线危险函数,即在时刻t当x=0时的危险函数,x为p维解释向量,β为未知参数即为备选变量;
记Tsurv为生存时间,Tcens为删失时间,T=min(Tsurv,Tcens),D=1表示发生了事件,D=0表示删失,x=(x1,x2,...,xp)为p维解释向量,假设(t1,d1,x1),(t2,d2,x2),...,(tn,dn,xn)为3维随机向量(T,D,X)的n个不相关的观测值,则COX回归模型的部分对数似然函数为:
其中R(ti)为在ti时刻前既未发生事件也未删失的在危人群,求出上述部分对数似然函数的极大似然估计作为相应解释变量的回归系数估计值
求出回归系数估计值的标准差,构造卡方分布并得到相应的P值;
根据P值大小并结合预先设定的阈值,从备选变量中初步筛选出初筛变量;
步骤23,采用马尔可夫链蒙特卡洛算法对步骤22得到的初筛变量进行精选,获得精选变量:
假设训练数据库中的样本量为N,经COX回归模型初步筛选出的变量共有M个,依次记为(x1,x2,...,xM),其对应的系数记为(β1,β2,...,βM);
采用Metropolis-Hastings抽样算法进行抽样,将(β0,β1,...,βM)的初始值设为0,从(β0,β1,...,βM)的后验分布抽取10000个随机样本;如果某个解释变量xi对应的系数βi大于0,表示此解释变量与结局变量正相关,小于0表示与结局变量负相关,等于0表示与结局变量不相关,其中(i=1,2,...,M),在系数βi的10000次随机抽样中,如果大于0的概率在0.9以上,或者小于0的概率在0.9以上,则说明此解释变量与结局变量的关系稳定且显著,将该系数所对应的解释变量保留,否则剔除,如此获取最终的精选变量;
步骤24,加入特色变量;
步骤25,将步骤23中的精选变量和步骤24中的特色变量合并,得到最终确定的危险因素,假设有Q个,记为X=(X1,X2,...,XQ);
步骤26,采用Test和Validation数据库验证最终确定的危险因素。
3.根据权利要求1所述的患者长期预后定量预测和干预方法,其特征在于,步骤3包括:
步骤31,利用训练数据库和步骤2得到的危险因素建立COX回归模型,获取COX危险分级的参数:
假设训练数据库的样本量为N,总共有Q个危险因素,计算每个危险因素对应的回归系数,记为其中T表示矩阵的转置;
计算每个患者在预测期限内没有发生结局事件的预测概率,记为则发生结局事件的预测概率为其中,均为N×1维的列向量;
计算在预测期限末的基线危险函数的值,记为
将所有N个预测概率从大到小排序,求出其9个10分位点,记为
步骤32,建立COX危险分级算法,获取患者的COX危险分级:
当增加新患者时,假设其Q个危险因素的取值为X=(X1,X2,...,XQ);
计算其中T表示矩阵的转置;
计算新患者在预测期限内没有发生结局事件的预测概率此新患者发生结局事件的预测概率为
计算此新患者的COX危险分级,记为COX_RANK:当时,COX_RANK=1;当时,COX_RANK=2;当时,COX_RANK=3;当时,COX_RANK=4;当时,COX_RANK=5;当时,COX_RANK=6;当时,COXRANK=7;当时,COXRANK=8;当时,COX_RANK=9;当时,COX_RANK=10;
步骤33,利用训练数据库和步骤2得到的危险因素,建立LCA模型,获取患者LCA危险分级的参数:
假设共有Q个解释变量,将患者分为R组,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中,p=1,2,...,Q,r=1,2,...,R;
步骤34,建立LCA危险分级算法,获取患者的LCA危险分级:
增加新患者时,假设其Q个危险因素的取值为X=(X1,X2,...,XQ)T,计算此患者在第r组的后验概率r=1,2,...,R;
找到使取最大的r值,即为此患者的LCA危险分级,记为LCA_RANK;
步骤35,利用训练数据库中患者的COX_RANK和LCA_RANK,建立LCA模型,获取将患者综合危险分级的参数:
以训练数据库中患者的COX_RANK和LCA_RANK为变量,建立LCA模型,将患者分为3组,记为RISK_RANK,取值1/2/3,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中r=1,2,3,p=1,2;
在训练数据库中计算RISK_RANK每组的结局事件发生率,结局事件发生率最高的RISK_RANK组为高危组,结局事件发生率最低的RISK_RANK组为低危组,其余为中危组,如此建立起RISK_RANK的取值1/2/3与高危、中危、低危的对应关系;
步骤36,建立患者综合危险分级算法,获取患者综合危险分级:
增加新患者时,按照步骤32的算法计算其COX_RANK,按照步骤34的算法计算其LCA_RANK,然后根据步骤35得到的患者综合危险分级的参数,获取患者综合危险分级,具体步骤为:
以COX_RANK和LCA_RANK为变量,计算此患者在第r组的后验概率r=1,2,3;Q=2;
找到使取最大的r值,即为此患者的RISK_RANK;
按照步骤35确定的RISK_RANK与高危/中危/低危的对应关系,获取此患者的综合危险分级;
步骤37,计算患者的危险评分:
将COX回归模型中每一个危险因素的系数除以所有系数绝对值的总和,得到S1;
S1乘以100,得到S2;
将S2取整数部分,得到对应于此危险因素的危险评分;
将患者的每个危险因素的取值与此危险因素对应的危险评分相乘,并将所有危险评分相加,得到此患者的危险评分。
4.根据权利要求2所述的患者长期预后定量预测和干预方法,其特征在于,步骤2中:
备选变量包括:患者的人口学特征、病史、入院特征、院内并发症、治疗和出院带药;
结局事件包括:患者在出院后366天内发生的死亡、再发心梗、心衰和卒中,如果某患者在出院后发生了以上4种终点事件的任何一种,则这位患者的终点事件记为1,否则记为0;
预测期限:出院后366天内。
5.根据权利要求1所述的患者长期预后定量预测和干预方法,其特征在于,步骤2中:从训练数据库中确定备选变量时,对于频率<1%的变量、缺乏临床意义的变量、与结局事件的双边分析认为质量不可靠的变量以及难于获取的变量均剔除。
6.一种患者长期预后定量预测和干预系统,其特征在于,包括:
数据收集系统,其用于将新患者信息补充到数据库以更新数据库;
训练系统,其用于利用训练数据库,通过COX回归模型和马尔可夫链蒙特卡洛模拟方法得到影响结局变量的危险因素;
危险分级系统,其用于利用训练数据库和训练系统得到的危险因素,采用基于无监督机器学习方法的LCA危险分级对基于COX回归模型的危险分级进行校正和补充,得到综合危险分级,并确定患者的危险评分计算方法;
干预系统,其用于根据确定的危险分级和危险评分计算方法,在新患者出院时,计算此患者的危险分级和危险评分,将患者按照发生不良事件的危险大小划分为高危、中危、低危,医生根据患者的危险分级和危险评分进行干预。
7.根据权利要求6所述的患者长期预后定量预测和干预系统,其特征在于,训练系统包括:
确定模块,其用于从训练数据库中确定备选变量、结局事件和预测期限;
初筛模块,其用于采用COX回归模型从备选变量中初筛变量,具体包括:
假设患者在时刻t发生结局事件的强度为λ(t),即为危险函数,COX回归模型假设危险函数λ(t)与解释变量x=(x1,x2,...,xp)有关,记为λ(t;x),λ(t;x)=λ0(t)exp(xTβ),式中λ0(t)为基线危险函数,即在时刻t当x=0时的危险函数,x为p维解释向量,β为未知参数即为备选变量;
记Tsurv为生存时间,Tcens为删失时间,T=min(Tsurv,Tcens),D=1表示发生了事件,D=0表示删失,x=(x1,x2,...,xp)为p维解释向量,假设(t1,d1,x1),(t2,d2,x2),...,(tn,dn,xn)为3维随机向量(T,D,X)的n个不相关的观测值,则COX回归模型的部分对数似然函数为:
其中R(ti)为在ti时刻前既未发生事件也未删失的在危人群,求出上述部分对数似然函数的极大似然估计作为相应解释变量的回归系数估计值
求出回归系数估计值的标准差,构造卡方分布并得到相应的P值;
根据P值大小并结合预先设定的阈值,从备选变量中初步筛选出初筛变量;
精选模块,其用于采用马尔可夫链蒙特卡洛算法对初筛变量进行精选,获得精选变量,具体包括:
假设训练数据库中的样本量为N,经COX回归模型初步筛选出的变量共有M个,依次记为(x1,x2,...,xM),其对应的系数记为(β1,β2,...,βM);
采用Metropolis-Hastings抽样算法进行抽样,将(β0,β1,...,βM)的初始值设为0,从(β0,β1,...,βM)的后验分布抽取10000个随机样本;如果某个解释变量xi对应的系数βi大于0,表示此解释变量与结局变量正相关,小于0表示与结局变量负相关,等于0表示与结局变量不相关,其中(i=1,2,...,M),在系数βi的10000次随机抽样中,如果大于0的概率在0.9以上,或者小于0的概率在0.9以上,则说明此解释变量与结局变量的关系稳定且显著,将该系数所对应的解释变量保留,否则剔除,如此获取最终的精选变量;
特色模块,其用于加入特色变量;
变量综合模块,其用于将精选模块中的精选变量和特色模块中的特色变量合并,得到最终的危险因素,假设有Q个,记为X=(X1,X2,...,XQ);
验证模块,其用于采用Test和Validation数据库验证最终获得的危险因素。
8.根据权利要求6所述的患者长期预后定量预测和干预系统,其特征在于,危险分级系统包括:
COX危险分级参数模块,其用于利用训练数据库和训练系统得到的危险因素建立COX回归模型,获取COX危险分级参数,具体包括:
假设训练数据库的样本量为N,总共有Q个危险因素,计算每个危险因素对应的回归系数,记为其中T表示矩阵的转置;
计算每个患者在预测期限内没有发生结局事件的预测概率,记为则发生结局事件的预测概率为其中,均为N×1维的列向量;
计算在预测期限末的基线危险函数的值,记为
将所有N个预测概率从大到小排序,求出其9个10分位点,记为
COX危险分级模块,其用于建立COX危险分级算法,获取患者的COX危险分级,具体包括:
当增加新患者时,假设其Q个危险因素的取值为X=(X1,X2,...,XQ);
计算其中T表示矩阵的转置;
计算新患者在预测期限内没有发生结局事件的预测概率此新患者发生结局事件的预测概率为
计算此新患者的COX危险分级,记为COX_RANK:当时,COX_RANK=1;当时,COX_RANK=2;当时,COX_RANK=3;当时,COX_RANK=4;当时,COX_RANK=5;当时,COX_RANK=6;当时,COXRANK=7;当时,COXRANK=8;当时,COX_RANK=9;当时,COX_RANK=10;
LCA危险分级参数模块,其用于利用训练数据库和训练系统得到的危险因素,建立LCA模型,获取患者的LCA危险分级的参数:
假设共有Q个解释变量,将患者分为R组,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中,p=1,2,...,Q,r=1,2,...,R;
LCA危险分级模块,其用于建立LCA危险分级算法,获取患者的LCA危险分级:
增加新患者时,假设其Q个危险因素的取值为X=(X1,X2,...,XQ)T,计算此患者在第r组的后验概率r=1,2,...,R;
找到使取最大的r值,即为此患者的LCA危险分级,记为LCA_RANK;
综合危险分级参数模块,其用于利用训练数据库中患者的COX_RANK和LCA_RANK,建立LCA模型,获取将患者综合危险分级的参数:
以训练数据库中患者的COX_RANK和LCA_RANK为变量,建立LCA模型,将患者分为3组,记为RISK_RANK,取值1/2/3,估计出患者来自第r组的概率,记为估计出第p个变量来自第r组的概率,记为其中r=1,2,3,p=1,2;
在训练数据库中计算RISK_RANK每组的结局事件发生率,结局事件发生率最高的RISK_RANK组为高危组,结局事件发生率最低的RISK_RANK组为低危组,其余为中危组,如此建立起RISK_RANK的取值1/2/3与高危、中危、低危的对应关系;
综合危险分级模块,其用于建立患者综合危险分级算法,获取患者综合危险分级:
增加新患者时,按照COX危险分级模块计算其COX_RANK,按照LCA危险分级模块计算其LCA_RANK,然后根据综合危险分级的参数,获取患者综合危险分级,具体步骤为:
以COX_RANK和LCA_RANK为变量,计算此患者在第r组的后验概率r=1,2,3;Q=2;
找到使取最大的r值,即为此患者的RISK_RANK;
按照综合危险分级参数模块确定的RISK_RANK与高危/中危/低危的对应关系,获取此患者的综合危险分级;
危险评分模块,其用于计算患者的危险评分,具体包括:
将COX回归模型中每一个危险因素的系数除以所有系数绝对值的总和,得到S1;
S1乘以100,得到S2;
将S2取整数部分,得到对应于此危险因素的危险评分;
将患者的每个危险因素的取值与该危险因素对应的危险评分相乘,并将所有危险评分相加,得到此患者的危险评分。
9.根据权利要求7所述的患者长期预后定量预测和干预方法,其特征在于,确定模块中:
备选变量包括:患者的人口学特征、病史、入院特征、院内并发症、治疗和出院带药;
结局事件包括:患者在出院后366天内发生的死亡、再发心梗、心衰和卒中,如果某患者发生了以上4种结局事件中的任何一种,则这位患者的终点事件记为1,否则记为0;
预测期限:出院后366天内。
10.根据权利要求7所述的患者长期预后定量预测和干预方法,其特征在于,确定模块中:从训练数据库中确定备选变量时,对于频率<1%的变量、缺乏临床意义的变量、与结局事件的双边分析认为质量不可靠的变量以及难于获取的变量均剔除。
CN201810345624.5A 2018-04-17 2018-04-17 患者长期预后定量预测和干预系统及方法 Active CN108682457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810345624.5A CN108682457B (zh) 2018-04-17 2018-04-17 患者长期预后定量预测和干预系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810345624.5A CN108682457B (zh) 2018-04-17 2018-04-17 患者长期预后定量预测和干预系统及方法

Publications (2)

Publication Number Publication Date
CN108682457A true CN108682457A (zh) 2018-10-19
CN108682457B CN108682457B (zh) 2022-01-25

Family

ID=63800942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810345624.5A Active CN108682457B (zh) 2018-04-17 2018-04-17 患者长期预后定量预测和干预系统及方法

Country Status (1)

Country Link
CN (1) CN108682457B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712716A (zh) * 2018-12-25 2019-05-03 广州天鹏计算机科技有限公司 疾病影响因素确定方法、系统和计算机设备
CN109785973A (zh) * 2019-01-25 2019-05-21 中国医学科学院阜外医院 一种手术患者在围手术期发生并发症的定量预测方法
CN110051324A (zh) * 2019-03-14 2019-07-26 深圳大学 一种急性呼吸窘迫综合征死亡率预测方法及系统
CN110503301A (zh) * 2019-07-17 2019-11-26 江苏大学 一种基于Cox比例风险模型的电动汽车传导充电安全影响因素评价方法
CN112420196A (zh) * 2020-11-20 2021-02-26 长沙市弘源心血管健康研究院 急性心肌梗死患者5年内生存率的预测方法和系统
CN113593665A (zh) * 2021-08-03 2021-11-02 中电健康云科技有限公司 一种慢病患者随访结果和心理调整情况的预测系统
CN113870948A (zh) * 2021-08-20 2021-12-31 中国人民解放军海军军医大学第三附属医院 影响医学结局变量关键分子的筛选方法、系统、终端和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560541B1 (en) * 1998-04-23 2003-05-06 The Board Of Trustees Of The Leland Stanford Junior University Predicting risk of serious gastrointestinal complications in patients taking nonsteroidal anti-inflammatory drugs
CN102713914A (zh) * 2009-10-19 2012-10-03 提拉诺斯公司 集成的健康数据采集和分析系统
US20160120481A1 (en) * 2014-10-30 2016-05-05 International Business Machines Corporation Active patient risk prediction
CN105678104A (zh) * 2016-04-06 2016-06-15 电子科技大学成都研究院 一种基于Cox回归模型的老人健康数据分析方法
US20170055916A1 (en) * 2015-09-01 2017-03-02 Xerox Corporation Methods and systems for predicting mortality of a patient
CN107085666A (zh) * 2017-05-24 2017-08-22 山东大学 疾病风险评估与个性化健康报告生成系统及方法
CN107358047A (zh) * 2017-07-13 2017-11-17 刘峰 糖尿病患者评估及管理系统
CN107910068A (zh) * 2017-11-29 2018-04-13 平安健康保险股份有限公司 投保用户的健康风险预测方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560541B1 (en) * 1998-04-23 2003-05-06 The Board Of Trustees Of The Leland Stanford Junior University Predicting risk of serious gastrointestinal complications in patients taking nonsteroidal anti-inflammatory drugs
CN102713914A (zh) * 2009-10-19 2012-10-03 提拉诺斯公司 集成的健康数据采集和分析系统
US20160120481A1 (en) * 2014-10-30 2016-05-05 International Business Machines Corporation Active patient risk prediction
US20170055916A1 (en) * 2015-09-01 2017-03-02 Xerox Corporation Methods and systems for predicting mortality of a patient
CN105678104A (zh) * 2016-04-06 2016-06-15 电子科技大学成都研究院 一种基于Cox回归模型的老人健康数据分析方法
CN107085666A (zh) * 2017-05-24 2017-08-22 山东大学 疾病风险评估与个性化健康报告生成系统及方法
CN107358047A (zh) * 2017-07-13 2017-11-17 刘峰 糖尿病患者评估及管理系统
CN107910068A (zh) * 2017-11-29 2018-04-13 平安健康保险股份有限公司 投保用户的健康风险预测方法、装置、设备及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712716A (zh) * 2018-12-25 2019-05-03 广州天鹏计算机科技有限公司 疾病影响因素确定方法、系统和计算机设备
CN109712716B (zh) * 2018-12-25 2021-08-31 广州医科大学附属第一医院 疾病影响因素确定方法、系统和计算机设备
CN109785973A (zh) * 2019-01-25 2019-05-21 中国医学科学院阜外医院 一种手术患者在围手术期发生并发症的定量预测方法
CN109785973B (zh) * 2019-01-25 2021-02-09 中国医学科学院阜外医院 一种手术患者在围手术期发生并发症的定量预测方法
CN110051324A (zh) * 2019-03-14 2019-07-26 深圳大学 一种急性呼吸窘迫综合征死亡率预测方法及系统
CN110503301A (zh) * 2019-07-17 2019-11-26 江苏大学 一种基于Cox比例风险模型的电动汽车传导充电安全影响因素评价方法
CN110503301B (zh) * 2019-07-17 2023-01-17 江苏大学 一种基于Cox比例风险模型的电动汽车传导充电安全影响因素评价方法
CN112420196A (zh) * 2020-11-20 2021-02-26 长沙市弘源心血管健康研究院 急性心肌梗死患者5年内生存率的预测方法和系统
CN113593665A (zh) * 2021-08-03 2021-11-02 中电健康云科技有限公司 一种慢病患者随访结果和心理调整情况的预测系统
CN113870948A (zh) * 2021-08-20 2021-12-31 中国人民解放军海军军医大学第三附属医院 影响医学结局变量关键分子的筛选方法、系统、终端和存储介质

Also Published As

Publication number Publication date
CN108682457B (zh) 2022-01-25

Similar Documents

Publication Publication Date Title
CN108682457A (zh) 患者长期预后定量预测和干预系统及方法
CN104166667B (zh) 分析系统以及保健事业支援方法
Mahesh et al. Blended ensemble learning prediction model for strengthening diagnosis and treatment of chronic diabetes disease
CN109785976A (zh) 一种基于Soft-Voting的痛风病分期预测系统
WO2020103683A1 (zh) 基于脑功能图谱的猴-人跨物种迁移进行精神疾病的个体化预测方法和系统
CN104318351A (zh) 一种中医健康管理系统和方法
CN112201330B (zh) 结合DRGs工具和贝叶斯模型的医疗质量监测评估方法
CN113052333A (zh) 基于联邦学习进行数据分析的方法及系统
CN102930163A (zh) 一种2型糖尿病风险状态判定方法
CN109872819A (zh) 一种基于重症监护检测项的急性肾损伤发病概率预测系统
CN111128380A (zh) 模拟医生诊断和精准干预策略的慢性病健康管理模型的构建方法及系统
CN116910172B (zh) 基于人工智能的随访量表生成方法及系统
CN110812241A (zh) 基于时序聚类的用药提醒方法及相关设备
Leogrande et al. The Labor Force Participation Rate in the Context of ESG Models at World Level
Adi et al. Stroke risk prediction model using machine learning
Shaghaghi et al. evision: Influenza forecasting using cdc, who, and google trends data
CN115392582B (zh) 基于增量模糊粗糙集属性约简的作物产量预测方法
CN116564553A (zh) 一种基于共病特征的用药效果预测方法
CN116598012A (zh) 一种基于联邦学习价值评估的慢性病医疗保健方法和系统
Siddiqa et al. Robust Length of Stay Prediction Model for Indoor Patients.
Subbotin et al. The Regression Tree Model Building Based on a Cluster-Regression Approximation for Data-Driven Medicine.
Chandana et al. A combinational approach to identify the latent disease clusters by using machine learning techniques
Hakim Performance Evaluation of Machine Learning Techniques for Early Prediction of Brain Strokes
CN112168142A (zh) 基于daela-lstm神经网络的痛经中医辨证系统
Zhao et al. Bridging Interpretability and Performance: Enhanced Machine Learning-based Prediction of Hematoma Expansion Post-Stroke via Comprehensive Feature Selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant