CN110110906B - 一种基于Efron近似优化的生存风险建模方法 - Google Patents

一种基于Efron近似优化的生存风险建模方法 Download PDF

Info

Publication number
CN110110906B
CN110110906B CN201910315815.1A CN201910315815A CN110110906B CN 110110906 B CN110110906 B CN 110110906B CN 201910315815 A CN201910315815 A CN 201910315815A CN 110110906 B CN110110906 B CN 110110906B
Authority
CN
China
Prior art keywords
survival
loss function
observation
order gradient
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910315815.1A
Other languages
English (en)
Other versions
CN110110906A (zh
Inventor
付波
刘沛
郑鸿
钟晓蓉
邓玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910315815.1A priority Critical patent/CN110110906B/zh
Publication of CN110110906A publication Critical patent/CN110110906A/zh
Application granted granted Critical
Publication of CN110110906B publication Critical patent/CN110110906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于Efron近似优化的生存风险建模方法,该方法包括:首先在最优梯度提升树(XGBoost)的模型算法框架下,构建用于建立金融、保险、医疗、交通或工业目标行业生存预测模型的生存数据的表达式;然后定义并计算所述生存数据对应的损失函数;随后定义并计算所述损失函数对应的一阶梯度和二阶梯度;最后将计算出的损失函数值以及损失函数的一阶梯度和二阶梯度值同时输入XGBoost模型算法框架,自动训练生成所述目标行业的生存预测模型。本发明的建模方法能更好地表示协变量与风险预测值之间的关系;提高模型的预测性能以及模型的泛化能力;有效改进生存预测模型的风险区分度和实用性;并且适用场景广泛。

Description

一种基于Efron近似优化的生存风险建模方法
技术领域
本发明涉及计算机生存风险分析和机器学习领域,尤其涉及一种基于Efron近似优化的生存风险建模方法。
背景技术
生存风险分析方法被广泛应用到各行各业,比如,在临床肿瘤研究中,常常需要对患者做长期的随访跟踪和研究,从而考察临床措施对未来死亡风险的影响。肿瘤患者通常会通过手术,以及化疗等治疗措施进行干预,在治疗过后随时可能面临着复发的风险,科学地评估预测肿瘤患者复发风险状态可以辅助医生制定恰当的治疗计划,为降低患者疾病进展风险和改善预后提供新的支撑。又比如,在金融,保险,交通和工业等领域,用于研究在观测时间点发生某个特定事件的概率,进而估计随时间变化的风险曲线和生存曲线。
评估预测未来生存风险,可以基于观测到的生存数据并使用生存风险分析方法建立生存预测模型。生存风险分析主要是研究在观测时间点发生某个特定事件的概率,进而估计观测对象的风险函数和生存函数。生存风险分析研究目标不仅仅只是事件的发生,还有发生事件的时间,这使得它不同于我们熟悉的分类和回归问题。
为了建立用于生存预测模型,需要保证生存预测模型的准确性、提高生存风险的区分度以及泛化能力,采用更加高性能和更健壮的生存风险分析方法有很大的必要性,其主要表现在以下两个方面:
(1)预测模型性能。一些生存分析方法假设观测对象的生存风险与协变量之间是线性函数关系,从而得到易于解释的线性预测模型,但是这类生存分析方法很大程度上限制了模型的表达能力。另外一些生存风险分析方法虽然可以表达观测对象复发风险与协变量之间复杂的非线性关系,但是事实上,它们在模型学习的过程中对目标损失函数的近似不够精确,或者对生存数据的偏似然函数的近似不够精确。这些都会限制生存预测模型的学习能力,从而影响生存预测模型的性能,导致对观测的风险函数和生存函数的估计出现偏差。
(2)预测模型泛化能力。当生存风险分析方法没有采用有效的正则化措施时,基于生存数据训练的生存预测模型很容易出现过拟合的情况。这会导致生存预测模型在训练数据上表现很好,但是在独立的测试数据上效果却很差。用于应用实践的生存预测模型,必须具有较好的泛化能力,且能够有效地抵抗数据噪声的干扰,保证生存预测模型的实用和推广价值。
因此,为构建实用且高性能的生存预测模型,需要采用更加高性能和更健壮的生存风险分析方法,从而在提高生存预测模型学习能力的同时,保证生存预测模型的泛化能力。使得生存预测模型能够准确估计观测对象的生存风险以及生存状态。
用于建立生存预测模型的生存风险分析方法总体来可分为以下几种:
(1)Cox比例风险方法。Cox比例风险方法假设观测对象的风险函数与人群的基准风险函数之比是一个时不变量,且观测对象的生存风险与协变量之间是线性函数关系。以优化生存数据对应的偏似然函数为目标,可以得到易于解释的线性预测模型。但是该方法很大程度上限制了模型的表达能力,无法表示生存风险与协变量之间的非线性关系。
(2)随机生存森林方法。随机生存森林方法来源于随机森林,它主要用于预测观测对象的生存状态,完全基于生存分析中生存函数和风险函数的无参数估计方法,而不再局限于Cox比例风险模型的假设。该方法和众多的无参数估计方法一样,需要大量的数据作为支撑,且容易出现过拟合的现象。
(3)梯度提升树方法。它是一个前向加法模型,其核心思想是每轮迭代生成新的决策树来学习上一轮模型预测的“残差”,最终预测结果由每一轮经过拟合的决策树的预测结果相加得到。用于生存分析的梯度提升方法通常仍然假设观测对象的风险函数与人群的基准风险函数之比是一个时不变量,但是生存风险与协变量之间不再局限于线性函数关系。以生存数据对应偏似然函数作为损失函数,以损失函数对上一轮模型预测值的负梯度作为“残差”的近似值。常用的GBM梯度提升树模型,在学习过程中,对上一轮模型预测值的“残差”的近似不够精确。而XGBoost梯度提升树模型虽然采用二阶近似的方法更加精确地给出了上一轮模型预测值的“残差”,但是其损失函数对于实际的生存数据来说,偏似然函数的近似不够精确。
高性能的生存风险分析建模方法,要求能够精确表达生存数据中的概率关系,充分发挥模型的学习能力,以及具有较好的泛化能力。因此,如何改进和优化实用的生存分析建模方法,是国内外科研工作者需要重点思考的问题。
发明内容
本发明的目的在于改进和优化用于生存预测模型的生存风险分析方法,利用最优梯度提升树(XGBoost)模型更加精确地近似残差以及加入正则化措施的优势。同时,为最优梯度提升树(XGBoost)模型算法重新定义更加精确的Efron偏似然函数作为损失函数,然后推导该损失函数对应的一阶和二阶梯度,将该损失函数以及该损失函数对应的一阶和二阶梯度同时输入最优梯度提升树(XGBoost)模型算法框架以建立生存预测模型。本发明可有效提升各领域中生存预测建模过程中的生存预测模型准确性,以及提高生存风险的区分度和泛化能力。
为了达到上述目的,本发明提供了一种基于Efron近似优化的生存风险建模方法,该方法包括如下步骤:
S1)在最优梯度提升树(XGBoost)的模型算法框架下,首先构建用于建立目标行业生存预测模型的生存数据的表达式;
S2)定义所述目标行业生存预测模型的生存数据对应的损失函数表达式,并计算所述损失函数;
S3)推导所述损失函数对应的一阶梯度和二阶梯度表达式,并计算所述损失函数对应的一阶梯度和二阶梯度;
S4)将计算出的所述损失函数以及所述损失函数对应的一阶梯度和二阶梯度同时输入最优梯度提升树(XGBoost)的模型算法框架中,由最优梯度提升树(XGBoost)的模型算法框架自动训练生成所述目标行业的生存预测模型;
所述目标行业为金融、保险、医疗、交通和工业中的任意一种。
本发明充分运用最优梯度提升树(XGBoost)的模型算法框架优势,重新定义更加精确的用于生存分析的偏似然函数作为损失函数,并且推导损失函数对应的一阶梯度和二阶梯度,将它们输入最优梯度提升树(XGBoost)的模型算法框架来训练生存预测模型。本发明具有以下优势:
(1)基于梯度提升树算法。梯度提升树算法是机器学习中一种非常突出且被广泛使用的建模方法,它能够很好地表示协变量与风险预测值之间的关系;
(2)基于最优梯度提升树(XGBoost)的模型算法框架。XGBoost算法作为梯度提升树算法的变体,它更加精确地近似模型需要拟合的“残差”以及加入正则化措施的优势,这进一步提高了模型的预测性能以及模型的泛化能力;
(3)精确的偏似然估计函数。实际应用中的生存数据常常出现多个观测对象在同一时间发生事件,这使得我们采用的Efron近似的偏似然函数是更加精确的、无偏的,从而可以更好地表示生存数据中的概率关系,能够有效改进生存预测模型的风险区分度和实用性;
另外,本发明有较广泛的适用场景。
附图说明
图1为本发明的基本思路流程图
图2为本发明的实施过程
具体实施方式
为使本发明目的,实施方式,技术方案及优点更加清楚明白,以下结合附图及具体实施方式,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅以用以解释本发明,并不用于限定本发明。
如图1所示,本发明提出的一种基于Efron近似优化的生存风险建模方法,该方法包括如下步骤:
S1:构建生存数据的表达式
用于建立目标行业生存预测模型的生存数据由若干个观测对象的生存数据组成,其中,任意一个观测对象i的生存数据可以表示为一个三元组集合{(xi,Tii)|i=1,2,…,n},i表示第i个观测对象,n为观测对象的总个数,另外,
Figure BDA0002033044620000041
表示第i个观测对象的协变量,
Figure BDA0002033044620000042
表示第i个观测对象的末次观测时间,δi∈{0,1}表示在Ti时刻是否观测到第i个观测对象发生特定事件(即第i个观测对象在末次观测时间的生存状态),其中,δi=0表示在Ti时刻未观测到第i个观测对象发生特定事件;δi=1表示在Ti时刻观测到第i个观测对象发生特定事件。定义集合R(t)={i|Ti≥t,i=1,2,…,n}表示在离散时间点t时刻处于危险期的观测对象集合(即末次观测时间大于t的所有观测对象);集合D={t1,t2,…,tk}表示所有观测对象中发生特定事件的不同离散时间点,共k个不同离散时间点;集合N(t)={i|Ti=t,i=1,2,…,n}表示所有观测对象中末次观测时间等于t的观测对象集合;集合q(t)={i|Ti=t,δi=1,i=1,2,…,n}表示所有观测对象中在离散时间点t时刻发生特定事件的观测对象集合;Ct=|q(t)|表示集合q(t)的大小(即所有观测对象中在离散时间点t时刻发生特定事件的观测对象个数);对集合q(t)中的Ct个观测对象,它们的权值w分别对应集合
Figure BDA0002033044620000043
中的每一个元素,即集合q(t)中的第j个观测对象的权值
Figure BDA0002033044620000044
S2:定义损失函数的表达式并计算损失函数的值
S201:为将步骤S1中的每个观测对象的生存数据输入最优梯度提升树(XGBoost)的模型算法框架中,需要为最优梯度提升树(XGBoost)的模型算法框架重新定义损失函数,该损失函数采用更加精确的Efron近似作为偏似然函数,对该偏似然函数取负对数,得到用于最优梯度提升树(XGBoost)的模型算法框架的损失函数,所述损失函数的表达式如下:
Figure BDA0002033044620000051
其中,τ表示对于任意t∈D,所述集合R(t)中任意一个观测对象;τ′表示对于任意t∈D,所述集合q(t)中任意一个观测对象;
Figure BDA0002033044620000056
表示所述集合q(t)中第j个观测对象的预测概率。
S202:将满足步骤S1构建的生存数据表达式的生存数据训练集输入经过步骤S201定义了损失函数后的最优梯度提升树(XGBoost)的模型算法框架中,所述经过步骤S201定义了损失函数表达式后的最优梯度提升树(XGBoost)的模型算法框架对所述生存数据训练集中的任意一个观测对象i的生存数据的预测值为
Figure BDA0002033044620000052
此时,对于所述集合q(t)中第j个观测对象,预测值
Figure BDA0002033044620000053
等于步骤S201中定义的预测概率
Figure BDA0002033044620000054
的值,然后根据得到的预测值按照步骤S201定义的所述损失函数的表达式,计算得到L。
本发明定义和计算损失函数L的具体实施方式如下:
a:采用算法1来定义并计算用于最优梯度提升树(XGBoost)的模型算法框架的损失函数L,其算法伪代码如下所示,
算法1:自定义损失函数计算
Figure BDA0002033044620000055
Figure BDA0002033044620000061
其具体执行过程如下:
a1:将所述生存数据训练集和所述生存数据训练集中每个观测对象的预测值输入所述目标行业的生存预测模型;
a2:初始化损失函数值L为0,统计所有发生特定事件的不同离散时间点,得到集合D;
a3:遍历集合D中每个发生特定事件的离散时间点,统计处于某一离散时间点t时(其中,t∈D)、处于危险期的观测对象集合R(t),以及发生特定事件的观测对象集合q(t),然后计算下列函数值:
Figure BDA0002033044620000062
以及计算所有观测对象中在离散时间点t时刻发生特定事件的观测对象个数Ct,其中,τ表示对于任意t∈D,所述集合R(t)中任意一个观测对象;τ′表示对于任意t∈D,所述集合q(t)中任意一个观测对象。对集合q(t)中的Ct个观测对象,它们的权值w分别对应集合
Figure BDA0002033044620000063
中的每一个元素,即集合q(t)中的第j个观测对象的权值
Figure BDA0002033044620000064
a4:遍历集合q(t)中的每个对象j。按式子计算该发生事件的观测对象对损失函数的贡献:
Figure BDA0002033044620000065
将Lj累加到损失函数值L上,即L=L+Lj
a5:遍历集合D,完成计算并返回损失函数值L。
S3:定义损失函数的梯度表达式并计算损失函数的梯度值
S301:为了最优梯度提升树(XGBoost)的模型算法框架的运行,需要为最优梯度提升树(XGBoost)的模型算法框架推导步骤S201定义的损失函数的梯度表达式。步骤S201定义的损失函数的表达式相对于所述集合q(t)中任意一个观测对象j的预测概率
Figure BDA0002033044620000071
的一阶梯度gj和二阶梯度hj的表达式分别为:
Figure BDA0002033044620000072
Figure BDA0002033044620000073
其中,
α(t)=∑j∈q(t)1/[SR(t)-wj*SD(t)],
β(t)=∑j∈q(t)wj/[SR(t)-wj*SD(t)],
Figure BDA0002033044620000074
ω(t)=∑j∈q(t)[1-(1-wj)2]/[SR(t)-wj*SD(t)]2
S302:根据步骤S202得到的预测值按照步骤S301定义的所述损失函数的所述一阶梯度和二阶梯度的表达式,计算得到一阶梯度gj和二阶梯度hj
本发明定义和计算损失函数L的一阶梯度和二阶梯度的具体实施方式如下:
b:采用算法2来定义并计算用于最优梯度提升树(XGBoost)的模型算法框架的损失函数L的一阶梯度和二阶梯度,其算法伪代码如下所示,
算法2:自定义损失函数的梯度计算
Figure BDA0002033044620000075
Figure BDA0002033044620000081
其具体执行过程如下:
b1:将所述生存数据训练集和所述生存数据训练集中每个观测对象的预测值输入所述目标行业的生存预测模型;
b2:将所述生存数据训练集中所有观测对象的末次观测时间的值从小到大排序,并且去除重复值,得到末次观测时间点集合At,并设置两个临时变量C1,C2,且它们的初始值均设置为0;
b3:遍历集合At中每个离散时间点,统计处于某一离散时间点t时,末次观测时间等于t的观测对象集合N(t)、处于危险期的对象集合R(t),以及发生特定事件的观测对象集合q(t),并计算下列函数值:
Figure BDA0002033044620000091
对集合q(t)中的Ct个观测对象,它们的权值w分别对应集合
Figure BDA0002033044620000092
中的每一个元素,即集合q(t)中的第j个观测对象的权值
Figure BDA0002033044620000093
按式子计算下列函数值:
α(t)=∑j∈q(t)1/[SR(t)-wj*SD(t)],
β(t)=∑j∈q(t)wj/[SR(t)-wj*SD(t)],
Figure BDA0002033044620000094
ω(t)=∑j∈q(t)[1-(1-wj)2]/[SR(t)-wj*SD(t)]2
然后按下式更新临时变量C1和C2的值:C1=C1+α(t),
Figure BDA0002033044620000098
b4:遍历集合q(t)中的每个观测对象j,若观测对象j未发生特定事件,即δj=0,则按式子计算观测对象j对应的一阶梯度:
Figure BDA0002033044620000095
然后按下式计算观测对象j对应的二阶梯度:
Figure BDA0002033044620000096
否则,若观测对象j发生特定事件,即δj=1,则按下式计算观测对象j对应的一阶梯度:
Figure BDA0002033044620000097
然后按式子计算该对象对应的二阶梯度:
Figure BDA0002033044620000101
b5:遍历集合At,完成计算并返回每个观测对象对应的一阶梯度和二阶梯度。
S4:实现最优梯度提升树(XGBoost)的模型算法框架接口及训练生存预测模型
将基于定义的损失函数表达式计算出的损失函数值和基于所述损失函数对应的梯度表达式计算得到的损失函数的一阶梯度以及二阶梯度计算值,同时输入最优梯度提升树(XGBoo st)的模型算法框架中。使用XGBoost库所提供的损失函数及其梯度的接口,按照步骤S2-S3的内容重新编程实现上述接口,由最优梯度提升树(XGBoost)的模型算法框架自动训练生成所述目标行业的生存预测模型。其实现过程如下:
S401:根据步骤S2的描述,编程实现XGBoost库自定义损失函数的接口;并进一步根据步骤S3的描述,编程实现XGBoost库自定义损失函数一阶梯度和二阶梯度的接口;
S402:设置最优梯度提升树(XGBoost)的模型的参数,采用所述生存数据训练集训练得到所述目标行业生存预测模型。
S5:生存风险预测应用
将待预测的观测对象的生存数据输入经过步骤S4训练完成的所述目标行业的生存预测模型,获得待预测的预测对象未来的生存状态。所述待预测的观测对象的生存数据格式满足所述步骤S1)构建的观测对象生存数据表达式。
所述目标行业为金融、保险、医疗、交通和工业中的任意一种。
如图2所示,使用基于Efron近似的优化方法来建立生存分析中的生存风险预测模型,首先,从用于风险建模的观测数据中按预设比例提取训练数据和测试数据分别用于生存风险预测模型的训练阶段和预测阶段,为了排除数据中噪声数据和不必要的特征,对训练数据分别实施数据清理和特征筛选,得到可以用于建模的训练数据;对预测数据预先制定的清理规则和筛选规则进行处理,得到用于输入模型的预测数据。然后在训练数据上使用基于最优梯度提升树(XGBoost)模型算法框架实现的Efron近似生存分析优化方法建立的生存风险预测模型,用于训练该生存风险预测模型,最后将预测数据输入训练完成的生存风险预测模型中,由模型输出其生存风险预测结果。
其中,对观测数据实施清理和筛选的过程为:将观测数据经过抽取和整理后,得到观测对象的特征信息,通过这些特征信息首先检测数据库系统原始观测数据存在的缺失、异常、重复、不一致等问题,然后结合行业专家的专业知识,采取相应措施对原始观测数据进行清洗和编码,以确保观测数据质量;其次,根据统计学和相关机器学习方法,粗略筛选出对生存风险预测模型有意义的特征属性,从而将这些特征属性输入到最优梯度提升树(XGBoost)的模型算法框架中,经过反复试验、调参数和性能比较,找到最优预测模型,从而构建起生存预测机器学习方法。在预测阶段,将相应的特征信息经过清洗规则和特征筛选规则后,输入到生存风险预测模型,从而可以预测判断观测对象的生存状态。
本发明充分运用了最优梯度提升树(XGBoost)的模型算法框架优势,重新定义更加精确的用于生存分析的偏似然函数作为损失函数,并且推导该损失函数对应的一阶梯度和二阶梯度,将它们计算出来并同时输入最优梯度提升树(XGBoost)的模型算法框架来训练生存预测模型,使得能够更好地表示协变量与风险预测值之间的关系;进一步提高了模型的预测性能以及模型的泛化能力;可以更好地表示生存数据中的概率关系,能够有效改进生存预测模型的风险区分度和实用性;并且适用场景广泛。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效替换,这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种基于Efron近似优化的生存风险建模方法,其特征在于:该方法包括如下步骤:
S1)在最优梯度提升树XGBoost的模型算法框架下,首先构建用于建立目标行业生存预测模型的生存数据的表达式;
S2)定义所述目标行业生存预测模型的生存数据对应的损失函数表达式,并计算所述损失函数;
S3)推导所述损失函数对应的一阶梯度和二阶梯度表达式,并计算所述损失函数对应的一阶梯度和二阶梯度;
S4)将计算出的所述损失函数以及所述损失函数对应的一阶梯度和二阶梯度同时输入最优梯度提升树XGBoost的模型算法框架中,由最优梯度提升树XGBoost的模型算法框架自动训练生成所述目标行业的生存预测模型;
所述目标行业为金融、保险、医疗、交通和工业中的任意一种;
其中,所述步骤S1)中构建用于建立目标行业生存预测模型的生存数据的表达式具体为:所述用于建立目标行业生存预测模型的生存数据由若干个观测对象的生存数据组成,其中,任意一个观测对象i的生存数据可以表示为一个三元组集合{(xi,Tii)|i=1,2,…,n},i表示第i个观测对象,n为观测对象的总个数,另外,
Figure FDA0003977317230000011
表示第i个观测对象的协变量,
Figure FDA0003977317230000012
表示第i个观测对象的末次观测时间,δi∈{0,1}表示在Ti时刻是否观测到第i个观测对象发生特定事件,其中,δi=0表示在Ti时刻未观测到第i个观测对象发生特定事件;δi=1表示在Ti时刻观测到第i个观测对象发生特定事件;定义集合R(t)={i|Ti≥t,i=1,2,…,n}表示在离散时间点t时刻处于危险期的观测对象集合;集合D={t1,t2,…,tk}表示所有观测对象中发生特定事件的不同离散时间点,共k个不同离散时间点;集合N(t)={i|Ti=t,i=1,2,…,n}表示所有观测对象中末次观测时间等于t的观测对象集合;集合q(t)={i|Ti=t,δi=1,i=1,2,…,n}表示所有观测对象中在离散时间点t时刻发生特定事件的观测对象集合;Ct=|q(t)|表示集合q(t)的大小;对集合q(t)中的Ct个观测对象,它们的权值w分别对应集合
Figure FDA0003977317230000013
中的每一个元素,即集合q(t)中的第j个观测对象的权值
Figure FDA0003977317230000014
所述步骤S2)中定义所述目标行业生存预测模型的生存数据对应的损失函数表达式,并计算所述损失函数具体包括:
S201)根据步骤S1)构建的所述用于建立目标行业生存预测模型的生存数据的表达式为最优梯度提升树XGBoost的模型算法框架定义损失函数,采用Efron近似作为偏似然函数,并对该偏似然函数取负对数,得到用于最优梯度提升树XGBoost的模型算法框架的损失函数,所述损失函数的表达式如下:
Figure FDA0003977317230000021
其中,τ表示对于任意t∈D,所述集合R(t)中任意一个观测对象;τ′表示对于任意t∈D,所述集合q(t)中任意一个观测对象;
Figure FDA0003977317230000022
表示所述集合q(t)中第j个观测对象的预测概率;
S202)将满足步骤S1)构建的生存数据表达式的生存数据训练集输入经过步骤S201)定义了损失函数表达式后的最优梯度提升树XGBoost的模型算法框架中,所述经过步骤S201)定义了损失函数表达式后的最优梯度提升树XGBoost的模型算法框架对所述生存数据训练集中的任意一个观测对象i的生存数据的预测值为
Figure FDA0003977317230000023
此时,对于所述集合q(t)中第j个观测对象,预测值
Figure FDA0003977317230000024
等于步骤S201)中定义的预测概率
Figure FDA0003977317230000025
的值,然后根据得到的预测值按照步骤S201)定义的所述损失函数的表达式,计算得到L;
所述步骤S3)推导所述损失函数对应的一阶梯度和二阶梯度表达式,并计算所述损失函数对应的一阶梯度和二阶梯度具体包括:
S301)定义
Figure FDA0003977317230000026
所述步骤S201)定义的损失函数的表达式相对于所述集合q(t)中任意一个观测对象j的预测概率
Figure FDA0003977317230000027
的一阶梯度gj和二阶梯度hj的表达式分别为:
Figure FDA0003977317230000028
Figure FDA0003977317230000029
其中,
α(t)=∑j∈q(t)1/[SR(t)-wj*SD(t)],
β(t)=∑j∈q(t)wj/[SR(t)-wj*SD(t)],
Figure FDA0003977317230000031
ω(t)=∑j∈q(t)[1-(1-wj)2]/[SR(t)-wj*SD(t)]2
S302)根据所述步骤S202)得到的预测值按照步骤S301)定义的所述损失函数的一阶梯度和二阶梯度表达式,计算得到一阶梯度gj和二阶梯度hj
所述步骤S4)中将计算出的所述损失函数以及所述损失函数对应的一阶梯度和二阶梯度同时输入最优梯度提升树XGBoost的模型算法框架中,由最优梯度提升树XGBoost的模型算法框架自动训练生成所述目标行业的生存预测模型具体包括:
S401)根据步骤S2)的描述,编程实现XGBoost库自定义损失函数的接口;并进一步根据步骤S3)的描述,编程实现XGBoost库自定义损失函数一阶梯度和二阶梯度的接口;
S402)设置最优梯度提升树XGBoost的模型的参数,采用所述生存数据训练集训练得到所述目标行业生存预测模型。
2.根据权利要求1所述的基于Efron近似优化的生存风险建模方法,其特征在于,在所述步骤S2)之前还包括:将满足步骤S1)构建的生存数据表达式的观测数据通以预设概率随机切分成满足步骤S1)构建的生存数据表达式的生存数据训练集和满足步骤S1)构建的生存数据表达式的生存数据测试集。
3.根据权利要求2所述的基于Efron近似优化的生存风险建模方法,其特征在于,在所述步骤S4)之后还包括:通过反复试验、调参数和性能比较,优化所述目标行业生存预测模型。
4.根据权利要求3所述的基于Efron近似优化的生存风险建模方法,其特征在于,使用所述目标行业生存预测模型进行生存风险分析的方法为:将所述满足步骤S1)构建的生存数据表达式的生存数据测试集中的观测对象生存数据按照预先制定的清理规则和筛选规则进行处理后输入优化后的目标行业生存预测模型中,所述优化后的目标行业生存预测模型输出所述生存数据测试集中的观测对象生存数据的预测结果。
CN201910315815.1A 2019-04-19 2019-04-19 一种基于Efron近似优化的生存风险建模方法 Active CN110110906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910315815.1A CN110110906B (zh) 2019-04-19 2019-04-19 一种基于Efron近似优化的生存风险建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910315815.1A CN110110906B (zh) 2019-04-19 2019-04-19 一种基于Efron近似优化的生存风险建模方法

Publications (2)

Publication Number Publication Date
CN110110906A CN110110906A (zh) 2019-08-09
CN110110906B true CN110110906B (zh) 2023-04-07

Family

ID=67485779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910315815.1A Active CN110110906B (zh) 2019-04-19 2019-04-19 一种基于Efron近似优化的生存风险建模方法

Country Status (1)

Country Link
CN (1) CN110110906B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461350B (zh) * 2020-04-08 2022-12-09 西安交通大学 一种基于非线性集成模型的预测数据错误风险方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2008007630A1 (ja) * 2006-07-14 2009-12-10 日本電気株式会社 蛋白質探索方法及び装置
CA3032573A1 (en) * 2016-07-07 2018-01-11 Meyer Sound Laboratories, Incorporated Magnitude and phase correction of a hearing device

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050096950A1 (en) * 2003-10-29 2005-05-05 Caplan Scott M. Method and apparatus for creating and evaluating strategies
WO2007005975A2 (en) * 2005-07-01 2007-01-11 Valen Technologies, Inc. Risk modeling system
EP2506015A1 (en) * 2011-04-01 2012-10-03 Universität Regensburg A prognostic and therapeutic signature for malignant melanoma
US10235636B2 (en) * 2014-10-16 2019-03-19 Excalibur Ip, Llc Feature selection
CN106682394A (zh) * 2016-11-30 2017-05-17 北京拓明科技有限公司 一种生存风险的大数据分析方法及系统
CN107561280B (zh) * 2017-09-30 2019-07-26 四川大学华西医院 一种预测乳腺癌复发的试剂盒
CN107910068A (zh) * 2017-11-29 2018-04-13 平安健康保险股份有限公司 投保用户的健康风险预测方法、装置、设备及存储介质
CN108399457A (zh) * 2018-02-02 2018-08-14 西安电子科技大学 集成学习中有偏数据下基于多步标签变换的Boosting改进方法
CN108694673A (zh) * 2018-05-16 2018-10-23 阿里巴巴集团控股有限公司 一种保险业务风险预测的处理方法、装置及处理设备
CN109002942A (zh) * 2018-09-28 2018-12-14 河南理工大学 一种基于随机神经网络的短期负荷预测方法
CN109636250B (zh) * 2019-01-17 2023-06-20 长安大学 一种危险货物卡车生存概率和危险概率的预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2008007630A1 (ja) * 2006-07-14 2009-12-10 日本電気株式会社 蛋白質探索方法及び装置
CA3032573A1 (en) * 2016-07-07 2018-01-11 Meyer Sound Laboratories, Incorporated Magnitude and phase correction of a hearing device

Also Published As

Publication number Publication date
CN110110906A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
Huang et al. An empirical analysis of data preprocessing for machine learning-based software cost estimation
CN107193876B (zh) 一种基于最近邻knn算法的缺失数据填补方法
CN110245801A (zh) 一种基于组合挖掘模型的电力负荷预测方法及系统
CN110119540B (zh) 一种用于生存风险分析的多输出梯度提升树建模方法
CN107563645A (zh) 一种基于大数据的金融风险分析方法
US20210133378A1 (en) Methods and systems for the estimation of the computational cost of simulation
WO2017071369A1 (zh) 一种预测用户离网的方法和设备
CN112738098A (zh) 一种基于网络行为数据的异常检测方法及装置
CN113095484A (zh) 基于lstm神经网络的股票价格预测方法
CN110110906B (zh) 一种基于Efron近似优化的生存风险建模方法
CN115640888A (zh) 一种递减函数嵌入式门限序列网络的产量预测方法
CN115274004A (zh) 一种基于知识复用的发酵过程菌体浓度预测方法及系统
Oh et al. Investigating the effects of daily travel time patterns on short-term prediction
Bidyuk et al. An Approach to Identifying and Filling Data Gaps in Machine Learning Procedures
Ramirez-Hereza et al. Gaussianization of LA-ICP-MS features to improve calibration in forensic glass comparison
CN117787470A (zh) 一种基于ewt和集成方法的时序预测方法和系统
JP4498666B2 (ja) 予測装置、予測プログラム、および記録媒体
WO2022249927A1 (ja) 分類システム
WO2022077345A1 (en) Method and apparatus for neural network based on energy-based latent variable models
JP2011210063A (ja) 逐次クラスタリング装置、方法およびプログラム
Pein Change-point regression with a smooth additive disturbance
CN110570048A (zh) 基于改进在线深度学习的用户需求预测方法
CN111291020A (zh) 基于局部加权线性动态系统的动态过程软测量建模方法
Pang et al. Qualitative, semi-quantitative, and quantitative simulation of the osmoregulation system in yeast
CN118228185B (zh) 一种肉类在线交易的异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant