CN116364268B

CN116364268B - 一种新型基于惩罚cox回归的乳腺癌预测方法

Info

Publication number: CN116364268B
Application number: CN202211355613.8A
Authority: CN
Inventors: 余之刚; 陈增敬; 何勇; 刘丽媛; 考春雨; 王斐; 杨芙; 范叶叶
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2023-11-17
Anticipated expiration: 2042-11-01
Also published as: CN116364268A

Abstract

本发明公开了一种新型基于惩罚COX回归的乳腺癌预测方法，本发明中基预测器的训练较传统的COX回归模型有所不同：一是增加了一个变量预筛选过程‑‑对变量进行了原则性的COX确定独立筛选程序，即PSIS程序，可以更有效地处理超高维数据；二是较传统的COX模型预测目标值有所变化，传统的COX模型用于预测疾病风险时仅考虑协变量对于个体发生结局事件的影响，即仅将β^TZ作为预测值来考量个体相对于指标正常人群的发病风险，而本发明则进一步考虑了时间对结局事件发生的影响，基于Breslow估计量进一步计算个体在目前未患乳腺癌的情况下，未来某一段时间内患乳腺癌的风险，能够实现风险的动态监测。

Description

一种新型基于惩罚COX回归的乳腺癌预测方法

技术领域

本发明涉及乳腺癌发病风险预测技术领域，具体为基于惩罚COX回归的乳腺癌预测方法。

背景技术

乳腺癌是全球女性最常见的恶性肿瘤之一，且发病率逐年攀升，防控形势严峻，严重威胁了广大女性的生命和健康。所以早发现、早治疗是降低乳腺癌治疗成本甚至逆转诊断结果的关键。由于地区医疗资源分布不均衡，乳腺癌防控形势严峻，防治难度巨大。因此，筛查重要影响因素，建立乳腺癌风险评估模型，预测乳腺癌发生概率，对乳腺癌的防治具有重要意义。目前国内外已经建立了30多个乳腺癌风险评估模型，其中应用最广泛的是Gail模型。然而这些模型普遍存在适用人群的局限性，纳入的因素涉及乳腺活检、基因变异等需有创检测才能获取的信息，不适合在中国人口基数大、经济发展及医疗资源分布不平衡等国情下普及应用。国内类似研究多处在验证探索阶段，尚无适合中国女性的广泛应用的乳腺癌风险预测模型，因此建立适合我国人口特征并符合卫生经济学要求的高效的风险评估模型十分必要。

COX回归模型，又称“比例风险回归模型”，是由英国统计学家D.R.Cox在1972年提出的一种半参数回归模型，该模型以生存结局和生存时间为因变量，可同时分析众多因素对生存期的影响，能分析带有截尾生存时间的资料，且不要求估计资料的生存分布类型。由于上述优良性质，该模型自问世以来，在医学随访研究中得到广泛的应用，是迄今生存分析中应用最多的多因素分析方法。

近年来，随着精准医疗计划的发展，开启了我国乳腺癌个体化诊疗的新时代。机器学习算法在疾病的预测、疾病的辅助诊断等医疗领域的研究中的应用频率和研究深度增长迅速，已取得不少成果。疾病的预测数据属于分类不平衡数据，即一类样本数目远远大于另类样本的数据，尽管少数类的数据集中的比例较小，但少数类比多数类更难以识别。传统的机器学习算法常常假设各类别样本大致相同，以最小化全局误差为目标，因此具有很大的偏向性，分析结果可能会偏向多数类，出现过拟合的情况，导致模型预测有偏差。在实际的应用中，乳腺癌预测模型的数据便是这种不平衡的数据，中国女性乳腺癌发病率为42.55/10万，而且目前已有模型大多是利用传统的统计和机器学习的方法建立，致使目前构建的风险预测模型的预测性能降低。

发明人的在先申请CN202111458931.2虽然公开了基于惩罚COX回归的乳腺癌预测方法，但其并没有公开PSIS预筛选程序、基预测器构建、预测器集成的具体过程。

发明内容

针对现有技术的不足，本发明提供了基于惩罚COX回归的乳腺癌预测方法，解决了传统预测模型在应用于高维不平衡乳腺癌数据时的一系列弊端，具有提取乳腺癌发病的风险因子组合，提高诊断准确度的优点。

为实现上述目的，本发明提供如下技术方案：

基于惩罚COX回归的乳腺癌预测方法，包括以下特征：

S1、对患者组、对照组分别采用常规的bootstrap抽样、欠采样技术来构成自助样本：

常规的Bagging集成使用bootstrap来搅动数据，从原始训练数据集中有放回的再抽样来生成与原始训练数据集样本容量相同的自助样本。然而，由于大多数前瞻性队列研究建立的用于乳腺癌发病风险预测模型开发的数据库均为非平衡数据(观察到的乳腺癌患者数远远小于健康人数)，这对我们所关心的乳腺癌发病的预测是不利的。因此，我们分别对患者组和对照组进行bootstrap抽样，其中患者组执行常规的bootstrap抽样、对照组执行自助样本数为患者组样本数的欠采样，再共同组成平衡的数据集作为训练集。

S2、PSIS预筛选程序：

基预测器正式训练之前，通过对假阳性率的控制对变量进行了原则性的COX确定独立筛选程序(PSIS程序)。

为方便说明，对于个体i，我们设其患乳腺癌时的“真实”年龄为T_i，预测协变量为(为p_n维变量)。设该个体在年龄为C_i时随访结束，如果这时他仍未患乳腺癌，那么我们就无法真实观测到该个体患乳腺癌，只能知道T_i＞C_i，这种情况称之为删失；如果T_i≤C_i，那么在随访结束前，我们就已观测到了该个体患乳腺癌。综上，若以“患乳腺癌”为结局事件建立标准的生存数据，则该个体的观测时间为X_i＝min(T_i，C_i)，删失标签为δ_i＝I(T_i≤C_i)，即δ_i＝0表示该个体为删失数据，随访结束时仍未观测到其患乳腺癌，反之，若δ_i＝1，则该个体在年龄为X_i时患乳腺癌。

设计数过程N_i(t)＝I(X_i≤t，δ_i＝1)表示个体i在年龄段[0，t]内个体是否患乳腺癌，取1时表示个体在年龄段[0，t]内患乳腺癌，反之若取0则未患乳腺癌；Y_i(t)＝I(X_i≥t)表示个体在年龄为t之前是否患乳腺癌，1表示个体i在年龄为t之前未患病，即在年龄为t时仍处在患乳腺癌的危险中，相反0表示患病。

设真实的、正确的COX回归模型的危险函数为

其中，为真实正确的回归系数，一些对于乳腺癌发生无影响的不重要变量，其回归系数α_j应为0。

为了进行初步的筛选程序，我们对每一个可能被错误指定的边际Cox回归进行拟合，即对于Z_ij，拟合对于k＝0，1，2，......，定义：

我们使用最大边际偏似然估计器估计β：

此外，回归常数项β_0j为以下极限方程的解：

定义关于的信息矩阵为/>则筛选模型为/> 为所选择的变量的下标集。为了实现确定的筛选特性，同时控制假阳性率(或者控制错误地将不重要的协变量纳入/>的比例)，我们采用了一种实用的方法来选择γ_n。根据以上假设，可以得知真实的筛选模型(即真正重要的变量集合)为记其大小(即真正重要的变量的个数)为/>那么期望假阳率可以写成：

可以证明具有渐近的标准正态分布性质，所以期望假阳率等价于2{1-Φ(γ_n)}，其中Φ(·)为标准正态的累积分布函数。由此，我们可以控制γ_n来实现对期望假阳率的控制。

自然地，我们希望假阳性率随着p_n的增加而减少到0(即我们希望当协变量维数很大时，实际上并不重要的变量被模型选择的比率尽量为0，只有这样，模型对于重要变量的选择才更为正确)，尽管它永远不可能完全等于0(除非γ_n＝∞)。因此，我们选择了一个合理的方法：首先确定我们愿意容忍的假阳性数f，相当于我们愿意容忍的假阳性率被我们确定为由于s_n是未知的，我们可以通过以下方式来保守计算，让/>其中/>如此，可以保证因此期望假阳性率为/>可以证明，这个程序保持了确定的筛选特性。

总结来说，我们在每个基预测器正式训练之前，先通过原则性的COX确定独立筛选程序(简称PSIS)对变量进行了预筛选，其中分界线γ_n的选择是为了控制假阳性率，具体来说，PSIS的实现方式如下：

①对每个协变量进行边际Cox模型的拟合，得到参数估计值和方差估计值

②固定假阳性率令/>

③保留满足下标j满足的变量。

以上PSIS预筛选程序中被保留下来的变量被用来构建惩罚COX回归模型作为基预测器。

S3、基预测器构建：

步骤S1生成的自助样本在执行步骤S2、PSIS预筛选程序后，实现了降维及平衡，此过程被重复B次，生成了B个不同的自助样本。基于这B个不同的自助样本集分别独立地训练惩罚COX回归模型作为集成学习的基预测器。其中，由于目标预测值是个体在目前未患乳腺癌的情况下未来某一段时间内患乳腺癌的风险，故此步纳入Breslow估计量来估计基准风险。具体说明如下：

COX模型的基本假设为：协变量取值为Z(这里Z为p维变量)的个体在时间(/年龄)为x时出现结局事件的危险函数为

λ(x；Z)＝λ₀(x)exp(β^TZ) (7)

由(7)式可见，COX模型为半参数模型，包含两部分：①基准风险函数：λ₀(x)，是时间x对结局事件发生的影响；②协变量线性组合β^TZ_i的指数：exp(β^TZ_i)，是协变量对结局事件发生的影响。

由于时间为x时，协变量为Z₁和Z₂的个体1与个体2的危险比为而exp(g)又是g的增函数，所以多数研究中会直接将β^TZ视为Risk Score，用来预测个体的风险。

考虑到将β^TZ视为风险值仅考虑了协变量对于个体发生结局事件的影响，未能具体计算风险值随时间x变化而发生的变化，本申请进一步地将时间对风险值的影响λ₀(x)纳入考虑：

使用Breslow估计量估计λ₀(x)的积分函数进而估计λ₀(x)

若个体在时刻a时未发生结局事件，那么其在未来τ时间内出现结局事件的风险为：

其中

(10)式即为最终的基预测器的目标预测值。

S4：预测器集成：

该步骤同时实现集成预测和变量筛选集成。

步骤S3、中构建了B个惩罚COX回归模型作为基预测器，B个基预测器通过(10)式计算了B个不同的目标预测值(B个绝对风险)，对其使用简单平均法，即为集成惩罚COX回归模型评估的乳腺癌发病绝对风险。

同时，经过PSIS预筛选程序以及惩罚函数的应用，纳入B个基预测器的风险因子组合也有B种，基于此我们可以对原始数据库中p个变量进行重要性打分：

首先，我们定义了一个B×p维的变量重要性评估矩阵，记作E。设E(b，j)为E的在位置(b，j)上的元素，我们定义：

第j个变量的重要性评分被定义为：第j个预测因子的重要性评估指标R(j)实际上是第j个预测因子被E基预测器选中的频率。R(j)越大，说明该预测因子越重要，这符合变量重要性评分该有的性质。

最后，基于以下步骤确定区分重要和非重要变量的阈值：根据R(1)，R(2)，...，R(p)的值对变量进行排序，然后寻找任何相邻变量之间的最大差距，如果R(j)高于该差距，则集成模型最终判定变量j为重要变量。

优选的，步骤S1中，在Bagging集成学习生成自助样本时，针对非平衡数据，对患者组、对照组分别采用常规的bootstrap抽样、欠采样技术来构成自助样本以实现自助样本的平衡。

优选的，步骤S2中，在基预测器正式训练之前，针对高维或超高维数据，通过对假阳性率的控制对变量进行了原则性的COX确定独立筛选程序(PSIS程序)，预先过滤掉无关变量，以实现变量降维来提高基预测器的性能。

优选的，步骤S3中，基于多个初步降维的自助样本，独立地训练惩罚COX回归模型作为集成学习的基预测器，通过纳入Breslow估计量估计基准风险进而估计个体在目前未患乳腺癌的情况下未来某一段时间内患乳腺癌的风险作为目标预测值。

优选的，步骤S4中，基于S3中的多个基预测器，同时实现集成预测和变量筛选集成。

本发明还提供一种基于惩罚COX回归的乳腺癌预测系统，包括处理单元，处理单元执行上述步骤S1至S4。

与现有技术相比，本发明提供了基于惩罚COX回归的乳腺癌预测方法，具备以下有益效果：

1、该基于惩罚COX回归的乳腺癌预测方法，通过集成学习通过某种方式将预测效果一般的“弱学习器”组合，构成一个预测效果优良的“强学习器”，结合了多个弱学习器的强学习器，预测效果更准确、更稳定，采用Bagging的集成框架，通过Bootstrap方法搅动数据，对原始训练集有放回地随机再抽样，得到一个新的自助样本，对于T个弱学习器的输出进行平均得到最终的预测输出，可以降低估计量的方差，避免了单一分类器估计的不稳定性，提高了预测性能。

2、该基于惩罚COX回归的乳腺癌预测方法，基于生理状况、心理状况、生活习惯、遗传因素等多个维度的乳腺癌发病危险因素，采用惩罚COX回归模型作为基学习器构建女性乳腺癌长期风险预测模型，其中对回归系数的惩罚方式采用了弹性网惩罚和组惩罚相结合的惩罚方式，并采取数据驱动的方式确定惩罚参数的选取，弹性网惩罚的回归模型可以很好地适应高维数据，兼具Lasso和岭回归估计的优点，具有筛选变量的功能。

3、该基于惩罚COX回归的乳腺癌预测方法，采用Bagging集成框架和惩罚回归模型的独特结构，可以根据T个回归模型中各因素出现次数以及其回归系数的绝对大小，评估各预测因子对乳腺癌发病的影响程度，有助于探讨不同维度因素与我国女性乳腺癌发病风险的关系，从而辅助医生对预防乳腺癌发病给出建议，实际应用预测模型时，根据所评估的预测因子对乳腺癌发病的影响程度，筛选出对乳腺癌预测影响最大的几个预测因子，来构成特征子集，作为模型的又一输入变量，可得到预测效果好且计算复杂度低的简化模型，可在实际中灵活应用。

附图说明

图1为具体实施方式中预测方法的流程图；

图2为具体实施方式中预测方法的实验结果。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2：基于惩罚COX回归的乳腺癌预测方法，包括以下步骤：

S2、PSIS预筛选程序：

设真实的、正确的COX回归模型的危险函数为

我们使用最大边际偏似然估计器估计β：

此外，回归常数项β_0j为以下极限方程的解：

自然地，我们希望假阳性率随着p_n的增加而减少到0(即我们希望当协变量维数很大时，实际上并不重要的变量被模型选择的比率尽量为0，只有这样，模型对于重要变量的选择才更为正确)，尽管它永远不可能完全等于0(除非γ_n＝∞)。因此，我们选择了一个合理的方法：首先确定我们愿意容忍的假阳性数f，相当于我们愿意容忍的假阳性率被我们确定为由于s_n是未知的，我们可以通过以下方式来保守计算，让/>其中如此，可以保证因此期望假阳性率为/>可以证明，这个程序保持了确定的筛选特性。

总结来说，我们在每个基预测器正式训练之前，首先，先通过原则性的COX确定独立筛选程序(简称PSIS)对变量进行了预筛选，其中分界线γ_n的选择是为了控制假阳性率，具体来说，PSIS的实现方式如下：

对每个协变量进行边际Cox模型的拟合，得到参数估计值和方差估计值

固定假阳性率令/>

保留满足下标j满足的变量。

S3、基预测器构建：

λ(x；Z)＝λ₀(x)exp(β^TZ) (7)

使用Breslow估计量估计λ₀(x)的积分函数进而估计λ₀(x)

其中，

(10)式即为最终的基预测器的的目标预测值。

S4：预测器集成：

该步骤同时实现集成预测和变量筛选集成。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于惩罚COX回归的乳腺癌预测方法，其特征在于：包括如下步骤：

S1对患者组、对照组分别采用常规的bootstrap抽样、欠采样技术来构成自助样本：

S2 PSIS预筛选程序：

基预测器正式训练之前，通过对假阳性率的控制对变量进行了原则性的COX确定独立筛选程序；

对于个体i，设其患乳腺癌时的“真实”年龄为T_i，预测协变量为其中，Z_i为p_n维变量；

设该个体在年龄为C_i时随访结束，如果这时他仍未患乳腺癌，那么就无法真实观测到该个体患乳腺癌，只能知道T_i>C_i，这种情况称之为删失；如果T_i≤C_i，那么在随访结束前，就已观测到了该个体患乳腺癌；若以“患乳腺癌”为结局事件建立标准的生存数据，则该个体的观测时间为X_i＝min(T_i,C_i)，删失标签为δ_i＝I(T_i≤C_i)，即δ_i＝0表示该个体为删失数据，随访结束时仍未观测到其患乳腺癌，反之，若δ_i＝1，则该个体在年龄为X_i时患乳腺癌；

设计数过程N_i(t)＝I(X_i≤t,δ_i＝1)表示个体i在年龄段[0,t]内个体是否患乳腺癌，取1时表示个体在年龄段[0,t]内患乳腺癌，反之若取0则未患乳腺癌；Y_i(t)＝I(X_i≥t)表示个体在年龄为t之前是否患乳腺癌，1表示个体i在年龄为t之前未患病，即在年龄为t时仍处在患乳腺癌的危险中，相反0表示患病；

设真实的、正确的COX回归模型的危险函数为

其中，为真实正确的回归系数，一些对于乳腺癌发生无影响的不重要变量，其回归系数α_j应为0；

为了进行初步的筛选程序，对每一个可能被错误指定的边际COX回归进行拟合，即对于Z_ij，拟合对于k＝0,1,2,……，定义：

使用最大边际偏似然估计器估计β：

此外，回归常数项β_0j为以下极限方程的解：

定义关于的信息矩阵为/>则筛选模型为/> 为所选择的变量的下标集；

为了实现确定的筛选特性，同时控制假阳性率或者控制错误地将不重要的协变量纳入的比例，采用一种实用的方法来选择γ_n；

根据以上假设，得知真实的筛选模型为记其大小为/>那么期望假阳率写成:

证明具有渐近的标准正态分布性质，所以期望假阳率等价于2{1-Φ(γ_n)},其中Φ(·)为标准正态的累积分布函数；由此控制γ_n来实现对期望假阳率的控制；

自然地，希望假阳性率随着p_n的增加而减少到0，尽管它永远不可能完全等于0，除非γ_n＝∞，选择一个合理的方法：首先确定愿意容忍的假阳性数f，相当于愿意容忍的假阳性率被确定为由于s_n是未知的，通过以下方式来保守计算，让/>其中如此保证因此期望假阳性率为/>证明这个程序保持了确定的筛选特性；

在每个基预测器正式训练之前，先通过原则性的COX确定独立筛选程序对变量进行了预筛选，其中分界线γ_n的选择是为了控制假阳性率，PSIS的实现方式如下：

对每个协变量进行边际Cox模型的拟合，得到参数估计值和方差估计值/>

固定假阳性率令/>

保留满足下标j满足的变量；

以上PSIS预筛选程序中被保留下来的变量被用来构建惩罚COX回归模型作为基预测器；

S3基预测器构建：

步骤S1生成的自助样本在执行步骤S2中PSIS预筛选程序后，实现了降维及平衡，此过程被重复B次，生成了B个不同的自助样本；基于这B个不同的自助样本集分别独立地训练惩罚COX回归模型作为集成学习的基预测器；其中，由于目标预测值是个体在目前未患乳腺癌的情况下未来某一段时间内患乳腺癌的风险，故此步纳入Breslow估计量来估计基准风险，具体为：

COX模型的基本假设为：协变量取值为Z的个体在时间为x时出现结局事件的危险函数为：

λ(x；Z)＝λ₀(x)exp(β^TZ) (7)

由(7)式可见，COX模型为半参数模型，包含两部分：①基准风险函数：λ₀(x)，是时间x对结局事件发生的影响；②协变量线性组合β^TZ_i的指数：exp(β^TZ_i)，是协变量对结局事件发生的影响；

由于时间为x时，协变量为Z₁和Z₂的个体1与个体2的危险比为：

考虑到将β^TZ视为风险值仅考虑了协变量对于个体发生结局事件的影响，未能具体计算风险值随时间x变化而发生的变化，进一步地将时间对风险值的影响λ₀(x)纳入考虑：

使用Breslow估计量估计λ₀(x)的积分函数进而估计λ₀(x)

其中，

式(10)即为最终的基预测器的目标预测值；

S4预测器集成：

该步骤同时实现集成预测和变量筛选集成；

步骤S3中构建了B个惩罚COX回归模型作为基预测器，B个基预测器通过(10)式计算了B个不同的目标预测值，即B个绝对风险，对其使用简单平均法，即为集成惩罚COX回归模型评估的乳腺癌发病绝对风险；

同时，经过PSIS预筛选程序以及惩罚函数的应用，纳入B个基预测器的风险因子组合也有B种，基于此对原始数据库中p个变量进行重要性打分：

定义一个B×p维的变量重要性评估矩阵，记作E；设E(b,j)为E的在位置(b,j)上的元素，定义：

第j个变量的重要性评分被定义为：第j个预测因子的重要性评估指标R(j)实际上是第j个预测因子被E基预测器选中的频率；R(j)越大，说明该预测因子越重要；

基于以下步骤确定区分重要和非重要变量的阈值：根据R(1),R(2),…,R(p)的值对变量进行排序，然后寻找任何相邻变量之间的最大差距，如果R(j)高于该差距，则集成模型最终判定变量j为重要变量。

2.根据权利要求1任一项所述的基于惩罚COX回归的乳腺癌预测方法，其特征在于：S1中，在Bagging集成学习生成自助样本时，针对非平衡数据，对患者组、对照组分别采用常规的bootstrap抽样、欠采样技术来构成自助样本以实现自助样本的平衡。

3.根据权利要求1所述的基于惩罚COX回归的乳腺癌预测方法，其特征在于：S2中，在基预测器正式训练之前，针对高维或超高维数据，通过对假阳性率的控制对变量进行了原则性的COX确定独立筛选程序，预先过滤掉无关变量，以实现变量降维来提高基预测器的性能。

4.根据权利要求1所述的基于惩罚COX回归的乳腺癌预测方法，其特征在于：S3中，基于多个初步降维的自助样本，独立地训练惩罚COX回归模型作为集成学习的基预测器，通过纳入Breslow估计量估计基准风险进而估计个体在目前未患乳腺癌的情况下未来某一段时间内患乳腺癌的风险作为目标预测值。

5.根据权利要求1所述的基于惩罚COX回归的乳腺癌预测方法，其特征在于：S4中，基于S3中的多个基预测器，同时实现集成预测和变量筛选集成。