CN116364268B - 一种新型基于惩罚cox回归的乳腺癌预测方法 - Google Patents
一种新型基于惩罚cox回归的乳腺癌预测方法 Download PDFInfo
- Publication number
- CN116364268B CN116364268B CN202211355613.8A CN202211355613A CN116364268B CN 116364268 B CN116364268 B CN 116364268B CN 202211355613 A CN202211355613 A CN 202211355613A CN 116364268 B CN116364268 B CN 116364268B
- Authority
- CN
- China
- Prior art keywords
- breast cancer
- individual
- risk
- cox
- punishment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010006187 Breast cancer Diseases 0.000 title claims abstract description 96
- 208000026310 Breast neoplasm Diseases 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012216 screening Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 13
- 230000010354 integration Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 230000004083 survival effect Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 210000000481 breast Anatomy 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 208000011130 pituitary stalk interruption syndrome Diseases 0.000 claims 5
- 201000010099 disease Diseases 0.000 abstract description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 6
- 238000013058 risk prediction model Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012502 risk assessment Methods 0.000 description 3
- 208000005623 Carcinogenesis Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000036952 cancer formation Effects 0.000 description 2
- 231100000504 carcinogenesis Toxicity 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001627 detrimental effect Effects 0.000 description 2
- 201000007741 female breast cancer Diseases 0.000 description 2
- 201000002276 female breast carcinoma Diseases 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种新型基于惩罚COX回归的乳腺癌预测方法,本发明中基预测器的训练较传统的COX回归模型有所不同:一是增加了一个变量预筛选过程‑‑对变量进行了原则性的COX确定独立筛选程序,即PSIS程序,可以更有效地处理超高维数据;二是较传统的COX模型预测目标值有所变化,传统的COX模型用于预测疾病风险时仅考虑协变量对于个体发生结局事件的影响,即仅将βTZ作为预测值来考量个体相对于指标正常人群的发病风险,而本发明则进一步考虑了时间对结局事件发生的影响,基于Breslow估计量进一步计算个体在目前未患乳腺癌的情况下,未来某一段时间内患乳腺癌的风险,能够实现风险的动态监测。
Description
技术领域
本发明涉及乳腺癌发病风险预测技术领域,具体为基于惩罚COX回归的乳腺癌预测方法。
背景技术
乳腺癌是全球女性最常见的恶性肿瘤之一,且发病率逐年攀升,防控形势严峻,严重威胁了广大女性的生命和健康。所以早发现、早治疗是降低乳腺癌治疗成本甚至逆转诊断结果的关键。由于地区医疗资源分布不均衡,乳腺癌防控形势严峻,防治难度巨大。因此,筛查重要影响因素,建立乳腺癌风险评估模型,预测乳腺癌发生概率,对乳腺癌的防治具有重要意义。目前国内外已经建立了30多个乳腺癌风险评估模型,其中应用最广泛的是Gail模型。然而这些模型普遍存在适用人群的局限性,纳入的因素涉及乳腺活检、基因变异等需有创检测才能获取的信息,不适合在中国人口基数大、经济发展及医疗资源分布不平衡等国情下普及应用。国内类似研究多处在验证探索阶段,尚无适合中国女性的广泛应用的乳腺癌风险预测模型,因此建立适合我国人口特征并符合卫生经济学要求的高效的风险评估模型十分必要。
COX回归模型,又称“比例风险回归模型”,是由英国统计学家D.R.Cox在1972年提出的一种半参数回归模型,该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。由于上述优良性质,该模型自问世以来,在医学随访研究中得到广泛的应用,是迄今生存分析中应用最多的多因素分析方法。
近年来,随着精准医疗计划的发展,开启了我国乳腺癌个体化诊疗的新时代。机器学习算法在疾病的预测、疾病的辅助诊断等医疗领域的研究中的应用频率和研究深度增长迅速,已取得不少成果。疾病的预测数据属于分类不平衡数据,即一类样本数目远远大于另类样本的数据,尽管少数类的数据集中的比例较小,但少数类比多数类更难以识别。传统的机器学习算法常常假设各类别样本大致相同,以最小化全局误差为目标,因此具有很大的偏向性,分析结果可能会偏向多数类,出现过拟合的情况,导致模型预测有偏差。在实际的应用中,乳腺癌预测模型的数据便是这种不平衡的数据,中国女性乳腺癌发病率为42.55/10万,而且目前已有模型大多是利用传统的统计和机器学习的方法建立,致使目前构建的风险预测模型的预测性能降低。
发明人的在先申请CN202111458931.2虽然公开了基于惩罚COX回归的乳腺癌预测方法,但其并没有公开PSIS预筛选程序、基预测器构建、预测器集成的具体过程。
发明内容
针对现有技术的不足,本发明提供了基于惩罚COX回归的乳腺癌预测方法,解决了传统预测模型在应用于高维不平衡乳腺癌数据时的一系列弊端,具有提取乳腺癌发病的风险因子组合,提高诊断准确度的优点。
为实现上述目的,本发明提供如下技术方案:
基于惩罚COX回归的乳腺癌预测方法,包括以下特征:
S1、对患者组、对照组分别采用常规的bootstrap抽样、欠采样技术来构成自助样本:
常规的Bagging集成使用bootstrap来搅动数据,从原始训练数据集中有放回的再抽样来生成与原始训练数据集样本容量相同的自助样本。然而,由于大多数前瞻性队列研究建立的用于乳腺癌发病风险预测模型开发的数据库均为非平衡数据(观察到的乳腺癌患者数远远小于健康人数),这对我们所关心的乳腺癌发病的预测是不利的。因此,我们分别对患者组和对照组进行bootstrap抽样,其中患者组执行常规的bootstrap抽样、对照组执行自助样本数为患者组样本数的欠采样,再共同组成平衡的数据集作为训练集。
S2、PSIS预筛选程序:
基预测器正式训练之前,通过对假阳性率的控制对变量进行了原则性的COX确定独立筛选程序(PSIS程序)。
为方便说明,对于个体i,我们设其患乳腺癌时的“真实”年龄为Ti,预测协变量为(为pn维变量)。设该个体在年龄为Ci时随访结束,如果这时他仍未患乳腺癌,那么我们就无法真实观测到该个体患乳腺癌,只能知道Ti>Ci,这种情况称之为删失;如果Ti≤Ci,那么在随访结束前,我们就已观测到了该个体患乳腺癌。综上,若以“患乳腺癌”为结局事件建立标准的生存数据,则该个体的观测时间为Xi=min(Ti,Ci),删失标签为δi=I(Ti≤Ci),即δi=0表示该个体为删失数据,随访结束时仍未观测到其患乳腺癌,反之,若δi=1,则该个体在年龄为Xi时患乳腺癌。
设计数过程Ni(t)=I(Xi≤t,δi=1)表示个体i在年龄段[0,t]内个体是否患乳腺癌,取1时表示个体在年龄段[0,t]内患乳腺癌,反之若取0则未患乳腺癌;Yi(t)=I(Xi≥t)表示个体在年龄为t之前是否患乳腺癌,1表示个体i在年龄为t之前未患病,即在年龄为t时仍处在患乳腺癌的危险中,相反0表示患病。
设真实的、正确的COX回归模型的危险函数为
其中,为真实正确的回归系数,一些对于乳腺癌发生无影响的不重要变量,其回归系数αj应为0。
为了进行初步的筛选程序,我们对每一个可能被错误指定的边际Cox回归进行拟合,即对于Zij,拟合对于k=0,1,2,......,定义:
我们使用最大边际偏似然估计器估计β:
此外,回归常数项β0j为以下极限方程的解:
定义关于的信息矩阵为/>则筛选模型为/> 为所选择的变量的下标集。为了实现确定的筛选特性,同时控制假阳性率(或者控制错误地将不重要的协变量纳入/>的比例),我们采用了一种实用的方法来选择γn。根据以上假设,可以得知真实的筛选模型(即真正重要的变量集合)为记其大小(即真正重要的变量的个数)为/>那么期望假阳率可以写成:
可以证明具有渐近的标准正态分布性质,所以期望假阳率等价于2{1-Φ(γn)},其中Φ(·)为标准正态的累积分布函数。由此,我们可以控制γn来实现对期望假阳率的控制。
自然地,我们希望假阳性率随着pn的增加而减少到0(即我们希望当协变量维数很大时,实际上并不重要的变量被模型选择的比率尽量为0,只有这样,模型对于重要变量的选择才更为正确),尽管它永远不可能完全等于0(除非γn=∞)。因此,我们选择了一个合理的方法:首先确定我们愿意容忍的假阳性数f,相当于我们愿意容忍的假阳性率被我们确定为由于sn是未知的,我们可以通过以下方式来保守计算,让/>其中/>如此,可以保证因此期望假阳性率为/>可以证明,这个程序保持了确定的筛选特性。
总结来说,我们在每个基预测器正式训练之前,先通过原则性的COX确定独立筛选程序(简称PSIS)对变量进行了预筛选,其中分界线γn的选择是为了控制假阳性率,具体来说,PSIS的实现方式如下:
①对每个协变量进行边际Cox模型的拟合,得到参数估计值和方差估计值
②固定假阳性率令/>
③保留满足下标j满足的变量。
以上PSIS预筛选程序中被保留下来的变量被用来构建惩罚COX回归模型作为基预测器。
S3、基预测器构建:
步骤S1生成的自助样本在执行步骤S2、PSIS预筛选程序后,实现了降维及平衡,此过程被重复B次,生成了B个不同的自助样本。基于这B个不同的自助样本集分别独立地训练惩罚COX回归模型作为集成学习的基预测器。其中,由于目标预测值是个体在目前未患乳腺癌的情况下未来某一段时间内患乳腺癌的风险,故此步纳入Breslow估计量来估计基准风险。具体说明如下:
COX模型的基本假设为:协变量取值为Z(这里Z为p维变量)的个体在时间(/年龄)为x时出现结局事件的危险函数为
λ(x;Z)=λ0(x)exp(βTZ) (7)
由(7)式可见,COX模型为半参数模型,包含两部分:①基准风险函数:λ0(x),是时间x对结局事件发生的影响;②协变量线性组合βTZi的指数:exp(βTZi),是协变量对结局事件发生的影响。
由于时间为x时,协变量为Z1和Z2的个体1与个体2的危险比为而exp(g)又是g的增函数,所以多数研究中会直接将βTZ视为Risk Score,用来预测个体的风险。
考虑到将βTZ视为风险值仅考虑了协变量对于个体发生结局事件的影响,未能具体计算风险值随时间x变化而发生的变化,本申请进一步地将时间对风险值的影响λ0(x)纳入考虑:
使用Breslow估计量估计λ0(x)的积分函数进而估计λ0(x)
若个体在时刻a时未发生结局事件,那么其在未来τ时间内出现结局事件的风险为:
其中
(10)式即为最终的基预测器的目标预测值。
S4:预测器集成:
该步骤同时实现集成预测和变量筛选集成。
步骤S3、中构建了B个惩罚COX回归模型作为基预测器,B个基预测器通过(10)式计算了B个不同的目标预测值(B个绝对风险),对其使用简单平均法,即为集成惩罚COX回归模型评估的乳腺癌发病绝对风险。
同时,经过PSIS预筛选程序以及惩罚函数的应用,纳入B个基预测器的风险因子组合也有B种,基于此我们可以对原始数据库中p个变量进行重要性打分:
首先,我们定义了一个B×p维的变量重要性评估矩阵,记作E。设E(b,j)为E的在位置(b,j)上的元素,我们定义:
第j个变量的重要性评分被定义为:第j个预测因子的重要性评估指标R(j)实际上是第j个预测因子被E基预测器选中的频率。R(j)越大,说明该预测因子越重要,这符合变量重要性评分该有的性质。
最后,基于以下步骤确定区分重要和非重要变量的阈值:根据R(1),R(2),...,R(p)的值对变量进行排序,然后寻找任何相邻变量之间的最大差距,如果R(j)高于该差距,则集成模型最终判定变量j为重要变量。
优选的,步骤S1中,在Bagging集成学习生成自助样本时,针对非平衡数据,对患者组、对照组分别采用常规的bootstrap抽样、欠采样技术来构成自助样本以实现自助样本的平衡。
优选的,步骤S2中,在基预测器正式训练之前,针对高维或超高维数据,通过对假阳性率的控制对变量进行了原则性的COX确定独立筛选程序(PSIS程序),预先过滤掉无关变量,以实现变量降维来提高基预测器的性能。
优选的,步骤S3中,基于多个初步降维的自助样本,独立地训练惩罚COX回归模型作为集成学习的基预测器,通过纳入Breslow估计量估计基准风险进而估计个体在目前未患乳腺癌的情况下未来某一段时间内患乳腺癌的风险作为目标预测值。
优选的,步骤S4中,基于S3中的多个基预测器,同时实现集成预测和变量筛选集成。
本发明还提供一种基于惩罚COX回归的乳腺癌预测系统,包括处理单元,处理单元执行上述步骤S1至S4。
与现有技术相比,本发明提供了基于惩罚COX回归的乳腺癌预测方法,具备以下有益效果:
1、该基于惩罚COX回归的乳腺癌预测方法,通过集成学习通过某种方式将预测效果一般的“弱学习器”组合,构成一个预测效果优良的“强学习器”,结合了多个弱学习器的强学习器,预测效果更准确、更稳定,采用Bagging的集成框架,通过Bootstrap方法搅动数据,对原始训练集有放回地随机再抽样,得到一个新的自助样本,对于T个弱学习器的输出进行平均得到最终的预测输出,可以降低估计量的方差,避免了单一分类器估计的不稳定性,提高了预测性能。
2、该基于惩罚COX回归的乳腺癌预测方法,基于生理状况、心理状况、生活习惯、遗传因素等多个维度的乳腺癌发病危险因素,采用惩罚COX回归模型作为基学习器构建女性乳腺癌长期风险预测模型,其中对回归系数的惩罚方式采用了弹性网惩罚和组惩罚相结合的惩罚方式,并采取数据驱动的方式确定惩罚参数的选取,弹性网惩罚的回归模型可以很好地适应高维数据,兼具Lasso和岭回归估计的优点,具有筛选变量的功能。
3、该基于惩罚COX回归的乳腺癌预测方法,采用Bagging集成框架和惩罚回归模型的独特结构,可以根据T个回归模型中各因素出现次数以及其回归系数的绝对大小,评估各预测因子对乳腺癌发病的影响程度,有助于探讨不同维度因素与我国女性乳腺癌发病风险的关系,从而辅助医生对预防乳腺癌发病给出建议,实际应用预测模型时,根据所评估的预测因子对乳腺癌发病的影响程度,筛选出对乳腺癌预测影响最大的几个预测因子,来构成特征子集,作为模型的又一输入变量,可得到预测效果好且计算复杂度低的简化模型,可在实际中灵活应用。
附图说明
图1为具体实施方式中预测方法的流程图;
图2为具体实施方式中预测方法的实验结果。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2:基于惩罚COX回归的乳腺癌预测方法,包括以下步骤:
S1、对患者组、对照组分别采用常规的bootstrap抽样、欠采样技术来构成自助样本:
常规的Bagging集成使用bootstrap来搅动数据,从原始训练数据集中有放回的再抽样来生成与原始训练数据集样本容量相同的自助样本。然而,由于大多数前瞻性队列研究建立的用于乳腺癌发病风险预测模型开发的数据库均为非平衡数据(观察到的乳腺癌患者数远远小于健康人数),这对我们所关心的乳腺癌发病的预测是不利的。因此,我们分别对患者组和对照组进行bootstrap抽样,其中患者组执行常规的bootstrap抽样、对照组执行自助样本数为患者组样本数的欠采样,再共同组成平衡的数据集作为训练集。
S2、PSIS预筛选程序:
基预测器正式训练之前,通过对假阳性率的控制对变量进行了原则性的COX确定独立筛选程序(PSIS程序)。
为方便说明,对于个体i,我们设其患乳腺癌时的“真实”年龄为Ti,预测协变量为(为pn维变量)。设该个体在年龄为Ci时随访结束,如果这时他仍未患乳腺癌,那么我们就无法真实观测到该个体患乳腺癌,只能知道Ti>Ci,这种情况称之为删失;如果Ti≤Ci,那么在随访结束前,我们就已观测到了该个体患乳腺癌。综上,若以“患乳腺癌”为结局事件建立标准的生存数据,则该个体的观测时间为Xi=min(Ti,Ci),删失标签为δi=I(Ti≤Ci),即δi=0表示该个体为删失数据,随访结束时仍未观测到其患乳腺癌,反之,若δi=1,则该个体在年龄为Xi时患乳腺癌。
设计数过程Ni(t)=I(Xi≤t,δi=1)表示个体i在年龄段[0,t]内个体是否患乳腺癌,取1时表示个体在年龄段[0,t]内患乳腺癌,反之若取0则未患乳腺癌;Yi(t)=I(Xi≥t)表示个体在年龄为t之前是否患乳腺癌,1表示个体i在年龄为t之前未患病,即在年龄为t时仍处在患乳腺癌的危险中,相反0表示患病。
设真实的、正确的COX回归模型的危险函数为
其中,为真实正确的回归系数,一些对于乳腺癌发生无影响的不重要变量,其回归系数αj应为0。
为了进行初步的筛选程序,我们对每一个可能被错误指定的边际Cox回归进行拟合,即对于Zij,拟合对于k=0,1,2,......,定义:
我们使用最大边际偏似然估计器估计β:
此外,回归常数项β0j为以下极限方程的解:
定义关于的信息矩阵为/>则筛选模型为/> 为所选择的变量的下标集。为了实现确定的筛选特性,同时控制假阳性率(或者控制错误地将不重要的协变量纳入/>的比例),我们采用了一种实用的方法来选择γn。根据以上假设,可以得知真实的筛选模型(即真正重要的变量集合)为记其大小(即真正重要的变量的个数)为/>那么期望假阳率可以写成:
可以证明具有渐近的标准正态分布性质,所以期望假阳率等价于2{1-Φ(γn)},其中Φ(·)为标准正态的累积分布函数。由此,我们可以控制γn来实现对期望假阳率的控制。
自然地,我们希望假阳性率随着pn的增加而减少到0(即我们希望当协变量维数很大时,实际上并不重要的变量被模型选择的比率尽量为0,只有这样,模型对于重要变量的选择才更为正确),尽管它永远不可能完全等于0(除非γn=∞)。因此,我们选择了一个合理的方法:首先确定我们愿意容忍的假阳性数f,相当于我们愿意容忍的假阳性率被我们确定为由于sn是未知的,我们可以通过以下方式来保守计算,让/>其中如此,可以保证因此期望假阳性率为/>可以证明,这个程序保持了确定的筛选特性。
总结来说,我们在每个基预测器正式训练之前,首先,先通过原则性的COX确定独立筛选程序(简称PSIS)对变量进行了预筛选,其中分界线γn的选择是为了控制假阳性率,具体来说,PSIS的实现方式如下:
对每个协变量进行边际Cox模型的拟合,得到参数估计值和方差估计值
固定假阳性率令/>
保留满足下标j满足的变量。
以上PSIS预筛选程序中被保留下来的变量被用来构建惩罚COX回归模型作为基预测器。
S3、基预测器构建:
步骤S1生成的自助样本在执行步骤S2、PSIS预筛选程序后,实现了降维及平衡,此过程被重复B次,生成了B个不同的自助样本。基于这B个不同的自助样本集分别独立地训练惩罚COX回归模型作为集成学习的基预测器。其中,由于目标预测值是个体在目前未患乳腺癌的情况下未来某一段时间内患乳腺癌的风险,故此步纳入Breslow估计量来估计基准风险。具体说明如下:
COX模型的基本假设为:协变量取值为Z(这里Z为p维变量)的个体在时间(/年龄)为x时出现结局事件的危险函数为
λ(x;Z)=λ0(x)exp(βTZ) (7)
由(7)式可见,COX模型为半参数模型,包含两部分:①基准风险函数:λ0(x),是时间x对结局事件发生的影响;②协变量线性组合βTZi的指数:exp(βTZi),是协变量对结局事件发生的影响。
由于时间为x时,协变量为Z1和Z2的个体1与个体2的危险比为而exp(g)又是g的增函数,所以多数研究中会直接将βTZ视为Risk Score,用来预测个体的风险。
考虑到将βTZ视为风险值仅考虑了协变量对于个体发生结局事件的影响,未能具体计算风险值随时间x变化而发生的变化,本申请进一步地将时间对风险值的影响λ0(x)纳入考虑:
使用Breslow估计量估计λ0(x)的积分函数进而估计λ0(x)
若个体在时刻a时未发生结局事件,那么其在未来τ时间内出现结局事件的风险为:
其中,
(10)式即为最终的基预测器的的目标预测值。
S4:预测器集成:
该步骤同时实现集成预测和变量筛选集成。
步骤S3、中构建了B个惩罚COX回归模型作为基预测器,B个基预测器通过(10)式计算了B个不同的目标预测值(B个绝对风险),对其使用简单平均法,即为集成惩罚COX回归模型评估的乳腺癌发病绝对风险。
同时,经过PSIS预筛选程序以及惩罚函数的应用,纳入B个基预测器的风险因子组合也有B种,基于此我们可以对原始数据库中p个变量进行重要性打分:
首先,我们定义了一个B×p维的变量重要性评估矩阵,记作E。设E(b,j)为E的在位置(b,j)上的元素,我们定义:
第j个变量的重要性评分被定义为:第j个预测因子的重要性评估指标R(j)实际上是第j个预测因子被E基预测器选中的频率。R(j)越大,说明该预测因子越重要,这符合变量重要性评分该有的性质。
最后,基于以下步骤确定区分重要和非重要变量的阈值:根据R(1),R(2),...,R(p)的值对变量进行排序,然后寻找任何相邻变量之间的最大差距,如果R(j)高于该差距,则集成模型最终判定变量j为重要变量。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.基于惩罚COX回归的乳腺癌预测方法,其特征在于:包括如下步骤:
S1对患者组、对照组分别采用常规的bootstrap抽样、欠采样技术来构成自助样本:
S2 PSIS预筛选程序:
基预测器正式训练之前,通过对假阳性率的控制对变量进行了原则性的COX确定独立筛选程序;
对于个体i,设其患乳腺癌时的“真实”年龄为Ti,预测协变量为 其中,Zi为pn维变量;
设该个体在年龄为Ci时随访结束,如果这时他仍未患乳腺癌,那么就无法真实观测到该个体患乳腺癌,只能知道Ti>Ci,这种情况称之为删失;如果Ti≤Ci,那么在随访结束前,就已观测到了该个体患乳腺癌;若以“患乳腺癌”为结局事件建立标准的生存数据,则该个体的观测时间为Xi=min(Ti,Ci),删失标签为δi=I(Ti≤Ci),即δi=0表示该个体为删失数据,随访结束时仍未观测到其患乳腺癌,反之,若δi=1,则该个体在年龄为Xi时患乳腺癌;
设计数过程Ni(t)=I(Xi≤t,δi=1)表示个体i在年龄段[0,t]内个体是否患乳腺癌,取1时表示个体在年龄段[0,t]内患乳腺癌,反之若取0则未患乳腺癌;Yi(t)=I(Xi≥t)表示个体在年龄为t之前是否患乳腺癌,1表示个体i在年龄为t之前未患病,即在年龄为t时仍处在患乳腺癌的危险中,相反0表示患病;
设真实的、正确的COX回归模型的危险函数为
其中,为真实正确的回归系数,一些对于乳腺癌发生无影响的不重要变量,其回归系数αj应为0;
为了进行初步的筛选程序,对每一个可能被错误指定的边际COX回归进行拟合,即对于Zij,拟合对于k=0,1,2,……,定义:
使用最大边际偏似然估计器估计β:
此外,回归常数项β0j为以下极限方程的解:
定义关于的信息矩阵为/>则筛选模型为/> 为所选择的变量的下标集;
为了实现确定的筛选特性,同时控制假阳性率或者控制错误地将不重要的协变量纳入的比例,采用一种实用的方法来选择γn;
根据以上假设,得知真实的筛选模型为记其大小为/>那么期望假阳率写成:
证明具有渐近的标准正态分布性质,所以期望假阳率等价于2{1-Φ(γn)},其中Φ(·)为标准正态的累积分布函数;由此控制γn来实现对期望假阳率的控制;
自然地,希望假阳性率随着pn的增加而减少到0,尽管它永远不可能完全等于0,除非γn=∞,选择一个合理的方法:首先确定愿意容忍的假阳性数f,相当于愿意容忍的假阳性率被确定为由于sn是未知的,通过以下方式来保守计算,让/>其中如此保证因此期望假阳性率为/>证明这个程序保持了确定的筛选特性;
在每个基预测器正式训练之前,先通过原则性的COX确定独立筛选程序对变量进行了预筛选,其中分界线γn的选择是为了控制假阳性率,PSIS的实现方式如下:
对每个协变量进行边际Cox模型的拟合,得到参数估计值和方差估计值/>
固定假阳性率令/>
保留满足下标j满足的变量;
以上PSIS预筛选程序中被保留下来的变量被用来构建惩罚COX回归模型作为基预测器;
S3基预测器构建:
步骤S1生成的自助样本在执行步骤S2中PSIS预筛选程序后,实现了降维及平衡,此过程被重复B次,生成了B个不同的自助样本;基于这B个不同的自助样本集分别独立地训练惩罚COX回归模型作为集成学习的基预测器;其中,由于目标预测值是个体在目前未患乳腺癌的情况下未来某一段时间内患乳腺癌的风险,故此步纳入Breslow估计量来估计基准风险,具体为:
COX模型的基本假设为:协变量取值为Z的个体在时间为x时出现结局事件的危险函数为:
λ(x;Z)=λ0(x)exp(βTZ) (7)
由(7)式可见,COX模型为半参数模型,包含两部分:①基准风险函数:λ0(x),是时间x对结局事件发生的影响;②协变量线性组合βTZi的指数:exp(βTZi),是协变量对结局事件发生的影响;
由于时间为x时,协变量为Z1和Z2的个体1与个体2的危险比为:
考虑到将βTZ视为风险值仅考虑了协变量对于个体发生结局事件的影响,未能具体计算风险值随时间x变化而发生的变化,进一步地将时间对风险值的影响λ0(x)纳入考虑:
使用Breslow估计量估计λ0(x)的积分函数进而估计λ0(x)
若个体在时刻a时未发生结局事件,那么其在未来τ时间内出现结局事件的风险为:
其中,
式(10)即为最终的基预测器的目标预测值;
S4预测器集成:
该步骤同时实现集成预测和变量筛选集成;
步骤S3中构建了B个惩罚COX回归模型作为基预测器,B个基预测器通过(10)式计算了B个不同的目标预测值,即B个绝对风险,对其使用简单平均法,即为集成惩罚COX回归模型评估的乳腺癌发病绝对风险;
同时,经过PSIS预筛选程序以及惩罚函数的应用,纳入B个基预测器的风险因子组合也有B种,基于此对原始数据库中p个变量进行重要性打分:
定义一个B×p维的变量重要性评估矩阵,记作E;设E(b,j)为E的在位置(b,j)上的元素,定义:
第j个变量的重要性评分被定义为:第j个预测因子的重要性评估指标R(j)实际上是第j个预测因子被E基预测器选中的频率;R(j)越大,说明该预测因子越重要;
基于以下步骤确定区分重要和非重要变量的阈值:根据R(1),R(2),…,R(p)的值对变量进行排序,然后寻找任何相邻变量之间的最大差距,如果R(j)高于该差距,则集成模型最终判定变量j为重要变量。
2.根据权利要求1任一项所述的基于惩罚COX回归的乳腺癌预测方法,其特征在于:S1中,在Bagging集成学习生成自助样本时,针对非平衡数据,对患者组、对照组分别采用常规的bootstrap抽样、欠采样技术来构成自助样本以实现自助样本的平衡。
3.根据权利要求1所述的基于惩罚COX回归的乳腺癌预测方法,其特征在于:S2中,在基预测器正式训练之前,针对高维或超高维数据,通过对假阳性率的控制对变量进行了原则性的COX确定独立筛选程序,预先过滤掉无关变量,以实现变量降维来提高基预测器的性能。
4.根据权利要求1所述的基于惩罚COX回归的乳腺癌预测方法,其特征在于:S3中,基于多个初步降维的自助样本,独立地训练惩罚COX回归模型作为集成学习的基预测器,通过纳入Breslow估计量估计基准风险进而估计个体在目前未患乳腺癌的情况下未来某一段时间内患乳腺癌的风险作为目标预测值。
5.根据权利要求1所述的基于惩罚COX回归的乳腺癌预测方法,其特征在于:S4中,基于S3中的多个基预测器,同时实现集成预测和变量筛选集成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211355613.8A CN116364268B (zh) | 2022-11-01 | 2022-11-01 | 一种新型基于惩罚cox回归的乳腺癌预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211355613.8A CN116364268B (zh) | 2022-11-01 | 2022-11-01 | 一种新型基于惩罚cox回归的乳腺癌预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116364268A CN116364268A (zh) | 2023-06-30 |
CN116364268B true CN116364268B (zh) | 2023-11-17 |
Family
ID=86911384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211355613.8A Active CN116364268B (zh) | 2022-11-01 | 2022-11-01 | 一种新型基于惩罚cox回归的乳腺癌预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116364268B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558452B (zh) * | 2024-01-11 | 2024-03-26 | 北京大学人民医院 | Mods风险评估模型构建方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013190468A2 (en) * | 2012-06-19 | 2013-12-27 | Euroclone S.P.A. | Computer-based predictor for prostate cancer |
KR20140098695A (ko) * | 2013-01-31 | 2014-08-08 | 서울대학교산학협력단 | 유방암 발병 위험도 및 확률 예측 방법 |
CN112927795A (zh) * | 2021-02-23 | 2021-06-08 | 山东大学 | 基于bagging算法的乳腺癌预测方法 |
CN113903471A (zh) * | 2021-09-24 | 2022-01-07 | 上海交通大学 | 基于组织病理学图像和基因表达数据的胃癌患者生存风险预测方法 |
CN114141360A (zh) * | 2021-12-02 | 2022-03-04 | 山东大学 | 基于惩罚cox回归的乳腺癌预测方法 |
CN114898873A (zh) * | 2022-03-31 | 2022-08-12 | 中山大学附属第一医院 | 一种糖尿病前期患者心血管疾病风险的预测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2015101194A4 (en) * | 2015-07-26 | 2015-10-08 | Macau University Of Science And Technology | Semi-Supervised Learning Framework based on Cox and AFT Models with L1/2 Regularization for Patient’s Survival Prediction |
-
2022
- 2022-11-01 CN CN202211355613.8A patent/CN116364268B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013190468A2 (en) * | 2012-06-19 | 2013-12-27 | Euroclone S.P.A. | Computer-based predictor for prostate cancer |
KR20140098695A (ko) * | 2013-01-31 | 2014-08-08 | 서울대학교산학협력단 | 유방암 발병 위험도 및 확률 예측 방법 |
CN112927795A (zh) * | 2021-02-23 | 2021-06-08 | 山东大学 | 基于bagging算法的乳腺癌预测方法 |
CN113903471A (zh) * | 2021-09-24 | 2022-01-07 | 上海交通大学 | 基于组织病理学图像和基因表达数据的胃癌患者生存风险预测方法 |
CN114141360A (zh) * | 2021-12-02 | 2022-03-04 | 山东大学 | 基于惩罚cox回归的乳腺癌预测方法 |
CN114898873A (zh) * | 2022-03-31 | 2022-08-12 | 中山大学附属第一医院 | 一种糖尿病前期患者心血管疾病风险的预测方法及系统 |
Non-Patent Citations (3)
Title |
---|
Mutwiri N M ..et.Muraya M M ,Gitonga K L . Modelling the Effects of Mindfulness Based Stress on Breast Cancer Survival Rate among Women in Meru and Nyeri Counties, Kenya, Using Cox Proportional Hazard Model.Asian Journal of Probability and Statistics.2022,1-8. * |
上海市女性乳腺癌危险因素分析与风险预测模型研究;吴菲;何丹丹;赵根明;方红;徐望红;;中华肿瘤防治杂志(12);7-13+19 * |
女性乳腺癌的绝对风险预测模型研究;刁莎;侯璨;钟晓蓉;李芹;李旭;周敏;袁雪莲;易芳;李佳昌;郝宇;李佳圆;;中国循证医学杂志(12);16-22 * |
Also Published As
Publication number | Publication date |
---|---|
CN116364268A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hougaard | Multi-state models: a review | |
Zheng et al. | Semiparametric estimation of time‐dependent ROC curves for longitudinal marker data | |
US6110109A (en) | System and method for predicting disease onset | |
Bandeen‐Roche et al. | Modelling multivariate failure time associations in the presence of a competing risk | |
CN116364268B (zh) | 一种新型基于惩罚cox回归的乳腺癌预测方法 | |
Rubin et al. | Prognosis of six-month Glasgow Outcome Scale in severe traumatic brain injury using hospital admission characteristics, injury severity characteristics, and physiological monitoring during the first day post-injury | |
Gönen et al. | Lehmann family of ROC curves | |
Li et al. | Multithreshold change plane model: Estimation theory and applications in subgroup identification | |
Cekic et al. | A tutorial for joint modeling of longitudinal and time-to-event data in R | |
Dessiso et al. | Bayesian joint modelling of longitudinal and survival data of HIV/AIDS patients: a case study at bale robe general hospital, Ethiopia | |
Lee et al. | Applying reinforcement learning techniques to detect hepatocellular carcinoma under limited screening capacity | |
CN114141360A (zh) | 基于惩罚cox回归的乳腺癌预测方法 | |
Cook et al. | Classical regression and predictive modeling | |
CN114649094B (zh) | 一种基于核磁共振的乳腺癌多参数临床决策辅助装置 | |
Khan et al. | Survival analysis for white non-Hispanic female breast cancer patients | |
Huang et al. | Using fuzzy systems to infer memory impairment from MRI | |
AU2021102593A4 (en) | A Method for Detection of a Disease | |
Cheng et al. | Time-dependent diagnostic accuracy analysis with censored outcome and censored predictor | |
Gao et al. | Developing a scoring tool to estimate the risk of deterioration for normotensive patients with acute pulmonary embolism on admission | |
Pooja | On effective use of feature engineering for improving the predictive capability of machine learning models | |
Feleke et al. | Survival analysis of women breast cancer patients in Northwest Amhara, Ethiopia | |
Duan et al. | Composite quantile regression for the receiver operating characteristic curve | |
Zang et al. | Bayesian multistate life table methods for complex, high-dimensional state spaces: Development and illustration of a new method | |
Lin et al. | Using the quantlife procedure for survival analysis | |
CN110916665B (zh) | 一种磁共振扩散加权图像影像组学特征处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |