CN114141360A - 基于惩罚cox回归的乳腺癌预测方法 - Google Patents

基于惩罚cox回归的乳腺癌预测方法 Download PDF

Info

Publication number
CN114141360A
CN114141360A CN202111458931.2A CN202111458931A CN114141360A CN 114141360 A CN114141360 A CN 114141360A CN 202111458931 A CN202111458931 A CN 202111458931A CN 114141360 A CN114141360 A CN 114141360A
Authority
CN
China
Prior art keywords
breast cancer
data
prediction
predictor
cox regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111458931.2A
Other languages
English (en)
Inventor
余之刚
陈增敬
何勇
刘丽媛
考春雨
王斐
杨芙
范叶叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202111458931.2A priority Critical patent/CN114141360A/zh
Publication of CN114141360A publication Critical patent/CN114141360A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了基于惩罚COX回归的乳腺癌预测方法,将随访数据处理为生存数据备用,数据预处理后的全部预测因子作为模型的输入变量,通过bootstrap法采样获得T个自助样本集,基于不同的自助样本集分别独立构建惩罚COX回归模型作为集成学习的基预测器,基预测器构建后,使用简单平均法组合该T个基预测器,最终形成集成惩罚COX回归模型作为乳腺癌发病预测的集成预测器。该基于惩罚COX回归的乳腺癌预测方法,采用Bagging集成框架和惩罚回归模型的独特结构,有助于探讨不同维度因素与我国女性乳腺癌发病风险的关系,从而辅助医生对预防乳腺癌发病给出建议,可以降低估计量的方差,避免了单一分类器估计的不稳定性,提高了预测性能。

Description

基于惩罚COX回归的乳腺癌预测方法
技术领域
本发明涉及乳腺癌发病风险预测技术领域,具体为基于惩罚COX回归的乳腺癌预测方法。
背景技术
乳腺癌是全球女性最常见的恶性肿瘤之一,且发病率逐年攀升,防控形势严峻,严重威胁了广大女性的生命和健康。2020年,我国乳腺癌新发病例约41.6万例,发病率的增长速度超过全球平均水平。虽然随着医疗水平的提高,乳腺癌已成为疗效最佳的实体肿瘤之一,但我国乳腺癌患者早诊率过低导致我国乳腺癌患者生存期远低于欧美国家。所以早发现、早治疗是降低乳腺癌治疗成本甚至逆转诊断结果的关键。由于地区医疗资源分布不均衡,乳腺癌防控形势严峻,防治难度巨大。因此,筛查重要影响因素,建立乳腺癌风险评估模型,预测乳腺癌发生概率,对乳腺癌的防治具有重要意义。目前国内外已经建立了30多个乳腺癌风险评估模型,其中应用最广泛的是Gail模型。然而这些模型普遍存在适用人群的局限性,纳入的因素涉及乳腺活检、基因变异等需有创检测才能获取的信息,不适合在中国人口基数大、经济发展及医疗资源分布不平衡等国情下普及应用。国内类似研究多处在验证探索阶段,尚无适合中国女性的广泛应用的乳腺癌风险预测模型,因此建立适合我国人口特征并符合卫生经济学要求的高效的风险评估模型十分必要。
COX回归模型,又称“比例风险回归模型”,是由英国统计学家D.R.Cox在1972年提出的一种半参数回归模型,该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。由于上述优良性质,该模型自问世以来,在医学随访研究中得到广泛的应用,是迄今生存分析中应用最多的多因素分析方法。
近年来,随着精准医疗计划的发展,开启了我国乳腺癌个体化诊疗的新时代。机器学习算法在疾病的预测、疾病的辅助诊断等医疗领域的研究中的应用频率和研究深度增长迅速,已取得不少成果。疾病的预测数据属于分类不平衡数据,即一类样本数目远远大于另类样本的数据,尽管少数类的数据集中的比例较小,但少数类比多数类更难以识别。传统的机器学习算法常常假设各类别样本大致相同,以最小化全局误差为目标,因此具有很大的偏向性,分析结果可能会偏向多数类,出现过拟合的情况,导致模型预测有偏差。在实际的应用中,乳腺癌预测模型的数据便是这种不平衡的数据,中国女性乳腺癌发病率为42.55/10万,而且目前已有模型大多是利用传统的统计和机器学习的方法建立,致使目前构建的风险预测模型的预测性能降低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于惩罚COX回归的乳腺癌预测方法,解决了传统预测模型在应用于高维不平衡乳腺癌数据时的一系列弊端,具有提取乳腺癌发病的风险因子组合,提高诊断准确度的优点。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
基于惩罚COX回归的乳腺癌预测方法,包括以下步骤:
S1:问卷设计:
基于乳腺癌流行病学特征以及相关影响因素设计调查问卷,问卷涉及遗传因素、高脂饮食、运动缺乏、睡眠、心理等多个维度的非实验危险因子;
S2:随访数据收集:
研究通过该问卷调查收集了来自25-70岁122058名女性的乳腺疾病流行病学研究数据,对其中121837名健康女性进行了为期10年的随访调查,记录随访数据备份;
S3:数据预处理:
对问卷收集来的随访数据进行数据清洗,对重复、缺失、异常数据进行处理,其中若某一列空数据比例高,删除数据,否则,用那列均值等方法来替代空数据,对非数值数据进行数值化处理,最后将“乳腺癌发病”作为所关心的事件建立删失标签,将随访数据处理为生存数据备用;
S4:基预测器构建:
将步骤S3、数据预处理后的全部预测因子作为模型的输入变量,并将得到的原始样本数据集以7:3的比例随机划分为训练样本集和测试样本集;对于训练样本集,通过bootstrap法采样获得T个自助样本集,基于不同的自助样本集分别独立构建惩罚COX回归模型作为集成学习的基预测器;
S5:集成预测器构建:
在步骤S4、基预测器构建后,使用简单平均法组合该T个基预测器,最终形成集成惩罚COX回归模型作为乳腺癌发病预测的集成预测器;
S6:预测因子重要性评估:
基于步骤S4、基预测器构建中的T个惩罚COX回归乳腺癌预测模型得到的每个特征变量的回归系数,使用合适的方式评估预测因子对乳腺癌发病的影响程度,根据评估情况筛选出对乳腺癌预测影响最大的几个预测因子,来构成特征子集,作为模型的又一输入变量,重复步骤S4、S5,得到预测效果好且计算复杂度低的简化模型;
S7:集成预测器性能评估:
由步骤S2、数据预处理中得到的训练样本集训练其他经典预测模型:Gail逻辑回归模型、惩罚COX回归单模型(PCR),由步骤S2、数据预处理中得到的测试样本集分别测试Gail逻辑回归模型、惩罚COX回归单模型(PCR)以及集成惩罚COX回归(EPCR)预测模型,分别计算AUC值、E/O比,绘制ROC曲线以及校准图,以评估比较三种模型的预测性能,验证集成预测器的预测表现是否优于其他模型。
优选的,步骤S1中,在问卷设计过程中,所设计收集的危险因子可不单单为非实验因子,也可纳入临床诊断中的血液指标、乳腺密度、组学指标等实验因子,以提高模型最终预测性能。
优选的,步骤S2中,随访数据收集中,可以将被调查人员的包含到不同的年龄阶段女性。
优选的,步骤S3中,将整理好的乳腺癌生存数据进行重新备份,备份后直接收录在医院乳腺癌专病数据库内。
优选的,步骤S4中,基于不同自助样本集独立训练惩罚COX回归乳腺癌预测模型作为基预测器时,将模型数据参数进行调优,再得到最终预测效果最好的基预测器。
优选的,步骤S6中,依据T个惩罚COX回归乳腺癌预测模型得到的每个预测因子的回归系数,统计每个预测因子回归系数的非零频率作为预测因子重要性评估的指标,并依据预测因子数目参数给定适当阈值,非零频率高于阈值的预测因子作为重要预测因子。
优选的,步骤S6中,使用步骤S3中的测试样本集测试集成惩罚COX回归模型和其他经典模型,比较AUC值、E/O比、校准图等指标,验证集成预测器是否优于其他经典模型。
(三)有益效果
与现有技术相比,本发明提供了基于惩罚COX回归的乳腺癌预测方法,具备以下有益效果:
1、该基于惩罚COX回归的乳腺癌预测方法,通过集成学习通过某种方式将预测效果一般的“弱学习器”组合,构成一个预测效果优良的“强学习器”,结合了多个弱学习器的强学习器,预测效果更准确、更稳定,采用Bagging的集成框架,通过Bootstrap方法搅动数据,对原始训练集有放回地随机再抽样,得到一个新的自助样本,对于T个弱学习器的输出进行平均得到最终的预测输出,可以降低估计量的方差,避免了单一分类器估计的不稳定性,提高了预测性能。
2、该基于惩罚COX回归的乳腺癌预测方法,基于生理状况、心理状况、生活习惯、遗传因素等多个维度的乳腺癌发病危险因素,采用惩罚COX回归模型作为基学习器构建女性乳腺癌长期风险预测模型,其中对回归系数的惩罚方式采用了弹性网惩罚和组惩罚相结合的惩罚方式,并采取数据驱动的方式确定惩罚参数的选取,弹性网惩罚的回归模型可以很好地适应高维数据,兼具Lasso和岭回归估计的优点,具有筛选变量的功能。
3、该基于惩罚COX回归的乳腺癌预测方法,采用Bagging集成框架和惩罚回归模型的独特结构,可以根据T个回归模型中各因素出现次数以及其回归系数的绝对大小,评估各预测因子对乳腺癌发病的影响程度,有助于探讨不同维度因素与我国女性乳腺癌发病风险的关系,从而辅助医生对预防乳腺癌发病给出建议,实际应用预测模型时,根据所评估的预测因子对乳腺癌发病的影响程度,筛选出对乳腺癌预测影响最大的几个预测因子,来构成特征子集,作为模型的又一输入变量,可得到预测效果好且计算复杂度低的简化模型,可在实际中灵活应用。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的Bagging集成框架图;
图2为本发明的具体实施步骤流程图;
图3为本发明的预测性能结果评估图。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3:基于惩罚COX回归的乳腺癌预测方法,包括以下步骤:
S1:问卷设计:
基于乳腺癌流行病学特征以及相关影响因素设计调查问卷,问卷涉及遗传因素、高脂饮食、运动缺乏、睡眠、心理等多个维度的非实验危险因子。
S2:随访数据收集:
研究通过该问卷调查收集了来自中国三省一市25-70岁122058名女性的乳腺疾病流行病学研究数据,对其中121837名健康女性进行了为期10年的随访调查,记录随访数据备份。
S3:数据预处理:
对问卷收集来的随访数据进行数据清洗,对重复、缺失、异常数据进行处理,其中若某一列空数据比例高,删除数据,否则,用列均值等方法来替代空数据,对非数值数据进行数值化处理,最后将“乳腺癌发病”作为所关心的事件建立删失标签,将随访数据处理为生存数据备用。
S4:基预测器构建:
将步骤S3、数据预处理后的全部预测因子作为模型的输入变量,并将得到的原始样本数据集以7:3的比例随机划分为训练样本集和测试样本集;对于训练样本集,通过bootstrap法采样获得T个自助样本集,基于不同的自助样本集分别独立构建惩罚COX回归模型作为集成学习的基预测器。
S5:集成预测器构建:
在步骤S4、基预测器构建后,使用简单平均法组合该T个基预测器,最终形成集成惩罚COX回归模型作为乳腺癌发病预测的集成预测器。
S6:预测因子重要性评估:
基于步骤S4、基预测器构建中的T个惩罚COX回归乳腺癌预测模型得到的每个特征变量的回归系数,使用合适的方式评估预测因子对乳腺癌发病的影响程度,根据评估情况筛选出对乳腺癌预测影响最大的几个预测因子,来构成特征子集,作为模型的又一输入变量,重复步骤S4、S5,得到预测效果好且计算复杂度低的简化模型。
S7:集成预测器性能评估:
由步骤S2、数据预处理中得到的训练样本集训练其他经典预测模型:Gail逻辑回归模型、惩罚COX回归单模型(PCR),由步骤S2、数据预处理中得到的测试样本集分别测试Gail逻辑回归模型、惩罚COX回归单模型(PCR)以及集成惩罚COX回归(EPCR)预测模型,分别计算AUC值、E/O比,绘制ROC曲线以及校准图,以评估比较三种模型的预测性能,验证集成预测器的预测表现是否优于其他模型。
步骤S1中,在问卷设计过程中,所设计收集的危险因子可不单单为非实验因子,也可纳入临床诊断中的血液指标、乳腺密度、组学指标等实验因子,以提高模型最终预测性能,步骤S3中,将整理好的乳腺癌生存数据进行重新备份,备份后直接收录在医院乳腺癌专病数据库内,步骤S4中,基于不同自助样本集独立训练惩罚COX回归乳腺癌预测模型作为基预测器时,将模型数据参数进行调优,再得到最终预测效果最好的基预测器,步骤S6中,依据T个惩罚COX回归乳腺癌预测模型得到的每个预测因子的回归系数,统计每个预测因子回归系数的非零频率作为预测因子重要性评估的指标,并依据预测因子数目参数给定适当阈值,非零频率高于阈值的预测因子作为重要预测因子,步骤S6中,使用步骤S3中的测试样本集测试集成惩罚COX回归模型和其他经典模型,比较AUC值、E/O比、校准图等指标,验证集成预测器是否优于其他经典模型。
采用Bagging的集成框架,通过Bootstrap方法搅动数据,对原始训练集有放回地随机再抽样,得到一个新的自助样本,其中,针对乳腺癌数据的不平衡性,采用Bootstrap方法随机抽取多个样本子集时,使每个抽取的样本子集的样本数量与小样本数量相当,重复T次随机采样,可以得到T个自助样本,对于这T个自助样本,分别独立地训练出T个弱学习器,再对这T个弱学习器通过集合策略来得到最终的强学习器,其中,针对乳腺癌发病风险的预测问题,基于Bagging的集成方法的集合策略是简单平均法,也就是说,对于T个弱学习器的输出进行平均得到最终的预测输出。
基学习器采用惩罚COX回归模型,COX回归单模型中:生存函数指具有变量X=(X1,X2,...,Xm)的观察对象的生存时间T大于某时刻t的概率,S(t,X)=P(T>t,X)称为生存函数,生存函数S(t,X)又称为累积生存率。
死亡函数具有变量X的观察对象的生存时间T不大于某时刻t的概率,F(t,X)=P(T≤t,X)称为死亡函数,死亡函数F(t,X)的实际意义是当观察随访到t时刻的累积死亡率。
死亡密度函数具有变量X的观察对象在某时刻t的瞬时死亡率,称为死亡密度函数,
Figure BDA0003389090340000051
危险率(风险)函数具有变量X,且生存时间已达到t的观察对象在时刻的瞬时死亡率,
Figure BDA0003389090340000061
危险率函数h(t,X)实际上是一个条件瞬间死亡率。
COX回归模型的基本形式:D.R.COX提出了COX比例风险回归模型,它不是直接考察S(t,X)与X的关系,而是用h(t,X)作为因变量,模型的基本形式为:h(t,X)=h0(t)exp(β1X12X2+...+βmXm)(1),式中,β1,β2,...,βm为自变量的偏回归系数,它是须从样本数据作出估计的参数;h0(t)是当X向量为0时,h(t,X)的基准危险率,它是有待于从样本数据作出估计的量,公式(1)简称为COX回归模型。
由于COX回归模型对h0(t)未作任何假定,因此COX回归模型在处理问题时具有较大的灵活性;另一方面,在许多情况下,我们只需估计出参数β,即使在未知h0(t)的情况下,仍可估计出参数β,这就是说,COX回归模型由于含有h0(t),因此它不是完全的参数模型,但仍可根据公式(1)作出参数β的估计,故COX回归模型属于半参数模型。
公式(1)可以转化为:ln[h(t,X)/h0(t)]=lnRR=β1X12X2+...+βmXm(2)。
COX回归模型的假定
比例风险假定:各危险因素的作用不随时间的变化而变化,即h(t,X)/h0(t)不随时间的变化而变化,因此,公式(1)又称为比例风险率模型(PH Model),这一假定是建立COX回归模型的前提条件。
对数线性假定模型中的协变量应与对数风险比呈线性关系,如公式(2)。
COX回归模型中偏回归系数的意义,若Xj是非暴露组观察对象的各因素取值,Xi是暴露组观察对象的各因素取值,由公式(3)就可以求出暴露组对非暴露组的相对危险度RR。
Figure BDA0003389090340000062
由公式(2)可见,模型中偏回归系数βj的流行病学含义是在其他协变量不变的情况下,协变量Xj(j=1,2,...,m)每增加一个测定单位时所引起的相对危险度的自然对数的改变量。即
Figure BDA0003389090340000063
式中,Xj
Figure BDA0003389090340000064
分别表示在不同情况下的取值,当协变量Xj
Figure BDA0003389090340000065
分别取1和0时,其对应的RRj为RRj=exp(βj)。
从公式(1)和公式(4)可以看出有如下关系:
若βj>0,RRj>1,则各Xj取值越大时,h(t,X)的值越大,即Xj为危险因素。
若βj=0,RRj=1,则各Xj的取值对h(t,X)的值没有影响,即Xj为无关因素。
若βj<0,RRj<1,则各Xj取值越大时,h(t,X)的值越小,即Xj为保护因素。
COX回归模型中的偏回归系数可以通过建立偏似然函数,利用Newton-Raphson迭代法求得,其他自变量不变的情况下,变量Xj每增加一个单位,相对危险度RRj的(1-α)可信区间为:
Figure BDA0003389090340000071
式中βj为的标准误。
对于回归模型的假设检验通常采用似然比检验、Wald检验和记分检验,其检验统计量均服从χ2分布,其自由度为模型中待检验的自变量个数,一般说来,COX回归系数的估计和模型的假设检验计算量较大,通常需利用计算机来完成相应的计算。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.基于惩罚COX回归的乳腺癌预测方法,其特征在于,包括以下步骤:
S1:问卷设计:
基于乳腺癌流行病学特征以及相关影响因素设计调查问卷,问卷涉及遗传因素、高脂饮食、运动缺乏、睡眠、心理等多个维度的非实验危险因子;
S2:随访数据收集:
研究通过该问卷调查收集了来自中25-70岁122058名女性的乳腺疾病流行病学研究数据,对其中121837名健康女性进行了为期10年的随访调查,记录随访数据备份;
S3:数据预处理:
对问卷收集来的随访数据进行数据清洗,对重复、缺失、异常数据进行处理,其中若某一列空数据比例高,删除数据,否则,用列均值等方法来替代空数据,对非数值数据进行数值化处理,最后将“乳腺癌发病”作为所关心的事件建立删失标签,将随访数据处理为生存数据备用;
S4:基预测器构建:
将步骤S3、数据预处理后的全部预测因子作为模型的输入变量,并将得到的原始样本数据集以7:3的比例随机划分为训练样本集和测试样本集;对于训练样本集,通过bootstrap法采样获得T个自助样本集,基于不同的自助样本集分别独立构建惩罚COX回归模型作为集成学习的基预测器;
S5:集成预测器构建:
在步骤S4、基预测器构建后,使用简单平均法组合该T个基预测器,最终形成集成惩罚COX回归模型作为乳腺癌发病预测的集成预测器;
S6:预测因子重要性评估:
基于步骤S4、基预测器构建中的T个惩罚COX回归乳腺癌预测模型得到的每个特征变量的回归系数,使用合适的方式评估预测因子对乳腺癌发病的影响程度,根据评估情况筛选出对乳腺癌预测影响最大的几个预测因子,来构成特征子集,作为模型的又一输入变量,重复步骤S4、S5,得到预测效果好且计算复杂度低的简化模型;
S7:集成预测器性能评估:
由步骤S2、数据预处理中得到的训练样本集训练其他经典预测模型:Gail逻辑回归模型、惩罚COX回归单模型(PCR),由步骤S2、数据预处理中得到的测试样本集分别测试Gail逻辑回归模型、惩罚COX回归单模型(PCR)以及集成惩罚COX回归(EPCR)预测模型,分别计算AUC值、E/O比,绘制ROC曲线以及校准图,以评估比较三种模型的预测性能,验证集成预测器的预测表现是否优于其他模型。
2.基于惩罚COX回归的乳腺癌预测方法,其特征在于:步骤S1中,在问卷设计过程中,所设计收集的危险因子可不单单为非实验因子,也可纳入临床诊断中的血液指标、乳腺密度、组学指标等实验因子,以提高模型最终预测性能。
3.基于惩罚COX回归的乳腺癌预测方法,其特征在于:步骤S2中,随访数据收集中,可以将被调查人员的包含到不同的年龄阶段女性。
4.基于惩罚COX回归的乳腺癌预测方法,其特征在于:步骤S3中,将整理好的乳腺癌生存数据进行重新备份,备份后直接收录在医院乳腺癌专病数据库内。
5.基于惩罚COX回归的乳腺癌预测方法,其特征在于:步骤S4中,基于不同自助样本集独立训练惩罚COX回归乳腺癌预测模型作为基预测器时,将模型数据参数进行调优,再得到最终预测效果最好的基预测器。
6.基于惩罚COX回归的乳腺癌预测方法,其特征在于:步骤S6中,依据T个惩罚COX回归乳腺癌预测模型得到的每个预测因子的回归系数,统计每个预测因子回归系数的非零频率作为预测因子重要性评估的指标,并依据预测因子数目参数给定适当阈值,非零频率高于阈值的预测因子作为重要预测因子。
7.基于惩罚COX回归的乳腺癌预测方法,其特征在于:步骤S6中,使用步骤S3中的测试样本集测试集成惩罚COX回归模型和其他经典模型,比较AUC值、E/O比、校准图等指标,验证集成预测器是否优于其他经典模型。
CN202111458931.2A 2021-12-02 2021-12-02 基于惩罚cox回归的乳腺癌预测方法 Pending CN114141360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111458931.2A CN114141360A (zh) 2021-12-02 2021-12-02 基于惩罚cox回归的乳腺癌预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111458931.2A CN114141360A (zh) 2021-12-02 2021-12-02 基于惩罚cox回归的乳腺癌预测方法

Publications (1)

Publication Number Publication Date
CN114141360A true CN114141360A (zh) 2022-03-04

Family

ID=80387003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111458931.2A Pending CN114141360A (zh) 2021-12-02 2021-12-02 基于惩罚cox回归的乳腺癌预测方法

Country Status (1)

Country Link
CN (1) CN114141360A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364268A (zh) * 2022-11-01 2023-06-30 山东大学 一种新型基于惩罚cox回归的乳腺癌预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874647A (zh) * 2017-01-06 2017-06-20 吴安华 一种脑胶质母细胞瘤患者生存期预测系统
CN111128385A (zh) * 2020-01-17 2020-05-08 河南科技大学第一附属医院 一种用于食管鳞癌的预后预警系统及其应用
CN112542247A (zh) * 2020-08-17 2021-03-23 中山大学孙逸仙纪念医院 乳腺癌新辅助化疗后病理学完全缓解概率预测方法及系统
CN112927795A (zh) * 2021-02-23 2021-06-08 山东大学 基于bagging算法的乳腺癌预测方法
CN113658696A (zh) * 2021-07-22 2021-11-16 四川大学华西医院 一种基于患者年龄、营养指标、肿瘤分期和肿瘤标志物联合预测胃癌预后的预测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874647A (zh) * 2017-01-06 2017-06-20 吴安华 一种脑胶质母细胞瘤患者生存期预测系统
CN111128385A (zh) * 2020-01-17 2020-05-08 河南科技大学第一附属医院 一种用于食管鳞癌的预后预警系统及其应用
CN112542247A (zh) * 2020-08-17 2021-03-23 中山大学孙逸仙纪念医院 乳腺癌新辅助化疗后病理学完全缓解概率预测方法及系统
CN112927795A (zh) * 2021-02-23 2021-06-08 山东大学 基于bagging算法的乳腺癌预测方法
CN113658696A (zh) * 2021-07-22 2021-11-16 四川大学华西医院 一种基于患者年龄、营养指标、肿瘤分期和肿瘤标志物联合预测胃癌预后的预测系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364268A (zh) * 2022-11-01 2023-06-30 山东大学 一种新型基于惩罚cox回归的乳腺癌预测方法
CN116364268B (zh) * 2022-11-01 2023-11-17 山东大学 一种新型基于惩罚cox回归的乳腺癌预测方法

Similar Documents

Publication Publication Date Title
Chen et al. Performance comparison of artificial neural network and logistic regression model for differentiating lung nodules on CT scans
D'Agostino Jr et al. Estimating and using propensity scores with partially missing data
Chetty et al. Role of attributes selection in classification of Chronic Kidney Disease patients
JP5450556B2 (ja) 診療情報処理装置および方法並びにプログラム
CN102930163A (zh) 一种2型糖尿病风险状态判定方法
Liu et al. Comparison and development of advanced machine learning tools to predict nonalcoholic fatty liver disease: An extended study
Khajehei et al. Data mining and medical research studies
Mehmood et al. Systematic framework to predict early-stage liver carcinoma using hybrid of feature selection techniques and regression techniques
CN113593708A (zh) 基于集成学习算法的脓毒症预后预测方法
CN115099331A (zh) 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统
CN113128654B (zh) 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
CN111986814A (zh) 一种红斑狼疮患者的狼疮性肾炎预测模型的建模方法
CN114141360A (zh) 基于惩罚cox回归的乳腺癌预测方法
CN116364268B (zh) 一种新型基于惩罚cox回归的乳腺癌预测方法
Lu et al. Data enhancement and deep learning for bone age assessment using the standards of skeletal maturity of hand and wrist for chinese
CN116564521A (zh) 一种慢性病风险评估模型建立方法、介质及系统
Cox et al. External Validation of Mortality Prediction Models for Critical Illness Reveals Preserved Discrimination but Poor Calibration
Toma et al. Discovery and integration of univariate patterns from daily individual organ-failure scores for intensive care mortality prediction
CN115482923A (zh) 一种用于判断covid-19分期的基于人工智能的ct图像动态3d影像组学系统
CN114445374A (zh) 一种基于扩散峰度成像mk图的图像特征处理方法及系统
Eadie et al. Recommendations for research design and reporting in computer-assisted diagnosis to facilitate meta-analysis
Piñeros-Fernández Artificial intelligence applications in the diagnosis of neuromuscular diseases: a narrative review
Theissen et al. Learning cellular phenotypes through supervision
Kavya et al. Heart Disease Prediction Using Logistic Regression
Hsu et al. A comprehensive study of age-related macular degeneration detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination