CN117116477A - 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统 - Google Patents

基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统 Download PDF

Info

Publication number
CN117116477A
CN117116477A CN202310893011.6A CN202310893011A CN117116477A CN 117116477 A CN117116477 A CN 117116477A CN 202310893011 A CN202310893011 A CN 202310893011A CN 117116477 A CN117116477 A CN 117116477A
Authority
CN
China
Prior art keywords
xgboost
model
data
random forest
prostate cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310893011.6A
Other languages
English (en)
Inventor
陈锐
姜庆超
赖衍成
周承宇
陈琪
邓龙昕
朱凌煊
张倩雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Naval Military Medical University of PLA
Original Assignee
First Affiliated Hospital of Naval Military Medical University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Naval Military Medical University of PLA filed Critical First Affiliated Hospital of Naval Military Medical University of PLA
Priority to CN202310893011.6A priority Critical patent/CN117116477A/zh
Publication of CN117116477A publication Critical patent/CN117116477A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供了一种基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及其系统。其构建方法包括:步骤S1:采集各家医院病例真实原始数据,并对原始数据进行清洗、预处理、填充和标准化,并按照一定比例划分为训练集和验证集;步骤S2:基于训练集,根据AUC值筛选出最佳性能的预测模型组合为随机森林算法结合XGBoost算法;步骤S3:利用随机森林算法进行特征筛选,并利用XGBoost算法构建预测模型。本发明利用RF算法进行多模态信息抽取,筛选出最具有区分性的特征组成用于建模的特征集;并利用XGBoost算法构建多模态融合的分类模型,并在分类器中进行模型训练。本申请在验证集上可达到92%的准确率,可高效快速实现前列腺癌的风险预测诊断。

Description

基于随机森林和XGBoost的前列腺癌患病风险预测模型的构 建方法及系统
技术领域
本发明涉及疾病风险预测技术领域,尤其涉及针对前列腺癌的患病风险预测方法。
背景技术
前列腺癌是老年男性泌尿生殖系统常见的恶性肿瘤之一,近年来在亚洲男性中迅速流行。在全国肿瘤登记地区中,前列腺癌位于目前中国男性泌尿生殖系统恶性肿瘤发病第一位,其发病率和死亡率分别位列全球男性恶性肿瘤发病和死亡谱的第2位和第5位,中国前列腺癌发病数和死亡数分别占全球前列腺癌发病数和死亡数的8.2%和13.6%,是严重威胁男性健康的高发疾病。近年来,随着中国人口老龄化加剧等原因,前列腺癌的发病和死亡呈明显上升趋势,年增长率高达7.2%,形势不容乐观。早期前列腺癌局限于前列腺包膜内,行前列腺癌根治手术或者放疗,5年生存率接近100%,但当肿瘤扩散到包膜外或远处转移时,肿瘤的治疗就显得相当困难,5年生存率只有28%。因此,前列腺癌的早期诊断对于其防治来说至关重要。
前列腺特异性抗原(PSA)作为目前诊断前列腺癌最为公认、应用最为广泛的分子诊断标记物,在目前前列腺癌的诊断方面起着极为重要的作用。但PSA是器官特异性而非肿瘤特异性的分子标志物,患者的PSA为4-20ng/ml时可能不需要前列腺穿刺活检,因其特异性较低导致临床成本远高于所需。然而,中国的前列腺穿刺检查阳性率仅为33%,这意味着有67%的男性经历了前列腺穿刺检查,结果却未发现前列腺癌。同时,前列腺穿刺检查本身是一种可能带来不适和并发症的介入性操作,需要将超声探头伸入患者直肠,并在超声引导下连续穿刺12针或更多针数,连续的穿刺给患者带来非常不适的感受程序,同时也可能伴随着一定风险的如疼痛、术后感染、穿刺后出血等,其中严重的情况可能导致患者感染性休克、失血性休克等,最常见的并发症是穿刺后出血,包括血尿和血精,这些都可能影响患者的日常生命健康及生活质量。因此,临床上亟需新型的前列腺癌风险预测方法或系统来提高现有PSA检测的特异性和前列腺癌的检出率,从而减少不必要的前列腺穿刺活检。
人工智能(AI)是一种善于模拟、延伸和扩展人的智能的理论、方法、技术的一门新兴技术科学。在临床信息中的数据包含患者的个人基础信息、生命体征、疾病描述、诊断信息、检查信息、治疗信息、病程记录、医嘱、护理记录、手术记录等,存在非结构化的文本信息,还有图形图像信息,其中还包含了许多医学专业术语。随着人工智能的迅速发展,其强大的功能在处理与整合临床上多参数、多维度纷繁复杂的信息资源上发挥着举足轻重的作用。但在本发明实施之前,基于AI技术结合常规体检数据预测前列腺癌风险预测系统尚未建立。
发明内容
为了克服上述技术缺陷,本发明的第一个方面提供一种基于随机森林和XGBoost(eXtreme Gradient Boosting,极度梯度提升树)的前列腺癌患病风险预测模型的构建方法,其包括:
步骤S1:采集各家医院病例真实原始数据,并对原始数据进行清洗、预处理、填充和标准化,并按照一定比例划分为训练集和验证集;
步骤S2:基于训练集,根据AUC值筛选出最佳性能的预测模型组合为随机森林算法结合XGBoost算法;
步骤S3:利用随机森林算法进行特征筛选,并利用XGBoost算法构建预测模型。
进一步地,在步骤S1中,首先,将数据中模型不能识别的医学符号转换为数字符号,保留60%数据完整度的病例和特征;然后,用中位数填充法进行各个特征缺失值的填充,去除原始数据中完整度较低的数据;然后,进一步通过相关性分析构建新的特征向量。
进一步地,在步骤S2中,本发明选择的模型包括特征选择方法和预测分类方法,通过不同特征选择方法和不同预测分类方法的组合在病例数据上的AUC值大小进行选择,所述特征选择方法包括随机森林、极度梯度提升树、稀疏神经网络、互信息度量、LASSO回归、线性相关性度量和最大相关和最小冗余算法,所述预测分类方法包括随机森林分类器、极度梯度提升树、自适应分类器、K邻近分类器、多层感知器分类器、支持向量机分类器、决策树分类器,最终选择随机森林的特征选择方法与XGBoost的预测分类方法为最佳建模组合。
进一步地,在步骤S3中,运用随机森林算法进行特征筛选的方法包括以下步骤:
首先,用随机森林算法分别对数据进行多模态信息抽取,得到每个特征的重要性,
在随机森林算法中,对每一棵决策树,选择相应的袋外数据计算袋外数据误差,其基本形式如下式所示:
在公式(1)中,N为样本总数,m为误分样本个数,
随机对袋外数据OBB所有样本的特征加入噪声干扰,再次计算袋外数据误差,记为errOBB2,假设森林中有N棵树,则特征的重要性为:
∑(errOBB1-errOBB2)/N (2)
根据公式(2)计算每个特征的重要性;
然后,筛选出重要性高的特征组成建模特征集,同时降低数据维度。
进一步地,在步骤S3中,运用XGBoost方法建立预测模型的方法包括以下步骤:
首先,基于建模特征集,并利用XGBoost算法构建多模态融合的初始分类模型,并在分类器中进行模型训练,每一次迭代都会添加一棵新的树,这棵树是通过在特征空间进行高效的搜索并选择最优分裂点生成的,在每一次添加新的树之后,都会根据目标函数的梯度和Hessian矩阵的信息来调整每个叶子节点的权重,使得每一棵新的树都试图纠正前一棵树留下的残差,以最小化预测误差,利用交叉验证的策略对训练好的模型进行性能评估和优化,得到最优的预测模型;
本申请首次采用了多模态数据融合的方法,将来自不同来源和类型的数据融合在一起,以提供更全面的信息供模型学习。这个创新点使模型在处理具有多元复杂性的数据时,如生物医学数据,具有出色的预测性能。
在利用交叉验证的策略对训练好的模型进行性能评估和优化时,XGBoost基于梯度提升框架,并利用决策树的集合,通过迭代地向集合中添加决策树来工作,每棵树都试图纠正先前树的错误。XGBoost利用梯度下降优化策略来最小化损失函数,从而有效地优化模型的预测能力。
然后,所述训练好的预测模型在对病例进行分类时,根据该病例的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,将每棵树对应的预测分数相加即可得到该病例的患病风险值,
在XGBoost中,化简确定目标函数为:
在公式(3)中,Gj表示所有样本的一阶导之和,Hj表示所有样本的二阶导之和,γ表示对该项的调节函数,T表示一棵树的叶子节点数量,ft表示第t轮迭代后的模型对输入样本的预测输出。
本发明的第二个方面提供一种基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建系统,其包括:
数据采集及处理模块,所述数据采集及处理模块用于采集各家医院病例真实原始数据,并对原始数据进行清洗、预处理、填充和标准化,并按照一定比例划分为训练集和验证集;
筛选模块,所述筛选模块用于基于训练集,根据AUC值筛选出最佳性能的预测模型组合为随机森林算法结合XGBoost算法;
模型构建模块,模型构建模块用于利用随机森林算法进行特征筛选,并利用XGBoost算法构建预测模型。
进一步地,所述数据采集及处理模块用于:首先,将数据中模型不能识别的医学符号转换为数字符号,保留60%数据完整度的病例和特征;然后,用中位数填充法进行各个特征缺失值的填充,去除原始数据中完整度较低的数据;然后,进一步通过相关性分析构建新的特征向量。
进一步地,筛选模块用于通过不同特征选择方法和不同预测分类方法的组合在病例数据上的AUC值大小进行选择,所述特征选择方法包括随机森林、极度梯度提升树、稀疏神经网络、互信息度量、LASSO回归、线性相关性度量和最大相关和最小冗余算法,所述预测分类方法包括随机森林分类器、极度梯度提升树、自适应分类器、K邻近分类器、多层感知器分类器、支持向量机分类器、决策树分类器,最终选择随机森林的特征选择方法与XGBoost的预测分类方法为最佳建模组合。
进一步地,所述模型构建模块用于运用随机森林算法进行特征筛选:
首先,用随机森林算法分别对数据进行多模态信息抽取,得到每个特征的重要性,
在随机森林算法中,对每一棵决策树,选择相应的袋外数据计算袋外数据误差,其基本形式如下式所示:
在公式(1)中,N为样本总数,m为误分样本个数,
随机对袋外数据OBB所有样本的特征加入噪声干扰,再次计算袋外数据误差,记为errOBB2,假设森林中有N棵树,则特征的重要性为:
∑(errOBB1-errOBB2)/N (2)
根据公式(2)计算每个特征的重要性;
然后,筛选出重要性高的特征组成建模特征集,同时降低数据维度。
进一步地,所述模型构建模块用于运用XGBoost方法建立预测模型:
首先,基于建模特征集,并利用XGBoost算法构建多模态融合的初始分类模型,并在分类器中进行模型训练,每一次迭代都会添加一棵新的树,这棵树是通过在特征空间进行高效的搜索并选择最优分裂点生成的,在每一次添加新的树之后,都会根据目标函数的梯度和Hessian矩阵的信息来调整每个叶子节点的权重,使得每一棵新的树都试图纠正前一棵树留下的残差,以最小化预测误差,利用交叉验证的策略对训练好的模型进行性能评估和优化,得到最优的预测模型;
然后,所述训练好的预测模型在对病例进行分类时,根据该病例的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,将每棵树对应的预测分数相加即可得到该病例的患病风险值,
在XGBoost中,化简确定目标函数为:
在公式(3)中,Gj表示所有样本的一阶导之和,Hj表示所有样本的二阶导之和,γ表示对该项的调节函数,T表示一棵树的叶子节点数量,ft表示第t轮迭代后的模型对输入样本的预测输出。
采用了上述技术方案后,与现有技术相比,具有以下有益效果:
在前列腺癌这一医学领域,本申请首次提出了基于AI技术结合常规体检数据的方法来预测前列腺癌患病风险。本申请筛选并鉴定出基于临床信息的最优化的前列腺癌早期筛查及精准诊断模型,从而建立了临床多模态数据的表示模型,采用随机森林方法分析提取临床数据特征,进行多模态信息抽取,有效筛选出最具有区分性的特征组成用于建模的特征集,并采用shap模型解释了特征选取的合理性,剔除冗余特征,降低了数据维度。利用XGBoost算法构建多模态融合的分类模型,并在分类器中进行模型训练,通过XGBoost分类可有效计算出某一病例的前列腺癌患病风险,预测准确率可达到92%,在其他医院也有相似的结果,具有较好的鲁棒性。在实践中,该模型能够在保证正确识别出90.45%的前列腺癌病例的同时,正确识别出84.50%的非前列腺癌病例。这样的结果意味着模型具有高准确性和高可靠性,超过了其他相关研究的表现。
本申请利用人工智能方法应用于常规临床数据预测前列腺癌的患病风险并进行分类,这个模型的输入是患者的常规体检数据等,这意味着它的应用不需要额外的设备或者检查,这些数据在基层医院都可以轻松获取,也不会给患者带来额外的负担,这也使得我们的模型具有很高的可行性和普适性。而且,该模型可以轻易地在线下载并应用,从而大大降低了前列腺癌诊断的成本,使得新的诊断方法可以广泛推广。此外,这个模型利用了大量亚洲人的临床数据进行训练,可以更好地适应亚洲人的特点,从而提高在亚洲人群中的预测准确性。总而言之,该方法以及系统通过非侵入的方式实现前列腺癌的早期诊断,提高诊断的灵敏度、特异度和准确性,避免临床上不必要的前列腺穿刺活检。这种快速、准确的自动预测方法对前列腺癌的预防和诊断具有重要的意义。
采用本申请的预测系统进行前列腺癌患病风险预测的输入指标是患者的常规体检数据,这意味着它的应用不需要额外的设备或者检查,这些数据在基层医院都可以轻松获取,也不会给患者带来额外的负担,这也使得我们的模型具有很高的可行性和普适性。同时常规的体检数据就可以提供足够的信息,模型通过学习这些特征与前列腺癌的关系可以预测患者是否可能患有前列腺癌。而且模型可以轻易地在线下载并应用,从而大大降低了前列腺癌诊断的成本,使得新的诊断方法可以广泛推广。在实践中,该模型能够在保证正确识别出90.45%的前列腺癌病例的同时,正确识别出84.50%的非前列腺癌病例。这样的结果意味着模型具有高准确性和高可靠性。这一结果超过了其他相关研究的表现。
附图说明
图1是本发明基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建系统的模块结构图;
图2是本发明基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法的流程图;
图3是本发明基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法的流程原理图;
图4是本发明基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统在筛选最优预测模型组合时的特征选择方法与分类方法组合预测结果热力图,图中的数值为AUC值;X轴是特征选择的方法,依次包括随机森林(RF)、极度梯度提升树(XGB)、稀疏神经网络(SNN)、互信息度量(MI)、LASSO回归(LASSO)、线性相关性度量(LC)和最大相关和最小冗余算法(MRMR),Y轴是预测是否患有前列腺癌的方法,分别极度梯度提升树(XGBC)、自适应分类器(ADAC)、随机森林分类器(RFC)、决策树分类器(DTC)、K邻近分类器(KNC)、支持向量机分类器(SVMC)、多层感知器分类器(MLPC);
图5是本发明基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统在利用随机森林算法进行特征筛选时的特征选择结果及特征贡献度;其中,比重排名前五的特征包括超声下肿瘤面积、γ谷氨酰转移酶、年龄、游离PSA与PSA比值以及血清PSA绝对值;
图6是将本发明基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统的前列腺癌患病风险预测模型在三甲医院A内部数据训练并验证的ROC曲线;
图7是将本发明基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统的前列腺癌患病风险预测模型在三甲医院A内部数据训练并在三甲医院B数据验证的ROC曲线;
图8是将本发明基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统的前列腺癌患病风险预测模型在三甲医院A内部数据训练并在三甲医院C数据验证的ROC曲线;
图9是本发明基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统的模型可解释性Shap图;其中,对模型输出影响排名前五的特征为γ谷氨酰转移酶、超声下肿瘤面积、年龄、游离PSA与PSA比值以及碱性磷酸酶。
具体实施方式
以下结合附图与具体实施例进一步阐述本发明的优点。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
实施例前列腺癌患病风险预测模型的构建过程
如图1所示,本实施例提供一种基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建系统,其包括:数据采集及处理模块100、筛选模块200,以及模型构建模块300。
如图2和图3所示,采用上述前列腺癌患病风险预测模型的构建系统进行预测模型构建的方法包括步骤S1-步骤S3:
步骤S1:采集各家医院病例真实原始数据,并对原始数据进行清洗、预处理、填充和标准化,并按照一定比例划分为训练集和验证集
通过医院患者系统采集患者的117项数据(如下表1所示),进一步使用7种不同的算法筛选出与前列腺癌诊断最为相关的18项指标,包括年龄、尿比重、超声下肿瘤面积、血清碱性磷酸酶、血清白蛋白、fPSA、PSA、fPSA/PSA、血糖、淋巴细胞百分比、血钾、血钠、血小板分布宽度、红细胞压积、γ-谷酰胺转酞酶、血淋巴细胞绝对值、血中性粒细胞绝对值以及平均红细胞血红蛋白量。该18项指标的特点是检测工具成熟,获取成本低,患者容易配合,但其蕴含的价值往往被忽略。在本发明中,我们使用一种人工智能辅助方法,将该18种指标用于辅助诊断前列腺癌,这在先前的研究中并未报道。
表1通过医院患者系统采集患者的117项数据类别
数据采集及处理模块100用于采集各家医院病例真实原始数据,并对原始数据进行清洗、预处理、填充和标准化,并按照一定比例划分为训练集和验证集。
首先,将数据中模型不能识别的医学符号转换为数字符号,保留60%数据完整度的病例和特征。本发明共收集到来自三甲医院A、三甲医院B、三甲医院C(分别来自上海市、南京市、苏州市)的病例数据共计4099例。因为本申请拟用机器学习方法对前列腺癌进行分类预测,于是首先对于数据中模型不能识别的医学符号,例如“+”、“阳性”、“±”等,我们将其转换为数字符号。
然后,去除原始数据中完整度较低的数据。由于采集到的病例数据完整度不高,采用保留60%数据完整度的方法,对于数据量不足的病例数据和特征数据进行行、列方向的删除,最终获取到3411例数据(其中三甲医院A,2232例,阳性875例;三甲医院B,633例,阳性156例;三甲医院C,546例,阳性190例),共计117个特征。
然后,用中位数填充法进行各个特征缺失值的填充。在上一步的基础上得到的数据仍存在部分缺失值,由于缺失数据属于完全随机缺失(Missing Completely AtRandom),因此采用均值填充法、中位数填充法、临近值填充法、众数填充法,随机抽样插补法进行缺失值的填充,根据预测结果,最终选用中位数填充法进行各个特征缺失值的填充。由此得到可用于分类及预测的完整数据表。
然后,进一步通过相关性分析构建新的特征向量。
最后,按照一定比例划分为训练集和验证集。训练集用于构建预测模型;验证集用于后续对预测模型的效果进行验证。示例地,训练集:验证集按照70%:30%的比例进行划分。
步骤S2:基于训练集,根据AUC值筛选出最佳性能的预测模型组合为随机森林算法结合XGBoost算法
筛选模块200用于基于训练集,根据AUC值筛选出最佳性能的预测模型组合为随机森林算法结合XGBoost算法。
首先,本发明选择的模型包括特征选择方法和预测分类方法,通过不同特征选择方法和预测分类方法的组合在病例数据上的表现进行最终确定。
然后,由于预处理得到的数据变量维数高,部分变量间相关性大,在进行模型训练时,会影响模型训练效果。所以本文先采取特征选择的方法减少要在不同分类器中测试的特征的数量,选择出对于造成前列腺癌贡献比较大的特征;在此基础上,利用挑选出来的特征进行后续模型的训练,由此提高模型运算速率和模型预测效果。具体采用了以下七种方法进行特征选择,分别是随机森林(Random Forest,RF)、极度梯度提升树(XGBoost,XGB)、稀疏神经网络(Sparse Neural Network,SNN)、互信息度量(Mutual Information,MI)、LASSO回归(Least absolute shrinkage and selection operator,LASSO)、线性相关性度量(Linear Correlation,LC)和最大相关和最小冗余算法(Max-Relevance and Min-Redundancy,MRMR)。
其次,本发明实现的是对于是否患前列腺癌的预测,因此属于分类预测,所以我们采取分类算法对于上述特征选择后的数据集进行分类预测,具体采用了以下7种分类预测方法,分别是随机森林分类器(Random Forest Classifier,RFC)、极度梯度提升树(XGBoost Classifier,XGBC)、自适应分类器(Adaptive Boosting Classifier,ADAC)、K邻近分类器(KNeighbors Classifier,KNC)、多层感知器分类器(Multilayer PerceptronClassifier,MLPC)、支持向量机分类器(Support Vector Machines Classifier,SVMC)、决策树分类器(Decision Tree Classifier,DTC)。
最后,通过上述特征选择方法和预测分类方法的组合,共测试了49(7*7)种组合,对比预测效果,最终选择采用随机森林(Random Forest,RF)的特征选择方法配合极度梯度提升树(XGBoost Classifier,XGBC)进行建模,如图4所示,此种组合在病例数据集上的测试准确率达到最高的0.92,图4中所显示的数字代表在训练集上的预测准确率,在49种组合中,随机森林结合极度梯度提升树的组合方式的AUC值最高,说明这种组合方式的模型预测效果最好。
步骤S3:利用随机森林算法进行特征筛选,并利用XGBoost算法构建预测模型
模型构建模块300用于利用随机森林算法进行特征筛选,并利用XGBoost算法构建预测模型。
1.模型构建模块300用于运用随机森林算法进行特征筛选的方法包括以下步骤:
首先,用随机森林算法分别对数据进行多模态信息抽取,得到每个特征的重要性,
在随机森林算法中,对每一棵决策树,选择相应的袋外数据计算袋外数据误差,其基本形式如下式所示:
在公式(1)中,N为样本总数,m为误分样本个数,随机对袋外数据OBB所有样本的特征加入噪声干扰,再次计算袋外数据误差,记为errOBB2,
假设森林中有N棵树,则特征的重要性为:
∑(errOBB1-errOBB2)/N (2)
加入随机噪声后,errOBB2大幅上升,则这个特征对于样本的预测结果有很大影响,进而说明重要程度比较高。根据公式(2)计算每个特征的重要性,并按降序排序,降低数据维度,删除贡献度较低的特征,得到117维,筛选出重要性高的特征组成建模特征集,特征选择结果及特征贡献度如图5所示。
2.模型构建模块300还用于运用XGBoost方法建立预测模型的方法包括以下步骤:
首先,基于建模特征集,并利用XGBoost算法构建多模态融合的初始分类模型,并在分类器中进行模型训练,每一次迭代都会添加一棵新的树,这棵树是通过在特征空间进行高效的搜索并选择最优分裂点生成的,在每一次添加新的树之后,都会根据目标函数的梯度和Hessian矩阵的信息来调整每个叶子节点的权重,使得每一棵新的树都试图纠正前一棵树留下的残差,以最小化预测误差,利用交叉验证的策略对训练好的模型进行性能评估和优化,得到最优的预测模型;
然后,所述训练好的预测模型在对病例进行分类时,根据该病例的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,将每棵树对应的预测分数相加即可得到该病例的患病风险预测值。
在XGBoost中,化简确定目标函数为:
在公式(3)中,Gj表示所有样本的一阶导之和,Hj表示所有样本的二阶导之和,γ表示对该项的调节函数,T表示一棵树的叶子节点数量,ft表示第t轮迭代后的模型对输入样本的预测输出。
本申请中的XGBoost在目标函数里加入了正则项,正则项里包含了树的叶子节点个数,可有效的防止过拟合。
验证例1前列腺癌患病风险预测模型的效果验证
首先,预测结果如表2所示。其中AUC值是机器学习领域的评价指标,AUC越接近1证明模型效果越好。特异性(specificity)和灵敏度(sensitivity)两个指标用来描述分类器的性能。NPV(Negative predictive value)和PPV(Positive predictive value)分别代表阴性和阳性病例的预测准确率。
表2预测模型在不同医院中的验证效果
由表2我们可以看出在内部分组验证,以及在外部独立验证中,我们建立的预测模型,可以获得出色的预测准确率,其中诊断效能AUC:(ROC曲线下面积)无论在内部或者外部验证中都达到了0.80以上,证明该模型总体上的预测效果较好。具体来说,模型的灵敏度(Sensitivity)都在接近80%-90%,也就是说该模型在实际为阳性的样本中,判断为真阳性的比率在内部验证中达到95%,而外部验证也得到了80%左右的好结果,证明该模型预测的灵敏度较好。特异度(Specificity):该模型在实际为阴性的样本中,判断为真阴性的比率在内部验证中达到了91%,在两个外部验证队列中都接近70%,表明该模型预测的特异度良好。阴性预测值(NPV):该模型预测判断为阴性的结果中真正为阴性的比例在内部验证中达到了94%,在两个外部验证队列都达到了60%,表明其阴性预测能力较好。阳性预测值(PPV):该模型预测判断为阳性的结果中真正为阳性的比例在内部验证中超过92%,在两个外部验证队列都达到80%以上,表明其阳性预测能力优异。
图6、图7、图8分别代表所建立的模型在三甲医院A内部数据训练并验证、三甲医院A数据训练同时在三甲医院B数据验证、三甲医院A内部数据训练同时在三甲医院C数据验证情况下输出的ROC曲线,可以看出曲线平滑,AUC值较高,模型表现良好。
为验证模型的可解释性,本文采用shap模型进行解释性分析。如图9所示,该图为每一个样本绘制出每个特征的shap值,这可以更好地理解整体模式,并允许发现预测异常值。shap图由成千上万个样本点组成,每一行代表一个特征,横坐标为SHAP值,表示每个特征对前列腺癌分组的影响程度,横坐标正半轴代表特征对该变量呈正相关,趋近于0-1分类中的1类标签。一个点代表一个样本,颜色表示特征值,其中红色代表高,蓝色代表数值低。值得说明的是该shap可解释模型是基于XGBoost模型的,且横坐标的变量由上到下分别代表了对生物活性值影响程度的大小(这里的影响程度不分正负,代表一种重要性绝对值排序),由此可见本文选择的模型是可解释的,且所挑选的特征具备较好的分类效果。
验证例2前列腺癌患病风险预测模型的临床应用
当利用实施例1构建好的预测模型进行前列腺癌患病风险预测的时候,示例地,本验证例2提供一种前列腺癌患病风险预测装置,其包括:
数据库,所述数据库用于存储前列腺癌病例的真实原始数据及其处理后的数据集;
存储器,所述存储器用于存储能够在处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如实施例1中的基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法中的步骤;
数据调用系统,所述数据调用系统直接与医院信息系统HIS进行对接,通过指定地址,调取检验数据、B超数据、患者基本信息等,获取患者的各项指标,并进行数据的预处理以便处理器快速识别和运算。处理器,所述处理器用于调用数据库中数据,运行存储器中的计算机程序,生成前列腺癌患病风险预测模型,并利用所述前列腺癌患病风险预测模型对输入的病例数据进行计算,得到该病例的前列腺癌患病风险预测值;
显示单元,所述显示单元用于输出该病例的前列腺癌患病风险预测值,并同时展示对患者前列腺癌风险的评估结论,后续监测、诊断的建议。
在采用上述前列腺癌患病风险预测装置进行前列腺癌患病风险预测时,其能够直接从医院的HIS系统中调取出该病例的与前列腺癌诊断最为相关的18项指标数据(年龄、尿比重、超声下肿瘤面积、血清碱性磷酸酶、血清白蛋白、fPSA、PSA、fPSA/PSA、血糖、淋巴细胞百分比、血钾、血钠、血小板分布宽度、红细胞压积、γ-谷酰胺转酞酶、血淋巴细胞绝对值、血中性粒细胞绝对值以及平均红细胞血红蛋白量),并快速输出该病例的前列腺癌患病风险预测值,并同时展示对患者前列腺癌风险的评估结论,后续监测、诊断的建议。
示例地,某地区10000名中老年男性参加健康体检,其中传统前列腺癌诊断指标上升的患者(PSA升高)1000人,按照传统诊疗模式,1000人都需要进行前列腺穿刺,这将会导致每人5000元人民币左右的经济开支,但是其中只会有不到400人确诊为前列腺癌,而其他的600人将接受不必要的前列腺穿刺,承受不必要的痛苦。
但是,采用本发明提出的人工智能模型,将避免其中39%的不必要穿刺,可以节约195万元的直接经济开支,减少相应的患者及家属的其他支出,并可以保证90%的肿瘤患者被发现,极大的降低了需要穿刺的患者比例。由于本发明是基于每年的常规体检数据的,即使部分患者在今年因为肿瘤尚处在早期,无法有效发现和识别,但是由于每年常规进行的体检项目,可以在后续年度体检中持续检测,并做出动态检测,在第二年及以后的检查中也可以更明确的发现肿瘤。
与传统预测模型效果对比:如表3所示,与国内、其他亚洲国家研发的前列腺癌风险预测模型相比,本发明的效能提升显著优于同类模型。本模型相对于PSA的诊断效能AUC提升为0.164,显著优于Asian-ERSPC研究(AUC提升0.08,Prostate Cancer ProstaticDis.2017)、Tang P等的研究(AUC提升0.05,Asian J Androl.2013)、Chen等的研究(AUC提升,Urol Oncol.2016)Yoon等的研究(AUC提升0.08,Prostate.2012)。
表3本申请的预测模型与传统预测模型效果对比
应当注意的是,本发明的实施例有较佳的实施性,且并非对本发明作任何形式的限制,任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例,但凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法,其特征在于,包括:
步骤S1:采集各家医院病例真实原始数据,并对原始数据进行清洗、预处理、填充和标准化,并按照一定比例划分为训练集和验证集;
步骤S2:基于训练集,根据AUC值筛选出最佳性能的预测模型组合为随机森林算法结合XGBoost算法;
步骤S3:利用随机森林算法进行特征筛选,并利用XGBoost算法构建预测模型。
2.如权利要求1所述的基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法,其特征在于,在步骤S1中,首先,将数据中模型不能识别的医学符号转换为数字符号,保留60%数据完整度的病例和特征;然后,用中位数填充法进行各个特征缺失值的填充,去除原始数据中完整度较低的数据;然后,进一步通过相关性分析构建新的特征向量。
3.如权利要求1所述的基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法,其特征在于,在步骤S2中,本发明选择的模型包括特征选择方法和预测分类方法,通过不同特征选择方法和不同预测分类方法的组合在病例数据上的AUC值大小进行选择,所述特征选择方法包括随机森林、极度梯度提升树、稀疏神经网络、互信息度量、LASSO回归、线性相关性度量和最大相关和最小冗余算法,所述预测分类方法包括随机森林分类器、极度梯度提升树、自适应分类器、K邻近分类器、多层感知器分类器、支持向量机分类器、决策树分类器,最终选择随机森林的特征选择方法与XGBoost的预测分类方法为最佳建模组合。
4.如权利要求1所述的基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法,其特征在于,在步骤S3中,运用随机森林算法进行特征筛选的方法包括以下步骤:
首先,用随机森林算法分别对数据进行多模态信息抽取,得到每个特征的重要性,
在随机森林算法中,对每一棵决策树,选择相应的袋外数据计算袋外数据误差,其基本形式如下式所示:
在公式(1)中,N为样本总数,m为误分样本个数,
随机对袋外数据OBB所有样本的特征加入噪声干扰,再次计算袋外数据误差,记为errOBB2,假设森林中有N棵树,则特征的重要性为:
∑(errOBB1-errOBB2)/N (2)
根据公式(2)计算每个特征的重要性;
然后,筛选出重要性高的特征组成建模特征集,同时降低数据维度。
5.如权利要求1所述的基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法,其特征在于,在步骤S3中,运用XGBoost方法建立预测模型的方法包括以下步骤:
首先,基于建模特征集,并利用XGBoost算法构建多模态融合的初始分类模型,并在分类器中进行模型训练,每一次迭代都会添加一棵新的树,这棵树是通过在特征空间进行高效的搜索并选择最优分裂点生成的,在每一次添加新的树之后,都会根据目标函数的梯度和Hessian矩阵的信息来调整每个叶子节点的权重,使得每一棵新的树都试图纠正前一棵树留下的残差,以最小化预测误差,利用交叉验证的策略对训练好的模型进行性能评估和优化,得到最优的预测模型;
然后,所述训练好的预测模型在对病例进行分类时,根据该病例的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,将每棵树对应的预测分数相加即可得到该病例的患病风险值,
在XGBoost中,化简确定目标函数为:
在公式(3)中,Gj表示所有样本的一阶导之和,Hj表示所有样本的二阶导之和,γ表示对该项的调节函数,T表示一棵树的叶子节点数量,ft表示第t轮迭代后的模型对输入样本的预测输出。
6.一种基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建系统,其特征在于,包括:
数据采集及处理模块,所述数据采集及处理模块用于采集各家医院病例真实原始数据,并对原始数据进行清洗、预处理、填充和标准化,并按照一定比例划分为训练集和验证集;
筛选模块,所述筛选模块用于基于训练集,根据AUC值筛选出最佳性能的预测模型组合为随机森林算法结合XGBoost算法;
模型构建模块,模型构建模块用于利用随机森林算法进行特征筛选,并利用XGBoost算法构建预测模型。
7.如权利要求6所述的基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建系统,其特征在于,所述数据采集及处理模块用于:首先,将数据中模型不能识别的医学符号转换为数字符号,保留60%数据完整度的病例和特征;然后,用中位数填充法进行各个特征缺失值的填充,去除原始数据中完整度较低的数据;然后,进一步通过相关性分析构建新的特征向量。
8.如权利要求6所述的基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建系统,其特征在于,筛选模块用于通过不同特征选择方法和不同预测分类方法的组合在病例数据上的AUC值大小进行选择,所述特征选择方法包括随机森林、极度梯度提升树、稀疏神经网络、互信息度量、LASSO回归、线性相关性度量和最大相关和最小冗余算法,所述预测分类方法包括随机森林分类器、极度梯度提升树、自适应分类器、K邻近分类器、多层感知器分类器、支持向量机分类器、决策树分类器,最终选择随机森林的特征选择方法与XGBoost的预测分类方法为最佳建模组合。
9.如权利要求6所述的基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建系统,其特征在于,所述模型构建模块用于运用随机森林算法进行特征筛选:
首先,用随机森林算法分别对数据进行多模态信息抽取,得到每个特征的重要性,
在随机森林算法中,对每一棵决策树,选择相应的袋外数据计算袋外数据误差,其基本形式如下式所示:
在公式(1)中,N为样本总数,m为误分样本个数,
随机对袋外数据OBB所有样本的特征加入噪声干扰,再次计算袋外数据误差,记为errOBB2,假设森林中有N棵树,则特征的重要性为:
∑(errOBB1-errOBB2)/N (2)
根据公式(2)计算每个特征的重要性;
然后,筛选出重要性高的特征组成建模特征集,同时降低数据维度。
10.如权利要求6所述的基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建系统,其特征在于,所述模型构建模块用于运用XGBoost方法建立预测模型:
首先,基于建模特征集,并利用XGBoost算法构建多模态融合的初始分类模型,并在分类器中进行模型训练,不断地添加、分裂来生长一棵树,即可得到训练好的预测模型;
然后,所述训练好的预测模型在对病例进行分类时,根据该病例的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,将每棵树对应的预测分数相加即可得到该病例的患病风险值,
在XGBoost中,化简确定目标函数为:
在公式(3)中,Gj表示所有样本的一阶导之和,Hj表示所有样本的二阶导之和,γ表示对该项的调节函数,T表示一棵树的叶子节点数量,ft表示第t轮迭代后的模型对输入样本的预测输出。
CN202310893011.6A 2023-07-20 2023-07-20 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统 Pending CN117116477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310893011.6A CN117116477A (zh) 2023-07-20 2023-07-20 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310893011.6A CN117116477A (zh) 2023-07-20 2023-07-20 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统

Publications (1)

Publication Number Publication Date
CN117116477A true CN117116477A (zh) 2023-11-24

Family

ID=88797495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310893011.6A Pending CN117116477A (zh) 2023-07-20 2023-07-20 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统

Country Status (1)

Country Link
CN (1) CN117116477A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877740A (zh) * 2023-12-08 2024-04-12 南通大学附属医院 一种基于无创检验指标的胃癌淋巴结转移预测方法
CN118016313A (zh) * 2024-04-08 2024-05-10 北京大学第三医院(北京大学第三临床医学院) 一种前列腺神经内分泌癌预测模型的训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877740A (zh) * 2023-12-08 2024-04-12 南通大学附属医院 一种基于无创检验指标的胃癌淋巴结转移预测方法
CN118016313A (zh) * 2024-04-08 2024-05-10 北京大学第三医院(北京大学第三临床医学院) 一种前列腺神经内分泌癌预测模型的训练方法

Similar Documents

Publication Publication Date Title
CN111261282A (zh) 一种基于机器学习的脓毒症早期预测方法
CN110246577B (zh) 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法
CN117116477A (zh) 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统
CN112259221A (zh) 基于多种机器学习算法的肺癌诊断系统
CN108511055B (zh) 基于分类器融合及诊断规则的室性早搏识别系统及方法
WO2021190300A1 (zh) Ai慢性肾病风险筛查建模方法、慢性肾病风险筛查方法及系统
CN111563891B (zh) 基于颜色认知的疾病预测系统
CN110051324A (zh) 一种急性呼吸窘迫综合征死亡率预测方法及系统
CN113327679A (zh) 一种肺栓塞临床风险及预后评分方法与系统
CN114023441A (zh) 基于可解释机器学习模型的严重aki早期风险评估模型、装置及其开发方法
CN109273093A (zh) 一种川崎病风险评估模型的构建方法及构建系统
CN112652398A (zh) 一种基于机器学习算法的新冠肺炎重症化预测方法及系统
CN113128654B (zh) 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
CN115527678A (zh) 融合病历文本的Nomogram ICU老年疾病风险评分模型、装置、及其建立方法
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
CN109243604A (zh) 一种基于神经网络算法的川崎病风险评估模型的构建方法及构建系统
CN115376706A (zh) 一种基于预测模型的乳腺癌药物方案的预测方法及装置
Islam et al. Predictive analysis for risk of stroke using machine learning techniques
CN113408603B (zh) 一种基于多分类器融合的冠状动脉狭窄病变程度识别方法
CN112635064B (zh) 一种基于深度pca变换的早期糖尿病风险预测方法
CN117116475A (zh) 缺血性脑卒中的风险预测方法、系统、终端及存储介质
Tobias et al. Android Application for Chest X-ray Health Classification From a CNN Deep Learning TensorFlow Model
CN113171105A (zh) 基于集成cnn的心肌缺血的识别分类方法
CN112259231A (zh) 一种高危胃肠间质瘤患者术后复发风险评估方法与系统
CN115132351B (zh) 基于真实世界研究的诊断数据反馈评价系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination