CN113284615B - 一种基于XGBoost算法的胃肠道间质瘤预测方法和系统 - Google Patents

一种基于XGBoost算法的胃肠道间质瘤预测方法和系统 Download PDF

Info

Publication number
CN113284615B
CN113284615B CN202110667482.6A CN202110667482A CN113284615B CN 113284615 B CN113284615 B CN 113284615B CN 202110667482 A CN202110667482 A CN 202110667482A CN 113284615 B CN113284615 B CN 113284615B
Authority
CN
China
Prior art keywords
xgboost
gastrointestinal stromal
model
stromal tumor
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110667482.6A
Other languages
English (en)
Other versions
CN113284615A (zh
Inventor
胡博智
李竹君
高志冬
叶颖江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Peoples Hospital
Original Assignee
Peking University Peoples Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Peoples Hospital filed Critical Peking University Peoples Hospital
Priority to CN202110667482.6A priority Critical patent/CN113284615B/zh
Publication of CN113284615A publication Critical patent/CN113284615A/zh
Application granted granted Critical
Publication of CN113284615B publication Critical patent/CN113284615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

本发明公开了一种基于XGBoost算法的胃肠道间质瘤预测方法和系统,所述方法包括以下步骤:从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将检查数据分为训练数据集和验证数据集;选择模型参数并利用模型参数和训练数据集构建XGBoost预测模型;利用验证数据集对XGBoost预测模型进行验证;以及将初步诊断为胃肠道间质瘤的待预测患者的数据输入到XGBoost预测模型中,经过模型计算输出预测结果。本发明纳入了全部可能对胃肠道间质瘤诊断有影响的因素综合对患者的肿物进行术前预测,预测准确率高,降低了患者的经济负担,且无需遭受额外的痛苦。

Description

一种基于XGBoost算法的胃肠道间质瘤预测方法和系统
技术领域
本发明涉及医学数据处理技术领域,更具体地,特别是指一种基于XGBoost算法的胃肠道间质瘤预测方法和系统。
背景技术
胃肠道间质瘤(gastrointestinal stromal tumor,GIST)是目前最常见的胃肠道软组织肿瘤,主要发生在胃部、其次为小肠、结肠和其他胃肠道以外的组织中。因GIST具备恶性肿瘤的生物学行为,指南推荐的最佳治疗方式为手术完整切除,但其他的胃肠道软组织肿物大多恶性程度不高,完全可以不行手术治疗。因此,对临床医生而言术前精确识别GIST尤为重要。
手术前诊断GIST最准确的方法是细针穿刺活检,但该技术因其是有创操作,存在肿瘤破溃、播散的风险,在临床上实际应用并不普遍。另外还有无创检查,根据目前国际上的软组织肉瘤指南和中国胃肠间质瘤诊断治疗共识,GIST手术前的临床诊断主要依赖于增强CT、内镜和超声内镜下的表现,由临床医师根据经验对其进行诊断。综上所述,现阶段GIST的术前临床诊断还是主要依赖于放射科医师、内镜医师和胃肠肿瘤外科医师根据自己的临床经验对肿物在增强CT和超声内镜等影像上的表现进行判断,并且各专科医师一般仅针对自己专科领域内的肿物表现进行诊断。因此,目前GIST的术前诊断误诊率较高。对GIST的大量误诊无论是对患者的身体健康还是国家医保都造成了不必要的负担。随着计算机科学的不断发展,运用机器学习算法解决一些医学问题已成为当下的研究热点。而目前尚缺少一种可以结合患者各项化验检查下的表现综合预测GIST的有效而不对患者造成额外伤害的机器学习模型。
针对上述现有技术的缺陷,本领域亟待需要一种基于机器学习算法的胃肠道间质瘤预测方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种基于XGBoost算法的胃肠道间质瘤预测方法和系统,能够解决已往GIST术前诊断过于依赖医师的临床经验且各专科医师一般仅针对其专科领域内的肿物表现进行诊断所造成的GIST术前诊断误诊率高等问题。
基于上述目的,本发明实施例的一方面提供了一种基于XGBoost算法的胃肠道间质瘤预测方法,包括以下步骤:
从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集;
选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型;
利用所述验证数据集对所述XGBoost预测模型进行验证;以及
将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,经过模型计算输出预测结果。
在一些实施方式中,从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,进一步包括:
收集初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标的原始数据;
使用missForest函数对所述原始数据中的缺失值进行填补;
使用LASSO回归函数从填补缺失值后的所述原始数据中筛选出至少两个拟纳入指标;以及
对所述至少两个拟纳入指标进行相关性检验以得到与胃肠道间质瘤诊断最相关的所述检查数据。
在一些实施方式中,使用LASSO回归函数从填补缺失值后的所述原始数据中筛选出至少两个拟纳入指标,进一步包括:
确定惩罚因素λ的最佳值;和
根据所述惩罚因素λ的最佳值从填补缺失值后的所述原始数据中筛选出所述至少两个拟纳入指标。
在一些实施方式中,所述检查数据包含CT下肿物的长短径之比、肿物的平扫CT值、肿物是否均匀强化、超声内镜下肿物表面是否有溃疡、超声内镜下肿物内部是否存在液性暗区以及初诊胃肠道间质瘤时的外周血淋巴细胞计数。
在一些实施方式中,选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型,进一步包括:
选取多个模型参数组合;
利用每个模型参数组合和所述训练数据集分别训练XGBoost初始模型后进行交叉验证以确定最佳模型参数组合作为所述模型参数;以及
将所述模型参数代入所述XGBoost初始模型以构建所述XGBoost预测模型。
在一些实施方式中,将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,进一步包括:
将所述待预测患者的数据以数据框形式录入作为输入数据;以及
将所述输入数据输入到所述XGBoost预测模型中。
基于上述目的,本发明实施例的另一方面还提供了一种基于XGBoost算法的胃肠道间质瘤预测系统,包括:
获取模块,用于从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集;
模型构建模块,用于利用预先选择的模型参数和所述训练数据集构建XGBoost预测模型,并利用所述验证数据集对所述XGBoost预测模型进行验证;以及
预测模块,用于接收初步诊断为胃肠道间质瘤的待预测患者的数据,并利用所述XGBoost预测模型对其进行计算以输出预测结果。
本发明具有以下有益技术效果:
本发明实施例提供的胃肠道间质瘤预测方法和系统通过XGBoost(eXtremeGradiant Boost,极限梯度提升)算法建立了一个对初步诊断为胃肠道间质瘤的患者的相关指标进行进一步预测的机器学习模型。本发明并非像临床专科医师仅独立参考本专科检查结果进行诊断,而是纳入了全部可能对肿瘤诊断有影响的因素综合对患者的肿物进行预测,专科医师临床上仅参考本专科单一检查方法对胃肠道软组织肿物进行诊断的准确率在50%-60%左右,而本发明对临床上初步诊断已经考虑为“胃肠道间质瘤”的患者的相关指标进行进一步预测依然有72%的准确率,可信程度高,有效降低了误诊率。另外,本发明纳入的诊断因素都是患者在胃肠道间质瘤手术前本就应该完善的检查结果,患者无需再遭受额外的痛苦,也不会造成额外的经济损失。本发明的预测模型在未来可制作用户交互界面,如网页或小程序形式,无需医师的临床经验,只需输入纳入的患者检查结果,就可以输出准确率非常高的预测结果,非常便于使用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的基于XGBoost算法的胃肠道间质瘤预测方法的示意性流程图;
图2为拟纳入指标之间的相关性检验的示意图;
图3为采用本发明的XGBoost预测模型对初步诊断为胃肠道间质瘤的患者示例数据进行预测的预测结果示意图;
图4为采用本发明的XGBoost预测模型对初步诊断为胃肠道间质瘤的另一患者示例数据进行预测的预测结果示意图;以及
图5为根据本发明另一个实施例的基于XGBoost算法的胃肠道间质瘤预测系统的示意性框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”、“第二”等的表述均是为了区分多个相同名称非相同的实体或者非相同的参量,可见“第一”、“第二”等仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明提出了一种基于XGBoost算法的胃肠道间质瘤预测方法的一个实施例。图1示出的是该基于XGBoost算法的胃肠道间质瘤预测方法的示意性流程图。该方法首先从经临床医师初步诊断为胃肠道间质瘤的患者的各项术前检查结果中筛选出所有主要影响预测结果的检查指标,然后综合所有这些患者术前检查指标训练出一个基于XGBoost算法的模型,利用该模型对初步诊断为胃肠道间质瘤的待预测患者的上述所有检查指标进行进一步综合预测。该方法比目前专科临床医师只依赖本专科唯一检查结果的诊断准确率高,能够有效降低误诊率,并且可以减少对患者的额外伤害和经济上的负担,同时可以在一定程度上减少地方医院医师因经验不足而造成的高误诊。
具体而言,如图1中所示,该基于XGBoost算法的胃肠道间质瘤预测方法包括以下步骤:
步骤S1、从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集。
在本实施例中,首先回顾性收集了北京大学人民医院胃肠外科自2017年1月1日至2021年1月31日的初步诊断为“胃肠道间质瘤”的全部病例,共123例。其中1名患者在初诊时合并严重的全身感染,3名患者在初诊时合并了其他系统的癌症,所以选取剩下的119例病例的数据作为最终数据库。在本数据库中,我们从每个患者的增强CT、超声内镜及初诊时血液化验指标里录入了共24个与GIST诊断可能相关的因素。全部数据的缺失值占比为12.78%。接下来,对数据中的这部分缺失值进行填补后,从这24个因素中筛选出多个主要影响预测结果的因素作为模型训练的纳入指标。以上患者初诊数据具有非常高的权威性,用于训练和验证模型能够获得较高的模型可信度。
接下来,对纳入的数据进行随机分组与格式转换:将纳入的数据按照3:1比例随机分为训练数据集和验证数据集,并将数据格式转换成xgb.Dmatrix。
步骤S2、选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型。
在此步骤中,首先确定一组最佳模型参数值,所述模型参数可以包含nrounds、colsample_bytree、min_child_weight、Eta、gamma、subsample、max_depth等。接下来,利用选定的参数构造XGBoost算法模型并用训练数据集训练该模型以得到XGBoost预测模型。
步骤S3、利用所述验证数据集对所述XGBoost预测模型进行验证。
(1)计算验证指标:首先构建一个四链表,具体如下:
最终确诊GIST 最终确诊不是GIST
预测GIST a b
预测不是GIST c d
然后,在此四链表基础上计算得出Accuracy、Precision、Recall、F1-score、auROC、C-index,具体如下:
Accuracy=(a+d)/(b+c)
Precision=a/(a+b)
Recall=a/(a+c)
F1-score=√(Precision*Recall)
auROC的得出方法:
library(InformationValue)
rf.testMat<-as.matrix(bst.test[,2:7])
rf.rf.test<-predict(try_xgb_model,rf.testMat)
y.test<-bst.test[,1]
plotROC(y.test,rf.rf.test)
C-index的得出方法:
library(Hmisc)
x.test<-as.matrix(bst.test[,2:7])
fp<-predict(try_xgb_model,x.test)
cindex.orig=rcorr.cens(fp,y.test)[[1]]
cindex.orig
(2)计算验证指标的置信区间:将数据随机分组、模型构建、验证结果的整个过程循环200次,得到上述每个验证指标的200个数据,将每个验证指标的结果从小到大排序取其中第5%和95%的数据作为95%置信区间(95CI)。如下表所示,可以看到相比于临床上专科医师依赖经验对单一检查结果50-60%准确度的诊断方法,该模型的表现更好。
步骤S4、将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,经过模型计算输出预测结果。
在此步骤中,需要构建XGBoost预测模型的explainer,之后利用这个explainer预测每个待预测患者的结果。explainer是为了将模型的结果可视化和可操作而设计的一个对接函数。
优选地,在上述步骤S1中,从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,进一步包括:
收集初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标的原始数据;
使用missForest函数对所述原始数据中的缺失值进行填补,因为原始数据里既有连续变量又有分类变量,所以采用了这个函数来修补缺失值,该函数基于随机森林算法基础来预测缺失值的数据并进行插补,而且可同时插补分类变量及连续变量,并利用OOB(out-of-bag)方法衡量插补误差;
使用LASSO回归函数从填补缺失值后的所述原始数据中筛选出至少两个拟纳入指标,具体地,首先确定惩罚因素λ的最佳值,然后根据所述惩罚因素λ的最佳值从填补缺失值后的所述原始数据中筛选出所述至少两个拟纳入指标,LASSO回归是一种惩罚函数,在函数开始运行的时候所有的因素对于预测结果都会产生影响,随着惩罚因素λ值的增加,所有因素对预测结果产生的影响逐渐减弱,有的因素逐渐不能影响结果。在λ增加到足够大时(可以理解为对所有因素的影响削弱到足够大时),所有因素对预测结果都没有影响了,也就是说,在某个特定的比较大的λ值时候对结果依然产生影响的变量,就是相对重要的变量,可作为拟纳入指标。这个特定的λ值是通过函数cv.glmnet()来获取的,该函数通过交叉检验,得到均方误差(Mean-Squared Error,MSE)随λ值的变化曲线,均方误差最小时的λ值即为筛选出的最佳λ值(λ=0.02845139,logλ=-3.559558);以及
对所述至少两个拟纳入指标进行相关性检验以得到与胃肠道间质瘤诊断最相关的所述检查数据,在本实施例中,经过上一步的筛选,从24个与GIST诊断可能相关的因素中确定了6个拟纳入指标,分别为:CT下肿物的长短径之比、肿物的平扫CT值、肿物是否均匀强化、内镜下肿物表面是否有溃疡、超声内镜下肿物内部是否存在液性暗区、以及患者初诊GIST时的外周血淋巴细胞计数。一般来讲,构建预测模型的因素之间相关性不宜过强,因此需要对拟纳入该模型的上述6个指标进行相关性分析。图2示出的是拟纳入指标之间的相关性检验的示意图。图2中右扇区表示拟纳入指标之间的正相关关系,左扇区表示拟纳入指标之间的负相关关系,灰色越深(饼图所占比例越大)提示相关性越强,可以看到这6个拟纳入指标之间的相关性并不强,从相关性上讲用于模型的构建是比较合适的。如果其中某2个拟纳入指标相关性过强,则需要删除其中一个拟纳入指标,或者将这2个相关性过强的拟纳入指标融合成1个。
优选地,在上述步骤S2中,选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型,进一步包括:
选取多个模型参数组合,具体地,设定如下参数值:
nrounds=50,75,100,200
colsample_bytree=1
min_child_weight=1
eta=0.01,0.1,0.3,1
gamma=0.5,0.25
subsample=0.5
max_depth=2,3
对以上可选数值进行组合,然后从中选择多个参数组合;
将每个模型参数组合逐一代入XGBoost初始模型并利用所述训练数据集分别训练XGBoost初始模型,然后进行交叉验证以确定最佳模型参数组合,经过上述过程最终选定max_depth=2、eta=0.01、gamma=0.25、nrounds=200为模型的最佳参数;以及
将上述模型最佳参数代入所述XGBoost初始模型以构建所述XGBoost预测模型。
在本发明中,虽然预测结果为“GIST”和“非GIST”两种结果,但是“非GIST”结果中实际包括异位胰腺、副脾、平滑肌瘤、脂肪瘤、神经内分泌瘤、淋巴瘤等多种疾病,而GIST是其中恶性程度最强、生物学行为最差的,所以在函数分类方法中选择objective="reg:linear"(线性二变量分类结局)进行模型构建,R语言代码如下:
param<-list(max_depth=2,eta=0.01,silent=1,nthread=2,gamma=0.25,objective="reg:linear",eva_metric="auc")
try_xgb_model<-xgb.train(param,data_train,nrounds=200)
优选地,在上述步骤S4中,将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,进一步包括:
将所述待预测患者的CT下肿物的长短径之比、肿物的平扫CT值、肿物是否均匀强化、内镜下肿物表面是否有溃疡、超声内镜下肿物内部是否存在液性暗区以及患者初诊GIST时的外周血淋巴细胞计数以数据框形式作为输入数据;以及
将所述输入数据输入到所述XGBoost预测模型中。
最后,XGBoost预测模型会自动输出预测结果。
下面以2个示例举例说明XGBoost预测模型的预测过程。
示例一:
创建数据框,并输入待预测患者A的上述6个指标。比如,输入他的肿瘤长短径之比为1.5454545,肿物平扫CT值为12,肿物在增强CT下均匀强化,超声内镜检查提示肿物表面无溃疡、内部有液性暗区,临床医师初步考虑为GIST时外周淋巴细胞计数为1.56(×109/L)。如下:datanewpatient<-data.frame(Long.Short.Diameter=1.5454545,CT.Value=12,Homogeneously.Enhanced=1,Ulcer=0,Liquid.Area=1,Lymphcte.Count=1.56)
接下来,将上述数据输入到XGBoost预测模型中并调整数据格式。经过模型的计算输出最终预测结果。如图3所示,可以看到计算出的患者预测值为0.373,比模型预测的衡量值0.666(intercept值)小,故模型输出结果考虑为“非GIST”。
示例二:
创建数据框,并输入待预测患者B的上述6个指标。比如,输入他的肿瘤长短径之比为1.053,肿物平扫CT值为33,肿物在增强CT下不均匀强化,超声内镜检查提示肿物表面无溃疡、内部有液性暗区,临床医师初步考虑为GIST时外周淋巴细胞计数为1.7(×109/L)。如下表:datanewpatient<-data.frame(Long.Short.Diameter=1.053,CT.Value=33,Homogeneously.Enhanced=0,Ulcer=0,Liquid.Area=1,Lymphcte.Count=1.7)
接下来,将上述数据输入到XGBoost预测模型中并调整数据格式。经过模型的计算输出最终预测结果。如图4所示,可以看到计算出的患者预测值为0.898,比模型预测的衡量值0.666(intercept值)大,故模型输出结果考虑为“GIST”。
基于上述目的,本发明还提出了一种基于XGBoost算法的胃肠道间质瘤预测系统的一个实施例。图5示出了该基于XGBoost算法的胃肠道间质瘤预测系统的示意性框图。如图5所示,该基于XGBoost算法的胃肠道间质瘤预测系统包括:
获取模块1,用于从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集;
模型构建模块2,用于利用预先选择的模型参数和所述训练数据集构建XGBoost预测模型,并利用所述验证数据集对所述XGBoost预测模型进行验证;以及
预测模块3,用于接收初步诊断为胃肠道间质瘤的待预测患者的数据,并利用所述XGBoost预测模型对其进行计算以输出预测结果。
需要说明的是,对系统实施例的理解可参考上述方法实施例的详细说明,这里不再予以赘述。所述系统实施例可以达到与之对应的前述方法实施例相同或者相类似的效果。
本发明上述实施例提供的胃肠道间质瘤预测方法和系统通过XGBoost算法建立了一个对初步诊断为胃肠道间质瘤的患者的相关指标进行进一步预测的机器学习模型。本发明并非像临床专科医师仅独立参考本专科检查结果进行诊断,而是纳入了全部可能对肿瘤诊断有影响的因素综合对患者的肿物进行预测,专科医师临床上仅参考本专科单一检查方法对胃肠道软组织肿物进行诊断的准确率在50%-60%左右,而本发明对临床上初步诊断已经考虑为“胃肠道间质瘤”的患者的相关指标进行进一步预测依然有72%的准确率,可信程度高,有效降低了误诊率。另外,本发明纳入的诊断因素都是患者在胃肠道间质瘤手术前本就应该完善的检查结果,患者无需再遭受额外的痛苦,也不会造成额外的经济损失。本发明的预测模型在未来可制作用户交互界面,如网页或小程序形式,无需医师的临床经验,只需输入纳入的患者检查结果,就可以输出准确率非常高的预测结果,非常便于使用。
需要说明的是,本领域普通技术人员可以理解实现上述实施例操作中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述操作的实施例的流程。所述计算机程序可以达到与之对应的前述操作实施例相同或者相类似的效果。
此外,应该明白的是,实现本发明的操作所采用的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,上述本发明实施例公开的顺序仅仅为了描述,不代表实施例的优劣。但是应当注意,以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子,在不背离权利要求限定的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。

Claims (4)

1.一种基于XGBoost算法的胃肠道间质瘤预测方法,其特征在于,包括以下步骤:
从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集;
选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型;
利用所述验证数据集对所述XGBoost预测模型进行验证;以及
将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,经过模型计算输出预测结果;
所述从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,进一步包括:
收集初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标的原始数据;
使用missForest函数对所述原始数据中的缺失值进行填补;
使用LASSO回归函数从填补缺失值后的所述原始数据中筛选出至少两个拟纳入指标;以及
对所述至少两个拟纳入指标进行相关性检验以得到与胃肠道间质瘤诊断最相关的所述检查数据;
所述选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型,进一步包括:
选取多个模型参数组合;
利用每个模型参数组合和所述训练数据集分别训练XGBoost初始模型后进行交叉验证以确定最佳模型参数组合作为所述模型参数;以及
将所述模型参数代入所述XGBoost初始模型以构建所述XGBoost预测模型;
所述检查数据包含CT下肿物的长短径之比、肿物的平扫CT值、肿物是否均匀强化、超声内镜下肿物表面是否有溃疡、超声内镜下肿物内部是否存在液性暗区以及初诊胃肠道间质瘤时的外周血淋巴细胞计数;
所述XGBoost预测模型最佳参数为:max_depth=2、eta=0.01、gamma=0.25、nrounds=200;
所述XGBoost预测模型预测的衡量值为0.666。
2.根据权利要求1所述的基于XGBoost算法的胃肠道间质瘤预测方法,其特征在于,所述使用LASSO回归函数从填补缺失值后的所述原始数据中筛选出至少两个拟纳入指标,进一步包括:
确定惩罚因素λ的最佳值;和
根据所述惩罚因素λ的最佳值从填补缺失值后的所述原始数据中筛选出所述至少两个拟纳入指标。
3.根据权利要求1所述的基于XGBoost算法的胃肠道间质瘤预测方法,其特征在于,所述将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,进一步包括:
将所述待预测患者的数据以数据框形式录入作为输入数据;以及
将所述输入数据输入到所述XGBoost预测模型中。
4.一种基于XGBoost算法的胃肠道间质瘤预测系统,该预测系统用于实现权利要求1中所述的基于XGBoost算法的胃肠道间质瘤预测方法,其特征在于,包括:
获取模块,用于从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集;
模型构建模块,用于利用预先选择的模型参数和所述训练数据集构建XGBoost预测模型,并利用所述验证数据集对所述XGBoost预测模型进行验证;以及
预测模块,用于接收初步诊断为胃肠道间质瘤的待预测患者的数据,并利用所述XGBoost预测模型对其进行计算以输出预测结果。
CN202110667482.6A 2021-06-16 2021-06-16 一种基于XGBoost算法的胃肠道间质瘤预测方法和系统 Active CN113284615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110667482.6A CN113284615B (zh) 2021-06-16 2021-06-16 一种基于XGBoost算法的胃肠道间质瘤预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110667482.6A CN113284615B (zh) 2021-06-16 2021-06-16 一种基于XGBoost算法的胃肠道间质瘤预测方法和系统

Publications (2)

Publication Number Publication Date
CN113284615A CN113284615A (zh) 2021-08-20
CN113284615B true CN113284615B (zh) 2024-07-05

Family

ID=77284695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110667482.6A Active CN113284615B (zh) 2021-06-16 2021-06-16 一种基于XGBoost算法的胃肠道间质瘤预测方法和系统

Country Status (1)

Country Link
CN (1) CN113284615B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776962A (zh) * 2018-04-11 2018-11-09 浙江师范大学 一种构建肺肿瘤良恶性预测模型的方法
CN110111888A (zh) * 2019-05-16 2019-08-09 闻康集团股份有限公司 一种XGBoost疾病概率预测方法、系统及存储介质
CN111261282A (zh) * 2020-01-21 2020-06-09 南京航空航天大学 一种基于机器学习的脓毒症早期预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3788546A1 (en) * 2018-06-18 2021-03-10 Google LLC Method and system for improving cancer detection using deep learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776962A (zh) * 2018-04-11 2018-11-09 浙江师范大学 一种构建肺肿瘤良恶性预测模型的方法
CN110111888A (zh) * 2019-05-16 2019-08-09 闻康集团股份有限公司 一种XGBoost疾病概率预测方法、系统及存储介质
CN111261282A (zh) * 2020-01-21 2020-06-09 南京航空航天大学 一种基于机器学习的脓毒症早期预测方法

Also Published As

Publication number Publication date
CN113284615A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
Yildirim et al. Deep learning model for automated kidney stone detection using coronal CT images
Nelson et al. Factors associated with rates of false-positive and false-negative results from digital mammography screening: an analysis of registry data
US20200085501A1 (en) Systems and methods for treatment planning based on plaque progression and regression curves
JP5785184B2 (ja) 画像の医療データ及び非画像の医療データの両者の連続的な記憶及び統合された分析のための診断技術
CN111127467B (zh) 图像量化方法、计算机设备和存储介质
JP2007524461A (ja) 乳房撮像の自動診断及び決定支援システム及び方法
US11664127B2 (en) Medical information processing apparatus, medical information processing method, and electronic medical record system
Kabrhel et al. The contribution of the subjective component of the Canadian Pulmonary Embolism Score to the overall score in emergency department patients
US10568551B2 (en) Hearing diagnosis device and hearing diagnosis method
CN112183572A (zh) 一种生成预测肺炎严重程度的预测模型的方法及装置
Hu et al. Association of early adulthood 25-year blood pressure trajectories with cerebral lesions and brain structure in midlife
CN113284615B (zh) 一种基于XGBoost算法的胃肠道间质瘤预测方法和系统
Ribeiro et al. Oscillation mechanics, integer and fractional respiratory modeling in COPD: effect of obstruction severity
CN115517682B (zh) 基于胃肠电信号的认知功能障碍预测系统及构建方法
US20080021302A1 (en) Method and device for evaluation of an image and/or of a time sequence of images of tissue or tissue samples
CN114613498B (zh) 一种基于机器学习的辅助mdt临床决策方法、系统及设备
TWI774982B (zh) 醫療資源整合系統、計算機裝置及醫療資源整合方法
CN115602327A (zh) 一种肺结节发生肺癌风险的预测模型的构建方法
US11955243B2 (en) Using unstructured temporal medical data for disease prediction
US20040030672A1 (en) Dynamic health metric reporting method and system
Yasin et al. Development and validation of a diagnostic model for differentiating tuberculous spondylitis from brucellar spondylitis using machine learning: A retrospective cohort study
CN110675930A (zh) 一种针对非小细胞肺癌的决策方法、系统及装置
KR20200073308A (ko) 요관 결석의 자연 배출에 대한 예측 값을 제공하기 위한 방법 및 장치
Jaganath An overview of predictive scoring systems used in ICU
Ingabire et al. Canonical Fuzzy Modeling of Disease State

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant