CN113284615B - 一种基于XGBoost算法的胃肠道间质瘤预测方法和系统 - Google Patents
一种基于XGBoost算法的胃肠道间质瘤预测方法和系统 Download PDFInfo
- Publication number
- CN113284615B CN113284615B CN202110667482.6A CN202110667482A CN113284615B CN 113284615 B CN113284615 B CN 113284615B CN 202110667482 A CN202110667482 A CN 202110667482A CN 113284615 B CN113284615 B CN 113284615B
- Authority
- CN
- China
- Prior art keywords
- xgboost
- gastrointestinal stromal
- model
- stromal tumor
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 title claims abstract description 104
- 206010051066 Gastrointestinal stromal tumour Diseases 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 28
- 238000003745 diagnosis Methods 0.000 claims abstract description 48
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000007689 inspection Methods 0.000 claims abstract description 19
- 238000012795 verification Methods 0.000 claims abstract description 14
- 238000009534 blood test Methods 0.000 claims abstract description 12
- 238000012821 model calculation Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 9
- 239000007788 liquid Substances 0.000 claims description 8
- 208000025865 Ulcer Diseases 0.000 claims description 7
- 231100000397 ulcer Toxicity 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000010200 validation analysis Methods 0.000 claims description 6
- 210000005105 peripheral blood lymphocyte Anatomy 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 208000002193 Pain Diseases 0.000 abstract description 3
- 230000036407 pain Effects 0.000 abstract description 3
- 238000003860 storage Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 210000001035 gastrointestinal tract Anatomy 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000002604 ultrasonography Methods 0.000 description 5
- 206010068771 Soft tissue neoplasm Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000001839 endoscopy Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 230000004791 biological behavior Effects 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003759 clinical diagnosis Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 210000004698 lymphocyte Anatomy 0.000 description 2
- 230000003211 malignant effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000010882 preoperative diagnosis Methods 0.000 description 2
- 206010061692 Benign muscle neoplasm Diseases 0.000 description 1
- 206010024612 Lipoma Diseases 0.000 description 1
- 206010025323 Lymphomas Diseases 0.000 description 1
- 201000004458 Myoma Diseases 0.000 description 1
- 206010052399 Neuroendocrine tumour Diseases 0.000 description 1
- 206010039491 Sarcoma Diseases 0.000 description 1
- 208000021712 Soft tissue sarcoma Diseases 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 238000011902 gastrointestinal surgery Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 208000016065 neuroendocrine neoplasm Diseases 0.000 description 1
- 201000011519 neuroendocrine tumor Diseases 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000000813 small intestine Anatomy 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Pathology (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
Abstract
本发明公开了一种基于XGBoost算法的胃肠道间质瘤预测方法和系统,所述方法包括以下步骤:从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将检查数据分为训练数据集和验证数据集;选择模型参数并利用模型参数和训练数据集构建XGBoost预测模型;利用验证数据集对XGBoost预测模型进行验证;以及将初步诊断为胃肠道间质瘤的待预测患者的数据输入到XGBoost预测模型中,经过模型计算输出预测结果。本发明纳入了全部可能对胃肠道间质瘤诊断有影响的因素综合对患者的肿物进行术前预测,预测准确率高,降低了患者的经济负担,且无需遭受额外的痛苦。
Description
技术领域
本发明涉及医学数据处理技术领域,更具体地,特别是指一种基于XGBoost算法的胃肠道间质瘤预测方法和系统。
背景技术
胃肠道间质瘤(gastrointestinal stromal tumor,GIST)是目前最常见的胃肠道软组织肿瘤,主要发生在胃部、其次为小肠、结肠和其他胃肠道以外的组织中。因GIST具备恶性肿瘤的生物学行为,指南推荐的最佳治疗方式为手术完整切除,但其他的胃肠道软组织肿物大多恶性程度不高,完全可以不行手术治疗。因此,对临床医生而言术前精确识别GIST尤为重要。
手术前诊断GIST最准确的方法是细针穿刺活检,但该技术因其是有创操作,存在肿瘤破溃、播散的风险,在临床上实际应用并不普遍。另外还有无创检查,根据目前国际上的软组织肉瘤指南和中国胃肠间质瘤诊断治疗共识,GIST手术前的临床诊断主要依赖于增强CT、内镜和超声内镜下的表现,由临床医师根据经验对其进行诊断。综上所述,现阶段GIST的术前临床诊断还是主要依赖于放射科医师、内镜医师和胃肠肿瘤外科医师根据自己的临床经验对肿物在增强CT和超声内镜等影像上的表现进行判断,并且各专科医师一般仅针对自己专科领域内的肿物表现进行诊断。因此,目前GIST的术前诊断误诊率较高。对GIST的大量误诊无论是对患者的身体健康还是国家医保都造成了不必要的负担。随着计算机科学的不断发展,运用机器学习算法解决一些医学问题已成为当下的研究热点。而目前尚缺少一种可以结合患者各项化验检查下的表现综合预测GIST的有效而不对患者造成额外伤害的机器学习模型。
针对上述现有技术的缺陷,本领域亟待需要一种基于机器学习算法的胃肠道间质瘤预测方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种基于XGBoost算法的胃肠道间质瘤预测方法和系统,能够解决已往GIST术前诊断过于依赖医师的临床经验且各专科医师一般仅针对其专科领域内的肿物表现进行诊断所造成的GIST术前诊断误诊率高等问题。
基于上述目的,本发明实施例的一方面提供了一种基于XGBoost算法的胃肠道间质瘤预测方法,包括以下步骤:
从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集;
选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型;
利用所述验证数据集对所述XGBoost预测模型进行验证;以及
将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,经过模型计算输出预测结果。
在一些实施方式中,从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,进一步包括:
收集初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标的原始数据;
使用missForest函数对所述原始数据中的缺失值进行填补;
使用LASSO回归函数从填补缺失值后的所述原始数据中筛选出至少两个拟纳入指标;以及
对所述至少两个拟纳入指标进行相关性检验以得到与胃肠道间质瘤诊断最相关的所述检查数据。
在一些实施方式中,使用LASSO回归函数从填补缺失值后的所述原始数据中筛选出至少两个拟纳入指标,进一步包括:
确定惩罚因素λ的最佳值;和
根据所述惩罚因素λ的最佳值从填补缺失值后的所述原始数据中筛选出所述至少两个拟纳入指标。
在一些实施方式中,所述检查数据包含CT下肿物的长短径之比、肿物的平扫CT值、肿物是否均匀强化、超声内镜下肿物表面是否有溃疡、超声内镜下肿物内部是否存在液性暗区以及初诊胃肠道间质瘤时的外周血淋巴细胞计数。
在一些实施方式中,选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型,进一步包括:
选取多个模型参数组合;
利用每个模型参数组合和所述训练数据集分别训练XGBoost初始模型后进行交叉验证以确定最佳模型参数组合作为所述模型参数;以及
将所述模型参数代入所述XGBoost初始模型以构建所述XGBoost预测模型。
在一些实施方式中,将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,进一步包括:
将所述待预测患者的数据以数据框形式录入作为输入数据;以及
将所述输入数据输入到所述XGBoost预测模型中。
基于上述目的,本发明实施例的另一方面还提供了一种基于XGBoost算法的胃肠道间质瘤预测系统,包括:
获取模块,用于从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集;
模型构建模块,用于利用预先选择的模型参数和所述训练数据集构建XGBoost预测模型,并利用所述验证数据集对所述XGBoost预测模型进行验证;以及
预测模块,用于接收初步诊断为胃肠道间质瘤的待预测患者的数据,并利用所述XGBoost预测模型对其进行计算以输出预测结果。
本发明具有以下有益技术效果:
本发明实施例提供的胃肠道间质瘤预测方法和系统通过XGBoost(eXtremeGradiant Boost,极限梯度提升)算法建立了一个对初步诊断为胃肠道间质瘤的患者的相关指标进行进一步预测的机器学习模型。本发明并非像临床专科医师仅独立参考本专科检查结果进行诊断,而是纳入了全部可能对肿瘤诊断有影响的因素综合对患者的肿物进行预测,专科医师临床上仅参考本专科单一检查方法对胃肠道软组织肿物进行诊断的准确率在50%-60%左右,而本发明对临床上初步诊断已经考虑为“胃肠道间质瘤”的患者的相关指标进行进一步预测依然有72%的准确率,可信程度高,有效降低了误诊率。另外,本发明纳入的诊断因素都是患者在胃肠道间质瘤手术前本就应该完善的检查结果,患者无需再遭受额外的痛苦,也不会造成额外的经济损失。本发明的预测模型在未来可制作用户交互界面,如网页或小程序形式,无需医师的临床经验,只需输入纳入的患者检查结果,就可以输出准确率非常高的预测结果,非常便于使用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的基于XGBoost算法的胃肠道间质瘤预测方法的示意性流程图;
图2为拟纳入指标之间的相关性检验的示意图;
图3为采用本发明的XGBoost预测模型对初步诊断为胃肠道间质瘤的患者示例数据进行预测的预测结果示意图;
图4为采用本发明的XGBoost预测模型对初步诊断为胃肠道间质瘤的另一患者示例数据进行预测的预测结果示意图;以及
图5为根据本发明另一个实施例的基于XGBoost算法的胃肠道间质瘤预测系统的示意性框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”、“第二”等的表述均是为了区分多个相同名称非相同的实体或者非相同的参量,可见“第一”、“第二”等仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明提出了一种基于XGBoost算法的胃肠道间质瘤预测方法的一个实施例。图1示出的是该基于XGBoost算法的胃肠道间质瘤预测方法的示意性流程图。该方法首先从经临床医师初步诊断为胃肠道间质瘤的患者的各项术前检查结果中筛选出所有主要影响预测结果的检查指标,然后综合所有这些患者术前检查指标训练出一个基于XGBoost算法的模型,利用该模型对初步诊断为胃肠道间质瘤的待预测患者的上述所有检查指标进行进一步综合预测。该方法比目前专科临床医师只依赖本专科唯一检查结果的诊断准确率高,能够有效降低误诊率,并且可以减少对患者的额外伤害和经济上的负担,同时可以在一定程度上减少地方医院医师因经验不足而造成的高误诊。
具体而言,如图1中所示,该基于XGBoost算法的胃肠道间质瘤预测方法包括以下步骤:
步骤S1、从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集。
在本实施例中,首先回顾性收集了北京大学人民医院胃肠外科自2017年1月1日至2021年1月31日的初步诊断为“胃肠道间质瘤”的全部病例,共123例。其中1名患者在初诊时合并严重的全身感染,3名患者在初诊时合并了其他系统的癌症,所以选取剩下的119例病例的数据作为最终数据库。在本数据库中,我们从每个患者的增强CT、超声内镜及初诊时血液化验指标里录入了共24个与GIST诊断可能相关的因素。全部数据的缺失值占比为12.78%。接下来,对数据中的这部分缺失值进行填补后,从这24个因素中筛选出多个主要影响预测结果的因素作为模型训练的纳入指标。以上患者初诊数据具有非常高的权威性,用于训练和验证模型能够获得较高的模型可信度。
接下来,对纳入的数据进行随机分组与格式转换:将纳入的数据按照3:1比例随机分为训练数据集和验证数据集,并将数据格式转换成xgb.Dmatrix。
步骤S2、选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型。
在此步骤中,首先确定一组最佳模型参数值,所述模型参数可以包含nrounds、colsample_bytree、min_child_weight、Eta、gamma、subsample、max_depth等。接下来,利用选定的参数构造XGBoost算法模型并用训练数据集训练该模型以得到XGBoost预测模型。
步骤S3、利用所述验证数据集对所述XGBoost预测模型进行验证。
(1)计算验证指标:首先构建一个四链表,具体如下:
最终确诊GIST | 最终确诊不是GIST | |
预测GIST | a | b |
预测不是GIST | c | d |
然后,在此四链表基础上计算得出Accuracy、Precision、Recall、F1-score、auROC、C-index,具体如下:
Accuracy=(a+d)/(b+c)
Precision=a/(a+b)
Recall=a/(a+c)
F1-score=√(Precision*Recall)
auROC的得出方法:
library(InformationValue)
rf.testMat<-as.matrix(bst.test[,2:7])
rf.rf.test<-predict(try_xgb_model,rf.testMat)
y.test<-bst.test[,1]
plotROC(y.test,rf.rf.test)
C-index的得出方法:
library(Hmisc)
x.test<-as.matrix(bst.test[,2:7])
fp<-predict(try_xgb_model,x.test)
cindex.orig=rcorr.cens(fp,y.test)[[1]]
cindex.orig
(2)计算验证指标的置信区间:将数据随机分组、模型构建、验证结果的整个过程循环200次,得到上述每个验证指标的200个数据,将每个验证指标的结果从小到大排序取其中第5%和95%的数据作为95%置信区间(95CI)。如下表所示,可以看到相比于临床上专科医师依赖经验对单一检查结果50-60%准确度的诊断方法,该模型的表现更好。
步骤S4、将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,经过模型计算输出预测结果。
在此步骤中,需要构建XGBoost预测模型的explainer,之后利用这个explainer预测每个待预测患者的结果。explainer是为了将模型的结果可视化和可操作而设计的一个对接函数。
优选地,在上述步骤S1中,从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,进一步包括:
收集初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标的原始数据;
使用missForest函数对所述原始数据中的缺失值进行填补,因为原始数据里既有连续变量又有分类变量,所以采用了这个函数来修补缺失值,该函数基于随机森林算法基础来预测缺失值的数据并进行插补,而且可同时插补分类变量及连续变量,并利用OOB(out-of-bag)方法衡量插补误差;
使用LASSO回归函数从填补缺失值后的所述原始数据中筛选出至少两个拟纳入指标,具体地,首先确定惩罚因素λ的最佳值,然后根据所述惩罚因素λ的最佳值从填补缺失值后的所述原始数据中筛选出所述至少两个拟纳入指标,LASSO回归是一种惩罚函数,在函数开始运行的时候所有的因素对于预测结果都会产生影响,随着惩罚因素λ值的增加,所有因素对预测结果产生的影响逐渐减弱,有的因素逐渐不能影响结果。在λ增加到足够大时(可以理解为对所有因素的影响削弱到足够大时),所有因素对预测结果都没有影响了,也就是说,在某个特定的比较大的λ值时候对结果依然产生影响的变量,就是相对重要的变量,可作为拟纳入指标。这个特定的λ值是通过函数cv.glmnet()来获取的,该函数通过交叉检验,得到均方误差(Mean-Squared Error,MSE)随λ值的变化曲线,均方误差最小时的λ值即为筛选出的最佳λ值(λ=0.02845139,logλ=-3.559558);以及
对所述至少两个拟纳入指标进行相关性检验以得到与胃肠道间质瘤诊断最相关的所述检查数据,在本实施例中,经过上一步的筛选,从24个与GIST诊断可能相关的因素中确定了6个拟纳入指标,分别为:CT下肿物的长短径之比、肿物的平扫CT值、肿物是否均匀强化、内镜下肿物表面是否有溃疡、超声内镜下肿物内部是否存在液性暗区、以及患者初诊GIST时的外周血淋巴细胞计数。一般来讲,构建预测模型的因素之间相关性不宜过强,因此需要对拟纳入该模型的上述6个指标进行相关性分析。图2示出的是拟纳入指标之间的相关性检验的示意图。图2中右扇区表示拟纳入指标之间的正相关关系,左扇区表示拟纳入指标之间的负相关关系,灰色越深(饼图所占比例越大)提示相关性越强,可以看到这6个拟纳入指标之间的相关性并不强,从相关性上讲用于模型的构建是比较合适的。如果其中某2个拟纳入指标相关性过强,则需要删除其中一个拟纳入指标,或者将这2个相关性过强的拟纳入指标融合成1个。
优选地,在上述步骤S2中,选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型,进一步包括:
选取多个模型参数组合,具体地,设定如下参数值:
nrounds=50,75,100,200
colsample_bytree=1
min_child_weight=1
eta=0.01,0.1,0.3,1
gamma=0.5,0.25
subsample=0.5
max_depth=2,3
对以上可选数值进行组合,然后从中选择多个参数组合;
将每个模型参数组合逐一代入XGBoost初始模型并利用所述训练数据集分别训练XGBoost初始模型,然后进行交叉验证以确定最佳模型参数组合,经过上述过程最终选定max_depth=2、eta=0.01、gamma=0.25、nrounds=200为模型的最佳参数;以及
将上述模型最佳参数代入所述XGBoost初始模型以构建所述XGBoost预测模型。
在本发明中,虽然预测结果为“GIST”和“非GIST”两种结果,但是“非GIST”结果中实际包括异位胰腺、副脾、平滑肌瘤、脂肪瘤、神经内分泌瘤、淋巴瘤等多种疾病,而GIST是其中恶性程度最强、生物学行为最差的,所以在函数分类方法中选择objective="reg:linear"(线性二变量分类结局)进行模型构建,R语言代码如下:
param<-list(max_depth=2,eta=0.01,silent=1,nthread=2,gamma=0.25,objective="reg:linear",eva_metric="auc")
try_xgb_model<-xgb.train(param,data_train,nrounds=200)
优选地,在上述步骤S4中,将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,进一步包括:
将所述待预测患者的CT下肿物的长短径之比、肿物的平扫CT值、肿物是否均匀强化、内镜下肿物表面是否有溃疡、超声内镜下肿物内部是否存在液性暗区以及患者初诊GIST时的外周血淋巴细胞计数以数据框形式作为输入数据;以及
将所述输入数据输入到所述XGBoost预测模型中。
最后,XGBoost预测模型会自动输出预测结果。
下面以2个示例举例说明XGBoost预测模型的预测过程。
示例一:
创建数据框,并输入待预测患者A的上述6个指标。比如,输入他的肿瘤长短径之比为1.5454545,肿物平扫CT值为12,肿物在增强CT下均匀强化,超声内镜检查提示肿物表面无溃疡、内部有液性暗区,临床医师初步考虑为GIST时外周淋巴细胞计数为1.56(×109/L)。如下:datanewpatient<-data.frame(Long.Short.Diameter=1.5454545,CT.Value=12,Homogeneously.Enhanced=1,Ulcer=0,Liquid.Area=1,Lymphcte.Count=1.56)
接下来,将上述数据输入到XGBoost预测模型中并调整数据格式。经过模型的计算输出最终预测结果。如图3所示,可以看到计算出的患者预测值为0.373,比模型预测的衡量值0.666(intercept值)小,故模型输出结果考虑为“非GIST”。
示例二:
创建数据框,并输入待预测患者B的上述6个指标。比如,输入他的肿瘤长短径之比为1.053,肿物平扫CT值为33,肿物在增强CT下不均匀强化,超声内镜检查提示肿物表面无溃疡、内部有液性暗区,临床医师初步考虑为GIST时外周淋巴细胞计数为1.7(×109/L)。如下表:datanewpatient<-data.frame(Long.Short.Diameter=1.053,CT.Value=33,Homogeneously.Enhanced=0,Ulcer=0,Liquid.Area=1,Lymphcte.Count=1.7)
接下来,将上述数据输入到XGBoost预测模型中并调整数据格式。经过模型的计算输出最终预测结果。如图4所示,可以看到计算出的患者预测值为0.898,比模型预测的衡量值0.666(intercept值)大,故模型输出结果考虑为“GIST”。
基于上述目的,本发明还提出了一种基于XGBoost算法的胃肠道间质瘤预测系统的一个实施例。图5示出了该基于XGBoost算法的胃肠道间质瘤预测系统的示意性框图。如图5所示,该基于XGBoost算法的胃肠道间质瘤预测系统包括:
获取模块1,用于从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集;
模型构建模块2,用于利用预先选择的模型参数和所述训练数据集构建XGBoost预测模型,并利用所述验证数据集对所述XGBoost预测模型进行验证;以及
预测模块3,用于接收初步诊断为胃肠道间质瘤的待预测患者的数据,并利用所述XGBoost预测模型对其进行计算以输出预测结果。
需要说明的是,对系统实施例的理解可参考上述方法实施例的详细说明,这里不再予以赘述。所述系统实施例可以达到与之对应的前述方法实施例相同或者相类似的效果。
本发明上述实施例提供的胃肠道间质瘤预测方法和系统通过XGBoost算法建立了一个对初步诊断为胃肠道间质瘤的患者的相关指标进行进一步预测的机器学习模型。本发明并非像临床专科医师仅独立参考本专科检查结果进行诊断,而是纳入了全部可能对肿瘤诊断有影响的因素综合对患者的肿物进行预测,专科医师临床上仅参考本专科单一检查方法对胃肠道软组织肿物进行诊断的准确率在50%-60%左右,而本发明对临床上初步诊断已经考虑为“胃肠道间质瘤”的患者的相关指标进行进一步预测依然有72%的准确率,可信程度高,有效降低了误诊率。另外,本发明纳入的诊断因素都是患者在胃肠道间质瘤手术前本就应该完善的检查结果,患者无需再遭受额外的痛苦,也不会造成额外的经济损失。本发明的预测模型在未来可制作用户交互界面,如网页或小程序形式,无需医师的临床经验,只需输入纳入的患者检查结果,就可以输出准确率非常高的预测结果,非常便于使用。
需要说明的是,本领域普通技术人员可以理解实现上述实施例操作中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述操作的实施例的流程。所述计算机程序可以达到与之对应的前述操作实施例相同或者相类似的效果。
此外,应该明白的是,实现本发明的操作所采用的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,上述本发明实施例公开的顺序仅仅为了描述,不代表实施例的优劣。但是应当注意,以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子,在不背离权利要求限定的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
Claims (4)
1.一种基于XGBoost算法的胃肠道间质瘤预测方法,其特征在于,包括以下步骤:
从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集;
选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型;
利用所述验证数据集对所述XGBoost预测模型进行验证;以及
将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,经过模型计算输出预测结果;
所述从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,进一步包括:
收集初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标的原始数据;
使用missForest函数对所述原始数据中的缺失值进行填补;
使用LASSO回归函数从填补缺失值后的所述原始数据中筛选出至少两个拟纳入指标;以及
对所述至少两个拟纳入指标进行相关性检验以得到与胃肠道间质瘤诊断最相关的所述检查数据;
所述选择模型参数并利用所述模型参数和所述训练数据集构建XGBoost预测模型,进一步包括:
选取多个模型参数组合;
利用每个模型参数组合和所述训练数据集分别训练XGBoost初始模型后进行交叉验证以确定最佳模型参数组合作为所述模型参数;以及
将所述模型参数代入所述XGBoost初始模型以构建所述XGBoost预测模型;
所述检查数据包含CT下肿物的长短径之比、肿物的平扫CT值、肿物是否均匀强化、超声内镜下肿物表面是否有溃疡、超声内镜下肿物内部是否存在液性暗区以及初诊胃肠道间质瘤时的外周血淋巴细胞计数;
所述XGBoost预测模型最佳参数为:max_depth=2、eta=0.01、gamma=0.25、nrounds=200;
所述XGBoost预测模型预测的衡量值为0.666。
2.根据权利要求1所述的基于XGBoost算法的胃肠道间质瘤预测方法,其特征在于,所述使用LASSO回归函数从填补缺失值后的所述原始数据中筛选出至少两个拟纳入指标,进一步包括:
确定惩罚因素λ的最佳值;和
根据所述惩罚因素λ的最佳值从填补缺失值后的所述原始数据中筛选出所述至少两个拟纳入指标。
3.根据权利要求1所述的基于XGBoost算法的胃肠道间质瘤预测方法,其特征在于,所述将初步诊断为胃肠道间质瘤的待预测患者的数据输入到所述XGBoost预测模型中,进一步包括:
将所述待预测患者的数据以数据框形式录入作为输入数据;以及
将所述输入数据输入到所述XGBoost预测模型中。
4.一种基于XGBoost算法的胃肠道间质瘤预测系统,该预测系统用于实现权利要求1中所述的基于XGBoost算法的胃肠道间质瘤预测方法,其特征在于,包括:
获取模块,用于从初步诊断为胃肠道间质瘤的病例的增强CT、超声内镜及初诊时血液化验指标中获取与胃肠道间质瘤诊断最相关的检查数据,并将所述检查数据分为训练数据集和验证数据集;
模型构建模块,用于利用预先选择的模型参数和所述训练数据集构建XGBoost预测模型,并利用所述验证数据集对所述XGBoost预测模型进行验证;以及
预测模块,用于接收初步诊断为胃肠道间质瘤的待预测患者的数据,并利用所述XGBoost预测模型对其进行计算以输出预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667482.6A CN113284615B (zh) | 2021-06-16 | 2021-06-16 | 一种基于XGBoost算法的胃肠道间质瘤预测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667482.6A CN113284615B (zh) | 2021-06-16 | 2021-06-16 | 一种基于XGBoost算法的胃肠道间质瘤预测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113284615A CN113284615A (zh) | 2021-08-20 |
CN113284615B true CN113284615B (zh) | 2024-07-05 |
Family
ID=77284695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110667482.6A Active CN113284615B (zh) | 2021-06-16 | 2021-06-16 | 一种基于XGBoost算法的胃肠道间质瘤预测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113284615B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776962A (zh) * | 2018-04-11 | 2018-11-09 | 浙江师范大学 | 一种构建肺肿瘤良恶性预测模型的方法 |
CN110111888A (zh) * | 2019-05-16 | 2019-08-09 | 闻康集团股份有限公司 | 一种XGBoost疾病概率预测方法、系统及存储介质 |
CN111261282A (zh) * | 2020-01-21 | 2020-06-09 | 南京航空航天大学 | 一种基于机器学习的脓毒症早期预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3788546A1 (en) * | 2018-06-18 | 2021-03-10 | Google LLC | Method and system for improving cancer detection using deep learning |
-
2021
- 2021-06-16 CN CN202110667482.6A patent/CN113284615B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776962A (zh) * | 2018-04-11 | 2018-11-09 | 浙江师范大学 | 一种构建肺肿瘤良恶性预测模型的方法 |
CN110111888A (zh) * | 2019-05-16 | 2019-08-09 | 闻康集团股份有限公司 | 一种XGBoost疾病概率预测方法、系统及存储介质 |
CN111261282A (zh) * | 2020-01-21 | 2020-06-09 | 南京航空航天大学 | 一种基于机器学习的脓毒症早期预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113284615A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yildirim et al. | Deep learning model for automated kidney stone detection using coronal CT images | |
Nelson et al. | Factors associated with rates of false-positive and false-negative results from digital mammography screening: an analysis of registry data | |
US20200085501A1 (en) | Systems and methods for treatment planning based on plaque progression and regression curves | |
JP5785184B2 (ja) | 画像の医療データ及び非画像の医療データの両者の連続的な記憶及び統合された分析のための診断技術 | |
CN111127467B (zh) | 图像量化方法、计算机设备和存储介质 | |
JP2007524461A (ja) | 乳房撮像の自動診断及び決定支援システム及び方法 | |
US11664127B2 (en) | Medical information processing apparatus, medical information processing method, and electronic medical record system | |
Kabrhel et al. | The contribution of the subjective component of the Canadian Pulmonary Embolism Score to the overall score in emergency department patients | |
US10568551B2 (en) | Hearing diagnosis device and hearing diagnosis method | |
CN112183572A (zh) | 一种生成预测肺炎严重程度的预测模型的方法及装置 | |
Hu et al. | Association of early adulthood 25-year blood pressure trajectories with cerebral lesions and brain structure in midlife | |
CN113284615B (zh) | 一种基于XGBoost算法的胃肠道间质瘤预测方法和系统 | |
Ribeiro et al. | Oscillation mechanics, integer and fractional respiratory modeling in COPD: effect of obstruction severity | |
CN115517682B (zh) | 基于胃肠电信号的认知功能障碍预测系统及构建方法 | |
US20080021302A1 (en) | Method and device for evaluation of an image and/or of a time sequence of images of tissue or tissue samples | |
CN114613498B (zh) | 一种基于机器学习的辅助mdt临床决策方法、系统及设备 | |
TWI774982B (zh) | 醫療資源整合系統、計算機裝置及醫療資源整合方法 | |
CN115602327A (zh) | 一种肺结节发生肺癌风险的预测模型的构建方法 | |
US11955243B2 (en) | Using unstructured temporal medical data for disease prediction | |
US20040030672A1 (en) | Dynamic health metric reporting method and system | |
Yasin et al. | Development and validation of a diagnostic model for differentiating tuberculous spondylitis from brucellar spondylitis using machine learning: A retrospective cohort study | |
CN110675930A (zh) | 一种针对非小细胞肺癌的决策方法、系统及装置 | |
KR20200073308A (ko) | 요관 결석의 자연 배출에 대한 예측 값을 제공하기 위한 방법 및 장치 | |
Jaganath | An overview of predictive scoring systems used in ICU | |
Ingabire et al. | Canonical Fuzzy Modeling of Disease State |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |